このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200101となっている論文です。

PDF登録状況(公開日: 20200101)

TitleAuthorsAbstract論文公表日・翻訳日
# TextScanner:ロバストなシーンテキスト認識のための文字順読み出し

TextScanner: Reading Characters in Order for Robust Scene Text Recognition ( http://arxiv.org/abs/1912.12422v2 )

ライセンス: Link先を確認
Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai and Cong Yao(参考訳) ディープラーニングと大量のデータによって駆動されるシーンテキスト認識は,近年急速に進化している。 以前は、RNN-attention based methodがこの分野を支配していたが、特定の状況ではtextit{attention drift} の問題に悩まされていた。 近年、セグメンテーションに基づくアルゴリズムは、異なる形式のテキスト(水平、指向、曲線)を認識するのに有効であることが証明されている。 しかし、これらの方法は、セグメンテーションマップで操作されるしきい値処理に大きく依存するため、スプリアス文字を生成するか、本物の文字を見逃す可能性がある。 そこで本稿では,これらの課題に対処するために,テキスト認識のための代替手法としてtextscannerを提案する。 TextScannerには3つの特徴がある: (1) 基本的には、文字クラス、位置、順序の画素単位のマルチチャネルセグメンテーションマップを生成するため、セグメンテーションファミリーに属する; 2) RNNアテンションベースの手法と同様に、コンテキストモデリングにもRNNを採用し、(3) 文字の位置とクラスの並列予測を実行し、文字が正しい順序で書き起こされることを保証する。 標準ベンチマークデータセットの実験は、TextScannerが最先端のメソッドより優れていることを示している。 さらに、TextScannerは、より難しい漢文の文字認識とターゲット文字との整合性が優れていることを示す。

Driven by deep learning and the large volume of data, scene text recognition has evolved rapidly in recent years. Formerly, RNN-attention based methods have dominated this field, but suffer from the problem of \textit{attention drift} in certain situations. Lately, semantic segmentation based algorithms have proven effective at recognizing text of different forms (horizontal, oriented and curved). However, these methods may produce spurious characters or miss genuine characters, as they rely heavily on a thresholding procedure operated on segmentation maps. To tackle these challenges, we propose in this paper an alternative approach, called TextScanner, for scene text recognition. TextScanner bears three characteristics: (1) Basically, it belongs to the semantic segmentation family, as it generates pixel-wise, multi-channel segmentation maps for character class, position and order; (2) Meanwhile, akin to RNN-attention based methods, it also adopts RNN for context modeling; (3) Moreover, it performs paralleled prediction for character position and class, and ensures that characters are transcripted in correct order. The experiments on standard benchmark datasets demonstrate that TextScanner outperforms the state-of-the-art methods. Moreover, TextScanner shows its superiority in recognizing more difficult text such Chinese transcripts and aligning with target characters.
翻訳日:2023-01-17 12:36:55 公開日:2020-01-01
# shmoopコーパス:疎結合な要約を持つストーリーのデータセット

The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries ( http://arxiv.org/abs/1912.13082v2 )

ライセンス: Link先を確認
Atef Chaudhury, Makarand Tapaswi, Seung Wook Kim, Sanja Fidler(参考訳) 大量のテキストを読み、長い範囲の依存関係に従う必要があるため、ストーリーを理解することは機械にとって難しい問題である。 本稿では,個々の章(7,234章)の詳細な複数パラグラフ要約と組み合わせた231話のデータセットであるshmoopコーパスについて紹介する。 コーパスから、ストーリー理解のためのベンチマークとして、クローズ形式の質問応答や抽象要約の簡易形式を含む、一般的なnlpタスクのセットを構築する。 次に、時間的アライメントは、学習に基づく手法がこれらのタスクに大きな改善をもたらすことができるという強力な監視信号を提供することを示す。 このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすくするための重要な足場となると信じています。

Understanding stories is a challenging reading comprehension problem for machines as it requires reading a large volume of text and following long-range dependencies. In this paper, we introduce the Shmoop Corpus: a dataset of 231 stories that are paired with detailed multi-paragraph summaries for each individual chapter (7,234 chapters), where the summary is chronologically aligned with respect to the story chapter. From the corpus, we construct a set of common NLP tasks, including Cloze-form question answering and a simplified form of abstractive summarization, as benchmarks for reading comprehension on stories. We then show that the chronological alignment provides a strong supervisory signal that learning-based methods can exploit leading to significant improvements on these tasks. We believe that the unique structure of this corpus provides an important foothold towards making machine story comprehension more approachable.
翻訳日:2023-01-17 01:56:13 公開日:2020-01-01
# grabnet: オブジェクト把握のための大規模クラスタ化および高密度アノテートデータセット

GraspNet: A Large-Scale Clustered and Densely Annotated Dataset for Object Grasping ( http://arxiv.org/abs/1912.13470v2 )

ライセンス: Link先を確認
Hao-Shu Fang, Chenxi Wang, Minghao Gou, Cewu Lu(参考訳) オブジェクトの把握は多くのアプリケーションにとって重要であり、またコンピュータビジョンの問題でもある。 しかし, クラスター化場面では, トレーニングデータの不足や評価ベンチマークの欠如が問題となっている。 本研究では,統合評価システムを用いた大規模把持ポーズ検出データセットを提案する。 私たちのデータセットには、3億7000万以上の把持ポーズを持つ87,040のrgbdイメージが含まれています。 一方,本評価システムでは,グラベリングが成功したか否かを解析的計算によって直接報告する。 我々は,データセットと評価システムが実世界の実験と合致することを示すために,広範な実験を行う。 私たちのデータセット、ソースコード、モデルは公開されます。

Object grasping is critical for many applications, which is also a challenging computer vision problem. However, for the clustered scene, current researches suffer from the problems of insufficient training data and the lacking of evaluation benchmarks. In this work, we contribute a large-scale grasp pose detection dataset with a unified evaluation system. Our dataset contains 87,040 RGBD images with over 370 million grasp poses. Meanwhile, our evaluation system directly reports whether a grasping is successful or not by analytic computation, which is able to evaluate any kind of grasp poses without exhausted labeling pose ground-truth. We conduct extensive experiments to show that our dataset and evaluation system can align well with real-world experiments. Our dataset, source code and models will be made publicly available.
翻訳日:2023-01-16 21:19:53 公開日:2020-01-01
# 三重量子ドットによる熱流量分布の高精度化

Accurately heat flow distribution based on a triple quantum dot ( http://arxiv.org/abs/2001.00200v1 )

ライセンス: Link先を確認
Yanchao Zhang(参考訳) 理論上は, 2つの異なる流路に沿った熱の流れを任意に分離する熱流アロケータとしてクーロンブロック法において, 3つの終端三重量子ドットを用いた簡易な構成を提案する。 エネルギー依存トンネル率の比を直接調整することにより, 一定出力熱流量比を幅広いシステムパラメータで得ることができ, 出力熱流量の任意の比, 整数比あるいは分数率であっても得られることを示す。

We theoretically propose a simple setup based on a three terminal triple quantum dot in the Coulomb blockade regime as a heat flow allocator to spatially separate heat flows along two different channels at arbitrary proportion. We show that a constant output heat flow ratio can be obtained in a wide range of system parameters and any ratio of the output heat flow, whether it is an integer ratio or a fractional ratio, can be obtained by directly adjusting the ratio of the energy-dependent tunneling rate.
翻訳日:2023-01-16 09:48:00 公開日:2020-01-01
# 量子ウォーク: 初めて検出された遷移時間

Quantum walks: the first detected transition time ( http://arxiv.org/abs/2001.00231v1 )

ライセンス: Link先を確認
Q. Liu, R. Yin, K. Ziegler, and E. Barkai(参考訳) 固定レートが1/\tau$の連続射影測定でグラフ上で進化する粒子の量子第一検出問題を考察する。 最初の状態 $|\psi_{\rm in}\rangle$ が検出された状態 $|\psi_{\rm d}\rangle$ に直交する有限次元ヒルベルト空間における量子ウォークに対して、平均第一検出遷移時間の一般式を得る。 本研究では,単位円板上の古典電荷の場の理論に問題をマッピングすることにより,検出確率が不連続な値の低下を示す平均遷移時間の変化に着目した。 平均遷移時間のブローアップを示すモデルの臨界パラメータに近く、平均遷移時間に対する単純な表現が得られる。 |\psi_{\rm in}\rangle = |\psi_{\rm d}\rangle$ に対応する戻り時間のゆらぎの以前の結果を用いて、平均遷移時間が戻り時間のゆらぎに比例していることがアインシュタイン関係を想起させる。

We consider the quantum first detection problem for a particle evolving on a graph under repeated projective measurements with fixed rate $1/\tau$. A general formula for the mean first detected transition time is obtained for a quantum walk in a finite-dimensional Hilbert space where the initial state $|\psi_{\rm in}\rangle$ of the walker is orthogonal to the detected state $|\psi_{\rm d}\rangle$. We focus on diverging mean transition times, where the total detection probability exhibits a discontinuous drop of its value, by mapping the problem onto a theory of fields of classical charges located on the unit disk. Close to the critical parameter of the model, which exhibits a blow-up of the mean transition time, we get simple expressions for the mean transition time. Using previous results on the fluctuations of the return time, corresponding to $|\psi_{\rm in}\rangle = |\psi_{\rm d}\rangle$, we find close to these critical parameters that the mean transition time is proportional to the fluctuations of the return time, an expression reminiscent of the Einstein relation.
翻訳日:2023-01-16 09:47:51 公開日:2020-01-01
# 古典力学における(量子)測定問題

The (Quantum) Measurement Problem in Classical Mechanics ( http://arxiv.org/abs/2001.00241v1 )

ライセンス: Link先を確認
Christian de Ronde(参考訳) 本研究では20世紀の実証主義的物理学の再確立と量子力学の有名な測定問題との深い関係を分析する。 これは量子論の「明らかな」問題や「自明な」問題ではなく、むしろ正統的な量子形式論に適用した場合の物理理論に対する実証実証主義的理解の直接的な結果であることを示す。 反対に、アインシュタイン、ハイゼンベルク、パウリの著作にさかのぼる物理的「理論」と「測度」の両方の表現的実在論的な説明について論じる。 ボーアの「測定」の定義について批判的な分析を行った後、我々はボアの一般的な方法論にコミットする、いくつかの現代のQMアプローチ(デコヒーレンス、モーダル解釈、QBismなど)について議論を続ける。 最後に、量子測定問題を作成するための(経験実証主義的な)前提条件の中で存在する多くの矛盾を明らかにするために、これらの同じ前提セットを通して、古典力学の場合において完全に類似したパラドックスを導出するのは容易であることを示す。

In this work we analyze the deep link between the 20th Century positivist re-foundation of physics and the famous measurement problem of quantum mechanics. We attempt to show why this is not an "obvious" nor "self evident" problem for the theory of quanta, but rather a direct consequence of the empirical-positivist understanding of physical theories when applied to the orthodox quantum formalism. In contraposition, we discuss a representational realist account of both physical 'theories' and 'measurement' which goes back to the works of Einstein, Heisenberg and Pauli. After presenting a critical analysis of Bohr's definitions of 'measurement' we continue to discuss the way in which several contemporary approaches to QM --such as decoherence, modal interpretations and QBism-- remain committed to Bohr's general methodology. Finally, in order to expose the many inconsistencies present within the (empirical-positivist) presuppositions responsible for creating the quantum measurement problem, we show how through these same set of presuppositions it is easy to derive a completely analogous paradox for the case of classical mechanics.
翻訳日:2023-01-16 09:47:29 公開日:2020-01-01
# Rhytidectomy における前頭輪の皮膚伸展のシミュレーション

Simulation of Skin Stretching around the Forehead Wrinkles in Rhytidectomy ( http://arxiv.org/abs/2001.00149v1 )

ライセンス: Link先を確認
Ping Zhou, Shuo Huang, Qiang Chen, Siyuan He, Guochao Cai(参考訳) 目的: 額のしわを伸ばす皮膚は理学療法において重要な方法である。 手術効果を評価するには適切なパラメータが必要となる。 本稿では,パラメータを求めるためのシミュレーション手法を提案する。 方法: 50 {\mu}mの解像度を持つ3次元点雲データを用いた。 まず, 前額の平滑な支持輪郭をbスプライン補間と外挿により生成し, 破砕帯の変形を拘束した。 次に, vfife (vector form intrinsic finite element) アルゴリズムに基づき, 伸展過程における前額皮の変形についてmatlabを用いてシミュレーションを行った。 最後に,前額皮膚の応力分布と残留しわを用いて手術効果を評価した。 結果: 前頭しわが有限伸張した場合の残留しわは類似するが,応力分布は大きく変化する。 以上のことから,皮膚のストレス分布は手術効果の評価に有効であり,前額のしわの伸展が容易であり,皮膚損傷につながる可能性が示唆された。 結論: このシミュレーション手法は前額のしわ伸展術後のストレス分布および残留しのしわを予測でき, 手術過程の制御や皮膚障害のリスクの軽減に有用である。

Objective: Skin stretching around the forehead wrinkles is an important method in rhytidectomy. Proper parameters are required to evaluate the surgical effect. In this paper, a simulation method was proposed to obtain the parameters. Methods: Three-dimensional point cloud data with a resolution of 50 {\mu}m were employed. First, a smooth supporting contour under the wrinkled forehead was generated via b-spline interpolation and extrapolation to constrain the deformation of the wrinkled zone. Then, based on the vector formed intrinsic finite element (VFIFE) algorithm, the simulation was implemented in Matlab for the deformation of wrinkled forehead skin in the stretching process. Finally, the stress distribution and the residual wrinkles of forehead skin were employed to evaluate the surgical effect. Results: Although the residual wrinkles are similar when forehead wrinkles are finitely stretched, their stress distribution changes greatly. This indicates that the stress distribution in the skin is effective to evaluate the surgical effect, and the forehead wrinkles are easily to be overstretched, which may lead to potential skin injuries. Conclusion: The simulation method can predict stress distribution and residual wrinkles after forehead wrinkle stretching surgery, which can be potentially used to control the surgical process and further reduce risks of skin injury.
翻訳日:2023-01-16 09:46:49 公開日:2020-01-01
# コアコラプス超新星の重力波探索と深層学習分類

Core-Collapse Supernova Gravitational-Wave Search and Deep Learning Classification ( http://arxiv.org/abs/2001.00279v1 )

ライセンス: Link先を確認
Alberto Iess, Elena Cuoco, Filip Morawski and Jade Powell(参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)とウェーブレット検出フィルタ(WDF)というイベントトリガ発生器を組み合わせた、コア崩壊型超新星爆発(CCSN)による重力波の探索・分類手順について述べる。 時系列重力波データを入力とする1次元cnn探索と、データの時間周波数表現を入力とする2次元cnn探索の両方を用いる。 1次元CNN分類と2次元CNN分類の精度をテストするために、ニュートリノ駆動コア崩壊の最近の流体力学シミュレーションから、ヴァーゴ干渉計と計画されたアインシュタイン望遠鏡感度曲線による擬似ガウス色雑音へのCCSN波形を加える。 1-dと2-dの両方のcnnパイプラインで95%以上の分類精度が得られた。 機械学習 CCSN 研究ではじめて、検出ノイズアーティファクトによって生成された誤報に対して、我々の手法の堅牢性をテストするために、短周期検出ノイズトランジェントをデータに追加した。 さらに,CNNは異なるタイプのCCSN波形モデルを区別できることを示す。

We describe a search and classification procedure for gravitational waves emitted by core-collapse supernova (CCSN) explosions, using a convolutional neural network (CNN) combined with an event trigger generator known as Wavelet Detection Filter (WDF). We employ both a 1-D CNN search using time series gravitational-wave data as input, and a 2-D CNN search with time-frequency representation of the data as input. To test the accuracies of our 1-D and 2-D CNN classification, we add CCSN waveforms from the most recent hydrodynamical simulations of neutrino-driven core-collapse to simulated Gaussian colored noise with the Virgo interferometer and the planned Einstein Telescope sensitivity curve. We find classification accuracies, for a single detector, of over 95% for both 1-D and 2-D CNN pipelines. For the first time in machine learning CCSN studies, we add short duration detector noise transients to our data to test the robustness of our method against false alarms created by detector noise artifacts. Further to this, we show that the CNN can distinguish between different types of CCSN waveform models.
翻訳日:2023-01-16 09:46:29 公開日:2020-01-01
# 再構成Foldy-Wouthuysen変換による球面スカラーおよびベクトルポテンシャルを持つディラック方程式の非相対論的展開

Non-relativistic expansion of Dirac equation with spherical scalar and vector potentials by reconstituted Foldy-Wouthuysen transformation ( http://arxiv.org/abs/2001.00117v1 )

ライセンス: Link先を確認
Yixin Guo, Haozhao Liang(参考訳) 再構成類似性再正規化群法に着想を得て, 再構成FW変換を提案する。 共変密度汎関数理論におけるディラック方程式に適用すると、再構成されたFW変換は単一粒子エネルギーのスペクトルの高速収束を示す。 この方法により得られた単粒子密度と単粒子スカラー密度についても検討した。 特に,schr\"odingerとdiracピクチャー間のピクチャーチェンジエラーによる密度に対する相対論的補正について詳細に論じた。 これらの相対論的補正を考慮すると、単粒子密度と単粒子スカラー密度はどちらもその正確な値とほぼ同一である。

Inspired by the reconstituted similarity renormalization group method, the reconstituted Foldy-Wouthuysen (FW) transformation is proposed. Applied to the Dirac equation in the covariant density functional theory, the reconstituted FW transformation shows a fast convergence of the spectrum of the single-particle energy. The single-particle densities and the single-particle scalar densities obtained by this new method are also investigated. In particular, the relativistic corrections to the densities from the picture-change error between the Schr\"odinger and Dirac pictures are discussed in detail. Taking these relativistic corrections into account, both the single-particle densities and the single-particle scalar densities are almost identical to their exact values.
翻訳日:2023-01-16 09:46:08 公開日:2020-01-01
# 量子パーコレーションダイナミクスの直接観察

Direct Observation of Quantum Percolation Dynamics ( http://arxiv.org/abs/2001.00268v1 )

ライセンス: Link先を確認
Zhen Feng, Bing-Hong Wu, Hao Tang, Lu-Feng Qiao, Xiao-Wei Wang, Xiao-Yun Xu, Zhi-Qiang Jiao, Jun Gao, Xian-Min Jin(参考訳) 幾何学的文脈における相転移の臨界挙動を記述するパーコレーションは、自然と社会のネットワークを基本モデルとして幅広い研究を促す。 量子イントリンシック干渉とトンネルの導入は、より興味深い現象とユニークな特徴を持つ量子状態へのパーコレーションをもたらすが、まだ実験的に検討されていない。 本稿では,このような大規模多孔質構造をフェムト秒レーザー直接書き込み技術を用いてフォトニックチップにマッピングすることで,ヘキサゴナルパーコレーション格子内の量子輸送を実験的に実証する。 最大1,600個の導波路を持つプロトタイプレーザーによる格子では、80%の量子パーコレーションしきい値が観察され、これは従来の63%よりもかなり大きい。 また,局所化パラメータによる空間閉じ込めについて検討し,職業確率の低下に伴う弾道性から拡散性への遷移を示す。 量子パーコレーションの直接観測は、物質、量子輸送、幾何学的クエンチング、障害と局所化、および量子技術への応用の理解を深める可能性がある。

Percolation, describing critical behaviors of phase transition in a geometrical context, prompts wide investigations in natural and social networks as a fundamental model. The introduction of quantum-intrinsic interference and tunneling brings percolation into quantum regime with more fascinating phenomena and unique features, which, however, hasn't been experimentally explored yet. Here we present an experimental demonstration of quantum transport in hexagonal percolation lattices by successfully mapping such large-scale porous structures into a photonic chip using femtosecond laser direct writing techniques. A quantum percolation threshold of 80% is observed in the prototyped laser-written lattices with up to 1,600 waveguides, which is significantly larger than the classical counterpart of 63%. We also investigate the spatial confinement by localization parameters and exhibit the transition from ballistic to diffusive propagation with the decrease of the occupation probability. Direct observation of quantum percolation may deepen the understanding of the relation among materials, quantum transport, geometric quenching, disorder and localization, and inspire applications for quantum technologies.
翻訳日:2023-01-16 09:45:13 公開日:2020-01-01
# ショットノイズ限界を超える位相感度の古典的入力と測定

Classical Inputs and Measurements Enable Phase Sensitivity beyond the Shot-Noise Limit ( http://arxiv.org/abs/2001.00160v1 )

ライセンス: Link先を確認
Jian-Dong Zhang, Zi-Jing Zhang, Long-Zhu Cen, Jun-Yan Hu, Yuan Zhao(参考訳) コヒーレント状態に基づく位相推定は、エキゾチックな量子状態と比較してコヒーレント状態がデコヒーレンスに頑健であるため、精密測定の分野における実りあるテストベッドである。 caves (https://doi.org/10.1103/physrevd.23.1693 , phys.com) による独創的な研究。 d 23 1693 (1981) は、コヒーレント状態が供給されるu(2)干渉計の位相感度はショットノイズ限界(snl)によって制限されると述べた。 このレターでは、この境界が決定的な感度限界ではなく、測定が外部位相参照を含む場合に破られることを実証する。 SNLは$\sqrt{2}$の係数で超えることができ、その妥当性は量子フィッシャー情報の計算によって支持される。 さらに、SNLを超える感度を持つ1モードガウス入力についても論じる。 我々の研究は、特に測定された試料が大きな損失のある環境に浸かったり、明るい照明に耐えられる場合に、多くの気象シナリオに対する潜在的な応用を示す。

Coherent-state-based phase estimation is a fruitful testbed for the field of precision measurements since coherent states are robust to decoherence when compared with exotic quantum states. The seminal work done by Caves (https://doi.org/10.1103/PhysRevD.23.1693 , Phys. Rev. D 23, 1693 (1981)) stated that the phase sensitivity of a U(2) interferometer fed with a coherent state is limited by the shot-noise limit (SNL). In this Letter, we demonstrate that this bound is not conclusive sensitivity limit and can be broken when the measurement includes an external phase reference. The SNL can be surpassed by a factor of $\sqrt{2}$ and the validity is supported through the calculation of quantum Fisher information. Additionally, we discuss other single-mode Gaussian inputs of which sensitivities are beyond the SNL. Our work shows potential applications for many metological scenarios, particularly when the measured samples immersed in great lossy environments or can withstand bright illumination.
翻訳日:2023-01-16 09:38:52 公開日:2020-01-01
# 中央値フィルタと位相整合性に基づく全変動分別法

A Total Variation Denoising Method Based on Median Filter and Phase Consistency ( http://arxiv.org/abs/2001.00150v1 )

ライセンス: Link先を確認
Shuo Huang, Suiren Wan(参考訳) 画像雑音抑圧には総変動法が広く用いられている。 しかし,この手法は画像の詳細を損なうことが容易であり,反復時間などのパラメータにも敏感である。 本研究では, 位相一致度に基づく拡散速度調整器と, mpc-tv法と呼ばれる中央値フィルタと位相整合境界の融合フィルタを用いて, 総変動法を改良した。 実験の結果,mpc-tv法はノイズ抑制,特にスペックルノイズの除去に有効であること,また,異なるばらつきを有する雑音に対するtv法の反復時間のロバスト性も向上できることがわかった。

The total variation method is widely used in image noise suppression. However, this method is easy to cause the loss of image details, and it is also sensitive to parameters such as iteration time. In this work, the total variation method has been modified using a diffusion rate adjuster based on the phase congruency and a fusion filter of median filter and phase consistency boundary, which is called the MPC-TV method. Experimental results indicate that MPC-TV method is effective in noise suppression, especially for the removing of speckle noise, and it can also improve the robustness of iteration time of TV method on noise with different variance.
翻訳日:2023-01-16 09:38:07 公開日:2020-01-01
# Vertebrae Labeling のための積分回帰を用いた残差ブロック型マルチラベル分類と局所化ネットワーク

Residual Block-based Multi-Label Classification and Localization Network with Integral Regression for Vertebrae Labeling ( http://arxiv.org/abs/2001.00170v1 )

ライセンス: Link先を確認
Chunli Qin, Demin Yao, Han Zhuang, Hui Wang, Yonghong Shi, and Zhijian Song(参考訳) CTスキャンにおける脊椎の正確な同定と局在化は、臨床脊椎診断および治療のための重要かつ標準的な前処理ステップである。 既存の手法は主に複数のニューラルネットワークの統合に基づいており、その多くはガウス熱マップを使用して椎骨の遠心部を同定している。 しかし、熱地図を用いて椎骨のセントロイド座標を得る過程は区別できないため、脊椎を直接分類するネットワークを訓練することは不可能である。 そこで本研究では,CTスキャンにおける椎骨座標のエンドツーエンド差分訓練のために,頑健で正確な自動椎骨ラベル付けアルゴリズムを提案する。 まず,マルチスケールな特徴を捉えつつ,残差モジュールとスキップ接続を利用してマルチレベル特徴を融合させる,新しい残差ベースマルチラベル分類・ローカライズネットワークを開発した。 第二に、座標を見つける過程が微分不可能であり、空間構造が破壊不可能な問題を解くために、局所化ネットワークにおいて積分回帰モジュールを用いる。 熱マップ表現と直接回帰座標の利点を組み合わせることでエンドツーエンドのトレーニングを実現し、熱マップに基づいた医用画像のどのキーポイント検出方法とも互換性がある。 最後に、双方向長期記憶(Bi-LSTM)を用いて、長い文脈情報の学習を強化し、分類性能を向上させる脊椎の多ラベル分類を行う。 提案手法は難解なデータセット上で評価され,その結果は最先端の手法(局所化誤差<3mm)よりも有意に優れている。

Accurate identification and localization of the vertebrae in CT scans is a critical and standard preprocessing step for clinical spinal diagnosis and treatment. Existing methods are mainly based on the integration of multiple neural networks, and most of them use the Gaussian heat map to locate the vertebrae's centroid. However, the process of obtaining the vertebrae's centroid coordinates using heat maps is non-differentiable, so it is impossible to train the network to label the vertebrae directly. Therefore, for end-to-end differential training of vertebra coordinates on CT scans, a robust and accurate automatic vertebral labeling algorithm is proposed in this study. Firstly, a novel residual-based multi-label classification and localization network is developed, which can capture multi-scale features, but also utilize the residual module and skip connection to fuse the multi-level features. Secondly, to solve the problem that the process of finding coordinates is non-differentiable and the spatial structure is not destructible, integral regression module is used in the localization network. It combines the advantages of heat map representation and direct regression coordinates to achieve end-to-end training, and can be compatible with any key point detection methods of medical image based on heat map. Finally, multi-label classification of vertebrae is carried out, which use bidirectional long short term memory (Bi-LSTM) to enhance the learning of long contextual information to improve the classification performance. The proposed method is evaluated on a challenging dataset and the results are significantly better than the state-of-the-art methods (mean localization error <3mm).
翻訳日:2023-01-16 09:37:55 公開日:2020-01-01
# 深部ニューラルネットワークに基づく自由形誘電体準曲面モデリング手法

A Freeform Dielectric Metasurface Modeling Approach Based on Deep Neural Networks ( http://arxiv.org/abs/2001.00121v1 )

ライセンス: Link先を確認
Sensong An, Bowen Zheng, Mikhail Y. Shalaginov, Hong Tang, Hang Li, Li Zhou, Jun Ding, Anuradha Murthy Agarwal, Clara Rivero-Baleine, Myungkoo Kang, Kathleen A. Richardson, Tian Gu, Juejun Hu, Clayton Fowler and Hualiang Zhang(参考訳) メタサーフェスは、かさばる幾何学的光学装置に比べてコンパクトなまま光波面を形成する有望なポテンシャルを示している。 準曲面の基本構造であるメタ原子の設計は、目標電磁応答を達成するための試行錯誤法に依存している。 このプロセスは、通常巨大な計算資源を必要とする物理パラメータと幾何学パラメータの異なる膨大な量のメタ原子設計の特徴を含む。 本稿では,深層学習に基づくメタサイト/メタ原子モデリング手法を導入し,精度を保ちながらキャラクタリゼーション時間を大幅に短縮する。 畳み込みニューラルネットワーク(cnn)構造に基づいて,提案する深層学習ネットワークは,自由形式の2dパターンと格子サイズ,材料屈折率,厚さの異なるメタ原子をモデル化することができる。 さらに本手法では,ミリ秒の時間スケールでメタ原子の広帯域応答を予測できることを特徴とし,高速メタ原子/メタ表面オンデマンド設計や最適化などのアプリケーションにとって魅力的な手法である。

Metasurfaces have shown promising potentials in shaping optical wavefronts while remaining compact compared to bulky geometric optics devices. Design of meta-atoms, the fundamental building blocks of metasurfaces, relies on trial-and-error method to achieve target electromagnetic responses. This process includes the characterization of an enormous amount of different meta-atom designs with different physical and geometric parameters, which normally demands huge computational resources. In this paper, a deep learning-based metasurface/meta-atom modeling approach is introduced to significantly reduce the characterization time while maintaining accuracy. Based on a convolutional neural network (CNN) structure, the proposed deep learning network is able to model meta-atoms with free-form 2D patterns and different lattice sizes, material refractive indexes and thicknesses. Moreover, the presented approach features the capability to predict meta-atoms' wide spectrum responses in the timescale of milliseconds, which makes it attractive for applications such as fast meta-atom/metasurface on-demand designs and optimizations.
翻訳日:2023-01-16 09:37:00 公開日:2020-01-01
# Inf-VAE: ホモフィリー統合のための変分オートエンコーダフレームワークと拡散予測への影響

Inf-VAE: A Variational Autoencoder Framework to Integrate Homophily and Influence in Diffusion Prediction ( http://arxiv.org/abs/2001.00132v1 )

ライセンス: Link先を確認
Aravind Sankar, Xinyang Zhang, Adit Krishnan, Jiawei Han(参考訳) 近年、twitter、facebookなどのソーシャルメディアプラットフォームで拡散する情報の理解と予測に多大な関心が寄せられている。 既存の拡散予測手法は, 拡散カスケードを地域社会に投影することで, 影響のあるユーザの逐次秩序を生かすものである。 しかし、これはどのカスケードにも明示的に現れないグローバルな社会構造を捉えることに失敗し、歴史的な活動が制限された非アクティブユーザーのパフォーマンスが低下する結果となった。 本稿では,近距離保存型ソーシャルおよび位置符号化型潜伏変数を通じて,ホモフィリと影響を共同で埋め込む新しい変分オートエンコーダフレームワーク(Inf-VAE)を提案する。 inf-vaeは、強力なグラフニューラルネットワークアーキテクチャを使用して、ユーザの社会的接続を選択的に活用する社会的変数を学習する。 Inf-VAEは、シードユーザのアクティベーションのシーケンスを前提として、社会的および時間的変数を共同で参加して、すべての影響のあるユーザの集合を予測する、新しい表現力のある協調型融合ネットワークを使用する。 Digg、Weibo、Stack-Exchangesなど、複数の実世界のソーシャルネットワークデータセットに対する実験結果は、最先端の拡散予測モデルよりもInf-VAEにとって大きな増加(22% MAP@10)を示しました。

Recent years have witnessed tremendous interest in understanding and predicting information spread on social media platforms such as Twitter, Facebook, etc. Existing diffusion prediction methods primarily exploit the sequential order of influenced users by projecting diffusion cascades onto their local social neighborhoods. However, this fails to capture global social structures that do not explicitly manifest in any of the cascades, resulting in poor performance for inactive users with limited historical activities. In this paper, we present a novel variational autoencoder framework (Inf-VAE) to jointly embed homophily and influence through proximity-preserving social and position-encoded temporal latent variables. To model social homophily, Inf-VAE utilizes powerful graph neural network architectures to learn social variables that selectively exploit the social connections of users. Given a sequence of seed user activations, Inf-VAE uses a novel expressive co-attentive fusion network that jointly attends over their social and temporal variables to predict the set of all influenced users. Our experimental results on multiple real-world social network datasets, including Digg, Weibo, and Stack-Exchanges demonstrate significant gains (22% MAP@10) for Inf-VAE over state-of-the-art diffusion prediction models; we achieve massive gains for users with sparse activities, and users who lack direct social neighbors in seed sets.
翻訳日:2023-01-16 09:36:44 公開日:2020-01-01
# インスタンスセグメンテーションと注意投票を用いたマルチレーン検出

Multi-lane Detection Using Instance Segmentation and Attentive Voting ( http://arxiv.org/abs/2001.00236v1 )

ライセンス: Link先を確認
Donghoon Chang (1), Vinjohn Chirakkal (2), Shubham Goswami (3), Munawar Hasan (1), Taekwon Jung (2), Jinkeon Kang (1,3), Seok-Cheol Kee (4), Dongkyu Lee (5), Ajit Pratap Singh (1) ((1) Department of Computer Science, IIIT-Delhi, India, (2) Springcloud Inc., Korea, (3) Center for Information Security Technologies (CIST), Korea University, Korea, (4) Smart Car Research Center, Chungbuk National University, Korea, (5) Department of Smart Car Engineering, Chungbuk National University, Korea)(参考訳) 自動運転は先進的な産業研究分野の一つになりつつある。 そのため、多くの自動車メーカーが半自動運転ソリューションを考案している。 これらのソリューションの中で、車線検出は自動運転車の意思決定プロセスにおいて重要な役割を果たすドライバー・アシストの1つである。 道路上の車線検出には,手作りの機能の使用から,最先端のエンドツーエンドのディープラーニングアーキテクチャまで,さまざまな方法が提案されている。 これらのアーキテクチャのほとんどは、トラフィック制約のある環境でトレーニングされています。 本稿では,技術手法の精度と速度の両面において優れたマルチレーン検出手法を提案する。 これを実現するために、他のベンチマークデータセットと比較して、より直感的なラベル付け方式のデータセットも提供します。 提案手法により, 54.53 fps (平均) で走行する車線分割精度99.87%が得られる。

Autonomous driving is becoming one of the leading industrial research areas. Therefore many automobile companies are coming up with semi to fully autonomous driving solutions. Among these solutions, lane detection is one of the vital driver-assist features that play a crucial role in the decision-making process of the autonomous vehicle. A variety of solutions have been proposed to detect lanes on the road, which ranges from using hand-crafted features to the state-of-the-art end-to-end trainable deep learning architectures. Most of these architectures are trained in a traffic constrained environment. In this paper, we propose a novel solution to multi-lane detection, which outperforms state of the art methods in terms of both accuracy and speed. To achieve this, we also offer a dataset with a more intuitive labeling scheme as compared to other benchmark datasets. Using our approach, we are able to obtain a lane segmentation accuracy of 99.87% running at 54.53 fps (average).
翻訳日:2023-01-16 09:30:15 公開日:2020-01-01
# 斜め照明による文化遺産の分光イメージング顕微鏡の改良

Improved Spectral Imaging Microscopy for Cultural Heritage through Oblique Illumination ( http://arxiv.org/abs/2001.00817v1 )

ライセンス: Link先を確認
Lindsay Oakley, Stephanie Zaleski, Billie Males, Ollie Cossairt, Marc Walton(参考訳) 本研究は, 波長可変斜め照明を用いた文化遺産用フレキシブルな顕微鏡化学イメージングプラットフォームを開発し, VIS-NIR領域の画素ごとの反射スペクトルを得る。 顕微鏡光源は、2つの軸で調整でき、照明方向の半球が可能である。 多重照明角の合成により、位相勾配と同様の表面正規ベクトルの計算や軸方向光学分割が可能となる。 これらのデータから高空間分解能の分光反射画像の抽出は、既知の絵画基準資料から作成したレプリカ断面の解析と、パブロ・ピカソ(Pablo Picasso)による絵画から抽出されたサンプル(La Mis\ereuse accroupie (1902))によって実証される。 これらのケーススタディは、この顕微鏡を用いて得られるかもしれない豊富なマイクロスケールの分子情報と、無機鉱物と有機湖の両方からなる複雑なマトリックスを持つ芸術作品でよく見られるスペクトル分析の課題を克服する方法を示している。

This work presents the development of a flexible microscopic chemical imaging platform for cultural heritage that utilizes wavelength-tunable oblique illumination from a point source to obtain per-pixel reflectance spectra in the VIS-NIR range. The microscope light source can be adjusted on two axes allowing for a hemisphere of possible illumination directions. The synthesis of multiple illumination angles allows for the calculation of surface normal vectors, similar to phase gradients, and axial optical sectioning. The extraction of spectral reflectance images with high spatial resolutions from these data is demonstrated through the analysis of a replica cross-section, created from known painting reference materials, as well as a sample extracted from a painting by Pablo Picasso entitled La Mis\'ereuse accroupie (1902). These case studies show the rich microscale molecular information that may be obtained using this microscope and how the instrument overcomes challenges for spectral analysis commonly encountered on works of art with complex matrices composed of both inorganic minerals and organic lakes.
翻訳日:2023-01-16 09:29:24 公開日:2020-01-01
# 外観に基づく視線推定のための粗視適応ネットワーク

A Coarse-to-Fine Adaptive Network for Appearance-Based Gaze Estimation ( http://arxiv.org/abs/2001.00187v1 )

ライセンス: Link先を確認
Yihua Cheng, Shiyao Huang, Fei Wang, Chen Qian, Feng Lu(参考訳) 人間の視線は様々な用途に不可欠である。 より正確な視線推定を目的とした最近の一連の研究は、顔と眼の画像を同時に活用することを提案する。 それでも、顔と眼のイメージは、これらの作品において独立したまたは平行な特徴源としてのみ機能するが、それらの特徴間の固有の相関は見過ごされてしまう。 本稿では,以下の貢献を行う。 1)顔画像から基本的な視線方向を推定し,それに対応する残差を眼画像から予測する粗大な戦略を提案する。 2)提案手法を参考に,視線残差と基本的な視線方向を橋渡しするbi-gramモデルと,適切な細粒度特徴を適応的に獲得するための注意要素を提案する。 3) 上記の技術を統合し, 粗大な適応ネットワークであるCA-Netを構築し, MPIIGaze と EyeDiap の最先端性能を実現する。

Human gaze is essential for various appealing applications. Aiming at more accurate gaze estimation, a series of recent works propose to utilize face and eye images simultaneously. Nevertheless, face and eye images only serve as independent or parallel feature sources in those works, the intrinsic correlation between their features is overlooked. In this paper we make the following contributions: 1) We propose a coarse-to-fine strategy which estimates a basic gaze direction from face image and refines it with corresponding residual predicted from eye images. 2) Guided by the proposed strategy, we design a framework which introduces a bi-gram model to bridge gaze residual and basic gaze direction, and an attention component to adaptively acquire suitable fine-grained feature. 3) Integrating the above innovations, we construct a coarse-to-fine adaptive network named CA-Net and achieve state-of-the-art performances on MPIIGaze and EyeDiap.
翻訳日:2023-01-16 09:29:04 公開日:2020-01-01
# ZeroQ: 新たなゼロショット量子化フレームワーク

ZeroQ: A Novel Zero Shot Quantization Framework ( http://arxiv.org/abs/2001.00281v1 )

ライセンス: Link先を確認
Yaohui Cai, Zhewei Yao, Zhen Dong, Amir Gholami, Michael W. Mahoney, Kurt Keutzer(参考訳) 量子化はニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。 しかし、既存の量子化手法の多くは、量子化中に再トレーニングするために元のトレーニングデータセットにアクセスする必要がある。 これは、プライバシやセキュリティ上の懸念などにより、機密データやプロプライエタリデータを持つアプリケーションでは不可能であることが多い。 既存のゼロショット量子化法はこの問題に対処するために異なるヒューリスティックを用いるが、特に超低精度での量子化では性能が低下する。 本稿では、この問題に対処する新しいゼロショット量子化フレームワークZeroQを提案する。 zeroqは、トレーニングや検証データにアクセスせずに、混合精度量子化を可能にする。 これは、ネットワークの異なる層にわたるバッチ正規化の統計と一致するように設計されたDistilled Datasetを最適化することで達成される。 ZeroQは均一および混合精度量子化の両方をサポートする。 後者では,手動検索を伴わずに,すべての層に対する混合精度ビット設定を自動的に決定する新しいパレートフロンティア方式を提案する。 提案手法は,ResNet18/50/152,MobileNetV2,ShuffleNet,SqueezeNext,InceptionV3など,Microsoft COCOデータセット上のRetinaNet-ResNet50など,多種多様なモデルで広くテストされている。 特に,最近提案されたdfq法と比較して,zeroq は mobilenetv2 において 1.71\% 高い精度を達成できることを示した。 重要なことは、ZeroQは計算オーバーヘッドが非常に低く、30秒未満で量子化プロセス全体を終えることができる(ImageNet上のResNet50のエポックトレーニングタイムの0.55%)。 ZeroQ framework\footnote{https://github.com/amirgholami/ZeroQ} をオープンソース化しました。

Quantization is a promising approach for reducing the inference time and memory footprint of neural networks. However, most existing quantization methods require access to the original training dataset for retraining during quantization. This is often not possible for applications with sensitive or proprietary data, e.g., due to privacy and security concerns. Existing zero-shot quantization methods use different heuristics to address this, but they result in poor performance, especially when quantizing to ultra-low precision. Here, we propose ZeroQ , a novel zero-shot quantization framework to address this. ZeroQ enables mixed-precision quantization without any access to the training or validation data. This is achieved by optimizing for a Distilled Dataset, which is engineered to match the statistics of batch normalization across different layers of the network. ZeroQ supports both uniform and mixed-precision quantization. For the latter, we introduce a novel Pareto frontier based method to automatically determine the mixed-precision bit setting for all layers, with no manual search involved. We extensively test our proposed method on a diverse set of models, including ResNet18/50/152, MobileNetV2, ShuffleNet, SqueezeNext, and InceptionV3 on ImageNet, as well as RetinaNet-ResNet50 on the Microsoft COCO dataset. In particular, we show that ZeroQ can achieve 1.71\% higher accuracy on MobileNetV2, as compared to the recently proposed DFQ method. Importantly, ZeroQ has a very low computational overhead, and it can finish the entire quantization process in less than 30s (0.5\% of one epoch training time of ResNet50 on ImageNet). We have open-sourced the ZeroQ framework\footnote{https://github.com/amirgholami/ZeroQ}.
翻訳日:2023-01-16 09:28:04 公開日:2020-01-01
# 一次元的アプローチによる一般化クラスタリングに向けて

Toward Generalized Clustering through an One-Dimensional Approach ( http://arxiv.org/abs/2001.02741v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 比較的狭いブリッジを通して、他のクラスタにリンクするクラスタを包含するクラスタの概念を一般化した後、各特徴空間から得られる1次元スライスに対して、凝集クラスタリング(特に単一リンク)に基づいて、これらのクラスタ間の分離のパッチを検出するアプローチを開発する。 この手法のポテンシャルは、より密度の低い間隙で分離された高密度の2つの間隔で特徴付けられる1次元クラスタリングモデルと同様に、点のクラスタレス均一分布と正規分布の解析に関して説明される。 この部分クラスタリング法は特徴選択とクラスタ同定の手段として考慮され、いくつかの仮定的状況に関して2つの単純かつ潜在的に有効な方法が記述され、示される。

After generalizing the concept of clusters to incorporate clusters that are linked to other clusters through some relatively narrow bridges, an approach for detecting patches of separation between these clusters is developed based on an agglomerative clustering, more specifically the single-linkage, applied to one-dimensional slices obtained from respective feature spaces. The potential of this method is illustrated with respect to the analyses of clusterless uniform and normal distributions of points, as well as a one-dimensional clustering model characterized by two intervals with high density of points separated by a less dense interstice. This partial clustering method is then considered as a means of feature selection and cluster identification, and two simple but potentially effective respective methods are described and illustrated with respect to some hypothetical situations.
翻訳日:2023-01-16 09:27:34 公開日:2020-01-01
# 盲人のためのスマート要約器

Smart Summarizer for Blind People ( http://arxiv.org/abs/2001.00575v1 )

ライセンス: Link先を確認
Mona teja K, Mohan Sai. S, H S S S Raviteja D, Sai Kushagra P V(参考訳) 今日の世界では、時間はとても重要な資源です。 忙しい生活の中で、私たちのほとんどが完全なニュースを読む時間がほとんどないので、私たちがすべきことは、見出しを通り抜けてそれを満たすことです。 結果として、ニュースの一部を見逃したり、完全なことを誤解したりするかもしれません。 視覚障害者や視力を失った人にとっては、状況はさらに悪化している。 これらの人々がテキストを読めないことは、彼らの生活に大きな影響を与えます。 盲人にはテキストを読むための方法がいくつかある。 特に点字は例の1つであるが、本当に時間がかかり、多くの練習を必要とするため、非常に非効率な方法である。 そこで本研究では,視覚障害者に対して,タッチ感よりも明らかに良好で正確である音感に基づく方法を提案する。 本稿では,ニュースを重要なキーワードに要約することで,毎回,全文を要約する作業を省くための効率的な手法について述べる。 本稿では, テッセラクト, GTTS, およびLunn's Algorithm, Latent Semantic Analysis Algorithm, Text Ranking Algorithmなど, これまでに議論され, 実装されている多くのアルゴリズムについて述べる。 また,本論文で扱う他の機能は,要約されたテキストを音声に変換することで,視覚障害者をも支援できるというものである。

In today's world, time is a very important resource. In our busy lives, most of us hardly have time to read the complete news so what we have to do is just go through the headlines and satisfy ourselves with that. As a result, we might miss a part of the news or misinterpret the complete thing. The situation is even worse for the people who are visually impaired or have lost their ability to see. The inability of these people to read text has a huge impact on their lives. There are a number of methods for blind people to read the text. Braille script, in particular, is one of the examples, but it is a highly inefficient method as it is really time taking and requires a lot of practice. So, we present a method for visually impaired people based on the sense of sound which is obviously better and more accurate than the sense of touch. This paper deals with an efficient method to summarize news into important keywords so as to save the efforts to go through the complete text every single time. This paper deals with many API's and modules like the tesseract, GTTS, and many algorithms that have been discussed and implemented in detail such as Luhn's Algorithm, Latent Semantic Analysis Algorithm, Text Ranking Algorithm. And the other functionality that this paper deals with is converting the summarized text to speech so that the system can aid even the blind people.
翻訳日:2023-01-16 09:27:20 公開日:2020-01-01
# ディープニューラルネットワークにおけるグラディエントノルム平等のための包括的でモジュール化された統計フレームワーク

A Comprehensive and Modularized Statistical Framework for Gradient Norm Equality in Deep Neural Networks ( http://arxiv.org/abs/2001.00254v1 )

ライセンス: Link先を確認
Zhaodong Chen, Lei Deng, Bangyan Wang, Guoqi Li, Yuan Xie(参考訳) 近年、勾配の爆発や消滅のないネットワークを特定するために多くの指標が提案されている。 しかしながら、現代のdnnにおけるネットワークコンポーネントの多様性と複雑なシリアル-並列ハイブリッド接続のため、既存のメトリクスの評価は通常、強力な仮定、複雑な統計分析、あるいはコミュニティでの拡散を制限するアプリケーションフィールドの制限を必要とする。 本稿では, 勾配ノルム等式と動的等尺法に着想を得て, まず, 個別ブロックにおける勾配ノルムの変化を測定するブロック力学等尺法という新しい計量法を提案する。 我々のブロックダイナミックアイソメトリはノルムベースであるため、その評価は元の動的アイソメトリよりも弱い仮定を必要とする。 難解な導出を緩和するために,自由確率に基づく高度にモジュール化された統計フレームワークを提案する。 我々のフレームワークには、複雑なシリアル並列ハイブリッド接続を扱うための重要な定理と、ネットワークコンポーネントの多様性をカバーするライブラリが含まれている。 さらに、いくつかの十分な前提条件が提供される。 メトリックとフレームワークによって、我々は広範な初期化、正規化、ネットワーク構造を分析します。 勾配ノルム等式はそれらの背後にある普遍的な哲学である。 そこで本研究では,初期化手法のアクティベーション関数選択戦略,重み正規化のための新しい構成,SeLUの係数を導出する深さ認識手法など,既存の手法を改良する。 さらに, 理論上, 精度損失のないバッチ正規化よりも30%高速である, 第二モーメント正規化という新しい正規化手法を提案する。 最後に,CIFAR10 と ImageNet 上の複数のモデルに関する広範な実験により,結論と手法が実証された。

In recent years, plenty of metrics have been proposed to identify networks that are free of gradient explosion and vanishing. However, due to the diversity of network components and complex serial-parallel hybrid connections in modern DNNs, the evaluation of existing metrics usually requires strong assumptions, complex statistical analysis, or has limited application fields, which constraints their spread in the community. In this paper, inspired by the Gradient Norm Equality and dynamical isometry, we first propose a novel metric called Block Dynamical Isometry, which measures the change of gradient norm in individual block. Because our Block Dynamical Isometry is norm-based, its evaluation needs weaker assumptions compared with the original dynamical isometry. To mitigate the challenging derivation, we propose a highly modularized statistical framework based on free probability. Our framework includes several key theorems to handle complex serial-parallel hybrid connections and a library to cover the diversity of network components. Besides, several sufficient prerequisites are provided. Powered by our metric and framework, we analyze extensive initialization, normalization, and network structures. We find that Gradient Norm Equality is a universal philosophy behind them. Then, we improve some existing methods based on our analysis, including an activation function selection strategy for initialization techniques, a new configuration for weight normalization, and a depth-aware way to derive coefficients in SeLU. Moreover, we propose a novel normalization technique named second moment normalization, which is theoretically 30% faster than batch normalization without accuracy loss. Last but not least, our conclusions and methods are evidenced by extensive experiments on multiple models over CIFAR10 and ImageNet.
翻訳日:2023-01-16 09:21:41 公開日:2020-01-01
# 手書き光文字認識(ocr):総合的な体系的文献レビュー(slr)

Handwritten Optical Character Recognition (OCR): A Comprehensive Systematic Literature Review (SLR) ( http://arxiv.org/abs/2001.00139v1 )

ライセンス: Link先を確認
Jamshed Memon, Maira Sami, Rizwan Ahmed Khan(参考訳) 人的取引における手書き文書の多様さを考えると、文書の光学文字認識(OCR)は実用価値が極めて高い。 光文字認識は、様々な種類の文書や画像を分析可能、編集可能、検索可能なデータに変換することができる科学である。 過去10年間、研究者は人工知能/機械学習ツールを使って手書き文書や印刷文書を自動的に分析し、それらを電子フォーマットに変換する。 本研究の目的は,手書き文書の文字認識に関する研究を要約し,研究の方向性を示すことである。 本論文は,2000年から2018年の間に出版された手書きOCR(および近縁な話題)について,研究論文の収集,合成,分析を行ったものである。 我々は、事前定義されたレビュープロトコルに従って、広く使われている電子データベースに従った。 トピックに関連するすべての項目を検索するために,キーワード,前方参照検索,後方参照検索を用いて項目を検索した。 このSLRに対して、慎重に研究選択プロセス142項目を選択した。 本論文は,OCRにおける技術成果と技術の現状を提示する目的と,研究ギャップの強調による研究方向の提供を目的としている。

Given the ubiquity of handwritten documents in human transactions, Optical Character Recognition (OCR) of documents have invaluable practical worth. Optical character recognition is a science that enables to translate various types of documents or images into analyzable, editable and searchable data. During last decade, researchers have used artificial intelligence / machine learning tools to automatically analyze handwritten and printed documents in order to convert them into electronic format. The objective of this review paper is to summarize research that has been conducted on character recognition of handwritten documents and to provide research directions. In this Systematic Literature Review (SLR) we collected, synthesized and analyzed research articles on the topic of handwritten OCR (and closely related topics) which were published between year 2000 to 2018. We followed widely used electronic databases by following pre-defined review protocol. Articles were searched using keywords, forward reference searching and backward reference searching in order to search all the articles related to the topic. After carefully following study selection process 142 articles were selected for this SLR. This review article serves the purpose of presenting state of the art results and techniques on OCR and also provide research directions by highlighting research gaps.
翻訳日:2023-01-16 09:21:10 公開日:2020-01-01
# マルチモーダル生理的信号によるアンサンブル感情認識

Ensemble emotion recognizing with multiple modal physiological signals ( http://arxiv.org/abs/2001.00191v1 )

ライセンス: Link先を確認
Jing Zhang, Yong Zhang, Suhua Zhan, Cheng Cheng(参考訳) ヒトの感情状態の客観的な抑制を提供する生理的シグナルは、感情認識の分野で注目される。 しかし,単一信号は感情の完全かつ正確な記述を得ることは困難である。 複数の生理的信号がモデルに融合し、異なる感情から一貫した相補的な情報を用いて一様分類モデルを構築し、認識性能を向上させる。 オリジナルのfusingモデルは通常、複数の信号の異なる分布を無視する認識のための特定の分類方法を選択する。 そこで本研究では,様々な感情に対する複数の様相生理的信号を用いた感情分類モデルを提案する。 脳波、EMG、EOG信号から、原子価と覚醒レベルの感情状態を特徴付ける特徴を抽出する。 キャラクタリゼーションのために、信号前処理のための4つのバンド、ベータ、アルファ、ガンマをフィルタリングし、3つのHjorthパラメータを特徴として計算する。 分類性能を向上させるため、アンサンブル分類器を構築する。 DEAPデータセットのベンチマークで実験を行う。 2クラスタスクの場合、 arousal の最高値は 94.42\% であり、valence の最高値は 94.02\% である。 4段階のタスクでは、平均的な分類精度は90.74であり、安定性がよい。 各種末梢生理信号が結果に及ぼす影響についても検討した。

Physiological signals that provide the objective repression of human affective states are attracted increasing attention in the emotion recognition field. However, the single signal is difficult to obtain completely and accurately description for emotion. Multiple physiological signals fusing models, building the uniform classification model by means of consistent and complementary information from different emotions to improve recognition performance. Original fusing models usually choose the particular classification method to recognition, which is ignoring different distribution of multiple signals. Aiming above problems, in this work, we propose an emotion classification model through multiple modal physiological signals for different emotions. Features are extracted from EEG, EMG, EOG signals for characterizing emotional state on valence and arousal levels. For characterization, four bands filtering theta, beta, alpha, gamma for signal preprocessing are adopted and three Hjorth parameters are computing as features. To improve classification performance, an ensemble classifier is built. Experiments are conducted on the benchmark DEAP datasets. For the two-class task, the best result on arousal is 94.42\%, the best result on valence is 94.02\%, respectively. For the four-class task, the highest average classification accuracy is 90.74, and it shows good stability. The influence of different peripheral physiological signals for results is also analyzed in this paper.
翻訳日:2023-01-16 09:19:40 公開日:2020-01-01
# 明示的内積空間を用いた情報理論学習記述子の高速推定

Fast Estimation of Information Theoretic Learning Descriptors using Explicit Inner Product Spaces ( http://arxiv.org/abs/2001.00265v1 )

ライセンス: Link先を確認
Kan Li and Jose C. Principe(参考訳) カーネル法は、信号処理と機械学習の非線形問題を解決するために理論的に根拠があり、強力で多用途な枠組みを形成する。 標準的なアプローチはカーネル関数のペアワイズ評価を行うために \emph{kernel trick} を頼りにしており、トレーニングデータに対する線形および超線形成長による大規模なデータセットのスケーラビリティの問題を引き起こす。 近年,データ非依存基底を用いた明示的な特徴空間マッピングを一定複雑性で活用する,kof(kernel adaptive filter)を提案している。 特徴写像によって定義される内部積は、有限次元再生カーネルヒルベルト空間(RKHS)を誘導する正定値有限ランク核に対応する。 情報理論学習(ITL)は、レニーエントロピーの非パラメトリック推定器に基づく情報理論記述器が、適応システムの設計のための従来の2次統計を置き換える枠組みである。 確率密度関数の空間上で定義される itl の rkhs は教師付きまたは教師なし学習の統計的推論を単純化する。 ITL基準は、所望のシステムと信号の高次統計挙動を考慮に入れている。 しかし、これは計算の複雑さが増大するコストが伴う。 本稿では、NTカーネルの概念をIPLに拡張し、スケーラビリティを損なうことなく信号から情報抽出を改善する。 具体的には、明示的な内部積空間(EIPS)カーネルを用いて、IPLの高速でスケーラブルで正確な推定を行う。 EIPS-ITL推定器とNT-KAFを組み合わせたEIPS-ITLコスト関数を実験により比較した。

Kernel methods form a theoretically-grounded, powerful and versatile framework to solve nonlinear problems in signal processing and machine learning. The standard approach relies on the \emph{kernel trick} to perform pairwise evaluations of a kernel function, leading to scalability issues for large datasets due to its linear and superlinear growth with respect to the training data. Recently, we proposed \emph{no-trick} (NT) kernel adaptive filtering (KAF) that leverages explicit feature space mappings using data-independent basis with constant complexity. The inner product defined by the feature mapping corresponds to a positive-definite finite-rank kernel that induces a finite-dimensional reproducing kernel Hilbert space (RKHS). Information theoretic learning (ITL) is a framework where information theory descriptors based on non-parametric estimator of Renyi entropy replace conventional second-order statistics for the design of adaptive systems. An RKHS for ITL defined on a space of probability density functions simplifies statistical inference for supervised or unsupervised learning. ITL criteria take into account the higher-order statistical behavior of the systems and signals as desired. However, this comes at a cost of increased computational complexity. In this paper, we extend the NT kernel concept to ITL for improved information extraction from the signal without compromising scalability. Specifically, we focus on a family of fast, scalable, and accurate estimators for ITL using explicit inner product space (EIPS) kernels. We demonstrate the superior performance of EIPS-ITL estimators and combined NT-KAF using EIPS-ITL cost functions through experiments.
翻訳日:2023-01-16 09:19:04 公開日:2020-01-01
# レコメンダシステムにおける露出バイアスのモデル化と対策

Modeling and Counteracting Exposure Bias in Recommender Systems ( http://arxiv.org/abs/2001.04832v1 )

ライセンス: Link先を確認
Sami Khenissi and Olfa Nasraoui(参考訳) オンラインで見つけて見るもの、その結果、私たちの意見や判断は、自動化された機械学習の予測によってますます影響を受けています。 同様に、学習機械の予測精度は、私たちが提供するフィードバックデータに大きく依存します。 この相互影響は、未知のバイアスを引き起こすクローズドループ相互作用につながる可能性がある。 機械による偏見は、偏極から不公平、バブルの濾過まで、望ましくない社会的影響をもたらす。 本稿では,行列因子化のような広く使われる推奨戦略に内在するバイアスについて検討する。 次に,ユーザとレコメンダシステムとのインタラクションから生じる露出をモデル化し,これらのシステムに対する新しいデバイアス戦略を提案する。 最後に,技術ソリューションによるレコメンデーションシステムのバイアスを軽減するために,いくつかの最先端技術レコメンデーションシステムモデルを提案する。 その結果,レコメンダシステムは偏りがあり,ユーザの事前の露出に依存することがわかった。 また, 学習バイアスは, 出力レコメンデーションの多様性を反復的に減少させることを示した。 提案手法は, バイアス低減のために露光過程を考慮した代替レコメンデーション戦略の必要性を示す。 本研究は,人間と直接対話するレコメンダシステムなどの機械学習モデルにおいて,バイアスの性質を理解し,対処することが重要であることを示し,人間の発見や意思決定に影響を及ぼす。

What we discover and see online, and consequently our opinions and decisions, are becoming increasingly affected by automated machine learned predictions. Similarly, the predictive accuracy of learning machines heavily depends on the feedback data that we provide them. This mutual influence can lead to closed-loop interactions that may cause unknown biases which can be exacerbated after several iterations of machine learning predictions and user feedback. Machine-caused biases risk leading to undesirable social effects ranging from polarization to unfairness and filter bubbles. In this paper, we study the bias inherent in widely used recommendation strategies such as matrix factorization. Then we model the exposure that is borne from the interaction between the user and the recommender system and propose new debiasing strategies for these systems. Finally, we try to mitigate the recommendation system bias by engineering solutions for several state of the art recommender system models. Our results show that recommender systems are biased and depend on the prior exposure of the user. We also show that the studied bias iteratively decreases diversity in the output recommendations. Our debiasing method demonstrates the need for alternative recommendation strategies that take into account the exposure process in order to reduce bias. Our research findings show the importance of understanding the nature of and dealing with bias in machine learning models such as recommender systems that interact directly with humans, and are thus causing an increasing influence on human discovery and decision making
翻訳日:2023-01-16 09:18:41 公開日:2020-01-01
# 興味のオプション:興味のある機能を持つ時間的抽象化

Options of Interest: Temporal Abstraction with Interest Functions ( http://arxiv.org/abs/2001.00271v1 )

ライセンス: Link先を確認
Khimya Khetarpal, Martin Klissarov, Maxime Chevalier-Boisvert, Pierre-Luc Bacon, Doina Precup(参考訳) 時間的抽象化(Temporal abstract)とは、エージェントが限られた時間に作用するコントローラの動作を使用する能力を指す。 オプションフレームワークは、そのような振る舞いを、開始できる状態のサブセット、内部ポリシー、確率的終了条件からなるものとして記述する。 しかし、その後のオプション発見の研究の多くは、データからそれを学ぶのが困難であるため、開始セットを無視している。 オプションに関連する関心関数を定義することにより、一般関数近似に適した開始集合の一般化を提供する。 我々は,興味関数に対する勾配に基づく学習アルゴリズムを導出し,新たな関心-オプティオン-クリティックアーキテクチャを導出する。 我々は,理解可能かつ再利用可能な時間的抽象化を学ぶために,関心関数をどのように活用するかを検討する。 本研究では, 離散環境と連続環境の両方において, 定量的および定性的な結果を通じて提案手法の有効性を示す。

Temporal abstraction refers to the ability of an agent to use behaviours of controllers which act for a limited, variable amount of time. The options framework describes such behaviours as consisting of a subset of states in which they can initiate, an internal policy and a stochastic termination condition. However, much of the subsequent work on option discovery has ignored the initiation set, because of difficulty in learning it from data. We provide a generalization of initiation sets suitable for general function approximation, by defining an interest function associated with an option. We derive a gradient-based learning algorithm for interest functions, leading to a new interest-option-critic architecture. We investigate how interest functions can be leveraged to learn interpretable and reusable temporal abstractions. We demonstrate the efficacy of the proposed approach through quantitative and qualitative results, in both discrete and continuous environments.
翻訳日:2023-01-16 09:11:37 公開日:2020-01-01
# AIを民主化するフレームワーク

A Framework for Democratizing AI ( http://arxiv.org/abs/2001.00818v1 )

ライセンス: Link先を確認
Shakkeel Ahmed, Ravi S. Mula, Soma S. Dhavala(参考訳) 機械学習と人工知能は第四次産業革命の不可欠な部分と考えられている。 彼らの影響、そして大きな影響は認識されているものの、まだ理解されていない。 これらの技術は非常に専門的であり、将来をグラフ化するためにお金、人力、潜在的に、高度に訓練された組織や専門家は少ない。 しかし、パワーの集中は限界化を招き、深刻な不平等を引き起こす。 世界中の規制機関や政府は、デジタル市民の権利を保護し、権限を付与するために、これらの技術に関する国家政策や法律を作成している。 民間の非営利組織でさえも、それらを \emph{ Accessible} と \emph{affordable} にすることで、テクノロジーの民主化に貢献している。 しかし、アクセシビリティとアベイラビリティは、この分野を民主化するいくつかの側面に過ぎません。 その他には、 \emph{portability}, \emph{explainability}, \emph{credibility}, \emph{fairness} などがある。 想像できるように、AIの民主化は多面的な問題であり、科学、技術、政策の進歩が必要である。 texttt{mlsquare}では、この分野の科学的ツールを開発しています。 具体的には、上述したカテゴリのそれぞれにおいて、さまざまなソリューションに対する単一のインターフェースポイントを提供する、意見に富んだ拡張可能な、‘texttt{Python} フレームワークを導入します。 設計の詳細、フレームワークのAPI、リファレンス実装、開発のためのロードマップ、コントリビューションのためのガイドラインを示します。

Machine Learning and Artificial Intelligence are considered an integral part of the Fourth Industrial Revolution. Their impact, and far-reaching consequences, while acknowledged, are yet to be comprehended. These technologies are very specialized, and few organizations and select highly trained professionals have the wherewithal, in terms of money, manpower, and might, to chart the future. However, concentration of power can lead to marginalization, causing severe inequalities. Regulatory agencies and governments across the globe are creating national policies, and laws around these technologies to protect the rights of the digital citizens, as well as to empower them. Even private, not-for-profit organizations are also contributing to democratizing the technologies by making them \emph{accessible} and \emph{affordable}. However, accessibility and affordability are all but a few of the facets of democratizing the field. Others include, but not limited to, \emph{portability}, \emph{explainability}, \emph{credibility}, \emph{fairness}, among others. As one can imagine, democratizing AI is a multi-faceted problem, and it requires advancements in science, technology and policy. At \texttt{mlsquare}, we are developing scientific tools in this space. Specifically, we introduce an opinionated, extensible, \texttt{Python} framework that provides a single point of interface to a variety of solutions in each of the categories mentioned above. We present the design details, APIs of the framework, reference implementations, road map for development, and guidelines for contributions.
翻訳日:2023-01-16 09:11:23 公開日:2020-01-01
# 強化量子アニーリング:量子支援学習オートマトンアプローチ

Reinforcement Quantum Annealing: A Quantum-Assisted Learning Automata Approach ( http://arxiv.org/abs/2001.00234v1 )

ライセンス: Link先を確認
Ramin Ayanzadeh, Milton Halem and Tim Finin(参考訳) 本稿では、知的エージェントがオートマトン学習の確率的環境の役割を担う量子アニールと相互作用する強化量子アニール法(RQA)を導入する。 概念実証として、Ising Hamiltonian を最小化するために、 Boolean satisfiability (SAT) のNP完全問題を減らし、RQA を大域的最適度を求める確率を高める方法を示す新しいアプローチを提案する。 D-Wave 2000Q量子プロセッサを用いた2つの異なるベンチマークSAT問題(すなわち、相転移を伴う擬似プライム数とランダムSAT)に対する実験結果から、RQAは量子アニールの領域における最先端技術と比較して、より少ないサンプルによる解が顕著に優れていることを示した。

We introduce the reinforcement quantum annealing (RQA) scheme in which an intelligent agent interacts with a quantum annealer that plays the stochastic environment role of learning automata and tries to iteratively find better Ising Hamiltonians for the given problem of interest. As a proof-of-concept, we propose a novel approach for reducing the NP-complete problem of Boolean satisfiability (SAT) to minimizing Ising Hamiltonians and show how to apply the RQA for increasing the probability of finding the global optimum. Our experimental results on two different benchmark SAT problems (namely factoring pseudo-prime numbers and random SAT with phase transitions), using a D-Wave 2000Q quantum processor, demonstrated that RQA finds notably better solutions with fewer samples, compared to state-of-the-art techniques in the realm of quantum annealing.
翻訳日:2023-01-16 09:10:35 公開日:2020-01-01
# 双対逆領域適応

Dual Adversarial Domain Adaptation ( http://arxiv.org/abs/2001.00153v1 )

ライセンス: Link先を確認
Yuntao Du, Zhiwen Tan, Qian Chen, Xiaowen Zhang, Yirong Yao, Chongjun Wang(参考訳) 教師なしドメイン適応は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識の転送を目的としている。 従来の敵対的領域適応法は、主に二進数または$K$次元の出力を持つ判別器を採用して、境界的あるいは条件的アライメントを独立に行う。 近年の実験では、判別器が両ドメインのドメイン情報とソースドメインのラベル情報とを備えると、複雑なマルチモーダル情報と両ドメインの高意味情報を保持することができることが示されている。 この考え方に従い、2k$次元出力を持つ判別器を採用し、単一の判別器でドメインレベルとクラスレベルのアライメントを同時に実行する。 しかし、単一の判別器はドメイン全体にわたって有用な情報を全て捉えることができず、例と決定境界の関係は以前にも研究されることは滅多にない。 多視点学習とドメイン適応の最近の進歩に触発され、識別器と特徴抽出器の間の敵対的プロセスに加えて、2つの識別器を互いに対向させる新しいメカニズムをデザインし、相互に多様な情報を提供し、ソースドメインのサポートの外でターゲット機能を生成するのを避ける。 我々の知る限りでは、ドメイン適応における二重敵戦略を探求するのは初めてである。 さらに,半教師付き学習正規化を用いて表現をより判別する。 2つの実世界のデータセットに関する包括的な実験により、この手法がいくつかの最先端のドメイン適応法を上回ることを検証した。

Unsupervised domain adaptation aims at transferring knowledge from the labeled source domain to the unlabeled target domain. Previous adversarial domain adaptation methods mostly adopt the discriminator with binary or $K$-dimensional output to perform marginal or conditional alignment independently. Recent experiments have shown that when the discriminator is provided with domain information in both domains and label information in the source domain, it is able to preserve the complex multimodal information and high semantic information in both domains. Following this idea, we adopt a discriminator with $2K$-dimensional output to perform both domain-level and class-level alignments simultaneously in a single discriminator. However, a single discriminator can not capture all the useful information across domains and the relationships between the examples and the decision boundary are rarely explored before. Inspired by multi-view learning and latest advances in domain adaptation, besides the adversarial process between the discriminator and the feature extractor, we also design a novel mechanism to make two discriminators pit against each other, so that they can provide diverse information for each other and avoid generating target features outside the support of the source domain. To the best of our knowledge, it is the first time to explore a dual adversarial strategy in domain adaptation. Moreover, we also use the semi-supervised learning regularization to make the representations more discriminative. Comprehensive experiments on two real-world datasets verify that our method outperforms several state-of-the-art domain adaptation methods.
翻訳日:2023-01-16 09:09:07 公開日:2020-01-01