このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200228となっている論文です。

PDF登録状況(公開日: 20200228)

TitleAuthorsAbstract論文公表日・翻訳日
# キンシップネットワークにおける社会的・子育て支援 : エージェントベースモデル

Social and Child Care Provision in Kinship Networks: an Agent-Based Model ( http://arxiv.org/abs/2002.05188v2 )

ライセンス: Link先を確認
Umberto Gostoli, Eric Silverman(参考訳) 脆弱な人々のニーズを提供することは、社会的および健康政策決定の重要な要素である。 特に、子どもの世話や脆弱な高齢者の世話は、世界中の何百万もの家族の幸福に不可欠である。 ほとんどの先進国では、このケアは正式な手段と非公式な手段の両方を通じて提供されており、従って他の政策立案の分野と非オブザーブな方法で相互作用する複雑な政策によって管理されている。 本稿では,英国におけるソーシャル・チャイルド・ケア・プロビジョンのエージェント・ベース・モデルについて紹介する。 エージェントは、健康状態、雇用状況、金融状況、必要な人々との社会的および身体的距離など、さまざまな要因に基づいてケアを決定する。 シミュレーションの結果から,このモデルが介護ニーズと可用性のもっともらしいパターンを生成できることが示され,政策決定の複雑な領域において重要な支援となることが示唆された。 本研究は, ソーシャルケアと児童ケアの相互作用を明示的にモデル化することで, 政策立案者がこれらの重要な分野において, より情報的な政策介入を展開できると結論付けた。

Providing for the needs of the vulnerable is a critical component of social and health policy-making. In particular, caring for children and for vulnerable older people is vital to the wellbeing of millions of families throughout the world. In most developed countries, this care is provided through both formal and informal means, and is therefore governed by complex policies that interact in non-obvious ways with other areas of policy-making. In this paper we present an agent-based model of social and child care provision in the UK, in which agents can provide informal care or pay for private care for their relatives. Agents make care decisions based on numerous factors including their health status, employment, financial situation, and social and physical distance to those in need. Simulation results show that the model can produce plausible patterns of care need and availability, and therefore can provide an important aid to this complex area of policy-making. We conclude that the model's use of kinship networks for distributing care and the explicit modelling of interactions between social care and child care will enable policy-makers to develop more informed policy interventions in these critical areas.
翻訳日:2023-06-03 21:15:11 公開日:2020-02-28
# 超ラジアント量子相転移における有限系多重臨界

Finite-system Multicriticality at the Superradiant Quantum Phase Transition ( http://arxiv.org/abs/2002.05496v3 )

ライセンス: Link先を確認
Han-Jie Zhu, Kai Xu, Guo-Feng Zhang, and Wu-Ming Liu(参考訳) バイアスド量子ビットを単一モードボソニック場に結合したキュービットボソンモデルにおいて,有限系の多重臨界性の存在を実証する。 バイアスとボソン・クビット結合の相互作用は、複数の超ラジカル位相と異なる順序の位相境界を示す豊富な位相図を生成する。 特に、複数の位相は、多臨界性の符号である適切なバイアス構成では区別できない。 これらの多臨界点を特徴付ける一連の普遍性クラスが同定される。 さらに, 少数のイオンを用いて実験的に多臨界現象を探索する可能性を持つトラップイオンの実現を示す。 結果は、実験において多臨界普遍性クラスを探索する新しい方法を開く。

We demonstrate the existence of finite-system multicriticality in a qubit-boson model where biased qubits collectively coupled to a single-mode bosonic field. The interplay between biases and boson-qubit coupling produces a rich phase diagram showing multiple superradiant phases and phase boundaries of different orders. In particular, multiple phases can become indistinguishable in appropriate bias configurations, which is the signature of multicriticality. A series of universality classes characterizing these multicritical points are identified. Moreover, we present a trapped-ion realization with the potential to explore the multicritical phenomena experimentally using a small number of ions. The results open a novel way to probe multicritical universality classes in experiments.
翻訳日:2023-06-03 19:20:49 公開日:2020-02-28
# 信用スコアのための携帯電話利用データ

Mobile Phone Usage Data for Credit Scoring ( http://arxiv.org/abs/2002.12616v1 )

ライセンス: Link先を確認
Henri Ots, Innar Liiv, and Diana Tur(参考訳) 本研究の目的は、携帯電話の利用データを用いて予測を行い、データセットが小さい(2,503顧客)場合でも、クレジットスコアの最良の分類方法を見つけることである。 我々は、異なる分類アルゴリズムを使用して、顧客をモバイルデータを使って支払いと非支払いに分割し、予測結果と実際の結果を比較する。 クレジットスコアリングにモバイルデータが使用されている関連作品がいくつかあるが、いずれも大規模なデータセットに基づいている。 小企業は、これらの関連論文で使われているものほどデータセットを使用できないため、これらの研究はほとんど役に立たない。 本稿では,たとえデータセットが小さい場合でも,クレジットスコアリングに携帯電話の利用データに価値があることを論じる。 2,503人の顧客のみに基づくモバイルデータからなるデータセットでは、信用リスクを予測できることがわかった。 最良の分類法は、0.62 AUC(曲線下)の結果を得た。

The aim of this study is to demostrate that mobile phone usage data can be used to make predictions and find the best classification method for credit scoring even if the dataset is small (2,503 customers). We use different classification algorithms to split customers into paying and non-paying ones using mobile data, and then compare the predicted results with actual results. There are several related works publicly accessible in which mobile data has been used for credit scoring, but they are all based on a large dataset. Small companies are unable to use datasets as large as those used by these related papers, therefore these studies are of little use for them. In this paper we try to argue that there is value in mobile phone usage data for credit scoring even if the dataset is small. We found that with a dataset that consists of mobile data based only on 2,503 customers, we can predict credit risk. The best classification method gave us the result 0.62 AUC (area under the curve).
翻訳日:2023-06-01 08:00:27 公開日:2020-02-28
# 二層グラフェン中の2電子量子ドットの四重項状態

Quartet states in two-electron quantum dots in bilayer graphene ( http://arxiv.org/abs/2002.12845v1 )

ライセンス: Link先を確認
Angelika Knothe and Vladimir Fal'ko(参考訳) 量子ドット中の電子を捕捉し、それらの集合量子状態を制御することは、半導体構造を量子情報処理のビットに変換するために重要である。 ここでは,電子の谷状態がスピン量子数と対に現れるガッピング二層グラフェン (blg) で形成される量子ドットにおける1粒子および2粒子状態の研究を行い,様々なblgおよびドットパラメータに対するスピン・バレー・シングレット・トリプレット状態,および2粒子相互作用強度および外部磁場の解析を行った。

Trapping electrons in quantum dots and controlling their collective quantum states is crucial for converting semiconductor structures into bits of quantum information processing. Here, we study single- and two-particle states in quantum dots formed in gapped bilayer graphene (BLG), where the electron's valley states appear in pair with their spin quantum number and we analyse spin- and valley-singlet and triplet states for various BLG and dot parameters, as well as two-particle interaction strength and external magnetic field.
翻訳日:2023-06-01 07:52:58 公開日:2020-02-28
# 光学・電気力学における時間依存問題に対するフロケとリャプノフの併用

Combining Floquet and Lyapunov techniques for time-dependent problems in optomechanics and electromechanics ( http://arxiv.org/abs/2002.12843v1 )

ライセンス: Link先を確認
Iivari Pietik\"ainen, Ond\v{r}ej \v{C}ernot\'ik, Radim Filip(参考訳) キャビティオプトメカニクスと電気メカニクスは、電磁界と量子機械共振器の運動の相互作用を研究する確立された研究分野を形成している。 多くの応用において、相互作用の線形化形式が用いられるため、ウィグナー関数の共分散行列に対するリャプノフ方程式を用いてシステムのダイナミクスを完全に記述することができる。 しかしこのアプローチは、ハミルトニアンが同時に複数の周波数で駆動される系の場合と同様に時間に依存する状況で問題となる。 このシナリオは、メカニカル状態の消散的準備や、メカニカルモーションのバックアクションエバジング測定につながるため、非常に関連性が高い。 時間依存のダイナミクスは、アプリケーション自体が単純ではないfloquetテクニックによって解決できる。 本稿では,初期時間依存問題をより大きいヒルベルト空間において,時間非依存問題に変換できるフロッケ法とリアプノフ法を組み合わせる一般的な方法について述べる。 フローケ形式を元の運動方程式に適用し、その時間依存型からリャプノフ方程式を導出する長い過程は、元の時間依存系のドリフト行列のフーリエ成分を適切に定義することにより、いかに単純化できるかを示す。 次に、回転波近似を超える機械的スクイージングの散逸生成を包括的に解析するために、形式的手法を用いる。 本手法は,キャビティオプトメカニクス,電気メカニクス,および関連する分野におけるマルチトン駆動方式に関する様々な問題に適用できる。

Cavity optomechanics and electromechanics form an established field of research investigating the interactions between electromagnetic fields and the motion of quantum mechanical resonators. In many applications, linearised form of the interaction is used, which allows for the system dynamics to be fully described using a Lyapunov equation for the covariance matrix of the Wigner function. This approach, however, is problematic in situations where the Hamiltonian becomes time dependent as is the case for systems driven at multiple frequencies simultaneously. This scenario is highly relevant as it leads to dissipative preparation of mechanical states or backaction-evading measurements of mechanical motion. The time-dependent dynamics can be solved with Floquet techniques whose application is, nevertheless, not straightforward. Here, we describe a general method for combining the Lyapunov approach with Floquet techniques that enables us to transform the initial time-dependent problem into a time-independent one, albeit in a larger Hilbert space. We show how the lengthy process of applying the Floquet formalism to the original equations of motion and deriving a Lyapunov equation from their time-independent form can be simplified with the use of properly defined Fourier components of the drift matrix of the original time-dependent system. We then use our formalism to comprehensively analyse dissipative generation of mechanical squeezing beyond the rotating wave approximation. Our method is applicable to various problems with multitone driving schemes in cavity optomechanics, electromechanics, and related disciplines.
翻訳日:2023-06-01 07:52:45 公開日:2020-02-28
# 連続変数源非依存量子乱数生成の有限サイズ解析

Finite-size analysis of continuous variable source-independent quantum random number generation ( http://arxiv.org/abs/2002.12767v1 )

ライセンス: Link先を確認
Junyu Zhang, Yi-Chen Zhang, Ziyong Zheng, Ziyang Chen, Bingjie Xu, and Song Yu(参考訳) 有限次元効果が連続変数ソース非依存量子乱数生成に与える影響について検討する。 中心極限定理と最大推定定理は、統計的変動を出力し、実用的な量子乱数生成のパラメータの上限を決定する公式を導出するために用いられる。 これらの結果から,チェックデータの長さと信頼確率は最終ランダム性に強く関連し,実装の要求に応じて調整できることがわかった。 さらに、サンプリング範囲サイズやサンプリング解像度といった他の重要なパラメータも詳細に検討されている。 サンプリング範囲サイズに関連する定量出力分布は,有限サイズ効果による最終ランダム性の損失に有意な影響を与えていることがわかった。 結果から,連続変数のソース独立な量子乱数生成を実用的に実装するためには,有限サイズ効果を考慮すべきである。

We study the impact of finite-size effect on continuous variable source-independent quantum random number generation. The central-limit theorem and maximum likelihood estimation theorem are used to derive the formula which could output the statistical fluctuations and determine upper bound of parameters of practical quantum random number generation. With these results, we can see the check data length and confidence probability has intense relevance to the final randomness, which can be adjusted according to the demand in implementation. Besides, other key parameters, such as sampling range size and sampling resolution, have also been considered in detail. It is found that the distribution of quantified output related with sampling range size has significant effects on the loss of final randomness due to finite-size effect. The overall results indicate that the finite-size effect should be taken into consideration for implementing the continuous variable source-independent quantum random number generation in practical.
翻訳日:2023-06-01 07:51:34 公開日:2020-02-28
# 甲状腺機能亢進症に対する心房細動リスクスコア

The Atrial Fibrillation Risk Score for Hyperthyroidism Patients ( http://arxiv.org/abs/2002.12632v1 )

ライセンス: Link先を確認
Ilya V. Derevitskii, Daria A. Savitskaya, Alina Y. Babenko, Sergey V. Kovalchuk(参考訳) thyrotoxicosis (tt) は, 総および心室細動の死亡率の増加と関係している。 甲状腺障害の主なリスクの1つは心房細動(AF)である。 正しいAF予測は、医療従事者が正しい薬を処方し、外科的または放射性ヨード療法を正すのに役立つ。 本研究の主な目的は、実践的治療と診断のための方法を作成することである。 本研究は,TT患者に対する心房細動の発生リスクを評価する新しい方法を提案する。 本方法は、合併症の特徴と慢性疾患の特異性の両方を考慮する。 胸腺毒性症患者の症例履歴に基づいてモデルが作成される。 機械学習を使っていくつかのモデルを作成しました。 それぞれのモデルには、診断と医療の目的に応じて利点とデメリットがある。 得られたモデルはAF予測の異なる指標において高い結果を示す。 これらのモデルは簡単に解釈できる。 したがって、モデルは、afの治療および診断において、医療専門家による支援意思決定システム(dss)の一部として使用できる。

Thyrotoxicosis (TT) is associated with an increase in both total and cardiovascu-lar mortality. One of the main thyrotoxicosis risks is Atrial Fibrillation (AF). Right AF predicts help medical personal prescribe the correct medicaments and correct surgical or radioiodine therapy. The main goal of this study is creating a method for practical treatment and diagnostic AF. This study proposes a new method for assessing the risk of occurrence atrial fibrillation for patients with TT. This method considers both the features of the complication and the specifics of the chronic disease. A model is created based on case histories of patients with thyrotoxicosis. We used Machine Learning methods for creating several models. Each model has advantages and disadvantages depending on the diagnostic and medical purposes. The resulting models show high results in the different metrics of the prediction of AF. These models interpreted and simple for use. Therefore, models can be used as part of the support and decision-making system (DSS) by medical specialists in the treatment and diagnostic of AF.
翻訳日:2023-06-01 07:50:26 公開日:2020-02-28
# 都市とは 人工生命と都市システムです

Cities as they could be: Artificial Life and Urban Systems ( http://arxiv.org/abs/2002.12926v1 )

ライセンス: Link先を確認
Juste Raimbault(参考訳) 生物としての都市のメタファーは都市計画において長い歴史を持ち、いくつかの都市モデルアプローチは明らかに人工生命と結びついている。 そこで本稿では,約225,000論文の引用ネットワークの構築と探索を行い,都市問題への人工知能と人工生命の応用について検討する。 文献の大部分は方法論の応用であり、アプローチのかなり強力なモジュラリティであることを示している。 我々はついに、新しい都市理論の発展に強い可能性を持つALife概念を開発した。

The metaphor of cities as organisms has a long history in urban planning, and a few urban modeling approaches have explicitly been linked to Artificial Life. We propose in that paper to explore the extent of Artificial Life and Artificial Intelligence application to urban issues, by constructing and exploring a citation network of around 225,000 papers. It shows that most of the literature is indeed application of methodologies and a rather strong modularity of approaches. We finally develop ALife concepts which have a strong potential for the development of new urban theories.
翻訳日:2023-06-01 07:43:11 公開日:2020-02-28
# 分解量子臨界点の一次元化におけるキブル・ズールク機構

Kibble-Zurek mechanism in a one-dimensional incarnation of deconfined quantum critical point ( http://arxiv.org/abs/2002.12861v1 )

ライセンス: Link先を確認
Rui-Zhen Huang, Shuai Yin(参考訳) 従来のkibble-zurek機構(kzm)は、ランダウ-ギンツブルク-ヴィルソン(lgw)の自発的対称性破壊相転移の駆動臨界ダイナミクスを記述する。 しかしながら、KZMがLGWパラダイムを超える分解量子臨界性にまだ適用されているかどうかはまだ検討されていない。 本稿では,強磁性(FM)相と原子価結合固相(VBS)相の間の分解量子臨界点の1次元化に近い駆動臨界ダイナミクスについて検討する。 トポロジカル欠陥の密度が駆動速度に依存することを調べることにより、このランダウ禁止臨界点におけるKZMを検証する。 さらに、FMとVBSの順序パラメータが、駆動プロセス全体の有限時間スケーリングを満足していることが判明した。 非平衡力学における創発対称性の影響についても検討した。

The conventional Kibble-Zurek mechanism (KZM) describes the driven critical dynamics in the Landau-Ginzburg-Wilson (LGW) spontaneous symmetry-breaking phase transitions. However, whether the KZM is still applicable in the deconfined quantum criticality, which is beyond the LGW paradigm, has not been explored. In this paper, we study the driven critical dynamics near a one-dimensional incarnation of deconfined quantum critical point between a ferromagnetic (FM) phase and a valance-bond-solid (VBS) phase. By investigating the dependence of the density of the topological defects on the driving rate, we verify the KZM in this Landau-forbidden critical point. Moreover, we find that both the FM and the VBS order parameters satisfy the finite-time scaling in the whole driven process. The effects of the emergent symmetry in the nonequilibrium dynamics are also studied.
翻訳日:2023-06-01 07:41:21 公開日:2020-02-28
# 人体移動による夜間衛星画像の推定

Inferring Nighttime Satellite Imagery from Human Mobility ( http://arxiv.org/abs/2003.07691v1 )

ライセンス: Link先を確認
Brian Dickinson, Gourab Ghoshal, Xerxes Dotiwalla, Adam Sadilek, Henry Kautz(参考訳) ナイトライトの衛星画像は数十年間、幅広い社会経済的要因を研究するための一様でグローバルなデータソースとして使われてきた。 最近、地球上の別の情報源が、同様のグローバルなカバレッジを持つデータ、匿名と集約されたスマートフォンの位置を生成している。 このデータは、生成する光よりも、人々や人口の動きのパターンを計測し、今後数十年で同じ価値を証明できるだろう。 実際、人間の移動は予測される社会経済変数とより直接的に関連しているため、さらに大きな可能性を秘めている。 さらに、個人のプライバシーを維持しながら携帯電話の位置情報をリアルタイムで集約することができるため、現在からのデータを必要とするため、これまで不可能だった研究を行うことが可能となる。 もちろん、衛星画像で研究されている問題に人間の移動データを応用し、新しいリアルタイムアプリケーションの概念化と開発に必要な新しい技術を確立するには、かなり時間がかかるだろう。 本研究では、人間の移動データから人工夜間衛星画像を推定し、強力な差分プライバシー保証を維持しながら、このプロセスを加速できることを実証する。 また,これらの人工地図を用いて,実際の衛星画像よりも高い精度で社会経済変数を推定できることも示す。 その過程で、モビリティと光の放出の関係は非線形であり、地球上ではかなり異なることが判明した。 最後に,人間の移動性に基づくモデルが,世界規模で社会の理解を著しく改善できることを示す。

Nighttime lights satellite imagery has been used for decades as a uniform, global source of data for studying a wide range of socioeconomic factors. Recently, another more terrestrial source is producing data with similarly uniform global coverage: anonymous and aggregated smart phone location. This data, which measures the movement patterns of people and populations rather than the light they produce, could prove just as valuable in decades to come. In fact, since human mobility is far more directly related to the socioeconomic variables being predicted, it has an even greater potential. Additionally, since cell phone locations can be aggregated in real time while preserving individual user privacy, it will be possible to conduct studies that would previously have been impossible because they require data from the present. Of course, it will take quite some time to establish the new techniques necessary to apply human mobility data to problems traditionally studied with satellite imagery and to conceptualize and develop new real time applications. In this study we demonstrate that it is possible to accelerate this process by inferring artificial nighttime satellite imagery from human mobility data, while maintaining a strong differential privacy guarantee. We also show that these artificial maps can be used to infer socioeconomic variables, often with greater accuracy than using actual satellite imagery. Along the way, we find that the relationship between mobility and light emissions is both nonlinear and varies considerably around the globe. Finally, we show that models based on human mobility can significantly improve our understanding of society at a global scale.
翻訳日:2023-06-01 07:33:58 公開日:2020-02-28
# 仮想チームにおける研究協力によるオープンサイエンスプラットフォームのツールとしての拡張現実

Augmented reality as a tool for open science platform by research collaboration in virtual teams ( http://arxiv.org/abs/2003.07687v1 )

ライセンス: Link先を確認
Mariya P. Shyshkina, Maiia V. Marienko(参考訳) オープンサイエンスの条項は、欧州研究領域(era)の実施を妨げる障壁を克服するための一般的な政策として定義されている。 オープンサイエンス財団は、研究データ、科学機器、ICTサービス(接続、計算、プラットフォーム、ポータルのような特定の研究)など、ERAの機能に必要なすべての要素を把握しようとしている。 学者コミュニティのための共有資源の管理は、社会の利益を最大化する。 デジタルインフラストラクチャの分野では、すでに大きなメリットが示されています。 この原則をオープンサイエンスのプロセスに適用することで、公的協議などのメカニズムを通じて、利害関係者と協調して組織に資金提供することで管理を改善することが期待されている。 これにより、インフラの共同所有に対する認識が高まる。 また、より高いレベルの参加、協力、社会的相互関係を刺激する共同所有意識とともに、明確で差別的でないアクセスルールも作成する。 この論文はオープンサイエンスの概念を扱っている。 オープンサイエンスにおけるヨーロッパクラウドの概念とその構造について述べる。 研究によると、オープンサイエンスのクラウドの構造には、オープンサイエンスプラットフォームとしての拡張現実が含まれていることが示されている。 このツールの実用的な応用例として、ハンガリーの科学者によって開発されたMaxWhereの一般的な記述があり、個々の3D空間の集合のプラットフォームである。

The provision of open science is defined as a general policy aimed at overcoming the barriers that hinder the implementation of the European Research Area (ERA). An open science foundation seeks to capture all the elements needed for the functioning of ERA: research data, scientific instruments, ICT services (connections, calculations, platforms, and specific studies such as portals). Managing shared resources for the community of scholars maximizes the benefits to society. In the field of digital infrastructure, this has already demonstrated great benefits. It is expected that applying this principle to an open science process will improve management by funding organizations in collaboration with stakeholders through mechanisms such as public consultation. This will increase the perception of joint ownership of the infrastructure. It will also create clear and non-discriminatory access rules, along with a sense of joint ownership that stimulates a higher level of participation, collaboration and social reciprocity. The article deals with the concept of open science. The concept of the European cloud of open science and its structure are presented. According to the study, it has been shown that the structure of the cloud of open science includes an augmented reality as an open-science platform. An example of the practical application of this tool is the general description of MaxWhere, developed by Hungarian scientists, and is a platform of aggregates of individual 3D spaces.
翻訳日:2023-06-01 07:33:36 公開日:2020-02-28
# 電磁場における相対論的電子スピンのダイナミクス

Dynamics of the relativistic electron spin in an electromagnetic field ( http://arxiv.org/abs/2003.02226v1 )

ライセンス: Link先を確認
Ritwik Mondal, Peter M. Oppeneer(参考訳) 相対論的スピン作用素は相対論的量子力学において一意的に定義できない。 これまでは、自由粒子ディラックハミルトニアンに可換で運動定数を表すフォールディ・ウートフイセン型やプライス型のスピン作用素など、異なる固有相対論的スピン作用素が提案されてきた。 ここでは外部電磁界における相対論的電子スピンのダイナミクスについて考察する。 2つの異なるハミルトニアンを用いて対応するスピンダイナミクスを導出する。 これら2つは (a)外部場の存在下でのディラック・ハミルトニアン (b)同値の半相対論的拡大。 Foldy-Wouthuysen と Pryce のスピン作用素を考えると、これらは外部電磁場において異なるスピンダイナミクスをもたらすことが示される。 スピン作用素のダイナミクスはスピン依存項とスピン非依存項を含むが、折りたたみ-ウトフイゼンスピンダイナミクスは相対論的粒子-反粒子カップリング(英語版)(relativistic particle-antiparticle coupling)にも関係する。 結論として、プライススピン作用素は弱い対中間の外部場における相対論的スピンダイナミクスの適切な記述を提供するが、フォールディ・ウトフイゼンスピン作用素は強磁場状態においてより適している。

A relativistic spin operator cannot be uniquely defined within relativistic quantum mechanics. Previously, different proper relativistic spin operators have been proposed, such as spin operators of the Foldy-Wouthuysen and Pryce type, that both commute with the free-particle Dirac Hamiltonian and represent constants of motion. Here we consider the dynamics of a relativistic electron spin in an external electromagnetic field. We use two different Hamiltonians to derive the corresponding spin dynamics. These two are: (a) the Dirac Hamiltonian in presence of an external field, (b) the semirelativistic expansion of the same. Considering the Foldy-Wouthuysen and Pryce spin operators we show that these lead to different spin dynamics in an external electromagnetic field, which offers possibilities to distinguish their action. We find that the dynamics of both spin operators involve spin-dependent and spin-independent terms, however, the Foldy-Wouthuysen spin dynamics additionally accounts for the relativistic particle-antiparticle coupling. We conclude that the Pryce spin operator provides a suitable description of the relativistic spin dynamics in a weak-to-intermediate external field, whereas the Foldy-Wouthuysen spin operator is more suitable in the strong field regime.
翻訳日:2023-06-01 07:32:58 公開日:2020-02-28
# ブロックチェーンを用いたワイヤレスIoTデバイスからの映像の整合性確保

Assuring the Integrity of Videos from Wireless-based IoT Devices using Blockchain ( http://arxiv.org/abs/2003.00118v1 )

ライセンス: Link先を確認
Dominik Danko, Suat Mercan, Mumin Cebe Kemal Akkaya(参考訳) ブロックチェーン技術は様々なコミュニティから注目を集めている。 inblockchainの基盤となるコンセンサスメカニズムは、ストアドデータの完全性を保証するために無数のアプリケーションを可能にする。 本稿では,ストリーミングiotデバイスで撮影された映像の真正性を検証するために,blockchaintechnologyを用いた法医学的調査を行う。 提案されたアプローチは、IoTデバイスを離れる前にビデオフレームのハッシュを計算し、リモートベースステーションに転送する。 送信を保証するため、TCP接続を介して送信される橋を保証します。 ハッシュは、許可されたブロックチェーンプラットフォーム上の複数のノードに格納される。 ビデオが修正された場合、ブロックチェーン上に格納されたハッシュを、問題のフレームのハッシュと比較することにより、不一致を検出する。本研究では、プロトタイプを実験結果とともに概念実証として提示する。 このシステムは、パフォーマンスを評価するために、ビデオの品質の異なるRaspberryPiでテストされている。 この概念は中程度の解像度で実装可能である。

Blockchain technology has drawn attention fromvarious communities. The underlying consensus mechanism inBlockchain enables a myriad of applications for the integrityassurance of stored data. In this paper, we utilize Blockchaintechnology to verify the authenticity of a video captured by astreaming IoT device for forensic investigation purposes. Theproposed approach computes the hash of video frames beforethey leave the IoT device and are transferred to a remote basestation. To guarantee the transmission, we ensure that this hashis sent through a TCP-based connection. The hash is then storedon multiple nodes on a permissioned blockchain platform. Incase the video is modified, the discrepancy will be detected byinvestigating the previously stored hash on the blockchain andcomparing it with the hash of the existing frame in question.In this work, we present the prototype as proof-of-concept withexperiment results. The system has been tested on a RaspberryPi with different quality of videos to evaluate performance. Theresults show that the concept can be implemented with moderatevideo resolutions.
翻訳日:2023-06-01 07:31:48 公開日:2020-02-28
# グルーオンシャドーイングと核の絡み合い

Gluon Shadowing and Nuclear Entanglement ( http://arxiv.org/abs/2003.00112v1 )

ライセンス: Link先を確認
Paolo Castorina, Alfredo Iorio, Daniele Lanteri, and Petr Lukes(参考訳) ここでは, 深い非弾性散乱におけるリンクエンタングルメントエントロピーとパートン分布関数, および小さなビョルケンスケーリング領域に着目した過去の結果から, 自由核子の場合において核内において観測された核子あたりのエンタングルメントエントロピーと観測されない自由度の間のエンタングルメントエントロピーの減少により, グルーオンシャドーイングが実際に説明できることを示す。 両部系における絡み合いエントロピーの計算に対する一般ページアプローチのグルオンシャドーイングに適用し,結果の物理的動機を与える。

Relying on previous results that link entanglement entropy and parton distribution functions in deep inelastic scattering and focusing on the small Bjorken scaling region we present here indications that gluon shadowing might indeed be explained as due to a depletion of the entanglement entropy between observed and unobserved degrees of freedom per nucleon within a nucleus with respect to the free nucleon case. We apply to gluon shadowing the general Page approach to the calculation of the entanglement entropy in bipartite systems, giving physical motivations of the results.
翻訳日:2023-06-01 07:31:34 公開日:2020-02-28
# 単一炭化ケイ素色中心のコヒーレントスピン制御によるパーセル強化

Purcell enhancement of a single silicon carbide color center with coherent spin control ( http://arxiv.org/abs/2003.00042v1 )

ライセンス: Link先を確認
A.L. Crook, C.P. Anderson, K.C. Miao, A. Bourassa, H. Lee, S.L. Bayliss, D.O. Bracher, X. Zhang, H. Abe, T. Ohshima, E.L. Hu, and D.D. Awschalom(参考訳) 炭化ケイ素は、光学的に対処可能なスピン欠陥のプラットフォームとして最近開発された。 特に、4Hポリタイプの中性空孔は、光学的に対応可能なスピン-1基底状態と近赤外線発光を示す。 本稿では,フォトニック結晶空洞に結合した単一中性空隙のパーセル増強について述べる。 ナノリソグラフィー技術とドーパント選択的光電気化学エッチングを併用し,5,000以上の品質因子を有する懸濁キャビティを作製した。 その後、単一の空孔とのカップリングによりパーセル因子が約50となり、ゼロフォノン線へのフォトルミネッセンスの増加と励起状態寿命の短縮が現れる。 さらに,キャビティナノ構造内の空隙基底状態スピンのコヒーレント制御を計測し,動的デカップリングによるコヒーレンスの拡張を示す。 このスピンキャビティシステムは、空間的に分離された単一量子ビットから区別できない光子の干渉を必要とする炭化ケイ素を用いたスケーラブルな長距離エンタングルメントプロトコルへの進歩を表している。

Silicon carbide has recently been developed as a platform for optically addressable spin defects. In particular, the neutral divacancy in the 4H polytype displays an optically addressable spin-1 ground state and near-infrared optical emission. Here, we present the Purcell enhancement of a single neutral divacancy coupled to a photonic crystal cavity. We utilize a combination of nanolithographic techniques and a dopant-selective photoelectrochemical etch to produce suspended cavities with quality factors exceeding 5,000. Subsequent coupling to a single divacancy leads to a Purcell factor of ~50, which manifests as increased photoluminescence into the zero-phonon line and a shortened excited-state lifetime. Additionally, we measure coherent control of the divacancy ground state spin inside the cavity nanostructure and demonstrate extended coherence through dynamical decoupling. This spin-cavity system represents an advance towards scalable long-distance entanglement protocols using silicon carbide that require the interference of indistinguishable photons from spatially separated single qubits.
翻訳日:2023-06-01 07:31:18 公開日:2020-02-28
# 0.3ミリ秒を超えるコヒーレンス時間を有する超伝導量子ビットの新しい材料プラットフォーム

New material platform for superconducting transmon qubits with coherence times exceeding 0.3 milliseconds ( http://arxiv.org/abs/2003.00024v1 )

ライセンス: Link先を確認
Alex P. M. Place, Lila V. H. Rodgers, Pranav Mundada, Basil M. Smitham, Mattias Fitzpatrick, Zhaoqi Leng, Anjali Premkumar, Jacob Bryon, Sara Sussman, Guangming Cheng, Trisha Madhavan, Harshvardhan K. Babla, Berthold Jaeck, Andras Gyenis, Nan Yao, Robert J. Cava, Nathalie P. de Leon, Andrew A. Houck(参考訳) 超伝導トランスモン量子ビットは量子コンピューティングと量子科学の主要なプラットフォームである。 トランスモン量子ビットに基づく大規模で有用な量子システムの構築には、構成材料のバルク特性によって課される制限よりも桁違いに短い量子ビット緩和とコヒーレンス時間を大幅に改善する必要がある。 これは緩和が制御されていない表面、界面、汚染物質に由来する可能性が高いことを示している。 キュービットライフタイムを改善する以前の取り組みは、主に表面からの貢献を最小限にする設計に焦点を当ててきた。 しかし、2次元トランスモン量子ビットの寿命の大幅な改善は、数年の間、解明されてきた。 そこで我々は,ニオブをタンタルに置き換えることで,時間とコヒーレンス時間と動的デカップリングが0.3ミリ秒を超える2次元トランスモン量子ビットを作製した。 我々は17個のデバイスにおける寿命の増加を観察し、これらの材料改良が堅牢であることを示し、マルチキュービットプロセッサにおける高いゲート忠実性を実現する道を開いた。

The superconducting transmon qubit is a leading platform for quantum computing and quantum science. Building large, useful quantum systems based on transmon qubits will require significant improvements in qubit relaxation and coherence times, which are orders of magnitude shorter than limits imposed by bulk properties of the constituent materials. This indicates that relaxation likely originates from uncontrolled surfaces, interfaces, and contaminants. Previous efforts to improve qubit lifetimes have focused primarily on designs that minimize contributions from surfaces. However, significant improvements in the lifetime of two-dimensional transmon qubits have remained elusive for several years. Here, we fabricate two-dimensional transmon qubits that have both lifetimes and coherence times with dynamical decoupling exceeding 0.3 milliseconds by replacing niobium with tantalum in the device. We have observed increased lifetimes for seventeen devices, indicating that these material improvements are robust, paving the way for higher gate fidelities in multi-qubit processors.
翻訳日:2023-06-01 07:30:43 公開日:2020-02-28
# 画像ベースビジュアルサーボによる閉ループ視覚グラフプの最終動作制御

Control of the Final-Phase of Closed-Loop Visual Grasping using Image-Based Visual Servoing ( http://arxiv.org/abs/2001.05650v2 )

ライセンス: Link先を確認
Jesse Haviland, Feras Dayoub, Peter Corke(参考訳) 本稿では、RGB-Dカメラがもはや有効な深度情報を提供できない視覚閉ループ把握の最終アプローチフェーズについて考察する。 現在のロボット把持コントローラの多くはクローズドループではなく、移動物体では失敗する。 rgb-d画像に基づくクローズドループ把持コントローラは、移動物体を追跡することができるが、センサーの最小物体距離が把持直前に違反した場合に失敗する。 そこで本研究では,ロボットをカメラrgb情報を用いて物体関係把握姿勢に導くためのイメージベース視覚サーボ法(ibvs)を提案する。 ibvは、画像平面の特徴構成の観点から暗黙的に定義された目標ポーズにカメラをロバストに移動させる。 本研究では、目標画像特徴座標をRGB-Dデータから予測し、深度データが利用できなくなると、RGBのみの追跡を可能にする。 実験結果が提供される。

This paper considers the final approach phase of visual-closed-loop grasping where the RGB-D camera is no longer able to provide valid depth information. Many current robotic grasping controllers are not closed-loop and therefore fail for moving objects. Closed-loop grasp controllers based on RGB-D imagery can track a moving object, but fail when the sensor's minimum object distance is violated just before grasping. To overcome this we propose the use of image-based visual servoing (IBVS) to guide the robot to the object-relative grasp pose using camera RGB information. IBVS robustly moves the camera to a goal pose defined implicitly in terms of an image-plane feature configuration. In this work, the goal image feature coordinates are predicted from RGB-D data to enable RGB-only tracking once depth data becomes unavailable -- this enables more reliable grasping of previously unseen moving objects. Experimental results are provided.
翻訳日:2023-01-11 00:49:11 公開日:2020-02-28
# 共通情報成分分析

Common Information Components Analysis ( http://arxiv.org/abs/2002.00779v3 )

ライセンス: Link先を確認
Michael Gastpar and Erixhen Sula(参考訳) 我々は(相対)ワイナーの共通情報を用いて、正準相関解析(cca)の情報理論的な解釈を行う。 CCAは、相関関係と線形変換の枠組みを用いて、データセット間の共通性を捉える2つの高次元データセット(機能)から抽出することができる。 我々の解釈はまず、あらかじめ選択された解像度レベルまで共通の情報を抽出し、各データセットに投影する。 ガウス統計の場合、この手順は正確にCCAに還元され、分解能レベルは抽出されたCAA成分の数を指定する。 これはまた、2つのデータセット以上の自然な拡張を含むいくつかの望ましい特徴を持つ新しいアルゴリズムであるCommon Information Components Analysis (CICA)も提案している。

We give an information-theoretic interpretation of Canonical Correlation Analysis (CCA) via (relaxed) Wyner's common information. CCA permits to extract from two high-dimensional data sets low-dimensional descriptions (features) that capture the commonalities between the data sets, using a framework of correlations and linear transforms. Our interpretation first extracts the common information up to a pre-selected resolution level, and then projects this back onto each of the data sets. In the case of Gaussian statistics, this procedure precisely reduces to CCA, where the resolution level specifies the number of CCA components that are extracted. This also suggests a novel algorithm, Common Information Components Analysis (CICA), with several desirable features, including a natural extension to beyond just two data sets.
翻訳日:2023-01-04 09:32:38 公開日:2020-02-28
# 人間のロボットデモと物理補正から学ぶための仮説空間のミススペクションの定量化

Quantifying Hypothesis Space Misspecification in Learning from Human-Robot Demonstrations and Physical Corrections ( http://arxiv.org/abs/2002.00941v2 )

ライセンス: Link先を確認
Andreea Bobu, Andrea Bajcsy, Jaime F. Fisac, Sampada Deglurkar, Anca D. Dragan(参考訳) ヒューマンインプットにより、自律システムは能力を改善し、それ以外は自動生成が難しい複雑な動作を実現することができる。 最近の研究は、ロボットが意図した目的を学習するために、デモや修正のような入力をどのように使用できるかに焦点を当てている。 これらの手法は、人間の望ましい目的がロボットの仮説空間内にすでに存在すると仮定する。 実際には、この仮定はしばしば不正確であり、ロボットが知らないタスクの側面を気にすることがある場合は常にある。 この知識がなければ、ロボットは正しい目的を推測できない。 したがって、ロボットの仮説空間が誤って特定された場合、どの仮説が正しいか、あるいはどの仮説が正しいのかを推論するため、目的に対する不確実性を追跡する方法でさえ失敗する。 本稿では,ロボットが仮説空間から人間の入力をいかにうまく説明できるかを明確に説明し,その状況の信頼度を用いて,どのように人間の入力を取り入れるべきかを説明する。 本手法は,操作課題の提示と作業実行時の身体的修正という2つの重要な入力から学習するための,自由度7自由度ロボットマニピュレータ上での手法である。

Human input has enabled autonomous systems to improve their capabilities and achieve complex behaviors that are otherwise challenging to generate automatically. Recent work focuses on how robots can use such input - like demonstrations or corrections - to learn intended objectives. These techniques assume that the human's desired objective already exists within the robot's hypothesis space. In reality, this assumption is often inaccurate: there will always be situations where the person might care about aspects of the task that the robot does not know about. Without this knowledge, the robot cannot infer the correct objective. Hence, when the robot's hypothesis space is misspecified, even methods that keep track of uncertainty over the objective fail because they reason about which hypothesis might be correct, and not whether any of the hypotheses are correct. In this paper, we posit that the robot should reason explicitly about how well it can explain human inputs given its hypothesis space and use that situational confidence to inform how it should incorporate human input. We demonstrate our method on a 7 degree-of-freedom robot manipulator in learning from two important types of human input: demonstrations of manipulation tasks, and physical corrections during the robot's task execution.
翻訳日:2023-01-04 08:12:25 公開日:2020-02-28
# ネットワークの同時予測とコミュニティ検出とニューロイメージングへの応用

Simultaneous prediction and community detection for networks with application to neuroimaging ( http://arxiv.org/abs/2002.01645v2 )

ライセンス: Link先を確認
Jes\'us Arroyo, Elizaveta Levina(参考訳) ネットワークのコミュニティ構造は多くの異なる領域で観察され、教師なしのコミュニティ検出は文献で多くの注目を集めている。 ネットワーク分析の焦点は、単にネットワーク自体を分析するのではなく、他の予測や推論タスクでネットワーク情報を使うことにシフトしつつある。 特に神経イメージングの分野では、脳ネットワークは複数の被験者に利用でき、しばしば関心の表現型を予測することが目的である。 コミュニティ構造は脳ネットワークの特徴としてよく知られており、典型的には異なる機能を担う脳の異なる領域に対応する。 正常な被験者の脳コネクトームにクラスタリング法を適用することで得られる、脳のそのような領域への標準的な小包が存在する。 しかしながら、表現型を予測したり、異なる条件を区別する場合、これらの静的コミュニティと無関係な健康な被験者のセットは、予測に最も有用ではないかもしれない。 本稿では,ネットワークの特定の応答の予測に最も有用なコミュニティへの分割を見出すことを目的として,コミュニティ検出を監督する手法を提案する。 本稿では,予測損失関数と組み合わせたブロック構造正規化ペナルティを用いて,スペクトル法とADMM最適化アルゴリズムを組み合わせた解を求める。 スペクトルクラスタリング法は, 重み付き確率ブロックモデルを用いて, 正しいコミュニティを回復することを示す。 この方法は、シミュレーションと実際の脳ネットワークの両方でうまく機能し、タスク依存の脳領域の概念をサポートする。

Community structure in networks is observed in many different domains, and unsupervised community detection has received a lot of attention in the literature. Increasingly the focus of network analysis is shifting towards using network information in some other prediction or inference task rather than just analyzing the network itself. In particular, in neuroimaging applications brain networks are available for multiple subjects and the goal is often to predict a phenotype of interest. Community structure is well known to be a feature of brain networks, typically corresponding to different regions of the brain responsible for different functions. There are standard parcellations of the brain into such regions, usually obtained by applying clustering methods to brain connectomes of healthy subjects. However, when the goal is predicting a phenotype or distinguishing between different conditions, these static communities from an unrelated set of healthy subjects may not be the most useful for prediction. Here we present a method for supervised community detection, aiming to find a partition of the network into communities that is most useful for predicting a particular response. We use a block-structured regularization penalty combined with a prediction loss function, and compute the solution with a combination of a spectral method and an ADMM optimization algorithm. We show that the spectral clustering method recovers the correct communities under a weighted stochastic block model. The method performs well on both simulated and real brain networks, providing support for the idea of task-dependent brain regions.
翻訳日:2023-01-03 21:47:01 公開日:2020-02-28
# 医療におけるベイズネットワークの包括的スコーピング : 過去・現在・未来

A Comprehensive Scoping Review of Bayesian Networks in Healthcare: Past, Present and Future ( http://arxiv.org/abs/2002.08627v2 )

ライセンス: Link先を確認
Evangelia Kyrimi, Scott McLachlan, Kudakwashe Dube, Mariana R. Neves, Ali Fahmi, Norman Fenton(参考訳) 医療におけるベイズネットワーク(BN)の包括的なレビューは過去には発表されておらず、現在の研究貢献の組織化と課題の特定が困難であり、将来対処すべき分野を無視している。 医療におけるBNのユニークな新しいスコーピングレビューは、ドメインとその状態を包括的に特徴付ける分析フレームワークを提供する。 レビューでは,(1)医療におけるBNは,その潜在能力を十分に発揮できていないこと,(2)総合的なBN開発プロセスが欠如していること,(3)医療におけるBNが文献で提示される方法に限界が存在すること,(4)医療の体系的方法論に対する理解,実践,導入に対するコンセンサス,(4)正確なBNと臨床実践に影響を与える有用なBNとの間にギャップが存在すること,などが示されている。 このレビューは、BNの制限された目的、アドホックなBN開発方法、実際的なBN導入の欠如に対処する必要性の理解を可能にする分析的枠組みと知見を研究者や臨床医に与えるものである。 そこで本研究では,今後の研究の方向性を概説し,BN開発手法と実践実践に関する提言を行う。

No comprehensive review of Bayesian networks (BNs) in healthcare has been published in the past, making it difficult to organize the research contributions in the present and identify challenges and neglected areas that need to be addressed in the future. This unique and novel scoping review of BNs in healthcare provides an analytical framework for comprehensively characterizing the domain and its current state. The review shows that: (1) BNs in healthcare are not used to their full potential; (2) a generic BN development process is lacking; (3) limitations exists in the way BNs in healthcare are presented in the literature, which impacts understanding, consensus towards systematic methodologies, practice and adoption of BNs; and (4) a gap exists between having an accurate BN and a useful BN that impacts clinical practice. This review empowers researchers and clinicians with an analytical framework and findings that will enable understanding of the need to address the problems of restricted aims of BNs, ad hoc BN development methods, and the lack of BN adoption in practice. To map the way forward, the paper proposes future research directions and makes recommendations regarding BN development methods and adoption in practice.
翻訳日:2022-12-30 07:44:39 公開日:2020-02-28
# 判別多様体埋め込みとアライメントによる教師なし領域適応

Unsupervised Domain Adaptation via Discriminative Manifold Embedding and Alignment ( http://arxiv.org/abs/2002.08675v2 )

ライセンス: Link先を確認
You-Wei Luo, Chuan-Xian Ren, Pengfei Ge, Ke-Kun Huang, Yu-Feng Yu(参考訳) 教師なしドメイン適応は、ソースドメインから教師なしターゲットドメインへのリッチな情報を活用するのに効果的です。 ディープラーニングと敵戦略は機能の適応性において重要なブレークスルーとなるが、さらに検討すべき問題が2つある。 まず、ターゲットドメインのハードアサインされた擬似ラベルは、本質的なデータ構造にリスクがある。 第二に、深層学習におけるバッチワイドトレーニングの方法は、グローバル構造の記述を制限する。 本稿では,移動可能性と識別可能性の連続性を達成するために,リーマン多様体学習フレームワークを提案する。 最初の問題として,本手法はソフトラベルを用いて,対象領域上の確率的判別基準を確立する。 さらに、この基準は第2号のグローバル近似スキームにまで拡張され、そのような近似もメモリ節約である。 多様体の計量アライメントは埋め込み空間と互換性があるように利用される。 理論誤差境界はアライメントを容易にするために導出される。 比較研究の結果から,一貫した多様体学習フレームワークの優位性が示された。

Unsupervised domain adaptation is effective in leveraging the rich information from the source domain to the unsupervised target domain. Though deep learning and adversarial strategy make an important breakthrough in the adaptability of features, there are two issues to be further explored. First, the hard-assigned pseudo labels on the target domain are risky to the intrinsic data structure. Second, the batch-wise training manner in deep learning limits the description of the global structure. In this paper, a Riemannian manifold learning framework is proposed to achieve transferability and discriminability consistently. As to the first problem, this method establishes a probabilistic discriminant criterion on the target domain via soft labels. Further, this criterion is extended to a global approximation scheme for the second issue; such approximation is also memory-saving. The manifold metric alignment is exploited to be compatible with the embedding space. A theoretical error bound is derived to facilitate the alignment. Extensive experiments have been conducted to investigate the proposal and results of the comparison study manifest the superiority of consistent manifold learning framework.
翻訳日:2022-12-30 06:23:04 公開日:2020-02-28
# 判別器を凍結する: 微調整GANのためのシンプルなベースライン

Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs ( http://arxiv.org/abs/2002.10964v2 )

ライセンス: Link先を確認
Sangwoo Mo, Minsu Cho, Jinwoo Shin(参考訳) GAN(Generative Adversarial Network)は、コンピュータビジョン、グラフィックス、機械学習の幅広い問題において優れた性能を示すが、多くのトレーニングデータと重い計算資源を必要とすることが多い。 この問題に対処するために、いくつかの手法がGANトレーニングに転写学習技術を導入している。 しかし、それらは過度に適合するか、小さな分散シフトを学ぶのに限られる。 本稿では, 判別器の下層を凍結したGANの簡易微調整が驚くほど良好であることを示す。 この単純なベースラインであるFreezeDは、非条件GANと条件GANの両方で使用されている従来の技術よりも大幅に優れている。 アニマルフェイス,アニメフェイス,オックスフォードフラワー,CUB-200-2011,カルテック-256の各データセットに対して,StyleGANおよびSNGANプロジェクションアーキテクチャを用いて一貫した効果を示す。 コードと結果はhttps://github.com/sangwoomo/freezedで入手できる。

Generative adversarial networks (GANs) have shown outstanding performance on a wide range of problems in computer vision, graphics, and machine learning, but often require numerous training data and heavy computational resources. To tackle this issue, several methods introduce a transfer learning technique in GAN training. They, however, are either prone to overfitting or limited to learning small distribution shifts. In this paper, we show that simple fine-tuning of GANs with frozen lower layers of the discriminator performs surprisingly well. This simple baseline, FreezeD, significantly outperforms previous techniques used in both unconditional and conditional GANs. We demonstrate the consistent effect using StyleGAN and SNGAN-projection architectures on several datasets of Animal Face, Anime Face, Oxford Flower, CUB-200-2011, and Caltech-256 datasets. The code and results are available at https://github.com/sangwoomo/FreezeD.
翻訳日:2022-12-28 20:24:43 公開日:2020-02-28
# エンドツーエンド自動音声認識における言語モデル融合に対する密度比アプローチ

A Density Ratio Approach to Language Model Fusion in End-To-End Automatic Speech Recognition ( http://arxiv.org/abs/2002.11268v3 )

ライセンス: Link先を確認
Erik McDermott, Hasim Sak, Ehsan Variani(参考訳) 本稿では、外部言語モデル(LM)を、音声認識(ASR)のためのエンドツーエンドモデルに統合するための密度比アプローチについて述べる。 ある領域で訓練されたリカレントニューラルネットワークトランスデューサ(rnn-t)asrモデル、マッチングされたインドメインrnn-lm、およびターゲットドメインrnn-lmに適用し、提案手法はターゲット領域のrnn-t後方を定義するためにベイズの規則を用いて、隠れマルコフモデル(bourlard & morgan, 1994)フレームワークにおけるディープニューラルネットワーク(dnns)またはlstmに基づくasrの古典的なハイブリッドモデルと直接的に類似している。 提案手法はクロスドメインおよび限定データシナリオで評価され,ターゲットドメインのテキストデータがかなりの量のLMトレーニングに使用されるが,RNN-Tのトレーニングには限られた(あるいはノー) {audio, transcript} のトレーニングデータペアのみを使用する。 具体的には、YouTubeのペア音声と転写データに基づいてトレーニングされたRNN-Tモデルを、Voice Searchデータに一般化する能力について評価する。 密度比法は、LMに対する支配的なアプローチとエンドツーエンドのASR統合であるShallow Fusionよりも一貫して優れていた。

This article describes a density ratio approach to integrating external Language Models (LMs) into end-to-end models for Automatic Speech Recognition (ASR). Applied to a Recurrent Neural Network Transducer (RNN-T) ASR model trained on a given domain, a matched in-domain RNN-LM, and a target domain RNN-LM, the proposed method uses Bayes' Rule to define RNN-T posteriors for the target domain, in a manner directly analogous to the classic hybrid model for ASR based on Deep Neural Networks (DNNs) or LSTMs in the Hidden Markov Model (HMM) framework (Bourlard & Morgan, 1994). The proposed approach is evaluated in cross-domain and limited-data scenarios, for which a significant amount of target domain text data is used for LM training, but only limited (or no) {audio, transcript} training data pairs are used to train the RNN-T. Specifically, an RNN-T model trained on paired audio & transcript data from YouTube is evaluated for its ability to generalize to Voice Search data. The Density Ratio method was found to consistently outperform the dominant approach to LM and end-to-end ASR integration, Shallow Fusion.
翻訳日:2022-12-28 15:26:38 公開日:2020-02-28
# 不完全ラベルによる疾患診断のための動的グラフ相関学習

Dynamic Graph Correlation Learning for Disease Diagnosis with Incomplete Labels ( http://arxiv.org/abs/2002.11629v2 )

ライセンス: Link先を確認
Daizong Liu, Shuangjie Xu, Pan Zhou, Kun He, Wei Wei, Zichuan Xu(参考訳) 胸部x線画像における疾患診断は,マルチラベル分類課題である。 従来の研究は一般に、疾患間の相関を考慮せずに、入力画像に基づいて個別に疾患を分類する。 しかし、そのような相関は実際には存在しており、例えば胸水は気胸があるときに現れる可能性が高い。 本研究では,診断精度を向上させるために,グラフ構造に動的に学習可能な隣接行列を用いて,異なる疾患間の相互依存を調査する新たな視点を示す病的診断グラフ畳み込みネットワーク(DD-GCN)を提案する。 より自然で信頼性の高い相関関係を知るために、各ノードに病の種類に対応する画像レベルの個々の特徴マップを供給します。 本手法は,相関学習のための動的隣接行列を用いて特徴マップ上にグラフを構築する最初の方法である。 不完全ラベルの実践的な問題に対処するため、DD-GCNは適応損失とカリキュラム学習戦略を利用して不完全ラベル上でモデルをトレーニングする。 2つの一般的な胸部X線(CXR)データセットによる実験結果から, 予測精度は最先端よりも優れており, 学習されたグラフ隣接行列は, 専門的経験と整合した異なる疾患の相関表現を確立する。 また,DD-GCNにおける各成分の有効性を示すためにアブレーション法を適用した。

Disease diagnosis on chest X-ray images is a challenging multi-label classification task. Previous works generally classify the diseases independently on the input image without considering any correlation among diseases. However, such correlation actually exists, for example, Pleural Effusion is more likely to appear when Pneumothorax is present. In this work, we propose a Disease Diagnosis Graph Convolutional Network (DD-GCN) that presents a novel view of investigating the inter-dependency among different diseases by using a dynamic learnable adjacency matrix in graph structure to improve the diagnosis accuracy. To learn more natural and reliable correlation relationship, we feed each node with the image-level individual feature map corresponding to each type of disease. To our knowledge, our method is the first to build a graph over the feature maps with a dynamic adjacency matrix for correlation learning. To further deal with a practical issue of incomplete labels, DD-GCN also utilizes an adaptive loss and a curriculum learning strategy to train the model on incomplete labels. Experimental results on two popular chest X-ray (CXR) datasets show that our prediction accuracy outperforms state-of-the-arts, and the learned graph adjacency matrix establishes the correlation representations of different diseases, which is consistent with expert experience. In addition, we apply an ablation study to demonstrate the effectiveness of each component in DD-GCN.
翻訳日:2022-12-28 15:18:24 公開日:2020-02-28
# BERT, CRF, Wikipedia を用いたニュースの潜在的な話題の検出

Detecting Potential Topics In News Using BERT, CRF and Wikipedia ( http://arxiv.org/abs/2002.11402v2 )

ライセンス: Link先を確認
Swapnil Ashok Jadhav(参考訳) Dailyhuntのようなニュースコンテンツ配信プラットフォームにとって、名前付きエンティティ認識は、より良いユーザーレコメンデーションと通知アルゴリズムを構築するための重要なタスクである。 13以上のインドの言語に関するニュースから名前、場所、組織を特定し、アルゴリズムで使用するのとは別に、名前付きエンティティの定義に必ずしも適合しないn-gramも識別する必要があります。 例えば "me too movement", "beef ban", "alwar mob lynching" などである。 この演習では、英語のテキストから重要な情報を伝達し、ニュースのトピックやハッシュタグとして使用できるケースレスn-gramを検出しようとしている。 Modelはウィキペディアのタイトルデータ、プライベート英語ニュースコーパス、BERT-Multilingual事前学習モデル、Bi-GRU、CRFアーキテクチャを使って構築されている。 F1、特にリコールに関して、業界最高のFrair、Spacy、Stanford-caseless-NERと比較すると、有望な結果を示している。

For a news content distribution platform like Dailyhunt, Named Entity Recognition is a pivotal task for building better user recommendation and notification algorithms. Apart from identifying names, locations, organisations from the news for 13+ Indian languages and use them in algorithms, we also need to identify n-grams which do not necessarily fit in the definition of Named-Entity, yet they are important. For example, "me too movement", "beef ban", "alwar mob lynching". In this exercise, given an English language text, we are trying to detect case-less n-grams which convey important information and can be used as topics and/or hashtags for a news. Model is built using Wikipedia titles data, private English news corpus and BERT-Multilingual pre-trained model, Bi-GRU and CRF architecture. It shows promising results when compared with industry best Flair, Spacy and Stanford-caseless-NER in terms of F1 and especially Recall.
翻訳日:2022-12-28 14:59:33 公開日:2020-02-28
# CrossWOZ: 大規模中国のクロスドメインタスク指向対話データセット

CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset ( http://arxiv.org/abs/2002.11893v2 )

ライセンス: Link先を確認
Qi Zhu, Kaili Huang, Zheng Zhang, Xiaoyan Zhu, Minlie Huang(参考訳) マルチドメイン(クロスドメイン)対話モデリングを推進し、中国のタスク指向データセットの不足を軽減するため、中国初の大規模なクロスドメインウィザード・オブ・オズタスク指向データセットであるCrossWOZを提案する。 6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。 さらに、コーパスにはユーザー側とシステム側の両方で対話状態と対話動作の豊富なアノテーションが含まれている。 会話の約60%はドメイン間の依存性を優先し、会話中のドメイン間の自然な遷移を促進するクロスドメインユーザー目標を持っています。 また,パイプライン化されたタスク指向対話システムのためのユーザシミュレータとベンチマークモデルを提供し,このコーパス上でのモデルの比較と評価を容易にする。 CrossWOZの大きなサイズと豊富なアノテーションは、対話状態追跡、ポリシー学習、ユーザシミュレーションなど、クロスドメイン対話モデリングにおける様々なタスクを調査するのに適しています。

To advance multi-domain (cross-domain) dialogue modeling as well as alleviate the shortage of Chinese task-oriented datasets, we propose CrossWOZ, the first large-scale Chinese Cross-Domain Wizard-of-Oz task-oriented dataset. It contains 6K dialogue sessions and 102K utterances for 5 domains, including hotel, restaurant, attraction, metro, and taxi. Moreover, the corpus contains rich annotation of dialogue states and dialogue acts at both user and system sides. About 60% of the dialogues have cross-domain user goals that favor inter-domain dependency and encourage natural transition across domains in conversation. We also provide a user simulator and several benchmark models for pipelined task-oriented dialogue systems, which will facilitate researchers to compare and evaluate their models on this corpus. The large size and rich annotation of CrossWOZ make it suitable to investigate a variety of tasks in cross-domain dialogue modeling, such as dialogue state tracking, policy learning, user simulation, etc.
翻訳日:2022-12-28 08:42:14 公開日:2020-02-28
# セントロイドエンコーダを用いた高次元化と可視化

Supervised Dimensionality Reduction and Visualization using Centroid-encoder ( http://arxiv.org/abs/2002.11934v2 )

ライセンス: Link先を確認
Tomojit Ghosh and Michael Kirby(参考訳) 高次元データの可視化は、データサイエンスと機械学習において必須の課題である。 Centroid-Encoder (CE) メソッドはオートエンコーダと似ているが、ラベル情報を組み込んでクラス内のオブジェクトを視覚化空間に密に保持する。 CEは、データのグローバル構造を捉えながら、低次元の高分散を符号化するために非線形性とラベルを利用する。 本稿では,多種多様なデータセットを用いた手法の詳細な解析を行い,nca,非線形nca,t分布型nca,t分布型mcml,umap,pca,有色最大分散展開,教師付きisomap,パラメトリック埋め込み,教師付き近傍検索ビジュアライザ,複数の関係埋め込みを含む他の教師付き次元縮小手法と比較する。 実験により,Centroid-Encoderはこれらの技術よりも優れていることが示された。 また,データ分散が複数のモダリティに分散すると,centroid-encoderは低次元空間のデータからかなりの量の情報を抽出できることを示した。 この重要な機能は、データを視覚化するツールとして使う価値を確立します。

Visualizing high-dimensional data is an essential task in Data Science and Machine Learning. The Centroid-Encoder (CE) method is similar to the autoencoder but incorporates label information to keep objects of a class close together in the reduced visualization space. CE exploits nonlinearity and labels to encode high variance in low dimensions while capturing the global structure of the data. We present a detailed analysis of the method using a wide variety of data sets and compare it with other supervised dimension reduction techniques, including NCA, nonlinear NCA, t-distributed NCA, t-distributed MCML, supervised UMAP, supervised PCA, Colored Maximum Variance Unfolding, supervised Isomap, Parametric Embedding, supervised Neighbor Retrieval Visualizer, and Multiple Relational Embedding. We empirically show that centroid-encoder outperforms most of these techniques. We also show that when the data variance is spread across multiple modalities, centroid-encoder extracts a significant amount of information from the data in low dimensional space. This key feature establishes its value to use it as a tool for data visualization.
翻訳日:2022-12-28 07:22:28 公開日:2020-02-28
# ディープラーニングによる画像符号化オートエンコーダの改良

Improved Image Coding Autoencoder With Deep Learning ( http://arxiv.org/abs/2002.12521v1 )

ライセンス: Link先を確認
Licheng Xiao, Hairong Wang, Nam Ling(参考訳) 本稿では、画像圧縮における最先端のオープンソース実装であるball\'eのアプローチに基づいて、極端にエンドツーエンドな画像圧縮のためのオートエンコーダベースのパイプラインを構築する。 各層が全く同じ数のダウンサンプリングとアップサンプリングを持つ畳み込み層の前に、さらに1つの隠れ層を追加することで、ネットワークをさらに深めました。 提案手法は,Ball\eのアプローチよりも優れ,画素当たりのビット数の約4.0%削減,マルチスケール構造類似度(MS-SSIM)の0.03%向上,ピーク信号-雑音比(PSNR)のわずか0.47%低下,JPEG2000やHEICを含む従来の画像圧縮手法の圧縮効率の少なくとも20%向上を実現した。 エンコーディングとデコーディングに関しては、従来のgpuをサポートする従来の方法と同等の時間を要するため、産業アプリケーションではほぼ準備が整っています。

In this paper, we build autoencoder based pipelines for extreme end-to-end image compression based on Ball\'e's approach, which is the state-of-the-art open source implementation in image compression using deep learning. We deepened the network by adding one more hidden layer before each strided convolutional layer with exactly the same number of down-samplings and up-samplings. Our approach outperformed Ball\'e's approach, and achieved around 4.0% reduction in bits per pixel (bpp), 0.03% increase in multi-scale structural similarity (MS-SSIM), and only 0.47% decrease in peak signal-to-noise ratio (PSNR), It also outperforms all traditional image compression methods including JPEG2000 and HEIC by at least 20% in terms of compression efficiency at similar reconstruction image quality. Regarding encoding and decoding time, our approach takes similar amount of time compared with traditional methods with the support of GPU, which means it's almost ready for industrial applications.
翻訳日:2022-12-28 02:56:48 公開日:2020-02-28
# 5g無線通信システムのためのビッグデータ有効チャネルモデル

A Big Data Enabled Channel Model for 5G Wireless Communication Systems ( http://arxiv.org/abs/2002.12561v1 )

ライセンス: Link先を確認
Jie Huang, Cheng-Xiang Wang, Lu Bai, Jian Sun, Yang Yang, Jie Li, Olav Tirkkonen, and Ming-Tuo Zhou(参考訳) 第5世代(5G)無線通信の標準化プロセスは最近加速しており、2018年には最初の商用5Gサービスが提供される予定である。 巨大なスマートフォンの増加、新しい複雑なシナリオ、大きな周波数帯、巨大なアンテナ要素、密集した小さなセルは、ビッグデータを生成し、ビッグデータの時代に5g通信をもたらす。 本稿では,ビッグデータ解析,特に無線通信およびチャネルモデリングにおける機械学習アルゴリズムの様々な応用について検討する。 本稿では,ビッグデータと機械学習による無線チャネルモデルフレームワークを提案する。 提案するチャネルモデルは、フィードフォワードニューラルネットワーク(FNN)やラジアル基底関数ニューラルネットワーク(RBF-NN)を含む、人工知能ニューラルネットワーク(ANN)に基づいている。 入力パラメータは送信機(Tx)と受信機(Rx)座標、Tx-Rx距離、キャリア周波数であり、出力パラメータは受信電力、ルート平均平方(RMS)遅延拡散(DS)、RMS角度拡散(AS)を含むチャネル統計特性である。 実チャネル計測と幾何に基づく確率モデル(GBSM)の両方から、ANNのトレーニングとテストに使用されるデータセットを収集する。 シミュレーションの結果,機械学習アルゴリズムが将来の計測に基づく無線チャネルモデリングの強力な解析ツールになり得ることを示す。

The standardization process of the fifth generation (5G) wireless communications has recently been accelerated and the first commercial 5G services would be provided as early as in 2018. The increasing of enormous smartphones, new complex scenarios, large frequency bands, massive antenna elements, and dense small cells will generate big datasets and bring 5G communications to the era of big data. This paper investigates various applications of big data analytics, especially machine learning algorithms in wireless communications and channel modeling. We propose a big data and machine learning enabled wireless channel model framework. The proposed channel model is based on artificial neural networks (ANNs), including feed-forward neural network (FNN) and radial basis function neural network (RBF-NN). The input parameters are transmitter (Tx) and receiver (Rx) coordinates, Tx-Rx distance, and carrier frequency, while the output parameters are channel statistical properties, including the received power, root mean square (RMS) delay spread (DS), and RMS angle spreads (ASs). Datasets used to train and test the ANNs are collected from both real channel measurements and a geometry based stochastic model (GBSM). Simulation results show good performance and indicate that machine learning algorithms can be powerful analytical tools for future measurement-based wireless channel modeling.
翻訳日:2022-12-28 02:56:29 公開日:2020-02-28
# mc^2ram$:高速ベイズ推定のためのsramにおけるマルコフ連鎖モンテカルロサンプリング

$MC^2RAM$: Markov Chain Monte Carlo Sampling in SRAM for Fast Bayesian Inference ( http://arxiv.org/abs/2003.02629v1 )

ライセンス: Link先を確認
Priyesh Shukla, Ahish Shylendra, Theja Tulabandhula, and Amit Ranjan Trivedi(参考訳) 本稿では,SRAM内の任意のガウス混合モデル(GMM)からマルコフ・チェイン・モンテカルロ(MCMC)をサンプリングする手法について述べる。 本稿では,乱数生成器(RNG),デジタル・アナログ変換器(DAC),アナログ・デジタル変換器(ADC)を組み込んで,SRAMアレイを高性能なメトロポリス・ハスティングス(MH)アルゴリズムに基づくMCMCサンプリングに利用できるようにする。 高価な計算のほとんどはSRAM内で行われ、高速サンプリングのために並列化することができる。 我々の反復計算フローはサンプリング時のデータ移動を最小化する。 我々は45nmCMOS技術でシミュレーションすることで、設計の電力効率のトレードオフを特徴づける。 2次元の混合GMMでは、サンプリング繰り返しごとに91マイクロワットの電力を消費し、平均1GHzのクロック周波数で2000クロックサイクルで500のサンプルを生成する。 本研究は,低レベルのハードウェア非イデオロギーが高レベルのサンプリング特性に与える影響について興味深い知見を示し,高パフォーマンスサンプリングのための領域/電力制約内でSRAMを最適に操作する方法を推奨する。

This work discusses the implementation of Markov Chain Monte Carlo (MCMC) sampling from an arbitrary Gaussian mixture model (GMM) within SRAM. We show a novel architecture of SRAM by embedding it with random number generators (RNGs), digital-to-analog converters (DACs), and analog-to-digital converters (ADCs) so that SRAM arrays can be used for high performance Metropolis-Hastings (MH) algorithm-based MCMC sampling. Most of the expensive computations are performed within the SRAM and can be parallelized for high speed sampling. Our iterative compute flow minimizes data movement during sampling. We characterize power-performance trade-off of our design by simulating on 45 nm CMOS technology. For a two-dimensional, two mixture GMM, the implementation consumes ~ 91 micro-Watts power per sampling iteration and produces 500 samples in 2000 clock cycles on an average at 1 GHz clock frequency. Our study highlights interesting insights on how low-level hardware non-idealities can affect high-level sampling characteristics, and recommends ways to optimally operate SRAM within area/power constraints for high performance sampling.
翻訳日:2022-12-28 02:55:31 公開日:2020-02-28
# 自律走行車両の保証におけるギャップの特定と閉鎖に向けて -技術ノートの収集 その1-

Towards Identifying and closing Gaps in Assurance of autonomous Road vehicleS -- a collection of Technical Notes Part 1 ( http://arxiv.org/abs/2003.00789v1 )

ライセンス: Link先を確認
Robin Bloomfield (1 and 2), Gareth Fletcher (1), Heidy Khlaaf (1), Philippa Ryan (1), Shuji Kinoshita (3), Yoshiki Kinoshit (3), Makoto Takeyama (3), Yutaka Matsubara (4), Peter Popov (2) Kazuki Imai (5), Yoshinori Tsutake (5) ((1) Adelard LLP, (2) City University of London, (3) Kanagawa University, (4) Nagoya University, (5) Witz Corporation)(参考訳) 本報告では,自動走行車両(Tigars)プロジェクトにおけるギャップの特定と閉鎖にともなう技術的話題ノート(TTN)の概要について紹介する。 これらのノートは、自動運転車の開発と評価を支援することを目的としている。 パート1は、保証のオーバービューと課題、レジリエンスと安全要件、オープンシステムの観点からの展望とMLシステムの形式的検証と静的分析。 パート2:シミュレーションと動的テスト、深さと多様性の防衛、セキュリティインフォームド安全分析、標準およびガイドライン。

This report provides an introduction and overview of the Technical Topic Notes (TTNs) produced in the Towards Identifying and closing Gaps in Assurance of autonomous Road vehicleS (Tigars) project. These notes aim to support the development and evaluation of autonomous vehicles. Part 1 addresses: Assurance-overview and issues, Resilience and Safety Requirements, Open Systems Perspective and Formal Verification and Static Analysis of ML Systems. Part 2: Simulation and Dynamic Testing, Defence in Depth and Diversity, Security-Informed Safety Analysis, Standards and Guidelines.
翻訳日:2022-12-28 02:54:41 公開日:2020-02-28
# 二元質問票における根尖パターンの探索

Finding archetypal patterns for binary questionnaires ( http://arxiv.org/abs/2003.00043v1 )

ライセンス: Link先を確認
Ismael Cabero, Irene Epifanio(参考訳) Archetypal分析は、純粋な(極端)パターンの混合として観測の集合を説明する探索的なツールである。 パターンが実際のサンプルの観察である場合は、これをarchetypoidsと呼ぶ。 今回我々は,2次観測にarchetypoid analysisを使うことを初めて提案する。 このツールは、多変数の場合のようにバイナリデータセットの理解に寄与することができる。 本研究では,提案手法の利点をシミュレーション研究と,探索対象(rows)と探索対象(columns)の2つの応用で示す。 1つは、学生スキルセットプロファイルの決定と、もう1つは項目応答関数を記述することである。

Archetypal analysis is an exploratory tool that explains a set of observations as mixtures of pure (extreme) patterns. If the patterns are actual observations of the sample, we refer to them as archetypoids. For the first time, we propose to use archetypoid analysis for binary observations. This tool can contribute to the understanding of a binary data set, as in the multivariate case. We illustrate the advantages of the proposed methodology in a simulation study and two applications, one exploring objects (rows) and the other exploring items (columns). One is related to determining student skill set profiles and the other to describing item response functions.
翻訳日:2022-12-28 02:50:30 公開日:2020-02-28
# 動的ブラッドリー・テリーモデルにおける非パラメトリック推定

Nonparametric Estimation in the Dynamic Bradley-Terry Model ( http://arxiv.org/abs/2003.00083v1 )

ライセンス: Link先を確認
Heejong Bong, Wanshan Li, Shamindra Shrotriya, Alessandro Rinaldo(参考訳) 異なるチームの動的グローバルランキングの非パラメトリックモデリングを可能にするBradley-Terryモデルの時変一般化を提案する。 カーネルの平滑化を利用してペア比較を時間とともに前処理し,Bradley-Terry が適合しないスパース設定に適用できる新しい推定器を開発した。 我々は、推定器の存在と一意性に必要かつ十分な条件を得る。 また,bradley-terryモデルが必ずしも真のデータ生成プロセスではないようなモデル非依存設定において,推定誤差と過剰リスクの両方に対して,oracleの時間的制約を導出する。 シミュレーションデータと実世界データの両方を用いて,本モデルの有効性を徹底的に検証し,帯域調整のための効率的なデータ駆動アプローチを提案する。

We propose a time-varying generalization of the Bradley-Terry model that allows for nonparametric modeling of dynamic global rankings of distinct teams. We develop a novel estimator that relies on kernel smoothing to pre-process the pairwise comparisons over time and is applicable in sparse settings where the Bradley-Terry may not be fit. We obtain necessary and sufficient conditions for the existence and uniqueness of our estimator. We also derive time-varying oracle bounds for both the estimation error and the excess risk in the model-agnostic setting where the Bradley-Terry model is not necessarily the true data generating process. We thoroughly test the practical effectiveness of our model using both simulated and real world data and suggest an efficient data-driven approach for bandwidth tuning.
翻訳日:2022-12-28 02:50:20 公開日:2020-02-28
# ホテル検索における非バイアス学習のための位置バイアスの扱い

Handling Position Bias for Unbiased Learning to Rank in Hotels Search ( http://arxiv.org/abs/2002.12528v1 )

ライセンス: Link先を確認
Yinxiao Li(参考訳) 現在、検索ランキングとレコメンデーションシステムは、与えられたクエリの結果をランク付けするためにLTR(Learning-to-Rank)モデルのような機械学習モデルをトレーニングするために多くのデータに依存しており、特に大手インターネット企業において、その量とコストのために暗黙のユーザーフィードバック(例えばクリックデータ)がデータ収集の主流となっている。 しかし、このデータ収集アプローチの欠点は、データのバイアスが非常に大きいことであり、最も重要なバイアスの1つは位置バイアスである。 本稿では,Tripadvisor Hotelsサーチにおけるオンラインテスト環境における位置バイアスを適切に扱うことの重要性について検討する。 本稿では,ユーザの行動データを完全に活用した位置バイアスの処理方法を提案する。 ユーザが結果をクリックすると、上述のすべての結果がほぼ確実に観察され、クリック結果以下の結果の妥当性は、単純だが効果的な位置バイアスモデルによって推定されるという事実を生かしている。 オンラインA/Bテストの結果,この手法が検索ランキングモデルの改善につながることが示された。

Nowadays, search ranking and recommendation systems rely on a lot of data to train machine learning models such as Learning-to-Rank (LTR) models to rank results for a given query, and implicit user feedbacks (e.g. click data) have become the dominant source of data collection due to its abundance and low cost, especially for major Internet companies. However, a drawback of this data collection approach is the data could be highly biased, and one of the most significant biases is the position bias, where users are biased towards clicking on higher ranked results. In this work, we will investigate the marginal importance of properly handling the position bias in an online test environment in Tripadvisor Hotels search. We propose an empirically effective method of handling the position bias that fully leverages the user action data. We take advantage of the fact that when user clicks a result, he has almost certainly observed all the results above, and the propensities of the results below the clicked result will be estimated by a simple but effective position bias model. The online A/B test results show that this method leads to an improved search ranking model.
翻訳日:2022-12-28 02:49:51 公開日:2020-02-28
# scale-net:エッジエンハンスグラフ畳み込みニューラルネットワークによるランダムな車両数に基づくスケーラブルな車両軌道予測ネットワーク

SCALE-Net: Scalable Vehicle Trajectory Prediction Network under Random Number of Interacting Vehicles via Edge-enhanced Graph Convolutional Neural Network ( http://arxiv.org/abs/2002.12609v1 )

ライセンス: Link先を確認
Hyeongseok Jeon, Junwon Choi, Dongsuk Kum(参考訳) ランダムに変化する交通レベルにおける周辺車両の将来の軌道予測は、自律走行車の開発において最も難しい課題の1つである。 相互作用する車両の数が予め定義されていないため、精度と計算負荷の両面での一貫性を保証するため、予測ネットワークは車両番号に関してスケーラブルでなければならない。 本稿では,周囲車両数によらず,高い予測性能と一貫した計算負荷を両立できる,初の完全スケーラブルな軌道予測ネットワークであるscale-netを提案する。 scale-netは、車間相互作用埋め込みネットワークにエッジエンハンスグラフ畳み込みニューラルネットワーク(egcn)を用いる。 提案するECCNはグラフノード(本研究のエージェント)に対して本質的にスケーラブルであるため,検討対象車両の総数から独立してモデルを操作することができる。 NGSIMデータセット上でのSCALE-Netのスケーラビリティを,各走行シーン毎の計算時間と予測精度の変動を,車両数に応じて比較することにより評価した。 実験の結果,SCALE-Netの計算時間と予測性能は,トラフィックの複雑さに関わらず,従来モデルよりも一貫して優れていたことがわかった。

Predicting the future trajectory of surrounding vehicles in a randomly varying traffic level is one of the most challenging problems in developing an autonomous vehicle. Since there is no pre-defined number of interacting vehicles participate in, the prediction network has to be scalable with respect to the vehicle number in order to guarantee the consistency in terms of both accuracy and computational load. In this paper, the first fully scalable trajectory prediction network, SCALE-Net, is proposed that can ensure both higher prediction performance and consistent computational load regardless of the number of surrounding vehicles. The SCALE-Net employs the Edge-enhance Graph Convolutional Neural Network (EGCN) for the inter-vehicular interaction embedding network. Since the proposed EGCN is inherently scalable with respect to the graph node (an agent in this study), the model can be operated independently from the total number of vehicles considered. We evaluated the scalability of the SCALE-Net on the publically available NGSIM datasets by comparing variations on computation time and prediction accuracy per single driving scene with respect to the varying vehicle number. The experimental test shows that both computation time and prediction performance of the SCALE-Net consistently outperform those of previous models regardless of the level of traffic complexities.
翻訳日:2022-12-28 02:48:47 公開日:2020-02-28
# 腎生検における間質線維症, 管状萎縮症, 糸球体硬化症の神経回路分割

Neural Network Segmentation of Interstitial Fibrosis, Tubular Atrophy, and Glomerulosclerosis in Renal Biopsies ( http://arxiv.org/abs/2002.12868v1 )

ライセンス: Link先を確認
Brandon Ginley (1), Kuang-Yu Jen (2), Avi Rosenberg (3), Felicia Yen (2), Sanjay Jain (4), Agnes Fogo (5), Pinaki Sarder (1 and 6 and 7) ((1) Department of Pathology & Anatomical Sciences, University at Buffalo, the State University of New York, Buffalo, New York, (2) Department of Pathology and Laboratory Medicine, University of California, Davis Medical Center, Sacramento, California, (3) Department of Pathology, Johns Hopkins University School of Medicine, Baltimore, Maryland, (4) Division of Nephrology, Department of Medicine, Washington University School of Medicine, St. Louis, Missouri, (5) Departments of Pathology, Microbiology, Immunology and Medicine, Vanderbilt University, Nashville, Tennessee, (6) Department of Biostatistics, University at Buffalo, the State University of New York, Buffalo, New York, (7) Department of Biomedical Engineering, University at Buffalo, the State University of New York, Buffalo, New York)(参考訳) 糸球体硬化症,間質線維症,尿細管萎縮症(IFTA)は腎障害の組織学的指標である。 標準的な臨床では、腎病理医は顕微鏡下、硬化性糸球体の割合、およびIFTAによる腎皮質の関与率を視覚的に評価する。 IFTAの推定は、様々なスペクトルと形態的表現の定義による主観的過程である。 現代の人工知能とコンピュータビジョンアルゴリズムは、厳密な量子化によってサーバ間変動を減らすことができる。 本研究では,周期性酸性染色腎生検における糸球体硬化とIFTAのセグメンテーションに畳み込みニューラルネットワークを適用した。 畳み込みネットワークアプローチは,システム内ホールドアウトデータにおいて高いパフォーマンスを達成し,ネットワークがトレーニングで見たことのない直観的ホールドアウトデータにおいて,適度なパフォーマンスを達成している。 畳み込みアプローチは、提供された基礎的真理よりもよい領域を予測するための学習や、セグメント性硬化症の独自の概念化など、興味深い性質を示した。 IFTAおよび糸球体硬化率のその後の推定は,地上真実と高い相関を示した。

Glomerulosclerosis, interstitial fibrosis, and tubular atrophy (IFTA) are histologic indicators of irrecoverable kidney injury. In standard clinical practice, the renal pathologist visually assesses, under the microscope, the percentage of sclerotic glomeruli and the percentage of renal cortical involvement by IFTA. Estimation of IFTA is a subjective process due to a varied spectrum and definition of morphological manifestations. Modern artificial intelligence and computer vision algorithms have the ability to reduce inter-observer variability through rigorous quantitation. In this work, we apply convolutional neural networks for the segmentation of glomerulosclerosis and IFTA in periodic acid-Schiff stained renal biopsies. The convolutional network approach achieves high performance in intra-institutional holdout data, and achieves moderate performance in inter-intuitional holdout data, which the network had never seen in training. The convolutional approach demonstrated interesting properties, such as learning to predict regions better than the provided ground truth as well as developing its own conceptualization of segmental sclerosis. Subsequent estimations of IFTA and glomerulosclerosis percentages showed high correlation with ground truth.
翻訳日:2022-12-28 02:48:27 公開日:2020-02-28
# ディープラーニングを用いたMRIのノイズ・アーティファクト低減

Review: Noise and artifact reduction for MRI using deep learning ( http://arxiv.org/abs/2002.12889v1 )

ライセンス: Link先を確認
Daiki Tamada(参考訳) ここ数年、MRIのノイズやアーティファクトを減らすために多くの試みがなされてきた。 これらの問題に対処する多くの方法が成功しているが、その複雑なメカニズムのため、臨床画像の実践的な実装は依然として困難である。 近年,強固なmr画像処理を実現するための機械学習アプローチとして,ディープラーニングが注目されている。 そこで本研究の目的は,MRIの深層学習によるノイズとアーティファクトの低減について検討することである。

For several years, numerous attempts have been made to reduce noise and artifacts in MRI. Although there have been many successful methods to address these problems, practical implementation for clinical images is still challenging because of its complicated mechanism. Recently, deep learning received considerable attention, emerging as a machine learning approach in delivering robust MR image processing. The purpose here is therefore to explore further and review noise and artifact reduction using deep learning for MRI.
翻訳日:2022-12-28 02:48:08 公開日:2020-02-28
# 電極配置が一貫した難治性表面筋電図スリーブは、深層学習による異所性および安定した補綴制御を可能にする

Inexpensive surface electromyography sleeve with consistent electrode placement enables dexterous and stable prosthetic control through deep learning ( http://arxiv.org/abs/2003.00070v1 )

ライセンス: Link先を確認
Jacob A. George, Anna Neibling, Michael D. Paskett, Gregory A. Clark(参考訳) 従来の筋電義歯のデキスタリティは、部分的には制御アルゴリズムのトレーニングに使われる小さなデータセットによって制限されている。 表面電極位置の変動により、一貫したデータを収集し、時間とともに確実にモータの意図を推定することが困難になる。 この課題に対処するために,32個の埋込型単極電極からロバストで繰り返し可能な表面筋電図を記録できる安価なスリーブを開発した。 埋め込まれたグロメットは、スリーブを天然の皮膚マーキング(モグラ、ヒラメ、傷跡など)と一貫して調整するために使用される。 スリーブは数時間で60ドル以下で製造できる。 7人の無傷参加者のデータは、スリーブの信号対雑音比が14、ドンタイムが11秒未満、電極配置の精度がサブセンチメートルであることを示している。 さらに,1人の無傷参加者を対象としたケーススタディでは,最初のアルゴリズムトレーニングから263日経っても,ニューラルネットワークが6自由度を同時にかつ比例的に制御できることを示すためにスリーブを用いた。 また、大規模なデータセットを確立するために時間とともに蓄積された一貫した記録がデクスタリティを著しく改善する点も強調する。 以上の結果から,74層ニューラルネットワークを用いた深層学習は筋電義足制御のデクタリティと安定性を著しく向上し,安価で安定した記録位置のスリーブ/ソッケを用いて,深層学習技術を容易にインスタンス化し,さらに検証することができることが示唆された。

The dexterity of conventional myoelectric prostheses is limited in part by the small datasets used to train the control algorithms. Variations in surface electrode positioning make it difficult to collect consistent data and to estimate motor intent reliably over time. To address these challenges, we developed an inexpensive, easy-to-don sleeve that can record robust and repeatable surface electromyography from 32 embedded monopolar electrodes. Embedded grommets are used to consistently align the sleeve with natural skin markings (e.g., moles, freckles, scars). The sleeve can be manufactured in a few hours for less than $60. Data from seven intact participants show the sleeve provides a signal-to-noise ratio of 14, a don-time under 11 seconds, and sub-centimeter precision for electrode placement. Furthermore, in a case study with one intact participant, we use the sleeve to demonstrate that neural networks can provide simultaneous and proportional control of six degrees of freedom, even 263 days after initial algorithm training. We also highlight that consistent recordings, accumulated over time to establish a large dataset, significantly improve dexterity. These results suggest that deep learning with a 74-layer neural network can substantially improve the dexterity and stability of myoelectric prosthetic control, and that deep-learning techniques can be readily instantiated and further validated through inexpensive sleeves/sockets with consistent recording locations.
翻訳日:2022-12-28 02:47:59 公開日:2020-02-28
# あなたはこの部分割り当てに満足していますか?

Are You Satisfied by This Partial Assignment? ( http://arxiv.org/abs/2003.04225v1 )

ライセンス: Link先を確認
Roberto Sebastiani(参考訳) SATおよびSAT関連問題(特に真理代入を満たす完全列挙を必要とする場合)の多くの手順は、入力式を満たす部分代入の検出にその効率を頼っている。 本稿では, 非CNFおよび存在量式を扱う場合, 特に部分割当満足度の概念を解析し, この概念の曖昧さと微妙さに関する旗を掲げ, その実践的結果について考察する。 これにより、より効率的な代入列挙アルゴリズムの開発が進められる可能性がある。

Many procedures for SAT and SAT-related problems -- in particular for those requiring the complete enumeration of satisfying truth assignments -- rely their efficiency on the detection of partial assignments satisfying an input formula. In this paper we analyze the notion of partial-assignment satisfiability -- in particular when dealing with non-CNF and existentially-quantified formulas -- raising a flag about the ambiguities and subtleties of this concept, and investigating their practical consequences. This may drive the development of more effective assignment-enumeration algorithms.
翻訳日:2022-12-28 02:41:26 公開日:2020-02-28
# オンライン偽発見率制御のための構造適応逐次テスト

Structure-Adaptive Sequential Testing for Online False Discovery Rate Control ( http://arxiv.org/abs/2003.00113v1 )

ライセンス: Link先を確認
Bowen Gang, Wenguang Sun, and Weinan Wang(参考訳) Consider the online testing of a stream of hypotheses where a real--time decision must be made before the next data point arrives. The error rate is required to be controlled at {all} decision points. Conventional \emph{simultaneous testing rules} are no longer applicable due to the more stringent error constraints and absence of future data. Moreover, the online decision--making process may come to a halt when the total error budget, or alpha--wealth, is exhausted. This work develops a new class of structure--adaptive sequential testing (SAST) rules for online false discover rate (FDR) control. 我々の提案の重要な要素は、逐次決定における利得と損失を正確に特徴付ける新しいアルファ投資アルゴリズムである。 SASTはデータストリームの時間変化構造をキャプチャし、最適なしきい値を継続的な方法で学習し、異なる期間にわたってアルファウェルス割り当てを最適化する。 提案手法はオンラインFDR制御に有効であり,既存のオンラインテストルールよりもかなりのパワーゲインが得られることを示す理論と数値的な結果を示す。

Consider the online testing of a stream of hypotheses where a real--time decision must be made before the next data point arrives. The error rate is required to be controlled at {all} decision points. Conventional \emph{simultaneous testing rules} are no longer applicable due to the more stringent error constraints and absence of future data. Moreover, the online decision--making process may come to a halt when the total error budget, or alpha--wealth, is exhausted. This work develops a new class of structure--adaptive sequential testing (SAST) rules for online false discover rate (FDR) control. A key element in our proposal is a new alpha--investment algorithm that precisely characterizes the gains and losses in sequential decision making. SAST captures time varying structures of the data stream, learns the optimal threshold adaptively in an ongoing manner and optimizes the alpha-wealth allocation across different time periods. We present theory and numerical results to show that the proposed method is valid for online FDR control and achieves substantial power gain over existing online testing rules.
翻訳日:2022-12-28 02:41:18 公開日:2020-02-28
# 自己中心視支援のための物体定位におけるハンドプリミング

Hand-Priming in Object Localization for Assistive Egocentric Vision ( http://arxiv.org/abs/2002.12557v1 )

ライセンス: Link先を確認
Kyungjun Lee, Abhinav Shrivastava, Hernisa Kacorri(参考訳) エゴセントリックなビジョンは、視覚情報へのアクセスを増やし、視覚障害者の生活の質を向上させるという大きな約束を持っている。 認識性能の向上に努めているが,視覚的フィードバックを伴わないカメラの課題のため,対象物はフレームに含まれない場合があるため,ユーザにとってどの対象が関心を持つかを特定することは依然として困難である。 また、自我中心視の関心領域を推測するために一般的に用いられる視線情報は、しばしば信頼できない。 しかし、視覚障害者は、認識したい物体と相互作用するか、カメラを狙うために近接させるかのどちらかを手に入れる傾向がある。 対象物の中心領域をプライミングするための文脈情報として,手の存在を利用する局所化モデルを提案する。 提案手法では,ハンドセグメンテーションは局所化ネットワーク全体または最終畳み込み層に供給される。 視覚障害者と視覚障害者の自己中心型データセットを用いて,手-対象間インタラクションを局所的にエンコードするファインチューニング,マルチクラス,マルチタスク学習など,他のアプローチよりも高い精度を実現することを示す。

Egocentric vision holds great promises for increasing access to visual information and improving the quality of life for people with visual impairments, with object recognition being one of the daily challenges for this population. While we strive to improve recognition performance, it remains difficult to identify which object is of interest to the user; the object may not even be included in the frame due to challenges in camera aiming without visual feedback. Also, gaze information, commonly used to infer the area of interest in egocentric vision, is often not dependable. However, blind users often tend to include their hand either interacting with the object that they wish to recognize or simply placing it in proximity for better camera aiming. We propose localization models that leverage the presence of the hand as the contextual information for priming the center area of the object of interest. In our approach, hand segmentation is fed to either the entire localization network or its last convolutional layers. Using egocentric datasets from sighted and blind individuals, we show that the hand-priming achieves higher precision than other approaches, such as fine-tuning, multi-class, and multi-task learning, which also encode hand-object interactions in localization.
翻訳日:2022-12-28 02:40:05 公開日:2020-02-28
# Prologを用いた高等学校幾何学証明生成の教育文脈における自動化

Automating the Generation of High School Geometry Proofs using Prolog in an Educational Context ( http://arxiv.org/abs/2002.12551v1 )

ライセンス: Link先を確認
Ludovic Font (\'Ecole Polytechnique de Montr\'eal), S\'ebastien Cyr (Universit\'e de Montr\'eal), Philippe R. Richard (Universit\'e de Montr\'eal), Michel Gagnon (\'Ecole Polytechnique de Montr\'eal)(参考訳) 数学教育とその特異性のために設計されたインテリジェントチューターシステムに取り組む場合,次のステップを期待して,学生に適切な支援を提供することが興味深い。 これは、事前に、問題の解決可能な方法を知ることでのみ実現できる。 したがって、学生が書くような証明を提供する自動定理証明器が必要である。 この目的を達成するために、論理プログラミングは推論による数学的証明との推論の類似性から自然なツールである。 本稿では, prolog のエンコーディングから証明の完全集合の生成まで,このような証明器の実装に用いた基本概念について述べる。 しかし、教育的側面を扱う際には克服すべき課題が数多くある。 また、私たちが遭遇した主な問題や選択した解決策も提示します。

When working on intelligent tutor systems designed for mathematics education and its specificities, an interesting objective is to provide relevant help to the students by anticipating their next steps. This can only be done by knowing, beforehand, the possible ways to solve a problem. Hence the need for an automated theorem prover that provide proofs as they would be written by a student. To achieve this objective, logic programming is a natural tool due to the similarity of its reasoning with a mathematical proof by inference. In this paper, we present the core ideas we used to implement such a prover, from its encoding in Prolog to the generation of the complete set of proofs. However, when dealing with educational aspects, there are many challenges to overcome. We also present the main issues we encountered, as well as the chosen solutions.
翻訳日:2022-12-28 02:39:18 公開日:2020-02-28
# MANet:3次元形状認識のためのマルチモーダルアテンションネットワークに基づくポイントビュー融合

MANet: Multimodal Attention Network based Point- View fusion for 3D Shape Recognition ( http://arxiv.org/abs/2002.12573v1 )

ライセンス: Link先を確認
Yaxin Zhao, Jichao Jiao and Tangkun Zhang(参考訳) 3次元視覚研究の課題として3次元形状認識が注目されている。 3Dデータの拡散は、3Dデータに基づく様々なディープラーニング手法を促進する。 現在、ポイントクラウドデータまたはマルチビューデータのみに基づく多くのディープラーニングモデルが存在する。 しかし、ビッグデータ時代には、2つの異なるモーダルのデータを統合することで、統一された3d形状記述子を得ることができ、認識精度が向上する。 そこで本稿では,3次元形状認識のためのマルチモーダル注意機構に基づく融合ネットワークを提案する。 マルチビューデータの制限を考慮して,グローバルなポイントクラウド機能を用いてマルチビュー特徴をフィルタリングし,その2つの特徴の効果的融合を実現するソフトアテンション方式を導入する。 具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングし、さらに、ポイントクラウド特徴と拡張マルチビュー特徴を融合させて、より識別性の高い3次元形状記述子を得る。 我々は,ModelNet40データセット上で関連する実験を行い,本手法の有効性を検証した。

3D shape recognition has attracted more and more attention as a task of 3D vision research. The proliferation of 3D data encourages various deep learning methods based on 3D data. Now there have been many deep learning models based on point-cloud data or multi-view data alone. However, in the era of big data, integrating data of two different modals to obtain a unified 3D shape descriptor is bound to improve the recognition accuracy. Therefore, this paper proposes a fusion network based on multimodal attention mechanism for 3D shape recognition. Considering the limitations of multi-view data, we introduce a soft attention scheme, which can use the global point-cloud features to filter the multi-view features, and then realize the effective fusion of the two features. More specifically, we obtain the enhanced multi-view features by mining the contribution of each multi-view image to the overall shape recognition, and then fuse the point-cloud features and the enhanced multi-view features to obtain a more discriminative 3D shape descriptor. We have performed relevant experiments on the ModelNet40 dataset, and experimental results verify the effectiveness of our method.
翻訳日:2022-12-28 02:33:05 公開日:2020-02-28
# 神経遺伝関係誘導型ワンショット層割当て探索

Neural Inheritance Relation Guided One-Shot Layer Assignment Search ( http://arxiv.org/abs/2002.12580v1 )

ライセンス: Link先を確認
Rang Meng, Weijie Chen, Di Xie, Yuan Zhang, Shiliang Pu(参考訳) 階層割り当ては、ニューラルネットワーク検索において独立した研究トピックとして選択されることがほとんどありません。 本稿では,CIFAR-100上にレイヤ割り当てのアーキテクチャデータセットを構築することにより,異なるレイヤ割り当てがネットワーク性能に与える影響を,初めて系統的に検討する。 このデータセットを解析することにより、異なる層割り当てを持つネットワーク間のニューラルネットワークの継承関係、すなわち、深層ネットワークの最適な層割り当ては、常に浅いネットワークのそれから継承される。 このニューラル継承関係に着想を得て,遺伝サンプリングによる効率的なワンショット層割当て探索手法を提案する。 具体的には、浅層ネットワークで探索された最適層割り当てを、スーパーネットの深層ネットワークの訓練と探索に先立つ強力なサンプリングとして提供し、ネットワークの探索空間を著しく削減することができる。 CIFAR-100の総合的な実験により,提案手法の有効性が示された。 検索結果は,アーキテクチャデータセットから直接選択した最適なものと強く一致している。 さらに,提案手法の一般化を確認するため,Tiny-ImageNetとImageNetの実験を行った。 検索結果は計算予算の変動により手作りのものよりもはるかに優れている。 この論文で発見された神経遺伝関係は、ユニバーサルニューラルアーキテクチャ探索への洞察を与えることができる。

Layer assignment is seldom picked out as an independent research topic in neural architecture search. In this paper, for the first time, we systematically investigate the impact of different layer assignments to the network performance by building an architecture dataset of layer assignment on CIFAR-100. Through analyzing this dataset, we discover a neural inheritance relation among the networks with different layer assignments, that is, the optimal layer assignments for deeper networks always inherit from those for shallow networks. Inspired by this neural inheritance relation, we propose an efficient one-shot layer assignment search approach via inherited sampling. Specifically, the optimal layer assignment searched in the shallow network can be provided as a strong sampling priori to train and search the deeper ones in supernet, which extremely reduces the network search space. Comprehensive experiments carried out on CIFAR-100 illustrate the efficiency of our proposed method. Our search results are strongly consistent with the optimal ones directly selected from the architecture dataset. To further confirm the generalization of our proposed method, we also conduct experiments on Tiny-ImageNet and ImageNet. Our searched results are remarkably superior to the handcrafted ones under the unchanged computational budgets. The neural inheritance relation discovered in this paper can provide insights to the universal neural architecture search.
翻訳日:2022-12-28 02:32:49 公開日:2020-02-28
# 複数のビデオカメラを用いたリアルタイム多人数モーションキャプチャのための4Dアソシエーショングラフ

4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras ( http://arxiv.org/abs/2002.12625v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Liang An, Tao Yu, Xiu Li, Kun Li, Yebin Liu(参考訳) 本稿では,マルチビュー映像入力を用いたリアルタイムマルチパーソンモーションキャプチャアルゴリズムを提案する。 各ビューの重度の閉塞のため、マルチビュー画像と複数のテンポラルフレームの協調最適化は不可欠であり、リアルタイム効率に欠かせない課題となっている。 この目的のために,1つの最適化フレームワーク,すなわち,各次元(画像空間,視点,時間)を等しく同時に扱うことができる4次元アソシエーショングラフに,ビュー毎のパース,クロスビューマッチング,時間追跡を初めて統一する。 この4次元アソシエーショングラフを効率的に解くために, ヒューリスティック探索に基づく4次元辺縁束解析のアイデアと, バンドルkruskalのアルゴリズムの提案による辺縁束の組み立てを更に提案する。 本手法は,5人のシーンで5台のカメラを用いて,30fpsのリアルタイムオンラインモーションキャプチャシステムを実現する。 統合構文解析,マッチング,追跡の制約により,本手法はノイズ検出に頑健であり,高品質なオンラインポーズ復元品質を実現する。 提案手法は,高レベルの外観情報を用いることなく,最先端の手法を定量的に評価する。 また,マルチビュー映像データセットをマーカーベースのモーションキャプチャシステムと同期させて,科学的評価を行う。

This paper contributes a novel realtime multi-person motion capture algorithm using multiview video inputs. Due to the heavy occlusions in each view, joint optimization on the multiview images and multiple temporal frames is indispensable, which brings up the essential challenge of realtime efficiency. To this end, for the first time, we unify per-view parsing, cross-view matching, and temporal tracking into a single optimization framework, i.e., a 4D association graph that each dimension (image space, viewpoint and time) can be treated equally and simultaneously. To solve the 4D association graph efficiently, we further contribute the idea of 4D limb bundle parsing based on heuristic searching, followed with limb bundle assembling by proposing a bundle Kruskal's algorithm. Our method enables a realtime online motion capture system running at 30fps using 5 cameras on a 5-person scene. Benefiting from the unified parsing, matching and tracking constraints, our method is robust to noisy detection, and achieves high-quality online pose reconstruction quality. The proposed method outperforms the state-of-the-art method quantitatively without using high-level appearance information. We also contribute a multiview video dataset synchronized with a marker-based motion capture system for scientific evaluation.
翻訳日:2022-12-28 02:32:30 公開日:2020-02-28
# 非パラメトリックな人間のメッシュ再構成を1つの画像から学習する

Learning Nonparametric Human Mesh Reconstruction from a Single Image without Ground Truth Meshes ( http://arxiv.org/abs/2003.00052v1 )

ライセンス: Link先を確認
Kevin Lin, Lijuan Wang, Ying Jin, Zicheng Liu, Ming-Ting Sun(参考訳) 非パラメトリックなアプローチは、単一の単眼画像から3次元人間のメッシュを再構築する有望な結果を示している。 スキン付きマルチパーソンリニアモデル(smpl)のようなパラメトリックな人間モデルを用いた従来のアプローチとは異なり、非パラメトリックなアプローチはパラメトリック空間への重回帰を緩和する。 しかし、既存の非パラメトリック手法では各頂点の回帰ターゲットとして基底真理メッシュが必要であり、基底真理メッシュラベルの取得は非常に高価である。 本稿では,人間のメッシュ再構成を,真理メッシュを使わずに学習する手法を提案する。 これはグラフ畳み込みニューラルネットワーク(Graph CNN)の損失関数に2つの新しい用語を導入することで実現される。 最初の項は、再構成メッシュ上の正則化器として機能するラプラシア先行である。 第2項は部分分割損失であり、再構成メッシュの投影された領域に部分分割に一致するように強制する。 複数の公開データセットの実験結果から、提案手法は3次元の真理メッシュを使わずに、トレーニングに真理メッシュを必要とする従来の最先端のアプローチよりも優れていることが示された。

Nonparametric approaches have shown promising results on reconstructing 3D human mesh from a single monocular image. Unlike previous approaches that use a parametric human model like skinned multi-person linear model (SMPL), and attempt to regress the model parameters, nonparametric approaches relax the heavy reliance on the parametric space. However, existing nonparametric methods require ground truth meshes as their regression target for each vertex, and obtaining ground truth mesh labels is very expensive. In this paper, we propose a novel approach to learn human mesh reconstruction without any ground truth meshes. This is made possible by introducing two new terms into the loss function of a graph convolutional neural network (Graph CNN). The first term is the Laplacian prior that acts as a regularizer on the reconstructed mesh. The second term is the part segmentation loss that forces the projected region of the reconstructed mesh to match the part segmentation. Experimental results on multiple public datasets show that without using 3D ground truth meshes, the proposed approach outperforms the previous state-of-the-art approaches that require ground truth meshes for training.
翻訳日:2022-12-28 02:31:13 公開日:2020-02-28
# 近位動物学級への香料の移動

Transferring Dense Pose to Proximal Animal Classes ( http://arxiv.org/abs/2003.00080v1 )

ライセンス: Link先を確認
Artsiom Sanakoyeu, Vasil Khalidov, Maureen S. McCarthy, Andrea Vedaldi, Natalia Neverova(参考訳) 近年のコントリビューションでは、人間のポーズを密に正確に認識し、詳細に注釈付けされたポーズの大きなデータセットを付与できることが示されている。 原則として、同じアプローチはあらゆる動物クラスに拡張できるが、各ケースに対する新しいアノテーションを集めるのに必要な努力は、自然保護、科学、ビジネスに重要な応用があるにもかかわらず、この戦略を非現実的にする。 少なくともチンパンジーのような近位動物クラスでは、人間に対する高密度なポーズ認識や、より一般的な物体検出器やセグメンタに存在する知識を、他のクラスにおける高密度なポーズ認識の問題に移すことができる。 我々は,(1)クラス間での複数認識タスクの転送を容易にするマルチヘッドr-cnnアーキテクチャを導入すること,(3)既知のクラスの組み合わせを最も効果的に新しい動物に伝達できること,(4)自己共役不確実性ヘッドを用いて擬似ラベルを生成すること,の2つを用いて,ヒトにも幾何学的に整列した新しい動物のための密度分布モデルを構築した。 また,クラスチンパンジーのDensePose方式でラベル付けされた2つのベンチマークデータセットを導入し,それを用いて我々のアプローチを評価し,優れた転送学習性能を示す。

Recent contributions have demonstrated that it is possible to recognize the pose of humans densely and accurately given a large dataset of poses annotated in detail. In principle, the same approach could be extended to any animal class, but the effort required for collecting new annotations for each case makes this strategy impractical, despite important applications in natural conservation, science and business. We show that, at least for proximal animal classes such as chimpanzees, it is possible to transfer the knowledge existing in dense pose recognition for humans, as well as in more general object detectors and segmenters, to the problem of dense pose recognition in other classes. We do this by (1) establishing a DensePose model for the new animal which is also geometrically aligned to humans (2) introducing a multi-head R-CNN architecture that facilitates transfer of multiple recognition tasks between classes, (3) finding which combination of known classes can be transferred most effectively to the new animal and (4) using self-calibrated uncertainty heads to generate pseudo-labels graded by quality for training a model for this class. We also introduce two benchmark datasets labelled in the manner of DensePose for the class chimpanzee and use them to evaluate our approach, showing excellent transfer learning performance.
翻訳日:2022-12-28 02:30:50 公開日:2020-02-28
# 幾何自動プローバーコンペティションに向けて

Towards a Geometry Automated Provers Competition ( http://arxiv.org/abs/2002.12556v1 )

ライセンス: Link先を確認
Nuno Baeta (University of Coimbra), Pedro Quaresma (University of Coimbra), Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz)(参考訳) 幾何自動定理証明領域は、多くの特定の方法と実装、異なるアプローチ(合成、代数、半合成)、異なる目的と応用(人工知能分野の研究から教育への応用まで)によって自らを区別する。 通常の効率(CPU時間など)の測度とは別に、視覚的および/または可読性証明の可能性もまた、幾何学的自動定理プローバー(GATP)を測るべき予想出力である。 GATPの競合の実装により、GATP開発者が既存のものを改善し、新しいものを提案するためのテストベンチを作成することができる。 また、特定の用途に最適な実装を選択するために、"クライアント"(例えば教育用eラーニングシステムの開発者)が使用可能なGATPのランキングを確立することもできる。

The geometry automated theorem proving area distinguishes itself by a large number of specific methods and implementations, different approaches (synthetic, algebraic, semi-synthetic) and different goals and applications (from research in the area of artificial intelligence to applications in education). Apart from the usual measures of efficiency (e.g. CPU time), the possibility of visual and/or readable proofs is also an expected output against which the geometry automated theorem provers (GATP) should be measured. The implementation of a competition between GATP would allow to create a test bench for GATP developers to improve the existing ones and to propose new ones. It would also allow to establish a ranking for GATP that could be used by "clients" (e.g. developers of educational e-learning systems) to choose the best implementation for a given intended use.
翻訳日:2022-12-28 02:30:09 公開日:2020-02-28
# ガスプ! 引用論文の要約から科学論文の要約を生成する

GASP! Generating Abstracts of Scientific Papers from Abstracts of Cited Papers ( http://arxiv.org/abs/2003.04996v1 )

ライセンス: Link先を確認
Fabio Massimo Zanzotto and Viviana Bono and Paola Vocca and Andrea Santilli and Danilo Croce and Giorgio Gambosi and Roberto Basili(参考訳) 創造性は人間の力の1つであり、現在の理解を破り、新しいアイデアを思い起こさせ、知識の分野全体に革命をもたらす可能性がある。 科学的研究は、創造的プロセスのモデルを学ぶための困難な環境を提供する。 実際、科学研究は科学的手法の正式な設定において創造的な行為であり、この創造的な行為は記事に記述されている。 本稿では,引用論文の要約(gasp)から科学論文の要約を生成するという新しい,科学的,哲学的に挑戦的なタスクを,科学的創造性を研究するためのテキストからテキストへのタスクとして紹介し,この新奇で挑戦的なタスクにおける研究を育成し,著作権の問題を解決するサービスを用いてデータセットを作成し,その標準分割によってデータセットを一般に公開する。 最後に,2つのバニラ要約システムを用いて,GASPタスクの複雑さの解析を開始した。

Creativity is one of the driving forces of human kind as it allows to break current understanding to envision new ideas, which may revolutionize entire fields of knowledge. Scientific research offers a challenging environment where to learn a model for the creative process. In fact, scientific research is a creative act in the formal settings of the scientific method and this creative act is described in articles. In this paper, we dare to introduce the novel, scientifically and philosophically challenging task of Generating Abstracts of Scientific Papers from abstracts of cited papers (GASP) as a text-to-text task to investigate scientific creativity, To foster research in this novel, challenging task, we prepared a dataset by using services where that solve the problem of copyright and, hence, the dataset is public available with its standard split. Finally, we experimented with two vanilla summarization systems to start the analysis of the complexity of the GASP task.
翻訳日:2022-12-28 02:23:59 公開日:2020-02-28
# 単眼前方カメラによる道路カーブ検出と位置推定

Road Curb Detection and Localization with Monocular Forward-view Vehicle Camera ( http://arxiv.org/abs/2002.12492v1 )

ライセンス: Link先を確認
Stanislav Panev, Francisco Vicente, Fernando De la Torre and V\'eronique Prinet(参考訳) 魚眼レンズを備えた校正単眼カメラを用いて3Dパラメータ(サイズ,位置,方向)を推定するためのロバストな手法を提案する。 特にAdvanced Driver Assistance System (ADAS) の文脈では、垂直および斜め駐車時のバンパーの衝突や損傷を防止するために、自動停止検知と位置決めが特に重要である。 3次元幾何学的推論と高度な視覚に基づく検出手法を組み合わせることで、車両の向き、高さ、深さだけでなく、平均90%以上の精度でリアルタイムで距離を抑制することができる。 提案手法は,個々の映像フレームにおける抑制検出と時間解析の2つの異なる成分からなる。 第1部は、洗練された縁縁抽出とパラメタライズされた3D縁縁テンプレート嵌合からなる。 実世界の幾何学に関するいくつかの仮定を用いて、カメラが装着されている移動車両の縁の高さと相対位置を復元することができる。 配向勾配 (HOG) のヒストグラムを付与したSVM(Support Vector Machine)分類器は,外見に基づく外見に基づくフィルタリングに使用される。 第2部では、検出された縁石領域を時間領域に追跡し、偽陽性拒絶の第2パスを実行する。 我々は,異なる条件下で新たに収集した11本の動画データベースに対するアプローチを検証する。 我々は,実測値としてポイントワイドLIDAR測定と手動消耗ラベルを用いた。

We propose a robust method for estimating road curb 3D parameters (size, location, orientation) using a calibrated monocular camera equipped with a fisheye lens. Automatic curb detection and localization is particularly important in the context of Advanced Driver Assistance System (ADAS), i.e. to prevent possible collision and damage of the vehicle's bumper during perpendicular and diagonal parking maneuvers. Combining 3D geometric reasoning with advanced vision-based detection methods, our approach is able to estimate the vehicle to curb distance in real time with mean accuracy of more than 90%, as well as its orientation, height and depth. Our approach consists of two distinct components - curb detection in each individual video frame and temporal analysis. The first part comprises of sophisticated curb edges extraction and parametrized 3D curb template fitting. Using a few assumptions regarding the real world geometry, we can thus retrieve the curb's height and its relative position w.r.t. the moving vehicle on which the camera is mounted. Support Vector Machine (SVM) classifier fed with Histograms of Oriented Gradients (HOG) is used for appearance-based filtering out outliers. In the second part, the detected curb regions are tracked in the temporal domain, so as to perform a second pass of false positives rejection. We have validated our approach on a newly collected database of 11 videos under different conditions. We have used point-wise LIDAR measurements and manual exhaustive labels as a ground truth.
翻訳日:2022-12-28 02:22:43 公開日:2020-02-28
# DGST : 識別器ガイド付シーンテクスチャ検出器

DGST : Discriminator Guided Scene Text detector ( http://arxiv.org/abs/2002.12509v1 )

ライセンス: Link先を確認
Jinyuan Zhao and Yanna Wang and Baihua Xiao and Cunzhao Shi and Fuxi Jia and Chunheng Wang(参考訳) シーンテキスト検出タスクは、幅広い応用のためにコンピュータビジョンに大きな注目を集めている。 近年,多くの研究者がシーンテキストの検出作業にセマンティックセグメンテーションの手法を導入し,有望な結果を得た。 本稿では,DGST(Discriminator Guided Scene Text detector)と呼ばれるシーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成対向ネットワークに基づく検出フレームワークを提案する。 既存のセマンティックセグメンテーション法によって生成されるバイナリテキストスコアマップの代わりに,テキスト位置をより合理的に表現するために,より多くの情報を持つマルチスケールのソフトテキストスコアマップを生成し,テキスト抽出の過程でのテキストピクセルの付着の問題を解決する。 標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。 具体的には、ICDAR 2015データセットのF値が87%に達する。

Scene text detection task has attracted considerable attention in computer vision because of its wide application. In recent years, many researchers have introduced methods of semantic segmentation into the task of scene text detection, and achieved promising results. This paper proposes a detector framework based on the conditional generative adversarial networks to improve the segmentation effect of scene text detection, called DGST (Discriminator Guided Scene Text detector). Instead of binary text score maps generated by some existing semantic segmentation based methods, we generate a multi-scale soft text score map with more information to represent the text position more reasonably, and solve the problem of text pixel adhesion in the process of text extraction. Experiments on standard datasets demonstrate that the proposed DGST brings noticeable gain and outperforms state-of-the-art methods. Specifically, it achieves an F-measure of 87% on ICDAR 2015 dataset.
翻訳日:2022-12-28 02:22:20 公開日:2020-02-28
# ディープニューラルネットワークを用いたwanfangデータセットの映像解析法

A Video Analysis Method on Wanfang Dataset via Deep Neural Network ( http://arxiv.org/abs/2002.12535v1 )

ライセンス: Link先を確認
Jinlong Kang, Jiaxiang Zheng, Heng Bai, Xiaoting Xue, Yang Zhou, Jun Guo(参考訳) オブジェクト検出のトピックは、特に畳み込みニューラルネットワークの開発によって、最近大きく改善されている。 しかし、小さなオブジェクト、コンパクトで密度の高いオブジェクト、あるいは非常に重なり合うオブジェクトなど、多くの挑戦的なケースが存在する。 既存の手法では、複数のオブジェクトをうまく検出できるが、フレーム間のわずかな変化のため、モデルの検出効果が不安定になり、検出結果がオブジェクトの落下または増加に繋がる可能性がある。 歩行者の流れ検出タスクでは、そのような現象が正確に流れを計算できない。 そこで本稿では,スポーツ競技におけるリアルタイム多目的検出機能と,ディープラーニングに基づく公共交通機関における歩行者フロー検出機能について述べる。 私たちの仕事は、ビデオクリップを抽出し、このクリップのフレームを効率的に解決することです。 より具体的には、我々のアルゴリズムは判定法と最適化法という2つの段階を含む。 判定は、より良い結果を得るために最大しきい値を設定することができ、閾値はアルゴリズムの上限に対応し、より良い検出結果が得られる。 検出ジッタ問題を解決するための最適化手法 ビデオ中にフレームホッピングが発生するため、ビデオの断片が不連続に生成される。 最適化アルゴリズムを用いてキー値を取得し、次にインデックスの検出結果値をキー値に置き換え、検出結果列の変化を安定化する。 提案アルゴリズムに基づき,従来の手法と比較して平均5.4%改善したYOLOv3-Abnormal Number Version(YOLOv3-ANV)のメインテストデータセットと独自のテストデータセットとしてwanfangスポーツコンペティションデータセットを採用する。 また、さらなる分析のために閾値を超える映像を得ることができる。 同時に、歩行者のフロー検出や歩行者のアラームタスクにも利用できます。

The topic of object detection has been largely improved recently, especially with the development of convolutional neural network. However, there still exist a lot of challenging cases, such as small object, compact and dense or highly overlapping object. Existing methods can detect multiple objects wonderfully, but because of the slight changes between frames, the detection effect of the model will become unstable, the detection results may result in dropping or increasing the object. In the pedestrian flow detection task, such phenomenon can not accurately calculate the flow. To solve this problem, in this paper, we describe the new function for real-time multi-object detection in sports competition and pedestrians flow detection in public based on deep learning. Our work is to extract a video clip and solve this frame of clips efficiently. More specfically, our algorithm includes two stages: judge method and optimization method. The judge can set a maximum threshold for better results under the model, the threshold value corresponds to the upper limit of the algorithm with better detection results. The optimization method to solve detection jitter problem. Because of the occurrence of frame hopping in the video, and it will result in the generation of video fragments discontinuity. We use optimization algorithm to get the key value, and then the detection result value of index is replaced by key value to stabilize the change of detection result sequence. Based on the proposed algorithm, we adopt wanfang sports competition dataset as the main test dataset and our own test dataset for YOLOv3-Abnormal Number Version(YOLOv3-ANV), which is 5.4% average improvement compared with existing methods. Also, video above the threshold value can be obtained for further analysis. Spontaneously, our work also can used for pedestrians flow detection and pedestrian alarm tasks.
翻訳日:2022-12-28 02:21:36 公開日:2020-02-28
# 点雲データに基づく鉢植え植物の茎葉の自動分類

Automated classification of stems and leaves of potted plants based on point cloud data ( http://arxiv.org/abs/2002.12536v1 )

ライセンス: Link先を確認
Zichu Liu, Qing Zhang, Pei Wang, Zhen Li, Huiru Wang(参考訳) 植物の器官の正確な分類は、植物の成長状況と生理学をモニタリングする重要なステップである。 非破壊的取得である植物の点雲データに基づいて、鉢植え植物の葉と茎を自動的に分類する分類法を提案した。 葉点トレーニングサンプルは3次元凸包絡アルゴリズムを用いて自動的に抽出され、茎点トレーニングサンプルは2次元投影の点密度を用いて抽出された。 2つのトレーニングセットは、サポートベクトルマシン(SVM)アルゴリズムを用いて、すべての点を葉点と茎点に分類するために使用された。 提案手法は,3つの鉢植え植物の点雲データを用いて,他の2つの方法と比較し,葉点と茎点を高精度かつ効率的に分類できることを実証した。

The accurate classification of plant organs is a key step in monitoring the growing status and physiology of plants. A classification method was proposed to classify the leaves and stems of potted plants automatically based on the point cloud data of the plants, which is a nondestructive acquisition. The leaf point training samples were automatically extracted by using the three-dimensional convex hull algorithm, while stem point training samples were extracted by using the point density of a two-dimensional projection. The two training sets were used to classify all the points into leaf points and stem points by utilizing the support vector machine (SVM) algorithm. The proposed method was tested by using the point cloud data of three potted plants and compared with two other methods, which showed that the proposed method can classify leaf and stem points accurately and efficiently.
翻訳日:2022-12-28 02:21:09 公開日:2020-02-28
# 付加確率不確かさを用いた混合強化学習

Mixed Reinforcement Learning with Additive Stochastic Uncertainty ( http://arxiv.org/abs/2003.00848v1 )

ライセンス: Link先を確認
Yao Mu, Shengbo Eben Li, Chang Liu, Qi Sun, Bingbing Nie, Bo Cheng, and Baiyu Peng(参考訳) 強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。 本稿では,学習精度と学習速度の両面を改善することを目的として,環境力学の2つの表現を同時に用いた混合強化学習(混合RL)アルゴリズムを提案する。 前者はRLの学習プロセスを加速できるが、その固有のモデルの不確実性は一般に、状態や行動の直接測定から得られる政策の精度を後者よりも悪くする。 混合RLのフレームワーク設計において、反復ベイズ推定器(IBE)を介して探索された状態-作用データを用いて、追加確率モデルの不確実性の補償をポリシー反復RLフレームワーク内に組み込む。 最適政策は、政策評価(PEV)と政策改善(PIM)の交互化によって反復的に計算される。 混合RLの収束はベルマンの最適性原理を用いて証明され、リアプノフの直接法により生成されたポリシーの再帰的安定性が証明される。 混合RLの有効性は、確率的非アフィン非線形系の典型的な最適制御問題(すなわち、自動車両による二重車線変更タスク)によって実証される。

Reinforcement learning (RL) methods often rely on massive exploration data to search optimal policies, and suffer from poor sampling efficiency. This paper presents a mixed reinforcement learning (mixed RL) algorithm by simultaneously using dual representations of environmental dynamics to search the optimal policy with the purpose of improving both learning accuracy and training speed. The dual representations indicate the environmental model and the state-action data: the former can accelerate the learning process of RL, while its inherent model uncertainty generally leads to worse policy accuracy than the latter, which comes from direct measurements of states and actions. In the framework design of the mixed RL, the compensation of the additive stochastic model uncertainty is embedded inside the policy iteration RL framework by using explored state-action data via iterative Bayesian estimator (IBE). The optimal policy is then computed in an iterative way by alternating between policy evaluation (PEV) and policy improvement (PIM). The convergence of the mixed RL is proved using the Bellman's principle of optimality, and the recursive stability of the generated policy is proved via the Lyapunov's direct method. The effectiveness of the mixed RL is demonstrated by a typical optimal control problem of stochastic non-affine nonlinear systems (i.e., double lane change task with an automated vehicle).
翻訳日:2022-12-28 02:15:16 公開日:2020-02-28
# アマチュアドローン検出:強い干渉の存在下での音響信号を利用した機械学習アプローチ

Amateur Drones Detection: A machine learning approach utilizing the acoustic signals in the presence of strong interference ( http://arxiv.org/abs/2003.01519v1 )

ライセンス: Link先を確認
Zahoor Uddin, Muhammad Altaf, Muhammad Bilal, Lewis Nkenyereye, Ali Kashif Bashir(参考訳) 小型化、感知能力、自律性のため、無人航空機(uavs)は、遠隔センシング、ナビゲーション、考古学、ジャーナリズム、環境科学、農業など、様々な分野に多大な応用がある。 しかし、アマチュアドローン(AmDr)と呼ばれる無人機(UAV)の無人配備は、深刻なセキュリティ上の脅威と人間の生命とインフラへのリスクをもたらす可能性がある。 したがって、AmDrのタイムリーな検出は、敏感な組織、人命、その他の重要なインフラの保護とセキュリティに不可欠である。 AmDrsは、音、ビデオ、熱、ラジオの周波数に基づいて異なる技術を用いて検出することができる。 しかし、これらの技術の性能は大気条件がほとんどない場合に限られる。 本稿では,鳥の鳴き声,飛行機の音,雷雨,雨,風,uavなどの音波を実用シナリオで検出する,独立成分分析(ica)による効率的な非教師なし機械学習手法を提案する。 信号をアンミックスした後、ICAを用いてMel Frequency Cepstral Coefficients(MFCC)、パワースペクトル密度(PSD)、Root Mean Square Value(RMS)などの特徴を抽出する。 psd信号のpsd及びrmsを、まずオクターブ帯域フィルタバンクからの信号を通過させて抽出する。 上記の特徴に基づいて、AmDrの有無を検出するために、Support Vector Machines(SVM)とK Nearest Neighbor(KNN)を使用して信号を分類する。 提案手法の特異な特徴は、複数の音響干渉信号が存在する場合に一度に1つまたは複数のAmDrを検出することである。 提案手法は広範囲なシミュレーションにより検証され,KNNによるPSDのRMS値は,KNNおよびSVMによるMFCCよりも優れていた。

Owing to small size, sensing capabilities and autonomous nature, the Unmanned Air Vehicles (UAVs) have enormous applications in various areas, e.g., remote sensing, navigation, archaeology, journalism, environmental science, and agriculture. However, the unmonitored deployment of UAVs called the amateur drones (AmDr) can lead to serious security threats and risk to human life and infrastructure. Therefore, timely detection of the AmDr is essential for the protection and security of sensitive organizations, human life and other vital infrastructure. AmDrs can be detected using different techniques based on sound, video, thermal, and radio frequencies. However, the performance of these techniques is limited in sever atmospheric conditions. In this paper, we propose an efficient unsupervise machine learning approach of independent component analysis (ICA) to detect various acoustic signals i.e., sounds of bird, airplanes, thunderstorm, rain, wind and the UAVs in practical scenario. After unmixing the signals, the features like Mel Frequency Cepstral Coefficients (MFCC), the power spectral density (PSD) and the Root Mean Square Value (RMS) of the PSD are extracted by using ICA. The PSD and the RMS of PSD signals are extracted by first passing the signals from octave band filter banks. Based on the above features the signals are classified using Support Vector Machines (SVM) and K Nearest Neighbor (KNN) to detect the presence or absence of AmDr. Unique feature of the proposed technique is the detection of a single or multiple AmDrs at a time in the presence of multiple acoustic interfering signals. The proposed technique is verified through extensive simulations and it is observed that the RMS values of PSD with KNN performs better than the MFCC with KNN and SVM.
翻訳日:2022-12-28 02:14:52 公開日:2020-02-28
# UKARA 1.0 チャレンジトラック1:バハサ・インドネシアでのショートアンサーの自動スコーリング

UKARA 1.0 Challenge Track 1: Automatic Short-Answer Scoring in Bahasa Indonesia ( http://arxiv.org/abs/2002.12540v1 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Yosef Ardhito Winatmoko(参考訳) 自動エッセイ評価におけるUKARA 1.0チャレンジの3位となるソリューションについて述べる。 このタスクは、2つのデータセットのバイナリ分類問題と、2つの異なる質問からの回答から構成される。 2つのデータセットに2つの異なるモデルを使用しました。 タスクaでは,ungram with latent semantic analysis (lsa)を用いて抽出した特徴にランダムフォレストアルゴリズムを適用した。 一方,タスクBでは,TF-IDFの特徴に対してのみロジスティック回帰を用いた。 その結果,F1スコアは0.812。

We describe our third-place solution to the UKARA 1.0 challenge on automated essay scoring. The task consists of a binary classification problem on two datasets | answers from two different questions. We ended up using two different models for the two datasets. For task A, we applied a random forest algorithm on features extracted using unigram with latent semantic analysis (LSA). On the other hand, for task B, we only used logistic regression on TF-IDF features. Our model results in F1 score of 0.812.
翻訳日:2022-12-28 02:14:08 公開日:2020-02-28
# ニューラルネットワーク翻訳の将来コストのモデル化

Modeling Future Cost for Neural Machine Translation ( http://arxiv.org/abs/2002.12558v1 )

ライセンス: Link先を確認
Chaoqun Duan, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Conghui Zhu and Tiejun Zhao(参考訳) 既存のニューラルマシン翻訳(NMT)システムは、シーケンスからシーケンスまでのニューラルネットワークを使用して、単語ごとにターゲット翻訳語を生成し、生成した単語を時間ステップ毎に生成し、参照中の単語を可能な限り一貫させる。 しかし、訓練された翻訳モデルは、現在のタイミングで生成された目標単語の精度を保証することに重点を置いており、その後の目標単語(すなわち次の目標単語)を生成するための期待コストである将来のコストを考慮していない。 この問題に対応するため,nmtシステムにおいて,各単語の将来コストを簡易かつ効果的にモデル化する手法を提案する。 詳細は、現在の生成対象語とその文脈情報に基づいて時間依存の将来のコストを推定し、NMTモデルのトレーニングを促進する。 さらに、現在の時間ステップにおける学習された将来の文脈表現を用いて、デコード中の次のターゲットワードの生成を支援する。 wmt14、wmt14、wmt14、wmt17の3つの翻訳データセットの実験結果は、提案手法が強いトランスフォーマーベースのnmtベースラインよりも大幅に改善されていることを示している。

Existing neural machine translation (NMT) systems utilize sequence-to-sequence neural networks to generate target translation word by word, and then make the generated word at each time-step and the counterpart in the references as consistent as possible. However, the trained translation model tends to focus on ensuring the accuracy of the generated target word at the current time-step and does not consider its future cost which means the expected cost of generating the subsequent target translation (i.e., the next target word). To respond to this issue, we propose a simple and effective method to model the future cost of each target word for NMT systems. In detail, a time-dependent future cost is estimated based on the current generated target word and its contextual information to boost the training of the NMT model. Furthermore, the learned future context representation at the current time-step is used to help the generation of the next target word in the decoding. Experimental results on three widely-used translation datasets, including the WMT14 German-to-English, WMT14 English-to-French, and WMT17 Chinese-to-English, show that the proposed approach achieves significant improvements over strong Transformer-based NMT baseline.
翻訳日:2022-12-28 02:13:41 公開日:2020-02-28
# DC-BERT: 効率的なコンテキストエンコーディングのための質問と文書の分離

DC-BERT: Decoupling Question and Document for Efficient Contextual Encoding ( http://arxiv.org/abs/2002.12591v1 )

ライセンス: Link先を確認
Yuyu Zhang, Ping Nie, Xiubo Geng, Arun Ramamurthy, Le Song, Daxin Jiang(参考訳) 近年のオープンドメイン質問応答は,BERT などの事前学習言語モデルを用いて顕著な性能向上を実現している。 State-of-the-artアプローチは通常、"retrieve and read"パイプラインに従い、BERTベースのリランカを使用して、取得したドキュメントを読み取りモジュールに入力する前にフィルタリングする。 BERTレトリバーは、質問の連結と各検索された文書を入力として取り出す。 これらの手法がQA精度で成功したにも拘わらず、連結により、検索された大量の文書の収集によって、入ってくる質問の高スループットをほとんど処理できない。 この効率問題に対処するため,2つのBERTモデルを持つ分離コンテキスト符号化フレームワークであるDC-BERTと,すべての文書を事前エンコードし,それらのエンコーディングをキャッシュするオフラインBERTを提案する。 SQuAD OpenとNatural Questions Openデータセットでは、DC-BERTはドキュメント検索の10倍のスピードアップを達成すると同時に、QAパフォーマンスのほとんど(約98%)を、オープンドメインの質問応答に対する最先端のアプローチと比較して保持する。

Recent studies on open-domain question answering have achieved prominent performance improvement using pre-trained language models such as BERT. State-of-the-art approaches typically follow the "retrieve and read" pipeline and employ BERT-based reranker to filter retrieved documents before feeding them into the reader module. The BERT retriever takes as input the concatenation of question and each retrieved document. Despite the success of these approaches in terms of QA accuracy, due to the concatenation, they can barely handle high-throughput of incoming questions each with a large collection of retrieved documents. To address the efficiency problem, we propose DC-BERT, a decoupled contextual encoding framework that has dual BERT models: an online BERT which encodes the question only once, and an offline BERT which pre-encodes all the documents and caches their encodings. On SQuAD Open and Natural Questions Open datasets, DC-BERT achieves 10x speedup on document retrieval, while retaining most (about 98%) of the QA performance compared to state-of-the-art approaches for open-domain question answering.
翻訳日:2022-12-28 02:13:17 公開日:2020-02-28
# 被検者における自動区切り認識

Automatic Section Recognition in Obituaries ( http://arxiv.org/abs/2002.12699v1 )

ライセンス: Link先を確認
Valentino Sabbatino and Laura Bostan and Roman Klinger(参考訳) 博物館には時代や文化にまたがる人々の価値観に関する情報が含まれており、文化史を探求するのに有用な資料となっている。 それらは典型的には同様に構成されており、人物の個人情報、伝記のスケッチ、特徴、家族、グレート、トリビュート、葬送情報、その他の側面に対応している。 この情報をさらなる研究に活用するために,これらのセクションを識別する統計モデルを提案する。 そこで我々は,20058人の英国人死亡者のコーパスを,TheDaily Item, Remembering.CA,The London Free Pressから収集した。 1008検体にアノテーター3名によるガイドラインの評価は,Fleiss k = 0.87の相当な一致を示した。 自動セグメンテーションタスクとして評価され、畳み込みニューラルネットワークは、マイクロF1 = 0.81で、単語のバッグや埋め込みベースのBiLSTM、BiLSTM-CRFより優れている。

Obituaries contain information about people's values across times and cultures, which makes them a useful resource for exploring cultural history. They are typically structured similarly, with sections corresponding to Personal Information, Biographical Sketch, Characteristics, Family, Gratitude, Tribute, Funeral Information and Other aspects of the person. To make this information available for further studies, we propose a statistical model which recognizes these sections. To achieve that, we collect a corpus of 20058 English obituaries from TheDaily Item, Remembering.CA and The London Free Press. The evaluation of our annotation guidelines with three annotators on 1008 obituaries shows a substantial agreement of Fleiss k = 0.87. Formulated as an automatic segmentation task, a convolutional neural network outperforms bag-of-words and embedding-based BiLSTMs and BiLSTM-CRFs with a micro F1 = 0.81.
翻訳日:2022-12-28 02:12:54 公開日:2020-02-28
# UniLMv2: 統一言語モデル事前学習のための擬似型言語モデル

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training ( http://arxiv.org/abs/2002.12804v1 )

ライセンス: Link先を確認
Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Songhao Piao, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon(参考訳) 本稿では,擬似マスク言語モデル(PMLM)と呼ばれる新しい訓練手法を用いて,自動符号化と部分的自己回帰言語モデリングタスクのための統一言語モデルを事前学習することを提案する。 マスク付きトークンを用いた入力テキストが与えられた場合,従来のマスクを用いて,不正トークンとコンテキスト間の相互関係を自動符号化により学習し,マスク付きスパン間の関係を部分的に自己回帰モデルにより学習する。 適切に設計された位置埋め込みと自己アテンションマスクにより、コンテキストエンコーディングは冗長な計算を避けるために再利用される。 さらに、オートエンコーディングに使用される従来のマスクはグローバルマスキング情報を提供しており、すべての位置埋め込みが部分的に自己回帰的な言語モデリングでアクセス可能である。 さらに、2つのタスクはそれぞれ双方向エンコーダとして統一言語モデルとシーケンス列デコーダを事前学習する。 実験により,PMLMを用いて事前学習した統一言語モデルは,広範囲の自然言語理解と生成タスクにおいて,様々なベンチマークを用いて新しい最先端結果が得られることがわかった。

We propose to pre-train a unified language model for both autoencoding and partially autoregressive language modeling tasks using a novel training procedure, referred to as a pseudo-masked language model (PMLM). Given an input text with masked tokens, we rely on conventional masks to learn inter-relations between corrupted tokens and context via autoencoding, and pseudo masks to learn intra-relations between masked spans via partially autoregressive modeling. With well-designed position embeddings and self-attention masks, the context encodings are reused to avoid redundant computation. Moreover, conventional masks used for autoencoding provide global masking information, so that all the position embeddings are accessible in partially autoregressive language modeling. In addition, the two tasks pre-train a unified language model as a bidirectional encoder and a sequence-to-sequence decoder, respectively. Our experiments show that the unified language models pre-trained using PMLM achieve new state-of-the-art results on a wide range of natural language understanding and generation tasks across several widely used benchmarks.
翻訳日:2022-12-28 02:12:37 公開日:2020-02-28
# メタファー的言い換え生成

Metaphoric Paraphrase Generation ( http://arxiv.org/abs/2002.12854v1 )

ライセンス: Link先を確認
Kevin Stowe and Leonardo Ribeiro and Iryna Gurevych(参考訳) 本研究は,言い換え文が与えられ,メタファー的言い換えが生成されるメタファー的言い換え生成の課題について述べる。 本稿では,この課題に対する2つの異なるモデルを提案する。語彙置換ベースラインと,自由な比喩的パラフレーズを生成するシーケンスモデル'メタホルマスキング'である。 クラウドソーシングを用いて結果を評価し,メタファー的パラフレーズを評価するための自動指標を開発する。 語彙置換ベースラインは正確なパラフレーズを生成できるが、しばしばメタファー性に欠けるが、我々のメタファーマスクモデルでは、流用性やパラフレーズ品質に関してほぼ同じように実行しながらメタファー文を生成するのに優れている。

This work describes the task of metaphoric paraphrase generation, in which we are given a literal sentence and are charged with generating a metaphoric paraphrase. We propose two different models for this task: a lexical replacement baseline and a novel sequence to sequence model, 'metaphor masking', that generates free metaphoric paraphrases. We use crowdsourcing to evaluate our results, as well as developing an automatic metric for evaluating metaphoric paraphrases. We show that while the lexical replacement baseline is capable of producing accurate paraphrases, they often lack metaphoricity, while our metaphor masking model excels in generating metaphoric sentences while performing nearly as well with regard to fluency and paraphrase quality.
翻訳日:2022-12-28 02:12:20 公開日:2020-02-28
# 知識グラフに基づくレコメンダシステムに関する調査

A Survey on Knowledge Graph-Based Recommender Systems ( http://arxiv.org/abs/2003.00911v1 )

ライセンス: Link先を確認
Qingyu Guo, Fuzhen Zhuang, Chuan Qin, Hengshu Zhu, Xing Xie, Hui Xiong and Qing He(参考訳) 各種オンラインアプリケーションにおける情報爆発問題を解決し,ユーザエクスペリエンスを向上させるため,ユーザの嗜好をモデル化するレコメンダシステムを開発した。 よりパーソナライズされたレコメンデーションに向けた多くの取り組みが実施されているが、レコメンダシステムは、データスパリシティやコールドスタートといったいくつかの課題に悩まされている。 近年,知識グラフを副次情報として推薦する手法が注目されている。 このようなアプローチは、上記の問題をより正確な推奨のために緩和するだけでなく、推奨項目の説明を提供する。 本稿では,知識グラフに基づくレコメンダシステムの体系的調査を行う。 この分野で最近出版された論文を収集し、二つの観点から要約する。 一方,提案手法は,論文が知識グラフをどのように活用して正確かつ説明可能な推薦を行うかに着目して検討する。 一方で,これらの作業で使用されるデータセットについても紹介する。 最後に,本分野におけるいくつかの研究方向を提案する。

To solve the information explosion problem and enhance user experience in various online applications, recommender systems have been developed to model users preferences. Although numerous efforts have been made toward more personalized recommendations, recommender systems still suffer from several challenges, such as data sparsity and cold start. In recent years, generating recommendations with the knowledge graph as side information has attracted considerable interest. Such an approach can not only alleviate the abovementioned issues for a more accurate recommendation, but also provide explanations for recommended items. In this paper, we conduct a systematical survey of knowledge graph-based recommender systems. We collect recently published papers in this field and summarize them from two perspectives. On the one hand, we investigate the proposed algorithms by focusing on how the papers utilize the knowledge graph for accurate and explainable recommendation. On the other hand, we introduce datasets used in these works. Finally, we propose several potential research directions in this field.
翻訳日:2022-12-28 02:06:08 公開日:2020-02-28
# 半教師付きグラフ追跡ネットワークによる金融詐欺検出

A Semi-supervised Graph Attentive Network for Financial Fraud Detection ( http://arxiv.org/abs/2003.01171v1 )

ライセンス: Link先を確認
Daixin Wang and Jianbin Lin and Peng Cui and Quanhui Jia and Zhen Wang and Yanming Fang and Quan Yu and Jun Zhou and Shuang Yang and Yuan Qi(参考訳) 金融サービスの急速な成長に伴い、不正検出はユーザーとプロバイダー双方にとって健全な環境を保証する上で非常に重要な問題となっている。 従来の不正検出のソリューションは、主にルールベースの方法を使うか、手動で予測を行う機能を使う。 しかし金融サービスでは、ユーザーは豊富なインタラクションを持ち、彼ら自身が常に多面的な情報を表示する。 これらのデータは、従来の手法では十分に活用されていない大規模なマルチビューネットワークを形成する。 さらにネットワーク内では,ラベル付きデータのみを活用することで,不正検出における満足度の高いパフォーマンスを実現する上で大きな課題となるユーザも少なくない。 この問題に対処するために,ラベル付きデータを社会関係を通じて拡張し,ラベル付きデータを取得し,半教師付き注意グラフニューラルネットワークであるnamedsemignnを提案し,マルチビューラベル付きおよびラベル付きデータを用いて不正検出を行う。 さらに,隣人や異なる視点をよりよく相関させる階層的注意機構を提案する。 同時に、注意機構により、モデルを解釈可能にし、詐欺の重要な要因と、ユーザが詐欺として予測される理由を判断することができる。 実験では、中国における4億以上のユーザーを対象に、オンラインおよびオフラインのキャッシュレス決済プラットフォームであるalipayのユーザを対象に、予測タスクを実施している。 ソーシャルリレーションとユーザ属性を利用することで,2つのタスクにおける最先端手法と比較して精度が向上する。 さらに、解釈可能な結果は、タスクに関する興味深い直感を与える。

With the rapid growth of financial services, fraud detection has been a very important problem to guarantee a healthy environment for both users and providers. Conventional solutions for fraud detection mainly use some rule-based methods or distract some features manually to perform prediction. However, in financial services, users have rich interactions and they themselves always show multifaceted information. These data form a large multiview network, which is not fully exploited by conventional methods. Additionally, among the network, only very few of the users are labelled, which also poses a great challenge for only utilizing labeled data to achieve a satisfied performance on fraud detection. To address the problem, we expand the labeled data through their social relations to get the unlabeled data and propose a semi-supervised attentive graph neural network, namedSemiGNN to utilize the multi-view labeled and unlabeled data for fraud detection. Moreover, we propose a hierarchical attention mechanism to better correlate different neighbors and different views. Simultaneously, the attention mechanism can make the model interpretable and tell what are the important factors for the fraud and why the users are predicted as fraud. Experimentally, we conduct the prediction task on the users of Alipay, one of the largest third-party online and offline cashless payment platform serving more than 4 hundreds of million users in China. By utilizing the social relations and the user attributes, our method can achieve a better accuracy compared with the state-of-the-art methods on two tasks. Moreover, the interpretable results also give interesting intuitions regarding the tasks.
翻訳日:2022-12-28 02:05:52 公開日:2020-02-28
# 高変形人工物を含む全スライド画像スタックの地域登録

Regional Registration of Whole Slide Image Stacks Containing Highly Deformed Artefacts ( http://arxiv.org/abs/2002.12588v1 )

ライセンス: Link先を確認
Mahsa Paknezhad, Sheng Yang Michael Loh, Yukti Choudhury, Valerie Koh Cui Koh, TimothyTay Kwang Yong, Hui Shan Tan, Ravindran Kanesvaran, Puay Hoon Tan, John Yuen Shyi Peng, Weimiao Yu, Yongcheng Benjamin Tan, Yong Zhen Loy, Min-Han Tan, Hwee Kuan Lee(参考訳) モチベーション:高解像度2次元スライド画像は組織構造に関する豊富な情報を提供する。 この2D画像が3Dの組織体積に積み重ねられると、この情報はもっと豊かになる。 しかし、3D解析では、2D画像スタックから組織体積を正確に再構築する必要がある。 この作業は、個々の組織スライスがガラススライドに組織を切断して取り付けている間に経験する歪みのため、ささやかなものではない。 組織スライス全体の転写は変形した組織領域に悪影響を及ぼす可能性がある。 その結果、地域登録はより効果的であることが判明した。 本稿では,スライド画像全体に対して,興味のある領域の登録を段階的に重視する,正確かつ堅牢な地域登録アルゴリズムを提案する。 結果:平均類似度指数を指標として、提案アルゴリズム ($\pm$ std: $0.84 \pm 0.11$) とそれに続く詳細な登録アルゴリズム (0.86 \pm 0.08$) は、最先端の線形組織登録アルゴリズム (0.74 \pm 0.19$) と、このアルゴリズムの地域版 (0.81 \pm 0.15$) を上回った。 提案アルゴリズムは、スライド画像全体に対して最先端の非線形登録アルゴリズム(元は$0.82 \pm 0.12$, 地域:$0.77 \pm 0.22$)と、最近提案されたパッチベースの登録アルゴリズム(パッチサイズ256:$0.79 \pm 0.16$, パッチサイズ512:$0.77 \pm 0.16$)より優れている。 可用性: C++実装コードはgithubリポジトリでオンラインで公開されている。

Motivation: High resolution 2D whole slide imaging provides rich information about the tissue structure. This information can be a lot richer if these 2D images can be stacked into a 3D tissue volume. A 3D analysis, however, requires accurate reconstruction of the tissue volume from the 2D image stack. This task is not trivial due to the distortions that each individual tissue slice experiences while cutting and mounting the tissue on the glass slide. Performing registration for the whole tissue slices may be adversely affected by the deformed tissue regions. Consequently, regional registration is found to be more effective. In this paper, we propose an accurate and robust regional registration algorithm for whole slide images which incrementally focuses registration on the area around the region of interest. Results: Using mean similarity index as the metric, the proposed algorithm (mean $\pm$ std: $0.84 \pm 0.11$) followed by a fine registration algorithm ($0.86 \pm 0.08$) outperformed the state-of-the-art linear whole tissue registration algorithm ($0.74 \pm 0.19$) and the regional version of this algorithm ($0.81 \pm 0.15$). The proposed algorithm also outperforms the state-of-the-art nonlinear registration algorithm (original : $0.82 \pm 0.12$, regional : $0.77 \pm 0.22$) for whole slide images and a recently proposed patch-based registration algorithm (patch size 256: $0.79 \pm 0.16$ , patch size 512: $0.77 \pm 0.16$) for medical images. Availability: The C++ implementation code is available online at the github repository: https://github.com/MahsaPaknezhad/WSIRegistration
翻訳日:2022-12-28 02:05:11 公開日:2020-02-28
# MINA: 形状アライメントのための凸混合整数プログラミング

MINA: Convex Mixed-Integer Programming for Non-Rigid Shape Alignment ( http://arxiv.org/abs/2002.12623v1 )

ライセンス: Link先を確認
Florian Bernard, Zeeshan Khan Suri, Christian Theobalt(参考訳) 非剛体形状マッチングのための凸混合整数計画法を提案する。 そこで本研究では,効率の良い低次元離散モデルに基づく新しい形状変形モデルを提案する。 初期化とは独立であり、類似の二次代入問題の定式化よりも大域的最適性への解法がはるかに効率的であり、対応可能な問題の変種の観点からも非常に柔軟である。 実験により,本手法が既存の形状マッチング法よりも優れていること,高密度形状マッチング法の初期化に使用できることを実証し,その柔軟性をいくつかの例に示す。

We present a convex mixed-integer programming formulation for non-rigid shape matching. To this end, we propose a novel shape deformation model based on an efficient low-dimensional discrete model, so that finding a globally optimal solution is tractable in (most) practical cases. Our approach combines several favourable properties: it is independent of the initialisation, it is much more efficient to solve to global optimality compared to analogous quadratic assignment problem formulations, and it is highly flexible in terms of the variants of matching problems it can handle. Experimentally we demonstrate that our approach outperforms existing methods for sparse shape matching, that it can be used for initialising dense shape matching methods, and we showcase its flexibility on several examples.
翻訳日:2022-12-28 02:04:37 公開日:2020-02-28
# RGB-D動作認識のための赤外線と3Dスケルトンの特徴

Infrared and 3D skeleton feature fusion for RGB-D action recognition ( http://arxiv.org/abs/2002.12886v1 )

ライセンス: Link先を確認
Alban Main de Boissiere, Rita Noumeir(参考訳) 骨格に基づく行動認識の課題は、類似した動きとオブジェクト関連の行動で行動の分類が難しいことである。 他のストリームからの視覚的なヒントは、その点に役立つ。 RGBデータは照明条件に敏感であり、暗黒では使用できない。 この問題を緩和し、なおもビジュアルストリームの恩恵を受けるために、スケルトンと赤外線データを組み合わせたモジュラーネットワーク(FUSION)を提案する。 2D畳み込みニューラルネットワーク(CNN)は、骨格データから特徴を抽出するポーズモジュールとして使用される。 3D CNNは、ビデオから視覚的手がかりを抽出する赤外線モジュールとして使用される。 両方の特徴ベクトルは、多層パーセプトロン(MLP)を用いて結合して利用される。 スケルトンデータはまた赤外線映像を条件付けし、被写体の周りに作物を提供し、赤外線モジュールの注意を事実上集中させる。 アブレーション研究は、事前訓練されたネットワークを他の大規模データセットのモジュールやデータ拡張として使用することで、アクション分類精度が大幅に向上することを示している。 また,収穫戦略の強い貢献も示された。 奥行きカメラを用いた人間の行動認識のための最大のデータセットであるntu rgb+dデータセットの手法を評価し,最新性能を報告する。

A challenge of skeleton-based action recognition is the difficulty to classify actions with similar motions and object-related actions. Visual clues from other streams help in that regard. RGB data are sensible to illumination conditions, thus unusable in the dark. To alleviate this issue and still benefit from a visual stream, we propose a modular network (FUSION) combining skeleton and infrared data. A 2D convolutional neural network (CNN) is used as a pose module to extract features from skeleton data. A 3D CNN is used as an infrared module to extract visual cues from videos. Both feature vectors are then concatenated and exploited conjointly using a multilayer perceptron (MLP). Skeleton data also condition the infrared videos, providing a crop around the performing subjects and thus virtually focusing the attention of the infrared module. Ablation studies show that using pre-trained networks on other large scale datasets as our modules and data augmentation yield considerable improvements on the action classification accuracy. The strong contribution of our cropping strategy is also demonstrated. We evaluate our method on the NTU RGB+D dataset, the largest dataset for human action recognition from depth cameras, and report state-of-the-art performances.
翻訳日:2022-12-28 02:03:39 公開日:2020-02-28
# 超音波映像の自己教師型表現学習

Self-supervised Representation Learning for Ultrasound Video ( http://arxiv.org/abs/2003.00105v1 )

ライセンス: Link先を確認
Jianbo Jiao, Richard Droste, Lior Drukker, Aris T. Papageorghiou, J. Alison Noble(参考訳) 近年の深層学習の進歩は,医用画像解析において有望な性能を達成している。 実際には、このようなアノテーションは収集に高価であり、医用画像の応用には不十分である。 したがって、ラベルのない生データからの学習表現には大きな関心がある。 本稿では,人間のアノテーションを使わずに医用画像から有意義かつ伝達可能な表現を学習するための自己教師型学習手法を提案する。 このような表現を学ぶためには、モデルはラベルのないデータから解剖学的構造を識別する必要があると仮定する。 そこで,本研究では,データ自体から自由な監視を伴って,解剖学的タスクに対処するようモデルに強制する。 具体的には、リシャッフルされたビデオクリップの順序を補正し、同時にビデオクリップに適用される幾何学的変換を予測するように設計されている。 胎児超音波ビデオによる実験では,提案手法が有意義かつ強い表現を効果的に学習し,標準平面検出や塩分予測などの下流課題にうまく移行できることが示されている。

Recent advances in deep learning have achieved promising performance for medical image analysis, while in most cases ground-truth annotations from human experts are necessary to train the deep model. In practice, such annotations are expensive to collect and can be scarce for medical imaging applications. Therefore, there is significant interest in learning representations from unlabelled raw data. In this paper, we propose a self-supervised learning approach to learn meaningful and transferable representations from medical imaging video without any type of human annotation. We assume that in order to learn such a representation, the model should identify anatomical structures from the unlabelled data. Therefore we force the model to address anatomy-aware tasks with free supervision from the data itself. Specifically, the model is designed to correct the order of a reshuffled video clip and at the same time predict the geometric transformation applied to the video clip. Experiments on fetal ultrasound video show that the proposed approach can effectively learn meaningful and strong representations, which transfer well to downstream tasks like standard plane detection and saliency prediction.
翻訳日:2022-12-28 02:03:19 公開日:2020-02-28
# 見ることを学ぶ:あなたが見ているもの

Learning to See: You Are What You See ( http://arxiv.org/abs/2003.00902v1 )

ライセンス: Link先を確認
Memo Akten, Rebecca Fiebrink, Mick Grierson(参考訳) 著者らは、見るために学習するアートワークの創造の一部として開発されたビジュアルインスツルメンツを提示する。 このアートワークは、ニューラルネットワークのバイアスを調査し、現実世界の表現のために特別に訓練された操作のためのメカニズムを提供する。 これらの表現の探索は、世界の視覚的理解と/または視覚的語彙を開発する過程のメタファーとして機能する。 これらの表現はリアルタイムで探索し、操作することができ、人工知能と人間の両方が意味をどう構築するかという疑問を呼び起こす特定の創造的な視点を反映するように作られてきた。

The authors present a visual instrument developed as part of the creation of the artwork Learning to See. The artwork explores bias in artificial neural networks and provides mechanisms for the manipulation of specifically trained for real-world representations. The exploration of these representations acts as a metaphor for the process of developing a visual understanding and/or visual vocabulary of the world. These representations can be explored and manipulated in real time, and have been produced in such a way so as to reflect specific creative perspectives that call into question the relationship between how both artificial neural networks and humans may construct meaning.
翻訳日:2022-12-28 02:03:02 公開日:2020-02-28
# 5Gの同期:ベイズ的アプローチ

Synchronization in 5G: a Bayesian Approach ( http://arxiv.org/abs/2002.12660v1 )

ライセンス: Link先を確認
M. Goodarzi, D. Cvetkovski, N. Maletic, J. Gutierrez and E. Grass(参考訳) 本研究では,大規模ネットワークを同期化するハイブリッド手法を提案する。 特にKF(Kalman Filtering)とPTP(Precision Time Protocol)が生成する時間スタンプを併用してノード同期を行う。 さらに,Belief Propagation (BP) アルゴリズムとともにFG(Facter Graphs) の有効性について検討し,高精度なエンドツーエンドネットワーク同期を実現する。 最後に,大規模ネットワークを局所同期領域に分割し,それぞれに適切な同期アルゴリズムを適用するという考え方を提案する。 シミュレーションの結果,ハイブリッドアプローチの単純化にもかかわらず,オフセット推定の誤差は5 ns以下であることがわかった。

In this work, we propose a hybrid approach to synchronize large scale networks. In particular, we draw on Kalman Filtering (KF) along with time-stamps generated by the Precision Time Protocol (PTP) for pairwise node synchronization. Furthermore, we investigate the merit of Factor Graphs (FGs) along with Belief Propagation (BP) algorithm in achieving high precision end-to-end network synchronization. Finally, we present the idea of dividing the large-scale network into local synchronization domains, for each of which a suitable sync algorithm is utilized. The simulation results indicate that, despite the simplifications in the hybrid approach, the error in the offset estimation remains below 5 ns.
翻訳日:2022-12-28 01:56:16 公開日:2020-02-28
# 分散勾配法:トポロジーは重要か?

Decentralized gradient methods: does topology matter? ( http://arxiv.org/abs/2002.12688v1 )

ライセンス: Link先を確認
Giovanni Neglia and Chuan Xu and Don Towsley and Gianmarco Calbi(参考訳) 近年,機械学習モデルの大規模学習のためのパラメータサーバやリングオールリデュースパラダイムの代替として,コンセンサスに基づく分散最適化手法が提唱されている。 この場合、各ワーカーは最適パラメータベクトルの局所的な推定を維持し、その近傍から得られた推定値を平均化し、局所データセットに基づいて補正することで反復的に更新する。 理論的には、ワーカーコミュニケーショントポロジーは収束に必要なエポック数に強い影響を与えるべきであるが、以前の実験は反対の結論を示している。 本稿では、この明らかな矛盾に光を当て、通信遅延がなくてもスパーストポロジーがより高速に収束することを示す。

Consensus-based distributed optimization methods have recently been advocated as alternatives to parameter server and ring all-reduce paradigms for large scale training of machine learning models. In this case, each worker maintains a local estimate of the optimal parameter vector and iteratively updates it by averaging the estimates obtained from its neighbors, and applying a correction on the basis of its local dataset. While theoretical results suggest that worker communication topology should have strong impact on the number of epochs needed to converge, previous experiments have shown the opposite conclusion. This paper sheds lights on this apparent contradiction and show how sparse topologies can lead to faster convergence even in the absence of communication delays.
翻訳日:2022-12-28 01:56:06 公開日:2020-02-28
# 生物データのマイニングにおける深層学習

Deep Learning in Mining Biological Data ( http://arxiv.org/abs/2003.00108v1 )

ライセンス: Link先を確認
Mufti Mahmud, M Shamim Kaiser, Amir Hussain(参考訳) データ取得ツールの最近の技術進歩により、生命科学者は異なる生物学的応用領域からマルチモーダルデータを取得できるようになった。 これらのデータは3つのタイプ(シーケンス、画像、信号)に大別され、本質的には膨大な量と複雑である。 パターン認識のための膨大なデータマイニングは大きな課題であり、高度なデータ集約型機械学習技術を必要とする。 ニューラルネットワークに基づく学習システムはパターン認識能力で知られており、近年はディープラーニング(DL)として知られる深層アーキテクチャが、多くの複雑なパターン認識問題の解決に成功している。 本稿では, 生物データにおけるパターン認識におけるDLの役割を強調し, 生物学的シーケンス, 画像, 信号データへのDLの適用, オープンアクセスソースの概要, それらのデータに適用可能なオープンソースDLツールの記述, 質的, 定量的な観点からの比較を行う。 最後に、生物学データマイニングにおけるオープンリサーチの課題を概説し、将来的な展望を数多く提示する。

Recent technological advancements in data acquisition tools allowed life scientists to acquire multimodal data from different biological application domains. Broadly categorized in three types (i.e., sequences, images, and signals), these data are huge in amount and complex in nature. Mining such an enormous amount of data for pattern recognition is a big challenge and requires sophisticated data-intensive machine learning techniques. Artificial neural network-based learning systems are well known for their pattern recognition capabilities and lately their deep architectures - known as deep learning (DL) - have been successfully applied to solve many complex pattern recognition problems. Highlighting the role of DL in recognizing patterns in biological data, this article provides - applications of DL to biological sequences, images, and signals data; overview of open access sources of these data; description of open source DL tools applicable on these data; and comparison of these tools from qualitative and quantitative perspectives. At the end, it outlines some open research challenges in mining biological data and puts forward a number of possible future perspectives.
翻訳日:2022-12-28 01:55:13 公開日:2020-02-28
# 逆グラフGAN:非構造化2次元データから3次元形状を生成する学習

Inverse Graphics GAN: Learning to Generate 3D Shapes from Unstructured 2D Data ( http://arxiv.org/abs/2002.12674v1 )

ライセンス: Link先を確認
Sebastian Lunz, Yingzhen Li, Andrew Fitzgibbon, Nate Kushman(参考訳) 近年の研究では、非構造化2次元画像のみから3次元形状の生成モデルを学習できることが示されている。 しかし、そのようなモデルをトレーニングするにはレンダリングプロセスのラスタ化ステップを通じて差別化する必要があるため、過去の研究は様々な方法でこの非微分不可能なプロセスを円滑に行うベスポークレンダリングモデルの開発に重点を置いてきた。 したがって、そのようなモデルは、ゲームやグラフィック産業によって作られた写真リアリスティックで完全に特徴付けられた工業用レンダラーを活用できない。 本稿では,市販の非微分可能レンダラーを利用した2次元データから3次元生成モデルのスケーラブルなトレーニング手法を提案する。 非微分可能性を考慮するために、非微分可能レンダラの出力にマッチするプロキシニューラルレンダラを導入する。 さらに,ニューラルレンダラーがラスタ化を適切にスムースに学習することを保証するために,識別器出力マッチングを提案する。 我々は, 生成した3次元形状から生成した画像に対して, モデルを評価することにより, 既存のモデルよりも良好な形状を生成できることを示す。

Recent work has shown the ability to learn generative models for 3D shapes from only unstructured 2D images. However, training such models requires differentiating through the rasterization step of the rendering process, therefore past work has focused on developing bespoke rendering models which smooth over this non-differentiable process in various ways. Such models are thus unable to take advantage of the photo-realistic, fully featured, industrial renderers built by the gaming and graphics industry. In this paper we introduce the first scalable training technique for 3D generative models from 2D data which utilizes an off-the-shelf non-differentiable renderer. To account for the non-differentiability, we introduce a proxy neural renderer to match the output of the non-differentiable renderer. We further propose discriminator output matching to ensure that the neural renderer learns to smooth over the rasterization appropriately. We evaluate our model on images rendered from our generated 3D shapes, and show that our model can consistently learn to generate better shapes than existing models when trained with exclusively unstructured 2D images.
翻訳日:2022-12-28 01:47:50 公開日:2020-02-28
# サンプルアーカイブを用いた一般化自己適応型粒子群最適化アルゴリズム

Generalized Self-Adapting Particle Swarm Optimization algorithm with archive of samples ( http://arxiv.org/abs/2002.12485v1 )

ライセンス: Link先を確認
Micha{\l} Okulewicz, Mateusz Zaborski, Jacek Ma\'ndziuk(参考訳) 本稿では,Parallel Problem Solving from Nature 2018で最初に紹介されたGAPSO(Generalized Self-Adapting Particle Swarm Optimization Algorithm)を拡張し,その特性について検討する。 gapsoの研究は、(1)収集したすべてのサンプルを利用して最適化アルゴリズムの優れた性能を達成することが可能であり、(2)特別なサンプリング動作の組み合わせ(粒子群最適化、微分進化、局所的適応された二乗関数)によって最高の性能を達成することができる、という2つの仮定に基づいている。 ソフトウェア工学の観点からは、GAPSOは標準のParticle Swarm Optimizationアルゴリズムを汎用的なグローバル最適化フレームワークを作成するための理想的な出発点と考えている。 このフレームワークではハイブリッド最適化アルゴリズムが開発され、様々な追加技術(アルゴリズムの再起動管理や適応スキームなど)がテストされている。 本稿では,M-GAPSOと呼ばれるアルゴリズムの新バージョンを紹介する。 GAPSOの当初の定式化と比較すると、グローバル再起動管理スキーム、R-Treeベースのインデックス(サンプルの主/メモリ)内のサンプル収集、大域的な粒子性能に基づくサンプリング動作の適応、局所探索への具体的なアプローチの4つの特徴がある。 以上の拡張により、COCO BBOBテストベッドとブラックボックス最適化コンペティションBBCompの両方で観察されたGAPSO上のM-GAPSOの性能が向上した。 また、M-GAPSOの低次元関数(最大5D)については、CMA-ES(つまり、GECCO 2017で発表されたKL-BIPOP-CMA-ESアルゴリズム)の最先端版に匹敵する。

In this paper we enhance Generalized Self-Adapting Particle Swarm Optimization algorithm (GAPSO), initially introduced at the Parallel Problem Solving from Nature 2018 conference, and to investigate its properties. The research on GAPSO is underlined by the two following assumptions: (1) it is possible to achieve good performance of an optimization algorithm through utilization of all of the gathered samples, (2) the best performance can be accomplished by means of a combination of specialized sampling behaviors (Particle Swarm Optimization, Differential Evolution, and locally fitted square functions). From a software engineering point of view, GAPSO considers a standard Particle Swarm Optimization algorithm as an ideal starting point for creating a generalpurpose global optimization framework. Within this framework hybrid optimization algorithms are developed, and various additional techniques (like algorithm restart management or adaptation schemes) are tested. The paper introduces a new version of the algorithm, abbreviated as M-GAPSO. In comparison with the original GAPSO formulation it includes the following four features: a global restart management scheme, samples gathering within an R-Tree based index (archive/memory of samples), adaptation of a sampling behavior based on a global particle performance, and a specific approach to local search. The above-mentioned enhancements resulted in improved performance of M-GAPSO over GAPSO, observed on both COCO BBOB testbed and in the black-box optimization competition BBComp. Also, for lower dimensionality functions (up to 5D) results of M-GAPSO are better or comparable to the state-of-the art version of CMA-ES (namely the KL-BIPOP-CMA-ES algorithm presented at the GECCO 2017 conference).
翻訳日:2022-12-28 01:46:56 公開日:2020-02-28
# 大域的数値最適化と圧力容器設計のためのWOAハイブリッドGWO

A Novel Hybrid GWO with WOA for Global Numerical Optimization and Solving Pressure Vessel Design ( http://arxiv.org/abs/2003.11894v1 )

ライセンス: Link先を確認
Hardi M. Mohammed, Tarik A. Rashid(参考訳) Whale Optimization Algorithm (WOA)のような最近のメタヒューリスティックアルゴリズムが提案されている。 このアルゴリズムを提案するアイデアは、ハクジラの狩猟行動に関係している。 しかし、WOAは、エクスプロイトフェーズではパフォーマンスが悪く、ローカルベストソリューションでは停滞している。 grey wolf optimization (gwo) は、他の一般的なメタヒューリスティックアルゴリズムと比較して非常に競争力のあるアルゴリズムである。 そこで本論文の目的は,GWOとWOAを併用してこの問題を克服することである。 GWOは最適解をうまく活用できる。 本稿では,WOAGWOと呼ばれるGWOをハイブリッド化したWOAについて述べる。 提案するハイブリダイゼーションモデルには2つのステップがある。 第一に、gwoの狩猟機構は、gwoに関連する新しい条件により、woaの搾取段階に埋め込まれる。 次に、各イテレーションの後にソリューションを改善するための新しいテクニックを探索フェーズに追加する。 23の共通関数、25のcec2005関数、10のcec2019関数である。 提案したWOAGWOは、元のWOA、GWOおよび他の3つの一般的なアルゴリズムに対して評価される。 結果,WOAGWOはウィルコクソンランクサム試験により他のアルゴリズムよりも優れていた。 最後に,圧力容器設計などの工学的問題を解決するためにWOAGWOも適用されている。 その結果、WOAGWO は WOA と Fitness Dependent Optimizer (FDO) よりも優れた最適解が得られることを示した。

A recent metaheuristic algorithm, such as Whale Optimization Algorithm (WOA), was proposed. The idea of proposing this algorithm belongs to the hunting behavior of the humpback whale. However, WOA suffers from poor performance in the exploitation phase and stagnates in the local best solution. Grey Wolf Optimization (GWO) is a very competitive algorithm comparing to other common metaheuristic algorithms as it has a super performance in the exploitation phase while it is tested on unimodal benchmark functions. Therefore, the aim of this paper is to hybridize GWO with WOA to overcome the problems. GWO can perform well in exploiting optimal solutions. In this paper, a hybridized WOA with GWO which is called WOAGWO is presented. The proposed hybridized model consists of two steps. Firstly, the hunting mechanism of GWO is embedded into the WOA exploitation phase with a new condition which is related to GWO. Secondly, a new technique is added to the exploration phase to improve the solution after each iteration. Experimentations are tested on three different standard test functions which are called benchmark functions: 23 common functions, 25 CEC2005 functions and 10 CEC2019 functions. The proposed WOAGWO is also evaluated against original WOA, GWO and three other commonly used algorithms. Results show that WOAGWO outperforms other algorithms depending on the Wilcoxon rank-sum test. Finally, WOAGWO is likewise applied to solve an engineering problem such as pressure vessel design. Then the results prove that WOAGWO achieves optimum solution which is better than WOA and Fitness Dependent Optimizer (FDO).
翻訳日:2022-12-28 01:46:23 公開日:2020-02-28
# GAN(Generative Adversarial Networks)を用いた分散ロバストチャンス制約型プログラミング

Distributionally Robust Chance Constrained Programming with Generative Adversarial Networks (GANs) ( http://arxiv.org/abs/2002.12486v1 )

ライセンス: Link先を確認
Shipu Zhao, Fengqi You(参考訳) 本稿では,ディープラーニングに基づくデータ駆動最適化手法を提案する。 GAN(Generative Adversarial Network)に基づくデータ駆動型分散ロバストな制約付きプログラミングフレームワークを提案する。 GANは、事前近似や仮定なしに、非パラメトリックで教師なしの方法で、歴史的データから分布情報を完全抽出するために適用される。 GANはディープニューラルネットワークを利用するため、複雑なデータ分布とモードを学習することができ、不確実性を効率的に正確にモデル化することができる。 分布的ロバストな確率制約付きプログラミングは不確定パラメータの曖昧な確率分布を考慮する。 計算上の課題に取り組むために,サンプル平均近似法が採用され,ganによって,微分可能ネットワークを介してエンドツーエンドで必要なデータサンプルが生成される。 提案手法は需要の不確実性下でサプライチェーン最適化に適用される。 提案手法の適用性は、イリノイ州の空間的に明示されたバイオ燃料サプライチェーンの郡レベルでのケーススタディで示される。

This paper presents a novel deep learning based data-driven optimization method. A novel generative adversarial network (GAN) based data-driven distributionally robust chance constrained programming framework is proposed. GAN is applied to fully extract distributional information from historical data in a nonparametric and unsupervised way without a priori approximation or assumption. Since GAN utilizes deep neural networks, complicated data distributions and modes can be learned, and it can model uncertainty efficiently and accurately. Distributionally robust chance constrained programming takes into consideration ambiguous probability distributions of uncertain parameters. To tackle the computational challenges, sample average approximation method is adopted, and the required data samples are generated by GAN in an end-to-end way through the differentiable networks. The proposed framework is then applied to supply chain optimization under demand uncertainty. The applicability of the proposed approach is illustrated through a county-level case study of a spatially explicit biofuel supply chain in Illinois.
翻訳日:2022-12-28 01:45:36 公開日:2020-02-28
# 多変量ホークス過程の大規模学習

Learning Multivariate Hawkes Processes at Scale ( http://arxiv.org/abs/2002.12501v1 )

ライセンス: Link先を確認
Maximilian Nickel, Matthew Le(参考訳) 多変量ホークスプロセス(MHP)は、社会情報システムの理解と予測において重要な進歩をもたらす重要な時間点プロセスのクラスである。 しかしながら、時間依存の複雑なモデリングのため、mhpはスケールが難しく、アプリケーションは比較的小さなドメインに制限されている。 本研究では,この重要な限界を克服する新しいモデルと計算手法を提案する。 実世界の拡散過程において特徴的スパーシティパターンを利用することにより,本手法はmhpの正確な可能性と勾配を,基盤となるネットワークの周囲次元とは無関係に計算できることを示す。 合成および実世界のデータセットについて、我々のモデルは最先端の予測結果を達成するだけでなく、スパースイベントシーケンスの標準手法と比較して、実行時の性能を桁違いに向上することを示す。 容易に解釈可能な潜伏変数や影響構造と組み合わせることで、以前は到達不可能なスケールで拡散過程を解析できる。

Multivariate Hawkes Processes (MHPs) are an important class of temporal point processes that have enabled key advances in understanding and predicting social information systems. However, due to their complex modeling of temporal dependencies, MHPs have proven to be notoriously difficult to scale, what has limited their applications to relatively small domains. In this work, we propose a novel model and computational approach to overcome this important limitation. By exploiting a characteristic sparsity pattern in real-world diffusion processes, we show that our approach allows to compute the exact likelihood and gradients of an MHP -- independently of the ambient dimensions of the underlying network. We show on synthetic and real-world datasets that our model does not only achieve state-of-the-art predictive results, but also improves runtime performance by multiple orders of magnitude compared to standard methods on sparse event sequences. In combination with easily interpretable latent variables and influence structures, this allows us to analyze diffusion processes at previously unattainable scale.
翻訳日:2022-12-28 01:45:23 公開日:2020-02-28
# ディープラーニングアプリケーションにおける最適化手法は重要か?

Do optimization methods in deep learning applications matter? ( http://arxiv.org/abs/2002.12642v1 )

ライセンス: Link先を確認
Buse Melis Ozyildirim (1), Mariam Kiran (2) ((1) Department of Computer Engineering Cukurova University, (2) Energy Sciences Network Lawrence Berkeley National Laboratory)(参考訳) ディープラーニングの進歩、指数的データ成長、モデル複雑性の増大により、効率的な最適化手法の開発が研究の注目を集めている。 いくつかの実装は、高速収束を実現するための実用的でエレガントなソリューションとして、共役勾配(CG)と確率勾配勾配(SGD)の使用を好んでいるが、これらの最適化プロセスはディープラーニングアプリケーション全体での学習に多くの制限を与える。 最近の研究では、より優れたアプローチとして高階最適化関数を探求しているが、これらは実用上は非常に複雑な計算課題を呈している。 本稿では,Levemberg-Marquardt (LM) が最適収束を著しく上回っているが,処理時間が非常に長いこと,分類と強化学習の両課題の訓練複雑性を増大させていることを,一階および高階の最適化関数と比較した。 本研究は,標準cifar,mnist,cartpole,flappybird実験における市販最適化関数(cg,sgd,lm,l-bfgs)の比較を行い,どの最適化関数を使用するか,さらに,事前学習時間と学習率の収束を改善するために,どの関数が並列化によって恩恵を受けるかについて議論する。

With advances in deep learning, exponential data growth and increasing model complexity, developing efficient optimization methods are attracting much research attention. Several implementations favor the use of Conjugate Gradient (CG) and Stochastic Gradient Descent (SGD) as being practical and elegant solutions to achieve quick convergence, however, these optimization processes also present many limitations in learning across deep learning applications. Recent research is exploring higher-order optimization functions as better approaches, but these present very complex computational challenges for practical use. Comparing first and higher-order optimization functions, in this paper, our experiments reveal that Levemberg-Marquardt (LM) significantly supersedes optimal convergence but suffers from very large processing time increasing the training complexity of both, classification and reinforcement learning problems. Our experiments compare off-the-shelf optimization functions(CG, SGD, LM and L-BFGS) in standard CIFAR, MNIST, CartPole and FlappyBird experiments.The paper presents arguments on which optimization functions to use and further, which functions would benefit from parallelization efforts to improve pretraining time and learning rate convergence.
翻訳日:2022-12-28 01:39:31 公開日:2020-02-28
# 畳み込みスペクトル核学習

Convolutional Spectral Kernel Learning ( http://arxiv.org/abs/2002.12744v1 )

ライセンス: Link先を確認
Jian Li, Yong Liu, Weiping Wang(参考訳) 近年、長距離相関と入力依存特性を明らかにする強力な特徴表現能力により、非定常スペクトルカーネルが注目されている。 しかし、非定常スペクトル核はまだ浅いモデルであるため、階層的特徴と局所的相互依存の両方を学ぶことができない。 本稿では、階層的および局所的な知識を得るために、逆フーリエ変換に基づく解釈可能な畳み込みスペクトルカーネルネットワーク(\texttt{CSKN})を構築し、深層構造と畳み込みフィルタを非定常スペクトルカーネル表現に導入する。 さらに,Rademacherの複雑性に基づいて一般化誤差境界を導出し,性能向上のために2つの正規化器を導入する。 正規化器と最近のランダム初期化の進歩を組み合わせることで, 最終的に \texttt{CSKN} の学習フレームワークを完成させる。 実世界のデータセットを用いた実験により,学習フレームワークの有効性が検証され,理論的な結果と一致した。

Recently, non-stationary spectral kernels have drawn much attention, owing to its powerful feature representation ability in revealing long-range correlations and input-dependent characteristics. However, non-stationary spectral kernels are still shallow models, thus they are deficient to learn both hierarchical features and local interdependence. In this paper, to obtain hierarchical and local knowledge, we build an interpretable convolutional spectral kernel network (\texttt{CSKN}) based on the inverse Fourier transform, where we introduce deep architectures and convolutional filters into non-stationary spectral kernel representations. Moreover, based on Rademacher complexity, we derive the generalization error bounds and introduce two regularizers to improve the performance. Combining the regularizers and recent advancements on random initialization, we finally complete the learning framework of \texttt{CSKN}. Extensive experiments results on real-world datasets validate the effectiveness of the learning framework and coincide with our theoretical findings.
翻訳日:2022-12-28 01:38:34 公開日:2020-02-28
# フラグメントに基づく分子生成のための深部生成モデル

A Deep Generative Model for Fragment-Based Molecule Generation ( http://arxiv.org/abs/2002.12826v1 )

ライセンス: Link先を確認
Marco Podda, Davide Bacciu, Alessio Micheli(参考訳) 分子生成は化学情報学における挑戦的なオープン問題である。 現在、この課題に対するディープジェネレーティブなアプローチは、2つの幅広いカテゴリに属しており、分子の表現方法が異なる。 あるアプローチでは、分子グラフをテキストの文字列としてエンコードし、対応する文字ベースの言語モデルを学ぶ。 別の、より表現力のあるアプローチは、分子グラフ上で直接動作する。 本研究では、前者の2つの制限、すなわち無効分子と重複分子の生成に対処する。 本研究では, フラグメントに基づく医薬品設計のパラダイムに着想を得て, フラグメントと呼ばれる小さな分子サブ構造に対する言語モデルを構築した。 言い換えれば、原子による原子ではなく、断片による分子断片を生成する。 特異性率を改善するために、周波数ベースのマスキング戦略を提案し、少ないフラグメントを持つ分子の生成を支援する。 実験により、我々のモデルは、他の言語モデルベースの競合よりはるかに優れており、グラフベースのアプローチで典型的な最先端のパフォーマンスに達することを示した。 さらに、生成された分子は、明示的なタスク固有の監督がなくても、トレーニングサンプルと同様の分子特性を示す。

Molecule generation is a challenging open problem in cheminformatics. Currently, deep generative approaches addressing the challenge belong to two broad categories, differing in how molecules are represented. One approach encodes molecular graphs as strings of text, and learns their corresponding character-based language model. Another, more expressive, approach operates directly on the molecular graph. In this work, we address two limitations of the former: generation of invalid and duplicate molecules. To improve validity rates, we develop a language model for small molecular substructures called fragments, loosely inspired by the well-known paradigm of Fragment-Based Drug Design. In other words, we generate molecules fragment by fragment, instead of atom by atom. To improve uniqueness rates, we present a frequency-based masking strategy that helps generate molecules with infrequent fragments. We show experimentally that our model largely outperforms other language model-based competitors, reaching state-of-the-art performances typical of graph-based approaches. Moreover, generated molecules display molecular properties similar to those in the training sample, even in absence of explicit task-specific supervision.
翻訳日:2022-12-28 01:38:16 公開日:2020-02-28
# 分位正規化:回帰モデルの暗黙的キャリブレーションに向けて

Quantile Regularization: Towards Implicit Calibration of Regression Models ( http://arxiv.org/abs/2002.12860v1 )

ライセンス: Link先を確認
Saiteja Utpala and Piyush Rai(参考訳) 近年の研究では、ほとんどのディープラーニングモデルは校正が不十分な場合が多いことが示されている。 したがって、信頼できる予測の不確実性推定を生成するモデルを持つことが望ましい。 近年,分類モデルの校正手法が提案されている。 しかし、回帰モデルを校正する作業は比較的少ない。 2つのCDF間の累積KL分散として定義される新しい量子正規化器に基づく回帰モデルの校正法を提案する。 モデル出力のポストホック処理をベースとして,追加のデータセットを必要とする回帰モデルのキャリブレーションを行う既存のアプローチとは異なり,本手法は,追加のデータセットを必要としないエンドツーエンドでトレーニング可能である。 提案する正規化器は、回帰のためのトレーニング目的に使用できる。 また,アイソトニックキャリブレーションのようなポストホックキャリブレーション法は複雑な誤校正を行う場合もあるが,本手法は一貫してより良い校正を行う。 本研究では,Dropout VI や Deep Ensembles といった手法を用いて学習した回帰モデルのキャリブレーションを大幅に改善することを示す実験結果を示す。

Recent works have shown that most deep learning models are often poorly calibrated, i.e., they may produce overconfident predictions that are wrong. It is therefore desirable to have models that produce predictive uncertainty estimates that are reliable. Several approaches have been proposed recently to calibrate classification models. However, there is relatively little work on calibrating regression models. We present a method for calibrating regression models based on a novel quantile regularizer defined as the cumulative KL divergence between two CDFs. Unlike most of the existing approaches for calibrating regression models, which are based on post-hoc processing of the model's output and require an additional dataset, our method is trainable in an end-to-end fashion without requiring an additional dataset. The proposed regularizer can be used with any training objective for regression. We also show that post-hoc calibration methods like Isotonic Calibration sometimes compound miscalibration whereas our method provides consistently better calibrations. We provide empirical results demonstrating that the proposed quantile regularizer significantly improves calibration for regression models trained using approaches, such as Dropout VI and Deep Ensembles.
翻訳日:2022-12-28 01:38:00 公開日:2020-02-28
# ImmuNetNAS:畳み込みニューラルネットワークアーキテクチャ検索のための免疫ネットワークアプローチ

ImmuNetNAS: An Immune-network approach for searching Convolutional Neural Network Architectures ( http://arxiv.org/abs/2002.12704v1 )

ライセンス: Link先を確認
Kefan Chen, Wei Pang(参考訳) 本研究では免疫ネットワーク理論に触発された新しいニューラルネットワーク探索(NAS)手法であるImmuNetNASを提案する。 ImmuNetNASのコアはオリジナルの免疫ネットワークアルゴリズムに基づいて構築されており、過剰変異と選択によって個体群を反復的に更新し、抗体親和性と特異な類似性を比較することで、要求を満たしない自己世代を排除している。 さらに,突然変異操作を容易にするために,新しい2成分系ニューラル構造符号化戦略を提案する。 さらに, 標準遺伝的アルゴリズム(SGA)に基づく改良された突然変異戦略が提案された。 最後に,提案する2成分コーディング法に基づき,適切なニューラルアーキテクチャをスクリーニングする新しい抗体親和性算出法を開発した。 システム評価の結果,本システムはMNISTとCIFAR-10の両方で良好な性能を示した。 私たちはGitHubでコードをオープンソースにして、他のディープラーニング研究者や実践者と共有しています。

In this research, we propose ImmuNetNAS, a novel Neural Architecture Search (NAS) approach inspired by the immune network theory. The core of ImmuNetNAS is built on the original immune network algorithm, which iteratively updates the population through hypermutation and selection, and eliminates the self-generation individuals that do not meet the requirements through comparing antibody affinity and inter-specific similarity. In addition, in order to facilitate the mutation operation, we propose a novel two-component based neural structure coding strategy. Furthermore, an improved mutation strategy based on Standard Genetic Algorithm (SGA) was proposed according to this encoding method. Finally, based on the proposed two-component based coding method, a new antibody affinity calculation method was developed to screen suitable neural architectures. Systematic evaluations demonstrate that our system has achieved good performance on both the MNIST and CIFAR-10 datasets. We open-source our code on GitHub in order to share it with other deep learning researchers and practitioners.
翻訳日:2022-12-28 01:30:09 公開日:2020-02-28
# アクティブ推論による強化学習

Reinforcement Learning through Active Inference ( http://arxiv.org/abs/2002.12636v1 )

ライセンス: Link先を確認
Alexander Tschantz, Beren Millidge, Anil K. Seth, Christopher L. Buckley(参考訳) 強化学習(RL)の中心的特徴は、エージェントが累積報酬の総和を最大化しようとすることである。 対照的に、認知神経科学と計算神経科学の新たな枠組みである能動的推論は、エージェントがバイアス付き生成モデルの証拠を最大化するために行動することを提案する。 ここでは、アクティブ推論のアイデアが従来のRLアプローチをどのように拡張するかを説明する。 (i)探索と搾取の固有のバランスを提供する (ii)報酬のより柔軟な概念化を提供する。 能動的推論にインスパイアされ、我々は、期待される未来の自由エネルギー(free energy of the future)と呼ぶ、意思決定のための新しい目標を開発し、実装する。 得られたアルゴリズムは探索とエクスプロイトのバランスをうまく保ち、同時にスパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて堅牢な性能を達成することを実証する。

The central tenet of reinforcement learning (RL) is that agents seek to maximize the sum of cumulative rewards. In contrast, active inference, an emerging framework within cognitive and computational neuroscience, proposes that agents act to maximize the evidence for a biased generative model. Here, we illustrate how ideas from active inference can augment traditional RL approaches by (i) furnishing an inherent balance of exploration and exploitation, and (ii) providing a more flexible conceptualization of reward. Inspired by active inference, we develop and implement a novel objective for decision making, which we term the free energy of the expected future. We demonstrate that the resulting algorithm successfully balances exploration and exploitation, simultaneously achieving robust performance on several challenging RL benchmarks with sparse, well-shaped, and no rewards.
翻訳日:2022-12-28 01:29:53 公開日:2020-02-28
# すべての道はローマに通じますか。 反復的バックトランスレーションにおける初期化の役割の理解

Do all Roads Lead to Rome? Understanding the Role of Initialization in Iterative Back-Translation ( http://arxiv.org/abs/2002.12867v1 )

ライセンス: Link先を確認
Mikel Artetxe, Gorka Labaka, Noe Casas, Eneko Agirre(参考訳) バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における単言語コーパスを活用するための、シンプルで効果的なアプローチを提供する。 逆モデルによって生成された合成並列コーパスを交互に使用することにより、2つの反対NMTモデルが共同で訓練される反復変種は、教師なし機械翻訳において中心的な役割を果たす。 音声翻訳と有意義な訓練信号を相互に提供し始めるために、既存のアプローチは、反復的な手順を温めるための別個の機械翻訳システムか、モデルの重みを初期化するための事前学習形式のいずれかに依存している。 本稿では,そのような初期化が反復的逆翻訳において果たす役割を分析する。 最終システムの振る舞いは、それに大きく依存しているか? あるいは、反復的バックトランスレーションは、妥当な初期化が与えられたときも同様の解に収束するだろうか? 多様なウォームアップシステムに関する一連の経験的実験を通じて,初期システムの品質は最終性能に影響を与えるが,反復バックトランスレーションは類似のソリューションに収束する傾向が強いため,その効果は比較的小さいことを示した。 そのため、初期化法に残された改善の限界は狭く、今後の研究は反復機構自体の改善に集中すべきである。

Back-translation provides a simple yet effective approach to exploit monolingual corpora in Neural Machine Translation (NMT). Its iterative variant, where two opposite NMT models are jointly trained by alternately using a synthetic parallel corpus generated by the reverse model, plays a central role in unsupervised machine translation. In order to start producing sound translations and provide a meaningful training signal to each other, existing approaches rely on either a separate machine translation system to warm up the iterative procedure, or some form of pre-training to initialize the weights of the model. In this paper, we analyze the role that such initialization plays in iterative back-translation. Is the behavior of the final system heavily dependent on it? Or does iterative back-translation converge to a similar solution given any reasonable initialization? Through a series of empirical experiments over a diverse set of warmup systems, we show that, although the quality of the initial system does affect final performance, its effect is relatively small, as iterative back-translation has a strong tendency to convergence to a similar solution. As such, the margin of improvement left for the initialization method is narrow, suggesting that future research should focus more on improving the iterative mechanism itself.
翻訳日:2022-12-28 01:29:18 公開日:2020-02-28
# 確率分布に対する一般化スライス距離

Generalized Sliced Distances for Probability Distributions ( http://arxiv.org/abs/2002.12537v1 )

ライセンス: Link先を確認
Soheil Kolouri, Kimia Nadjahi, Umut Simsekli, Shahin Shahrampour(参考訳) 確率メトリクスは現代の統計学や機械学習において不可欠な部分となり、統計仮説テストや生成モデリングなど様々な応用において重要な役割を果たす。 しかし、現実的な環境では、いくつかの特定のケースを除いて、これらの距離上に構築されたアルゴリズムの収束挙動は十分に確立されていない。 本稿では,一般化ラドン変換に深く根ざした一般化スライス確率メトリクス(generalized sliced probability metrics,gspms)という,幅広い確率メトリクスの族を紹介する。 まずgspmがメトリクスであることを検証します。 次に,新しい正定値核を持つ最大平均偏差(mmd)と同値なgspmの部分集合を同定し,一意な幾何学的解釈を与える。 最後に,この接続を活用し,gspmに基づく勾配流を生成的モデリングアプリケーションに適用し,穏やかな仮定の下では,勾配流が大域的最適に収束することを示す。 実問題と合成問題の両方に対する我々のアプローチの有用性を説明する。

Probability metrics have become an indispensable part of modern statistics and machine learning, and they play a quintessential role in various applications, including statistical hypothesis testing and generative modeling. However, in a practical setting, the convergence behavior of the algorithms built upon these distances have not been well established, except for a few specific cases. In this paper, we introduce a broad family of probability metrics, coined as Generalized Sliced Probability Metrics (GSPMs), that are deeply rooted in the generalized Radon transform. We first verify that GSPMs are metrics. Then, we identify a subset of GSPMs that are equivalent to maximum mean discrepancy (MMD) with novel positive definite kernels, which come with a unique geometric interpretation. Finally, by exploiting this connection, we consider GSPM-based gradient flows for generative modeling applications and show that under mild assumptions, the gradient flow converges to the global optimum. We illustrate the utility of our approach on both real and synthetic problems.
翻訳日:2022-12-28 01:28:26 公開日:2020-02-28
# 因果性とロバスト最適化

Causality and Robust Optimization ( http://arxiv.org/abs/2002.12626v1 )

ライセンス: Link先を確認
Akihiro Yabe(参考訳) 意思決定者は機械学習の予測を適用しようとするとき、コファウンディングバイアスを考慮する必要があり、特徴の選択はデータ分析において重要なプロセスとして広く認識されているが、コファウンディングバイアスを引き起こす可能性がある。 因果ベイズネットワークは因果関係を記述するための標準的なツールであり、関係が分かっている場合、どの特徴が共起バイアスを消滅させるかを調整基準で決定することができる。 標準修正は、特徴選択におけるバイアスの共起を防止するために因果発見アルゴリズムを使用する。 しかし因果発見アルゴリズムは基本的には忠実性の仮定に依存しており、実際的な特徴選択設定では容易に違反することが判明した。 本稿では,既存の特徴選択アルゴリズムを共起バイアスの観点で修正可能なメタアルゴリズムを提案する。 本アルゴリズムは, 因果正当性という別のよく知られた仮定から導出できる仮定である, 忠実性よりも要求される新しい調整基準から導出される。 さらに、修正によって追加された特徴が共起バイアスを予測分散に変換することを証明した。 リスクの高い戦略を高分散で調整する既存のロバストな最適化技術によって、我々は意思決定最適化のスループット性能を、実験結果に示すように向上させることができる。

A decision-maker must consider cofounding bias when attempting to apply machine learning prediction, and, while feature selection is widely recognized as important process in data-analysis, it could cause cofounding bias. A causal Bayesian network is a standard tool for describing causal relationships, and if relationships are known, then adjustment criteria can determine with which features cofounding bias disappears. A standard modification would thus utilize causal discovery algorithms for preventing cofounding bias in feature selection. Causal discovery algorithms, however, essentially rely on the faithfulness assumption, which turn out to be easily violated in practical feature selection settings. In this paper, we propose a meta-algorithm that can remedy existing feature selection algorithms in terms of cofounding bias. Our algorithm is induced from a novel adjustment criterion that requires rather than faithfulness, an assumption which can be induced from another well-known assumption of the causal sufficiency. We further prove that the features added through our modification convert cofounding bias into prediction variance. With the aid of existing robust optimization technologies that regularize risky strategies with high variance, then, we are able to successfully improve the throughput performance of decision-making optimization, as is shown in our experimental results.
翻訳日:2022-12-28 01:27:38 公開日:2020-02-28
# 文法圧縮テキストから直接学習する

Learning Directly from Grammar Compressed Text ( http://arxiv.org/abs/2002.12570v1 )

ライセンス: Link先を確認
Yoichi Sasaki, Kosuke Akimoto, Takanori Maehara(参考訳) 多数のテキストデータを用いたニューラルネットワークは、様々なタスクにうまく適用されている。 大量のテキストデータは文法圧縮などの手法で圧縮されることが多いが、従来の機械学習手法のほとんどは、すでに圧縮されたシーケンスデータを入力として想定している。 本稿では, 圧縮を伴わない文法圧縮アルゴリズムで圧縮されたテキストデータに対して, ニューラルシーケンスモデルを直接適用する手法を提案する。 圧縮規則に現れるユニークなシンボルを符号化するために,記号をベクトル表現にインクリメンタルにエンコードする合成モジュールを導入する。 実データセットを用いた実験により,提案モデルが適度な性能を維持しつつ,メモリと計算効率を両立できることを示した。

Neural networks using numerous text data have been successfully applied to a variety of tasks. While massive text data is usually compressed using techniques such as grammar compression, almost all of the previous machine learning methods assume already decompressed sequence data as their input. In this paper, we propose a method to directly apply neural sequence models to text data compressed with grammar compression algorithms without decompression. To encode the unique symbols that appear in compression rules, we introduce composer modules to incrementally encode the symbols into vector representations. Through experiments on real datasets, we empirically showed that the proposal model can achieve both memory and computational efficiency while maintaining moderate performance.
翻訳日:2022-12-28 01:19:57 公開日:2020-02-28
# 知識蒸留を伴う回帰問題に対する小型モデルの効率的な学習法

An Efficient Method of Training Small Models for Regression Problems with Knowledge Distillation ( http://arxiv.org/abs/2002.12597v1 )

ライセンス: Link先を確認
Makoto Takamoto, Yusuke Morishita, and Hitoshi Imaoka(参考訳) ディープニューラルネットワーク(DNN)モデルを圧縮することは、モバイルデバイスにモデルをデプロイするなど、現実のアプリケーションにとって非常に重要で必要なテクニックになります。 知識蒸留はモデル圧縮の最も一般的な方法の1つであり、この手法の開発に関して多くの研究がなされている。 しかし,これらの研究は主に分類問題に焦点を当てており,回帰問題へのDNNの適用は少ないが,回帰問題に対する試みは少ない。 本稿では,回帰問題に対する知識蒸留の新しい形式性を提案する。 まず,教師モデルの予測を用いて,学習サンプルの外れ値を拒否する教師外れ拒否損失という新たな損失関数を提案する。 次に,2つの出力を持つマルチタスクネットワークについて検討する。1つは,ノイズラベルによって一般に汚染されるトレーニングラベルを推定し,もう1つは,記憶効果により雑音ラベルを変更することを想定した教師モデルの出力を推定する。 マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になり、スクラッチから訓練した生徒よりも優れた学生モデルを得ることができる。 1つの単純なおもちゃモデル、正弦波関数と2つのオープンデータセット、MPIIGazeとMulti-PIEを用いて包括的評価を行った。 その結果,データセットのアノテーションエラーレベルに関わらず,精度が一貫した改善が得られた。

Compressing deep neural network (DNN) models becomes a very important and necessary technique for real-world applications, such as deploying those models on mobile devices. Knowledge distillation is one of the most popular methods for model compression, and many studies have been made on developing this technique. However, those studies mainly focused on classification problems, and very few attempts have been made on regression problems, although there are many application of DNNs on regression problems. In this paper, we propose a new formalism of knowledge distillation for regression problems. First, we propose a new loss function, teacher outlier rejection loss, which rejects outliers in training samples using teacher model predictions. Second, we consider a multi-task network with two outputs: one estimates training labels which is in general contaminated by noisy labels; And the other estimates teacher model's output which is expected to modify the noise labels following the memorization effects. By considering the multi-task network, training of the feature extraction of student models becomes more effective, and it allows us to obtain a better student model than one trained from scratch. We performed comprehensive evaluation with one simple toy model: sinusoidal function, and two open datasets: MPIIGaze, and Multi-PIE. Our results show consistent improvement in accuracy regardless of the annotation error level in the datasets.
翻訳日:2022-12-28 01:19:17 公開日:2020-02-28
# HOTCAKE:より深いCNN圧縮のための高次タッカーアーティキュレートカーネル

HOTCAKE: Higher Order Tucker Articulated Kernels for Deeper CNN Compression ( http://arxiv.org/abs/2002.12663v1 )

ライセンス: Link先を確認
Rui Lin, Ching-Yun Ko, Zhuolun He, Cong Chen, Yuan Cheng, Hao Yu, Graziano Chesi, Ngai Wong(参考訳) エッジコンピューティングは、多くの精度を犠牲にすることなく、ニューラルネットワークをコンパクト化するという大きな関心を喚起している。 この点において、低ランクテンソル分解は、畳み込みニューラルネットワーク(cnns)を4方向の核テンソルを多段小さいものに分解して圧縮する強力なツールである。 本研究では,タッカー2分解に基づいて,入力チャネル分解,誘導タッカーランク選択,高次タッカー分解,微調整の4段階からなる一般化高次タッカーArticulated Kernel(HOTCAKE)方式を提案する。 各CONV層をHOTCAKEに印加することにより、高精度なトレードオフを有する高圧縮CNNモデルを得る。 実験によると、HOTCAKEはプレ圧縮モデルさえ圧縮でき、最先端の軽量ネットワークを作れる。

The emerging edge computing has promoted immense interests in compacting a neural network without sacrificing much accuracy. In this regard, low-rank tensor decomposition constitutes a powerful tool to compress convolutional neural networks (CNNs) by decomposing the 4-way kernel tensor into multi-stage smaller ones. Building on top of Tucker-2 decomposition, we propose a generalized Higher Order Tucker Articulated Kernels (HOTCAKE) scheme comprising four steps: input channel decomposition, guided Tucker rank selection, higher order Tucker decomposition and fine-tuning. By subjecting each CONV layer to HOTCAKE, a highly compressed CNN model with graceful accuracy trade-off is obtained. Experiments show HOTCAKE can compress even pre-compressed models and produce state-of-the-art lightweight networks.
翻訳日:2022-12-28 01:18:55 公開日:2020-02-28
# インペインティングによるインスタンス分離

Instance Separation Emerges from Inpainting ( http://arxiv.org/abs/2003.00891v1 )

ライセンス: Link先を確認
Steffen Wolf, Fred A. Hamprecht, Jan Funke(参考訳) 部分閉塞画像のインペイントに訓練されたディープニューラルネットワークは、画像組成の深い理解を示し、画像からオブジェクトを説得力のある形で除去することさえ示されている。 本研究では,この暗黙的なイメージ構成の知識を,完全自己教師型インスタンス分離に活用する方法を検討する。 本稿では,この独立性を最大化することにより,完全自己監督型塗装ネットワークとオブジェクトを分離した2つの画像領域の独立性を示す尺度を提案する。 本手法を2つの顕微鏡画像データセット上で評価し,完全教師付き手法に類似したセグメンテーション性能を示す。

Deep neural networks trained to inpaint partially occluded images show a deep understanding of image composition and have even been shown to remove objects from images convincingly. In this work, we investigate how this implicit knowledge of image composition can be leveraged for fully self-supervised instance separation. We propose a measure for the independence of two image regions given a fully self-supervised inpainting network and separate objects by maximizing this independence. We evaluate our method on two microscopy image datasets and show that it reaches similar segmentation performance to fully supervised methods.
翻訳日:2022-12-28 01:18:42 公開日:2020-02-28
# 生成前処理によるクラス特異的ブラインドデコンボリューション位相検索

Class-Specific Blind Deconvolutional Phase Retrieval Under a Generative Prior ( http://arxiv.org/abs/2002.12578v1 )

ライセンス: Link先を確認
Fahad Shamshad, Ali Ahmed(参考訳) 本稿では,円畳み込みの位相のない測定から2つの実値信号を同時に回収するという,非常に不適切な問題を考える。 この問題は、フーリエピンチグラフィ、x線結晶学、可視光通信などの様々なイメージングモードにおいて生じる。 本稿では、事前訓練された2つの深層生成ネットワークの下での交互勾配降下アルゴリズムを用いて、この逆問題を解決することを提案する。 提案した回復アルゴリズムは,前向き測定モデルを説明する各前駆体の範囲内で,シャープな画像とぼやけたカーネルを求める。 そうすることで、品質画像の推定を再構築することができます。 さらに,提案手法は,物理的に実現可能な撮像系を反映し,雑音に対して頑健な測定モデル上でも有効であることを示す。

In this paper, we consider the highly ill-posed problem of jointly recovering two real-valued signals from the phaseless measurements of their circular convolution. The problem arises in various imaging modalities such as Fourier ptychography, X-ray crystallography, and in visible light communication. We propose to solve this inverse problem using alternating gradient descent algorithm under two pretrained deep generative networks as priors; one is trained on sharp images and the other on blur kernels. The proposed recovery algorithm strives to find a sharp image and a blur kernel in the range of the respective pre-generators that \textit{best} explain the forward measurement model. In doing so, we are able to reconstruct quality image estimates. Moreover, the numerics show that the proposed approach performs well on the challenging measurement models that reflect the physically realizable imaging systems and is also robust to noise
翻訳日:2022-12-28 01:18:31 公開日:2020-02-28