このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200420となっている論文です。

PDF登録状況(公開日: 20200420)

TitleAuthorsAbstract論文公表日・翻訳日
# 電磁式アナログブラックホールからのホーキング放射:理論と観測

Stimulated Hawking Emission From Electromagnetic Analogue Black Hole: Theory and Observation ( http://arxiv.org/abs/2001.08467v2 )

ライセンス: Link先を確認
Avijit Bera, Subir Ghosh(参考訳) 本稿では, 通常の誘電体およびメタマテリアル複合材料からのアナログホーキング放射について考察する。 我々は, 地平線におけるアナログホーキング温度と, 環境電磁界からの光子生成を示すために, 複雑な経路解析を行った。 実験観察の可能性も指摘されている。

In this paper we consider possible analogue Hawking radiation from a normal dielectric and metamaterial composite, having an analogue horizon where the dielectric parameters vanish and change sign upon crossing this transition zone. We follow a complex path analysis to show the presence of an analogue Hawking temperature at the horizon and subsequent photon production from the ambient electromagnetic field. Possibility of experimental observation is also commented upon.
翻訳日:2023-06-06 05:10:36 公開日:2020-04-20
# Bose-Einstein Condensatesを用いた高調波重力勾配測定

Phononic gravity gradiometry with Bose-Einstein condensates ( http://arxiv.org/abs/2001.10104v2 )

ライセンス: Link先を確認
Tupac Bravo, Dennis R\"atzel and Ivette Fuentes(参考訳) Bose-Einstein condensates (BECs)による重力勾配測定は前例のない精度に達した。 この手法の基礎は、単一原子波関数の干渉による差動力の測定である。 本稿では、捕捉されたBEC原子の集合振動であるフォノンを代わりに使用するグラジオメトリースキームを提案する。 本手法は, 原理上, 地球や質量の小さい球体の重力勾配をミリグラムスケールまで高精度に測定できることを示す。 重力勾配法の基本的な誤差境界は、BECの長さスケールでの実験的実現におけるナノガルレンジの差分力感度に対応している。

Gravity gradiometry with Bose-Einstein condensates (BECs) has reached unprecedented precisions. The basis of this technique is the measurement of differential forces by interference of single-atom wave functions. In this article, we propose a gradiometry scheme where phonons, the collective oscillations of a trapped BEC's atoms are used instead. We show that our scheme could, in principle, enable high-precision measurements of gravity gradients of bodies such as the Earth or small spheres with masses down to the milligram scale. The fundamental error bound of our gravity gradiometry scheme corresponds to a differential force sensitivity in the nano-gal range per experimental realization on the length scale of the BEC.
翻訳日:2023-06-05 11:32:52 公開日:2020-04-20
# 位置情報に基づくソーシャルメディアからの相対的意見を測る:2016年アメリカ合衆国大統領選挙を事例として

Measuring relative opinion from location-based social media: A case study of the 2016 U.S. presidential election ( http://arxiv.org/abs/2002.00854v2 )

ライセンス: Link先を確認
Zhaoya Gong, Tengteng Cai, Jean-Claude Thill, Scott Hale, Mark Graham(参考訳) ソーシャルメディアはパブリック・オピニオン・コレクションのための世論調査の代替手段となりつつあるが、構造的無力性、定量性、代表性など、パッシブ・データ・ソースとして多くの課題を抱えている。 geotagsを使ったソーシャルメディアデータは、意見を表明するユーザーの地理的位置を明らかにする新しい機会を提供する。 本稿の目的は2つの問いに答えることである。 1)世論の定量化がソーシャルメディアから得ることができるかどうか 2) 世論調査に比較して,その効果が良いか,あるいは補完的な措置となるか。 本研究では,より複雑な意見構造に対応し,公的な問題に関連する地理を活用すべく,twitter利用者の公的な問題に対する相対的な意見を計測する新しい手法を提案する。 この新たな手段が技術的に実現可能であることを保証するため、最先端のアプローチを採用してトレーニングデータセットの構築と、Opinion-Oriented Word Embeddingと呼ばれる新しいディープラーニング手法の開発を含むモデリングフレームワークが開発された。 2016年アメリカ合衆国大統領選挙で選ばれたツイートのケーススタディでは、相対的な意見のアプローチの予測上の優位性を実証し、視覚的分析と意見の予測を支援する方法を示す。 相対的評価尺度は, 世論調査に比べて頑健であることが証明されているが, 前者は後者の世論予測を有利に補完できることが示唆された。

Social media has become an emerging alternative to opinion polls for public opinion collection, while it is still posing many challenges as a passive data source, such as structurelessness, quantifiability, and representativeness. Social media data with geotags provide new opportunities to unveil the geographic locations of users expressing their opinions. This paper aims to answer two questions: 1) whether quantifiable measurement of public opinion can be obtained from social media and 2) whether it can produce better or complementary measures compared to opinion polls. This research proposes a novel approach to measure the relative opinion of Twitter users towards public issues in order to accommodate more complex opinion structures and take advantage of the geography pertaining to the public issues. To ensure that this new measure is technically feasible, a modeling framework is developed including building a training dataset by adopting a state-of-the-art approach and devising a new deep learning method called Opinion-Oriented Word Embedding. With a case study of the tweets selected for the 2016 U.S. presidential election, we demonstrate the predictive superiority of our relative opinion approach and we show how it can aid visual analytics and support opinion predictions. Although the relative opinion measure is proved to be more robust compared to polling, our study also suggests that the former can advantageously complement the later in opinion prediction.
翻訳日:2023-06-04 20:41:39 公開日:2020-04-20
# disオフ陽子と核における小xの絡み合いエントロピーの研究

Investigating entanglement entropy at small-x in DIS off protons and nuclei ( http://arxiv.org/abs/2003.05008v2 )

ライセンス: Link先を確認
G.S. Ramos, M.V.T. Machado(参考訳) 本研究では,陽子と核の深い非弾性散乱における絡み合いエントロピーの解析を行う。 これは、小さなxの粒子状態が、同じ確率で発生する多数のミクロ状態によってプロトンが最大に絡み合う形式に基づいている。 qcdカラー双極子画像中の双極子目標振幅に対するグルーオン飽和モデルから得られたグルーオン数 n_{gluon} の解析式について検討する。 特に核子当たりの核の絡み合いエントロピーについて研究する。 また,これらの計算に関する基礎的不確実性についても検討し,文献における同様の研究と比較した。

In this work we analyse the entanglement entropy in deep inelastic scattering off protons and nuclei. It is computed based on the formalism where the partonic state at small-x is maximally entangled with proton being constituted by large number of microstates occuring with equal probabilities. We consider analytical expressions for the number of gluons, N_{gluon}, obtained from gluon saturation models for the dipole-target amplitudes within the QCD color dipole picture. In particular, the nuclear entanglement entropy per nucleon is studied. We also study the underlying uncertainties on these calculations and compare the results to similar investigations in literature.
翻訳日:2023-05-30 00:56:29 公開日:2020-04-20
# 低ポンプエネルギーパラメトリックダウンコンバージョンにおけるポンプの枯渇

Pump depletion in parametric down-conversion with low pump energies ( http://arxiv.org/abs/2003.07483v2 )

ライセンス: Link先を確認
Jefferson Fl\'orez, Jeff S. Lundeen, Maria V. Chekhova(参考訳) 我々は、ポンプの枯渇を含む高利得パラメトリックなダウンコンバージョンを効率良く生成し、ポンプのパワーを100ドル(約1万2000円)まで低くし、変換効率を33.%まで向上させたことを報告している。 簡単な構成では、ポンプビームは、自由空間に置かれたバルク状偏極リチウムニオブ酸リチウム結晶に密集している。 また,ポンプの出力が増加すると,ポンプとダウンコンバートビームの両方の光子数統計値が減少する傾向も観察した。 実験結果は、高効率なパラメトリックダウンコンバージョン源におけるポンプとダウンコンバージョンビームの相互作用の明確なシグネチャである。

We report the efficient generation of high-gain parametric down-conversion, including pump depletion, with pump powers as low as 100 $\mu$W (energies $0.1$~$\mu$J/pulse) and conversion efficiencies up to 33\%. In our simple configuration, the pump beam is tightly focused into a bulk periodically poled lithium niobate crystal placed in free space. We also observe a change in the photon number statistics for both the pump and down-converted beams as the pump power increases to reach the depleted pump regime. The experimental results are a clear signature of the interplay between the pump and the down-converted beams in highly efficient parametric down-conversion sources.
翻訳日:2023-05-28 22:25:07 公開日:2020-04-20
# Schr\"{o}ディンガー方程式に対するカルタン接続 真空の性質

Cartan Connection for Schr\"{o}dinger equation. The nature of vacuum ( http://arxiv.org/abs/2004.04622v2 )

ライセンス: Link先を確認
Rados{\l}aw A. Kycia(参考訳) 我々はSchr\"{o}dinger 方程式を、特定のジェット空間上のリー-B\"{a}cklund 群をスケーリングすることによって与えられるカルタン接続を持つ空間の連続性方程式として解釈する。 この空間では、波動関数とその勾配座標は独立座標として扱われる。 このアプローチは、完全なカルタン接続を分岐のない状態にする。 一度構築すると、接続は、このSchr\"{o}dinger-Cartan接続が構築される空間の幾何学を調べることができる。 これは、ド・ブロイ=ボーム(パイロット波)理論に存在する概念を幾何学的に一般化する考え方である。 また, 一般偏微分方程式に対して, ねじれのないカルタン接続を構築するためのこの手順を提案する。

We reinterpret the Schr\"{o}dinger equation as a continuity equation in the space with the Cartan connection given by scaling Lie-B\"{a}cklund group on a specific jet space. In this space, the wave function and their gradient coordinates are treated as independent coordinates. This approach gives a full Cartan connection form a divergence-free condition. Once constructed, the connection makes it possible to investigate the geometry of the space on which this Schr\"{o}dinger-Cartan connection is constructed. This is the idea that generalizes the concepts present in de Broglie-Bohm (pilot wave) theory in a geometric way. We also present this procedure for constructing (non-uniquely) torsion-free Cartan connections for general Partial Differential Equations.
翻訳日:2023-05-25 08:42:33 公開日:2020-04-20
# 信頼できるAI開発に向けて - 検証可能な主張を支援するメカニズム

Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims ( http://arxiv.org/abs/2004.07213v2 )

ライセンス: Link先を確認
Miles Brundage, Shahar Avin, Jasmine Wang, Haydn Belfield, Gretchen Krueger, Gillian Hadfield, Heidy Khlaaf, Jingying Yang, Helen Toner, Ruth Fong, Tegan Maharaj, Pang Wei Koh, Sara Hooker, Jade Leung, Andrew Trask, Emma Bluemke, Jonathan Lebensold, Cullen O'Keefe, Mark Koren, Th\'eo Ryffel, JB Rubinovitz, Tamay Besiroglu, Federica Carugati, Jack Clark, Peter Eckersley, Sarah de Haas, Maritza Johnson, Ben Laurie, Alex Ingerman, Igor Krawczuk, Amanda Askell, Rosario Cammarota, Andrew Lohn, David Krueger, Charlotte Stix, Peter Henderson, Logan Graham, Carina Prunkl, Bianca Martin, Elizabeth Seger, Noa Zilberman, Se\'an \'O h\'Eigeartaigh, Frens Kroeger, Girish Sastry, Rebecca Kagan, Adrian Weller, Brian Tse, Elizabeth Barnes, Allan Dafoe, Paul Scharre, Ariel Herbert-Voss, Martijn Rasser, Shagun Sodhani, Carrick Flynn, Thomas Krendl Gilbert, Lisa Dyer, Saif Khan, Yoshua Bengio, Markus Anderljung(参考訳) 人工知能(AI)の最近の進展により、AIシステムの大規模な影響に対する認識が高まり、産業や学界における既存の規制や規範がAI開発に責任を負うのに不十分であるという認識が高まっている。 AI開発者がシステムユーザ、顧客、市民社会、政府、その他の利害関係者からAI構築の責任を負うように信頼を得るためには、彼らが責任を負うことができるか検証可能な主張を行う必要がある。 特定の組織外の人たちも、このような主張を精査する効果的な手段が必要です。 このレポートは、さまざまな利害関係者がAIシステムとその関連する開発プロセスに関するクレームの妥当性を改善するためのさまざまなステップを示唆し、AIシステムの安全性、セキュリティ、公正性、プライバシ保護に関する証拠を提供することに重点を置いている。 我々は、この目的の機関、ソフトウェア、ハードウェアの10のメカニズムを分析し、それらのメカニズムの実装、探索、または改善を目的とした推奨を行う。

With the recent wave of progress in artificial intelligence (AI) has come a growing awareness of the large-scale impacts of AI systems, and recognition that existing regulations and norms in industry and academia are insufficient to ensure responsible AI development. In order for AI developers to earn trust from system users, customers, civil society, governments, and other stakeholders that they are building AI responsibly, they will need to make verifiable claims to which they can be held accountable. Those outside of a given organization also need effective means of scrutinizing such claims. This report suggests various steps that different stakeholders can take to improve the verifiability of claims made about AI systems and their associated development processes, with a focus on providing evidence about the safety, security, fairness, and privacy protection of AI systems. We analyze ten mechanisms for this purpose--spanning institutions, software, and hardware--and make recommendations aimed at implementing, exploring, or improving those mechanisms.
翻訳日:2023-05-23 09:09:37 公開日:2020-04-20
# 測定装置非依存の絡み合い目撃者における検出抜け穴

Detection loophole in measurement-device-independent entanglement witness ( http://arxiv.org/abs/2004.09101v1 )

ライセンス: Link先を確認
Kornikar Sen, Chirag Srivastava, Shiladitya Mal, Aditi Sen De, Ujjwal Sen(参考訳) すべての絡み合った量子状態に対して常に絡み合う証人が存在する。 絡み合う証人オペレータの期待値の否定性は、関連する測定装置が完全であること、すなわち、実際に実施された測定が、検討中の状態の証人オペレータを構成することを考慮し、対応する状態の絡み合いを保証する。 現実的な状況では、プロセスを理想的なものから遠ざけるための2つの測定方法があります。 第1に、間違った測定を行い、第2に、測定演算子が正しく実装されている間、検出プロセスはノイズが多い。 絡み合いの目撃者はどちらも不完全である。 測定装置非依存の絡み合い証人の概念は、最初の問題を取り除くために導入された。 測定装置非依存の絡み合い証人の文脈における「検出抜け穴」の分析を行い,不正確な測定の2つ目の問題について考察した。 測定装置非依存の絡み合い目撃者シナリオにおいて、絡み合い目撃者関数の上界を求め、その下に、失われた事象と暗数の両方を伴なう非理想的検出器効率の絡み合いを保証した。

There always exists an entanglement witness for every entangled quantum state. Negativity of the expectation value of an entanglement witness operator guarantees entanglement of the corresponding state, given that the measurement devices involved are perfect, i.e., the performed measurements actually constitute the witness operator for the state under consideration. In a realistic situation, there are two possible ways of measurements to drive the process away from the ideal one. Firstly, wrong measurements may be performed, and secondly, while the measurement operators are implemented correctly, the detection process is noisy. Entanglement witnesses are prone to both of these imperfections. The concept of measurement-device-independent entanglement witnesses was introduced to remove the first problem. We analyze the "detection loophole" in the context of measurement-device-independent entanglement witnesses, which deal with the second problem of imprecise measurements. We obtain an upper bound on the entanglement witness function in the measurement-device-independent entanglement witness scenario, below which entanglement is guaranteed for given non-ideal detector efficiencies, that can involve both lost events and dark counts.
翻訳日:2023-05-22 23:04:39 公開日:2020-04-20
# 連続可変量子鍵分布系におけるマルチエッジ型低密度パリティチェック符号の高スループットGPU層デコーダ

High-throughput GPU layered decoder of multi-edge type low density parity check codes in continuous-variable quantum key distribution systems ( http://arxiv.org/abs/2004.09084v1 )

ライセンス: Link先を確認
Yang Li, Xiaofang Zhang, Yong Li, Bingjie Xu, Li Ma, Jie Yang, and Wei Huang(参考訳) ポストプロセッシングにおける復号スループットは、連続可変量子鍵分布(CV-QKD)システムのボトルネックの1つである。 本稿では,連続可変量子鍵分布(CV-QKD)システムにおいて,グラフィック処理ユニット(GPU)に基づく準循環型マルチエッジ型LDPC(QC-METLDPC)符号を復号する層デコーダを提案する。 パリティチェックマトリクスのストレージ方法を最適化し、関連しないサブマトリクスをマージし、複数のコードワードをgpu上で並列にデコードする。 3つの典型的な符号レート(0.1, 0.05, 0.02)を持つldpc符号の平均復号速度は、平均で64.11mbits/s、48.65mbits/s、39.51mbits/sである。

The decoding throughput in the postprocessing is one of the bottlenecks for a continuous-variable quantum key distribution (CV-QKD) system. In this paper, we propose a layered decoder to decode quasi-cyclic multi-edge type LDPC (QC-METLDPC) codes based on graphic processing unit (GPU) in continuous-variable quantum key distribution (CV-QKD) systems. We optimize the storage method of the parity check matrix, merge the sub-matrices which are unrelated, and decode multiple codewords in parallel on GPU. Simulation results demonstrate that the average decoding speed of LDPC codes with three typical code rates, i.e., 0.1, 0.05 and 0.02, is up to 64.11Mbits/s, 48.65Mbits/s and 39.51Mbits/s, respectively, when decoding 128 codewords of length 106 simultaneously without early termination.
翻訳日:2023-05-22 23:04:20 公開日:2020-04-20
# 都市とモビリティプロバイダのデータの戦いについて

On the Data Fight Between Cities and Mobility Providers ( http://arxiv.org/abs/2004.09072v1 )

ライセンス: Link先を確認
Guillermo Baltra, Basileal Imana, Wuxuan Jiang and Aleksandra Korolova(参考訳) E-Scootersは交通の習慣を変えています。 スクーターの使用を監督するために、ロサンゼルス運輸省はスクーター会社からスクーターの使用に関する詳細なデータを要求する仕様を策定した。 本研究では,L.A.の新たな仕様の利用に対するデータ要求は,提案されたユースケースが既存の仕様で満たされているため保証されていないことを最初に論じる。 第二に、企業が駐車中のスクーターのリアルタイムデータを公開しなければならない既存の仕様でさえ、スクーターを使用している個人のプライバシーを危険にさらす。 次に,駐車中のスクーターデータを公開する際の,正式なプライバシーとユーティリティの保証を可能にするアルゴリズムを提案し,市当局が利用者のプライバシーを保ちながら利用事例を満たせるようにした。

E-Scooters are changing transportation habits. In an attempt to oversee scooter usage, the Los Angeles Department of Transportation has put forth a specification that requests detailed data on scooter usage from scooter companies. In this work, we first argue that L.A.'s data request for using a new specification is not warranted as proposed use cases can be met by already existing specifications. Second, we show that even the existing specification, that requires companies to publish real-time data of parked scooters, puts the privacy of individuals using the scooters at risk. We then propose an algorithm that enables formal privacy and utility guarantees when publishing parked scooters data, allowing city authorities to meet their use cases while preserving riders' privacy.
翻訳日:2023-05-22 23:04:00 公開日:2020-04-20
# 量子ランダム化偏光を用いたコヒーレントラマンパルス

Coherent Raman pulses with quantum-randomized polarization ( http://arxiv.org/abs/2004.09047v1 )

ライセンス: Link先を確認
Douglas J. Little, Ondrej Kitzler, Seyed Abedi, Akael Alias, Alexei Gilchrist and Richard P. Mildren(参考訳) 我々は, ポンプ波ベクトルと線形偏光がそれぞれ$[110]$と$[1\bar{1}0]$軸に沿って向き付けられたとき, ダイヤモンドのランダム化線形偏光によるコヒーレントストークスパルスの生成を実証した。 この構成では、複数のラマンモードの励起は等方性利得を生成し、ストークスパルスが決定論的配向を得ることを防ぎ、代わりに結晶のゼロ点運動によってランダム化される。 実験偏光測定は,パルス当たり6.67ビットと推定されるエントロピー率を持つ独立な同一分布と一致した。

We demonstrate the generation of coherent Stokes pulses with randomized linear-polarization in diamond, when the pump wave-vector and linear polarization were oriented along the $[110]$ and $[1\bar{1}0]$ axes respectively. In this configuration the excitation of multiple Raman modes produces isotropic gain, preventing the Stokes pulse from acquiring a deterministic orientation and is instead randomized by the zero-point motion of the crystal. Experimental polarization measurements were consistent with an independent, identical distribution with an estimated entropy rate of 6.67 bits per pulse.
翻訳日:2023-05-22 23:03:48 公開日:2020-04-20
# 任意の複素振幅分布をもつ圧縮状態の生成

Generation of the Squeezed State with an Arbitrary Complex Amplitude Distribution ( http://arxiv.org/abs/2004.09024v1 )

ライセンス: Link先を確認
Long Ma, Hui Guo, Hengxin Sun, Kui Liu, Bida Su, and Jiangrui Gao(参考訳) 圧縮状態は量子力学や量子情報において重要である。 最も効果的な生成ツールは光パラメトリック発振器(OPO)である。 現在、低階空間モードの圧縮状態のみがOPOによって生成される。 しかし、高次複素空間モードの圧縮状態は、量子メトロロジー、量子イメージング、量子情報といった応用においてより有用である。 将来のアプリケーションにとって大きな課題は、効率的な生成である。 本稿では,入力基本モードスクイーズ状態の振幅と位相を変調するためにカスケード位相のみの空間光変調器を用いる。 これにより、圧縮された高次Hermite-Gaussモードと圧縮された任意の複素振幅分散モードを効率よく生成する。 この方法はバイオフォトニクス、量子力学、量子情報処理に新しい応用をもたらす可能性がある。

The squeezed state is important in quantum metrology and quantum information. The most effective generation tool known is the optical parametric oscillator (OPO). Currently, only the squeezed states of lower-order spatial modes can be generated by an OPO. However, the squeezed states of higher-order complex spatial modes are more useful for applications such as quantum metrology, quantum imaging and quantum information. A major challenge for future applications is efficient generation. Here, we use cascaded phase-only spatial light modulators to modulate the amplitude and phase of the incident fundamental mode squeezed state. This efficiently generates a series of squeezed higher-order Hermite-Gauss modes and a squeezed arbitrary complex amplitude distributed mode. The method may yield new applications in biophotonics, quantum metrology and quantum information processing.
翻訳日:2023-05-22 23:03:35 公開日:2020-04-20
# 大学ランキングの信頼性は?

How Reliable are University Rankings? ( http://arxiv.org/abs/2004.09006v1 )

ライセンス: Link先を確認
Ali Dasdan, Eric Van Lare, and Bosko Zivaljevic(参考訳) 大学や大学のランキングは、アメリカ・ニューズ・アンド・ワールド・リポート(USNWR)などによって公表された、ほぼ独自の業界になっている。 ランキングのほとんどが類似のスキームを用いており、スコアの順序が減少している大学は、それぞれのスコアがそれぞれの属性とその重みを使って計算される。 このスキームは大学以外のランク付け対象にも適用できるほど一般的である。 関連する作業で示されているように、これらのランキングは重要な意味合いを持ち、多くの問題も抱えている。 本稿では,このランキング体系が信頼性に乏しく,重量変化に敏感であり,ゲーム化が容易であるため,信頼できない,信頼できない,複数の方法で,公立大学データセットを用いて,このランキング方式を新たに検討する。 例えば、データセット内の複数の大学をトップランクに移動するために、プログラム的に合理的な重みを導出する方法を示します。さらに、パーソナルラップトップ上で600以上の大学に対して、このタスクは数秒かかります。 我々の数学的定式化、方法、結果は、大学以外のランキングオブジェクトにも適用できます。 我々は、ランキングに使用されるすべてのデータとメソッドを、検証と再現性のためにオープンにすべきだと結論付ける。

University or college rankings have almost become an industry of their own, published by US News \& World Report (USNWR) and similar organizations. Most of the rankings use a similar scheme: Rank universities in decreasing score order, where each score is computed using a set of attributes and their weights; the attributes can be objective or subjective while the weights are always subjective. This scheme is general enough to be applied to ranking objects other than universities. As shown in the related work, these rankings have important implications and also many issues. In this paper, we take a fresh look at this ranking scheme using the public College dataset; we both formally and experimentally show in multiple ways that this ranking scheme is not reliable and cannot be trusted as authoritative because it is too sensitive to weight changes and can easily be gamed. For example, we show how to derive reasonable weights programmatically to move multiple universities in our dataset to the top rank; moreover, this task takes a few seconds for over 600 universities on a personal laptop. Our mathematical formulation, methods, and results are applicable to ranking objects other than universities too. We conclude by making the case that all the data and methods used for rankings should be made open for validation and repeatability.
翻訳日:2023-05-22 23:03:07 公開日:2020-04-20
# 量子近似最適化アルゴリズムは、グラフ全体を見る必要がある:典型的なケース

The Quantum Approximate Optimization Algorithm Needs to See the Whole Graph: A Typical Case ( http://arxiv.org/abs/2004.09002v1 )

ライセンス: Link先を確認
Edward Farhi, David Gamarnik, Sam Gutmann(参考訳) 量子近似最適化アルゴリズムはグラフ上の組合せ探索問題に自然に適用できる。 量子回路は、グラフの局所性に関するユニタリ作用素のp応用を持つ。 有界次数 p のグラフ上では、QAOA によって出力される状態における遠い量子ビットの測定は、相関しない結果を与える。 我々は、dn/2 辺が d と n を固定するランダムグラフにおける大きな独立集合を見つけることに集中する。 ランダムグラフにおけるほぼ最適な独立集合のオーバーラップギャップ特性と QAOA の局所性を用いて、p が d 依存定数時間log n より小さい場合、QAOA は d 大に対して最適な独立な集合 .854 倍の独立集合を見つけるのに勝ることができないことを示すことができる。 対数の増大は緩やかであり、100万キュービットであっても、pが1桁のときのみアルゴリズムがブロックされていることを示すことができる。 高いpでは、アルゴリズムはグラフ全体を「見る」ので、パフォーマンスが制限されているという兆候はありません。

The Quantum Approximate Optimization Algorithm can naturally be applied to combinatorial search problems on graphs. The quantum circuit has p applications of a unitary operator that respects the locality of the graph. On a graph with bounded degree, with p small enough, measurements of distant qubits in the state output by the QAOA give uncorrelated results. We focus on finding big independent sets in random graphs with dn/2 edges keeping d fixed and n large. Using the Overlap Gap Property of almost optimal independent sets in random graphs, and the locality of the QAOA, we are able to show that if p is less than a d-dependent constant times log n, the QAOA cannot do better than finding an independent set of size .854 times the optimal for d large. Because the logarithm is slowly growing, even at one million qubits we can only show that the algorithm is blocked if p is in single digits. At higher p the algorithm "sees" the whole graph and we have no indication that performance is limited.
翻訳日:2023-05-22 23:02:34 公開日:2020-04-20
# 協力型量子トンネルの観察:分子量におけるアクセシブル核状態の増加

Observation of Cooperative Electronic Quantum Tunneling: Increasing Accessible Nuclear States in a Molecular Qudit ( http://arxiv.org/abs/2004.09279v1 )

ライセンス: Link先を確認
Eufemio Moreno-Pineda, Svetlana Klyatskaya, Ping Du, Marko Damjanovi\'c, Gheorghe Taran, Wolfgang Wernsdorfer and Mario Ruben(参考訳) 2レベル量子ビット(qubits)の拡張として、d がヒルベルト空間次元を表す qudits と呼ばれる多値系は、量子計算アルゴリズムにおける反復数を減らすために予測されている。 これはよく知られた[TbPc2]0 SMMでテストされ、Groverアルゴリズムを単一の分子単位に実装することができた。 アクセス可能な核スピン状態が増加する分子系の探索において、ケルビン以下の温度でTb2-SMMを単結晶 {\mu}-SQUID測定により探索する。 我々は、Tb(III)イオン間の強磁性相互作用とスピン基底状態 \textit{J} = {\pm}6 を持つ電子スピンの協調量子トンネルを観察する。 Tb(III)核スピンとの強い超微細結合は、ヒステリシスループの7つの強い超微細駆動トンネルステップに繋がる多数のスピン反転経路をもたらす。 以上の結果から,Tb(III)核スピン状態は電子スピンの協調トンネルにより読み取ることが可能であり,Tb2-SMMはd=16の優れた核スピンキュディット候補となる。

As an extension of two-level quantum bits (qubits), multilevel systems, so-called qudits, where d represents the Hilbert space dimension, have been predicted to reduce the number of iterations in quantum computation algorithms. This has been tested in the well-known [TbPc2]0 SMM, which allowed the implementation of the Grover algorithm in a single molecular unit. In the quest for molecular systems possessing an increased number of accessible nuclear spin states, we explore herein a dimeric Tb2-SMM via single crystal {\mu}-SQUID measurements at sub-Kelvin temperatures. We observe ferromagnetic interactions between the Tb(III) ions and cooperative quantum tunneling of the electronic spins with spin ground state \textit{J} = {\pm}6. The strong hyperfine coupling with the Tb(III) nuclear spins leads to a multitude of spin reversal paths leading to seven strong hyperfine driven tunneling steps in the hysteresis loops. Our results show the possibility to read-out the Tb(III) nuclear spin states via the cooperative tunneling of the electronic spins, making the dimeric Tb2-SMM an excellent nuclear spin qudit candidate with d =16.
翻訳日:2023-05-22 22:56:37 公開日:2020-04-20
# 量子アニール上の近似近似

Approximate Approximation on a Quantum Annealer ( http://arxiv.org/abs/2004.09267v1 )

ライセンス: Link先を確認
Irmi Sax and Sebastian Feld and Sebastian Zielinski and Thomas Gabor and Claudia Linnhoff-Popien and Wolfgang Mauerer(参考訳) 産業的関心の問題はNP完全であり、入力サイズが増大する計算装置の資源を急速に消費する。 量子アニール(Quantum annealers, QA)は、自然の量子力学的性質を利用する物理装置である。 しかし、それらは、NP完全問題に対する近似解を見つけることができる古典機械上の効率的なヒューリスティックスや確率的あるいはランダム化アルゴリズムと競合する。 QAの最初の実装は商用化されているが、実用的メリットは十分に検討されていない。 我々の知る限りでは、近似技術はまだ大きな注目を集めていない。 本稿では、量子アニールプログラムにおいて、問題の近似バージョンを体系的に構築する方法と、それが与えられた量子ビット集合に対する結果の品質やより大きな問題インスタンスの処理にどのように影響するかを検討する。 シミュレーションと実QAハードウェアの両方に関する様々な近似技術について,様々なセミナル問題について解説し,実世界のパワーと現状と将来の量子コンピューティングの限界をよりよく理解するために,結果を解釈する。

Many problems of industrial interest are NP-complete, and quickly exhaust resources of computational devices with increasing input sizes. Quantum annealers (QA) are physical devices that aim at this class of problems by exploiting quantum mechanical properties of nature. However, they compete with efficient heuristics and probabilistic or randomised algorithms on classical machines that allow for finding approximate solutions to large NP-complete problems. While first implementations of QA have become commercially available, their practical benefits are far from fully explored. To the best of our knowledge, approximation techniques have not yet received substantial attention. In this paper, we explore how problems' approximate versions of varying degree can be systematically constructed for quantum annealer programs, and how this influences result quality or the handling of larger problem instances on given set of qubits. We illustrate various approximation techniques on both, simulations and real QA hardware, on different seminal problems, and interpret the results to contribute towards a better understanding of the real-world power and limitations of current-state and future quantum computing.
翻訳日:2023-05-22 22:56:17 公開日:2020-04-20
# 超伝導回路を用いた高周波量子計測と制御

Measuring and controlling radio-frequency quanta with superconducting circuits ( http://arxiv.org/abs/2004.09153v1 )

ライセンス: Link先を確認
Mario Florentin Gely(参考訳) この博士論文では、高周波回路量子電磁力学系(rfcqed)の実現に繋がる理論的および実験的研究について述べる。 第2章では、ラビモデルの文脈で定式化された回路QEDのハミルトニアンを詳細に導出し、クロスカー相互作用の表現を抽出する。 RFcQEDにおける結合速度の要求条件について考察し、その1つとして、典型的な回路QEDデバイスと比較して結合速度を劇的に向上させる必要性がある。 第3章では、回路QEDシステムの結合性を高めるための2つの実験的アプローチを取り上げ、その1つは高インピーダンス共振器、もう1つは大容量結合コンデンサを利用する。 第4章ではこれらの2つのアプローチを組み合わせてRFcQEDを実装します。 強い分散結合により、メガヘルツ共振器内の個々の光子を計測し、共振器を基底状態へ冷却するかフォック状態を準備して量子制御を実証し、最終的にナノ秒分解でこれらの状態の再熱分解を観測した。 第5章では、この論文で提示されているような回路qedシステムの設計に使用できるソフトウェアパッケージであるpythonのqucatまたはquantum circuit analyzerツールを紹介する。 第6章では、一般相対性理論と量子力学の相互作用が現在の物理学の法則では説明できないかについて議論する。 特に、この状態において、無線周波数機械振動子が実験に最適な候補であることを示す。 第7章では、そのような機械振動子をトランスモン量子ビットやRFcQEDなどの弱い非調和超伝導回路に結合する可能性を示す。

In this PhD thesis, we will present the theoretical and experimental work that led to the realization of a radio-frequency circuit quantum electrodynamics system (RFcQED). In chapter 2, we provide a detailed derivation of the Hamiltonian of circuit QED formulated in the context of the Rabi model, and extract expressions for the cross-Kerr interaction. The resulting requirements for the coupling rate in RFcQED are discussed, one of them being the need to dramatically increase the coupling rate compared to typical circuit QED device. In chapter 3 we cover two experimental approaches to increasing the coupling in a circuit QED system, one making use of a high impedance resonator, the second utilizing a large coupling capacitor. In chapter 4, we combine these two approaches to implement RFcQED. Through strong dispersive coupling, we could measure individual photons in a megahertz resonator, demonstrate quantum control by cooling the resonator to the ground state or preparing Fock states, and finally observe with nanosecond resolution the re-thermalization of these states. In chapter 5 we present QuCAT or Quantum Circuit Analyzer Tool in Python, a software package that can be used for the design of circuit QED systems such as the one presented in this thesis. In chapter 6 we discuss how certain interplays between general relativity and quantum mechanics cannot be described using our current laws of physics. In particular, we show how radio-frequency mechanical oscillators are perfect candidates to perform experiments in this regime. In chapter 7 we present the prospects for coupling such mechanical oscillator to weakly anharmonic superconducting circuits such as the transmon qubit or RFcQED systems.
翻訳日:2023-05-22 22:54:24 公開日:2020-04-20
# 閉ループ3レベル帯電量子電池

Closed-loop three-level charged quantum battery ( http://arxiv.org/abs/2004.09429v1 )

ライセンス: Link先を確認
Fu-Quan Dou, Yuan-Jin Wang, Jian-An Sun(参考訳) 量子電池(Quantum battery)は、量子系のエネルギー貯蔵または抽出装置である。 本稿では,3つの制御場と関連する位相に依存したクローズドループ3状態量子システムを用いて,クローズドループ量子電池を提案する。 閉ループ型3レベル量子電池の充電過程について検討する。 システム内の第3フィールドの存在により、クローズド・コンター相互作用を形成することにより、充電性能が大幅に向上する。 適切な第3の制御フィールドを選択することにより、最大平均電力は、非閉ループ3レベル量子電池の最も理想的な最大電力値(最小量子速度制限時間と最大充電エネルギーで得られる最も強力な充電量に対応する)よりもはるかに大きくすることができる。 グローバル駆動場位相が帯電過程に及ぼす影響について検討し,最大抽出可能な作業量(エルゴトロピー)と充電パワーを,異なる制御場下で周期的に変化させる。 窒素空洞スピンの実験的実装について論じる。

Quantum batteries are energy storage or extract devices in a quantum system. Here, we present a closed-loop quantum battery by utilizing a closed-loop three-state quantum system in which the population dynamics depends on the three control fields and associated phases. We investigate the charging process of the closed-loop three-level quantum battery. The charging performance is greatly improved due to existence of the third field in the system to form a closed-contour interaction. Through selecting an appropriate the third control field, the maximum average power can be increased, even far beyond the most ideal maximum power value of non-closed-loop three-level quantum battery (corresponding to the most powerful charging obtainable with minimum quantum speed limit time and the maximum charging energy). We study the effect of global driving-field phase on the charging process and find the maximum extractable work (`ergotropy') and charging power vary periodically under different control field, with a period of $2\pi$. Possible experimental implementation in nitrogen-vacancy spin is discussed.
翻訳日:2023-05-22 22:45:15 公開日:2020-04-20
# 超高速レーザー光導波路集積光学の空間特性

Space qualification of ultrafast laser written integrated waveguide optics ( http://arxiv.org/abs/2004.09427v1 )

ライセンス: Link先を確認
Simone Piacentini, Tobias Vogl, Giacomo Corrielli, Ping Koy Lam, Roberto Osellame(参考訳) 衛星ベースの量子技術は、達成可能な量子通信の範囲を広げ、量子リピータを使わずに世界規模の量子ネットワークを構築することができる。 しかし、宇宙ミッションでは、計測に利用可能なボリュームは限られており、使用可能な機器の足跡は重要な仕様である。 集積光学はこの意味で非常に有益であり、コンパクトでモノリシックなフォトニック回路における様々な機能性の小型化を可能にする。 本研究では, フェムト秒レーザーマイクロマシニングによりガラスで作製した導波路の低軌道環境における使用資格について報告する。 特に, 直流導波路, 指向性カプラ, マッハ・ツェンダー干渉計など, 異なるレーザーによる集積デバイスを適切な陽子と$\gamma$-ray照射に照射した。 実験の結果,放射線被曝により,その特性や性能に有意な変化はみられなかった。 この結果と量子通信応用へのレーザー光回路の高互換性が相まって、将来の衛星ミッションでレーザーによる集積光部品の使用への道が開けた。

Satellite-based quantum technologies represent a possible route for extending the achievable range of quantum communication, allowing the construction of worldwide quantum networks without quantum repeaters. In space missions, however, the volume available for the instrumentation is limited, and footprint is a crucial specification of the devices that can be employed. Integrated optics could be highly beneficial in this sense, as it allows for the miniaturization of different functionalities in small and monolithic photonic circuits. In this work, we report on the qualification of waveguides fabricated in glass by femtosecond laser micromachining for their use in a low Earth orbit space environment. In particular, we exposed different laser written integrated devices, such as straight waveguides, directional couplers, and Mach-Zehnder interferometers, to suitable proton and $\gamma$-ray irradiation. Our experiments show that no significant changes have been induced to their characteristics and performances by the radiation exposure. Our results, combined with the high compatibility of laser-written optical circuits to quantum communication applications, pave the way for the use of laser-written integrated photonic components in future satellite missions.
翻訳日:2023-05-22 22:44:57 公開日:2020-04-20
# 局所変換の代数的および幾何学的性質

Algebraic and geometric properties of local transformations ( http://arxiv.org/abs/2004.09405v1 )

ライセンス: Link先を確認
Denis Rosset, \"Amin Baumeler, Jean-Daniel Bancal, Nicolas Gisin, Anthony Martin, Marc-Olivier Renou, Elie Wolfe(参考訳) 物理系のいくつかの性質は、それらの相関から特徴づけられる。 このフレームワークでは、サブシステムは、インプットとして測定設定を受け取り、アウトプットとして測定結果を生成する抽象デバイスと見なされる。 これらの入力と出力を記述するためのラベリング規約は物理学に影響を与えず、リラベリングはデバイスの入出力ポートをリワイリングすることで容易に実装される。 しかし、より一般的な操作は、入力と出力の相関前処理と後処理を使用することで実現できる。 relabelingsとは対照的に、これらの操作のいくつかは、基盤となるデバイスに関する情報を不可逆的に失う。 他の操作は可逆であるが、入力および/または出力の基数を変更する。 本研究では、因果関係からの操作定義と、量子完全正のトレース保存写像の定義に類似した公理的定義という、2つの等価な構成を満たす決定論的局所写像の集合を抽出する。 次に、その集合の代数的性質を研究する。 驚くべきことに、これらの基本的な性質の研究は深く実用的な応用である。 まず、これらの変換の不変部分空間は相関やベルの不等式を非符号、信号、正規化成分に直接分解する。 これはベルと因果不平等の分類、およびステアリングシナリオにおける集合体/知性の構築に影響を及ぼす。 第二に、左右の可逆決定論的局所演算は、ピロニオ[J. Math. Phys., 46(6):062112 (2005)]によって導入されたリフトの操作一般化を提供する。 ベル局所だけでなく因果不等式も持ち上げることができ、リフティングは様々なシナリオにおける相関ボックスにも適用される。

Some properties of physical systems can be characterized from their correlations. In that framework, subsystems are viewed as abstract devices that receive measurement settings as inputs and produce measurement outcomes as outputs. The labeling convention used to describe these inputs and outputs does not affect the physics; and relabelings are easily implemented by rewiring the input and output ports of the devices. However, a more general class of operations can be achieved by using correlated preprocessing and postprocessing of the inputs and outputs. In contrast to relabelings, some of these operations irreversibly lose information about the underlying device. Other operations are reversible, but modify the number of cardinality of inputs and/or outputs. In this work, we single out the set of deterministic local maps as the one satisfying two equivalent constructions: an operational definition from causality, and an axiomatic definition reminiscent of the definition of quantum completely positive trace-preserving maps. We then study the algebraic properties of that set. Surprisingly, the study of these fundamental properties has deep and practical applications. First, the invariant subspaces of these transformations directly decompose the space of correlations/Bell inequalities into nonsignaling, signaling and normalization components. This impacts the classification of Bell and causal inequalities, and the construction of assemblages/witnesses in steering scenarios. Second, the left and right invertible deterministic local operations provide an operational generalization of the liftings introduced by Pironio [J. Math. Phys., 46(6):062112 (2005)]. Not only Bell-local, but also causal inequalities can be lifted; liftings also apply to correlation boxes in a variety of scenarios.
翻訳日:2023-05-22 22:44:38 公開日:2020-04-20
# 閉じ込めたウィグナー分子のフェルミオンとボソニックの挙動

Fermionic versus bosonic behavior of confined Wigner molecules ( http://arxiv.org/abs/2004.09400v1 )

ライセンス: Link先を確認
Eloisa Cuestas, P. Alexander Bouvrie, and Ana P. Majtey(参考訳) 2n$ファーミオンからなる閉じ込められたウィグナー分子が2n$ボソンまたは2n$ファーミオンとして振る舞うかを評価する。 C・K・ローの業績に倣って. A \textbf{71}, 034306 (2005)] and Chudzicki et al. とPhys。 Rev. Lett. 070402 (2010)] ボソニックコンポジットの動作を保証するために, 物理的意味と大量の絡み合いが必要な理由について考察する。 合成ボソンアンザッツを用いることで、2次元トラップに閉じ込められたウィグナー分子が対称性によって誘導されるボゾン挙動を示すことがわかった。 合成ボソン・アンサッツにより要求される2粒子ウィグナー分子基底状態は、強相互作用系における調和近似の範囲内で得られた。 我々のアプローチでは、粒子数が少ない状態(様々な理論的および数値的手法で広く研究されている)や多数の粒子(計算コストによって解決される)に対処することができる。 多数の粒子に対して, 粒子変動の抑制により強いフェルミオン相関が明らかとなった。 少数の粒子に対して、複合ボソンアンザッツ内で計算された波動関数がフリーデル・ウィグナー遷移を捉えることを示す。 後者は、パウリの排他原理による強い相関が生じている状態において示され、したがって、コボソン・アンサッツはフェルミオン相関による理想ボソニック挙動の強い偏差が存在する場合でも、閉じ込められたウィグナー分子の多くの素粒子物理学を再現していると結論づける。

We assess whether a confined Wigner molecule constituted by $2N$ fermions behaves as $N$ bosons or $2N$ fermions. Following the work by C. K. Law [Phys. Rev. A \textbf{71}, 034306 (2005)] and Chudzicki et al. [Phys. Rev. Lett. \textbf{104}, 070402 (2010)] we discuss the physical meaning and the reason why a large amount of entanglement is needed in order to ensure a bosonic composite behavior. By applying a composite boson ansatz, we found that a Wigner molecule confined in two dimensional traps presents a bosonic behavior induced by symmetry. The two-particle Wigner molecule ground state required by the composite boson ansatz was obtained within the harmonic approximation in the strong interacting regime. Our approach allows us to address few-particle states (widely studied within a variety of theoretical and numerical techniques) as well as a large number of particles (difficult to address due to computational costs). For a large number of particles, we found strong fermionic correlations exposed by the suppression of particle fluctuations. For a small number of particles, we show that the wave function calculated within the composite boson ansatz captures the Friedel-Wigner transition. The latter is shown in a regime in which strong correlations due to the Pauli exclusion principle arise, therefore, we conclude that the coboson ansatz reproduces the many particle physics of a confined Wigner molecule, even in the presence of strong deviations of the ideal bosonic behavior due to fermionic correlations.
翻訳日:2023-05-22 22:44:11 公開日:2020-04-20
# 軍事シミュレーションの評価について:評価基準の分類に向けて

On the Evaluation of Military Simulations: Towards A Taxonomy of Assessment Criteria ( http://arxiv.org/abs/2004.09340v1 )

ライセンス: Link先を確認
Mario Golling, Robert Koch, Peter Hillmann, Volker Eiseler, Lars Stiemert, Andres Rekker(参考訳) 軍事シミュレーションの分野では、様々なアプローチが利用可能である。 近接戦闘戦術訓練機、合同戦術戦闘訓練システム、戦闘部隊戦術訓練または戦闘戦闘機のシュミレーション2000は、モデリングとシミュレーションにおける大規模なdod開発プログラムの歴史のほんの一部例であり、多種多様なソリューションのほんの一部に過ぎない。 個々のシミュレータは非常にユニークなので、経験豊富なユーザでも軍事シミュレーションを分類することは難しいことが多い。 この状況は、軍事シミュレーションの分野では、他の分野とは異なり、軍事シミュレーションの一般的な分類は存在しないため、さらに強化されている。 この欠点に対処するために、この出版物は軍事シミュレーションの分野で広く受け入れられている分類法の開発に最初の貢献を提供するというアイデアに捧げられている。 この目的のために、問題領域は3つの主要なカテゴリ(シミュレータの一般機能要件、シミュレータの特殊軍事要件、シミュレータの非機能要件)に分けられる。 それに基づいて、個々のカテゴリに適切なクラスが提供される。 より深く理解するために、この分類法は具体的な例(NetLogo Rebellion)にも適用される。

In the area of military simulations, a multitude of different approaches is available. Close Combat Tactical Trainer, Joint Tactical Combat Training System, Battle Force Tactical Training or Warfighter's Simulation 2000 are just some examples within the history of the large DoD Development Program in Modelling and Simulation, representing just a small piece of the variety of diverse solutions. Very often, individual simulators are very unique and so it is often difficult to classify military simulations even for experienced users. This circumstance is further boosted due to the fact that in the field of military simulations - unlike in other areas - no general classification for military simulations exists. To address this shortcoming, this publication is dedicated to the idea of providing a first contribution to the development of a commonly accepted taxonomy in the area of military simulations. To this end, the problem field is structured into three main categories (general functional requirements for simulators, special military requirements for simulators and non-functional requirements for simulators). Based upon that, individual categories are provided with appropriate classes. For a better understanding, the taxonomy is also applied to a concrete example (NetLogo Rebellion).
翻訳日:2023-05-22 22:43:41 公開日:2020-04-20
# ソーシャルメディアのエコーチェンバー:比較分析

Echo Chambers on Social Media: A comparative analysis ( http://arxiv.org/abs/2004.09603v1 )

ライセンス: Link先を確認
Matteo Cinelli, Gianmarco De Francisci Morales, Alessandro Galeazzi, Walter Quattrociocchi, Michele Starnini(参考訳) 近年の研究では、オンラインユーザーは信念の体系に忠実な情報を選択し、そうでない情報を無視し、共有された物語の周囲でグループ(エコーチャンバー)に参加する傾向にある。 識別のための定量的な方法論がまだ欠けているが、エコーチャンバーの現象は科学的、政治的に広く議論されている。 この問題を明らかにするため,Facebook,Twitter,Reddit,Gabという4つのソーシャルメディアプラットフォーム上で100万以上のユーザが生成した100万以上のコンテンツに対して,エコーチャンバーの運用定義を導入し,大規模な比較分析を行った。 ワクチンから中絶まで、議論の的となっているトピックに対するユーザの傾倒を推測し、共有リンクドメイン、フォローページ、フォロワー関係、コメント投稿など、さまざまな機能を分析してインタラクションネットワークを再構築する。 本手法は,対話ネットワークにおけるホモフィリーと情報拡散の偏りの2つの主次元に沿ったエコーチャンバの存在を定量化する。 ソーシャルメディアに特有の違いがある。 実際、FacebookとTwitterはすべての観測データセットにクリアカットエコーチャンバーを提示するが、RedditとGabはそうではない。 最後に、RedditとFacebookを比較し、ソーシャルメディアプラットフォームがニュース消費に与える影響を検証した。 繰り返しになるが、Facebookのようなニュースフィードアルゴリズムを実装するプラットフォームが、エコーチャンバの出現を招きかねないという仮説を支持する。

Recent studies have shown that online users tend to select information adhering to their system of beliefs, ignore information that does not, and join groups - i.e., echo chambers - around a shared narrative. Although a quantitative methodology for their identification is still missing, the phenomenon of echo chambers is widely debated both at scientific and political level. To shed light on this issue, we introduce an operational definition of echo chambers and perform a massive comparative analysis on more than 1B pieces of contents produced by 1M users on four social media platforms: Facebook, Twitter, Reddit, and Gab. We infer the leaning of users about controversial topics - ranging from vaccines to abortion - and reconstruct their interaction networks by analyzing different features, such as shared links domain, followed pages, follower relationship and commented posts. Our method quantifies the existence of echo-chambers along two main dimensions: homophily in the interaction networks and bias in the information diffusion toward likely-minded peers. We find peculiar differences across social media. Indeed, while Facebook and Twitter present clear-cut echo chambers in all the observed dataset, Reddit and Gab do not. Finally, we test the role of the social media platform on news consumption by comparing Reddit and Facebook. Again, we find support for the hypothesis that platforms implementing news feed algorithms like Facebook may elicit the emergence of echo-chambers.
翻訳日:2023-05-22 22:36:29 公開日:2020-04-20
# 新型コロナウイルスパンデミックの間、なぜ人々は誤情報を共有するのか?

Why do People Share Misinformation during the COVID-19 Pandemic? ( http://arxiv.org/abs/2004.09600v1 )

ライセンス: Link先を確認
Samuli Laato, A.K.M. Najmul Islam, Muhammad Nazrul Islam and Eoin Whelan(参考訳) 世界保健機関(WHO)は、ソーシャルメディアを通じて急速に拡散する誤報が新型コロナウイルス(COVID-19)対策に深刻な脅威をもたらすと強調した。 健康認知と認知負荷の理論から、人々がソーシャルメディアを介して不確定なCOVID-19情報を共有する理由を仮説づける研究モデルを開発し、検証する。 以上の結果から,オンライン情報に対する信頼感と認知情報の過負荷が,未確認情報共有の強力な予測要因であることが示唆された。 さらに、これらの要因は、新型コロナウイルスの重症度や脆弱性がサイバーコンドリアに影響を及ぼすと認識されている。 女性はサイバーコンドリアに悩まされる傾向が著しく高かったが、男性は事実を確認せずにニュースを共有する傾向にあった。 以上の結果から,医療ニュースに対する健全な懐疑性を高めつつ,情報過負荷を警戒する対策を講じるべきであることが示唆された。

The World Health Organization have emphasised that misinformation - spreading rapidly through social media - poses a serious threat to the COVID-19 response. Drawing from theories of health perception and cognitive load, we develop and test a research model hypothesizing why people share unverified COVID-19 information through social media. Our findings suggest a person's trust in online information and perceived information overload are strong predictors of unverified information sharing. Furthermore, these factors, along with a person's perceived COVID-19 severity and vulnerability influence cyberchondria. Females were significantly more likely to suffer from cyberchondria, however, males were more likely to share news without fact checking their source. Our findings suggest that to mitigate the spread of COVID-19 misinformation and cyberchondria, measures should be taken to enhance a healthy skepticism of health news while simultaneously guarding against information overload.
翻訳日:2023-05-22 22:36:02 公開日:2020-04-20
# 高校生の成績に及ぼす新型コロナウイルス封じ込めの影響

Influence of COVID-19 confinement in students performance in higher education ( http://arxiv.org/abs/2004.09545v1 )

ライセンス: Link先を確認
T. Gonzalez, M.A. de la Rubia, K. P. Hincz, M. Comas-Lopez, L. Subirats, S. Fort and G. M. Sacha(参考訳) 本研究は、高等教育における学生のパフォーマンスに及ぼす新型コロナウイルスの封じ込めの影響を考察する。 マドリード大学オートノマ・デ・マドリッド校(Spain)の3つの異なる被験者の458人のフィールド実験を用いて、学生を2つのグループに分けて評価の違いについて検討した。 第1グループ(コントロール)は、2017/2018と2018/2019の学年に対応する。 第2グループ(実験)は、2019/2020年の学生に対応しており、制限のために対面活動を中断した学生のグループである。 その結果、学生の成績に新型コロナウイルスの抑止効果が著しいことが示唆された。 この効果は、監禁後の実行時にフォーマットを変更しなかった活動においても顕著である。 この効果は,アセスメント活動の数を増やした被験者と,学生の作業負荷に影響を与えない被験者の両方において有意であることがわかった。 また,留置前の学習方略の分析から,学生が連続的に学習しなかったことが示唆された。 これらの結果から,新型コロナウイルスの封じ込めによって学生の学習戦略がより連続的な習慣へと変化し,効率が向上したと結論づけた。 これらの理由から、学習成績の改善によって説明できる新型コロナウイルスの閉じ込めにより、学生評価のスコアが向上することが期待される。

This study explores the effects of COVID-19 confinement in the students performance in higher education. Using a field experiment of 458 students from three different subjects in Universidad Autonoma de Madrid (Spain), we study the differences in assessments by dividing students into two groups. The first group (control) corresponds to academic years 2017/2018 and 2018/2019. The second group (experimental) corresponds to students from 2019/2020, which is the group of students that interrupted their face-to-face activities because of the confinement. The results show that there is a significant positive effect of the COVID-19 confinement on students performance. This effect is also significative in activities that did not change their format when performed after the confinement. We find that this effect is significative both in subjects that increased the number of assessment activities and subjects that did not change the workload of students. Additionally, an analysis of students learning strategies before confinement shows that students did not study in a continuous basis. Based on these results, we conclude that COVID-19 confinement changed students learning strategies to a more continuous habit, improving their efficiency. For these reasons, better scores in students assessment are expected due to COVID-19 confinement that can be explained by an improvement in their learning performance.
翻訳日:2023-05-22 22:35:03 公開日:2020-04-20
# 開量子系力学の速度演算子

Rate operator unravelling for open quantum system dynamics ( http://arxiv.org/abs/2004.09537v1 )

ライセンス: Link先を確認
Andrea Smirne, Matteo Caiaffa, Jyrki Piilo(参考訳) 量子ジャンプを伴う確率的手法は、しばしば開量子系力学の解法として用いられる。 さらに、量子力学における測定の役割や非マルコフ記憶効果の記述など、基本的なトピックに関する洞察を提供する。 しかしながら、任意の状態におけるオープンシステムダイナミクスを記述するために量子ジャンプを使用する統一的なフレームワークは存在しない。 我々は、ROQJ(Rate Operator Quantum Jump)アプローチによってこの問題を解決する。 この方法はマルコフ型と非マルコフ型の両方に適用されるだけでなく、以前の方法が機能しないマスター方程式を解くこともできる。 さらに、ROQJは、負の減衰率を持つマスター方程式の集合を含む幅広い種類の力学に対して厳密な測定スキームの解釈をもたらし、確率的量子ジャンプ法を用いて生じる様々な種類の記憶効果に光を当てる。

Stochastic methods with quantum jumps are often used to solve open quantum system dynamics. Moreover, they provide insight into fundamental topics, as the role of measurements in quantum mechanics and the description of non-Markovian memory effects. However, there is no unified framework to use quantum jumps to describe open system dynamics in any regime. We solve this issue by developing the Rate Operator Quantum Jump (ROQJ) approach. The method not only applies to both Markovian and non-Markovian evolutions, but also allows us to unravel master equations for which previous methods do not work. In addition, ROQJ yields a rigorous measurement-scheme interpretation for a wide class of dynamics, including a set of master equations with negative decay rates, and sheds light on different types of memory effects which arise when using stochastic quantum jump methods.
翻訳日:2023-05-22 22:34:39 公開日:2020-04-20
# 音声トリガー検出のためのマルチタスク学習

Multi-task Learning for Voice Trigger Detection ( http://arxiv.org/abs/2001.09519v2 )

ライセンス: Link先を確認
Siddharth Sigtia, Pascal Clark, Rob Haynes, Hywel Richards, John Bridle(参考訳) スマートスピーカーのための音声トリガー検出システムの設計について述べる。 本研究では,2つの課題に対処する。 第1に、検出器は複雑な音響環境に展開され、外部ノイズとデバイス自体による大音量再生が可能である。 第二に、特定のキーワードやトリガーフレーズのトレーニング例を集めることは、トリガーフレーズ固有のトレーニングデータの不足につながる。 本稿では、低消費電力検出器が常に動作し、トリガーフレーズを聴く2段階のケースドアーキテクチャについて述べる。 この段階で検出が行われると、候補オーディオセグメントはより大きく複雑なモデルによって再描画され、セグメントがトリガーフレーズを含んでいることを確認する。 本研究では,この第2パス検出器のアーキテクチャと設計に注目した。 まず,大規模なラベル付き学習データセットから音声の書き起こしを生成する一般的な音響モデルを訓練する。 次に、ベースラインシステムにとって困難な、はるかに小さな例のデータセットを収集します。 次に、マルチタスク学習を用いてモデルをトレーニングし、より大規模なデータセットであるemph{and}上で正確な音声書き起こしを同時に生成する。 実験結果から,提案モデルでは,余分なパラメータを必要とする難解なテスト条件であるemph{without}の基準値に対して,誤差を半減することを示した。

We describe the design of a voice trigger detection system for smart speakers. In this study, we address two major challenges. The first is that the detectors are deployed in complex acoustic environments with external noise and loud playback by the device itself. Secondly, collecting training examples for a specific keyword or trigger phrase is challenging resulting in a scarcity of trigger phrase specific training data. We describe a two-stage cascaded architecture where a low-power detector is always running and listening for the trigger phrase. If a detection is made at this stage, the candidate audio segment is re-scored by larger, more complex models to verify that the segment contains the trigger phrase. In this study, we focus our attention on the architecture and design of these second-pass detectors. We start by training a general acoustic model that produces phonetic transcriptions given a large labelled training dataset. Next, we collect a much smaller dataset of examples that are challenging for the baseline system. We then use multi-task learning to train a model to simultaneously produce accurate phonetic transcriptions on the larger dataset \emph{and} discriminate between true and easily confusable examples using the smaller dataset. Our results demonstrate that the proposed model reduces errors by half compared to the baseline in a range of challenging test conditions \emph{without} requiring extra parameters.
翻訳日:2023-01-06 19:08:40 公開日:2020-04-20
# 波伝搬予測のための再帰ニューラルネットワークと畳み込みニューラルネットワークの比較

Comparing recurrent and convolutional neural networks for predicting wave propagation ( http://arxiv.org/abs/2002.08981v3 )

ライセンス: Link先を確認
Stathi Fotiadis, Eduardo Pignatelli, Mario Lino Valencia, Chris Cantwell, Amos Storkey, Anil A. Bharath(参考訳) 力学系は偏微分方程式によってモデル化することができ、数値計算は科学や工学の至るところで用いられる。 本研究では,繰り返しおよび畳み込み型ニューラルネットワークアーキテクチャの性能について検討し,表面波の予測を行う。 この体系はサン=ヴェナント方程式によって支配されている。 我々は,シミュレーションのごく一部で予測時間を保ちながら,従来の手法よりも長期予測を改善する。 また,この課題において,畳み込みネットワークは,少なくとも再帰ネットワークと同様に機能することを示す。 最後に,より長い時間枠と異なる物理的設定を補間することにより,各ネットワークの一般化能力を評価する。

Dynamical systems can be modelled by partial differential equations and numerical computations are used everywhere in science and engineering. In this work, we investigate the performance of recurrent and convolutional deep neural network architectures to predict the surface waves. The system is governed by the Saint-Venant equations. We improve on the long-term prediction over previous methods while keeping the inference time at a fraction of numerical simulations. We also show that convolutional networks perform at least as well as recurrent networks in this task. Finally, we assess the generalisation capability of each network by extrapolating in longer time-frames and in different physical settings.
翻訳日:2022-12-30 06:21:52 公開日:2020-04-20
# 深層強化学習によるズームの時間と場所の学習

Learning When and Where to Zoom with Deep Reinforcement Learning ( http://arxiv.org/abs/2003.00425v2 )

ライセンス: Link先を確認
Burak Uzkent, Stefano Ermon(参考訳) 高解像度画像は、低解像度画像よりも意味的に有用な情報を含んでいるが、処理は計算コストが高く、例えばリモートセンシングのようなアプリケーションでは、取得するコストがはるかに高くなる可能性がある。 このため、精度を維持しつつ、取得・実行コストを低減しつつ、必要に応じて高解像度データを選択的に使用する自動手法を開発することが望ましい。 そこで本研究では,PatchDropを用いて,高解像度データを高解像度かつ安価で低解像度の画像に対して動的に取得する手法を提案する。 我々は、CIFAR10、CIFAR100、ImageNet、fMoWデータセット上で実験を行い、全高解像度画像を使用するモデルと同等の精度を維持しながら、非常に少ない高解像度データを使用する。

While high resolution images contain semantically more useful information than their lower resolution counterparts, processing them is computationally more expensive, and in some applications, e.g. remote sensing, they can be much more expensive to acquire. For these reasons, it is desirable to develop an automatic method to selectively use high resolution data when necessary while maintaining accuracy and reducing acquisition/run-time cost. In this direction, we propose PatchDrop a reinforcement learning approach to dynamically identify when and where to use/acquire high resolution data conditioned on the paired, cheap, low resolution images. We conduct experiments on CIFAR10, CIFAR100, ImageNet and fMoW datasets where we use significantly less high resolution data while maintaining similar accuracy to models which use full high resolution images.
翻訳日:2022-12-27 13:03:07 公開日:2020-04-20
# 学習可能なサイバー物理システムのための信頼度境界

Trusted Confidence Bounds for Learning Enabled Cyber-Physical Systems ( http://arxiv.org/abs/2003.05107v2 )

ライセンス: Link先を確認
Dimitrios Boursinos and Xenofon Koutsoukos(参考訳) サイバー物理システム(CPS)は、認識と意思決定タスクに深層ニューラルネットワーク(DNN)のような学習可能なコンポーネント(LEC)を使用することによって恩恵を受けることができる。 しかし、dnnは一般的に、その予測に対する推論が非常に困難であり、安全クリティカルシステムへの応用は非常に困難である。 LEC が CPS に統合されるのは,その予測が出力の信頼度を定量化する信頼度尺度で補完される場合だ。 本稿では,インダクティブ・コンフォーマル予測(ICP)に基づく信頼性境界の計算手法を提案する。 我々はTriplet Networkアーキテクチャをトレーニングし、トレーニングデータセットにおけるテスト例とサンプルの類似性を推定するために使用できる入力データの表現を学習する。 次に、これらの表現を用いて、三重項で使用されるニューラルネットワークアーキテクチャに基づく分類器からセット予測の信頼性を推定する。 本手法は,ロボットナビゲーションベンチマークを用いて評価し,信頼度境界をリアルタイムで効率的に計算できることを示す。

Cyber-physical systems (CPS) can benefit by the use of learning enabled components (LECs) such as deep neural networks (DNNs) for perception and decision making tasks. However, DNNs are typically non-transparent making reasoning about their predictions very difficult, and hence their application to safety-critical systems is very challenging. LECs could be integrated easier into CPS if their predictions could be complemented with a confidence measure that quantifies how much we trust their output. The paper presents an approach for computing confidence bounds based on Inductive Conformal Prediction (ICP). We train a Triplet Network architecture to learn representations of the input data that can be used to estimate the similarity between test examples and examples in the training data set. Then, these representations are used to estimate the confidence of set predictions from a classifier that is based on the neural network architecture used in the triplet. The approach is evaluated using a robotic navigation benchmark and the results show that we can computed trusted confidence bounds efficiently in real-time.
翻訳日:2022-12-24 13:37:29 公開日:2020-04-20
# 改良されたバイナリ人工蜂コロニーアルゴリズム

Improved Binary Artificial Bee Colony Algorithm ( http://arxiv.org/abs/2003.11641v2 )

ライセンス: Link先を確認
Rafet Durgut(参考訳) Artificial Bee Colony (ABC) アルゴリズムは、ミツバチの食物探索行動にインスパイアされた、群知性に基づく進化的最適化アルゴリズムである。 ABCアルゴリズムは連続探索空間を探索することで最適解を実現するために開発されたため、この手法を二進最適化問題に適用するには修正が必要である。 本稿では,二分最適化問題を解くためにabcアルゴリズムを改善し,改良型二分型人工蜂コロニー (ibinabc) と呼ぶ。 提案手法は,適合度値に基づく更新機構と,異なる数の決定変数を処理する。 そこで本研究では,ABCアルゴリズムの探索能力を高めることにより,局所的に最小限に留まることを防止することを目的とする。 ibinabcアルゴリズムをabcと他のメタヒューリスティックアルゴリズムの3つの変種と比較した。 比較のために、未容量の施設配置問題に備えた15の問題インスタンスを含む有名なOR-Libraryデータセットを使用する。 計算結果から,提案手法は収束速度やロバスト性の観点から他の手法よりも優れていることが示された。 アルゴリズムのソースコードは、レビュープロセスの後にGitHubで入手できる。

The Artificial Bee Colony (ABC) algorithm is an evolutionary optimization algorithm based on swarm intelligence and inspired by the honey bees' food search behavior. Since the ABC algorithm has been developed to achieve optimal solutions by searching in the continuous search space, modification is required to apply this method to binary optimization problems. In this paper, we improve the ABC algorithm to solve binary optimization problems and call it the improved binary Artificial Bee Colony (ibinABC). The proposed method consists of an update mechanism based on fitness values and processing different number of decision variables. Thus, we aim to prevent the ABC algorithm from getting stuck in a local minimum by increasing its exploration ability. We compare the ibinABC algorithm with three variants of the ABC and other meta-heuristic algorithms in the literature. For comparison, we use the wellknown OR-Library dataset containing 15 problem instances prepared for the uncapacitated facility location problem. Computational results show that the proposed method is superior to other methods in terms of convergence speed and robustness. The source code of the algorithm will be available on GitHub after reviewing process
翻訳日:2022-12-24 13:18:34 公開日:2020-04-20
# 効率的かつ構成可能な画像デノーミングのためのGated Texture CNN

Gated Texture CNN for Efficient and Configurable Image Denoising ( http://arxiv.org/abs/2003.07042v2 )

ライセンス: Link先を確認
Kaito Imai and Takamichi Miyata(参考訳) 畳み込みニューラルネットワーク(cnn)ベースの画像デノージング方法は、ノイズ入力画像に含まれるノイズ成分を推定し、入力から推定ノイズを減算してクリーンイメージを復元するのが一般的である。 しかし、従来の denoising 手法は入力から高周波情報(例えばテクスチャ)を除去する傾向がある。 cnnの中間的特徴マップによって引き起こされ、テクスチャ情報を含んでいる。 この問題に対する直接的なアプローチは、多数のレイヤを積み重ねることであり、高い計算コストをもたらす。 高い性能と計算効率を実現するため,ゲートテクスチャCNN (GTCNN) を提案し,ゲーティング機構を組み込むことで,CNNの各中間特徴マップからテクスチャ情報を慎重に除去する。 GTCNNは従来の最先端手法の4.8倍のパラメータで最先端性能を実現する。 さらに、GTCNNは、追加のモジュール、トレーニング、計算コストなしで出力画像のテクスチャ強度をインタラクティブに制御することができる。

Convolutional neural network (CNN)-based image denoising methods typically estimate the noise component contained in a noisy input image and restore a clean image by subtracting the estimated noise from the input. However, previous denoising methods tend to remove high-frequency information (e.g., textures) from the input. It caused by intermediate feature maps of CNN contains texture information. A straightforward approach to this problem is stacking numerous layers, which leads to a high computational cost. To achieve high performance and computational efficiency, we propose a gated texture CNN (GTCNN), which is designed to carefully exclude the texture information from each intermediate feature map of the CNN by incorporating gating mechanisms. Our GTCNN achieves state-of-the-art performance with 4.8 times fewer parameters than previous state-of-the-art methods. Furthermore, the GTCNN allows us to interactively control the texture strength in the output image without any additional modules, training, or computational costs.
翻訳日:2022-12-23 03:33:58 公開日:2020-04-20
# 画像に基づくコーンカーネル検出とカウントのための畳み込みニューラルネットワーク

Convolutional Neural Networks for Image-based Corn Kernel Detection and Counting ( http://arxiv.org/abs/2003.12025v2 )

ライセンス: Link先を確認
Saeed Khaki, Hieu Pham, Ye Han, Andy Kuhl, Wade Kent and Lizhi Wang(参考訳) 季節内トウモロコシ収量推定の正確さにより、農家はリアルタイムで正確な収穫と穀物マーケティングの決定を行え、利益の損失を最小限に抑えることができる。 発達したトウモロコシの耳は最大800個の核を持つことができるが、トウモロコシの耳の核を手動で数えるのは、労働集約的であり、時間がかかり、人的ミスを起こしやすい。 アルゴリズムの観点からは、異なる角度と非常に小さな距離のカーネルが多数存在するため、単一のコーンの耳画像からカーネルを検出することは困難である。 本論文では,スライディングウインドウアプローチに基づくカーネル検出とカウント手法を提案する。 提案手法は、制御不能な照明条件下で撮影された1つのトウモロコシ耳画像中のすべてのトウモロコシ核を検出し、カウントする。 スライディングウィンドウアプローチでは、カーネル検出に畳み込みニューラルネットワーク(CNN)を使用する。 そして、重なり合う検出を除去するために、非最大抑制(NMS)を適用する。 最後に、カーネルとして分類されたウィンドウは、カーネルイメージパッチの中心の(x,y)座標を見つけるために別のcnn回帰モデルに渡される。 提案手法は,検出誤差の低いコーン核の検出に成功し,異なる角度に配置されたコーン耳のバッチ上でも検出可能であることを示す。

Precise in-season corn grain yield estimates enable farmers to make real-time accurate harvest and grain marketing decisions minimizing possible losses of profitability. A well developed corn ear can have up to 800 kernels, but manually counting the kernels on an ear of corn is labor-intensive, time consuming and prone to human error. From an algorithmic perspective, the detection of the kernels from a single corn ear image is challenging due to the large number of kernels at different angles and very small distance among the kernels. In this paper, we propose a kernel detection and counting method based on a sliding window approach. The proposed method detect and counts all corn kernels in a single corn ear image taken in uncontrolled lighting conditions. The sliding window approach uses a convolutional neural network (CNN) for kernel detection. Then, a non-maximum suppression (NMS) is applied to remove overlapping detections. Finally, windows that are classified as kernel are passed to another CNN regression model for finding the (x,y) coordinates of the center of kernel image patches. Our experiments indicate that the proposed method can successfully detect the corn kernels with a low detection error and is also able to detect kernels on a batch of corn ears positioned at different angles.
翻訳日:2022-12-19 20:55:59 公開日:2020-04-20
# GDELTデータベースによる国際政治ノームのマイニング

Mining International Political Norms from the GDELT Database ( http://arxiv.org/abs/2003.14027v2 )

ライセンス: Link先を確認
Rohit Murali, Suravi Patnaik, Stephen Cranefield(参考訳) 研究者は長年、マルチエージェントシステムにおけるエージェントアクションの管理においてノルムが果たす役割に興味を持ってきた。 人間社会からの規範的概念の形式化や、オープンソフトウェアシステムの政府への適応、人間と人工社会における規範的過程のシミュレーションなど、多くの研究がなされている。 しかし、人間社会の規範を理解するために、規範的mas機構を適用する作業は、比較的少ない。 この研究は、国際政治の文脈でこの問題を調査する。 我々は,GDELTデータセットを用いて,ニュースレポートから抽出した国際事象の機械符号化記録を抽出し,バイーシアン・ノルム・マイニング機構を用いて,観測行動の最もよく説明された規範を同定した。 統計的評価の結果,規範モデルの方が確率的離散事象モデルよりも有意に優れていることがわかった。

Researchers have long been interested in the role that norms can play in governing agent actions in multi-agent systems. Much work has been done on formalising normative concepts from human society and adapting them for the government of open software systems, and on the simulation of normative processes in human and artificial societies. However, there has been comparatively little work on applying normative MAS mechanisms to understanding the norms in human society. This work investigates this issue in the context of international politics. Using the GDELT dataset, containing machine-encoded records of international events extracted from news reports, we extracted bilateral sequences of inter-country events and applied a Bayesian norm mining mechanism to identify norms that best explained the observed behaviour. A statistical evaluation showed that the normative model fitted the data significantly better than a probabilistic discrete event model.
翻訳日:2022-12-18 01:42:59 公開日:2020-04-20
# 2次元および3段階ギロチン充填問題に対するanytime tree searchアルゴリズム

An anytime tree search algorithm for two-dimensional two- and three-staged guillotine packing problems ( http://arxiv.org/abs/2004.02603v2 )

ライセンス: Link先を確認
Florian Fontan, Luc Libralesso(参考訳) 関連スポンサーコンテンツ [libralesso_anytime_2020] 2018 roadef/euro challenge glass cutting problem (https://www.roadef.org/challenge/2018/en/index.php)のanytime tree searchアルゴリズムを提案しました。 このプログラムは64人中1位にランクインした。 本稿では,本論文を一般化し,本来設計した特定の問題に対して有効であるだけでなく,非常に競争力があり,多種多様な切断・包装問題に対する最先端のソリューションを文献から返却する。 2段階または3段階の正確なギロチンカット、最初のカットの向きが課されるか否か、アイテムの回転の有無に関わらず、2次元のビンパッキング、複数のナップサック、ストリップパッキング問題に適用した。 効率性、優れたソリューションを提供する能力、シンプルさ、汎用性の組み合わせは、いくつかのビジネス固有の制約を実装するアルゴリズムを迅速に開発する必要がある産業アプリケーションに適している。 このアルゴリズムはPackingSolverと呼ばれる新しいソフトウェアパッケージで実装されている。

[libralesso_anytime_2020] proposed an anytime tree search algorithm for the 2018 ROADEF/EURO challenge glass cutting problem (https://www.roadef.org/challenge/2018/en/index.php). The resulting program was ranked first among 64 participants. In this article, we generalize it and show that it is not only effective for the specific problem it was originally designed for, but is also very competitive and even returns state-of-the-art solutions on a large variety of Cutting and Packing problems from the literature. We adapted the algorithm for two-dimensional Bin Packing, Multiple Knapsack, and Strip Packing Problems, with two- or three-staged exact or non-exact guillotine cuts, the orientation of the first cut being imposed or not, and with or without item rotation. The combination of efficiency, ability to provide good solutions fast, simplicity and versatility makes it particularly suited for industrial applications, which require quickly developing algorithms implementing several business-specific constraints. The algorithm is implemented in a new software package called PackingSolver.
翻訳日:2022-12-17 12:37:16 公開日:2020-04-20
# 単語埋め込みの教師なしアライメントに対する幾何学的ドメイン適応

Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings ( http://arxiv.org/abs/2004.08243v2 )

ライセンス: Link先を確認
Pratik Jawanpuria, Mayank Meghwanshi, Bamdev Mishra(参考訳) 本稿では,ソース言語と対象言語間の単語埋め込みの教師なしアライメントを学ぶための,新しい多様体に基づく幾何学的手法を提案する。 本手法は二重確率行列の多様体上の領域適応問題としてアライメント学習問題を定式化する。 この視点は、2つの言語空間の2階情報を整列する目的から生じる。 二重確率多様体のリッチな幾何学は、提案された定式化に対して効率的なリーマン共役勾配アルゴリズムを用いることができる。 提案手法は,複数の言語対にまたがるバイリンガル語彙誘導課題に基づく,最先端の最適輸送手法よりも優れている。 パフォーマンス改善は、遠い言語ペアにとってより重要である。

We propose a novel manifold based geometric approach for learning unsupervised alignment of word embeddings between the source and the target languages. Our approach formulates the alignment learning problem as a domain adaptation problem over the manifold of doubly stochastic matrices. This viewpoint arises from the aim to align the second order information of the two language spaces. The rich geometry of the doubly stochastic manifold allows to employ efficient Riemannian conjugate gradient algorithm for the proposed formulation. Empirically, the proposed approach outperforms state-of-the-art optimal transport based approach on the bilingual lexicon induction task across several language pairs. The performance improvement is more significant for distant language pairs.
翻訳日:2022-12-16 05:15:58 公開日:2020-04-20
# 教師なし多言語組込み学習への簡易的アプローチ

A Simple Approach to Learning Unsupervised Multilingual Embeddings ( http://arxiv.org/abs/2004.05991v2 )

ライセンス: Link先を確認
Pratik Jawanpuria, Mayank Meghwanshi, Bamdev Mishra(参考訳) バイリンガルセッティングにおける言語間埋め込みの教師なし学習の最近の進歩は、教師なしの複数の言語に対する共有埋め込み空間の学習に拍車をかけた。 後者の問題を解決するための一般的な枠組みは、以下の2つのサブ問題を共同で解決することである。 1)複数の言語間の教師なしの単語アライメントの学習、 2) 各言語の単言語埋め込みを共有多言語空間にマップする方法を学ぶ。 対照的に,上記の2つのサブ問題を分離して,既存の手法で別々に解く,単純で2段階のフレームワークを提案する。 提案手法は,バイリンガル語彙誘導,言語間単語類似性,多言語文書分類,多言語依存性解析などのタスクにおいて,驚くほど優れた性能が得られる。 遠隔言語が関与する場合、提案手法は頑健性を示し、既存の教師なし多言語単語埋め込みアプローチよりも優れている。 実験結果から,このような課題に対する多段階モデルの開発が促進された。

Recent progress on unsupervised learning of cross-lingual embeddings in bilingual setting has given impetus to learning a shared embedding space for several languages without any supervision. A popular framework to solve the latter problem is to jointly solve the following two sub-problems: 1) learning unsupervised word alignment between several pairs of languages, and 2) learning how to map the monolingual embeddings of every language to a shared multilingual space. In contrast, we propose a simple, two-stage framework in which we decouple the above two sub-problems and solve them separately using existing techniques. The proposed approach obtains surprisingly good performance in various tasks such as bilingual lexicon induction, cross-lingual word similarity, multilingual document classification, and multilingual dependency parsing. When distant languages are involved, the proposed solution illustrates robustness and outperforms existing unsupervised multilingual word embedding approaches. Overall, our experimental results encourage development of multi-stage models for such challenging problems.
翻訳日:2022-12-14 20:09:34 公開日:2020-04-20
# 時空間畳み込みネットワークを用いた農地区画分割

Farmland Parcel Delineation Using Spatio-temporal Convolutional Networks ( http://arxiv.org/abs/2004.05471v2 )

ライセンス: Link先を確認
Han Lin Aung, Burak Uzkent, Marshall Burke, David Lobell, Stefano Ermon(参考訳) ファームパーセル・デライン化は、気候変動政策の開発と管理において重要なカダストラルデータを提供する。 特にファーム・パーセル・デライン化は、下流政府の土地割当、灌水、肥育、グリーンハウスガス(ghg)など政策の応用を知らせる。 このデータは、異常気象に伴う損害後の補償を評価する農業保険部門にも有用であり、気候変動に関連する傾向が高まっている。 衛星画像の利用は、農場の区画整理作業や貴重なデータ収集に、スケーラブルで費用対効果の高い方法である。 本稿では,この課題を衛星画像を用いて2つのアプローチに分解する。 1)パーセル境界の分割,及び 2)パーセル領域のセグメンテーション。 私たちは、2017年のフランスにおける農地区画のデータセットで最高の結果を得た、時間的情報を考慮したUNetsのバリエーションを実装しました。

Farm parcel delineation provides cadastral data that is important in developing and managing climate change policies. Specifically, farm parcel delineation informs applications in downstream governmental policies of land allocation, irrigation, fertilization, green-house gases (GHG's), etc. This data can also be useful for the agricultural insurance sector for assessing compensations following damages associated with extreme weather events - a growing trend related to climate change. Using satellite imaging can be a scalable and cost effective manner to perform the task of farm parcel delineation to collect this valuable data. In this paper, we break down this task using satellite imaging into two approaches: 1) Segmentation of parcel boundaries, and 2) Segmentation of parcel areas. We implemented variations of UNets, one of which takes into account temporal information, which achieved the best results on our dataset on farmland parcels in France in 2017.
翻訳日:2022-12-14 13:09:47 公開日:2020-04-20
# 画像分割のための残留駆動型ファジィC-平均クラスタリング

Residual-driven Fuzzy C-Means Clustering for Image Segmentation ( http://arxiv.org/abs/2004.07160v2 )

ライセンス: Link先を確認
Cong Wang, Witold Pedrycz, ZhiWu Li, MengChu Zhou(参考訳) その特性が劣るため、観察された(ノイズ)画像の直接使用は、セグメンテーション結果の悪い結果をもたらす。 直観的には、ノイズのない画像を使うことは、画像のセグメンテーションに好影響を与える。 したがって、観測画像とノイズフリー画像の残差の正確な推定は重要な課題である。 そこで我々は,画像分割のための残差駆動型ファジィC-平均(FCM)について詳述する。これは,正確な残差推定を実現し,ノイズフリーな画像をクラスタリングに導く最初のアプローチである。 本研究では,異なる種類の雑音の分布から得られる残差関連忠実度項をFCMに統合することにより,残差駆動型FCMフレームワークを提案する。 この枠組みに基づき,混合雑音分布の重み付けにより重み付き$\ell_{2}$-normの忠実性項を示す。 また、空間情報の制約により、残差推定は観測画像自体のみを考慮した場合よりも信頼性が高い。 合成,医療,実世界の画像に対する支援実験を行う。 その結果,既存のfcm関連アルゴリズムよりも,提案アルゴリズムの有効性と効率が向上した。

Due to its inferior characteristics, an observed (noisy) image's direct use gives rise to poor segmentation results. Intuitively, using its noise-free image can favorably impact image segmentation. Hence, the accurate estimation of the residual between observed and noise-free images is an important task. To do so, we elaborate on residual-driven Fuzzy C-Means (FCM) for image segmentation, which is the first approach that realizes accurate residual estimation and leads noise-free image to participate in clustering. We propose a residual-driven FCM framework by integrating into FCM a residual-related fidelity term derived from the distribution of different types of noise. Built on this framework, we present a weighted $\ell_{2}$-norm fidelity term by weighting mixed noise distribution, thus resulting in a universal residual-driven FCM algorithm in presence of mixed or unknown noise. Besides, with the constraint of spatial information, the residual estimation becomes more reliable than that only considering an observed image itself. Supporting experiments on synthetic, medical, and real-world images are conducted. The results demonstrate the superior effectiveness and efficiency of the proposed algorithm over existing FCM-related algorithms.
翻訳日:2022-12-13 04:06:33 公開日:2020-04-20
# 動的コンテンツ計画によるニューラルデータ・テキスト生成

Neural Data-to-Text Generation with Dynamic Content Planning ( http://arxiv.org/abs/2004.07426v2 )

ライセンス: Link先を確認
Kai Chen, Fayuan Li, Baotian Hu, Weihua Peng, Qingcai Chen and Hong Yu(参考訳) 近年,ニューラルデータ・テキスト生成モデルが大きく進歩している。 しかし、これらのモデルには2つの欠点がある: 生成されたテキストは重要な情報を見逃しがちであり、しばしばそれらは構造化された入力データと一致しない記述を生成する。 これらの問題を緩和するために,動的コンテンツプランニングを用いたニューラルデータ・テキスト生成モデルを提案する。 NDPは、予め生成されたテキストを利用して、所定の構造化データから適切なエントリを動的に選択することができる。 さらに、デコーダの隠れた状態から使用データの入力全体を順次再構築し、生成されたテキストの精度を高めることのできる、新しい目的関数による再構成機構の設計を行う。 実験の結果, ROTOWIREデータセットでは, 関係生成(RG), コンテンツ選択(CS), コンテンツ順序付け(CO), BLEUメトリクスにおいて, NDPは最先端のROTOWIREデータセットよりも優れた性能を示した。 人間の評価結果は,提案したNDPが生成したテキストが,ほとんどの場合,NCPが生成したテキストよりも優れていることを示している。 また、提案した再構成機構により、生成したテキストの忠実度をさらに向上させることができる。

Neural data-to-text generation models have achieved significant advancement in recent years. However, these models have two shortcomings: the generated texts tend to miss some vital information, and they often generate descriptions that are not consistent with the structured input data. To alleviate these problems, we propose a Neural data-to-text generation model with Dynamic content Planning, named NDP for abbreviation. The NDP can utilize the previously generated text to dynamically select the appropriate entry from the given structured data. We further design a reconstruction mechanism with a novel objective function that can reconstruct the whole entry of the used data sequentially from the hidden states of the decoder, which aids the accuracy of the generated text. Empirical results show that the NDP achieves superior performance over the state-of-the-art on ROTOWIRE dataset, in terms of relation generation (RG), content selection (CS), content ordering (CO) and BLEU metrics. The human evaluation result shows that the texts generated by the proposed NDP are better than the corresponding ones generated by NCP in most of time. And using the proposed reconstruction mechanism, the fidelity of the generated text can be further improved significantly.
翻訳日:2022-12-12 21:27:57 公開日:2020-04-20
# 短期道路交通予測のためのグラフニューラルネットワークを用いた移動学習

Transfer Learning with Graph Neural Networks for Short-Term Highway Traffic Forecasting ( http://arxiv.org/abs/2004.08038v2 )

ライセンス: Link先を確認
Tanwi Mallick, Prasanna Balaprakash, Eric Rask, and Jane Macfarlane(参考訳) 道路交通モデリングと予測手法はインテリジェント交通システムにとって重要である。 近年,幅広い交通予測タスクの最先端技術として,ディープラーニングに基づく交通予測手法が登場している。 しかし、これらの方法は大量のトレーニングデータを必要とするため、かなりの期間にわたって収集する必要がある。 これは、歴史的データ不足に悩むハイウェイネットワークに対して、データ駆動学習手法の開発と展開に多くの課題をもたらす可能性がある。 この問題を解決するための有望なアプローチはトランスファーラーニングであり、ハイウェイネットワークの一部で訓練されたモデルをハイウェイネットワークの別の部分に適応させることができる。 高速ネットワーク予測のための最先端グラフニューラルネットワークである拡散畳み込みリカレントニューラルネットワーク(DCRNN)に注目した。 リカレントニューラルネットワーク内のグラフベースの拡散畳み込み演算を用いて、高速道路網の複雑な空間的および時間的ダイナミクスをモデル化する。 しかし、DCRNNは、ネットワークの未確認領域では使用できない位置固有のトラフィックパターンを学習するため、転送学習を行うことができない。 そこで,本研究では,高速道路網のデータ豊富な領域を学習した単一モデルを用いて,高速道路網の未認識領域の交通予測を行うdcrnnのための新しいトランスファー学習手法を開発した。 1年間の時系列データを用いて,カリフォルニアの高速道路網全体の交通量を予測する手法の有効性を評価する。 TL-DCRNNはカリフォルニアのハイウェイネットワークのいくつかの領域から学習でき、ネットワークの見えない領域のトラフィックを高精度に予測できることを示す。 さらに,サンフランシスコ地域の交通データからTL-DCRNNを学習し,ロサンゼルス地域の交通を予測し,その逆を予測できることを実証した。

Highway traffic modeling and forecasting approaches are critical for intelligent transportation systems. Recently, deep-learning-based traffic forecasting methods have emerged as state of the art for a wide range of traffic forecasting tasks. However, these methods require a large amount of training data, which needs to be collected over a significant period of time. This can present a number of challenges for the development and deployment of data-driven learning methods for highway networks that suffer from lack of historical data. A promising approach to address this issue is transfer learning, where a model trained on one part of the highway network can be adapted for a different part of the highway network. We focus on diffusion convolutional recurrent neural network (DCRNN), a state-of-the-art graph neural network for highway network forecasting. It models the complex spatial and temporal dynamics of the highway network using a graph-based diffusion convolution operation within a recurrent neural network. DCRNN cannot perform transfer learning, however, because it learns location-specific traffic patterns, which cannot be used for unseen regions of the network. To that end, we develop a new transfer learning approach for DCRNN, where a single model trained on data-rich regions of the highway network can be used to forecast traffic on unseen regions of the highway network. We evaluate the ability of our approach to forecast the traffic on the entire California highway network with one year of time series data. We show that TL-DCRNN can learn from several regions of the California highway network and forecast the traffic on the unseen regions of the network with high accuracy. Moreover, we demonstrate that TL-DCRNN can learn from San Francisco region traffic data and can forecast traffic on the Los Angeles region and vice versa.
翻訳日:2022-12-12 12:41:17 公開日:2020-04-20
# ベトナム語音声合成システムの自然性最適化のためのデータ処理

Data Processing for Optimizing Naturalness of Vietnamese Text-to-speech System ( http://arxiv.org/abs/2004.09607v1 )

ライセンス: Link先を確認
Viet Lam Phung, Phan Huy Kinh, Anh Tuan Dinh, Quoc Bao Nguyen(参考訳) 音声合成システムTTS(Abstract End-to-end Text-to-Speech)は,高品質なマイクロホンを備えた無響室で記録された大量の高品質なトレーニングデータの存在で大きな成功を収めている。 もう1つのアプローチは、ラジオ放送ニュースのような利用可能なデータソースを使用することである。 本研究では,新しいデータ処理手法を用いて,TTSシステムの自然性を改善することを目的とする。 データ処理方法が付属する 1)発話選択、及び 2) ttsシステムの自然性を最適化する訓練データを作成するための韻律句読点挿入法 その結果, 処理データ法を用いて, 音声の4.3に対して, エンド・ツー・エンドのttsは4.1の平均評価スコア(mos)を達成した。 我々は句読点挿入が結果に最も寄与したことを示した。 TTSシステムの研究・開発を容易にするため,ある話者の処理データをhttps://forms.gle/6Hk5YkqgDxAaC2BU6で配布した。

Abstract End-to-end text-to-speech (TTS) systems has proved its great success in the presence of a large amount of high-quality training data recorded in anechoic room with high-quality microphone. Another approach is to use available source of found data like radio broadcast news. We aim to optimize the naturalness of TTS system on the found data using a novel data processing method. The data processing method includes 1) utterance selection and 2) prosodic punctuation insertion to prepare training data which can optimize the naturalness of TTS systems. We showed that using the processing data method, an end-to-end TTS achieved a mean opinion score (MOS) of 4.1 compared to 4.3 of natural speech. We showed that the punctuation insertion contributed the most to the result. To facilitate the research and development of TTS systems, we distributed the processed data of one speaker at https://forms.gle/6Hk5YkqgDxAaC2BU6.
翻訳日:2022-12-11 19:30:57 公開日:2020-04-20
# 不完全アノテーションを用いた細胞微細構造のニューラルネットワーク分割

Neural Network Segmentation of Cell Ultrastructure Using Incomplete Annotation ( http://arxiv.org/abs/2004.09673v1 )

ライセンス: Link先を確認
John Paul Francis, Hongzhi Wang, Kate White, Tanveer Syeda-Mahmood, Raymond Stevens(参考訳) 膵β細胞は糖尿病研究の重要な標的である。 軟x線トモグラフィにより取得した全細胞イメージングデータの自動セグメンテーションについて,β細胞微細構造のスケーラブルなモデリングのために検討する。 研究の過程で、データの異なるサブセットに対して、完全および部分的な微細構造アノテーションが手動で作成された。 既存のアノテーションをより効果的に活用するために,部分ラベル付きデータをフルラベルセグメンテーションに適用する手法を提案する。 実験的な検証のために,完全注釈付き12データと部分注釈付き12データからなる畳み込みニューラルネットワークのトレーニングに適用し,完全注釈付きデータのみを用いた標準トレーニングよりも有望な改善を示す。

The Pancreatic beta cell is an important target in diabetes research. For scalable modeling of beta cell ultrastructure, we investigate automatic segmentation of whole cell imaging data acquired through soft X-ray tomography. During the course of the study, both complete and partial ultrastructure annotations were produced manually for different subsets of the data. To more effectively use existing annotations, we propose a method that enables the application of partially labeled data for full label segmentation. For experimental validation, we apply our method to train a convolutional neural network with a set of 12 fully annotated data and 12 partially annotated data and show promising improvement over standard training that uses fully annotated data alone.
翻訳日:2022-12-11 19:30:42 公開日:2020-04-20
# データ駆動学習と負荷アンサンブル制御

Data-Driven Learning and Load Ensemble Control ( http://arxiv.org/abs/2004.09675v1 )

ライセンス: Link先を確認
Ali Hassan, Deepjyoti Deka, Michael Chertkov and Yury Dvorkin(参考訳) 需要応答(DR)プログラムは、温度制御可能な負荷(TCL)など、分散した小規模のフレキシブル負荷に取り組み、様々なグリッドサポートサービスを提供することを目的としている。 従来のMDPの変種であるLS-MDP(Linearly Solvable Markov Decision Process)は、集約されたTCLをモデル化するために使用される。 次に、Z-learningと呼ばれるモデルフリー強化学習手法を適用し、値関数を学習し、DRアグリゲータがTCLを制御するための最適なポリシーを導出する。 学習プロセスは、集約されたtclの受動ダイナミクスの推定から生じる不確実性に対して頑健である。 このデータ駆動学習の効率性は、住宅の試験ベッド地区における暖房・冷却・換気(HVAC)ユニットのシミュレーションによって実証される。

Demand response (DR) programs aim to engage distributed small-scale flexible loads, such as thermostatically controllable loads (TCLs), to provide various grid support services. Linearly Solvable Markov Decision Process (LS-MDP), a variant of the traditional MDP, is used to model aggregated TCLs. Then, a model-free reinforcement learning technique called Z-learning is applied to learn the value function and derive the optimal policy for the DR aggregator to control TCLs. The learning process is robust against uncertainty that arises from estimating the passive dynamics of the aggregated TCLs. The efficiency of this data-driven learning is demonstrated through simulations on Heating, Cooling & Ventilation (HVAC) units in a testbed neighborhood of residential houses.
翻訳日:2022-12-11 19:30:30 公開日:2020-04-20
# 株式ファンド選択と最適ポートフォリオ構築のための新しい手法

The new methods for equity fund selection and optimal portfolio construction ( http://arxiv.org/abs/2004.10631v1 )

ライセンス: Link先を確認
Yi Cao(参考訳) 我々は,古典的株式ファンドの選択とポートフォリオ構築の問題を新たな視点から見直し,実践的投資の課題に対処するための実装が容易な枠組みを提案する。 株式やマクロ要素の大きな宇宙から長いのみのポートフォリオを構築する従来の方法ではなく、相互ファンドのトップホールディングスから小さな株式プールからロングショートポートフォリオを生産し、印象的な結果を生み出す方法を示す。 これらの手法は統計的根拠に基づいており,モデルの妥当性を綿密に監視し,補修戦略を準備する必要がある。

We relook at the classic equity fund selection and portfolio construction problems from a new perspective and propose an easy-to-implement framework to tackle the problem in practical investment. Rather than the conventional way by constructing a long only portfolio from a big universe of stocks or macro factors, we show how to produce a long-short portfolio from a smaller pool of stocks from mutual fund top holdings and generate impressive results. As these methods are based on statistical evidence, we need closely monitoring the model validity, and prepare repair strategies.
翻訳日:2022-12-11 19:29:44 公開日:2020-04-20
# 分散IoTシステムのためのスケーラブルでセキュアなアーキテクチャ

Scalable and Secure Architecture for Distributed IoT Systems ( http://arxiv.org/abs/2005.02456v1 )

ライセンス: Link先を確認
Najmeddine Dhieb, Hakim Ghazzai, Hichem Besbes, and Yehia Massoud(参考訳) IoT(Internet-of-Things)は、私たちの日常生活に永久に革命をもたらし、物理的オブジェクトを急速にユビキタスなコネクテッドなエコシステムに変える。 大規模なデプロイメントと適度なセキュリティレベルのため、これらのデバイスは多くのセキュリティ、管理、コントロールの課題に直面している。 彼らの古典的な集中型アーキテクチャは、ハッカーがスパイ、盗聴、ネットワークの制御のために悪用できる脆弱性や異常をまだ隠している。 本稿では,人工知能(AI)とブロックチェーン技術を用いた新たなセキュリティ機能を備えたIoTアーキテクチャの改善を提案する。 我々は、スケーラブルで分散化されたエンドツーエンドのセキュアなIoTシステムを構築するために、許可付きブロックチェーン技術に基づく新しいアーキテクチャを提案する。 さらに、ゲートウェイレベルでaiコンポーネントを使用してiotシステムのセキュリティを強化し、疑わしいアクティビティ、マルウェア、サイバー攻撃を機械学習技術を用いて検出および分類する。 シミュレーションと実践的な実装は,提案アーキテクチャがサイバー攻撃に対して高い性能を発揮することを示している。

Internet-of-things (IoT) is perpetually revolutionizing our daily life and rapidly transforming physical objects into an ubiquitous connected ecosystem. Due to their massive deployment and moderate security levels, those devices face a lot of security, management, and control challenges. Their classical centralized architecture is still cloaking vulnerabilities and anomalies that can be exploited by hackers for spying, eavesdropping, and taking control of the network. In this paper, we propose to improve the IoT architecture with additional security features using Artificial Intelligence (AI) and blockchain technology. We propose a novel architecture based on permissioned blockchain technology in order to build a scalable and decentralized end-to-end secure IoT system. Furthermore, we enhance the IoT system security with an AI-component at the gateway level to detect and classify suspected activities, malware, and cyber-attacks using machine learning techniques. Simulations and practical implementation show that the proposed architecture delivers high performance against cyber-attacks.
翻訳日:2022-12-11 19:29:34 公開日:2020-04-20
# テンソル分解に基づくネットワーク異常検出

Network Anomaly Detection based on Tensor Decomposition ( http://arxiv.org/abs/2004.09655v1 )

ライセンス: Link先を確認
Ananda Streit, Gustavo H. A. Santos, Rosa Le\~ao, Edmundo de Souza e Silva, Daniel Menasch\'e, Don Towsley(参考訳) ネットワーク計測から時系列の異常を検出する問題は広く研究され,重要な話題となっている。 多くの異常検出方法は、ネットワークコアルータで収集されたパケット検査に基づいており、計算コストとプライバシの点で相反する。 本稿では,パケットヘッダ検査が不要な代替手法を提案する。 この方法は、異なるメトリクス間の相関を考慮したテンソル分解法によって得られる正規部分空間の抽出に基づいている。 本稿では,通常の部分空間の変化を効率的に追跡できるオンラインテンソル分解法を提案する。 我々の提案のもう1つの利点は、得られたモデルの解釈可能性である。 この方法の柔軟性は、住宅用ルータで収集された実際のデータを用いて、2つの異なる例に適用することで示される。

The problem of detecting anomalies in time series from network measurements has been widely studied and is a topic of fundamental importance. Many anomaly detection methods are based on packet inspection collected at the network core routers, with consequent disadvantages in terms of computational cost and privacy. We propose an alternative method in which packet header inspection is not needed. The method is based on the extraction of a normal subspace obtained by the tensor decomposition technique considering the correlation between different metrics. We propose a new approach for online tensor decomposition where changes in the normal subspace can be tracked efficiently. Another advantage of our proposal is the interpretability of the obtained models. The flexibility of the method is illustrated by applying it to two distinct examples, both using actual data collected on residential routers.
翻訳日:2022-12-11 19:24:04 公開日:2020-04-20
# 無人航空機を用いたRSSIを用いた屋外位置推定

RSSI-based Outdoor Localization with Single Unmanned Aerial Vehicle ( http://arxiv.org/abs/2004.10083v1 )

ライセンス: Link先を確認
Seyma Yucer, Furkan Tektas, Mesih Veysi Kilinc, Ilyas Kandemir, Hasari Celebi, Yakup Genc, Yusuf Sinan Akgul(参考訳) ターゲットオブジェクトのローカライズは通常、複数の地上参照ノードを使用して行われてきた。 このパラダイムは、最近、無人航空機(UAV)による目標物の位置特定に向けてシフトしている。 複数のUAVを同時に使用する目標の配置はコストがかかり実用的ではないため、単一のUAVを利用することでこの課題を達成することが望ましい。 そこで本稿では,単一のUAVのみを利用するRSSIに基づくローカライズ手法を提案する。 提案手法は,Singular Value Decomposition (SVD) とともにクラスタリング手法に基づいている。 提案手法の性能は, 設計したUAVが収集した実験結果と計算機シミュレーションにより検証した。 その結果,提案手法は反復回数に応じて7m以下の位置精度を達成できることがわかった。

Localization of a target object has been performed conventionally using multiple terrestrial reference nodes. This paradigm is recently shifted towards utilization of unmanned aerial vehicles (UAVs) for locating target objects. Since locating of a target using simultaneous multiple UAVs is costly and impractical, achieving this task by utilizing single UAV becomes desirable. Hence, in this paper, we propose an RSSI-based localization method that utilizes only a single UAV. The proposed approach is based on clustering method along with the Singular Value Decomposition (SVD). The performance of the proposed method is verified by the experimental measurements collected by a UAV that we have designed and computer simulations. The results show that the proposed method can achieve location accuracy as low as 7m depending on the number of iterations.
翻訳日:2022-12-11 19:23:52 公開日:2020-04-20
# 古い写真を生き返らせる

Bringing Old Photos Back to Life ( http://arxiv.org/abs/2004.09484v1 )

ライセンス: Link先を確認
Ziyu Wan and Bo Zhang and Dongdong Chen and Pan Zhang and Dong Chen and Jing Liao and Fang Wen(参考訳) 深層学習による重度の劣化に苦しむ古い写真を復元することを提案する。 教師付き学習によって解決できる従来の修復タスクとは異なり、実際の写真の劣化は複雑であり、合成画像と本物の古い写真の間のドメインギャップはネットワークの一般化に失敗する。 そこで本研究では,実画像と膨大な合成画像ペアを併用して,新しいトリプレット領域翻訳ネットワークを提案する。 具体的には、2つの変分オートエンコーダ(VAE)をトレーニングし、それぞれ古い写真とクリーンな写真を2つの潜伏空間に変換する。 これら2つの潜在空間間の変換は、合成ペアデータによって学習される。 この翻訳は、領域ギャップがコンパクトな潜在空間で閉じているため、実写真にうまく一般化する。 また,古い写真に混入した複数の劣化に対処するため,スクラッチやダストスポットなどの構造的欠陥を対象とする部分的非局所的ブロックと,ノイズやボケなどの非構造的欠陥を対象とする局所的ブランチを設計した。 2つのブランチが潜在空間で融合し、古い写真を複数の欠陥から復元する能力が向上した。 提案手法は,古い写真復元の視覚品質において最先端の手法を上回っている。

We propose to restore old photos that suffer from severe degradation through a deep learning approach. Unlike conventional restoration tasks that can be solved through supervised learning, the degradation in real photos is complex and the domain gap between synthetic images and real old photos makes the network fail to generalize. Therefore, we propose a novel triplet domain translation network by leveraging real photos along with massive synthetic image pairs. Specifically, we train two variational autoencoders (VAEs) to respectively transform old photos and clean photos into two latent spaces. And the translation between these two latent spaces is learned with synthetic paired data. This translation generalizes well to real photos because the domain gap is closed in the compact latent space. Besides, to address multiple degradations mixed in one old photo, we design a global branch with a partial nonlocal block targeting to the structured defects, such as scratches and dust spots, and a local branch targeting to the unstructured defects, such as noises and blurriness. Two branches are fused in the latent space, leading to improved capability to restore old photos from multiple defects. The proposed method outperforms state-of-the-art methods in terms of visual quality for old photos restoration.
翻訳日:2022-12-11 19:23:27 公開日:2020-04-20
# 畳み込みニューラルネットワークによるアクパワーフローのホットスタート

Hot-Starting the Ac Power Flow with Convolutional Neural Networks ( http://arxiv.org/abs/2004.09342v1 )

ライセンス: Link先を確認
Liangjie Chen and Joseph Euzebe Tate(参考訳) Newton-Raphson (NR) ベースのACPF (ACPF) 問題を解決するための優れた初期条件を確保することは、非常に難しい作業である。 本稿では、DCPF(dc Power Flow)結果と1次元畳み込みニューラルネットワーク(1次元CNN)を用いて、NRベースのACPFモデルの解の繰り返しと時間を減少させる初期バス電圧の大きさと位相値を求める枠組みを提案する。 我々は,負荷要求分布からサンプリングし,サンプル毎にDCPFとACPFの結果を計算することで,1D CNNのトレーニングに使用されるデータセットを生成する。 IEEE 118-bus と \textsc{Pegase} 2869-bus の研究では、それぞれ33.56\% と 30.06\% の解時間を、66.47% と 49.52% の解反復を減らすことが示されている。 1D CNNアーキテクチャと使用されるハイパーパラメータが含まれており、このトピックに関する今後の研究によって拡張することができる。

Obtaining good initial conditions to solve the Newton-Raphson (NR) based ac power flow (ACPF) problem can be a very difficult task. In this paper, we propose a framework to obtain the initial bus voltage magnitude and phase values that decrease the solution iterations and time for the NR based ACPF model, using the dc power flow (DCPF) results and one dimensional convolutional neural networks (1D CNNs). We generate the dataset used to train the 1D CNNs by sampling from a distribution of load demands, and by computing the DCPF and ACPF results for each sample. Experiments on the IEEE 118-bus and \textsc{Pegase} 2869-bus study systems show that we can achieve 33.56\% and 30.06\% reduction in solution time, and 66.47% and 49.52% reduction in solution iterations per case, respectively. We include the 1D CNN architectures and the hyperparameters used, which can be expanded on by the future studies on this topic.
翻訳日:2022-12-11 19:23:05 公開日:2020-04-20
# 深部展開型マルチキャストビームフォーミング

Deep Unfolded Multicast Beamforming ( http://arxiv.org/abs/2004.09345v1 )

ライセンス: Link先を確認
Satoshi Takabe and Tadashi Wadayama(参考訳) マルチキャストビームフォーミングはマルチキャスト通信に有望な技術である。 最大周波問題のようなマルチキャストビームフォーミング問題は一般にNPハードであるため、効率的で強力なビームフォーミング設計アルゴリズムを提供することは重要な問題である。 近年,ビームフォーミング設計のためのディープラーニングに基づくアプローチが提案されている。 ディープニューラルネットワークを用いたこれらのアプローチは、従来の最適化ベースのアルゴリズムと比較して適切なパフォーマンス向上を示すが、ビームフォーミング設計がより要求の多いタスクとなる大規模システムでは、スケーラビリティが新たな問題となる。 本稿では,高スケーラビリティ・高効率の深部展開型トレーニング可能なビームフォーミング設計を提案する。 このアルゴリズムは、投影をベースとした既存のアルゴリズムの再帰的構造を凸集合に拡張し、一定数のトレーニング可能なパラメータを拡張ネットワークに埋め込むことで、スケーラブルで安定したトレーニングプロセスを実現する。 数値計算により,提案アルゴリズムは,深部展開の困難な学習プロセスである教師なし学習を用いることで,収束速度を高速化できることを示す。

Multicast beamforming is a promising technique for multicast communication. Providing an efficient and powerful beamforming design algorithm is a crucial issue because multicast beamforming problems such as a max-min-fair problem are NP-hard in general. Recently, deep learning-based approaches have been proposed for beamforming design. Although these approaches using deep neural networks exhibit reasonable performance gain compared with conventional optimization-based algorithms, their scalability is an emerging problem for large systems in which beamforming design becomes a more demanding task. In this paper, we propose a novel deep unfolded trainable beamforming design with high scalability and efficiency. The algorithm is designed by expanding the recursive structure of an existing algorithm based on projections onto convex sets and embedding a constant number of trainable parameters to the expanded network, which leads to a scalable and stable training process. Numerical results show that the proposed algorithm can accelerate its convergence speed by using unsupervised learning, which is a challenging training process for deep unfolding.
翻訳日:2022-12-11 19:22:41 公開日:2020-04-20
# Sparse aNETTによるディープラーニングによる逆問題の解法

Sparse aNETT for Solving Inverse Problems with Deep Learning ( http://arxiv.org/abs/2004.09565v1 )

ライセンス: Link先を確認
Daniel Obmann, Linh Nguyen, Johannes Schwab, Markus Haltmeier(参考訳) 逆問題を解決するためのスパース再構成フレームワーク(aNETT)を提案する。 線形スパース化変換に基づく既存のスパース再構成技術とは対照的に、非線形スパース化変換として作用するオートエンコーダネットワーク $d \circ e$ を訓練し、エンコーダ係数の$\ell^q$-norm とデータ多様体への距離のペナルティによって形成される学習正規化子によるティホノフ関数を最小化する。 本稿では,オートエンコーダがフォワード演算子とは独立であり,その後,特定のフォワードモデルに適応するように,基礎となるイメージクラスのサンプルセットに基づいてオートエンコーダを訓練する戦略を提案する。 スパースビューCTでは,処理後ネットワーク上でのANETTの実現可能性,堅牢性,一般化能力の向上,安定性が明らかに示された。

We propose a sparse reconstruction framework (aNETT) for solving inverse problems. Opposed to existing sparse reconstruction techniques that are based on linear sparsifying transforms, we train an autoencoder network $D \circ E$ with $E$ acting as a nonlinear sparsifying transform and minimize a Tikhonov functional with learned regularizer formed by the $\ell^q$-norm of the encoder coefficients and a penalty for the distance to the data manifold. We propose a strategy for training an autoencoder based on a sample set of the underlying image class such that the autoencoder is independent of the forward operator and is subsequently adapted to the specific forward model. Numerical results are presented for sparse view CT, which clearly demonstrate the feasibility, robustness and the improved generalization capability and stability of aNETT over post-processing networks.
翻訳日:2022-12-11 19:21:45 公開日:2020-04-20
# 金属アーチファクト削減のためのマルチモーダル情報の組み合わせ:教師なしディープラーニングフレームワーク

Combining multimodal information for Metal Artefact Reduction: An unsupervised deep learning framework ( http://arxiv.org/abs/2004.09321v1 )

ライセンス: Link先を確認
Marta B.M. Ranzini, Irme Groothuis, Kerstin Kl\"aser, M. Jorge Cardoso, Johann Henckel, S\'ebastien Ourselin, Alister Hart, Marc Modat(参考訳) 金属アーチファクト低減(MAR)技術は、臨床画像から金属誘起ノイズを取り除くことを目的としている。 CT(Computerd Tomography)では、教師付きディープラーニングアプローチは、主に合成データに依存するため、有効だが汎用性に制限されている。 磁気共鳴イメージング(MRI)では、MAR特異的な取得においても、感受性アーチファクトを修正する方法がまだ導入されていない。 本研究では,MARに対するマルチモーダルアプローチがCTとMRIの両方を改善すると仮定する。 異なるアーティファクトの外観を考えると、それらの補完的な情報はどちらのモダリティにおいても腐敗したシグナルを補うことができる。 そこで本稿では,マルチモーダルMARのための教師なし深層学習手法を提案する。 マルチモーダル情報の融合を促進するために,局所正規化クロス相関を損失項として用いた。 実験の結果,CTではよりスムーズな修正が望まれ,MRIでは信号回復が促進された。

Metal artefact reduction (MAR) techniques aim at removing metal-induced noise from clinical images. In Computed Tomography (CT), supervised deep learning approaches have been shown effective but limited in generalisability, as they mostly rely on synthetic data. In Magnetic Resonance Imaging (MRI) instead, no method has yet been introduced to correct the susceptibility artefact, still present even in MAR-specific acquisitions. In this work, we hypothesise that a multimodal approach to MAR would improve both CT and MRI. Given their different artefact appearance, their complementary information can compensate for the corrupted signal in either modality. We thus propose an unsupervised deep learning method for multimodal MAR. We introduce the use of Locally Normalised Cross Correlation as a loss term to encourage the fusion of multimodal information. Experiments show that our approach favours a smoother correction in the CT, while promoting signal recovery in the MRI.
翻訳日:2022-12-11 19:15:03 公開日:2020-04-20
# 畳み込みニューラルネットワークによる相関法の改良

Improving correlation method with convolutional neural networks ( http://arxiv.org/abs/2004.09430v1 )

ライセンス: Link先を確認
Dmitriy Goncharov and Rostislav Starikov(参考訳) 本稿では,相関フィルタによる相関応答の分類のための畳み込みニューラルネットワークを提案する。 提案手法は,分類の精度を向上させるとともに,画像クラスやパラメータの不変性を実現する。

We present a convolutional neural network for the classification of correlation responses obtained by correlation filters. The proposed approach can improve the accuracy of classification, as well as achieve invariance to the image classes and parameters.
翻訳日:2022-12-11 19:14:49 公開日:2020-04-20
# 3次元軸索セグメンテーションのための自己監督的特徴抽出

Self-Supervised Feature Extraction for 3D Axon Segmentation ( http://arxiv.org/abs/2004.09629v1 )

ライセンス: Link先を確認
Tzofi Klinghoffer, Peter Morales, Young-Gyun Park, Nicholas Evans, Kwanghun Chung, and Laura J. Brattain(参考訳) 既存の学習に基づく3d脳画像の軸索を自動的に追跡する手法は、しばしば手動で注釈付きセグメンテーションラベルに依存している。 ラベリングは労働集約的なプロセスであり、脳機能を理解するために必要とされる全脳分析には拡張性がない。 本研究では,軸索の管状構造を利用してラベルなしデータから特徴抽出器を構築する自己教師付き補助タスクを提案する。 提案する補助タスクは、3次元畳み込みニューラルネットワーク(cnn)を制約し、入力3次元ボリュームにおける置換スライスの順序を予測する。 この課題を解決することで、3D CNNは、3D U-Netモデルで下流のセグメンテーションに有用な、地平線ラベルなしで機能を学ぶことができる。 我々の知る限りでは、我々のモデルはシールド技術を用いて細胞内解像度で撮影された軸索の自動セグメンテーションを行う最初のモデルである。 単一ニューロンであるJanliaデータセットであるShielD PVGPeデータセットとBigNeuron Projectの両方で,3次元U-Netモデルよりも優れたセグメンテーション性能を示す。

Existing learning-based methods to automatically trace axons in 3D brain imagery often rely on manually annotated segmentation labels. Labeling is a labor-intensive process and is not scalable to whole-brain analysis, which is needed for improved understanding of brain function. We propose a self-supervised auxiliary task that utilizes the tube-like structure of axons to build a feature extractor from unlabeled data. The proposed auxiliary task constrains a 3D convolutional neural network (CNN) to predict the order of permuted slices in an input 3D volume. By solving this task, the 3D CNN is able to learn features without ground-truth labels that are useful for downstream segmentation with the 3D U-Net model. To the best of our knowledge, our model is the first to perform automated segmentation of axons imaged at subcellular resolution with the SHIELD technique. We demonstrate improved segmentation performance over the 3D U-Net model on both the SHIELD PVGPe dataset and the BigNeuron Project, single neuron Janelia dataset.
翻訳日:2022-12-11 19:14:46 公開日:2020-04-20
# 複雑なスケジューリング問題に対する新しいマルチエージェントシステム

A Novel Multi-Agent System for Complex Scheduling Problems ( http://arxiv.org/abs/2004.09312v1 )

ライセンス: Link先を確認
Peter Hillmann, Tobias Uhlig, Gabi Dreo Rodosek, Oliver Rose(参考訳) 複雑なスケジューリング問題は、大量の計算能力と革新的な解法を必要とする。 本研究の目的は,様々な問題領域に適用可能なマルチエージェントシステムの概念と実装である。 独立した専門のエージェントが小さなタスクを処理し、上位のターゲットに到達します。 したがって、生産的な協力を達成するには効果的な調整が必要である。 ロールモデルと分散人工知能は、結果として生じる課題に取り組むために使用される。 提案手法の有効性を示すため,NP-hardスケジューリング問題をシミュレートする。 汎用エージェントベースのフレームワークに加えて,スケジューリング問題に対するシミュレーションに基づく新しい最適化ヒューリスティックを提案する。 2つの最適化アルゴリズムはエージェントを用いて実装されている。 本稿では,レイアウトの複雑さの低減,複雑なシステムの制御の改善,拡張性など,エージェントベースのアプローチの利点を強調する。

Complex scheduling problems require a large amount computation power and innovative solution methods. The objective of this paper is the conception and implementation of a multi-agent system that is applicable in various problem domains. Independent specialized agents handle small tasks, to reach a superordinate target. Effective coordination is therefore required to achieve productive cooperation. Role models and distributed artificial intelligence are employed to tackle the resulting challenges. We simulate a NP-hard scheduling problem to demonstrate the validity of our approach. In addition to the general agent based framework we propose new simulation-based optimization heuristics to given scheduling problems. Two of the described optimization algorithms are implemented using agents. This paper highlights the advantages of the agent-based approach, like the reduction in layout complexity, improved control of complicated systems, and extendability.
翻訳日:2022-12-11 19:14:01 公開日:2020-04-20
# 言語非依存な多言語モデリング

Language-agnostic Multilingual Modeling ( http://arxiv.org/abs/2004.09571v1 )

ライセンス: Link先を確認
Arindrima Datta, Bhuvana Ramabhadran, Jesse Emond, Anjuli Kannan, Brian Roark(参考訳) 多言語自動音声認識(asr)システムは、1つのモデルでデータリッチ言語とデータスカルス言語の合同学習を可能にする。 これにより、言語間でのデータとパラメータの共有が可能になる。 しかし、最先端の多言語モデルは言語情報のエンコーディングを必要とするため、新しい言語に拡張する際の柔軟性や拡張性は低い。 言語に依存しない多言語モデルはこの問題に対処するのに役立ち、また複数の言語が頻繁に使用される多文化社会にも適している。 本稿では,全ての言語を1つの書き体系に変換する言語非依存多言語asrシステムを構築するための新しい手法を提案する。 このように、類似の音響はグラテムの単一の正準ターゲットシーケンスにマッピングされ、モデリングと描画の問題を効果的に分離する。 我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。

Multilingual Automated Speech Recognition (ASR) systems allow for the joint training of data-rich and data-scarce languages in a single model. This enables data and parameter sharing across languages, which is especially beneficial for the data-scarce languages. However, most state-of-the-art multilingual models require the encoding of language information and therefore are not as flexible or scalable when expanding to newer languages. Language-independent multilingual models help to address this issue, and are also better suited for multicultural societies where several languages are frequently used together (but often rendered with different writing systems). In this paper, we propose a new approach to building a language-agnostic multilingual ASR system which transforms all languages to one writing system through a many-to-one transliteration transducer. Thus, similar sounding acoustics are mapped to a single, canonical target sequence of graphemes, effectively separating the modeling and rendering problems. We show with four Indic languages, namely, Hindi, Bengali, Tamil and Kannada, that the language-agnostic multilingual model achieves up to 10% relative reduction in Word Error Rate (WER) over a language-dependent multilingual model.
翻訳日:2022-12-11 19:13:22 公開日:2020-04-20
# 動的グラフ畳み込みを用いた意味対応学習による顔行動単位強度推定

Facial Action Unit Intensity Estimation via Semantic Correspondence Learning with Dynamic Graph Convolution ( http://arxiv.org/abs/2004.09681v1 )

ライセンス: Link先を確認
Yingruo Fan, Jacqueline C.K. Lam, Victor O.K. Li(参考訳) 顔の表情が微妙に変化するため,顔動作単位(AU)の強度推定は困難である。 従来のアプローチは主にAU間の共起関係をモデル化するための確率モデルや事前定義された規則に依存しており、限定的な一般化をもたらす。 対照的に,機能マップ間の意味対応を確立することによって,ausの潜在関係を自動的に学習する新しい学習フレームワークを提案する。 熱マップ回帰に基づくネットワークでは、特徴写像はAU強度と位置に関連する豊富な意味情報を保存する。 さらに、AU共起パターンは、各チャンネルがAUの特定の視覚パターンを符号化する一連の特徴チャネルを活性化することにより反映することができる。 これはAU強度レベルの共起関係を暗黙的に表す特徴チャネル間の相関をモデル化する動機となっている。 具体的には,深層および低分解能特徴マップからの対応を動的に計算する意味対応畳み込み(scc)モジュールを導入し,特徴の識別性を高める。 実験結果は,2つのベンチマークデータセットにおいて,提案手法の有効性と優れた性能を示す。

The intensity estimation of facial action units (AUs) is challenging due to subtle changes in the person's facial appearance. Previous approaches mainly rely on probabilistic models or predefined rules for modeling co-occurrence relationships among AUs, leading to limited generalization. In contrast, we present a new learning framework that automatically learns the latent relationships of AUs via establishing semantic correspondences between feature maps. In the heatmap regression-based network, feature maps preserve rich semantic information associated with AU intensities and locations. Moreover, the AU co-occurring pattern can be reflected by activating a set of feature channels, where each channel encodes a specific visual pattern of AU. This motivates us to model the correlation among feature channels, which implicitly represents the co-occurrence relationship of AU intensity levels. Specifically, we introduce a semantic correspondence convolution (SCC) module to dynamically compute the correspondences from deep and low resolution feature maps, and thus enhancing the discriminability of features. The experimental results demonstrate the effectiveness and the superior performance of our method on two benchmark datasets.
翻訳日:2022-12-11 19:06:31 公開日:2020-04-20
# リカレントニューラルネットワークを用いた大腸内視鏡追跡のためのコロニー形状推定法

Colon Shape Estimation Method for Colonoscope Tracking using Recurrent Neural Networks ( http://arxiv.org/abs/2004.13629v1 )

ライセンス: Link先を確認
Masahiro Oda, Holger R. Roth, Takayuki Kitasaka, Kazuhiro Furukawa, Ryoji Miyahara, Yoshiki Hirooka, Hidemi Goto, Nassir Navab, Kensaku Mori(参考訳) 大腸内視鏡挿入により変形が生じた大腸の形状をリカレントニューラルネットワーク(RNN)を用いて推定する方法を提案する。 大腸穿孔などの合併症を軽減するには,大腸内視鏡追跡やポリープ位置までナビゲートするナビゲーションシステムが必要である。 横行結腸とシグモイド結腸では,これらの領域が大腸内視鏡挿入時に大きく変形するため,前向きの追跡法により大きな追跡誤差が生じた。 大腸の変形は追跡過程において考慮すべきである。 rnnを用いた大腸変形推定法を提案し,大腸への挿入時に電磁センサから大腸形状を求める。 大腸内視鏡形状から位置、方向、挿入長を求める。 また,その形状から,大腸内視鏡上の2点の位置的および方向的関係を表す相対的特徴を計算する。 長期記憶は, 大腸内視鏡像の特徴の過去の推移から, 現在の大腸形状を推定するために用いられる。 ファントム実験では結腸形状推定を行い,大腸内視鏡挿入時の結腸形状を12.39mm推定誤差で正確に推定した。

We propose an estimation method using a recurrent neural network (RNN) of the colon's shape where deformation was occurred by a colonoscope insertion. Colonoscope tracking or a navigation system that navigates physician to polyp positions is needed to reduce such complications as colon perforation. Previous tracking methods caused large tracking errors at the transverse and sigmoid colons because these areas largely deform during colonoscope insertion. Colon deformation should be taken into account in tracking processes. We propose a colon deformation estimation method using RNN and obtain the colonoscope shape from electromagnetic sensors during its insertion into the colon. This method obtains positional, directional, and an insertion length from the colonoscope shape. From its shape, we also calculate the relative features that represent the positional and directional relationships between two points on a colonoscope. Long short-term memory is used to estimate the current colon shape from the past transition of the features of the colonoscope shape. We performed colon shape estimation in a phantom study and correctly estimated the colon shapes during colonoscope insertion with 12.39 (mm) estimation error.
翻訳日:2022-12-11 19:06:14 公開日:2020-04-20
# パナセアの脅威情報とアクティブディフェンスプラットフォーム

The Panacea Threat Intelligence and Active Defense Platform ( http://arxiv.org/abs/2004.09662v1 )

ライセンス: Link先を確認
Adam Dalton, Ehsan Aghaei, Ehab Al-Shaer, Archna Bhatia, Esteban Castillo, Zhuo Cheng, Sreekar Dhaduvai, Qi Duan, Md Mazharul Islam, Younes Karimi, Amir Masoumzadeh, Brodie Mather, Sashank Santhanam, Samira Shaikh, Tomek Strzalkowski, Bonnie J. Dorr(参考訳) パナセア(Panacea)は、自然言語処理(NLP)コンポーネントをサポートし、社会工学的攻撃に対する積極的な防御を行うシステムである。 AskやFraming Detection, Named Entity Recognition, Dialogue Engineering, Stylometryなど,人間の言語技術のパイプラインをデプロイしています。 panaceaは現代的なメッセージフォーマットをプラグインアーキテクチャを通じて処理し、メッセージ分析、知識表現、対話生成といった革新的なアプローチに対応する。 パナセアシステムの新規性は、NLPをサイバー防衛に使用し、攻撃者がボットを使用して攻撃者に帰属する証拠を抽出し、攻撃者の時間と資源を浪費することである。

We describe Panacea, a system that supports natural language processing (NLP) components for active defenses against social engineering attacks. We deploy a pipeline of human language technology, including Ask and Framing Detection, Named Entity Recognition, Dialogue Engineering, and Stylometry. Panacea processes modern message formats through a plug-in architecture to accommodate innovative approaches for message analysis, knowledge representation and dialogue generation. The novelty of the Panacea system is that uses NLP for cyber defense and engages the attacker using bots to elicit evidence to attribute to the attacker and to waste the attacker's time and resources.
翻訳日:2022-12-11 19:05:32 公開日:2020-04-20
# 公平さと解釈性のためのゲーム

Games for Fairness and Interpretability ( http://arxiv.org/abs/2004.09551v1 )

ライセンス: Link先を確認
Eric Chu, Nabeel Gillani, Sneha Priscilla Makini(参考訳) 機械学習(ML)システムがよりユビキタスになるにつれて、基盤となるアルゴリズムの公平かつ公平な適用が最重要となる。 これを実現する1つの方法は、ml開発者がより公平なアルゴリズムを設計、開発するためのパブリックプレッシャーを積極的に育成することであり、また、アルゴリズム開発者の関心と目的を同時に提供しながらパブリックプレッシャーを育む1つの方法は、ゲームプレイであると主張する。 フェアネスと解釈可能性のためのゲーム」という新しい種類のゲームを提案し、より公平で公平なアルゴリズムを生み出すためのインセンティブに整合したアプローチの例を示す。 公平さと解釈性のためのゲームは、大衆にアピールする注意深く設計されたゲームである。 彼らは本質的に、機械学習モデルがどのように機能するかを洞察し、究極的には研究者や開発者がアルゴリズムを改善するのに役立つデータを生み出している。 ゲームの可能性、公平さと解釈可能性に対する影響、アルゴリズム開発者と一般大衆の間のギャップを狭めることによって、彼らの増殖がいかに創造的なポジティブなパブリックプレッシャーをもたらすか、そして機械学習コミュニティが彼らからメリットを享受できる理由について紹介する。

As Machine Learning (ML) systems becomes more ubiquitous, ensuring the fair and equitable application of their underlying algorithms is of paramount importance. We argue that one way to achieve this is to proactively cultivate public pressure for ML developers to design and develop fairer algorithms -- and that one way to cultivate public pressure while simultaneously serving the interests and objectives of algorithm developers is through gameplay. We propose a new class of games -- ``games for fairness and interpretability'' -- as one example of an incentive-aligned approach for producing fairer and more equitable algorithms. Games for fairness and interpretability are carefully-designed games with mass appeal. They are inherently engaging, provide insights into how machine learning models work, and ultimately produce data that helps researchers and developers improve their algorithms. We highlight several possible examples of games, their implications for fairness and interpretability, how their proliferation could creative positive public pressure by narrowing the gap between algorithm developers and the general public, and why the machine learning community could benefit from them.
翻訳日:2022-12-11 19:05:19 公開日:2020-04-20
# ホログラフィー推定と注意学習によるDeghostingを用いた深部露光融合

Deep Exposure Fusion with Deghosting via Homography Estimation and Attention Learning ( http://arxiv.org/abs/2004.09089v1 )

ライセンス: Link先を確認
Sheng-Yeh Chen and Yung-Yu Chuang(参考訳) 現代のカメラはダイナミックレンジが限られており、単一の露光で飽和領域や暗い領域の画像を撮影することが多い。 この問題は、複数の画像を異なる露光で撮影することで解決できるが、露光融合法はゴーストやカメラの動きや移動物体による詳細な損失に対処する必要がある。 本稿では露光融合のための深層ネットワークを提案する。 ゴースト問題を減らすために、ネットワークは2つの画像と、露出不足の画像と過剰に露出した画像しか撮らない。 本ネットワークは,カメラ動作補償のためのホモグラフィ推定と,残差不一致と動画素の修正のための注意機構,および他の残差アーティファクトを緩和するための逆学習を統合した。 携帯端末を用いた実世界の写真実験により,暗黒領域と明るい領域の鮮やかな色調を忠実に再現し,高品質な画像を生成することができることを示した。

Modern cameras have limited dynamic ranges and often produce images with saturated or dark regions using a single exposure. Although the problem could be addressed by taking multiple images with different exposures, exposure fusion methods need to deal with ghosting artifacts and detail loss caused by camera motion or moving objects. This paper proposes a deep network for exposure fusion. For reducing the potential ghosting problem, our network only takes two images, an underexposed image and an overexposed one. Our network integrates together homography estimation for compensating camera motion, attention mechanism for correcting remaining misalignment and moving pixels, and adversarial learning for alleviating other remaining artifacts. Experiments on real-world photos taken using handheld mobile phones show that the proposed method can generate high-quality images with faithful detail and vivid color rendition in both dark and bright areas.
翻訳日:2022-12-11 19:03:43 公開日:2020-04-20
# 複数の照明構成による複雑物体視覚検査

Complex-Object Visual Inspection via Multiple Lighting Configurations ( http://arxiv.org/abs/2004.09374v1 )

ライセンス: Link先を確認
Maya Aghaei, Matteo Bustreo, Pietro Morerio, Nicolo Carissimi, Alessio Del Bue, Vittorio Murino(参考訳) 視覚自動検査システムの設計は通常2段階で行われる。 第1段階は、検査対象表面の欠陥を最も効果的に強調するために最も適したハードウェア設定を選択することであるが、第2段階は、収集されたデータが提供するポテンシャルを利用するアルゴリズムソリューションの開発に関するものである。 本稿では,まず,拡散,暗視野,前面照明技術に類似した4つの照明配置を組み込んだ新しい照明設定を提案する。 第2に,提案するセットアップをトレーニングフェーズのみに展開することで得られた貢献を分析し,すでに開発されている視覚検査システムをユーザサイトや評価フェーズで変更できないようなシナリオを模倣する。 本報告では, 複合物体の有効照明に対する提案手法の適合性について述べるとともに, 事前判定が不可能な表面特性を持つ製造品として定義する。 さらに,複数のライト構成の可利用性の重要性と,評価段階におけるシステム設計の変更を必要とせず,システム全体の性能が向上する自然増進効果について考察した。

The design of an automatic visual inspection system is usually performed in two stages. While the first stage consists in selecting the most suitable hardware setup for highlighting most effectively the defects on the surface to be inspected, the second stage concerns the development of algorithmic solutions to exploit the potentials offered by the collected data. In this paper, first, we present a novel illumination setup embedding four illumination configurations to resemble diffused, dark-field, and front lighting techniques. Second, we analyze the contributions brought by deploying the proposed setup in training phase only - mimicking the scenario in which an already developed visual inspection system cannot be modified on the customer site - and in evaluation phase. Along with an exhaustive set of experiments, in this paper, we demonstrate the suitability of the proposed setup for effective illumination of complex-objects, defined as manufactured items with variable surface characteristics that cannot be determined a priori. Moreover, we discuss the importance of multiple light configurations availability during training and their natural boosting effect which, without the need to modify the system design in evaluation phase, lead to improvements in the overall system performance.
翻訳日:2022-12-11 18:57:25 公開日:2020-04-20
# 逆領域適応のためのクラス分布アライメント

Class Distribution Alignment for Adversarial Domain Adaptation ( http://arxiv.org/abs/2004.09403v1 )

ライセンス: Link先を確認
Wanqi Yang, Tong Ling, Chengmei Yang, Lei Wang, Yinghuan Shi, Luping Zhou, Ming Yang(参考訳) 既存の非教師なし領域適応法の多くは、主にソースとターゲットドメイン間のサンプルの限界分布の整列に焦点を当てている。 この設定は、ドメインギャップの減少に悪影響を及ぼす可能性のある2つのドメイン間のクラス分布情報を十分に考慮していない。 この問題に対処するために,両領域間のサンプルのクラス分布を明示的に整合させるCADIT (Conditional ADversarial Image Translation) を提案する。 識別構造保存損失と連立対向生成損失を統合している。 前者は画像翻訳の過程全体において望ましくないラベルフリッピングを効果的に防止し、後者は画像とラベルのジョイント分布アライメントを維持する。 さらに,本手法では,両領域における分類器訓練を支援するために,適応前後の対象領域画像の分類を行う。 数値、顔、シーン、office31を含む複数のベンチマークデータセットで広範な実験を行い、最先端の手法と比較して、対象領域において優れた分類が達成されたことを示した。 また、定性的な結果と定量的結果の両方が、クラス分布の整合性はドメイン適応を改善することができるという我々の動機を支持した。

Most existing unsupervised domain adaptation methods mainly focused on aligning the marginal distributions of samples between the source and target domains. This setting does not sufficiently consider the class distribution information between the two domains, which could adversely affect the reduction of domain gap. To address this issue, we propose a novel approach called Conditional ADversarial Image Translation (CADIT) to explicitly align the class distributions given samples between the two domains. It integrates a discriminative structure-preserving loss and a joint adversarial generation loss. The former effectively prevents undesired label-flipping during the whole process of image translation, while the latter maintains the joint distribution alignment of images and labels. Furthermore, our approach enforces the classification consistence of target domain images before and after adaptation to aid the classifier training in both domains. Extensive experiments were conducted on multiple benchmark datasets including Digits, Faces, Scenes and Office31, showing that our approach achieved superior classification in the target domain when compared to the state-of-the-art methods. Also, both qualitative and quantitative results well supported our motivation that aligning the class distributions can indeed improve domain adaptation.
翻訳日:2022-12-11 18:57:07 公開日:2020-04-20
# 形状指向畳み込みニューラルネットワークによる点雲解析

Shape-Oriented Convolution Neural Network for Point Cloud Analysis ( http://arxiv.org/abs/2004.09411v1 )

ライセンス: Link先を確認
Chaoyi Zhang, Yang Song, Lina Yao, Weidong Cai(参考訳) ポイントクラウドは3次元幾何学情報符号化に採用されている主要なデータ構造である。 画像やビデオなどの従来の視覚データとは異なり、これらの不規則点は3Dオブジェクトの複雑な形状の特徴を記述しており、形状の特徴学習がポイントクラウド分析の重要な要素となっている。 この目的のために,ShapeConvと呼ばれる形状指向のメッセージパッシング方式を提案し,各近傍で形成される形状の表現学習に着目した。 このような形状内関係学習にもかかわらず、ShapeConvは、局所的な形状間の長距離依存関係をキャプチャすることで、形状間関係からの文脈効果を組み込むように設計されている。 この形状指向演算子は、ポイントクラウド分析のために開発された形状指向畳み込みニューラルネットワーク(SOCNN)という階層的な学習アーキテクチャに積み重ねられる。 ポイントクラウドの分類と部分セグメンテーションのタスクにおいて、その重要性を評価するために広範な実験が行われている。

Point cloud is a principal data structure adopted for 3D geometric information encoding. Unlike other conventional visual data, such as images and videos, these irregular points describe the complex shape features of 3D objects, which makes shape feature learning an essential component of point cloud analysis. To this end, a shape-oriented message passing scheme dubbed ShapeConv is proposed to focus on the representation learning of the underlying shape formed by each local neighboring point. Despite this intra-shape relationship learning, ShapeConv is also designed to incorporate the contextual effects from the inter-shape relationship through capturing the long-ranged dependencies between local underlying shapes. This shape-oriented operator is stacked into our hierarchical learning architecture, namely Shape-Oriented Convolutional Neural Network (SOCNN), developed for point cloud analysis. Extensive experiments have been performed to evaluate its significance in the tasks of point cloud classification and part segmentation.
翻訳日:2022-12-11 18:56:47 公開日:2020-04-20
# グラフとしての文字:空間グラフ畳み込みネットワークによるオンライン手書き漢字認識

Characters as Graphs: Recognizing Online Handwritten Chinese Characters via Spatial Graph Convolutional Network ( http://arxiv.org/abs/2004.09412v1 )

ライセンス: Link先を確認
Ji Gan, Weiqiang Wang, Ke Lu(参考訳) 中国語は世界で最も広く使われている言語の一つだが、オンライン手書き漢字認識(OLHCCR)は依然として難しい。 漢字を認識するためには、抽出した特徴画像に2d畳み込みニューラルネットワーク(2d-cnn)を、時系列特徴にrecurrent neural network(rnn)または1d-cnnを使用することが一般的である。 ここでは,文字を静止画像または時間軌道として見る代わりに,文字を幾何学グラフとして表現し,空間構造と時間順序の両方を保持することを提案する。 そこで我々は,これらの文字グラフを初めて効果的に分類する新しい空間グラフ畳み込みネットワーク(sgcn)を提案する。 特に,sgcnは,空間グラフ畳み込みによって局所的な近傍情報を取り込んで,階層的残差構造を持つ大域的形状特性をさらに学習する。 IAHCC-UCAS2016, ICDAR-2013, UNIPENデータセットの実験は、SGCNが文字認識の最先端手法と同等の認識性能を達成できることを示した。

Chinese is one of the most widely used languages in the world, yet online handwritten Chinese character recognition (OLHCCR) remains challenging. To recognize Chinese characters, one popular choice is to adopt the 2D convolutional neural network (2D-CNN) on the extracted feature images, and another one is to employ the recurrent neural network (RNN) or 1D-CNN on the time-series features. Instead of viewing characters as either static images or temporal trajectories, here we propose to represent characters as geometric graphs, retaining both spatial structures and temporal orders. Accordingly, we propose a novel spatial graph convolution network (SGCN) to effectively classify those character graphs for the first time. Specifically, our SGCN incorporates the local neighbourhood information via spatial graph convolutions and further learns the global shape properties with a hierarchical residual structure. Experiments on IAHCC-UCAS2016, ICDAR-2013, and UNIPEN datasets demonstrate that the SGCN can achieve comparable recognition performance with the state-of-the-art methods for character recognition.
翻訳日:2022-12-11 18:56:31 公開日:2020-04-20
# 不正確なアノテーションを用いた角膜共焦点顕微鏡画像における神経線維分節に対する空間拘束型深部畳み込みニューラルネットワーク

A Spatially Constrained Deep Convolutional Neural Network for Nerve Fiber Segmentation in Corneal Confocal Microscopic Images using Inaccurate Annotations ( http://arxiv.org/abs/2004.09443v1 )

ライセンス: Link先を確認
Ning Zhang, Susan Francis, Rayaz Malik, Xin Chen(参考訳) セマンティックイメージセグメンテーションは、医用画像解析において最も重要な課題の1つである。 最先端のディープラーニングの手法の多くは、モデルトレーニングの正確なアノテーションを必要とする。 しかし、特に医学的応用において正確なアノテーションを得ることは困難である。 本稿では,不正確なアノテートラベルを用いたスムーズでロバストな画像分割を実現するために,空間制約付き深部畳み込みニューラルネットワーク(DCNN)を提案する。 提案手法では,DCNNモデル学習プロセスを用いて,画像分割をグラフ最適化問題として定式化する。 最適化されるコスト関数は、クロスエントロピー測定によって計算される一項項と、局所的なラベルの一貫性を強制する対項からなる。 提案手法は神経線維分節に対する角膜共焦点顕微鏡(CCM)画像に基づいて評価され,正確なアノテーションを得るのは非常に困難である。 合成データセットの定量的結果と実データセットの定性評価の両方に基づいて,トレーニング用不正確なラベルを伴っても,高品質なセグメンテーション結果を生成する上で優れた性能を示した。

Semantic image segmentation is one of the most important tasks in medical image analysis. Most state-of-the-art deep learning methods require a large number of accurately annotated examples for model training. However, accurate annotation is difficult to obtain especially in medical applications. In this paper, we propose a spatially constrained deep convolutional neural network (DCNN) to achieve smooth and robust image segmentation using inaccurately annotated labels for training. In our proposed method, image segmentation is formulated as a graph optimization problem that is solved by a DCNN model learning process. The cost function to be optimized consists of a unary term that is calculated by cross entropy measurement and a pairwise term that is based on enforcing a local label consistency. The proposed method has been evaluated based on corneal confocal microscopic (CCM) images for nerve fiber segmentation, where accurate annotations are extremely difficult to be obtained. Based on both the quantitative result of a synthetic dataset and qualitative assessment of a real dataset, the proposed method has achieved superior performance in producing high quality segmentation results even with inaccurate labels for training.
翻訳日:2022-12-11 18:56:10 公開日:2020-04-20
# AANet: 効率的なステレオマッチングのための適応集約ネットワーク

AANet: Adaptive Aggregation Network for Efficient Stereo Matching ( http://arxiv.org/abs/2004.09548v1 )

ライセンス: Link先を確認
Haofei Xu, Juyong Zhang(参考訳) 学習ベースのステレオマッチングアルゴリズムによる顕著な進歩にもかかわらず、重要な課題は未解決のままである。 現在の最先端のステレオモデルは、主に高価な3d畳み込み、キュービック計算の複雑さ、高メモリ消費により、現実世界のアプリケーションでデプロイするのに非常に費用がかかる。 本稿では,一般的な3Dコンボリューションを完全に置き換えて,高速な推論速度を実現することを目的としている。 そこで本研究では,まず,不連続なエッジフィッチング問題を軽減するため,スケール内コスト集約法を提案する。 さらに,従来のクロススケールコスト集約アルゴリズムをニューラルネットワーク層に近似して,大きなテクスチャレス領域を扱う。 どちらのモジュールもシンプルで軽量で補完的であり、コスト集約のための効果的で効率的なアーキテクチャとなる。 これら2つのモジュールによって、既存のトップパフォーマンスモデル(GC-Netより411\times$、PSMNetより4\times$、GA-Netより38\times$など)を大幅にスピードアップするだけでなく、高速ステレオモデル(StereoNetなど)のパフォーマンスも向上する。 また,62msで実行中のScene FlowとKITTIデータセットの競合性も達成し,提案手法の汎用性と高効率性を実証した。 私たちのフレームワークはhttps://github.com/haofeixu/aanetで利用可能です。

Despite the remarkable progress made by learning based stereo matching algorithms, one key challenge remains unsolved. Current state-of-the-art stereo models are mostly based on costly 3D convolutions, the cubic computational complexity and high memory consumption make it quite expensive to deploy in real-world applications. In this paper, we aim at completely replacing the commonly used 3D convolutions to achieve fast inference speed while maintaining comparable accuracy. To this end, we first propose a sparse points based intra-scale cost aggregation method to alleviate the well-known edge-fattening issue at disparity discontinuities. Further, we approximate traditional cross-scale cost aggregation algorithm with neural network layers to handle large textureless regions. Both modules are simple, lightweight, and complementary, leading to an effective and efficient architecture for cost aggregation. With these two modules, we can not only significantly speed up existing top-performing models (e.g., $41\times$ than GC-Net, $4\times$ than PSMNet and $38\times$ than GA-Net), but also improve the performance of fast stereo models (e.g., StereoNet). We also achieve competitive results on Scene Flow and KITTI datasets while running at 62ms, demonstrating the versatility and high efficiency of the proposed method. Our full framework is available at https://github.com/haofeixu/aanet .
翻訳日:2022-12-11 18:55:24 公開日:2020-04-20
# カヌースプリントビデオ解析におけるマスクR-CNNを用いた水線検出

Utilizing Mask R-CNN for Waterline Detection in Canoe Sprint Video Analysis ( http://arxiv.org/abs/2004.09573v1 )

ライセンス: Link先を確認
Marie-Sophie von Braun and Patrick Frenzel and Christian K\"ading and Mirco Fuchs(参考訳) カヌースプリントトレーニングで記録された画像中の水線を決定することは、運動選手のパフォーマンスを評価するための運動パラメータ分析の重要な要素である。 本稿では,水線の自動検出手法を提案する。 まず,事前学習したMask R-CNNを用いて,カヌーセグメンテーションの伝達学習を行った。 第2に,セグメントの輪郭から水線を推定する多段階アプローチを開発した。 2つの線形回帰段階とカヌー部分の体系的な選択からなる。 次に,水線のパラメータ化をさらなる評価の基盤として導入した。 次に,いくつかの専門家による調査を行い,地下水の真理を推定した。 これは、個々の専門家の注釈から引き出された平均的な水線を含むだけでなく、より重要なことは、個々の結果の不確実性の尺度である。 最後に, 予測された水線が専門家の注釈に従っているかという質問に対して, 提案手法を評価した。 本手法は高い性能を示し,カヌースプリントにおける自動ビデオ解析の分野における新たな応用機会を提供する。

Determining a waterline in images recorded in canoe sprint training is an important component for the kinematic parameter analysis to assess an athlete's performance. Here, we propose an approach for the automated waterline detection. First, we utilized a pre-trained Mask R-CNN by means of transfer learning for canoe segmentation. Second, we developed a multi-stage approach to estimate a waterline from the outline of the segments. It consists of two linear regression stages and the systematic selection of canoe parts. We then introduced a parameterization of the waterline as a basis for further evaluations. Next, we conducted a study among several experts to estimate the ground truth waterlines. This not only included an average waterline drawn from the individual experts annotations but, more importantly, a measure for the uncertainty between individual results. Finally, we assessed our method with respect to the question whether the predicted waterlines are in accordance with the experts annotations. Our method demonstrated a high performance and provides opportunities for new applications in the field of automated video analysis in canoe sprint.
翻訳日:2022-12-11 18:54:57 公開日:2020-04-20
# n-Step Bootstrappingを用いた深部Q-Learningを用いたカメラネットワークにおける目標追跡のためのインテリジェントクエリ

Intelligent Querying for Target Tracking in Camera Networks using Deep Q-Learning with n-Step Bootstrapping ( http://arxiv.org/abs/2004.09632v1 )

ライセンス: Link先を確認
Anil Sharma, Saket Anand, and Sanjit K. Kaul(参考訳) 監視カメラネットワークは、ネットワーク全体のターゲット追跡に基づいてハイレベルな推論と予測を行うことができる様々なビジュアル分析アプリケーションにとって有用なインフラである。 多くのマルチカメラ追跡作業は、ターゲットを追跡するためにターゲットの再識別と軌道関連の問題に焦点を当てている。 しかし、カメラネットワークは膨大なビデオデータを生成することができるため、再同定や軌道関連クエリを行うための非効率なスキームは、非常に大きな計算要件を負う可能性がある。 本稿では,マルチカメラ追跡環境における再識別クエリのインテリジェントスケジューリングの問題に対処する。 この目的のために、カメラネットワークにおける目標追跡問題をmdpとして定式化し、再識別クエリを行うカメラを選択する強化学習ベースのポリシーを学習する。 提案手法は,カメラネットワークトポロジの知識を前提とせず,その結果を暗黙的に学習する。 また、このようなポリシーをデータから直接学習できることも示している。 NLPR MCTとDuke MTMCマルチカメラのマルチターゲット追跡ベンチマークを用いて,提案手法がクエリ回数を大幅に削減することを示す。

Surveillance camera networks are a useful infrastructure for various visual analytics applications, where high-level inferences and predictions could be made based on target tracking across the network. Most multi-camera tracking works focus on target re-identification and trajectory association problems to track the target. However, since camera networks can generate enormous amount of video data, inefficient schemes for making re-identification or trajectory association queries can incur prohibitively large computational requirements. In this paper, we address the problem of intelligent scheduling of re-identification queries in a multi-camera tracking setting. To this end, we formulate the target tracking problem in a camera network as an MDP and learn a reinforcement learning based policy that selects a camera for making a re-identification query. The proposed approach to camera selection does not assume the knowledge of the camera network topology but the resulting policy implicitly learns it. We have also shown that such a policy can be learnt directly from data. Using the NLPR MCT and the Duke MTMC multi-camera multi-target tracking benchmarks, we empirically show that the proposed approach substantially reduces the number of frames queried.
翻訳日:2022-12-11 18:54:44 公開日:2020-04-20
# 形状推定ネットワークに基づく大腸内視鏡追跡法

Colonoscope tracking method based on shape estimation network ( http://arxiv.org/abs/2004.09056v1 )

ライセンス: Link先を確認
Masahiro Oda, Holger R. Roth, Takayuki Kitasaka, Kazuhiro Furukawa, Ryoji Miyahara, Yoshiki Hirooka, Nassir Navab, Kensaku Mori(参考訳) 本稿では,大腸形状推定手法を用いた大腸内視鏡追跡手法を提案する。 CT大腸造影は低侵襲の大腸診断法として用いられる。 大腸ポリープや早期癌が発見された場合、大腸内視鏡検査で摘出される。 大腸内視鏡検査では,大腸内を走る内視鏡の理解は困難である。 ポリープを見下ろすには大腸内視鏡ナビゲーションシステムが必要である。 ナビゲーションシステムのための大腸内視鏡追跡手法を提案する。 術前の大腸内視鏡検査では内視鏡挿入時の大腸の変形を考慮せず,大きな追跡誤差を生じた。 大腸内視鏡挿入時に変形した大腸形状を推定する形状推定ネットワーク(sen)を用いた。 SENは長い短期記憶(LSTM)層を含むニューラルネットワークである。 臨床状況に適した大腸形状推定を行うために,医師の大腸鏡手術中に得られたデータを用いてsenを訓練した。 提案手法はsenの推定結果を用いて大腸先端位置から大腸の位置へのマッピングを行い,提案手法をファントム実験で評価した。 上行結腸,横行結腸,下行結腸でナビゲーションを行うには,提案手法の追跡誤差が十分小さいことが確認された。

This paper presents a colonoscope tracking method utilizing a colon shape estimation method. CT colonography is used as a less-invasive colon diagnosis method. If colonic polyps or early-stage cancers are found, they are removed in a colonoscopic examination. In the colonoscopic examination, understanding where the colonoscope running in the colon is difficult. A colonoscope navigation system is necessary to reduce overlooking of polyps. We propose a colonoscope tracking method for navigation systems. Previous colonoscope tracking methods caused large tracking errors because they do not consider deformations of the colon during colonoscope insertions. We utilize the shape estimation network (SEN), which estimates deformed colon shape during colonoscope insertions. The SEN is a neural network containing long short-term memory (LSTM) layer. To perform colon shape estimation suitable to the real clinical situation, we trained the SEN using data obtained during colonoscope operations of physicians. The proposed tracking method performs mapping of the colonoscope tip position to a position in the colon using estimation results of the SEN. We evaluated the proposed method in a phantom study. We confirmed that tracking errors of the proposed method was enough small to perform navigation in the ascending, transverse, and descending colons.
翻訳日:2022-12-11 18:48:46 公開日:2020-04-20
# グラフ注意畳み込みニューラルネットワークを用いた空中LiDAR点雲分類

Airborne LiDAR Point Cloud Classification with Graph Attention Convolution Neural Network ( http://arxiv.org/abs/2004.09057v1 )

ライセンス: Link先を確認
Congcong Wen, Xiang Li, Xiaojing Yao, Ling Peng, Tianhe Chi(参考訳) 都市計画、地形マッピング、環境モニタリング、電力線検出などの分野において、大規模で高精度な地上情報を取得する能力により、lidar(airborne light detection and ranging)はますます重要な役割を担っている。 ポイントクラウド分類を実現するために、以前の研究では、ポイントネットのようなアーキテクチャに基づいて生のポイントクラウドを直接処理できるポイントクラウドディープラーニングモデルを提案した。 また、近年の研究では、点雲固有のトポロジに基づくグラフ畳み込みニューラルネットワークが提案されている。 しかし、上記のクラウド深層学習モデルは、局所的な幾何学的構造の探索にのみ注意を払うが、すべての点におけるグローバルな文脈的関係を無視する。 本稿では,航空機LiDARにより得られた非構造的3D点雲の分類に直接適用可能な,グラフアテンション畳み込みニューラルネットワーク(GACNN)を提案する。 具体的には,まず,グローバルコンテキスト情報と局所構造機能を組み込んだグラフアテンション畳み込みモジュールを導入する。 提案するグラフアテンション畳み込みモジュールに基づいて,gacnnと呼ばれるエンド・ツー・エンドエンコーダ・デコーダネットワークを更に設計し,ポイント・クラウドのマルチスケールな特徴を捉えることにより,より高精度な空中ポイント・クラウド分類を実現する。 ISPRS 3Dラベリングデータセットの実験により,提案モデルが平均F1スコア(71.5\%)と全精度83.2\%(83.2\%)で新たな最先端性能を達成することが示された。 さらに、2019 data fusion contestデータセットにおいて、他の一般的なポイントクラウドディープラーニングモデルとの比較による実験が、提案モデルの好ましい一般化能力を示している。

Airborne light detection and ranging (LiDAR) plays an increasingly significant role in urban planning, topographic mapping, environmental monitoring, power line detection and other fields thanks to its capability to quickly acquire large-scale and high-precision ground information. To achieve point cloud classification, previous studies proposed point cloud deep learning models that can directly process raw point clouds based on PointNet-like architectures. And some recent works proposed graph convolution neural network based on the inherent topology of point clouds. However, the above point cloud deep learning models only pay attention to exploring local geometric structures, yet ignore global contextual relationships among all points. In this paper, we present a graph attention convolution neural network (GACNN) that can be directly applied to the classification of unstructured 3D point clouds obtained by airborne LiDAR. Specifically, we first introduce a graph attention convolution module that incorporates global contextual information and local structural features. Based on the proposed graph attention convolution module, we further design an end-to-end encoder-decoder network, named GACNN, to capture multiscale features of the point clouds and therefore enable more accurate airborne point cloud classification. Experiments on the ISPRS 3D labeling dataset show that the proposed model achieves a new state-of-the-art performance in terms of average F1 score (71.5\%) and a satisfying overall accuracy (83.2\%). Additionally, experiments further conducted on the 2019 Data Fusion Contest Dataset by comparing with other prevalent point cloud deep learning models demonstrate the favorable generalization capability of the proposed model.
翻訳日:2022-12-11 18:48:31 公開日:2020-04-20
# 化粧品用化粧品

Cosmetic-Aware Makeup Cleanser ( http://arxiv.org/abs/2004.09147v1 )

ライセンス: Link先を確認
Yi Li, Huaibo Huang, Junchi Yu, Ran He, Tieniu Tan(参考訳) 顔認証は、一対の顔画像が同一人物かどうかを判定することを目的としている。 近年の研究では、顔の化粧が検証性能に及ぼす影響が明らかにされている。 深層生成モデルの急速な発展に伴い,異なるポーズや表現の下で顔の化粧を除去し,生成による検証を実現する意味認識型化粧清浄器 (SAMC) を提案する。 直感的なところは、化粧は複数の化粧品の複合効果であり、異なる化粧領域に調整された治療を課すべきであるという事実である。 この目的のために,SAMCにおける教師なしおよび教師なしのセマンティック・アウェアラーニング戦略を提示する。 画像レベルでは、未監視のアテンションモジュールをジェネレータと共同で学習し、化粧品領域を特定し、次数を推定する。 特徴レベルでは、学習段階にのみ顔解析を行い、補体を提供し、優れた合成品質を追求するために局所的なテクスチャ損失を設計する。 4つのメークアップ関連データセットの実験結果から,SAMCは256*256の解像度で魅力的なデメイクアップ出力を生成するだけでなく,画像生成によるメイクインバリアント顔認証を容易にする。

Face verification aims at determining whether a pair of face images belongs to the same identity. Recent studies have revealed the negative impact of facial makeup on the verification performance. With the rapid development of deep generative models, this paper proposes a semanticaware makeup cleanser (SAMC) to remove facial makeup under different poses and expressions and achieve verification via generation. The intuition lies in the fact that makeup is a combined effect of multiple cosmetics and tailored treatments should be imposed on different cosmetic regions. To this end, we present both unsupervised and supervised semantic-aware learning strategies in SAMC. At image level, an unsupervised attention module is jointly learned with the generator to locate cosmetic regions and estimate the degree. At feature level, we resort to the effort of face parsing merely in training phase and design a localized texture loss to serve complements and pursue superior synthetic quality. The experimental results on four makeuprelated datasets verify that SAMC not only produces appealing de-makeup outputs at a resolution of 256*256, but also facilitates makeup-invariant face verification through image generation.
翻訳日:2022-12-11 18:47:23 公開日:2020-04-20
# LSM:低レベルビジョンのための学習サブスペース最小化

LSM: Learning Subspace Minimization for Low-level Vision ( http://arxiv.org/abs/2004.09197v1 )

ライセンス: Link先を確認
Chengzhou Tang, Lu Yuan and Ping Tan(参考訳) 低レベルビジョンタスクにおけるエネルギー最小化問題について,新しい視点から検討する。 ヒューリスティック正規化項を学習可能な部分空間制約に置き換え、タスクの第一原理に由来するドメイン知識を利用するためにデータ項を保存する。 この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一し、完全に共有されたパラメータで同時に複数のタスクに対して単一のネットワークをトレーニングし、データ項を定式化できる限り、トレーニングされたネットワークを見えないタスクに一般化する。 本稿では,インタラクティブな画像セグメンテーション,映像セグメンテーション,ステレオマッチング,オプティカルフローを含む4つの低レベルタスクに対するlsmフレームワークを示し,各種データセット上でネットワークを検証する。 実験の結果,LSMはモデルサイズが小さく,トレーニング収束が速く,リアルタイムの推論が可能であった。

We study the energy minimization problem in low-level vision tasks from a novel perspective. We replace the heuristic regularization term with a learnable subspace constraint, and preserve the data term to exploit domain knowledge derived from the first principle of a task. This learning subspace minimization (LSM) framework unifies the network structures and the parameters for many low-level vision tasks, which allows us to train a single network for multiple tasks simultaneously with completely shared parameters, and even generalizes the trained network to an unseen task as long as its data term can be formulated. We demonstrate our LSM framework on four low-level tasks including interactive image segmentation, video segmentation, stereo matching, and optical flow, and validate the network on various datasets. The experiments show that the proposed LSM generates state-of-the-art results with smaller model size, faster training convergence, and real-time inference.
翻訳日:2022-12-11 18:46:47 公開日:2020-04-20
# マルチラベル分類による教師なし人物再同定

Unsupervised Person Re-identification via Multi-label Classification ( http://arxiv.org/abs/2004.09228v1 )

ライセンス: Link先を確認
Dongkai Wang, Shiliang Zhang(参考訳) reid(unsupervised person re-identification)の課題は、真のラベルなしで差別的特徴を学ぶことである。 本稿では,教師なしのreidをマルチラベル分類タスクとして定式化し,真のラベルを求める。 提案手法は,各個人画像に単一クラスラベルを割り当ててから,更新されたreidモデルを用いてラベル予測を行うことにより,マルチラベル分類へと進化する。 ラベル予測は、予測ラベルの品質を確保するために類似性計算とサイクル整合性を含む。 マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。 MMCLはメモリベースの非パラメトリック分類器と連携し、複数ラベル分類と単一ラベル分類を統一フレームワークに統合する。 ラベル予測とMMCLは反復的に動作し、ReID性能を大幅に向上させる。 複数の大規模人物ReIDデータセットの実験は、教師なし人物ReIDにおける手法の優位性を実証している。 また,他の領域でのラベル付き人物画像の使用も可能である。 この伝達学習環境下では,本手法は最先端の性能も達成する。

The challenge of unsupervised person re-identification (ReID) lies in learning discriminative features without true labels. This paper formulates unsupervised person ReID as a multi-label classification task to progressively seek true labels. Our method starts by assigning each person image with a single-class label, then evolves to multi-label classification by leveraging the updated ReID model for label prediction. The label prediction comprises similarity computation and cycle consistency to ensure the quality of predicted labels. To boost the ReID model training efficiency in multi-label classification, we further propose the memory-based multi-label classification loss (MMCL). MMCL works with memory-based non-parametric classifier and integrates multi-label classification and single-label classification in a unified framework. Our label prediction and MMCL work iteratively and substantially boost the ReID performance. Experiments on several large-scale person ReID datasets demonstrate the superiority of our method in unsupervised person ReID. Our method also allows to use labeled person images in other domains. Under this transfer learning setting, our method also achieves state-of-the-art performance.
翻訳日:2022-12-11 18:46:28 公開日:2020-04-20
# ステレオ3次元物体追跡のための共同空間時間最適化

Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking ( http://arxiv.org/abs/2004.09305v1 )

ライセンス: Link先を確認
Peiliang Li, Jieqi Shi, Shaojie Shen(参考訳) 連続画像から複数の3次元物体の動きを直接学習することは困難であるが、幾何学的バンドル調整では見えない物体中心体をローカライズする能力に欠ける。 深層ニューラルネットワークの強力な物体理解技術と、一貫した軌道推定のための精密な幾何モデリングを両立させるために、空間時間最適化に基づく立体3次元物体追跡法を提案する。 ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。 対象の遠心点に関連付ける高密度物体キュー(局所深度と局所座標)は、地域ネットワークを用いて予測される。 即時局所化精度と動きの整合性の両方を考慮すると、最適化は対象のセントロイドと観測値の関係を空間的・時間的誤差関数にモデル化する。 すべての歴史的な手がかりは、繰り返し計算することなくフレーム毎のマージン化戦略によって現在の推定に貢献するために要約される。 kittiトラッキングデータセットの定量的評価は,従来の画像ベース3dトラッキング法をかなりのマージンで上回っている。 また、将来のベンチマークのために、複数のカテゴリとより大きなデータセット(KITTI rawとArgoverse Tracking)に関する広範な結果を報告する。

Directly learning multiple 3D objects motion from sequential images is difficult, while the geometric bundle adjustment lacks the ability to localize the invisible object centroid. To benefit from both the powerful object understanding skill from deep neural network meanwhile tackle precise geometry modeling for consistent trajectory estimation, we propose a joint spatial-temporal optimization-based stereo 3D object tracking method. From the network, we detect corresponding 2D bounding boxes on adjacent images and regress an initial 3D bounding box. Dense object cues (local depth and local coordinates) that associating to the object centroid are then predicted using a region-based network. Considering both the instant localization accuracy and motion consistency, our optimization models the relations between the object centroid and observed cues into a joint spatial-temporal error function. All historic cues will be summarized to contribute to the current estimation by a per-frame marginalization strategy without repeated computation. Quantitative evaluation on the KITTI tracking dataset shows our approach outperforms previous image-based 3D tracking methods by significant margins. We also report extensive results on multiple categories and larger datasets (KITTI raw and Argoverse Tracking) for future benchmarking.
翻訳日:2022-12-11 18:46:14 公開日:2020-04-20
# 野生における人物探索のためのロバスト部分マッチング

Robust Partial Matching for Person Search in the Wild ( http://arxiv.org/abs/2004.09329v1 )

ライセンス: Link先を確認
Yingji Zhong, Xiaoyu Wang, Shiliang Zhang(参考訳) 咬合、背景などの様々な要因は、人体の一部だけをカバーするような、検出された境界ボックスのミスアライメントにつながる。 この問題はよく見られるが、以前の人物検索では見過ごされている。 そこで本研究では,人物検出と再同定のためのAPNet(Align-to-Part Network)を提案する。 APNetは、推定された全体体領域をカバーする境界ボックスを洗練し、そこから識別部分の特徴を抽出してアライメントすることができる。 アライメント部は、類似性計算のために有効な部分特徴を選択する部分的特徴マッチング手順として自然にreidを定式化し、オクルード領域またはノイズ領域の一部特徴を破棄する。 この設計により、人探索の堅牢性は限界計算オーバーヘッドを伴う現実世界の課題に向上する。 本稿は,人検索における最大かつ最も困難なデータセットである,野生の人探索のための大規模データセット (LSPS) にも貢献する。 実験によると、APNetはLSPSに大幅な性能改善をもたらす。 一方、CUHK-SYSUやPRWといった既存の人物検索ベンチマークでは、競合するパフォーマンスを実現している。

Various factors like occlusions, backgrounds, etc., would lead to misaligned detected bounding boxes , e.g., ones covering only portions of human body. This issue is common but overlooked by previous person search works. To alleviate this issue, this paper proposes an Align-to-Part Network (APNet) for person detection and re-Identification (reID). APNet refines detected bounding boxes to cover the estimated holistic body regions, from which discriminative part features can be extracted and aligned. Aligned part features naturally formulate reID as a partial feature matching procedure, where valid part features are selected for similarity computation, while part features on occluded or noisy regions are discarded. This design enhances the robustness of person search to real-world challenges with marginal computation overhead. This paper also contributes a Large-Scale dataset for Person Search in the wild (LSPS), which is by far the largest and the most challenging dataset for person search. Experiments show that APNet brings considerable performance improvement on LSPS. Meanwhile, it achieves competitive performance on existing person search benchmarks like CUHK-SYSU and PRW.
翻訳日:2022-12-11 18:45:53 公開日:2020-04-20
# 社会工学的発見と応答生成のための語彙体系の適応

Adaptation of a Lexical Organization for Social Engineering Detection and Response Generation ( http://arxiv.org/abs/2004.09050v1 )

ライセンス: Link先を確認
Archna Bhatia, Adam Dalton, Brodie Mather, Sashank Santhanam, Samira Shaikh, Alan Zemel, Tomek Strzalkowski, Bonnie J. Dorr(参考訳) 本稿では,社会工学的発見と応答生成を支援するための語彙的概念構造に基づく拡張可能な語彙展開のためのパラダイムを提案する。 我々は、質問(お金へのアクセスなどの行動の緩和)とフレーミング(要求によって示唆されるリスク/リワード)という中心的な概念を活用する。 語彙組織の改良を通じて,ask/framing検出の改善を実証し,ask/framing検出性能の向上に伴い,応答生成が定性的に改善することを示す。 このパラダイムは、タスク固有のパフォーマンスを改善するために、リソース適応に対する体系的で効率的なアプローチを示す。

We present a paradigm for extensible lexicon development based on Lexical Conceptual Structure to support social engineering detection and response generation. We leverage the central notions of ask (elicitation of behaviors such as providing access to money) and framing (risk/reward implied by the ask). We demonstrate improvements in ask/framing detection through refinements to our lexical organization and show that response generation qualitatively improves as ask/framing detection performance improves. The paradigm presents a systematic and efficient approach to resource adaptation for improved task-specific performance.
翻訳日:2022-12-11 18:39:03 公開日:2020-04-20
# 多言語BERTにおける言語横断能力と言語固有情報に関する研究

A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT ( http://arxiv.org/abs/2004.09205v1 )

ライセンス: Link先を確認
Chi-Liang Liu, Tsung-Yuan Hsu, Yung-Sung Chuang, Hung-Yi Lee(参考訳) 近年,多言語BERTは静的な非コンテクチュアルな単語埋め込みよりも優れた言語間伝達タスクにおいて極めてうまく機能している。 本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。 我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。 データサイズとコンテキストウィンドウサイズが転送可能性の重要な要因であることがわかった。 また,多言語BERTにおける言語固有の情報も観察する。 潜在表現を操作することで、多言語BERTの出力言語を制御し、教師なしトークン翻訳を実現することができる。 さらに,多言語bertの言語交叉能力を向上させるための計算量的安価だが効果的な手法が提案されている。

Recently, multilingual BERT works remarkably well on cross-lingual transfer tasks, superior to static non-contextualized word embeddings. In this work, we provide an in-depth experimental study to supplement the existing literature of cross-lingual ability. We compare the cross-lingual ability of non-contextualized and contextualized representation model with the same data. We found that datasize and context window size are crucial factors to the transferability. We also observe the language-specific information in multilingual BERT. By manipulating the latent representations, we can control the output languages of multilingual BERT, and achieve unsupervised token translation. We further show that based on the observation, there is a computationally cheap but effective approach to improve the cross-lingual ability of multilingual BERT.
翻訳日:2022-12-11 18:38:29 公開日:2020-04-20
# phinc: 機械翻訳のためのhinglish social media code-mixed corpus

PHINC: A Parallel Hinglish Social Media Code-Mixed Corpus for Machine Translation ( http://arxiv.org/abs/2004.09447v1 )

ライセンス: Link先を確認
Vivek Srivastava and Mayank Singh(参考訳) コードミキシングは、文中に複数の言語を使用する現象である。 ソーシャルメディア上で頻繁に見られるコミュニケーションのパターンである。 1つのテキストメッセージで複数の言語を使用する柔軟性は、ターゲットのオーディエンスと効率的にコミュニケーションするのに役立ちます。 しかし、自然言語を処理し理解することの難しさをはるかに高めている。 本稿では,13,738のコード混成英語・ヒンディー語文の並列コーパスとその英訳について述べる。 文の翻訳は注釈者が手作業で行う。 我々は、コード混合機械翻訳における将来の研究機会を促進するために、並列コーパスをリリースする。 注釈付きコーパスはhttps://doi.org/10.5281/zenodo.3605597で入手できる。

Code-mixing is the phenomenon of using more than one language in a sentence. It is a very frequently observed pattern of communication on social media platforms. Flexibility to use multiple languages in one text message might help to communicate efficiently with the target audience. But, it adds to the challenge of processing and understanding natural language to a much larger extent. This paper presents a parallel corpus of the 13,738 code-mixed English-Hindi sentences and their corresponding translation in English. The translations of sentences are done manually by the annotators. We are releasing the parallel corpus to facilitate future research opportunities in code-mixed machine translation. The annotated corpus is available at https://doi.org/10.5281/zenodo.3605597.
翻訳日:2022-12-11 18:38:17 公開日:2020-04-20
# goodreads.comにおける読者の文学書評からの性格・関係抽出のための自動化パイプライン

An Automated Pipeline for Character and Relationship Extraction from Readers' Literary Book Reviews on Goodreads.com ( http://arxiv.org/abs/2004.09601v1 )

ライセンス: Link先を確認
Shadi Shahsavari, Ehsan Ebrahimzadeh, Behnam Shahbazi, Misagh Falahi, Pavan Holur, Roja Bandari, Timothy R. Tangherlini, Vwani Roychowdhury(参考訳) ソーシャルメディア上の文学小説の読者レビュー、特に永続的な専用のフォーラムの読者レビューは、基礎となる物語の枠組みによって作成され、駆動される。 小説に関する彼らのコメントでは、読者は通常、登場人物とその関係のサブセットしか含まないため、その仕事について限定的な視点を提供する。 まとめると、これらのレビューは、異なる行動者(人、場所、物)、それらの役割、そして私たちが"合意の物語の枠組み"とラベル付けする相互作用からなる下層の物語の枠組みを捉えます。 私たちはこのフレームワークをアクタント関連ストーリーグラフの形で表現します。 このグラフの抽出は難解な計算問題であり,この問題を潜在的なグラフィカルモデル推定問題として捉える。 ポストとレビューは、隠れた物語フレームワークのサブグラフ/ネットワークのサンプルと見なされる。 グリマの定性的物語理論に触発されて,ノードがアクタントを表すグラフィカル生成機械学習(ml)モデルを定式化し,ノード間のマルチエッジと自己ループがコンテキスト固有の関係を捉える。 キーアクトとその関係を抽出し、goodreads.comに投稿された何千ものレビューやコメントに適用するための自動メソッドをインターロックするパイプラインを開発した。 SparkNotesから手動で真実の物語の枠組みを導き、単語埋め込みツールを使って、真実のネットワークと抽出したネットワークの関係を比較します。 私たちの4つのターゲット小説では、1小説あたり約2900レビューがあり、80%以上の重要な関係のカバレッジ/リコールと平均89\%のエッジ検出率を報告します。 抽出されたナラティブフレームワークは、人々(あるいは人のクラス)の読み方と、彼らが読んだことを他の人に再記述する方法に関する洞察を生み出すことができる。

Reader reviews of literary fiction on social media, especially those in persistent, dedicated forums, create and are in turn driven by underlying narrative frameworks. In their comments about a novel, readers generally include only a subset of characters and their relationships, thus offering a limited perspective on that work. Yet in aggregate, these reviews capture an underlying narrative framework comprised of different actants (people, places, things), their roles, and interactions that we label the "consensus narrative framework". We represent this framework in the form of an actant-relationship story graph. Extracting this graph is a challenging computational problem, which we pose as a latent graphical model estimation problem. Posts and reviews are viewed as samples of sub graphs/networks of the hidden narrative framework. Inspired by the qualitative narrative theory of Greimas, we formulate a graphical generative Machine Learning (ML) model where nodes represent actants, and multi-edges and self-loops among nodes capture context-specific relationships. We develop a pipeline of interlocking automated methods to extract key actants and their relationships, and apply it to thousands of reviews and comments posted on Goodreads.com. We manually derive the ground truth narrative framework from SparkNotes, and then use word embedding tools to compare relationships in ground truth networks with our extracted networks. We find that our automated methodology generates highly accurate consensus narrative frameworks: for our four target novels, with approximately 2900 reviews per novel, we report average coverage/recall of important relationships of > 80% and an average edge detection rate of >89\%. These extracted narrative frameworks can generate insight into how people (or classes of people) read and how they recount what they have read to others.
翻訳日:2022-12-11 18:37:47 公開日:2020-04-20
# OSLNet: 直交ソフトマックス層を用いた深部小サンプル分類

OSLNet: Deep Small-Sample Classification with an Orthogonal Softmax Layer ( http://arxiv.org/abs/2004.09033v1 )

ライセンス: Link先を確認
Xiaoxu Li, Dongliang Chang, Zhanyu Ma, Zheng-Hua Tan, Jing-Hao Xue, Jie Cao, Jingyi Yu, and Jun Guo(参考訳) 複数の非線形層からなるディープニューラルネットワークは大きな関数空間を形成し、小さなサンプルデータに遭遇すると容易に過度に適合する。 小サンプル分類における過度な適合を緩和するために、小サンプルデータからより差別的な特徴を学ぶことが新しいトレンドになりつつある。 この目的のために本論文では,ニューラルネットワークのサブスペースを探索し,大きな決定マージンを実現することを目的とする。 具体的には,分類層内の重みベクトルをトレーニングとテストの両方において直交する直交ソフトマックス層(osl)を提案する。 OSL を用いたネットワークのラデマッハ複雑性は $\frac{1}{K}$ のみであり、$K$ は完全連結な分類層を用いたネットワークのクラス数であり、より厳密な一般化誤差境界となる。 実験結果から,提案OSLは4つの小サンプルベンチマークデータセットとの比較に使用した手法よりも優れた性能を示し,大サンプルデータセットへの適用性を示した。 コードはhttps://github.com/dongliangchang/oslnet。

A deep neural network of multiple nonlinear layers forms a large function space, which can easily lead to overfitting when it encounters small-sample data. To mitigate overfitting in small-sample classification, learning more discriminative features from small-sample data is becoming a new trend. To this end, this paper aims to find a subspace of neural networks that can facilitate a large decision margin. Specifically, we propose the Orthogonal Softmax Layer (OSL), which makes the weight vectors in the classification layer remain orthogonal during both the training and test processes. The Rademacher complexity of a network using the OSL is only $\frac{1}{K}$, where $K$ is the number of classes, of that of a network using the fully connected classification layer, leading to a tighter generalization error bound. Experimental results demonstrate that the proposed OSL has better performance than the methods used for comparison on four small-sample benchmark datasets, as well as its applicability to large-sample datasets. Codes are available at: https://github.com/dongliangchang/OSLNet.
翻訳日:2022-12-11 18:36:57 公開日:2020-04-20
# 視覚分離のための音楽ジェスチャー

Music Gesture for Visual Sound Separation ( http://arxiv.org/abs/2004.09476v1 )

ライセンス: Link先を確認
Chuang Gan, Deng Huang, Hang Zhao, Joshua B. Tenenbaum, Antonio Torralba(参考訳) 近年の深層学習は,視覚的音源分離タスクにおいて顕著な性能を発揮している。 しかし、これらのアプローチは、特にシーン内の複数のバイオリンのような同じタイプの複数の楽器を分離する場合において、オーディオ信号と視覚点の相関を見つける能力が限られている、外観や運動特徴表現のような光学的流れに基づくものが多い。 そこで我々は,音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現「Music Gesture」を提案する。 まず,視覚意味的文脈と身体のダイナミクスを統合するために文脈認識グラフネットワークを採用し,その後,身体運動と対応する音声信号の関連付けに音声・視覚融合モデルを適用した。 3つの音楽演奏データセットにおける実験結果 1)ヘテロ音楽分離タスク(すなわち、異なる楽器)のためのベンチマーク指標の強力な改善 2)ピアノ,フルート,トランペットデュエットを効果的に分離する新たな能力は,我々の知る限り,代替手法では達成されていない。 プロジェクトページ: http://music-gesture.csail.mit.edu

Recent deep learning approaches have achieved impressive performance on visual sound separation tasks. However, these approaches are mostly built on appearance and optical flow like motion feature representations, which exhibit limited abilities to find the correlations between audio signals and visual points, especially when separating multiple instruments of the same types, such as multiple violins in a scene. To address this, we propose "Music Gesture," a keypoint-based structured representation to explicitly model the body and finger movements of musicians when they perform music. We first adopt a context-aware graph network to integrate visual semantic context with body dynamics, and then apply an audio-visual fusion model to associate body movements with the corresponding audio signals. Experimental results on three music performance datasets show: 1) strong improvements upon benchmark metrics for hetero-musical separation tasks (i.e. different instruments); 2) new ability for effective homo-musical separation for piano, flute, and trumpet duets, which to our best knowledge has never been achieved with alternative methods. Project page: http://music-gesture.csail.mit.edu.
翻訳日:2022-12-11 18:28:53 公開日:2020-04-20
# AIによる肺炎の定量化、ステージング、短期予後予測

AI-Driven CT-based quantification, staging and short-term outcome prediction of COVID-19 pneumonia ( http://arxiv.org/abs/2004.12852v1 )

ライセンス: Link先を確認
Guillaume Chassagnon, Maria Vakalopoulou, Enzo Battistella, Stergios Christodoulidis, Trieu-Nghi Hoang-Thi, Severine Dangeard, Eric Deutsch, Fabrice Andre, Enora Guillo, Nara Halm, Stefany El Hajj, Florian Bompard, Sophie Neveu, Chahinez Hani, Ines Saab, Alienor Campredon, Hasmik Koulakian, Souhail Bennani, Gael Freche, Aurelien Lombard, Laure Fournier, Hippolyte Monnier, Teodor Grand, Jules Gregory, Antoine Khalil, Elyas Mahdjoub, Pierre-Yves Brillet, Stephane Tran Ba, Valerie Bousson, Marie-Pierre Revel, Nikos Paragios(参考訳) 胸部CTはCoronavirus disease 2019(COVID-19)肺炎の治療に広く用いられている。 新型コロナウイルス(COVID-19)の診断基準は微生物検査に依存しているが、これらの検査は緊急時に利用できない可能性がある。 早期診断の役割に加えて、CTは新型コロナウイルス(COVID-19)肺異常の程度を視覚的に評価することで予後に影響を及ぼす。 本研究の目的は,短期的成果,特に機械換気の必要性を予測することにある。 本研究は,専門家の肺疾患自動診断と診断のためのバイオマーカーの同定を併用した,自動定量化と予後評価のためのエンド・ツー・エンド人工知能ソリューションを提案する。 AIによる変数とCTベースのバイオマーカーの組み合わせは、集中治療ベッドと人工呼吸器が不足しているため、最適な患者管理の視点を提供する。

Chest computed tomography (CT) is widely used for the management of Coronavirus disease 2019 (COVID-19) pneumonia because of its availability and rapidity. The standard of reference for confirming COVID-19 relies on microbiological tests but these tests might not be available in an emergency setting and their results are not immediately available, contrary to CT. In addition to its role for early diagnosis, CT has a prognostic role by allowing visually evaluating the extent of COVID-19 lung abnormalities. The objective of this study is to address prediction of short-term outcomes, especially need for mechanical ventilation. In this multi-centric study, we propose an end-to-end artificial intelligence solution for automatic quantification and prognosis assessment by combining automatic CT delineation of lung disease meeting performance of experts and data-driven identification of biomarkers for its prognosis. AI-driven combination of variables with CT-based biomarkers offers perspectives for optimal patient management given the shortage of intensive care beds and ventilators.
翻訳日:2022-12-11 18:28:35 公開日:2020-04-20
# 有理スペクトルと最適輸送との関係の新しい指標

New Metrics Between Rational Spectra and their Connection to Optimal Transport ( http://arxiv.org/abs/2004.09152v1 )

ライセンス: Link先を確認
Fredrik Bagge Carlson, Mandar Chitre(参考訳) 最適輸送理論と線形システム理論に基づいて,信号対,線形システムあるいは有理スペクトル間の一連のメトリクスを提案する。 メトリクスは有理関数の極の位置を操作し、距離、重心、変位補間、投影の非常に効率的な計算を可能にする。 有理スペクトル間のワッサーシュタイン距離との接続を確立し,信号分類,クラスタリング,検出,近似などのタスクにおけるメトリクスの利用を実証する。

We propose a series of metrics between pairs of signals, linear systems or rational spectra, based on optimal transport and linear-systems theory. The metrics operate on the locations of the poles of rational functions and admit very efficient computation of distances, barycenters, displacement interpolation and projections. We establish the connection to the Wasserstein distance between rational spectra, and demonstrate the use of the metrics in tasks such as signal classification, clustering, detection and approximation.
翻訳日:2022-12-11 18:28:22 公開日:2020-04-20
# 自然言語からコード生成への事前学習による外部知識の導入

Incorporating External Knowledge through Pre-training for Natural Language to Code Generation ( http://arxiv.org/abs/2004.09015v1 )

ライセンス: Link先を確認
Frank F. Xu, Zhengbao Jiang, Pengcheng Yin, Bogdan Vasilescu, Graham Neubig(参考訳) オープンドメインコード生成は、自然言語(NL)から汎用プログラミング言語(Pythonなど)でコードを生成することを目的としている。 開発者がコードを書くとき、通常、Web上でリソースを取得するという直感に触発され、オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-to-code生成に2種類の外部知識を組み込むことの有効性について検討する。 本研究では,データ拡張と検索に基づくデータ再サンプリングとを組み合わせることで,コード生成テストベッド・コナラにおける絶対bleuスコアを最大2.2%向上できることを示す。 コードとリソースはhttps://github.com/neulab/external-knowledge-codegenで入手できる。

Open-domain code generation aims to generate code in a general-purpose programming language (such as Python) from natural language (NL) intents. Motivated by the intuition that developers usually retrieve resources on the web when writing code, we explore the effectiveness of incorporating two varieties of external knowledge into NL-to-code generation: automatically mined NL-code pairs from the online programming QA forum StackOverflow and programming language API documentation. Our evaluations show that combining the two sources with data augmentation and retrieval-based data re-sampling improves the current state-of-the-art by up to 2.2% absolute BLEU score on the code generation testbed CoNaLa. The code and resources are available at https://github.com/neulab/external-knowledge-codegen.
翻訳日:2022-12-11 18:27:51 公開日:2020-04-20
# 電力系統安全ルール抽出と埋め込みのためのスパース斜め決定木

Sparse Oblique Decision Tree for Power System Security Rules Extraction and Embedding ( http://arxiv.org/abs/2004.09579v1 )

ライセンス: Link先を確認
Qingchun Hou, Ning Zhang, Daniel S. Kirschen, Ershun Du, Yaohua Cheng, Chongqing Kang(参考訳) 可変発生の浸透の増加は、電力システムの運用上の信頼性に大きな影響を及ぼす。 この変動性から生じる高い不確実性により、ある操作条件が安全かどうかを判断することがより困難になる。 データ駆動技術は、電力系統の運用状態を安全に保つために経済ディスパッチモデルに組み込むことのできるセキュリティルールを識別するための有望な方法を提供する。 本稿では,疎重み付き斜め決定木を用いて線形で,再帰的アルゴリズムを用いてスパース行列として抽出できる,正確で理解可能な,組込み可能なセキュリティルールを学習する。 これらの行列は、Big-M法による電力系統の経済ディスパッチ計算におけるセキュリティ制約として容易に組み込むことができる。 再生可能エネルギーの浸透率が高い大規模データセットの試験により,提案手法の有効性が示された。 特に、疎重み付き斜め決定木は、セキュリティルールをシンプルに保ちながら、最先端の重み付き斜め決定木を上回る。 経済ディスパッチに組み込むと、これらのルールは安全な状態の割合を著しく増加させ、平均解時間を削減する。

Increasing the penetration of variable generation has a substantial effect on the operational reliability of power systems. The higher level of uncertainty that stems from this variability makes it more difficult to determine whether a given operating condition will be secure or insecure. Data-driven techniques provide a promising way to identify security rules that can be embedded in economic dispatch model to keep power system operating states secure. This paper proposes using a sparse weighted oblique decision tree to learn accurate, understandable, and embeddable security rules that are linear and can be extracted as sparse matrices using a recursive algorithm. These matrices can then be easily embedded as security constraints in power system economic dispatch calculations using the Big-M method. Tests on several large datasets with high renewable energy penetration demonstrate the effectiveness of the proposed method. In particular, the sparse weighted oblique decision tree outperforms the state-of-art weighted oblique decision tree while keeping the security rules simple. When embedded in the economic dispatch, these rules significantly increase the percentage of secure states and reduce the average solution time.
翻訳日:2022-12-11 18:21:13 公開日:2020-04-20
# アイデンティティ保護によるポーズ操作

Pose Manipulation with Identity Preservation ( http://arxiv.org/abs/2004.09169v1 )

ライセンス: Link先を確認
Andrei-Timotei Ardelean, Lucian Mircea Sasu(参考訳) 本稿では,人間の被写体の数例から顔の表情や向きを変化させるなど,新しいポーズで画像を生成する新しいモデルについて述べる。 トレーニングのために特定の人物の大規模なデータセットを必要とする従来のアプローチとは異なり、このアプローチは単一の画像からでも、画像の少ないセットから始まります。 この目的のために,埋め込み器によって抽出され,ソース画像間で結合された空間特性を用いたキャインGAN(CainGAN)を提案する。 身元情報は条件付き正規化を適用してネットワーク全体に伝播する。 大規模な対人訓練の後、CainGANは特定の個人から顔の像を受け取り、その人物の身元を保ちながら新しい顔を生成する。 実験の結果, 生成画像の品質は, 推論時に使用する入力セットの大きさに比例することがわかった。 さらに、CainGANはトレーニングデータに制限がある場合、他の方法よりも優れたパフォーマンスを示す。

This paper describes a new model which generates images in novel poses e.g. by altering face expression and orientation, from just a few instances of a human subject. Unlike previous approaches which require large datasets of a specific person for training, our approach may start from a scarce set of images, even from a single image. To this end, we introduce Character Adaptive Identity Normalization GAN (CainGAN) which uses spatial characteristic features extracted by an embedder and combined across source images. The identity information is propagated throughout the network by applying conditional normalization. After extensive adversarial training, CainGAN receives figures of faces from a certain individual and produces new ones while preserving the person's identity. Experimental results show that the quality of generated images scales with the size of the input set used during inference. Furthermore, quantitative measurements indicate that CainGAN performs better compared to other methods when training data is limited.
翻訳日:2022-12-11 18:19:50 公開日:2020-04-20
# CatNet:Egocentric Gesture Recognitionのためのクラスインクリメンタル3D ConvNets

CatNet: Class Incremental 3D ConvNets for Lifelong Egocentric Gesture Recognition ( http://arxiv.org/abs/2004.09215v1 )

ライセンス: Link先を確認
Zhengwei Wang, Qi She, Tejo Chalasani, Aljosa Smolic(参考訳) エゴセントリックなジェスチャーは、人間がVR/ARヘルメットやメガネのようなウェアラブルデバイスと対話するための最も自然なコミュニケーション形態である。 現実世界のアプリケーションにおけるこのようなシナリオにおける大きな問題は、システムに新しいジェスチャーを追加する必要が容易になり、例えば、適切なVRシステムはユーザーが段階的にジェスチャーをカスタマイズできるようにする。 従来のディープラーニング手法では、すべての前のクラスサンプルをシステムに格納し、前のサンプルと新しいサンプルを組み込むことで、スクラッチからモデルを再訓練する必要がある。 本研究では,ビデオ中の時間情報を考慮し,先行クラスから選択した例集合の特徴表現を学習することにより,エゴセンタ型ジェスチャー映像認識のための生涯学習を可能にする3次元畳み込みフレームワーク -c(c)la(a)ss incremental(t)al net(net)work (catnet) を実演する。 重要となるのは,rgbと奥行きモードを配置して2つのネットワークを訓練する2つのストリームcatnetを提案することである。 CatNetsは、公開データセット -- EgoGestureデータセットで評価し、長時間にわたって多くのクラスを段階的に学習できることを示します。 また、この2ストリームアーキテクチャは、他の3つの1ストリームアーキテクチャと比較して、ジョイントトレーニングとクラスインクリメンタルトレーニングの両方で最高のパフォーマンスを達成することを示した。 この作業で使用されるコードと事前トレーニングされたモデルは、https://github.com/villawang/catnetで提供される。

Egocentric gestures are the most natural form of communication for humans to interact with wearable devices such as VR/AR helmets and glasses. A major issue in such scenarios for real-world applications is that may easily become necessary to add new gestures to the system e.g., a proper VR system should allow users to customize gestures incrementally. Traditional deep learning methods require storing all previous class samples in the system and training the model again from scratch by incorporating previous samples and new samples, which costs humongous memory and significantly increases computation over time. In this work, we demonstrate a lifelong 3D convolutional framework -- c(C)la(a)ss increment(t)al net(Net)work (CatNet), which considers temporal information in videos and enables lifelong learning for egocentric gesture video recognition by learning the feature representation of an exemplar set selected from previous class samples. Importantly, we propose a two-stream CatNet, which deploys RGB and depth modalities to train two separate networks. We evaluate CatNets on a publicly available dataset -- EgoGesture dataset, and show that CatNets can learn many classes incrementally over a long period of time. Results also demonstrate that the two-stream architecture achieves the best performance on both joint training and class incremental training compared to 3 other one-stream architectures. The codes and pre-trained models used in this work are provided at https://github.com/villawang/CatNet.
翻訳日:2022-12-11 18:19:34 公開日:2020-04-20
# 自己注意型ビデオフレーム圧縮のためのエンドツーエンド学習

End-to-End Learning for Video Frame Compression with Self-Attention ( http://arxiv.org/abs/2004.09226v1 )

ライセンス: Link先を確認
Nannan Zou, Honglei Zhang, Francesco Cricri, Hamed R. Tavakoli, Jani Lainema, Emre Aksu, Miska Hannuksela, Esa Rahtu(参考訳) 従来の(非学習型)ビデオコーデックのコアコンポーネントの1つは、時間的相関を利用して、以前に復号されたフレームからフレームを予測することである。 本稿では,ビデオフレーム圧縮のためのエンドツーエンド学習システムを提案する。 我々のシステムは、(光学フローのように)ピクセル空間の動きに頼る代わりに、フレームの深い埋め込みを学び、その差分を潜時空間でエンコードする。 デコーダ側では、前のフレームと現在のフレームの異なる部分がどのように結合され、最終的な予測された現在のフレームを形成するかを決定するために、フレームの潜時空間にアテンション機構が設計される。 特徴チャネルに作用する重要マスクを用いることで、空間的に異なるチャネル割り当てを実現する。 このモデルは、重要度マップの損失と、算術符号化のためのコンテキストモデルによる確率出力の損失を最小化することにより、ビットレートを低減するように訓練される。 本実験では,MS-SSIM と PSNR を用いて,高い圧縮率と高客観的な視覚的品質を実現する。 さらに,様々な成分の寄与を強調するアブレーション研究を行う。

One of the core components of conventional (i.e., non-learned) video codecs consists of predicting a frame from a previously-decoded frame, by leveraging temporal correlations. In this paper, we propose an end-to-end learned system for compressing video frames. Instead of relying on pixel-space motion (as with optical flow), our system learns deep embeddings of frames and encodes their difference in latent space. At decoder-side, an attention mechanism is designed to attend to the latent space of frames to decide how different parts of the previous and current frame are combined to form the final predicted current frame. Spatially-varying channel allocation is achieved by using importance masks acting on the feature-channels. The model is trained to reduce the bitrate by minimizing a loss on importance maps and a loss on the probability output by a context model for arithmetic coding. In our experiments, we show that the proposed system achieves high compression rates and high objective visual quality as measured by MS-SSIM and PSNR. Furthermore, we provide ablation studies where we highlight the contribution of different components.
翻訳日:2022-12-11 18:19:08 公開日:2020-04-20
# 高速4次元フローMRI再構成のための深部変動ネットワーク

Deep variational network for rapid 4D flow MRI reconstruction ( http://arxiv.org/abs/2004.09610v1 )

ライセンス: Link先を確認
Valery Vishnevskiy, Jonas Walheim, Sebastian Kozerke(参考訳) 位相コントラスト磁気共鳴イメージング(MRI)は、臨床診断に役立つ血流動態の時間分解定量化を提供する。 心臓相と呼吸サイクルの3次元ボリュームサンプリングを繰り返したin vivoでの長いスキャン時間は、データ相関を利用した加速イメージング技術を必要とする。 標準の圧縮センシング再構成法ではハイパーパラメータのチューニングが必要であり、計算コストが高いため、試験時間の削減が期待できる。 本稿では,効率的なモデルベース深部神経再建ネットワークを提案し,その性能を臨床大動脈血流データで評価する。 ネットワークは、標準消費者ハードウェア上で、アンサンプされた4DフローMRIデータを1分以内で再構築する。 驚くべきことに、比較的低い調整可能なパラメータにより、11の参照スキャンの画像でネットワークをトレーニングすることができ、様々な加速度因子や解剖学のふりかえりや予測不足のデータにうまく一般化することができた。

Phase-contrast magnetic resonance imaging (MRI) provides time-resolved quantification of blood flow dynamics that can aid clinical diagnosis. Long in vivo scan times due to repeated three-dimensional (3D) volume sampling over cardiac phases and breathing cycles necessitate accelerated imaging techniques that leverage data correlations. Standard compressed sensing reconstruction methods require tuning of hyperparameters and are computationally expensive, which diminishes the potential reduction of examination times. We propose an efficient model-based deep neural reconstruction network and evaluate its performance on clinical aortic flow data. The network is shown to reconstruct undersampled 4D flow MRI data in under a minute on standard consumer hardware. Remarkably, the relatively low amounts of tunable parameters allowed the network to be trained on images from 11 reference scans while generalizing well to retrospective and prospective undersampled data for various acceleration factors and anatomies.
翻訳日:2022-12-11 18:18:33 公開日:2020-04-20
# NKモデルによる分散制御の探索

Exploring Distributed Control with the NK Model ( http://arxiv.org/abs/2004.10061v1 )

ライセンス: Link先を確認
Larry Bull(参考訳) NKモデルは自然進化と複雑なシステムの側面を探索するために広く用いられている。 本稿では,組織やソーシャルネットワーク,集団ロボットなど,複雑なシステムにおける分散制御を探索するためのNKモデルの修正形式を紹介する。 最初の結果から,システムのサイズや基盤となる機能構造の変化が,動的に形成される構造や制御ノードの数が異なるものなど,異なる分散制御構造や意思決定のパフォーマンスに与える影響が示された。

The NK model has been used widely to explore aspects of natural evolution and complex systems. This paper introduces a modified form of the NK model for exploring distributed control in complex systems such as organisations, social networks, collective robotics, etc. Initial results show how varying the size and underlying functional structure of a given system affects the performance of different distributed control structures and decision making, including within dynamically formed structures and those with differing numbers of control nodes.
翻訳日:2022-12-11 18:11:13 公開日:2020-04-20
# 重症患者における痛みと活動の関節分布と推移

Joint Distribution and Transitions of Pain and Activity in Critically Ill Patients ( http://arxiv.org/abs/2004.09134v1 )

ライセンス: Link先を確認
Florenc Demrozi, Graziano Pravadelli, Patrick J Tighe, Azra Bihorac and Parisa Rashidi(参考訳) 集中治療室(icu)の重症患者において、痛みと身体機能の両方が回復の重要な指標である。 痛みの強度と患者活動の同時モニタリングは、オピオイド障害を最小限に抑えつつ、どの鎮痛介入が運動と機能を最適化できるかを決定する上で重要である。 それにもかかわらず、これまでの我々の痛みと活動の関係に関する知識は、手動および散発的な活動評価に限られている。 近年,3軸加速度計を備えたウェアラブルデバイスは,移動度と身体活動の連続的・自動計測に多くの領域で利用されている。 本研究では,アクティグラフGT3Xを用いた57 ICU患者の活動強度データを収集した。 また,1~4時間毎に記録された痛み強度の看護的評価を含む関連する臨床情報も収集した。 重症心疾患患者における関節活動と痛み状態の関節分布と状態遷移について検討した。

Pain and physical function are both essential indices of recovery in critically ill patients in the Intensive Care Units (ICU). Simultaneous monitoring of pain intensity and patient activity can be important for determining which analgesic interventions can optimize mobility and function, while minimizing opioid harm. Nonetheless, so far, our knowledge of the relation between pain and activity has been limited to manual and sporadic activity assessments. In recent years, wearable devices equipped with 3-axis accelerometers have been used in many domains to provide a continuous and automated measure of mobility and physical activity. In this study, we collected activity intensity data from 57 ICU patients, using the Actigraph GT3X device. We also collected relevant clinical information, including nurse assessments of pain intensity, recorded every 1-4 hours. Our results show the joint distribution and state transition of joint activity and pain states in critically ill patients.
翻訳日:2022-12-11 18:11:05 公開日:2020-04-20
# 拡散正規化最小平均M推定アルゴリズムに関する研究

Study of Diffusion Normalized Least Mean M-estimate Algorithms ( http://arxiv.org/abs/2004.08998v1 )

ライセンス: Link先を確認
Y. Yu, H. He, T. Yang, X. Wang, R. C. de Lamare(参考訳) 本研究は, 分散ネットワークに強迫的干渉が存在する場合に頑健な学習能力を持たせることができる, 修正フーバー関数に基づく拡散正規化最小平均m推定アルゴリズムを提案する。 学習性能をさらに向上させるためにシステムのスパース性を利用するため、推定値の$l_0$-normを更新プロセスに組み込むことでスパース対応の変種も開発されている。 次に,アルゴリズムの過渡的,定常的,安定的挙動を統一フレームワークで解析する。 特に,積分とプライスの定理の要件を取り除いた点数関数を扱う従来の手法よりも単純な解析手法を提案する。 様々なインパルスノイズシナリオのシミュレーションでは、提案アルゴリズムは既存の拡散アルゴリズムよりも優れていることが示され、理論的結果が検証可能である。

This work proposes diffusion normalized least mean M-estimate algorithm based on the modified Huber function, which can equip distributed networks with robust learning capability in the presence of impulsive interference. In order to exploit the system's underlying sparsity to further improve the learning performance, a sparse-aware variant is also developed by incorporating the $l_0$-norm of the estimates into the update process. We then analyze the transient, steady-state and stability behaviors of the algorithms in a unified framework. In particular, we present an analytical method that is simpler than conventional approaches to deal with the score function since it removes the requirements of integrals and Price's theorem. Simulations in various impulsive noise scenarios show that the proposed algorithms are superior to some existing diffusion algorithms and the theoretical results are verifiable.
翻訳日:2022-12-11 18:10:51 公開日:2020-04-20
# 辞書学習とオンラインnmfによるcovid-19時系列予測

COVID-19 Time-series Prediction by Joint Dictionary Learning and Online NMF ( http://arxiv.org/abs/2004.09112v1 )

ライセンス: Link先を確認
Hanbaek Lyu, Christopher Strohmeier, Georg Menz, and Deanna Needell(参考訳) 新型コロナウイルスの拡散と封じ込めの予測は、現在幅広い科学コミュニティが直面している最も重要な課題である。 主な課題の1つは、日当たりの感染者データが非常に限られていることであり、例外は少ないが、ほとんどの国は現在「予備拡散段階」にあるため、拡散と封じ込めの間の相転移を予測できる情報が少ないことである。 本稿では,辞書学習とオンライン非負行列分解(オンラインnmf)に基づく新型コロナウイルスの流行予測手法を提案する。 鍵となる考え方は、複数の国における新規の日常事例の短い進化例の辞書パターンを同時に学習し、それらの潜在相関構造を辞書パターンで捉えることである。 まず、時系列全体からミニバッチ学習を行い、オンラインnmfによってさらに時系列に適応することで、そのようなパターンを学習します。 学習した辞書パターンをより最近の観察に順応し,改良していくとともに,それらを用いて部分的適合によるワンステップ予測を行う。 最後に、ワンステップ予測を再帰的に適用することで、予測を近い将来に推定することができる。 予測結果は,その解釈可能性から,学習辞書パターンに直接帰属することができる。

Predicting the spread and containment of COVID-19 is a challenge of utmost importance that the broader scientific community is currently facing. One of the main sources of difficulty is that a very limited amount of daily COVID-19 case data is available, and with few exceptions, the majority of countries are currently in the "exponential spread stage," and thus there is scarce information available which would enable one to predict the phase transition between spread and containment. In this paper, we propose a novel approach to predicting the spread of COVID-19 based on dictionary learning and online nonnegative matrix factorization (online NMF). The key idea is to learn dictionary patterns of short evolution instances of the new daily cases in multiple countries at the same time, so that their latent correlation structures are captured in the dictionary patterns. We first learn such patterns by minibatch learning from the entire time-series and then further adapt them to the time-series by online NMF. As we progressively adapt and improve the learned dictionary patterns to the more recent observations, we also use them to make one-step predictions by the partial fitting. Lastly, by recursively applying the one-step predictions, we can extrapolate our predictions into the near future. Our prediction results can be directly attributed to the learned dictionary patterns due to their interpretability.
翻訳日:2022-12-11 18:10:29 公開日:2020-04-20
# ディープラーニング推論のための整数量子化:原理と経験的評価

Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation ( http://arxiv.org/abs/2004.09602v1 )

ライセンス: Link先を確認
Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev, Paulius Micikevicius(参考訳) 量子化技術は、Deep Neural Networksのサイズを小さくし、高いスループットの整数命令を活用することにより、推論レイテンシとスループットを改善する。 本稿では、量子化パラメータの数学的側面を概観し、視覚、音声、言語を含む様々なアプリケーション領域に対する幅広いニューラルネットワークモデルにおけるそれらの選択を評価する。 我々は,高スループット整数計算パイプラインを用いたプロセッサによる高速化に適した量子化手法に注目する。 また,MobileNetsやBERT-largeなど,より量子化が難しいモデルを含む,すべてのネットワークにおいて,浮動小数点ベースラインの1%以内の精度を維持する8ビット量子化のワークフローを提案する。

Quantization techniques can reduce the size of Deep Neural Networks and improve inference latency and throughput by taking advantage of high throughput integer instructions. In this paper we review the mathematical aspects of quantization parameters and evaluate their choices on a wide range of neural network models for different application domains, including vision, speech, and language. We focus on quantization techniques that are amenable to acceleration by processors with high-throughput integer math pipelines. We also present a workflow for 8-bit quantization that is able to maintain accuracy within 1% of the floating-point baseline on all networks studied, including models that are more difficult to quantize, such as MobileNets and BERT-large.
翻訳日:2022-12-11 18:03:21 公開日:2020-04-20
# 非可逆関数関係を用いた因果ネットワーク学習

Causal network learning with non-invertible functional relationships ( http://arxiv.org/abs/2004.09646v1 )

ライセンス: Link先を確認
Bingling Wang and Qing Zhou(参考訳) 観測データからの因果関係の発見は多くの領域において重要な問題である。 近年,非ガウス的および非線形構造方程式モデル (SEM) を用いた因果DAGの同定可能性を確立している。 本稿では,多くのデータ領域に存在する非可逆関数で定義される非線形SEMに着目し,非可逆二変量因果モデルに対する新しいテストを提案する。 さらに、線形因果関係と非線形因果関係の両方を含むDAGの構造学習にこのテストを統合する方法を開発した。 広範な数値比較により,提案手法は既存のdag学習手法を上回り,因果関係のグラフィカル構造を同定する。 本稿では,ChIP-Seqデータからの転写因子の組合せ結合のための因果ネットワーク学習における本手法の実用化について述べる。

Discovery of causal relationships from observational data is an important problem in many areas. Several recent results have established the identifiability of causal DAGs with non-Gaussian and/or nonlinear structural equation models (SEMs). In this paper, we focus on nonlinear SEMs defined by non-invertible functions, which exist in many data domains, and propose a novel test for non-invertible bivariate causal models. We further develop a method to incorporate this test in structure learning of DAGs that contain both linear and nonlinear causal relations. By extensive numerical comparisons, we show that our algorithms outperform existing DAG learning methods in identifying causal graphical structures. We illustrate the practical application of our method in learning causal networks for combinatorial binding of transcription factors from ChIP-Seq data.
翻訳日:2022-12-11 18:02:50 公開日:2020-04-20
# 実例とグラディエント・スーパービジョンの違いを学習する

Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision ( http://arxiv.org/abs/2004.09034v1 )

ライセンス: Link先を確認
Damien Teney, Ehsan Abbasnedjad, Anton van den Hengel(参考訳) 深層学習の適用性を制限する主な課題の1つは、興味のあるタスクの基本的なメカニズムではなく、スプリアス相関の学習に対する感受性である。 結果として生じる一般化の失敗は、単に同じ分布からより多くのデータを使用するだけでは解決できない。 本稿では,既存のデータセットに見られる見過ごされた監視信号を活用することで,ニューラルネットワークの一般化能力を向上させる補助訓練目標を提案する。 異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を用い、タスクの根底にある因果構造を示す信号を与える。 これらのペアはコンピュータビジョン(視覚質問応答、マルチラベル画像分類)や自然言語処理(強調分析、自然言語推論)において、既存のデータセットで識別可能であることを示す。 新しいトレーニング目標は、反事実の例のペアでモデルの決定関数の勾配を定式化する。 このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。

One of the primary challenges limiting the applicability of deep learning is its susceptibility to learning spurious correlations rather than the underlying mechanisms of the task of interest. The resulting failure to generalise cannot be addressed by simply using more data from the same distribution. We propose an auxiliary training objective that improves the generalization capabilities of neural networks by leveraging an overlooked supervisory signal found in existing datasets. We use pairs of minimally-different examples with different labels, a.k.a counterfactual or contrasting examples, which provide a signal indicative of the underlying causal structure of the task. We show that such pairs can be identified in a number of existing datasets in computer vision (visual question answering, multi-label image classification) and natural language processing (sentiment analysis, natural language inference). The new training objective orients the gradient of a model's decision function with pairs of counterfactual examples. Models trained with this technique demonstrate improved performance on out-of-distribution test sets.
翻訳日:2022-12-11 18:02:21 公開日:2020-04-20
# 授業増分学習のためのジェネレーティブ・フィーチャー・リプレイ

Generative Feature Replay For Class-Incremental Learning ( http://arxiv.org/abs/2004.09199v1 )

ライセンス: Link先を確認
Xialei Liu, Chenshen Wu, Mikel Menta, Luis Herranz, Bogdan Raducanu, Andrew D. Bagdanov, Shangling Jui, Joost van de Weijer(参考訳) 人間は以前のタスクを忘れずに新しいタスクを学習することができるが、ニューラルネットワークは、新しいタスクと以前学習したタスクの間の壊滅的な忘れによって失敗する。 タスクIDが推論時に未知であることを意味するクラスインクリメンタル設定を考える。 古いクラスと新しいクラスの間の不均衡は、一般的にネットワークが最新のクラスに偏りをもたらす。 この不均衡問題は、以前のタスクからの例証を保存したり、イメージ再生手法を使って対処することができる。 しかし、複雑なデータセットに対する画像生成は難しい問題であるため、後者はトイデータセットにのみ適用できる。 本稿では,前例を必要としない生成的特徴リプレイに基づく不均衡問題の解決法を提案する。 そこで我々は,ネットワークを特徴抽出器と分類器の2つに分割した。 忘れないように,分類器における生成的特徴再現と特徴抽出器における特徴蒸留を組み合わせる。 特徴生成により、生成的再生の複雑さを低減し、不均衡問題を防止する。 私たちのアプローチは計算効率が高く,大規模データセットにスケーラブルです。 実験の結果,CIFAR-100 と ImageNet では,従来の連続学習に必要なストレージのごく一部しか必要とせず,現状の成果が得られた。 コードは \url{https://github.com/xialeiliu/gfr-il}。

Humans are capable of learning new tasks without forgetting previous ones, while neural networks fail due to catastrophic forgetting between new and previously-learned tasks. We consider a class-incremental setting which means that the task-ID is unknown at inference time. The imbalance between old and new classes typically results in a bias of the network towards the newest ones. This imbalance problem can either be addressed by storing exemplars from previous tasks, or by using image replay methods. However, the latter can only be applied to toy datasets since image generation for complex datasets is a hard problem. We propose a solution to the imbalance problem based on generative feature replay which does not require any exemplars. To do this, we split the network into two parts: a feature extractor and a classifier. To prevent forgetting, we combine generative feature replay in the classifier with feature distillation in the feature extractor. Through feature generation, our method reduces the complexity of generative replay and prevents the imbalance problem. Our approach is computationally efficient and scalable to large datasets. Experiments confirm that our approach achieves state-of-the-art results on CIFAR-100 and ImageNet, while requiring only a fraction of the storage needed for exemplar-based continual learning. Code available at \url{https://github.com/xialeiliu/GFR-IL}.
翻訳日:2022-12-11 18:02:06 公開日:2020-04-20
# クオリティガイドによる画像合成

Quality Guided Sketch-to-Photo Image Synthesis ( http://arxiv.org/abs/2005.02133v1 )

ライセンス: Link先を確認
Uche Osahor, Hadi Kazemi, Ali Dabouei, Nasser Nasrabadi(参考訳) アーティストが描いた顔のスケッチは、視覚識別アプリケーション、主に警察機関で広く使われているが、これらのスケッチの質は、被写体の真のアイデンティティを捉えるのに役立つすべての重要な顔の特徴を、アーティストが明確に再現する能力に依存している。 近年の研究では、これらのスケッチを可視画像に合成して視覚認識と識別を改善する試みが行われている。 しかし、スケッチからのフォトリアリスティックな画像の合成は、特に被疑者識別のような繊細なアプリケーションにおいて、さらに困難な課題であることが証明されている。 本研究では,髪の色や性などの特徴を持つ複数の合成画像に1つのスケッチを合成する,生成的対向ネットワークを採用した新しいアプローチを提案する。 複数の対象属性の属性分類を行うハイブリッド判別器と、ネットワーク内の異なる層における合成および実画像の潜在空間埋め込みの知覚的不一致を最小限に抑える品質誘導エンコーダと、合成画像の同一性を維持するアイデンティティ保存ネットワークとを、トレーニングプロセスを通して組み込む。 本手法は,合成画像の同一性を損なうことなく,複数の属性割り当てをジェネレータに組み込むことにより,合成画像の視覚的魅力を向上させることを目的とする。 我々は,CelebA,WVU Multi-modal,CelebA-HQデータセットのXDOGフィルタとCUHK,IIT-D,FERETデータセットのスケッチに基づいて訓練された補助ジェネレータを用いてスケッチを合成した。 私たちの結果は現在の芸術と比べれば印象的だ。

Facial sketches drawn by artists are widely used for visual identification applications and mostly by law enforcement agencies, but the quality of these sketches depend on the ability of the artist to clearly replicate all the key facial features that could aid in capturing the true identity of a subject. Recent works have attempted to synthesize these sketches into plausible visual images to improve visual recognition and identification. However, synthesizing photo-realistic images from sketches proves to be an even more challenging task, especially for sensitive applications such as suspect identification. In this work, we propose a novel approach that adopts a generative adversarial network that synthesizes a single sketch into multiple synthetic images with unique attributes like hair color, sex, etc. We incorporate a hybrid discriminator which performs attribute classification of multiple target attributes, a quality guided encoder that minimizes the perceptual dissimilarity of the latent space embedding of the synthesized and real image at different layers in the network and an identity preserving network that maintains the identity of the synthesised image throughout the training process. Our approach is aimed at improving the visual appeal of the synthesised images while incorporating multiple attribute assignment to the generator without compromising the identity of the synthesised image. We synthesised sketches using XDOG filter for the CelebA, WVU Multi-modal and CelebA-HQ datasets and from an auxiliary generator trained on sketches from CUHK, IIT-D and FERET datasets. Our results are impressive compared to current state of the art.
翻訳日:2022-12-11 18:00:59 公開日:2020-04-20
# MixPUL: 肯定的および未ラベル学習のための一貫性に基づく拡張

MixPUL: Consistency-based Augmentation for Positive and Unlabeled Learning ( http://arxiv.org/abs/2004.09388v1 )

ライセンス: Link先を確認
Tong Wei, Feng Shi, Hai Wang, Wei-Wei Tu. Yu-Feng Li(参考訳) 実証データとラベルなしデータ(PUラーニング)からの学習は、いくつかの例を肯定的にラベル付けした実践的アプリケーションで一般的である。 従来のPU学習研究は、データ分布が広範囲に調査されないような既存のサンプルに依存していた。 本稿では, PUデータを用いた新しい視点を提供する, \emph{consistency regularization} に基づく, 単純で効果的なデータ拡張手法を提案する。 特に、提案された--\algo-incorporates supervised and unsupervised consistency trainingは拡張データを生成する。 教師付き一貫性を容易にするために、ラベルのないデータから信頼できる負のサンプルを採掘する。 教師なしの一貫性はラベルなしのデータポイント間でさらに推奨される。 さらに、~\algo~は正とラベルなしのペア間のマージン損失を還元し、AUCを明示的に最適化し、より早く収束する。 最後に、一貫性正則化の有効性を示す一連の研究を行う。 我々は3種類の信頼な負の採鉱方法を検討した。 我々は,cifar-10データセットにおける分類誤差の平均値が16.49から13.09に向上したことを示す。

Learning from positive and unlabeled data (PU learning) is prevalent in practical applications where only a couple of examples are positively labeled. Previous PU learning studies typically rely on existing samples such that the data distribution is not extensively explored. In this work, we propose a simple yet effective data augmentation method, coined~\algo, based on \emph{consistency regularization} which provides a new perspective of using PU data. In particular, the proposed~\algo~incorporates supervised and unsupervised consistency training to generate augmented data. To facilitate supervised consistency, reliable negative examples are mined from unlabeled data due to the absence of negative samples. Unsupervised consistency is further encouraged between unlabeled datapoints. In addition,~\algo~reduces margin loss between positive and unlabeled pairs, which explicitly optimizes AUC and yields faster convergence. Finally, we conduct a series of studies to demonstrate the effectiveness of consistency regularization. We examined three kinds of reliable negative mining methods. We show that~\algo~achieves an averaged improvement of classification error from 16.49 to 13.09 on the CIFAR-10 dataset across different positive data amount.
翻訳日:2022-12-11 17:55:02 公開日:2020-04-20
# 自己組織化マップを用いたマルチラベルストリーム分類

Multi-label Stream Classification with Self-Organizing Maps ( http://arxiv.org/abs/2004.09397v1 )

ライセンス: Link先を確認
Ricardo Cerri, Joel David Costa J\'unior, Elaine Ribeiro de Faria Paiva and Jo\~ao Manuel Portela da Gama(参考訳) オフラインマルチラベル分類のための学習アルゴリズムがいくつか提案されている。 しかし、トラフィック監視、ソーシャルネットワーク、センサーといった分野のアプリケーションは、データストリームと呼ばれるデータを連続的に生成し、マルチラベル学習のバッチ化に挑戦する。 データストリームの分布に定常性が欠如しているため、このような変化(コンセプトドリフト)にオンライン適応するためには、新しいアルゴリズムが必要である。 また、現実的なアプリケーションでは、到着インスタンスの真のクラスが利用できない無限に遅延したラベルのシナリオで変更が発生する。 無限遅延ラベルを用いたマルチラベルストリーム分類のための自己組織化マップに基づくオンライン教師なしインクリメンタル手法を提案する。 分類段階では、k-nearest neighbors戦略を用いて、地図内の入賞ニューロンを計算し、オンラインのニューロン重みベクトルとデータセットラベルの濃度を調整することで概念のドリフトに適応する。 我々は,各インスタンスのラベルをベイズ則と各ニューロンの出力を用いて予測し,ストリーム内のクラスの確率と条件付き確率に適応する。 合成および実データを用いた実験により,本手法は定常およびコンセプトドリフトのシナリオにおいて,文献上のいくつかの手法と高い競合性を示す。

Several learning algorithms have been proposed for offline multi-label classification. However, applications in areas such as traffic monitoring, social networks, and sensors produce data continuously, the so called data streams, posing challenges to batch multi-label learning. With the lack of stationarity in the distribution of data streams, new algorithms are needed to online adapt to such changes (concept drift). Also, in realistic applications, changes occur in scenarios of infinitely delayed labels, where the true classes of the arrival instances are never available. We propose an online unsupervised incremental method based on self-organizing maps for multi-label stream classification with infinitely delayed labels. In the classification phase, we use a k-nearest neighbors strategy to compute the winning neurons in the maps, adapting to concept drift by online adjusting neuron weight vectors and dataset label cardinality. We predict labels for each instance using the Bayes rule and the outputs of each neuron, adapting the probabilities and conditional probabilities of the classes in the stream. Experiments using synthetic and real datasets show that our method is highly competitive with several ones from the literature, in both stationary and concept drift scenarios.
翻訳日:2022-12-11 17:54:10 公開日:2020-04-20
# 自動運転車のためのコマンドのベースライン

A Baseline for the Commands For Autonomous Vehicles Challenge ( http://arxiv.org/abs/2004.13822v1 )

ライセンス: Link先を確認
Simon Vandenhende, Thierry Deruyttere and Dusan Grujicic(参考訳) 自動運転車のためのコマンド(c4av)チャレンジでは、参加者は現実世界でオブジェクト参照タスクを解決する必要がある。 具体的には、乗客が自由形式の自然言語コマンドを自動運転車に渡すシナリオを検討する。 言語は既存のベンチマークに比べて制約が少なく、オブジェクト参照はしばしば暗黙的であるため、この問題は特に難しい。 この課題は、最近の \texttt{Talk2Car} データセットに基づいている。 この文書は、参加者が競争を始めるのを助けるためにリリースしたモデルに関する技術的な概要を提供します。 コードはhttps://github.com/talk2car/Talk2Carで見ることができる。

The Commands For Autonomous Vehicles (C4AV) challenge requires participants to solve an object referral task in a real-world setting. More specifically, we consider a scenario where a passenger can pass free-form natural language commands to a self-driving car. This problem is particularly challenging, as the language is much less constrained compared to existing benchmarks, and object references are often implicit. The challenge is based on the recent \texttt{Talk2Car} dataset. This document provides a technical overview of a model that we released to help participants get started in the competition. The code can be found at https://github.com/talk2car/Talk2Car.
翻訳日:2022-12-11 17:44:45 公開日:2020-04-20
# StereoSet:事前学習言語モデルにおけるステレオタイプバイアスの測定

StereoSet: Measuring stereotypical bias in pretrained language models ( http://arxiv.org/abs/2004.09456v1 )

ライセンス: Link先を確認
Moin Nadeem, Anna Bethke, Siva Reddy(参考訳) ステレオタイプ(英: stereotype)とは、特定の集団についての過度に一般化された信念のことであり、例えば、アジア人は数学が得意で、アジア人は悪いドライバーである。 このような信念(ビアース)は標的集団を傷つけることで知られる。 事前訓練された言語モデルは、大規模な実世界データに基づいて訓練されているため、ステレオタイプバイアスを捉えることが知られている。 これらのモデルの悪影響を評価するためには, 得られたバイアスの定量化が重要である。 バイアスの定量化に関する既存の文献は、人工的に構築されたバイアス評価文の小さなセットで事前訓練された言語モデルを評価する。 StereoSetは、英語の大規模自然データセットで、性別、職業、人種、宗教の4つの領域におけるステレオタイプバイアスを測定する。 我々は,BERT,GPT-2,RoBERTa,XLNetなどの人気モデルをデータセット上で評価し,これらのモデルが強いステレオタイプバイアスを示すことを示す。 また、将来の言語モデルのバイアスを追跡する隠れたテストセットを持つリーダーボードをhttps://stereoset.mit.edu.com/で紹介する。

A stereotype is an over-generalized belief about a particular group of people, e.g., Asians are good at math or Asians are bad drivers. Such beliefs (biases) are known to hurt target groups. Since pretrained language models are trained on large real world data, they are known to capture stereotypical biases. In order to assess the adverse effects of these models, it is important to quantify the bias captured in them. Existing literature on quantifying bias evaluates pretrained language models on a small set of artificially constructed bias-assessing sentences. We present StereoSet, a large-scale natural dataset in English to measure stereotypical biases in four domains: gender, profession, race, and religion. We evaluate popular models like BERT, GPT-2, RoBERTa, and XLNet on our dataset and show that these models exhibit strong stereotypical biases. We also present a leaderboard with a hidden test set to track the bias of future language models at https://stereoset.mit.edu
翻訳日:2022-12-11 17:44:35 公開日:2020-04-20
# headless horseman: 転校学習モデルに対する敵対的攻撃

Headless Horseman: Adversarial Attacks on Transfer Learning Models ( http://arxiv.org/abs/2004.09007v1 )

ライセンス: Link先を確認
Ahmed Abdelkader, Michael J. Curry, Liam Fowl, Tom Goldstein, Avi Schwarzschild, Manli Shu, Christoph Studer, Chen Zhu(参考訳) 伝達学習は、事前訓練されたモデルを特徴抽出器として使うタスク固有分類器の訓練を容易にする。 このような分類器に対する転送可能な攻撃のファミリーを、分類ヘッドにアクセスせずに生成し、これらを \emph{headless attack} と呼ぶ。 最初に,その特徴抽出器を用いて,被害者ネットワークへの転送攻撃に成功した。 これはラベル入りの敵対攻撃の導入を動機付けている。 この転送攻撃方法は、被害者のクラスラベル空間に関する情報を必要としない。 我々の攻撃は、CIFAR10でトレーニングされたResNet18の精度を40%以上下げる。

Transfer learning facilitates the training of task-specific classifiers using pre-trained models as feature extractors. We present a family of transferable adversarial attacks against such classifiers, generated without access to the classification head; we call these \emph{headless attacks}. We first demonstrate successful transfer attacks against a victim network using \textit{only} its feature extractor. This motivates the introduction of a label-blind adversarial attack. This transfer attack method does not require any information about the class-label space of the victim. Our attack lowers the accuracy of a ResNet18 trained on CIFAR10 by over 40\%.
翻訳日:2022-12-11 17:44:16 公開日:2020-04-20
# Singular Vector Orthogonality RegularizationとSingular Value Sparsificationによる低ランクディープニューラルネットワークの学習

Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification ( http://arxiv.org/abs/2004.09031v1 )

ライセンス: Link先を確認
Huanrui Yang, Minxue Tang, Wei Wen, Feng Yan, Daniel Hu, Ang Li, Hai Li, Yiran Chen(参考訳) 現代のディープニューラルネットワーク(DNN)は、しばしば高いメモリ消費と大きな計算負荷を必要とする。 エッジやモバイルデバイス上で効率的にDNNアルゴリズムをデプロイするために,因子化手法を含む一連のDNN圧縮アルゴリズムが検討されている。 因子化法は、DNN層の重み行列を2つまたは複数の低ランク行列の乗算で近似する。 しかし,訓練中のdnn層のランクを計測することは困難である。 従来の研究は主に暗黙の近似やコスト特異値分解(SVD)プロセスを通じて低ランクを誘導する。 前者のアプローチは通常高い精度の損失を誘発するが、後者の効率は低い。 本研究では,各ステップにSVDを適用することなく,トレーニング中に低ランクDNNを明示的に達成するためのSVDトレーニングを提案する。 SVDトレーニングはまず各レイヤをフルランクのSVDの形式に分解し、その後、分解した重量を直接トレーニングする。 特異ベクトルに直交正則化を加え、SVDの有効な形式を保証し、勾配の消滅/展開を避ける。 低ランクは各層の特異値にスパーシティー誘導正則化器を適用することで促進される。 末尾に特異値プルーニングを適用して、低ランクモデルに明示的に到達する。 SVDトレーニングはDNN層のランクを著しく下げることができ、従来の分解法だけでなく、最先端のフィルタプルーニング法と比較して、同じ精度で計算負荷の低減を実現することができることを実証的に示す。

Modern deep neural networks (DNNs) often require high memory consumption and large computational loads. In order to deploy DNN algorithms efficiently on edge or mobile devices, a series of DNN compression algorithms have been explored, including factorization methods. Factorization methods approximate the weight matrix of a DNN layer with the multiplication of two or multiple low-rank matrices. However, it is hard to measure the ranks of DNN layers during the training process. Previous works mainly induce low-rank through implicit approximations or via costly singular value decomposition (SVD) process on every training step. The former approach usually induces a high accuracy loss while the latter has a low efficiency. In this work, we propose SVD training, the first method to explicitly achieve low-rank DNNs during training without applying SVD on every step. SVD training first decomposes each layer into the form of its full-rank SVD, then performs training directly on the decomposed weights. We add orthogonality regularization to the singular vectors, which ensure the valid form of SVD and avoid gradient vanishing/exploding. Low-rank is encouraged by applying sparsity-inducing regularizers on the singular values of each layer. Singular value pruning is applied at the end to explicitly reach a low-rank model. We empirically show that SVD training can significantly reduce the rank of DNN layers and achieve higher reduction on computation load under the same accuracy, comparing to not only previous factorization methods but also state-of-the-art filter pruning methods.
翻訳日:2022-12-11 17:44:08 公開日:2020-04-20
# Dark, Beyond Deep:人間のような常識を持つ認知AIへのパラダイムシフト

Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense ( http://arxiv.org/abs/2004.09044v1 )

ライセンス: Link先を確認
Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin Liu, Feng Gao, Chi Zhang, Siyuan Qi, Ying Nian Wu, Joshua B. Tenenbaum, Song-Chun Zhu(参考訳) ディープラーニングの最近の進歩は、基本的に「小さなタスクのための大きなデータ」パラダイムに基づいており、そこでは1つの狭いタスクの分類器を訓練するために大量のデータが使用される。 本稿では,このパラダイムを逆転させるシフトを求める。 具体的には、単一の人工知能(AI)システムが「常識」を発達させることを課題とし、学習データが少なくて幅広いタスクを解決できる「ビッグデータのための小さなデータ」パラダイムを提案する。 我々は、機械と人間の視覚の両方において最近のブレークスルーを合成する常識のモデルをレビューすることで、この新しいパラダイムの潜在能力を説明する。 我々は、機能、物理学、意図、因果性、実用性(fpicu)を、人間のような常識を持つ認知aiの5つのコアドメインとして識別する。 統一概念として考えると、FPICUは、視覚を理解するための支配的な「何」と「どこに」の枠組みを超えた「なぜ」と「どのように」という問いに悩まされる。 ピクセルは見えないが、それでも視覚的なシーンの作成、維持、開発を推進している。 したがって、私たちはそれらを「暗黒の物質」と呼ぶ。 我々の宇宙は単に観測可能な物質を研究するだけでは理解できないので、FPICUを勉強しなければ視覚が理解できないと主張する。 我々は、ツールの使用、計画、ユーティリティ推論、社会学習を含む幅広い課題を解決するために、FPICUを少ないトレーニングデータで観察し、適用する方法を示すことによって、人間のような常識を持つ認知AIシステムを開発するためのこの視点の力を実証する。 まとめると、私たちは、次世代AIは、新しいタスクを解くために「暗く」人間のような常識を取り入れなければならないと論じます。

Recent progress in deep learning is essentially based on a "big data for small tasks" paradigm, under which massive amounts of data are used to train a classifier for a single narrow task. In this paper, we call for a shift that flips this paradigm upside down. Specifically, we propose a "small data for big tasks" paradigm, wherein a single artificial intelligence (AI) system is challenged to develop "common sense", enabling it to solve a wide range of tasks with little training data. We illustrate the potential power of this new paradigm by reviewing models of common sense that synthesize recent breakthroughs in both machine and human vision. We identify functionality, physics, intent, causality, and utility (FPICU) as the five core domains of cognitive AI with humanlike common sense. When taken as a unified concept, FPICU is concerned with the questions of "why" and "how", beyond the dominant "what" and "where" framework for understanding vision. They are invisible in terms of pixels but nevertheless drive the creation, maintenance, and development of visual scenes. We therefore coin them the "dark matter" of vision. Just as our universe cannot be understood by merely studying observable matter, we argue that vision cannot be understood without studying FPICU. We demonstrate the power of this perspective to develop cognitive AI systems with humanlike common sense by showing how to observe and apply FPICU with little training data to solve a wide range of challenging tasks, including tool use, planning, utility inference, and social learning. In summary, we argue that the next generation of AI must embrace "dark" humanlike common sense for solving novel tasks.
翻訳日:2022-12-11 17:36:51 公開日:2020-04-20
# CatSIM:カテゴリー的な画像類似性指標

CatSIM: A Categorical Image Similarity Metric ( http://arxiv.org/abs/2004.09073v1 )

ライセンス: Link先を確認
Geoffrey Z. Thompson and Ranjan Maitra(参考訳) 2次元および2次元および3次元画像とボリュームのための新しい類似度指標catsimを紹介する。 catsimは構造的類似性(structure similarity)のイメージ品質パラダイムを使用しており、位置の小さな摂動に頑健であるため、2つの画像の領域は単純なマッチングよりも高い評価を受けている。 メトリックは画像内の任意の領域を比較することもできる。 CatSIMは、人工データセット、画像品質評価サーベイおよび2つのイメージングアプリケーションで評価される

We introduce CatSIM, a new similarity metric for binary and multinary two- and three-dimensional images and volumes. CatSIM uses a structural similarity image quality paradigm and is robust to small perturbations in location so that structures in similar, but not entirely overlapping, regions of two images are rated higher than using simple matching. The metric can also compare arbitrary regions inside images. CatSIM is evaluated on artificial data sets, image quality assessment surveys and two imaging applications
翻訳日:2022-12-11 17:36:04 公開日:2020-04-20
# 深部畳み込み特徴空間における不変積分

Invariant Integration in Deep Convolutional Feature Space ( http://arxiv.org/abs/2004.09166v1 )

ライセンス: Link先を確認
Matthias Rath and Alexandru Paul Condurache(参考訳) このコントリビューションでは、より深いニューラルネットワークアーキテクチャに事前知識を原則的に組み込む方法について説明する。 不変積分に基づく新しい層を用いて特徴空間不変性を導入する。 これにより、有限変換群に不変な完全特徴空間を構築することができる。 提案手法は,視覚関連分類タスクの非分散特性を明示的に挿入することに適用し,回転不変性の場合のアプローチと回転mnistデータセットの最先端性能を実証する。 本手法は限られたデータでトレーニングする場合に特に有用である。

In this contribution, we show how to incorporate prior knowledge to a deep neural network architecture in a principled manner. We enforce feature space invariances using a novel layer based on invariant integration. This allows us to construct a complete feature space invariant to finite transformation groups. We apply our proposed layer to explicitly insert invariance properties for vision-related classification tasks, demonstrate our approach for the case of rotation invariance and report state-of-the-art performance on the Rotated-MNIST dataset. Our method is especially beneficial when training with limited data.
翻訳日:2022-12-11 17:35:56 公開日:2020-04-20
# GraN: 逆・誤分類用高効率グラディエントノーム型検出器

GraN: An Efficient Gradient-Norm Based Detector for Adversarial and Misclassified Examples ( http://arxiv.org/abs/2004.09179v1 )

ライセンス: Link先を確認
Julia Lust and Alexandru Paul Condurache(参考訳) ディープニューラルネットワーク(DNN)は、敵対的な例やその他のデータ摂動に対して脆弱である。 特にDNNの安全性クリティカルな応用においては、誤分類サンプルを検出することが重要である。 現在の最先端検出メソッドは、元のネットワーク自体よりもランタイムやパラメータを必要とする。 そこで本稿では,任意のdnnに適応可能な時間およびパラメータ効率のよいgranを提案する。 GraNは、バックプロパゲーションによって計算できる現在の入出力の組み合わせの損失に関するDNNの勾配のレイヤーワイズノルムに基づいている。 GraNは多くの問題セットで最先端のパフォーマンスを達成する。

Deep neural networks (DNNs) are vulnerable to adversarial examples and other data perturbations. Especially in safety critical applications of DNNs, it is therefore crucial to detect misclassified samples. The current state-of-the-art detection methods require either significantly more runtime or more parameters than the original network itself. This paper therefore proposes GraN, a time- and parameter-efficient method that is easily adaptable to any DNN. GraN is based on the layer-wise norm of the DNN's gradient regarding the loss of the current input-output combination, which can be computed via backpropagation. GraN achieves state-of-the-art performance on numerous problem set-ups.
翻訳日:2022-12-11 17:35:47 公開日:2020-04-20
# LSQ+:学習可能なオフセットによる低ビット量子化の改善とより優れた初期化

LSQ+: Improving low-bit quantization through learnable offsets and better initialization ( http://arxiv.org/abs/2004.09576v1 )

ライセンス: Link先を確認
Yash Bhalgat, Jinwon Lee, Markus Nagel, Tijmen Blankevoort, Nojun Kwak(参考訳) ReLUとは異なり、一般的な効率的なアーキテクチャで頻繁に使用される新しい活性化関数(Swish、H-swish、Mishなど)は、正と負の範囲を持つ負の活性化値をもたらす。 典型的な学習可能な量子化スキーム[PACT, LSQ]は、アクティベーションの符号なし量子化を仮定し、全ての負のアクティベーションをゼロに量子化する。 これらの負の値に対応するために符号付き量子化を用いるには、低ビット(2-, 3-, 4-bit)の量子化に費用がかかる余分な符号ビットが必要である。 この問題を解決するために、LSQの自然な拡張であるLSQ+を提案し、トレーニング可能なスケールとオフセットパラメータを持つ一般的な非対称量子化スキームを導入する。 勾配に基づく学習可能な量子化スキームは、最終訓練性能において高い不安定性やばらつきを被ることが多いため、十分な性能に達するには大量のハイパーパラメータチューニングが必要となる。 LSQ+は、量子化パラメータに対するMSEベースの初期化スキームを用いてこの問題を軽減する。 この初期化は、複数のトレーニング実行における最終性能のばらつきを著しく低減させることを示す。 全体として、LSQ+はEfficientNetとMixNetの最先端の結果を示し、Swishアクティベーションを持つニューラルネットの低ビット量子化(例えば、W4A4量子化で1.8%、ImageNetデータセットでW2A2量子化で最大5.6%)ではLSQを著しく上回っている。 私たちの知る限りでは、このようなアーキテクチャを極端に低いビット幅に定量化する最初の仕事です。

Unlike ReLU, newer activation functions (like Swish, H-swish, Mish) that are frequently employed in popular efficient architectures can also result in negative activation values, with skewed positive and negative ranges. Typical learnable quantization schemes [PACT, LSQ] assume unsigned quantization for activations and quantize all negative activations to zero which leads to significant loss in performance. Naively using signed quantization to accommodate these negative values requires an extra sign bit which is expensive for low-bit (2-, 3-, 4-bit) quantization. To solve this problem, we propose LSQ+, a natural extension of LSQ, wherein we introduce a general asymmetric quantization scheme with trainable scale and offset parameters that can learn to accommodate the negative activations. Gradient-based learnable quantization schemes also commonly suffer from high instability or variance in the final training performance, hence requiring a great deal of hyper-parameter tuning to reach a satisfactory performance. LSQ+ alleviates this problem by using an MSE-based initialization scheme for the quantization parameters. We show that this initialization leads to significantly lower variance in final performance across multiple training runs. Overall, LSQ+ shows state-of-the-art results for EfficientNet and MixNet and also significantly outperforms LSQ for low-bit quantization of neural nets with Swish activations (e.g.: 1.8% gain with W4A4 quantization and upto 5.6% gain with W2A2 quantization of EfficientNet-B0 on ImageNet dataset). To the best of our knowledge, ours is the first work to quantize such architectures to extremely low bit-widths.
翻訳日:2022-12-11 17:35:25 公開日:2020-04-20
# TVMコンパイラスタックのための翻訳テンソルアクセラレータオーバーレイのアジャイル自動チューニング

Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM Compiler Stack ( http://arxiv.org/abs/2004.10854v1 )

ライセンス: Link先を確認
Dionysios Diamantopoulos, Burkhard Ringlein, Mitra Purandare, Gagandeep Singh, and Christoph Hagleitner(参考訳) ブロック行列演算や多次元畳み込みといったテンソル操作のための特別な加速器は、高性能ディープラーニングコンピューティングの強力なアーキテクチャ選択として現れてきた。 フレームワーク、モデル、精密オプションの急速な開発は、新しい要求への適応が重要なエンジニアリングコストをもたらすため、テンソル加速器の適応性に挑戦する。 プログラム可能なテンソルアクセラレータは、物理的なFPGA構成可能なファブリックの上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。 オーバレイ({\tau}-VTA)と,アジャイルにインスパイアされた自動チューニング技術による最適化手法を提案する。 我々は最先端よりも高い性能と高速な収束を実現する。

Specialized accelerators for tensor-operations, such as blocked-matrix operations and multi-dimensional convolutions, have been emerged as powerful architecture choices for high-performance Deep-Learning computing. The rapid development of frameworks, models, and precision options challenges the adaptability of such tensor-accelerators since the adaptation to new requirements incurs significant engineering costs. Programmable tensor accelerators offer a promising alternative by allowing reconfiguration of a virtual architecture that overlays on top of the physical FPGA configurable fabric. We propose an overlay ({\tau}-VTA) and an optimization method guided by agile-inspired auto-tuning techniques. We achieve higher performance and faster convergence than state-of-art.
翻訳日:2022-12-11 17:34:02 公開日:2020-04-20
# 強化としての学習:より一般的な強化学習エージェントに神経科学の原則を適用する

Learning as Reinforcement: Applying Principles of Neuroscience for More General Reinforcement Learning Agents ( http://arxiv.org/abs/2004.09043v1 )

ライセンス: Link先を確認
Eric Zelikman, William Yin, Kenneth Wang(参考訳) うまく一般化できるaiを開発する上で、重要な課題は、何を学ぶべきかを語られずに自分の世界について学ぶエージェントを設計し、その学習を少ない報酬で課題に適用することである。 さらに、従来の強化学習のほとんどは、生物学的学習に対応しない方法で、学習と意思決定を明確に分離するアプローチである。 生物学的アルゴリズムの計算効率の高い抽象化を組み合わせることで,実験神経科学の原理を基礎としたアーキテクチャを実現する。 我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割から着想を得ている。 Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。 openai gymのマウンテンカーは、丘の上の難解な旗に触れるだけでなく、逆振り子(inverted pendulum)で、振り子の保持時間を改善するためのシンプルな戦略、ビデオストリーム、オープンとクローズドハンドの区別を自発的に学習するビデオストリーム、google chromeの恐竜ゲームのような他の環境など、多くの環境でうまく機能する。

A significant challenge in developing AI that can generalize well is designing agents that learn about their world without being told what to learn, and apply that learning to challenges with sparse rewards. Moreover, most traditional reinforcement learning approaches explicitly separate learning and decision making in a way that does not correspond to biological learning. We implement an architecture founded in principles of experimental neuroscience, by combining computationally efficient abstractions of biological algorithms. Our approach is inspired by research on spike-timing dependent plasticity, the transition between short and long term memory, and the role of various neurotransmitters in rewarding curiosity. The Neurons-in-a-Box architecture can learn in a wholly generalizable manner, and demonstrates an efficient way to build and apply representations without explicitly optimizing over a set of criteria or actions. We find it performs well in many environments including OpenAI Gym's Mountain Car, which has no reward besides touching a hard-to-reach flag on a hill, Inverted Pendulum, where it learns simple strategies to improve the time it holds a pendulum up, a video stream, where it spontaneously learns to distinguish an open and closed hand, as well as other environments like Google Chrome's Dinosaur Game.
翻訳日:2022-12-11 17:28:00 公開日:2020-04-20
# VOWEL: 確率スパイク勝利者全回路のリカレントネットワークのためのローカルオンライン学習ルール

VOWEL: A Local Online Learning Rule for Recurrent Networks of Probabilistic Spiking Winner-Take-All Circuits ( http://arxiv.org/abs/2004.09416v1 )

ライセンス: Link先を確認
Hyeryung Jang, Nicolas Skatchkovsky and Osvaldo Simeone(参考訳) スパイキングニューロンとWinner-Take-Allスパイキング回路(WTA-SNN)のネットワークは、時空間多値イベントに符号化された情報を検出することができる。 これらは、例えばクリックのような興味のあるイベントのタイミングや、各イベントに割り当てられたカテゴリー的な数値(例えば、好き嫌い)によって記述される。 その他のユースケースとしては、ニューロモルフィックカメラが収集したデータからのオブジェクト認識がある。 WTA-SNNをトレーニングするための既存のスキームはレートエンコーディングのソリューションに限られており、したがって空間パターンのみを検出することができる。 任意のWTA-SNNのためのより一般的なトレーニングアルゴリズムの開発は、トレーニング(バイナリ)スパイキングニューラルネットワーク(SNN)の課題を継承する。 これらの量は、特に閾値関数の非微分性、スパイク神経モデルの再発行動、神経形態的ハードウェアにおけるバックプロパゲーションの実装の難しさに寄与している。 本稿では,VOWELと呼ばれるWTA-SNNの局所的局所学習ルールを開発し,視覚回路に局所的前・後情報のみを活用するとともに,隠れ回路に共通報酬信号を追加する。 この方法は確率的一般化線形神経モデル、制御変数、変動正規化に基づいている。 多値イベントを持つ実世界のニューロモルフィックデータセットの実験結果は、特に限られた計算資源の存在下で、最先端の手法で訓練された従来のバイナリSNNよりもWTA-SNNの利点を示す。

Networks of spiking neurons and Winner-Take-All spiking circuits (WTA-SNNs) can detect information encoded in spatio-temporal multi-valued events. These are described by the timing of events of interest, e.g., clicks, as well as by categorical numerical values assigned to each event, e.g., like or dislike. Other use cases include object recognition from data collected by neuromorphic cameras, which produce, for each pixel, signed bits at the times of sufficiently large brightness variations. Existing schemes for training WTA-SNNs are limited to rate-encoding solutions, and are hence able to detect only spatial patterns. Developing more general training algorithms for arbitrary WTA-SNNs inherits the challenges of training (binary) Spiking Neural Networks (SNNs). These amount, most notably, to the non-differentiability of threshold functions, to the recurrent behavior of spiking neural models, and to the difficulty of implementing backpropagation in neuromorphic hardware. In this paper, we develop a variational online local training rule for WTA-SNNs, referred to as VOWEL, that leverages only local pre- and post-synaptic information for visible circuits, and an additional common reward signal for hidden circuits. The method is based on probabilistic generalized linear neural models, control variates, and variational regularization. Experimental results on real-world neuromorphic datasets with multi-valued events demonstrate the advantages of WTA-SNNs over conventional binary SNNs trained with state-of-the-art methods, especially in the presence of limited computing resources.
翻訳日:2022-12-11 17:27:37 公開日:2020-04-20
# 創発言語における構成性と一般化

Compositionality and Generalization in Emergent Languages ( http://arxiv.org/abs/2004.09124v1 )

ライセンス: Link先を確認
Rahma Chaabouni, Eugene Kharitonov, Diane Bouchacourt, Emmanuel Dupoux, Marco Baroni(参考訳) 自然言語は,「emph{compositionality}」という性質を体系的な規則に従って表現することで,新しい合成概念を表現できる。 本稿では, 深層マルチエージェントシミュレーションに現れる言語が, 新規なプリミティブな組み合わせに類似する能力を持っているか, 人間の言語構成性に類似した戦略によって, この成果を達成できるかを検討する。 表現学習における絡み合いに触発された創発的言語の構成性を測定する新しい方法を備えることにより,3つの主結果を得た。 まず、十分に大きな入力空間が与えられると、創発的言語は自然に新しい複合概念を参照する能力が発達する。 第二に、創発言語の構成性の程度と一般化する能力の間には相関関係がない。 第3に、構成性は一般化には必要ないが、言語伝達の観点からは利点がある: 構成的言語がより多くなればなるほど、後者が元のエージェントとアーキテクチャが異なる場合でも、新しい学習者によって習得される。 構成性は単純な一般化圧力から生じるものではないと結論づけるが、創発言語がそれにチャンスを与えたら、生き残り、繁栄する可能性が高い。

Natural language allows us to refer to novel composite concepts by combining expressions denoting their parts according to systematic rules, a property known as \emph{compositionality}. In this paper, we study whether the language emerging in deep multi-agent simulations possesses a similar ability to refer to novel primitive combinations, and whether it accomplishes this feat by strategies akin to human-language compositionality. Equipped with new ways to measure compositionality in emergent languages inspired by disentanglement in representation learning, we establish three main results. First, given sufficiently large input spaces, the emergent language will naturally develop the ability to refer to novel composite concepts. Second, there is no correlation between the degree of compositionality of an emergent language and its ability to generalize. Third, while compositionality is not necessary for generalization, it provides an advantage in terms of language transmission: The more compositional a language is, the more easily it will be picked up by new learners, even when the latter differ in architecture from the original agents. We conclude that compositionality does not arise from simple generalization pressure, but if an emergent language does chance upon it, it will be more likely to survive and thrive.
翻訳日:2022-12-11 17:26:54 公開日:2020-04-20
# 接地型言語ゲームによる創発的コミュニケーションの実践的ガイド

A Practical Guide to Studying Emergent Communication through Grounded Language Games ( http://arxiv.org/abs/2004.09218v1 )

ライセンス: Link先を確認
Jens Nevens and Paul Van Eecke and Katrien Beuls(参考訳) 特定のタスクを解決する必要があるエージェント集団において、効果的で効率的なコミュニケーションシステムがどのように出現するかという問題は、人工知能、言語学、統計物理学など、多くの分野の研究者からますます注目を集めている。 この問題を研究する一般的な方法は、複数のエージェントが「言語ゲーム」と呼ばれる一連のスクリプトおよびタスク指向のコミュニケーションインタラクションに参加するマルチエージェント実験を行うことである。 個々の言語ゲームは一般的に2人のエージェントによってプレイされるが、大規模なゲームでは共有通信システムに集団が収束する。 マルチエージェント実験の実行、センサーやアクチュエータとのインタラクション、意味構造の概念化と解釈、そしてこれらの意味構造と言語発話のマッピングには、さまざまなソフトウェアコンポーネントが必要です。 この論文の目的は二つある。 一方で、babelソフトウェアシステムを拡張したハイレベルなロボットインタフェースを導入し、先進的な接地型言語ゲーム実験に必要な各サブタスクを処理するためのフレキシブルなモジュールを提供するツールキットを初めて提示する。 一方で,このツールキットを用いて実験を行うための実践的なガイドを提供するとともに,実例としてグラウンドドカラー命名ゲーム実験を取り上げている。

The question of how an effective and efficient communication system can emerge in a population of agents that need to solve a particular task attracts more and more attention from researchers in many fields, including artificial intelligence, linguistics and statistical physics. A common methodology for studying this question consists of carrying out multi-agent experiments in which a population of agents takes part in a series of scripted and task-oriented communicative interactions, called 'language games'. While each individual language game is typically played by two agents in the population, a large series of games allows the population to converge on a shared communication system. Setting up an experiment in which a rich system for communicating about the real world emerges is a major enterprise, as it requires a variety of software components for running multi-agent experiments, for interacting with sensors and actuators, for conceptualising and interpreting semantic structures, and for mapping between these semantic structures and linguistic utterances. The aim of this paper is twofold. On the one hand, it introduces a high-level robot interface that extends the Babel software system, presenting for the first time a toolkit that provides flexible modules for dealing with each subtask involved in running advanced grounded language game experiments. On the other hand, it provides a practical guide to using the toolkit for implementing such experiments, taking a grounded colour naming game experiment as a didactic example.
翻訳日:2022-12-11 17:26:32 公開日:2020-04-20
# 変分テキストモデリングにおけるエンコーダ・デコーダ不適合性について

On the Encoder-Decoder Incompatibility in Variational Text Modeling and Beyond ( http://arxiv.org/abs/2004.09189v1 )

ライセンス: Link先を確認
Chen Wu, Prince Zizhuang Wang, William Yang Wang(参考訳) 変分オートエンコーダ(vaes)は、潜在変数と不定形変分推論を結合し、その最適化は通常、自明な局所最適項の後方崩壊(特にテキストモデリングにおいて)に収束する。 最適化のダイナミクスを追跡することにより,データ多様体のパラメータ化の低下につながるエンコーダ・デコーダの不整合性を観測する。 後続のネットワークはそれらの間の遷移マップの一部であるため、エンコーダとデコーダのパラメータ化を改善することで、自明な局所最適化を避けることができる。 そこで本研究では,VAEモデルと決定論的オートエンコーダを同一構造で結合し,エンコーダの重み付けとデコーダ信号マッチングにより,エンコーダとデコーダのパラメータ化を改善したCoupled-VAEを提案する。 提案手法を,正規化,後続系,デコーダ構造,最適化戦略の異なる様々なVAEモデルに適用する。 ベンチマークデータセット(TB、Yelp、Yahoo)の実験は、潜在空間の確率推定とリッチネスの観点から一貫して改善された結果を示している。 また,本手法を条件付き言語モデルに一般化し,Switchboardデータセット上での対話生成の多様性を大幅に改善する結合CVAEを提案する。

Variational autoencoders (VAEs) combine latent variables with amortized variational inference, whose optimization usually converges into a trivial local optimum termed posterior collapse, especially in text modeling. By tracking the optimization dynamics, we observe the encoder-decoder incompatibility that leads to poor parameterizations of the data manifold. We argue that the trivial local optimum may be avoided by improving the encoder and decoder parameterizations since the posterior network is part of a transition map between them. To this end, we propose Coupled-VAE, which couples a VAE model with a deterministic autoencoder with the same structure and improves the encoder and decoder parameterizations via encoder weight sharing and decoder signal matching. We apply the proposed Coupled-VAE approach to various VAE models with different regularization, posterior family, decoder structure, and optimization strategy. Experiments on benchmark datasets (i.e., PTB, Yelp, and Yahoo) show consistently improved results in terms of probability estimation and richness of the latent space. We also generalize our method to conditional language modeling and propose Coupled-CVAE, which largely improves the diversity of dialogue generation on the Switchboard dataset.
翻訳日:2022-12-11 17:26:09 公開日:2020-04-20
# 幾何学的単語メタ埋め込みの学習

Learning Geometric Word Meta-Embeddings ( http://arxiv.org/abs/2004.09219v1 )

ライセンス: Link先を確認
Pratik Jawanpuria, N T V Satya Dev, Anoop Kunchukuttan, Bamdev Mishra(参考訳) 異なる埋め込み源から単語のメタ埋め込みを学習するための幾何学的枠組みを提案する。 我々のフレームワークは埋め込みを共通の潜在空間に変換し、例えば、異なる埋め込み(与えられた単語の)の単純な平均化はより快適である。 提案された潜在空間は、直交回転とマハラノビス計量スケーリングという2つの幾何学的変換から生じる。 いくつかの単語類似性および単語類似性ベンチマークの実証結果から,提案手法の有効性が示された。

We propose a geometric framework for learning meta-embeddings of words from different embedding sources. Our framework transforms the embeddings into a common latent space, where, for example, simple averaging of different embeddings (of a given word) is more amenable. The proposed latent space arises from two particular geometric transformations - the orthogonal rotations and the Mahalanobis metric scaling. Empirical results on several word similarity and word analogy benchmarks illustrate the efficacy of the proposed framework.
翻訳日:2022-12-11 17:25:45 公開日:2020-04-20