このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200824となっている論文です。

PDF登録状況(公開日: 20200824)

TitleAuthorsAbstract論文公表日・翻訳日
# 経路積分からの弱値

Weak values from path integrals ( http://arxiv.org/abs/2002.00832v2 )

ライセンス: Link先を確認
A. Matzkin(参考訳) 我々は弱測定フレームワークを量子力学の経路積分定式化と結びつける。 ファインマンプロパゲータは, 原理上, 弱値測定から実験的に推定できることを示す。 また、システムとプローブの間の弱い結合の量子的側面と古典的側面をあいまいに解析する弱い値の式を得る。 これらの表現は、量子カオス関連の研究(量子障害を含む図解が与えられる)や、現在の弱値関連論争の解決(干渉計における不連続な軌跡の存在と古典的極限における異常な弱値の問題)に有用であることが示されている。

We connect the weak measurements framework to the path integral formulation of quantum mechanics. We show how Feynman propagators can in principle be experimentally inferred from weak value measurements. We also obtain expressions for weak values parsing unambiguously the quantum and the classical aspects of weak couplings between a system and a probe. These expressions are shown to be useful in quantum chaos related studies (an illustration involving quantum scars is given), and also in solving current weak-value related controversies (we discuss the existence of discontinuous trajectories in interferometers and the issue of anomalous weak values in the classical limit).
翻訳日:2023-06-04 20:41:15 公開日:2020-08-24
# 生体信号検出のためのダイヤモンド窒素空孔中心磁力計の最適化

Optimisation of a diamond nitrogen vacancy centre magnetometer for sensing of biological signals ( http://arxiv.org/abs/2004.02279v2 )

ライセンス: Link先を確認
James Webb, Luca Troise, Nikolaj W. Hansen, Jocelyn Achard, Ovidiu Brinza, Robert Staacke, Michael Kieschnick, Jan Meijer, Jean-Fran\c{c}ois Perrier, Kirstine Berg S{\o}rensen, Alexander Huck and Ulrik Lund Andersen(参考訳) 神経の作用電位伝播などの生物学的過程からの信号のセンシングは臨床診断と生理学の基本的な理解に不可欠である。 センシングは、よく確立された電気生理学的手法を用いて、生体標本または解剖組織にセンサープローブを配置することで電気的に行うことができる。 しかし、これらの電気プローブ技術は空間分解能が悪く、生体内の組織、特に脳内の組織に容易にアクセスできない。 別のアプローチは、電気信号の通過によって誘導される磁場を検知し、電気的接触なしに等価な読み出しを与える。 このような測定は今日、空間分解能の低いバルクで高価な超伝導センサを用いて行われる。 代替として、窒素空洞(NV)センターをダイヤモンドに使用し、低温冷却なしで生体適合性と高い感度を約束する。 本研究では,nvセンタを用いた生体磁気計測の進歩を示し,生体計測のための設定を用いて,直流/低周波領域で約100 pt/$\sqrt{hz}$の磁場感度を示す。 生体試料(マウス脳スライス)を用いた装置の生体適合性を研究・最適化し,パルス磁気メソメトリーによる感度改善に向けた取り組みを示す。 バルク磁力測定に加え,NVアンサンブル広視野蛍光画像の系統的アーティファクトについて検討した。

Sensing of signals from biological processes, such as action potential propagation in nerves, are essential for clinical diagnosis and basic understanding of physiology. Sensing can be performed electrically by placing sensor probes near or inside a living specimen or dissected tissue using well established electrophysiology techniques. However, these electrical probe techniques have poor spatial resolution and cannot easily access tissue deep within a living subject, in particular within the brain. An alternative approach is to detect the magnetic field induced by the passage of the electrical signal, giving the equivalent readout without direct electrical contact. Such measurements are performed today using bulky and expensive superconducting sensors with poor spatial resolution. An alternative is to use nitrogen vacancy (NV) centres in diamond that promise biocompatibilty and high sensitivity without cryogenic cooling. In this work we present advances in biomagnetometry using NV centres, demonstrating magnetic field sensitivity of approximately 100 pT/$\sqrt{Hz}$ in the DC/low frequency range using a setup designed for biological measurements. Biocompatibility of the setup with a living sample (mouse brain slice) is studied and optimized, and we show work toward sensitivity improvements using a pulsed magnetometry scheme. In addition to the bulk magnetometry study, systematic artifacts in NV-ensemble widefield fluorescence imaging are investigated.
翻訳日:2023-05-26 08:25:56 公開日:2020-08-24
# twitter上でのcovid-19誤情報の探索的研究

An Exploratory Study of COVID-19 Misinformation on Twitter ( http://arxiv.org/abs/2005.05710v2 )

ライセンス: Link先を確認
Gautam Kishore Shahi and Anne Dirkson and Tim A. Majchrzak(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、ソーシャルメディアは誤報の本拠地となっている。 このインフォデミックに取り組むためには、科学的監視と危機管理の実践者によるより良い理解が必要である。 我々は、早期の知見を得るために、covid-19の話題に関するtwitter上の誤情報の伝播、著者、およびコンテンツを探索的に調査した。 われわれは、2020年1月から7月半ばにかけて、92以上のプロのファクトチェック組織による、COVID-19関連の事実チェック済みのクレームの評決で言及されたすべてのツイートを収集し、このコーパスをコミュニティと共有した。 その結果、それぞれ1,500件のツイートが1,274件、一部は276件になった。 著者アカウントの探索分析により、確認済みのTwitterハンドル(オーガナイゼーションやセレブリティを含む)も、偽情報の作成(新しいツイート)や拡散(リツイート)に関わっていることが明らかになった。 さらに,偽クレームは部分的虚偽クレームよりも高速に伝播することがわかった。 新型コロナウイルス(COVID-19)のツイートの背景コーパスと比較すると、誤情報のあるツイートは、ソーシャルメディア上で他の情報を識別することに関心があることが多い。 著者は仮の言語をあまり用いず、他人への潜在的な害の懸念によってより駆動されているように見える。 この結果から,このトピックの現在の科学的カバレッジのギャップを指摘できると同時に,当局やソーシャルメディア利用者が誤情報に対処するためのアクションも提案できる。

During the COVID-19 pandemic, social media has become a home ground for misinformation. To tackle this infodemic, scientific oversight, as well as a better understanding by practitioners in crisis management, is needed. We have conducted an exploratory study into the propagation, authors and content of misinformation on Twitter around the topic of COVID-19 in order to gain early insights. We have collected all tweets mentioned in the verdicts of fact-checked claims related to COVID-19 by over 92 professional fact-checking organisations between January and mid-July 2020 and share this corpus with the community. This resulted in 1 500 tweets relating to 1 274 false and 276 partially false claims, respectively. Exploratory analysis of author accounts revealed that the verified twitter handle(including Organisation/celebrity) are also involved in either creating (new tweets) or spreading (retweet) the misinformation. Additionally, we found that false claims propagate faster than partially false claims. Compare to a background corpus of COVID-19 tweets, tweets with misinformation are more often concerned with discrediting other information on social media. Authors use less tentative language and appear to be more driven by concerns of potential harm to others. Our results enable us to suggest gaps in the current scientific coverage of the topic as well as propose actions for authorities and social media users to counter misinformation.
翻訳日:2023-05-20 11:48:21 公開日:2020-08-24
# 衛星・地球通信路上の連続可変量子鍵分布の実用可能性評価

Feasibility Assessment For Practical Continuous Variable Quantum Key Distribution Over The Satellite-to-Earth Channel ( http://arxiv.org/abs/2005.10468v4 )

ライセンス: Link先を確認
Sebastian Kish, Eduardo Villase\~nor, Robert Malaney, Kerry Mudge, Kenneth Grant(参考訳) 現在、連続変数(CV)技術を用いた量子鍵分布(QKD)は、短距離地上リンク上でのみ実証されている。 ここでは、より長い衛星間通信路上のCV-QKDが実現可能かどうかを問う。 この目的のために、衛星から地球へのチャンネル上でCV-QKDを可能にする概念と技術についてレビューする。 次に、無限鍵極限において、最も単純なQKDプロトコル、ホモダイン検出のコヒーレント状態(CS)QKDプロトコル、ヘテロダイン検出のCS-QKDプロトコルを考える。 次に、汎用攻撃に対する完全なセキュリティが知られている有限鍵の実用的設定におけるヘテロダイン検出によるCS-QKDプロトコルに焦点を当てる。 我々は、衛星と地球の間の通信路における関連するノイズ条件とその秘密鍵レートへの影響に特に注意を払う。 回折が損失を支配しているシステムセットアップにおいて、全余剰雑音の主な成分は、シンチレーションによる強度変動と、信号と局所振動子の時間的変動である。 我々は,多種多様な実用システムモデルにおいて,衛星・地球通信路における情報理論セキュリティを備えたCS-QKDが実現可能であると結論付けた。

Currently, quantum key distribution (QKD) using continuous variable (CV) technology has only been demonstrated over short-range terrestrial links. Here we attempt to answer whether CV-QKD over the much longer satellite-to-Earth channel is feasible. To this end, we first review the concepts and technologies that will enable CV-QKD over the satellite-to-Earth channels. We then consider, in the infinite key limit, the simplest-to-deploy QKD protocols, the coherent state (CS) QKD protocol with homodyne detection and the CS-QKD protocol with heterodyne detection. We then focus on the CS-QKD protocol with heterodyne detection in the pragmatic setting of finite keys, where complete security against general attacks is known. We pay particular attention to the relevant noise terms in the satellite-to-Earth channel and their impact on the secret key rates. In system set-ups where diffraction dominates losses, we find that the main components of the total excess noise are the intensity fluctuations due to scintillation, and the time-of-arrival fluctuations between signal and local oscillator. We conclude that for a wide range of pragmatic system models, CS-QKD with information-theoretic security in the satellite-to-Earth channel is feasible.
翻訳日:2023-05-19 03:49:07 公開日:2020-08-24
# garfinkle-horowitz-strominger拡張ブラックホールのエントロピー不確かさ関係

Entropic uncertainty relation in Garfinkle-Horowitz-Strominger dilation black hole ( http://arxiv.org/abs/2006.03387v4 )

ライセンス: Link先を確認
Fariba Shahbazi, Soroush Haseli, Hazhir Dolatkhah, Shahriar Salimi(参考訳) ハイゼンベルクの不確実性原理は量子力学の基本的な要素である。 これは、2つの不整合可観測体の測定結果を同時に予測する能力に縛られる。 量子情報理論では、不確実性原理はエントロピー測度を用いて表すことができる。 追加粒子を記憶粒子として考慮することにより、エントロピーの不確かさ関係を改善することができる。 記憶粒子と測定粒子との量子相関の存在は不確かさを減少させる。 曲がった時空において、ホーキング放射の存在は量子相関を減少させることができる。 したがって、量子相関とエントロピー不確実性下界の関係については、ホーキング放射がエントロピー不確実性下界を増大させると予想する。 本研究では,garfinkle-horowitz-strominger (ghs) 拡張ブラックホールのエントロピー不確かさ関係について検討する。 我々は、記憶粒子がブラックホールの外側の事象の地平線の近くに位置し、測定された粒子が自由落下するモデルを考える。 提案モデルを研究するために、diracフィールドの例を考察する。 また,ホーキング放射が量子秘密鍵速度に与える影響についても検討した。

Heisenberg's uncertainty principle is a fundamental element in quantum mechanics. It sets a bound on our ability to predict the measurement outcomes of two incompatible observables simultaneously. In quantum information theory, the uncertainty principle can be expressed using entropic measures. The entropic uncertainty relation can be improved by considering an additional particle as a memory particle. The presence of quantum correlation between the memory particle and the measured particle reduces the uncertainty. In a curved space-time, the presence of the Hawking radiation can reduce quantum correlation. Therefore, concerning the relationship between the quantum correlation and entropic uncertainty lower bound, we expect that the Hawking radiation increases the entropic uncertainty lower bound. In this work, we investigate the entropic uncertainty relation in Garfinkle-Horowitz-Strominger (GHS) dilation black hole. We consider a model in which the memory particle is located near the event horizon outside the black hole, while the measured particle is free falling. To study the proposed model, we will consider examples with Dirac fields. We also explore the effect of the Hawking radiation on the quantum secret key rate.
翻訳日:2023-05-17 02:09:20 公開日:2020-08-24
# 量子ランダム写像は、ユニタリ変換を既約行列の高次元にマッピングしてマルコフ連鎖の上を歩く

Mapping quantum random walks onto a Markov chain by mapping a unitary transformation to a higher dimension of an irreducible matrix ( http://arxiv.org/abs/2006.11090v5 )

ライセンス: Link先を確認
Arie Bar-Haim(参考訳) ここでは、時間と空間において離散的な新しい2次元プロセスを導入し、ランダムウォークと量子ランダムウォークの両方の結果を得る。 このモデルでは、2つのコイン状態 |1>, |0> の代わりに、4つのコイン状態 |1>,-|1>, |0> -|0> の空間における人口分布を記述する。 境界条件が存在しない場合、モデルが確率行列を持つマルコフ連鎖、すなわち、4つのコイン状態の集団分布を保存し、適切な変換を用いることで、2つの量子状態 |1>, |0> の空間における確率分布をユニタリ作用素と同様に得る。 無限線および有限線上の量子ランダムウォークの数値計算結果を紹介する。

Here, a new two-dimensional process, discrete in time and space, that yields the results of both a random walk and a quantum random walk, is introduced. This model describes the population distribution of four coin states |1>,-|1>, |0> -|0> in space without interference, instead of two coin states |1>, |0> .For the case of no boundary conditions, the model is similar to a Markov chain with a stochastic matrix, i.e., it conserves the population distribution of the four coin states, and by using a proper transformation, yield probability distributions of the two quantum states |1>, |0> in space, similar to a unitary operator. Numerical results for a quantum random walk on infinite and finite lines are introduced.
翻訳日:2023-05-13 11:21:37 公開日:2020-08-24
# 楕円偏光を伴うラビ問題

The Rabi problem with elliptic polarization ( http://arxiv.org/abs/2006.16948v2 )

ライセンス: Link先を確認
Heinz-J\"urgen Schmidt(参考訳) 古典/量子スピンの運動方程式の解を単色、楕円偏極外部場に導いたものと考える。 古典的ラビ問題は多項式係数を持つ3階微分方程式に還元することができ、従って線形分極に生じる収束したフン方程式に類似したパワー級数で解かれる。 フロケ理論の適用により、物理的に興味深い準エネルギーが問題パラメータの関数および共鳴周波数のブロッホ・ジーガートシフトの式として得られる。 様々なリミットケースが徹底的に調査されている。

We consider the solution of the equation of motion of a classical/quantum spin subject to a monochromatical, elliptically polarized external field. The classical Rabi problem can be reduced to third order differential equations with polynomial coefficients and hence solved in terms of power series in close analogy to the confluent Heun equation occurring for linear polarization. Application of Floquet theory yields the physically interesting quasienergy as a function of the parameters of the problem and expressions for the Bloch-Siegert shift of resonance frequencies. Various limit cases cases have been thoroughly investigated.
翻訳日:2023-05-12 01:17:03 公開日:2020-08-24
# 学際的応用による関数型プログラミング研究への興味の高まり

How to Increase Interest in Studying Functional Programming via Interdisciplinary Application ( http://arxiv.org/abs/2007.11070v2 )

ライセンス: Link先を確認
Pedro Figueir\^edo (E\"otv\"os Lor\'and University), Yuri Kim (E\"otv\"os Lor\'and University), Nghia Le Minh (E\"otv\"os Lor\'and University), Evan Sitt (E\"otv\"os Lor\'and University), Xue Ying (E\"otv\"os Lor\'and University), Vikt\'oria Zs\'ok (E\"otv\"os Lor\'and University)(参考訳) 関数型プログラミングは、ソフトウェアを適用し実装するためのモダンなツールである。 state of the art in functional programmingはこのパラダイムにおける方法論の増加を報告している。 しかし、広範な学際的応用が欠落している。 我々のゴールは、アプリケーションを用いて関数型プログラミングのさらなる研究を進めることへの学生の関心を高めることである。 本論文では,ポジティブな結果と学生のフィードバックを得た授業経験について述べる。

Functional programming represents a modern tool for applying and implementing software. The state of the art in functional programming reports an increasing number of methodologies in this paradigm. However, extensive interdisciplinary applications are missing. Our goal is to increase student interest in pursuing further studies in functional programming with the use of an application: the ray tracer. We conducted a teaching experience, with positive results and student feedback, described here in this paper.
翻訳日:2023-05-08 20:39:07 公開日:2020-08-24
# テンソルネットワークの収縮とBreief Propagationアルゴリズム

Tensor Networks contraction and the Belief Propagation algorithm ( http://arxiv.org/abs/2008.04433v2 )

ライセンス: Link先を確認
Roy Alkabetz, Itai Arad(参考訳) Belief Propagation(英語版)は、グラフィカルモデル上で実行されるよく研究されたメッセージパッシングアルゴリズムであり、局所限界の近似と近似に使用できる。 結果として得られる近似は、統計力学のベーテ・ピエルス近似と等価である。 本稿では,このアルゴリズムをPEPSテンソルネットワークの世界に適用し,近似収縮スキームとして用いる方法を示す。 さらに、結果の近似は、Simple-Updateアルゴリズムで使用される `mean field'' 近似と等価であることを示し、後者が本質的にBethe-Peierls近似であることを示す。 これは、テンソルネットワークに対する最も単純な近似縮小アルゴリズムの1つが、一般にグラフィカルモデルにおける限界を近似するための最も単純なスキームの1つと等価であることを示し、bpの改良をテンソルネットワークのアルゴリズムとして使用する方法を示している。

Belief Propagation is a well-studied message-passing algorithm that runs over graphical models and can be used for approximate inference and approximation of local marginals. The resulting approximations are equivalent to the Bethe-Peierls approximation of statistical mechanics. Here we show how this algorithm can be adapted to the world of PEPS tensor networks and used as an approximate contraction scheme. We further show that the resultant approximation is equivalent to the ``mean field'' approximation that is used in the Simple-Update algorithm, thereby showing that the latter is a essentially the Bethe-Peierls approximation. This shows that one of the simplest approximate contraction algorithms for tensor networks is equivalent to one of the simplest schemes for approximating marginals in graphical models in general, and paves the way for using improvements of BP as tensor networks algorithms.
翻訳日:2023-05-06 15:50:56 公開日:2020-08-24
# 子どものオンライン行動とリスクの理解 : 10歳から18歳の大規模全国調査の結果から

Understanding the online behavior and risks of children: results of a large-scale national survey on 10-18 year olds ( http://arxiv.org/abs/2008.10274v1 )

ライセンス: Link先を確認
Evangelia Daskalaki, Katerina Psaroudaki, Marieva Karkanaki, Paraskevi Fragopoulou(参考訳) インターネットは私たちの生活に新たな知識、コミュニケーション、エンターテイメントの地平を開いた。 この方法で若者は、スキルを高め、知識と創造性を高めることができる豊富な機会と活動を与えられます。 しかし、若者のオンラインのエンゲージメントは、しばしば子供たちに偶然または故意に遭遇する重大なリスクを伴う。 新たなオンラインサービスが前例のないスピードで出現し、国際的にも、急速に変化する環境と、子どもの発達、機会、生活を危険にさらす可能性のある、関連するリスク要因を継続的に監視し調査する必要性が高まっている。 ギリシャのsafety internet centerは、子供のインターネットへの関与を理解するために、2つの大規模な調査を実施した。 第1回調査は2018年末にギリシャ教育・宗教省の承認を得て行われ、ギリシャの5つの都市に400の学校が広がる10-18歳の14,000人の生徒を対象にオンラインで実施された。 翌年,ギリシャの6都道府県の500校から同年齢の13,000人の生徒を対象に,フォローアップ調査が実施された。 我々の知る限り、ギリシャでこのような規模の全国調査が行われたのはこれが初めてである。 本論文は,収集したデータの分析を行い,インターネット利用やオンライン行動,親のエンゲージメント,子どもの信頼度,デジタルリテラシー,ソーシャルメディア,オンラインリスクといった特定のテーマ領域に関する国際標準に基づいて,調査を定式化し,実施した方法論について述べる。 結果は主に教育水準と性別に基づいて分析された。

The Internet has opened up new horizons of knowledge, communication and entertainment in our lives. Through this, young people are presented with a wealth of opportunities and activities that can enhance their skills and empower their knowledge and creativity. However, the online engagement of young people often comes with significant risks, encountered by children accidentally or deliberately. The emergence of new online services at an unprecedented speed and innovation brings the need, internationally, for a constant monitoring and investigation of the rapidly changing landscape and the associated emerging risk factors that could potentially jeopardize children's development, opportunities and lives. The Greek Safer Internet Center conducted two large-scale surveys to understand children's internet engagement, aiming to contribute towards improved child protection policies that could guide the efforts of key stakeholders towards a safer cyberspace. The first survey took place at the end of 2018, with the approval of the Greek Ministry of Education and Religious Affairs, and was conducted online among 14,000 pupils aged 10-18 years from 400 schools spread in five different urban areas of Greece. A follow up survey was realized the following year, among 13,000 students of the same age group from 500 school units in six different prefectures of Greece. To our knowledge, it is the first tie national surveys of such scale are conducted in Greece. The paper presents the analysis of the collected data, and describe the underlined methodology based on which the survey was formulated and conducted according to international standards, around specific thematic areas, namely internet use and online behavior, parental engagement, confidence level of children, digital literacy, social media, and online risks. The results were mainly analysed based on educational level and gender.
翻訳日:2023-05-05 02:22:58 公開日:2020-08-24
# 3レベル量子冷蔵庫の統一トレードオフ最適化

Unified trade-off optimization of a three-level quantum refrigerator ( http://arxiv.org/abs/2008.10258v1 )

ライセンス: Link先を確認
Kirandeep Kaur, Varinder Singh, Jatin Ghai, Satyajit Jena, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 本研究では,熱機器のエネルギー損失とエネルギー損失の妥協を表すトレードオフ目的関数である$\omega$関数を用いた3段階量子冷凍機の最適性能について検討する。 まず, 2パラメータ最適化方式を用いて冷凍機の性能を最適化し, 得られた性能係数(COP)のシリーズ展開における最初の2項が, 古典的な冷凍機モデルと一致することを示す。 そして、高温限界において、一方のパラメータに対して他方のパラメータを制約しながら最適化し、強いおよび弱い(中間的な)物質-磁場のカップリング条件に対してCOP上の下限と上限を求める。 強い物質場結合法では、コップ上の得られる境界は、古典的冷蔵庫のいくつかのモデルで既に知られている境界と正確に一致する。 さらに, 弱い物質場カップリングには, 強い物質場カップリングのために得られた範囲を越えて, 冷蔵庫のCOPにいくつかの新しい境界を導出する。 最後に、冷却電力と$\omega$関数の両方を最大化できるパラメータレジームにおいて、最大$\omega$関数での量子冷凍機の冷却電力と最大冷却電力を比較する。

We study the optimal performance of a three-level quantum refrigerator using a trade-off objective function, $\Omega$ function, which represents a compromise between the energy benefits and the energy losses of a thermal device. First, we optimize the performance of our refrigerator by employing a two-parameter optimization scheme and show that the first two-terms in the series expansion of the obtained coefficient of performance (COP) match with those of some classical models of refrigerator. Then, in the high-temperature limit, optimizing with respect to one parameter while constraining the other one, we obtain the lower and upper bounds on the COP for both strong as well as weak (intermediate) matter-field coupling conditions. In the strong matter-field coupling regime, the obtained bounds on the COP exactly match with the bounds already known for some models of classical refrigerators. Further for weak matter-field coupling, we derive some new bounds on the the COP of the refrigerator which lie beyond the range covered by bounds obtained for strong matter-field coupling. Finally, in the parameter regime where both cooling power and $\Omega$ function can be maximized, we compare the cooling power of the quantum refrigerator at maximum $\Omega$ function with the maximum cooling power.
翻訳日:2023-05-05 02:22:30 公開日:2020-08-24
# キャビティ内の定常駆動量子エミッタからの異なる光子絡み合い

Different types of photon entanglement from a constantly driven quantum emitter inside a cavity ( http://arxiv.org/abs/2008.10234v1 )

ライセンス: Link先を確認
Tim Seidelmann, Michael Cosacchi, Moritz Cygorek, Doris E. Reiter, Alexei Vagov, Vollrath Martin Axt(参考訳) ベル状態は最も顕著な最大絡み合った光子状態である。 半導体量子ドットのような典型的な4レベルエミッターでは、光子状態はベル状態の絡み合いの1種類しか示さない。 エミッタ系に外部駆動を追加することにより、他の種類のベル状態絡みも偏光基底を変更することなく到達できる。 そこで本論文では, エンタングルメントの異なる条件がいつ現れるかを示し, これらの結果を説明する解析式を与える。 さらに、2光子状態間のコヒーレンスが強く保たれながら、絡み合いの度合いの尺度である共起がゼロとなる特別な点を識別する。 本研究の結果は, 実用機器における絡み合い型の制御操作を実現する方法を示している。

Bell states are the most prominent maximally entangled photon states. In a typical four-level emitter, like a semiconductor quantum dot, the photon states exhibit only one type of Bell state entanglement. By adding an external driving to the emitter system, also other types of Bell state entanglement are reachable without changing the polarization basis. In this paper, we show under which conditions the different types of entanglement occur and give analytical equations to explain these findings. We further identify special points, where the concurrence, being a measure for the degree of entanglement, drops to zero, while the coherences between the two-photon states stay strong. Results of this work pave the way to achieve a controlled manipulation of the entanglement type in practical devices.
翻訳日:2023-05-05 02:22:10 公開日:2020-08-24
# Lu$^+$における$^3D_1$および$^3D_2$四極子モーメントの精密測定

Precision measurement of the $^3D_1$ and $^3D_2$ quadrupole moments in Lu$^+$ ( http://arxiv.org/abs/2008.10196v1 )

ライセンス: Link先を確認
R. Kaewuam, T. R. Tan, Zhiqiang Zhang, K. J. Arnold, M. S. Safronova, and M. D. Barrett(参考訳) Lu$^+$$^3D_1$と$^3D_2$四重極モーメントの精密測定が行われ、それぞれ$\Theta(^3D_1)=0.63862(74)\、e a_0^2$と$\Theta(^3D_2)=0.8602(14)\、e a_0^2$が与えられた。 測定は、外部磁場勾配の影響が明確に定義されたクーロン相互作用のみを残さないように、多イオン結晶中のイオン間の微分シフトを利用する。 このレベルの精度では、超微細化による補正が重要であろう。

Precision measurements of the Lu$^+$ $^3D_1$ and $^3D_2$ quadrupole moments have been carried out giving $\Theta(^3D_1)=0.63862(74)\,e a_0^2$ and $\Theta(^3D_2)=0.8602(14)\,e a_0^2$, respectively. The measurements utilize the differential shift between ions in a multi-ion crystal so that effects of external field gradients do not contribute leaving only the well defined Coulomb interaction. At this level of precision, hyperfine-mediated corrections will likely be important.
翻訳日:2023-05-05 02:20:37 公開日:2020-08-24
# スピン-$j$系におけるウィグナー負性

Wigner negativity in spin-$j$ systems ( http://arxiv.org/abs/2008.10167v1 )

ライセンス: Link先を確認
Jack Davis, Meenu Kumari, Robert B. Mann, Shohini Ghose(参考訳) wigner negativityによって測定される単純なスピン系の非古典性は、球面位相空間上で研究される。 共通の量子ビット表現を持つSU(2)-共変状態はスピンコヒーレント、スピン猫(GHZ/N00N)、ディック(Dicke)(\textsf{W}$)である。 スピン猫状態のウィグナー負性性(英語版)(Wigner negativity)は、スピンが$j \gtrsim 5$を超えると急速に真の値に近づく。 スピン猫状態は、同じ次元のディック状態と比較すると、ウィグナー陰性ではない。 また、いくつかの絡み合いの測度とは対照的に、最もウィグナー陰性のディッケ基底元はスピン依存であり、赤道状態 $|j,0 \rangle$ (または$|j,\pm 1/2 \rangle$ for half-integer spins) ではない。 これらの結果は、動的対称性が非古典性に与える影響を強調し、新しい量子計算応用を見つけるための指針となる視点を示唆する。

The nonclassicality of simple spin systems as measured by Wigner negativity is studied on a spherical phase space. Several SU(2)-covariant states with common qubit representations are addressed: spin coherent, spin cat (GHZ/N00N), and Dicke ($\textsf{W}$). We derive a bound on the Wigner negativity of spin cat states that rapidly approaches the true value as spin increases beyond $j \gtrsim 5$. We find that spin cat states are not significantly Wigner-negative relative to their Dicke state counterparts of equal dimension. We also find, in contrast to several entanglement measures, that the most Wigner-negative Dicke basis element is spin-dependent, and not the equatorial state $| j,0 \rangle$ (or $|j,\pm 1/2 \rangle$ for half-integer spins). These results underscore the influence that dynamical symmetry has on nonclassicality, and suggest a guiding perspective for finding novel quantum computational applications.
翻訳日:2023-05-05 02:19:49 公開日:2020-08-24
# 2次元数値連続体テンソルネットワーク

Numerical continuum tensor networks in two dimensions ( http://arxiv.org/abs/2008.10566v1 )

ライセンス: Link先を確認
Reza Haghshenas, Zhi-Hao Cui and Garnet Kin-Lic Chan(参考訳) テンソルネットワークを用いて連続限界における2次元フェルミオンモデルの相互作用の波動関数を数値的に決定する。 我々は,フェルミオン射影絡み合いペア状態の数値的連続極限に基づいて,マルチグリッドのテンソルネットワーク定式化によって得られるテンソルネットワーク状態と,等方的粗粒度変換の層によるフェルミオン射影絡み合いペア状態の組み合わせの2つの異なるテンソルネットワーク状態を用いる。 最初に2次元自由フェルミガスをベンチマークし、最大1000箇所の格子上のテンソルネットワークを用いて、2次元相互作用するフェルミガスを単位極限内で魅力的な相互作用で研究する。

We describe the use of tensor networks to numerically determine wave functions of interacting two-dimensional fermionic models in the continuum limit. We use two different tensor network states: one based on the numerical continuum limit of fermionic projected entangled pair states obtained via a tensor network formulation of multi-grid, and another based on the combination of the fermionic projected entangled pair state with layers of isometric coarse-graining transformations. We first benchmark our approach on the two-dimensional free Fermi gas then proceed to study the two-dimensional interacting Fermi gas with an attractive interaction in the unitary limit, using tensor networks on grids with up to 1000 sites.
翻訳日:2023-05-05 02:11:21 公開日:2020-08-24
# 量子ビット結合 Gottesman-Kitaev-Preskill 状態の改善

Improved readout of qubit-coupled Gottesman-Kitaev-Preskill states ( http://arxiv.org/abs/2008.10531v1 )

ライセンス: Link先を確認
Jacob Hastrup and Ulrik Lund Andersen(参考訳) 調和振動子における量子ビットのゴッテマン・キタエフ・プレススキル符号化は、フォールトトレラント量子計算への有望な構築ブロックである。 近年、この符号化はトラップイオンおよび超伝導回路システムにおいて初めて実験的に実証された。 しかし、これらのシステムは、符号化された量子ビットを効率的に操作するために重要なガウス演算を欠いている。 特に、符号化されたqubitの読み出し方法として好まれるホモダイン検出は、容易には利用できないため、読み出し精度を著しく制限する。 本稿では,qubit-coupledシステム用に設計された読み出し方式を提案する。 提案手法は,このようなシステムにおいて数桁の桁数で読み出し精度を向上させることができ,しかも,低スクイーズ法においてホモダイン検出の精度を超過する可能性さえある。

The Gottesman-Kitaev-Preskill encoding of a qubit in a harmonic oscillator is a promising building block towards fault-tolerant quantum computation. Recently, this encoding was experimentally demonstrated for the first time in trapped-ion and superconducting circuit systems. However, these systems lack some of the Gaussian operations which are critical to efficiently manipulate the encoded qubits. In particular, homodyne detection, which is the preferred method for readout of the encoded qubit, is not readily available, heavily limiting the readout fidelity. Here, we present an alternative read-out strategy designed for qubit-coupled systems. Our method can improve the readout fidelity with several orders of magnitude for such systems and, surprisingly, even surpass the fidelity of homodyne detection in the low squeezing regime.
翻訳日:2023-05-05 02:11:06 公開日:2020-08-24
# 欧州におけるcovid-19パンデミックにおけるモビリティパターンの変化 : オープンソースデータを用いた新たな洞察

Changes in mobility patterns in Europe during the COVID-19 pandemic: Novel insights using open source data ( http://arxiv.org/abs/2008.10505v1 )

ライセンス: Link先を確認
Anna Sigridur Islind, Mar\'ia \'Oskarsd\'ottir, Harpa Steingr\'imsd\'ottir(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、私たちの行動、対話、動き方を変えました。 世界的な健康危機が引き起こされ、ヨーロッパ中で様々な戦略が取り組まれている。 厳格な措置を講じた国もあるが、ロックダウンを完全に避けた国もある。 本稿では,パンデミック時の欧州におけるモビリティ・パターンの変化を明らかにするため,さまざまなソースからのデータを組み合わせて得られた知見について報告する。 このデータを用いて,パンデミック時に採用した戦略によって,各郡でモビリティパターンが変化していることを示す。 私たちのデータによると、欧州市民の大多数はロックダウン中に歩けず、飛行頻度は低かったものの、運転は大幅に増加した。 本稿では,多くの国を対象としたデータを中心に,他の研究者がさらなる分析に使用できるダッシュボードを開発した。 私たちの研究は、オープンソースデータにおける粒度の重要性と、そのデータがパンデミックの影響にどのように影響するかを示しています。

The COVID-19 pandemic has changed the way we act, interact and move around in the world. The pandemic triggered a worldwide health crisis that has been tackled using a variety of strategies across Europe. Whereas some countries have taken strict measures, others have avoided lock-downs altogether. In this paper, we report on findings obtained by combining data from different publicly available sources in order to shed light on the changes in mobility patterns in Europe during the pandemic. Using that data, we show that mobility patterns have changed in different counties depending on the strategies they adopted during the pandemic. Our data shows that the majority of European citizens walked less during the lock-downs, and that, even though flights were less frequent, driving increased drastically. In this paper, we focus on data for a number of countries, for which we have also developed a dashboard that can be used by other researchers for further analyses. Our work shows the importance of granularity in open source data and how such data can be used to shed light on the effects of the pandemic.
翻訳日:2023-05-05 02:10:30 公開日:2020-08-24
# 条件付き非ガウス量子状態準備

Conditional non-Gaussian quantum state preparation ( http://arxiv.org/abs/2008.10504v1 )

ライセンス: Link先を確認
Mattia Walschaers, Valentina Parigi, Nicolas Treps(参考訳) 本研究では,連続変数量子状態のウィグナー関数表現に基づいて,多モードガウス状態に対する任意の条件演算の作用を記述する一般形式論を展開する。 この形式をいくつかの例に適用し、量子光学実験をシミュレートするためのエレガントな解析ツールとしての可能性を示す。 さらに,eprステアリングがwigner陰性状態の遠隔準備に必要な必要条件であることを証明するためにも用いる。

We develop a general formalism, based on the Wigner function representation of continuous-variable quantum states, to describe the action of an arbitrary conditional operation on a multimode Gaussian state. We apply this formalism to several examples, thus showing its potential as an elegant analytical tool for simulating quantum optics experiments. Furthermore, we also use it to prove that EPR steering is a necessary requirement to remotely prepare a Wigner-negative state.
翻訳日:2023-05-05 02:10:13 公開日:2020-08-24
# 最適化問題のパリティ定式化における最小制約

Minimal Constraints in the Parity Formulation of Optimization Problems ( http://arxiv.org/abs/2008.10458v1 )

ライセンス: Link先を確認
Martin Lanthaler and Wolfgang Lechner(参考訳) 量子コンピュータを用いた最適化問題の解法として、この問題は一般に最適化問題の解となる基底状態のイジングスピンモデルに再キャストされる。 イジングの定式化の代替として、隣接する4体制約を持つ格子ゲージモデルの形式を持つレヒナー・ハーケ・ゾラーモデルがある。 本稿では,正しい基底状態を保存するために必要となる制約の最小強度を求める手法を提案する。 これに基づいて、最小限の制約強度に対して上下境界を導出する。 問題クラスによっては、指数は線型 $\alpha \propto 1$ から二次 $\alpha \propto 2$ まで、論理量子ビットの個数に比例する。

As a means to solve optimization problems using quantum computers, the problem is typically recast into a Ising spin model whose ground-state is the solution of the optimization problem. An alternative to the Ising formulation is the Lechner-Hauke-Zoller model, which has the form of a lattice gauge model with nearest neighbor 4-body constraints. Here we introduce a method to find the minimal strength of the constraints which are required to conserve the correct ground-state. Based on this, we derive upper and lower bounds for the minimal constraints strengths. We find that depending on the problem class, the exponent ranges from linear $\alpha \propto 1$ to quadratic $\alpha \propto 2$ scaling with the number of logical qubits.
翻訳日:2023-05-05 02:09:35 公開日:2020-08-24
# 強化学習のためのhpc駆動シミュレーションと機械学習の統合

Integrating Machine Learning with HPC-driven Simulations for Enhanced Student Learning ( http://arxiv.org/abs/2008.13518v1 )

ライセンス: Link先を確認
Vikram Jadhao and JCS Kadupitiya(参考訳) 本稿では,機械学習(ML)とハイパフォーマンスコンピューティング(HPC)によるシミュレーションを統合し,シミュレーションを用いて計算科学と工学のコースを教えるという課題に対処する。 機械学習サロゲートは、ニューラルネットワークを用いて設計され、明示的なシミュレーションとよく一致しているが、時間や計算コストははるかに少ない。 シミュレーション出力を生成するためのHPC駆動シミュレーションとMLサロゲート手法の両方をサポートするnanoHUB上のWebアプリケーションを開発した。 本ツールは,計算材料科学,モデリングとシミュレーション,HPC対応シミュレーションの工学的応用など幅広い分野の話題を扱う2つの科目に関連する宿題の指導と解法の両方に用いられている。 授業内フィードバックと調査を通じて評価した結果,MLを応用したツールは,学生の学習を促進する動的かつ応答性のあるシミュレーション環境を提供することがわかった。 リアルタイムエンゲージメントと任意のアクセスの観点からシミュレーションフレームワークとの対話性の向上により、学生は入力の変化を伴う出力量の変化の迅速な可視化を通じて、物理的システム行動の直感を発達させることができる。

We explore the idea of integrating machine learning (ML) with high performance computing (HPC)-driven simulations to address challenges in using simulations to teach computational science and engineering courses. We demonstrate that a ML surrogate, designed using artificial neural networks, yields predictions in excellent agreement with explicit simulation, but at far less time and computing costs. We develop a web application on nanoHUB that supports both HPC-driven simulation and the ML surrogate methods to produce simulation outputs. This tool is used for both in-classroom instruction and for solving homework problems associated with two courses covering topics in the broad areas of computational materials science, modeling and simulation, and engineering applications of HPC-enabled simulations. The evaluation of the tool via in-classroom student feedback and surveys shows that the ML-enhanced tool provides a dynamic and responsive simulation environment that enhances student learning. The improvement in the interactivity with the simulation framework in terms of real-time engagement and anytime access enables students to develop intuition for the physical system behavior through rapid visualization of variations in output quantities with changes in inputs.
翻訳日:2023-05-05 02:03:01 公開日:2020-08-24
# 量子カオスとファクタリングのスペクトル

Quantum Chaos and the Spectrum of Factoring ( http://arxiv.org/abs/2008.11523v1 )

ライセンス: Link先を確認
Jose Luis Rosales, Samira Briongos and Vicente Martin(参考訳) 分解問題のハミルトン的定式化があり、因数分解アンサンブルの定義も必要である(因子化アルゴリズムの複雑さが同じ自明な因数分解アルゴリズムを持つ因子の集合、$N'=x'y'$)。 素数に対して、離散値のみを取る関数 $e$ は、磁気トラップ内の閉じ込められた電荷系からのエネルギーの類似物である。 これは、量子力学と数論を結びつける量子ファクタリングシミュレータ仮説である。 本研究は, ランダムなOpenSSL n-bits変調のサンプル(分解アンサンブルの一部とみなすことができる)における$E$の値の統計的解析から, この種の離散スペクトルの存在の数値的な証拠を報告する。 ここでは、これらの$E$の展開された距離確率が、カオスを示す磁気的に閉じ込められた系の量子エネルギーレベルに実際に対応する場合、必要に応じて連続的に成り立つことを示す。 これらの予測の確認は、量子シミュレータ仮説を示唆し、量子力学と数論の間の関係の存在を指摘する。 純粋な量子シミュレーションプリミティブから、量子分解問題におけるショアの多項式時間複雑性が得られた。

There exists a Hamiltonian formulation of the factorisation problem which also needs the definition of a factorisation ensemble (a set to which factorable numbers, $N'=x'y'$, having the same trivial factorisation algorithmic complexity, belong). For the primes therein, a function $E$, that may take only discrete values, should be the analogous of the energy from a confined system of charges in a magnetic trap. This is the quantum factoring simulator hypothesis connecting quantum mechanics with number theory. In this work, we report numerical evidence of the existence of this kind of discrete spectrum from the statistical analysis of the values of $E$ in a sample of random OpenSSL n-bits moduli (which may be taken as a part of the factorisation ensemble). Here, we show that the unfolded distance probability of these $E$'s fits to a {\it Gaussian Unitary Ensemble}, consistently as required, if they actually correspond to the quantum energy levels spacing of a magnetically confined system that exhibits chaos. The confirmation of these predictions bears out the quantum simulator hypothesis and, thereby, it points to the existence of a liaison between quantum mechanics and number theory. Shor's polynomial time complexity of the quantum factorisation problem, from pure quantum simulation primitives, was obtained.
翻訳日:2023-05-05 02:02:43 公開日:2020-08-24
# パンデミックリスクを評価するマシン推論:ussセオドア・ルーズベルトの事例

Machine Reasoning to Assess Pandemics Risks: Case of USS Theodore Roosevelt ( http://arxiv.org/abs/2008.11040v1 )

ライセンス: Link先を確認
Kenneth Lai and Svetlana N. Yanushkevich(参考訳) 地域社会や職場へのパンデミックのリスクの評価には、知的意思決定支援システム(DSS)が必要である。 このようなDSSの中核は推論のような機械推論技術に基づいていなければならず、意思決定におけるリスクやバイアスを見積もることができる。 本稿では,ウイルスデータ,特に感染率やその他の予防指標などのリスクを評価するために,因果関係を用いてベイジアンを推定する。 他の統計モデルとは異なり、ベイズ因果ネットワークは結合分布を通じて様々なデータソースを結合し、利用可能なデータの不確実性を反映する。 2020年初頭にセオドア・ルーズベルト (USS Theodore Roosevelt) で発生した新型コロナウイルスの流行を例に挙げる。

Assessment of risks of pandemics to communities and workplaces requires an intelligent decision support system (DSS). The core of such DSS must be based on machine reasoning techniques such as inference and shall be capable of estimating risks and biases in decision making. In this paper, we use a causal network to make Bayesian inference on COVID-19 data, in particular, assess risks such as infection rate and other precaution indicators. Unlike other statistical models, a Bayesian causal network combines various sources of data through joint distribution, and better reflects the uncertainty of the available data. We provide an example using the case of the COVID-19 outbreak that happened on board of USS Theodore Roosevelt in early 2020.
翻訳日:2023-05-05 02:02:18 公開日:2020-08-24
# 量子アルゴリズムの基礎:Qiskitを用いたチュートリアルシリーズの継続

Fundamentals In Quantum Algorithms: A Tutorial Series Using Qiskit Continued ( http://arxiv.org/abs/2008.10647v1 )

ライセンス: Link先を確認
Daniel Koch, Saahil Patel, Laura Wessing, Paul M. Alsing(参考訳) 一般公開された高レベル量子コンピューティング言語の増加に伴い、量子コンピューティングの分野は、ソフトウェアとハードウェアを分離する重要なマイルストーンに達した。 その結果、量子アルゴリズムの研究は、物理学、数学、コンピュータ科学の分野にまたがる世界中の大学のコースや分野として現れ始めています。 前者の "Introduction to Coding Quantum Algorithms: A Tutorial Series Using Qiskit" の続編として、このチュートリアルシリーズは、フェーズ推定、ショア、QAOA、VQEなど、現在最も有望な量子アルゴリズムの理解を支援することを目的としている。 それぞれのアルゴリズムの理論的基盤を伴って、IBMのQiskitを使って、ゲートベースの量子コンピューティングで各アルゴリズムを実装する際の長所と課題をコーディングする。

With the increasing rise of publicly available high level quantum computing languages, the field of Quantum Computing has reached an important milestone of separation of software from hardware. Consequently, the study of Quantum Algorithms is beginning to emerge as university courses and disciplines around the world, spanning physics, math, and computer science departments alike. As a continuation to its predecessor: "Introduction to Coding Quantum Algorithms: A Tutorial Series Using Qiskit", this tutorial series aims to help understand several of the most promising quantum algorithms to date, including Phase Estimation, Shor's, QAOA, VQE, and several others. Accompanying each algorithm's theoretical foundations are coding examples utilizing IBM's Qiskit, demonstrating the strengths and challenges of implementing each algorithm in gate-based quantum computing.
翻訳日:2023-05-05 02:01:23 公開日:2020-08-24
# 2モード量子$\mathrm{X}$波のスキーズと絡み合い

Squeezing and Entanglement of two-modes Quantum $\mathrm{X}$ Waves ( http://arxiv.org/abs/2008.10630v1 )

ライセンス: Link先を確認
Ali Saif M. Hassan, Waleed S. A. Hasan, M. A. Shukri(参考訳) 拡散媒質中の軌道角運動量を持つ一般化$\mathrm{X}$波の量子理論と二次非線形媒質中の量子化$\mathrm{X}$波の相互作用を (J。 オプト、20,065201(2018)) 本稿では, 速度位相マッチングと呼ばれる位相マッチングについて述べる。この位相マッチングは, 実験装置における非線形結晶の長さや相互作用時間を決定するために使用することができ, 特定の速度で$\mathrm{X}$波を生成する。 さらに,そのスペクトル次数に対する$\mathrm{x}$波のスクイーズ依存性についてより詳細な解析を行い,スペクトル次数$j>0$の場合,最大スクイーズに対する固有軸開口の存在を予測した。 そして、$\chi^{2}$-非線形プロセスによって生成されるダウン変換状態の量子圧縮状態を見つける。 最後に,分離性の基準を用いて,その絡み合いを検出する。

quantum theory of generalized $\mathrm{X}$ waves with orbital angular momentum in dispersive media, and the interaction of quantized $\mathrm{X}$ waves in quadratic nonlinear media were studied in (J. opt,20,065201(2018)). We present a kind of phase matching, which is called velocity phase matching, and this phase matching can be used for determining the length of the nonlinear crystal or the interaction time in the experiment setup, to produce $\mathrm{X}$ waves with particular velocity $v$. Moreover, we introduce more analysis for the dependence of squeezing of $\mathrm{X}$ waves on its spectral order, and for spectral orders $j>0$, we predict the existence of a characteristic axicon aperture for maximal squeezing. Then we find the quantum squeezed state of down-converted state generated by the $\chi^{2}$-nonlinear process. Finally, we detect their entanglement using a criterion of separability.
翻訳日:2023-05-05 02:00:44 公開日:2020-08-24
# くつろいでいる羊の夢は?

Do qubits dream of entangled sheep? ( http://arxiv.org/abs/2008.10617v1 )

ライセンス: Link先を確認
Aharon Brodutch, Noah Lupu-Gladstein, Hugo Ferretti, Weng-Kian Tham, Arthur Ou Teen Pang, Kent Bonsma-Fisher, and Aephraim M. Steinberg(参考訳) 量子力学は通常、世界と観察し相互作用できるエージェントが外部にあり、古典的な記憶を持つという暗黙の仮定で定式化される。 その結果、量子測定理論はそのような外部エージェントを念頭に置いて正式に定義され、その予測は我々の古典的経験と一致する。 しかしながら、量子古典的カットを定義するには受け入れられる方法はなく、(量子理論が普遍的であれば)完全量子エージェントをコヒーレントな量子メモリで除外する優先的な理由もない。 この研究では、測定の定義を、我々のやり方で世界を経験する必要のない量子記憶を持つ観察者のために拡張する。 確率なしで測定値を定義し,情報獲得と不確実性は有意義な方法でも定量化できることを示す。 その結果、量子エージェントが通常の可観測性とPOVMの言語では説明できない方法で世界を観察する方法が示されている。 この測定へのアプローチは、量子論全般の新たな理解と、量子ネットワークの文脈における新たな結果につながる可能性がある。

Quantum mechanics is usually formulated with an implicit assumption that agents who can observe and interact with the world are external to it and have a classical memory. Quantum measurement theory has consequently been formally defined with such external agents in mind, and its predictions match our classical experience. There is however no accepted way to define the quantum-classical cut and (if quantum theory is universal) no a priori reason to rule out fully quantum agents with coherent quantum memories. In this work we extend the definition of measurement to account for observers with quantum memories who need not experience the world in the way we do. We define measurements without probabilities, and show that information gain and uncertainty can still be quantified in a meaningful way. The results demonstrate how quantum agents observe the world in a way that cannot be accounted for in the usual language of observables and POVMs. This approach to measurements could lead to a new understanding of quantum theory in general and to new results in the context of quantum networks.
翻訳日:2023-05-05 02:00:23 公開日:2020-08-24
# トラップオン量子シミュレータにおける多体デフォーカス

Many-Body Dephasing in a Trapped-Ion Quantum Simulator ( http://arxiv.org/abs/2001.02477v4 )

ライセンス: Link先を確認
Harvey B. Kaplan, Lingzhen Guo, Wen Lin Tan, Arinjoy De, Florian Marquardt, Guido Pagano and Christopher Monroe(参考訳) 閉相互作用量子多体系が時間関数としてどのように緩和・脱相するかは、熱力学および統計物理学における基本的な問題である。 本研究では,可変長距離相互作用する横場イジングハミルトニアンの量子クエンチ後の持続時間変動をトラップイオン量子シミュレータを用いて解析・観測する。 スピン=1/2$粒子の有限サイズ系の平均磁化における時間的変動を測定する。 系の性質が積分ハミルトニアンと大域スピン-スピンカップリングと密接に関連している状態において実験を行い、長時間の非可積分力学においても解析的予測が可能となる。 時間変動の解析式は,システムサイズの増加に伴う時間変動の指数的抑制を予測する。 我々の測定データは,多体失調の傾向を予測した理論と一致している。

How a closed interacting quantum many-body system relaxes and dephases as a function of time is a fundamental question in thermodynamic and statistical physics. In this work, we analyse and observe the persistent temporal fluctuations after a quantum quench of a tunable long-range interacting transverse-field Ising Hamiltonian realized with a trapped-ion quantum simulator. We measure the temporal fluctuations in the average magnetization of a finite-size system of spin-$1/2$ particles. We experiment in a regime where the properties of the system are closely related to the integrable Hamiltonian with global spin-spin coupling, which enables analytical predictions even for the long-time non-integrable dynamics. The analytical expression for the temporal fluctuations predicts the exponential suppression of temporal fluctuations with increasing system size. Our measurement data is consistent with our theory predicting the regime of many-body dephasing.
翻訳日:2023-01-13 13:25:23 公開日:2020-08-24
# 魚眼都市運転画像のためのユニバーサルセマンティクスセグメンテーション

Universal Semantic Segmentation for Fisheye Urban Driving Images ( http://arxiv.org/abs/2002.03736v2 )

ライセンス: Link先を確認
Yaozu Ye, Kailun Yang, Kaite Xiang, Juan Wang and Kaiwei Wang(参考訳) セマンティックセグメンテーションは自律運転の分野において重要な手法である。 セマンティックイメージセグメンテーションを行う場合、より広い視野(FoV)は周囲の環境に関するより多くの情報を得るのに役立つ。 しかし、大規模な魚眼データセットは利用できないため、魚眼カメラが捉えた魚眼画像は大きな歪みを伴うため、一般的に使用されるセマンティックセグメンテーションモデルは直接利用できない。 本稿では, 魚眼画像から魚眼画像へより包括的に変換するための7自由度拡張法を提案する。 トレーニングプロセスでは、リチニア画像を7つのDoFで魚眼画像に変換し、異なる位置、向き、焦点距離のカメラで撮影した魚眼画像をシミュレートする。 その結果, 異なる変形魚眼データに対するモデル精度とロバスト性を向上させることができることがわかった。 この7-DoF拡張は、異なる自動運転アプリケーションにおける魚眼カメラの普遍的なセマンティックセマンティクスソリューションを提供する。 また、自動運転のための拡張のパラメータ設定も提供する。 最後に,魚眼画像上での普遍的セマンティックセグメンテーションモデルを検証し,良好な結果を得た。 コードと設定はhttps://github.com/yaozhuwa/fisheyesegでリリースされている。

Semantic segmentation is a critical method in the field of autonomous driving. When performing semantic image segmentation, a wider field of view (FoV) helps to obtain more information about the surrounding environment, making automatic driving safer and more reliable, which could be offered by fisheye cameras. However, large public fisheye datasets are not available, and the fisheye images captured by the fisheye camera with large FoV comes with large distortion, so commonly-used semantic segmentation model cannot be directly utilized. In this paper, a seven degrees of freedom (DoF) augmentation method is proposed to transform rectilinear image to fisheye image in a more comprehensive way. In the training process, rectilinear images are transformed into fisheye images in seven DoF, which simulates the fisheye images taken by cameras of different positions, orientations and focal lengths. The result shows that training with the seven-DoF augmentation can improve the model's accuracy and robustness against different distorted fisheye data. This seven-DoF augmentation provides a universal semantic segmentation solution for fisheye cameras in different autonomous driving applications. Also, we provide specific parameter settings of the augmentation for autonomous driving. At last, we tested our universal semantic segmentation model on real fisheye images and obtained satisfactory results. The code and configurations are released at https://github.com/Yaozhuwa/FisheyeSeg.
翻訳日:2023-01-05 05:46:17 公開日:2020-08-24
# オフポリシー評価のための適応的推定器選択

Adaptive Estimator Selection for Off-Policy Evaluation ( http://arxiv.org/abs/2002.07729v2 )

ライセンス: Link先を確認
Yi Su, Pavithra Srinath, Akshay Krishnamurthy(参考訳) オフポリシー評価設定における推定器選択のための汎用データ駆動手法を開発した。 我々は、このメソッドに対する強力なパフォーマンス保証を確立し、oracle estimatorと競合していることを示します。 コンテキストバンディットと強化学習の詳細なケーススタディを通じて,本手法の汎用性と適用性を示す。 また, 包括的実験を行い, アプローチの実証的有効性を実証し, 関連するアプローチとの比較を行った。 いずれの場合も,本手法は既存手法と良好に比較できる。

We develop a generic data-driven method for estimator selection in off-policy policy evaluation settings. We establish a strong performance guarantee for the method, showing that it is competitive with the oracle estimator, up to a constant factor. Via in-depth case studies in contextual bandits and reinforcement learning, we demonstrate the generality and applicability of the method. We also perform comprehensive experiments, demonstrating the empirical efficacy of our approach and comparing with related approaches. In both case studies, our method compares favorably with existing methods.
翻訳日:2022-12-30 19:52:02 公開日:2020-08-24
# バッチ強化学習のためのq*近似スキーム:理論的比較

Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison ( http://arxiv.org/abs/2003.03924v4 )

ライセンス: Link先を確認
Tengyang Xie, Nan Jiang(参考訳) バッチ強化学習における$q^\star$を近似する2つのアルゴリズムの性能保証を実証する。 フィルタQ-イテレーションのような古典的反復手法と比較して、性能損失は地平線に二次的依存を生じさせる - それらの手法はベルマン誤差を推定し、線形-水平誤差の伝播を楽しむ。 アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」の難しさを克服するために、新しく明確な重要度重み付け補正を用いており、正方形の損失は一切使わない。 従来のアルゴリズムと比較して,その特徴と潜在的な利点を明らかにする。

We prove performance guarantees of two algorithms for approximating $Q^\star$ in batch reinforcement learning. Compared to classical iterative methods such as Fitted Q-Iteration---whose performance loss incurs quadratic dependence on horizon---these methods estimate (some forms of) the Bellman error and enjoy linear-in-horizon error propagation, a property established for the first time for algorithms that rely solely on batch data and output stationary policies. One of the algorithms uses a novel and explicit importance-weighting correction to overcome the infamous "double sampling" difficulty in Bellman error estimation, and does not use any squared losses. Our analyses reveal its distinct characteristics and potential advantages compared to classical algorithms.
翻訳日:2022-12-25 07:39:58 公開日:2020-08-24
# アルミニウムの強靭な原子間ポテンシャルの自動発見

Automated discovery of a robust interatomic potential for aluminum ( http://arxiv.org/abs/2003.04934v2 )

ライセンス: Link先を確認
Justin S. Smith, Benjamin Nebgen, Nithin Mathew, Jie Chen, Nicholas Lubbers, Leonid Burakovsky, Sergei Tretiak, Hai Ah Nam, Timothy Germann, Saryu Fensin, Kipton Barros(参考訳) 分子動力学シミュレーションの精度は、力を生み出すのに使われる原子間ポテンシャルに大きく依存する。 金標準は第一原理量子力学(QM)計算であるが、大規模なシミュレーションスケールでは違法に高価になる。 機械学習(ML)ベースのポテンシャルは、計算コストを大幅に削減したQMの忠実なエミュレーションを目指している。 MLポテンシャルの正確性と堅牢性は主にトレーニングデータセットの品質と多様性によって制限される。 アクティブラーニング(al)の原則を用いて,高度に自動化されたデータセット構築手法を提案する。 戦略は、開発中のMLポテンシャルを使用して、新しいアトミックな構成をサンプリングし、MLの不確実性が十分に大きい設定に達すると、新しいQMデータを集めることである。 ここでは、自動化の限界を押し上げ、ALプロセスから可能な限り多くの専門知識を取り除こうとしています。 全てのサンプリングは、初期の不規則な構成から始まるMDシミュレーションを用いて行われ、時間変化した適用温度によって駆動される非平衡ダイナミクスが実行される。 アルミニウム(ANI-Al)のMLポテンシャルを構築することで,このアプローチを実証する。 多くのAL反復の後、ANI-Alは溶湯中の放射分布関数、液体固相共存曲線、欠陥エネルギーやバリアなどの結晶特性などの特性を予測することを自ら教えている。 移動可能性を示すために,1.3mの原子衝撃シミュレーションを行い,非平衡ダイナミクスからサンプリングした局所原子環境のdft計算と ani-al 予測が良好に一致することを示す。 興味深いことに、shockに現れるコンフィギュレーションは、視覚的に示すように、alトレーニングデータセットで十分にサンプル化されているようだ。

Accuracy of molecular dynamics simulations depends crucially on the interatomic potential used to generate forces. The gold standard would be first-principles quantum mechanics (QM) calculations, but these become prohibitively expensive at large simulation scales. Machine learning (ML) based potentials aim for faithful emulation of QM at drastically reduced computational cost. The accuracy and robustness of an ML potential is primarily limited by the quality and diversity of the training dataset. Using the principles of active learning (AL), we present a highly automated approach to dataset construction. The strategy is to use the ML potential under development to sample new atomic configurations and, whenever a configuration is reached for which the ML uncertainty is sufficiently large, collect new QM data. Here, we seek to push the limits of automation, removing as much expert knowledge from the AL process as possible. All sampling is performed using MD simulations starting from an initially disordered configuration, and undergoing non-equilibrium dynamics as driven by time-varying applied temperatures. We demonstrate this approach by building an ML potential for aluminum (ANI-Al). After many AL iterations, ANI-Al teaches itself to predict properties like the radial distribution function in melt, liquid-solid coexistence curve, and crystal properties such as defect energies and barriers. To demonstrate transferability, we perform a 1.3M atom shock simulation, and show that ANI-Al predictions agree very well with DFT calculations on local atomic environments sampled from the nonequilibrium dynamics. Interestingly, the configurations appearing in shock appear to have been well sampled in the AL training dataset, in a way that we illustrate visually.
翻訳日:2022-12-24 21:55:54 公開日:2020-08-24
# スイッチング線形システムのデータ駆動スイッチング論理設計

Data-driven switching logic design for switched linear systems ( http://arxiv.org/abs/2003.05774v2 )

ライセンス: Link先を確認
Atreyee Kundu(参考訳) 本稿では,各サブシステムの状態空間モデルの明示的な知識が得られない場合の離散時間切替線形システムの安定化を扱う。 サブシステム間の許容スイッチのセット、サブシステムの許容ドウェルタイム、特定の特性を満たすサブシステムの状態軌道の有限トレースのセットを考えると、結果のスイッチングシステムの安定性を保つ周期的スイッチングロジックを設計するアルゴリズムを考案する。 2つの材料を組み合わせることで a)離散時間線形システムのデータに基づく安定性解析 b) 複数のリアプノフ様関数とグラフウォークは、この目的のためにスイッチング論理を安定化させる設計に基づいている。 提案するアルゴリズムを示す数値例を示す。

This paper deals with stabilization of discrete-time switched linear systems when explicit knowledge of the state-space models of their subsystems is not available. Given the set of admissible switches between the subsystems, the admissible dwell times on the subsystems and a set of finite traces of state trajectories of the subsystems that satisfies certain properties, we devise an algorithm that designs periodic switching logics which preserve stability of the resulting switched system. We combine two ingredients: (a) data-based stability analysis of discrete-time linear systems and (b) multiple Lyapunov-like functions and graph walks based design of stabilizing switching logics, for this purpose. A numerical example is presented to demonstrate the proposed algorithm.
翻訳日:2022-12-24 16:00:14 公開日:2020-08-24
# w2s:広視野simマッピングのための共振・超解像顕微鏡データ

W2S: Microscopy Data with Joint Denoising and Super-Resolution for Widefield to SIM Mapping ( http://arxiv.org/abs/2003.05961v2 )

ライセンス: Link先を確認
Ruofan Zhou, Majed El Helou, Daniel Sage, Thierry Laroche, Arne Seitz, Sabine S\"usstrunk(参考訳) 蛍光顕微鏡ライブセルイメージングでは、一方の信号対雑音比と他方の空間分解能との間に重要なトレードオフがあり、他方の生物学的試料の完全性がある。 クリーンな高解像度(HR)画像を得るには、構造化照明顕微鏡(SIM)のような顕微鏡技術を使うか、デノナイジングと超高解像度(SR)アルゴリズムを適用することができる。 しかし、前者のオプションではサンプルにダメージを与える複数のショットが必要であり、後者のオプションには効率的なディープラーニングベースのアルゴリズムが存在するが、これらのアルゴリズムを共同認知とSR(JDSR)タスクで評価するためのベンチマークは存在しない。 顕微鏡データにおけるJDSRの研究のために,従来の蛍光ワイドフィールドとSIMイメージングを用いて得られた新しいJDSRデータセットであるワイドフィールド2SIM(W2S)を提案する。 w2sには14万4000枚の蛍光顕微鏡画像が含まれており、合計360セットの画像が得られる。 ノイズレベルが異なる低解像度(LR)広視野画像と、ノイズフリーのLR画像と、それに対応する高画質のHRSIM画像とから構成される。 W2Sは6つの復調法と6つのSR法の組み合わせをベンチマークすることができる。 現状のSRネットワークはノイズの多い入力に対して非常に低性能であることを示す。 また, 最適解法と最適解法を併用した場合, 最適解法が必ずしも最良の結果をもたらすとは限らないことも明らかにした。 定量的および定性的な結果は、SRネットワークはノイズに敏感であり、デノイズ化とSRアルゴリズムの逐次適用は準最適であることを示している。 最後に、SRネットワークがJDSRのエンドツーエンドに再訓練され、最先端のDeep denoisingとSRネットワークの組合せよりも優れていることを示す。

In fluorescence microscopy live-cell imaging, there is a critical trade-off between the signal-to-noise ratio and spatial resolution on one side, and the integrity of the biological sample on the other side. To obtain clean high-resolution (HR) images, one can either use microscopy techniques, such as structured-illumination microscopy (SIM), or apply denoising and super-resolution (SR) algorithms. However, the former option requires multiple shots that can damage the samples, and although efficient deep learning based algorithms exist for the latter option, no benchmark exists to evaluate these algorithms on the joint denoising and SR (JDSR) tasks. To study JDSR on microscopy data, we propose such a novel JDSR dataset, Widefield2SIM (W2S), acquired using a conventional fluorescence widefield and SIM imaging. W2S includes 144,000 real fluorescence microscopy images, resulting in a total of 360 sets of images. A set is comprised of noisy low-resolution (LR) widefield images with different noise levels, a noise-free LR image, and a corresponding high-quality HR SIM image. W2S allows us to benchmark the combinations of 6 denoising methods and 6 SR methods. We show that state-of-the-art SR networks perform very poorly on noisy inputs. Our evaluation also reveals that applying the best denoiser in terms of reconstruction error followed by the best SR method does not necessarily yield the best final result. Both quantitative and qualitative results show that SR networks are sensitive to noise and the sequential application of denoising and SR algorithms is sub-optimal. Lastly, we demonstrate that SR networks retrained end-to-end for JDSR outperform any combination of state-of-the-art deep denoising and SR networks
翻訳日:2022-12-24 15:34:30 公開日:2020-08-24
# 汎用ゲームプレイングのためのローリング水平進化アルゴリズム

Rolling Horizon Evolutionary Algorithms for General Video Game Playing ( http://arxiv.org/abs/2003.12331v2 )

ライセンス: Link先を確認
Raluca D. Gaina, Sam Devlin, Simon M. Lucas, Diego Perez-Liebana(参考訳) ゲームプレイング進化的アルゴリズム、特にローリング水平進化的アルゴリズムは、最近、多くのビデオゲームで勝利率で芸術の状態を破ることに成功した。 しかし、ゲームの最良の結果は、いくつかの論文で導入された修正とハイブリッドの特定の構成に大きく依存しており、それぞれがコアアルゴリズムにパラメータを追加する。 さらに、これまで公表された最も優れたパラメータは、網羅的な探索を超えて空間が成長しているため、少数の人間による組み合わせからのみ発見されている。 本稿では, ローリング・ホライズン進化アルゴリズムにおける技術の現状について述べる。このアルゴリズムは, 文献に記述されたすべての修正と, 新たな改良を, 大規模なハイブリッドに組み合わせるものである。 次に、パラメータオプティマイザであるN-Tuple Bandit Evolutionary Algorithmを用いて、General Video Game AI Frameworkから20のゲームで最適なパラメータの組み合わせを見つける。 さらに,最適化プロセスを通じてアルゴリズムのパラメータといくつかの興味深い組み合わせを分析した。 最後に、RHEAの大きなパラメータ空間を自動的に探索することにより、複数のゲーム上でのアートソリューションの新たな状態を見つける。

Game-playing Evolutionary Algorithms, specifically Rolling Horizon Evolutionary Algorithms, have recently managed to beat the state of the art in win rate across many video games. However, the best results in a game are highly dependent on the specific configuration of modifications and hybrids introduced over several papers, each adding additional parameters to the core algorithm. Further, the best previously published parameters have been found from only a few human-picked combinations, as the possibility space has grown beyond exhaustive search. This paper presents the state of the art in Rolling Horizon Evolutionary Algorithms, combining all modifications described in literature, as well as new ones, for a large resultant hybrid. We then use a parameter optimiser, the N-Tuple Bandit Evolutionary Algorithm, to find the best combination of parameters in 20 games from the General Video Game AI Framework. Further, we analyse the algorithm's parameters and some interesting combinations revealed through the optimisation process. Lastly, we find new state of the art solutions on several games by automatically exploring the large parameter space of RHEA.
翻訳日:2022-12-19 04:27:32 公開日:2020-08-24
# シード反復学習による言語ドリフト対策

Countering Language Drift with Seeded Iterated Learning ( http://arxiv.org/abs/2003.12694v3 )

ライセンス: Link先を確認
Yuchen Lu, Soumye Singhal, Florian Strub, Olivier Pietquin, Aaron Courville(参考訳) ヒューマンコーパスの事前トレーニングとシミュレータでの微調整は、目標指向の対話エージェントをトレーニングするための標準的なパイプラインとなっている。 それにもかかわらず、エージェントがタスク完了を最大化するために微調整されると、それらはいわゆる言語ドリフト現象に苦しむ。 本稿では,seed iterated learning (sil) と呼ばれる,逆言語ドリフトに対する汎用的アプローチを提案する。 新たに作成した教師エージェントから採取したデータを模倣して,事前学習した学生エージェントを定期的に精製する。 各時間ステップで、教師は学生エージェントをコピーして作成し、タスク完了を最大化するために微調整される。 SILは外部の構文制約や意味知識を必要としないため、タスクに依存しない微調整プロトコルである。 おもちゃをセットしたLewis GameでSILを評価し,それを自然言語で翻訳ゲームにスケールアップする。 どちらの設定でも、SILは言語のドリフトに対抗するだけでなく、ベースラインよりもタスクの完了を改善する。

Pretraining on human corpus and then finetuning in a simulator has become a standard pipeline for training a goal-oriented dialogue agent. Nevertheless, as soon as the agents are finetuned to maximize task completion, they suffer from the so-called language drift phenomenon: they slowly lose syntactic and semantic properties of language as they only focus on solving the task. In this paper, we propose a generic approach to counter language drift called Seeded iterated learning (SIL). We periodically refine a pretrained student agent by imitating data sampled from a newly generated teacher agent. At each time step, the teacher is created by copying the student agent, before being finetuned to maximize task completion. SIL does not require external syntactic constraint nor semantic knowledge, making it a valuable task-agnostic finetuning protocol. We evaluate SIL in a toy-setting Lewis Game, and then scale it up to the translation game with natural language. In both settings, SIL helps counter language drift as well as it improves the task completion compared to baselines.
翻訳日:2022-12-18 23:18:55 公開日:2020-08-24
# 特徴適応によるメモリ効率の高いインクリメンタル学習

Memory-Efficient Incremental Learning Through Feature Adaptation ( http://arxiv.org/abs/2004.00713v2 )

ライセンス: Link先を確認
Ahmet Iscen, Jeffrey Zhang, Svetlana Lazebnik, Cordelia Schmid(参考訳) 我々は,既存のほとんどの作業と異なり,画像そのものではなく,事前学習したクラスからのトレーニング画像の特徴記述子を保持するインクリメンタル学習のアプローチを導入する。 画像のより低次元の機能埋め込みを維持することで、メモリフットプリントが大幅に削減される。 我々は、新しいデータがシーケンシャルに利用可能になると、モデルが新しいクラスのために段階的に更新されると仮定し、それに対応する元のトレーニング画像にアクセスすることなく、事前に保存された特徴ベクトルを更新された特徴空間に適応させる必要がある。 特徴適応は、トレーニング画像上のオリジナルおよび更新されたネットワークの出力に対応する特徴対に基づいて訓練される多層パーセプトロンを用いて学習される。 このような変換が前のクラスの特徴にうまく一般化できることを実験的に検証し、特徴空間の判別部分空間に特徴を写像する。 その結果、古いクラスイメージを必要とせずに、新しいクラスと古いクラスを共同で最適化する。 実験結果から,本手法は画像保存戦略よりもメモリフットプリントが桁違いに小さいため,段階的学習ベンチマークにおいて最先端の分類精度が得られた。

We introduce an approach for incremental learning that preserves feature descriptors of training images from previously learned classes, instead of the images themselves, unlike most existing work. Keeping the much lower-dimensional feature embeddings of images reduces the memory footprint significantly. We assume that the model is updated incrementally for new classes as new data becomes available sequentially.This requires adapting the previously stored feature vectors to the updated feature space without having access to the corresponding original training images. Feature adaptation is learned with a multi-layer perceptron, which is trained on feature pairs corresponding to the outputs of the original and updated network on a training image. We validate experimentally that such a transformation generalizes well to the features of the previous set of classes, and maps features to a discriminative subspace in the feature space. As a result, the classifier is optimized jointly over new and old classes without requiring old class images. Experimental results show that our method achieves state-of-the-art classification accuracy in incremental learning benchmarks, while having at least an order of magnitude lower memory footprint compared to image-preserving strategies.
翻訳日:2022-12-17 19:13:29 公開日:2020-08-24
# VoxelPose: 野生環境におけるマルチカメラ3D人物位置推定を目指して

VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment ( http://arxiv.org/abs/2004.06239v4 )

ライセンス: Link先を確認
Hanyue Tu, Chunyu Wang, Wenjun Zeng(参考訳) 複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。 ノイズと不完全な2dポーズ推定に基づくクロスビュー対応の確立を求めるこれまでの取り組みとは対照的に,我々は,3ドルの空間で直接動作するエンドツーエンドのソリューションを提案する。 この目標を達成するために、すべてのカメラビューの機能は、共通の3d空間にゆがみ、集約され、すべての人々を粗くローカライズするためにcuboid proposal network (cpn)に供給される。 次に,各提案の詳細な3次元ポーズを推定するために,ポーズ回帰ネットワーク(prn)を提案する。 このアプローチは、実際に頻繁に発生する閉塞に対して堅牢である。 ベルやホイッスルがなければ、公開データセットの最先端よりも優れています。 コードはhttps://github.com/microsoft/multiperson-pose-estimation-pytorchでリリースされる。

We present an approach to estimate 3D poses of multiple people from multiple camera views. In contrast to the previous efforts which require to establish cross-view correspondence based on noisy and incomplete 2D pose estimations, we present an end-to-end solution which directly operates in the $3$D space, therefore avoids making incorrect decisions in the 2D space. To achieve this goal, the features in all camera views are warped and aggregated in a common 3D space, and fed into Cuboid Proposal Network (CPN) to coarsely localize all people. Then we propose Pose Regression Network (PRN) to estimate a detailed 3D pose for each proposal. The approach is robust to occlusion which occurs frequently in practice. Without bells and whistles, it outperforms the state-of-the-arts on the public datasets. Code will be released at https://github.com/microsoft/multiperson-pose-estimation-pytorch.
翻訳日:2022-12-14 00:19:33 公開日:2020-08-24
# 関係検証アンサンブルを用いた共同学習による関係同定

Kinship Identification through Joint Learning Using Kinship Verification Ensembles ( http://arxiv.org/abs/2004.06382v4 )

ライセンス: Link先を確認
Wei Wang, Shaodi You, Sezer Karaoglu, Theo Gevers(参考訳) 親族検証は、二人が親族かどうかを識別する、よく研究されたタスクである。 対照的に、血縁の識別は、これまでほとんど無視されてきた。 種族識別は、種族の種類をさらに特定することを目的としている。 既存の検証ネットワークは特定のキンシップに基づいて個別に訓練されており、異なるキンシップタイプ間のコンテキストを考慮していないため、キンシップ検証への拡張は、適切に識別を得るために実行されます。 また、既存の血縁検証データセットは、実世界の分布とは異なる正負の分布に偏っている。 そこで本研究では,キンシップ検証アンサンブルと分類モジュールの協調訓練に基づく新しいキンシップ識別手法を提案する。 我々は、トレーニングデータセットをより現実的なものにするために再バランスすることを提案する。 大規模な実験は、親族識別に魅力的な性能を示す。 さらに実験では、より現実的な分布を持つ同じデータセットでトレーニングされた場合、キンシップ検証のパフォーマンスが大幅に向上することを示した。

Kinship verification is a well-explored task: identifying whether or not two persons are kin. In contrast, kinship identification has been largely ignored so far. Kinship identification aims to further identify the particular type of kinship. An extension to kinship verification run short to properly obtain identification, because existing verification networks are individually trained on specific kinships and do not consider the context between different kinship types. Also, existing kinship verification datasets have biased positive-negative distributions which are different than real-world distributions. To this end, we propose a novel kinship identification approach based on joint training of kinship verification ensembles and classification modules. We propose to rebalance the training dataset to become more realistic. Large scale experiments demonstrate the appealing performance on kinship identification. The experiments further show significant performance improvement of kinship verification when trained on the same dataset with more realistic distributions.
翻訳日:2022-12-13 09:50:17 公開日:2020-08-24
# 魔法の触覚による形式的手法

Formal Methods with a Touch of Magic ( http://arxiv.org/abs/2005.12175v2 )

ライセンス: Link先を確認
Parand Alizadeh Alamdari, Guy Avni, Thomas A. Henzinger, Anna Lukina(参考訳) 機械学習と形式的手法には補足的な利点と欠点がある。 本研究では,両分野の手法の組み合わせにより,コントローラ設計問題に対処する。 深層強化学習(deep rl)におけるブラックボックスニューラルネットワークの使用は、そのような組み合わせにとって課題となる。 深い rl の出力について正式に推論する代わりに、それを決定木に基づくモデルとして抽出し、それを "em magic book} と呼ぶ。 抽出したモデルを中間体として使用することで,深いrlや形式的手法では実現不可能な問題を自身で処理することができる。 まず最初に、魔法の本を合成手順で組み合わせることを提案する。 RLの良好な性能を享受するスタンドアローンの正設計コントローラを合成する。 次に、境界モデル検査(BMC)手順にマジックブックを組み込む。 BMCは、ウィザードの制御下にある多くの植物跡を見つけることができるので、ユーザーはウィザードの信頼性を高め、さらなる訓練を行うことができる。

Machine learning and formal methods have complimentary benefits and drawbacks. In this work, we address the controller-design problem with a combination of techniques from both fields. The use of black-box neural networks in deep reinforcement learning (deep RL) poses a challenge for such a combination. Instead of reasoning formally about the output of deep RL, which we call the {\em wizard}, we extract from it a decision-tree based model, which we refer to as the {\em magic book}. Using the extracted model as an intermediary, we are able to handle problems that are infeasible for either deep RL or formal methods by themselves. First, we suggest, for the first time, combining a magic book in a synthesis procedure. We synthesize a stand-alone correct-by-design controller that enjoys the favorable performance of RL. Second, we incorporate a magic book in a bounded model checking (BMC) procedure. BMC allows us to find numerous traces of the plant under the control of the wizard, which a user can use to increase the trustworthiness of the wizard and direct further training.
翻訳日:2022-11-29 06:12:25 公開日:2020-08-24
# 知識接地対話システムのためのポリシー駆動ニューラルレスポンス生成

Policy-Driven Neural Response Generation for Knowledge-Grounded Dialogue Systems ( http://arxiv.org/abs/2005.12529v4 )

ライセンス: Link先を確認
Behnam Hedayatnia, Karthik Gopalakrishnan, Seokhwan Kim, Yang Liu, Mihail Eric, Dilek Hakkani-Tur(参考訳) オープンドメイン対話システムは、関連性があり、情報的かつ魅力的な応答を生成することを目的としている。 seq2seqニューラルレスポンス生成アプローチは、生成された応答の内容やスタイルを制御する明示的なメカニズムを持っておらず、しばしば不規則な発話を引き起こす。 本稿では,対話のコンテキスト,対象の対話行為,話題情報などに関連する知識文を含むアクションプランの形式で,対話ポリシーを用いてターゲット応答の内容とスタイルを計画する。 アクションプラン内の属性は、公開されたトピックチャットデータセットに自動アノテートすることで得られる。 行動計画において,ターンと文レベルで目標発話として実現されるニューラル応答生成器を条件とする。 また,対話の文脈に応じて行動計画を予測するための異なる対話政策モデルについて検討した。 自動および人的評価により、生成した応答の適切性を測定し、生成モデルが実際に与えられた行動計画を実現することを学んでいるかどうかを確認する。 文レベルで動作する基本対話ポリシーは,ターンレベルの生成と,アクションプランのないベースラインモデルに対して,より優れた応答を生成することを実証する。 さらに、基本的な対話政策には制御可能性の付加効果がある。

Open-domain dialogue systems aim to generate relevant, informative and engaging responses. Seq2seq neural response generation approaches do not have explicit mechanisms to control the content or style of the generated response, and frequently result in uninformative utterances. In this paper, we propose using a dialogue policy to plan the content and style of target responses in the form of an action plan, which includes knowledge sentences related to the dialogue context, targeted dialogue acts, topic information, etc. The attributes within the action plan are obtained by automatically annotating the publicly released Topical-Chat dataset. We condition neural response generators on the action plan which is then realized as target utterances at the turn and sentence levels. We also investigate different dialogue policy models to predict an action plan given the dialogue context. Through automated and human evaluation, we measure the appropriateness of the generated responses and check if the generation models indeed learn to realize the given action plans. We demonstrate that a basic dialogue policy that operates at the sentence level generates better responses in comparison to turn level generation as well as baseline models with no action plan. Additionally the basic dialogue policy has the added effect of controllability.
翻訳日:2022-11-28 23:20:20 公開日:2020-08-24
# CNNML-MAP層を用いた確率的オブジェクト分類

Probabilistic Object Classification using CNN ML-MAP layers ( http://arxiv.org/abs/2005.14565v2 )

ライセンス: Link先を確認
G. Melotti, C. Premebida, J.J. Bird, D.R. Faria, N. Gon\c{c}alves(参考訳) ディープネットワークは現在、自律運転とロボット工学における感覚知覚の最先端にある。 しかしながら、深層モデルはしばしば、ソフトマックス層の性質による正当な確率論的解釈を暗示する自信過剰な予測を生成する。 分類性能を損なうことなく過信を低減するため,ネットワークのロジット層で計算された分布に基づくCNN確率的アプローチを提案する。 このアプローチは、ML層とMAP層を用いてベイズ推論を可能にする。 KITTIデータベースのデータを用いて, オブジェクト分類において, キャリブレーションと予測層を用いた実験を行った。 結果はカメラ(RGB$)とLiDAR(レンジビュー)のモダリティで報告され、新しいアプローチはSoftMaxと比較して有望なパフォーマンスを示している。

Deep networks are currently the state-of-the-art for sensory perception in autonomous driving and robotics. However, deep models often generate overconfident predictions precluding proper probabilistic interpretation which we argue is due to the nature of the SoftMax layer. To reduce the overconfidence without compromising the classification performance, we introduce a CNN probabilistic approach based on distributions calculated in the network's Logit layer. The approach enables Bayesian inference by means of ML and MAP layers. Experiments with calibrated and the proposed prediction layers are carried out on object classification using data from the KITTI database. Results are reported for camera ($RGB$) and LiDAR (range-view) modalities, where the new approach shows promising performance compared to SoftMax.
翻訳日:2022-11-26 22:37:10 公開日:2020-08-24
# bpgc at semeval-2020タスク11:多面的知識共有と言語特徴に基づくアンサンブル学習を用いたニュース記事におけるプロパガンダ検出

BPGC at SemEval-2020 Task 11: Propaganda Detection in News Articles with Multi-Granularity Knowledge Sharing and Linguistic Features based Ensemble Learning ( http://arxiv.org/abs/2006.00593v2 )

ライセンス: Link先を確認
Rajaswa Patil, Somesh Singh and Swati Agarwal(参考訳) プロパガンダは、同心の人々のイデオロギーと信念を広げ、聴衆を洗脳し、時には暴力に繋がる。 SemEval 2020 Task-11はニュースプロパガンダ検出のための自動システムの設計を目的としている。 Task-11は2つのサブタスク、すなわち Span Identification - どんなニュース記事でも、少なくとも1つのプロパガンダ技術を含む特定の断片をタグ付けし、Technical Classification - 与えられたプロパガンダのステートメントを14のプロパガンダ技術で正しく分類する。 サブタスク1では、事前学習したトランスフォーマーモデルから抽出したコンテキスト埋め込みを用いて、様々な粒度のテキストデータを表現し、多粒度知識共有アプローチを提案する。 サブタスク2では,言語的特徴を持つBERTとロジスティック回帰分類器のアンサンブルを用いる。 その結果, 言語的特徴は, 少数クラスを高度に不均衡なデータセットでカバーするための強力な指標であることが判明した。

Propaganda spreads the ideology and beliefs of like-minded people, brainwashing their audiences, and sometimes leading to violence. SemEval 2020 Task-11 aims to design automated systems for news propaganda detection. Task-11 consists of two sub-tasks, namely, Span Identification - given any news article, the system tags those specific fragments which contain at least one propaganda technique; and Technique Classification - correctly classify a given propagandist statement amongst 14 propaganda techniques. For sub-task 1, we use contextual embeddings extracted from pre-trained transformer models to represent the text data at various granularities and propose a multi-granularity knowledge sharing approach. For sub-task 2, we use an ensemble of BERT and logistic regression classifiers with linguistic features. Our results reveal that the linguistic features are the strong indicators for covering minority classes in a highly imbalanced dataset.
翻訳日:2022-11-26 12:50:11 公開日:2020-08-24
# ファッションEコマースにおける価格最適化

Price Optimization in Fashion E-commerce ( http://arxiv.org/abs/2007.05216v2 )

ライセンス: Link先を確認
Sajan Kedia, Samyak Jain, Abhishek Sharma(参考訳) ファッションeコマース業界の急速な成長に伴い、e-tailersはプラットフォーム上のすべての製品に最適な価格設定を行うことが極めて困難になっている。 最適な価格ポイントを確立することで、プラットフォーム全体の収益と利益を最大化することができる。 本稿では,個々の製品レベルで最適な価格点を求めるための新しい機械学習と最適化手法を提案する。 主な構成要素は3つ。 まず、需要予測モデルを用いて、ある割引率で各製品に対する翌日の需要を予測する。 次に、割引率を変化させて複数の需要値を得るために需要の価格弾力性の概念を用いる。 したがって、各製品に複数の価格要求ペアを取得し、その1つをライブプラットフォームで選択する必要があります。 通常、ファッションeコマースには何百万もの製品があるため、多くの順列がある。 各順列は、すべての製品に対してユニークな価格ポイントを割り当てる。 最大収益を与える最適な置換を選択するために、線形プログラミング最適化技術を用いる。 我々は,本手法を実稼働環境に導入し,いくつかのab試験を行った。 ABテストの結果によると、当社のモデルは売上を1%、粗利率を0.81パーセント改善しています。

With the rapid growth in the fashion e-commerce industry, it is becoming extremely challenging for the E-tailers to set an optimal price point for all the products on the platform. By establishing an optimal price point, they can maximize overall revenue and profit for the platform. In this paper, we propose a novel machine learning and optimization technique to find the optimal price point at an individual product level. It comprises three major components. Firstly, we use a demand prediction model to predict the next day demand for each product at a certain discount percentage. Next step, we use the concept of price elasticity of demand to get the multiple demand values by varying the discount percentage. Thus we obtain multiple price demand pairs for each product and we have to choose one of them for the live platform. Typically fashion e-commerce has millions of products, so there can be many permutations. Each permutation will assign a unique price point for all the products, which will sum up to a unique revenue number. To choose the best permutation which gives maximum revenue, a linear programming optimization technique is used. We have deployed the above methods in the live production environment and conducted several AB tests. According to the AB test result, our model is improving the revenue by 1 percent and gross margin by 0.81 percent.
翻訳日:2022-11-11 21:06:23 公開日:2020-08-24
# エンドツーエンドの微分証明における推論戦略の学習

Learning Reasoning Strategies in End-to-End Differentiable Proving ( http://arxiv.org/abs/2007.06477v3 )

ライセンス: Link先を確認
Pasquale Minervini, Sebastian Riedel, Pontus Stenetorp, Edward Grefenstette, Tim Rockt\"aschel(参考訳) ディープラーニングモデルを解釈可能で、データ効率が高く、ロバストにしようとする試みは、ルールベースのシステムとのハイブリダイゼーション(例えば、neural theorem provers (ntps))で成功している。 これらのニューロシンボリックモデルは解釈可能なルールを導き出し、バックプロパゲーションを通じてデータから表現を学習し、予測の論理的説明を提供する。 しかし、それらは計算の複雑さによって制限され、目的を説明するために可能な全ての証明パスを考慮する必要があるため、大規模アプリケーションには適さない。 我々は、勾配に基づく最適化を通じて最適規則選択戦略を学習するNTPの拡張であるCTP(Conditional Theorem Provers)を提案する。 CTPは、より小さなグラフを推論し、より大きなグラフを評価することによって、ニューラルネットワークの体系的な一般化をテストするCLUTRRデータセット上で、スケーラブルで最先端の結果が得られることを示す。 最後に、CTPは、他のニューラルシンボリックモデルと比較して標準ベンチマークでのリンク予測結果がより良く、説明可能である。 すべてのソースコードとデータセットは、https://github.com/uclnlp/ctp.comからオンラインで入手できる。

Attempts to render deep learning models interpretable, data-efficient, and robust have seen some success through hybridisation with rule-based systems, for example, in Neural Theorem Provers (NTPs). These neuro-symbolic models can induce interpretable rules and learn representations from data via back-propagation, while providing logical explanations for their predictions. However, they are restricted by their computational complexity, as they need to consider all possible proof paths for explaining a goal, thus rendering them unfit for large-scale applications. We present Conditional Theorem Provers (CTPs), an extension to NTPs that learns an optimal rule selection strategy via gradient-based optimisation. We show that CTPs are scalable and yield state-of-the-art results on the CLUTRR dataset, which tests systematic generalisation of neural models by learning to reason over smaller graphs and evaluating on larger ones. Finally, CTPs show better link prediction results on standard benchmarks in comparison with other neural-symbolic models, while being explainable. All source code and datasets are available online, at https://github.com/uclnlp/ctp.
翻訳日:2022-11-10 22:30:46 公開日:2020-08-24
# 属性に基づく人物探索のための共生学習

Symbiotic Adversarial Learning for Attribute-based Person Search ( http://arxiv.org/abs/2007.09609v2 )

ライセンス: Link先を確認
Yu-Tong Cao, Jingya Wang, Dacheng Tao(参考訳) 属性に基づく人物検索は、証人から犯罪者を識別するなど、検出されたクエリ画像がないアプリケーションにとって大きな需要である。 しかし、画像と属性の物理的記述の間には大きなモダリティギャップがあるため、タスク自体は非常に困難である。 多くの場合、多くの未発見のカテゴリ(属性の組み合わせ)が存在する。 現在の最先端の手法は、目に見えないデータのみをマイニングすることで、より良いモデアル埋め込みを学習することに焦点を当てているか、あるいは、生成的敵ネットワーク(GAN)を使って、目に見えない特徴を合成している。 前者はデータ不足のため埋め込みが不足する傾向にあり、後者は生成時にクラス内のコンパクトさを保たない。 本稿では,共生学習の枠組みであるsal.two gansを,共生学習の枠組みでフレームワークのベースに配置し,未熟なクラスやカテゴリの特徴を合成し,他方は埋め込みを最適化し,共通埋め込み空間上でのクロスモーダルアライメントを行う。 具体的には,2種類の生成的敵ネットワークは,学習過程を通じて協調的に学習し,相互に利益をもたらす。 広範囲な評価の結果、SALはPETAとMarket-1501という2つの挑戦的な歩行者ベンチマークを持つ9つの最先端手法よりも優れていることが示された。 コードは、https://github.com/ycao5602/SAL で公開されている。

Attribute-based person search is in significant demand for applications where no detected query images are available, such as identifying a criminal from witness. However, the task itself is quite challenging because there is a huge modality gap between images and physical descriptions of attributes. Often, there may also be a large number of unseen categories (attribute combinations). The current state-of-the-art methods either focus on learning better cross-modal embeddings by mining only seen data, or they explicitly use generative adversarial networks (GANs) to synthesize unseen features. The former tends to produce poor embeddings due to insufficient data, while the latter does not preserve intra-class compactness during generation. In this paper, we present a symbiotic adversarial learning framework, called SAL.Two GANs sit at the base of the framework in a symbiotic learning scheme: one synthesizes features of unseen classes/categories, while the other optimizes the embedding and performs the cross-modal alignment on the common embedding space .Specifically, two different types of generative adversarial networks learn collaboratively throughout the training process and the interactions between the two mutually benefit each other. Extensive evaluations show SAL's superiority over nine state-of-the-art methods with two challenging pedestrian benchmarks, PETA and Market-1501. The code is publicly available at: https://github.com/ycao5602/SAL .
翻訳日:2022-11-09 00:25:45 公開日:2020-08-24
# 逐次報酬相互作用によるスレートレコメンデーションの反事実評価

Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions ( http://arxiv.org/abs/2007.12986v2 )

ライセンス: Link先を確認
James McInerney, Brian Brost, Praveen Chandar, Rishabh Mehrotra, Ben Carterette(参考訳) 音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスのユーザーは、連続的にコンテンツを扱うことが多い。 したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。 事前の重み付けに基づく反実的評価手法は、高い分散に苦しむか、報酬について強い独立性を仮定する。 我々は,漸近的に偏りのない方法で,より低い分散で報酬の逐次的相互作用を可能にする新しい反事実推定器を提案する。 本手法では,スレートの因果関係に関する図式的仮定を用いて,目標方針の下での報酬の期待値の合計を近似する方法で,ログポリシーにおける報酬の重み付けを行う。 シミュレーションおよびライブレコメンデータシステムにおける大規模な実験により,提案手法は逐次トラックレコメンデーション問題に対するバイアスやデータ効率の点で既存手法よりも優れていることが示された。

Users of music streaming, video streaming, news recommendation, and e-commerce services often engage with content in a sequential manner. Providing and evaluating good sequences of recommendations is therefore a central problem for these services. Prior reweighting-based counterfactual evaluation methods either suffer from high variance or make strong independence assumptions about rewards. We propose a new counterfactual estimator that allows for sequential interactions in the rewards with lower variance in an asymptotically unbiased manner. Our method uses graphical assumptions about the causal relationships of the slate to reweight the rewards in the logging policy in a way that approximates the expected sum of rewards under the target policy. Extensive experiments in simulation and on a live recommender system show that our approach outperforms existing methods in terms of bias and data efficiency for the sequential track recommendations problem.
翻訳日:2022-11-07 00:50:27 公開日:2020-08-24
# 財務時系列予測のための生成的逆・畳み込みニューラルネットワークに基づく深層学習

Deep Learning Based on Generative Adversarial and Convolutional Neural Networks for Financial Time Series Predictions ( http://arxiv.org/abs/2008.08041v2 )

ライセンス: Link先を確認
Wilfredo Tovar(参考訳) ビッグデータ時代において、深層学習とインテリジェントなデータマイニング技術は、様々な分野の研究者によって適用されてきた。 株式市場のデータ予測と分析は、今日の経済において重要な役割を担っており、市場の傾向は極めて複雑でカオス的で、非常にダイナミックな環境の中で開発されているため、専門家にとって大きな課題となっている。 この課題に取り組むために複数の分野から多くの研究が行われており、機械学習アプローチは多くの分野の焦点となっている。 機械学習アルゴリズムには複数のモデルがあり、そのクラスを前向きに行う能力のある結果を得ることができる。 本稿では,双方向長短期メモリ(LSTM)と,Bi-LSTM-CNNと呼ばれる畳み込みニューラルネットワーク(CNN)によって構成されるGAN(Generative Adversarial Network)の実装を提案する。 提案手法の新規性は, 単独のLSTMモデルではなく, ハイブリッドシステム (Bi-LSTM-CNN) の概念を導入することである。 TSX,SHCOMP,KOSPI 200,S&P 500といった複数の株式市場のデータを収集し,市場価格のトレンド予測のための適応ハイブリッドシステムを提案し,広く利用されている機械学習プロトタイプを総合的に評価し,提案手法が先行モデルより優れていると結論付けた。 また、先行研究から研究段階では、技術分野を専門とする投資家と研究者の間でギャップが見つかった。

In the big data era, deep learning and intelligent data mining technique solutions have been applied by researchers in various areas. Forecast and analysis of stock market data have represented an essential role in today's economy, and a significant challenge to the specialist since the market's tendencies are immensely complex, chaotic and are developed within a highly dynamic environment. There are numerous researches from multiple areas intending to take on that challenge, and Machine Learning approaches have been the focus of many of them. There are multiple models of Machine Learning algorithms been able to obtain competent outcomes doing that class of foresight. This paper proposes the implementation of a generative adversarial network (GAN), which is composed by a bi-directional Long short-term memory (LSTM) and convolutional neural network(CNN) referred as Bi-LSTM-CNN to generate synthetic data that agree with existing real financial data so the features of stocks with positive or negative trends can be retained to predict future trends of a stock. The novelty of this proposed solution that distinct from previous solutions is that this paper introduced the concept of a hybrid system (Bi-LSTM-CNN) rather than a sole LSTM model. It was collected data from multiple stock markets such as TSX, SHCOMP, KOSPI 200 and the S&P 500, proposing an adaptative-hybrid system for trends prediction on stock market prices, and carried a comprehensive evaluation on several commonly utilized machine learning prototypes, and it is concluded that the proposed solution approach outperforms preceding models. Additionally, during the research stage from preceding works, gaps were found between investors and researchers who dedicated to the technical domain.
翻訳日:2022-11-01 12:22:03 公開日:2020-08-24
# SPINN: デバイスとクラウド上のニューラルネットワークのシナジスティックなプログレッシブ推論

SPINN: Synergistic Progressive Inference of Neural Networks over Device and Cloud ( http://arxiv.org/abs/2008.06402v2 )

ライセンス: Link先を確認
Stefanos Laskaridis, Stylianos I. Venieris, Mario Almeida, Ilias Leontiadis, Nicholas D. Lane(参考訳) モバイルアプリケーションにおける畳み込みニューラルネットワーク(CNN)の普及にもかかわらず、現代のCNNの過剰な計算要求と、デプロイされたデバイスの多様性の増大により、モバイル上での高性能な推論が一様に維持されている。 一般的な選択肢は、CNN処理をクラウドベースの強力なサーバにオフロードすることである。 それでも、アウトプットを生成するためにクラウドに頼ることで、ドローン障害物回避やインタラクティブなアプリケーションといった、ミッションクリティカルでハイモビリティなアプリケーションが、動的接続条件とクラウドの不確実性に悩まされる可能性がある。 本稿では,SPINNを提案する。SPINNは,多種多様な環境において高速で堅牢なCNN推論を実現するための,相乗的デバイス-クラウド計算とプログレッシブ推論手法を組み合わせた分散推論システムである。 提案システムでは,動的条件に適応し,ユーザ定義のサービスレベル要件を満たすために,早期終了ポリシーとCNN分割を同時に最適化する新しいスケジューラを提案する。 定量的評価により、spinnはネットワーク条件によって達成されたスループットを最大2倍に上回り、サーバコストを最大6.8倍削減し、レイテンシ制約下では20.7%向上し、不安定な接続条件下での堅牢な操作とクラウド中心の実行に比べて大幅な省エネを提供する。

Despite the soaring use of convolutional neural networks (CNNs) in mobile applications, uniformly sustaining high-performance inference on mobile has been elusive due to the excessive computational demands of modern CNNs and the increasing diversity of deployed devices. A popular alternative comprises offloading CNN processing to powerful cloud-based servers. Nevertheless, by relying on the cloud to produce outputs, emerging mission-critical and high-mobility applications, such as drone obstacle avoidance or interactive applications, can suffer from the dynamic connectivity conditions and the uncertain availability of the cloud. In this paper, we propose SPINN, a distributed inference system that employs synergistic device-cloud computation together with a progressive inference method to deliver fast and robust CNN inference across diverse settings. The proposed system introduces a novel scheduler that co-optimises the early-exit policy and the CNN splitting at run time, in order to adapt to dynamic conditions and meet user-defined service-level requirements. Quantitative evaluation illustrates that SPINN outperforms its state-of-the-art collaborative inference counterparts by up to 2x in achieved throughput under varying network conditions, reduces the server cost by up to 6.8x and improves accuracy by 20.7% under latency constraints, while providing robust operation under uncertain connectivity conditions and significant energy savings compared to cloud-centric execution.
翻訳日:2022-10-30 16:36:32 公開日:2020-08-24
# 機械学習の自動化 - 初学期の短いレビュー

Automated Machine Learning -- a brief review at the end of the early years ( http://arxiv.org/abs/2008.08516v3 )

ライセンス: Link先を確認
Hugo Jair Escalante(参考訳) Automated Machine Learning (AutoML)は、機械学習システムの設計のすべての段階を自動化、拡張することを目的とした機械学習のサブフィールドである。 教師あり学習の文脈では、AutoMLは特徴抽出、事前処理、モデル設計、ポスト処理に関係している。 AutoMLの主なコントリビューションと成果は、ここ10年間にわたって行われてきた。 それゆえ、私たちが学んだことを振り返って理解する絶好のタイミングです。 この章はAutoMLの初期の主な発見を要約することを目的としている。 より具体的には、この章では教師あり学習のためのAutoMLを紹介し、この分野の歴史的進歩について概観する。 同様に、AutoMLの主なパラダイムを説明し、研究の機会を概説する。

Automated machine learning (AutoML) is the sub-field of machine learning that aims at automating, to some extend, all stages of the design of a machine learning system. In the context of supervised learning, AutoML is concerned with feature extraction, pre processing, model design and post processing. Major contributions and achievements in AutoML have been taking place during the recent decade. We are therefore in perfect timing to look back and realize what we have learned. This chapter aims to summarize the main findings in the early years of AutoML. More specifically, in this chapter an introduction to AutoML for supervised learning is provided and an historical review of progress in this field is presented. Likewise, the main paradigms of AutoML are described and research opportunities are outlined.
翻訳日:2022-10-27 08:49:58 公開日:2020-08-24
# データ駆動型航空宇宙工学 - 機械学習による業界再編

Data-Driven Aerospace Engineering: Reframing the Industry with Machine Learning ( http://arxiv.org/abs/2008.10740v1 )

ライセンス: Link先を確認
Steven L. Brunton, J. Nathan Kutz, Krithika Manohar, Aleksandr Y. Aravkin, Kristi Morgansen, Jennifer Klemisch, Nicholas Goebel, James Buttrick, Jeffrey Poskin, Agnes Blom-Schieber, Thomas Hogan, Darren McDonald(参考訳) データサイエンス、特に機械学習は、科学と産業の風景を急速に変化させている。 航空宇宙産業は、航空機の設計や製造で生じる多目的の制約付き最適化の問題を解決することに優れたビッグデータと機械学習を活用しようとしている。 実際、機械学習の新しい手法は、高次元、非凸、制約付き、多目的の最適化問題に理想的なデータ駆動最適化技術であり、データ量の増加によって改善されると考えられる。 本稿では,航空宇宙産業にデータ駆動科学と工学を統合する機会と課題について考察する。 重要なのは、安全クリティカルなアプリケーションのための解釈可能、一般化可能、説明可能、検証可能な機械学習技術の必要性だ。 このレビューには、レトロスペクティブ、最先端の評価、今後のロードマップが含まれている。 近年のアルゴリズムと技術の動向は、航空宇宙設計、製造、検証、検証、サービスにおける重要な課題の文脈で検討される。 また、航空宇宙産業におけるいくつかの事例研究を通して、この展望を探求する。 この文書は、過去の取り組みを要約し、将来の機会を概説するためにuwとボーイングの密接な協力の結果である。

Data science, and machine learning in particular, is rapidly transforming the scientific and industrial landscapes. The aerospace industry is poised to capitalize on big data and machine learning, which excels at solving the types of multi-objective, constrained optimization problems that arise in aircraft design and manufacturing. Indeed, emerging methods in machine learning may be thought of as data-driven optimization techniques that are ideal for high-dimensional, non-convex, and constrained, multi-objective optimization problems, and that improve with increasing volumes of data. In this review, we will explore the opportunities and challenges of integrating data-driven science and engineering into the aerospace industry. Importantly, we will focus on the critical need for interpretable, generalizeable, explainable, and certifiable machine learning techniques for safety-critical applications. This review will include a retrospective, an assessment of the current state-of-the-art, and a roadmap looking forward. Recent algorithmic and technological trends will be explored in the context of critical challenges in aerospace design, manufacturing, verification, validation, and services. In addition, we will explore this landscape through several case studies in the aerospace industry. This document is the result of close collaboration between UW and Boeing to summarize past efforts and outline future opportunities.
翻訳日:2022-10-25 12:54:18 公開日:2020-08-24
# 圧縮相検索:深部生成前処理を用いた最適サンプル複雑性

Compressive Phase Retrieval: Optimal Sample Complexity with Deep Generative Priors ( http://arxiv.org/abs/2008.10579v1 )

ライセンス: Link先を確認
Paul Hand, Oscar Leong, Vladislav Voroninski(参考訳) 圧縮センシングの進歩は、最適なサンプル複雑性を持つ線形測定からスパース信号の再構成アルゴリズムを提供したが、この手法の非線形逆問題への自然な拡張は、潜在的に基本的なサンプル複雑性ボトルネックで満たされている。 特にsparsity priorsを用いた圧縮位相検索のための扱いやすいアルゴリズムは,最適なサンプル複雑性を達成することができなかった。 これは圧縮位相検索においてオープンな問題を生み出した: 汎用的で位相のない線形測定の下で、最適なサンプル複雑性で成功する抽出可能な再構成アルゴリズムはあるか? 一方、機械学習の進歩により、生成モデルという形で新しいデータ駆動信号の先行が開発された。 本研究では, 圧縮位相探索における開問題を解き, この難解な非線形逆問題において, トラクタブルアルゴリズムによる最適なサンプル複雑性を許容することにより, 生成先行が根本的な進歩をもたらすことを示す。 さらに, 相検索における生成前処理の活用がスパーシティ前処理を著しく上回ることを示す経験例も提供する。 これらの結果は、経験的および理論的に、様々な文脈における信号回復の新しいパラダイムとして生成前処理をサポートする。 このパラダイムの強みは、(1)生成前駆体はスパーシティ前駆体よりも簡潔に自然信号のクラスを表現できる、(2)生成前駆体はスパーシティ前駆体では難解な自然信号多様体上で直接最適化できる、(3)生成前駆体を持つ非凸最適化問題は最適なサンプル複雑性において良質な最適化ランドスケープを許容できる、というものである。

Advances in compressive sensing provided reconstruction algorithms of sparse signals from linear measurements with optimal sample complexity, but natural extensions of this methodology to nonlinear inverse problems have been met with potentially fundamental sample complexity bottlenecks. In particular, tractable algorithms for compressive phase retrieval with sparsity priors have not been able to achieve optimal sample complexity. This has created an open problem in compressive phase retrieval: under generic, phaseless linear measurements, are there tractable reconstruction algorithms that succeed with optimal sample complexity? Meanwhile, progress in machine learning has led to the development of new data-driven signal priors in the form of generative models, which can outperform sparsity priors with significantly fewer measurements. In this work, we resolve the open problem in compressive phase retrieval and demonstrate that generative priors can lead to a fundamental advance by permitting optimal sample complexity by a tractable algorithm in this challenging nonlinear inverse problem. We additionally provide empirics showing that exploiting generative priors in phase retrieval can significantly outperform sparsity priors. These results provide support for generative priors as a new paradigm for signal recovery in a variety of contexts, both empirically and theoretically. The strengths of this paradigm are that (1) generative priors can represent some classes of natural signals more concisely than sparsity priors, (2) generative priors allow for direct optimization over the natural signal manifold, which is intractable under sparsity priors, and (3) the resulting non-convex optimization problems with generative priors can admit benign optimization landscapes at optimal sample complexity, perhaps surprisingly, even in cases of nonlinear measurements.
翻訳日:2022-10-25 12:53:58 公開日:2020-08-24
# 機械学習による外惑星検証:50個の検証済みケプラー惑星

Exoplanet Validation with Machine Learning: 50 new validated Kepler planets ( http://arxiv.org/abs/2008.10516v1 )

ライセンス: Link先を確認
David J. Armstrong, Jevgenij Gamper, Theodoros Damoulas(参考訳) 約4000個の既知の太陽系外惑星のうち30%以上が、偽陽性(FP)から生じる遷移の統計的確率を計算した「バリデーション」を用いて発見されている。 これらの検証された惑星の大部分がvespaアルゴリズムを用いて計算された(morton et al. 2016)。 vespaの強みと弱みにかかわらず、既知の惑星のカタログは単一の方法に依存しない方が非常に望ましい。 本稿では,機械学習アルゴリズム,特に他のモデルで強化されたガウスプロセス分類器(GPC)を用いて,FPシナリオの事前確率を組み込んだ確率論的惑星検証を行う。 GPCは、ケプラーしきい値交差イベント(TCE)カタログにおいて、確認された惑星とFPを分離する際に、サンプルあたり平均0.54のログロスを達成することができる。 私たちのモデルは、適用可能なベッティングメトリクスが計算されれば、数千の未発見の候補を数秒で検証でき、多数の観測対象が自動化アルゴリズムの使用を必要とするアクティブなtessミッションに適応することができます。 この手法の限界と注意事項を議論し、新たに50のケプラー候補を惑星として検証する可能性のある失敗モードを考慮し、最新の恒星情報を用いてvespaで検証することで検証を検証する。 vespaとの相違は、他の多くの候補に対して生じ、通常は我々のモデルに賛成する。 このような問題から,差分が完全に理解されるまで,いずれの手法も単層惑星検証を使用することには注意が必要である。

Over 30% of the ~4000 known exoplanets to date have been discovered using 'validation', where the statistical likelihood of a transit arising from a false positive (FP), non-planetary scenario is calculated. For the large majority of these validated planets calculations were performed using the vespa algorithm (Morton et al. 2016). Regardless of the strengths and weaknesses of vespa, it is highly desirable for the catalogue of known planets not to be dependent on a single method. We demonstrate the use of machine learning algorithms, specifically a gaussian process classifier (GPC) reinforced by other models, to perform probabilistic planet validation incorporating prior probabilities for possible FP scenarios. The GPC can attain a mean log-loss per sample of 0.54 when separating confirmed planets from FPs in the Kepler threshold crossing event (TCE) catalogue. Our models can validate thousands of unseen candidates in seconds once applicable vetting metrics are calculated, and can be adapted to work with the active TESS mission, where the large number of observed targets necessitates the use of automated algorithms. We discuss the limitations and caveats of this methodology, and after accounting for possible failure modes newly validate 50 Kepler candidates as planets, sanity checking the validations by confirming them with vespa using up to date stellar information. Concerning discrepancies with vespa arise for many other candidates, which typically resolve in favour of our models. Given such issues, we caution against using single-method planet validation with either method until the discrepancies are fully understood.
翻訳日:2022-10-25 12:45:11 公開日:2020-08-24
# マルチコーパスウェアラブルデータを用いた影響計算のための教師なしマルチモーダル表現学習

Unsupervised Multi-Modal Representation Learning for Affective Computing with Multi-Corpus Wearable Data ( http://arxiv.org/abs/2008.10726v1 )

ライセンス: Link先を確認
Kyle Ross, Paul Hungler, Ali Etemad(参考訳) 近年のスマート技術の発展に伴い,感情認識によるユーザエクスペリエンスのさらなる向上を目的とした,感情コンピューティングへの人工知能と機械学習の利用が注目されている。 通常、情緒的コンピューティングに使用される機械学習モデルは、生体信号から手動で抽出された特徴を用いて訓練される。 このような機能は大規模なデータセットではうまく一般化できず、生の入力データから情報を取得するのに最適ではないかもしれない。 この問題に対処する1つのアプローチは、生物信号の潜在表現を学ぶために完全な教師付きディープラーニング手法を使用することである。 しかし、この方法では、データのラベル付けを人間に委ねる必要があり、入手が困難になる可能性がある。 本研究では,人的監督への依存を減らすために,教師なしの枠組みを提案する。 提案手法は,2つの積層畳み込みオートエンコーダを用いて,ウェアラブル心電図(ecg)および電極活動(eda)信号から潜在表現を学習する。 これらの表現はランダムフォレストモデルでバイナリー覚醒分類に利用される。 このアプローチは、人間の監督を減らし、より一般化可能なデータセットの集約を可能にする。 このフレームワークを検証するために、AMIGOS、ASCERTAIN、CLEAS、MAHNOB-HCIデータセットからなる集約データセットを作成する。 提案手法は,手作業による手作業による特徴抽出と,畳み込みニューラルネットワークを用いて比較した。 2つのモードを融合させる手法についても検討した。 最後に,本手法は,ECG と EDA のバイオシグナールを用いて,同じデータセット上で刺激検出を行った現在の技術結果よりも優れていることを示す。 その結果,階層型畳み込みオートエンコーダは感情コンピューティングに機械学習を応用できることがわかった。

With recent developments in smart technologies, there has been a growing focus on the use of artificial intelligence and machine learning for affective computing to further enhance the user experience through emotion recognition. Typically, machine learning models used for affective computing are trained using manually extracted features from biological signals. Such features may not generalize well for large datasets and may be sub-optimal in capturing the information from the raw input data. One approach to address this issue is to use fully supervised deep learning methods to learn latent representations of the biosignals. However, this method requires human supervision to label the data, which may be unavailable or difficult to obtain. In this work we propose an unsupervised framework reduce the reliance on human supervision. The proposed framework utilizes two stacked convolutional autoencoders to learn latent representations from wearable electrocardiogram (ECG) and electrodermal activity (EDA) signals. These representations are utilized within a random forest model for binary arousal classification. This approach reduces human supervision and enables the aggregation of datasets allowing for higher generalizability. To validate this framework, an aggregated dataset comprised of the AMIGOS, ASCERTAIN, CLEAS, and MAHNOB-HCI datasets is created. The results of our proposed method are compared with using convolutional neural networks, as well as methods that employ manual extraction of hand-crafted features. The methodology used for fusing the two modalities is also investigated. Lastly, we show that our method outperforms current state-of-the-art results that have performed arousal detection on the same datasets using ECG and EDA biosignals. The results show the wide-spread applicability for stacked convolutional autoencoders to be used with machine learning for affective computing.
翻訳日:2022-10-25 12:44:30 公開日:2020-08-24
# 2段階検査による感染者検出の効率化

Efficient Detection Of Infected Individuals using Two Stage Testing ( http://arxiv.org/abs/2008.10741v1 )

ライセンス: Link先を確認
Arjun Kodialam(参考訳) 集団検査は、感染した個体を検出するために集団を検査する効率的な方法である。 本稿では,効率的な適応型2段階群試験法を提案する。 素直な解析を用いて、2段階のグループテストアルゴリズムの効率を特徴付ける。 ランダム化の異なる3種類のスキームに対して,テストのパラメータを最適に選択する方法を決定するとともに,2段階試験の性能が採用されるランダム化の種類に依存することを示す。 類似したランダム化の手順は、すべての感染した個人を検知するために期待されるテスト数が異なるため、最適な性能を達成するためにどのようなランダム化が必要かを決定する。 さらに、最適設定では、テストスキームは入力パラメータのエラーに対して堅牢であることを示す。

Group testing is an efficient method for testing a large population to detect infected individuals. In this paper, we consider an efficient adaptive two stage group testing scheme. Using a straightforward analysis, we characterize the efficiency of several two stage group testing algorithms. We determine how to pick the parameters of the tests optimally for three schemes with different types of randomization, and show that the performance of two stage testing depends on the type of randomization employed. Seemingly similar randomization procedures lead to different expected number of tests to detect all infected individuals, we determine what kinds of randomization are necessary to achieve optimal performance. We further show that in the optimal setting, our testing scheme is robust to errors in the input parameters.
翻訳日:2022-10-25 12:44:03 公開日:2020-08-24
# PDE用ディープサロゲートの能動的学習 : 準曲面設計への応用

Active learning of deep surrogates for PDEs: Application to metasurface design ( http://arxiv.org/abs/2008.12649v1 )

ライセンス: Link先を確認
Rapha\"el Pestourie, Youssef Mroueh, Thanh V. Nguyen, Payel Das, Steven G. Johnson(参考訳) 部分微分方程式の代理モデルは、構成可能な成分の挙動を迅速に評価するためにメタマテリアルの設計に広く用いられている。 しかしながら、機械学習による正確なサロゲートのトレーニングコストは、変数の数によって急速に増加する可能性がある。 フォトニックデバイスモデルでは、光波長よりもデザイン領域が大きくなるにつれて、このトレーニングは特に困難になる。 本稿では,光表面成分のニューラル・ネットワーク・サロゲートモデルにおいて,ランダムサンプルと比較してトレーニング点数を1桁以上削減する能動的学習アルゴリズムを提案する。 その結果,サロゲート評価は直接解よりも2桁以上高速であり,大規模工学最適化の高速化にどのように活用できるかを実証した。

Surrogate models for partial-differential equations are widely used in the design of meta-materials to rapidly evaluate the behavior of composable components. However, the training cost of accurate surrogates by machine learning can rapidly increase with the number of variables. For photonic-device models, we find that this training becomes especially challenging as design regions grow larger than the optical wavelength. We present an active learning algorithm that reduces the number of training points by more than an order of magnitude for a neural-network surrogate model of optical-surface components compared to random samples. Results show that the surrogate evaluation is over two orders of magnitude faster than a direct solve, and we demonstrate how this can be exploited to accelerate large-scale engineering optimization.
翻訳日:2022-10-25 12:43:08 公開日:2020-08-24
# コンテクストトンプソンサンプリングによる認知的レーダー・細胞共存のための効率的なオンライン学習

Efficient Online Learning for Cognitive Radar-Cellular Coexistence via Contextual Thompson Sampling ( http://arxiv.org/abs/2008.10149v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) 本稿では,非協調的なセルネットワークとのスペクトル共有を容易にする適応型レーダ伝送の逐次的学習手法について述べる。 まず、レーダと空間的に離れたセルネットワークとの間の干渉チャネルをモデル化する。 次に、レーダの動作を駆動するために線形文脈バンディット(cb)学習フレームワークを適用する。 探索と利用の基本的なトレードオフは、特定の波形が最適である確率に基づいて波形パラメータを文脈として選択する擬ベイズ的手法であるトンプソンサンプリング(TS)アルゴリズムによってバランスされる。 文脈的TSアプローチは、相互干渉を最小限に抑え、コンテクスト的帯域幅アルゴリズムよりもスペクトル利用を最大化する振る舞いにより早く収束する。 また,ts学習方式は,他のオンライン学習アルゴリズムと比較して,sinr分布が良好であることを示す。 最後に,提案するtsアルゴリズムを深層強化学習モデルと比較する。 TSアルゴリズムはより複雑なディープQ-Network (DQN) と競合する性能を維持する。

This paper describes a sequential, or online, learning scheme for adaptive radar transmissions that facilitate spectrum sharing with a non-cooperative cellular network. First, the interference channel between the radar and a spatially distant cellular network is modeled. Then, a linear Contextual Bandit (CB) learning framework is applied to drive the radar's behavior. The fundamental trade-off between exploration and exploitation is balanced by a proposed Thompson Sampling (TS) algorithm, a pseudo-Bayesian approach which selects waveform parameters based on the posterior probability that a specific waveform is optimal, given discounted channel information as context. It is shown that the contextual TS approach converges more rapidly to behavior that minimizes mutual interference and maximizes spectrum utilization than comparable contextual bandit algorithms. Additionally, we show that the TS learning scheme results in a favorable SINR distribution compared to other online learning algorithms. Finally, the proposed TS algorithm is compared to a deep reinforcement learning model. We show that the TS algorithm maintains competitive performance with a more complex Deep Q-Network (DQN).
翻訳日:2022-10-25 12:42:59 公開日:2020-08-24
# 新型コロナウイルスのような制御パンデミックの新しい数学的モデル : AIによる予測

A New Mathematical Model for Controlled Pandemics Like COVID-19 : AI Implemented Predictions ( http://arxiv.org/abs/2008.10530v1 )

ライセンス: Link先を確認
Liam Dowling Jones, Malik Magdon-Ismail, Laura Mersini-Houghton and Steven Meshnick(参考訳) 本稿では, ロックダウン日時, 社会的距離, マスク, 学校, 国境閉鎖の3つの制限措置が, 新型コロナウイルスの感染拡大を抑える効果を, 明確に把握する新しい数学的モデルを提案する。 規制導入前は,SEIRモデルによる感染のランダム拡散が指数関数的に増加した。 制御測度の追加は、システムの進化において秩序と無秩序の混合をもたらし、異なる数学的種類のモデルに陥り、最終的に臨界現象に繋がる可能性がある。 一般的な分析解を得るのは難しい。 i(r,t)$という新しい方程式を機械学習を使って解き、任意の地域での感染症はr$を時間$t$に設定し、特定の測定値とその持続時間の強さの関数として、時間とともに感染が広がるという予測を導出します。 このマシンは、新型コロナウイルス(COVID-19)が公表した各地域、郡、州、国のすべてのデータで訓練されている。 最適化を利用して、世界の各地域で過去のデータからモデルのパラメータの最適な値を学び、予測された感染曲線を、追加または緩和される可能性のある将来の制限のために更新する。 この学際的な取り組みは、感染拡大の減速と機械学習の問題解決力を組み合わせた、各指標の影響を予測する新しい数学的モデルであり、現在のパンデミックと将来のパンデミックとの戦いに有用なツールであることを願っている。

We present a new mathematical model to explicitly capture the effects that the three restriction measures: the lockdown date and duration, social distancing and masks, and, schools and border closing, have in controlling the spread of COVID-19 infections $i(r, t)$. Before restrictions were introduced, the random spread of infections as described by the SEIR model grew exponentially. The addition of control measures introduces a mixing of order and disorder in the system's evolution which fall under a different mathematical class of models that can eventually lead to critical phenomena. A generic analytical solution is hard to obtain. We use machine learning to solve the new equations for $i(r,t)$, the infections $i$ in any region $r$ at time $t$ and derive predictions for the spread of infections over time as a function of the strength of the specific measure taken and their duration. The machine is trained in all of the COVID-19 published data for each region, county, state, and country in the world. It utilizes optimization to learn the best-fit values of the model's parameters from past data in each region in the world, and it updates the predicted infections curves for any future restrictions that may be added or relaxed anywhere. We hope this interdisciplinary effort, a new mathematical model that predicts the impact of each measure in slowing down infection spread combined with the solving power of machine learning, is a useful tool in the fight against the current pandemic and potentially future ones.
翻訳日:2022-10-25 12:42:37 公開日:2020-08-24
# 応力最小化のための確率勾配発振加工

Stochastic Gradient Descent Works Really Well for Stress Minimization ( http://arxiv.org/abs/2008.10376v1 )

ライセンス: Link先を確認
Katharina B\"orsig, Ulrik Brandes and Barna Pasztor(参考訳) 応力最小化は、高い品質のグラフレイアウトを確実に得られるため、最もよく研究されている。 したがって、確率勾配勾配に基づく新しいアプローチ(Zheng, Pawar and Goodman, TVCG 2019)が、偏化に基づく最先端のアプローチを改善すると主張しているのは驚きである。 実験により,新しい手法ではレイアウトの精度が向上しないが,初期化の低さに対してシンプルで堅牢であるため,それでも望ましいことが示唆された。

Stress minimization is among the best studied force-directed graph layout methods because it reliably yields high-quality layouts. It thus comes as a surprise that a novel approach based on stochastic gradient descent (Zheng, Pawar and Goodman, TVCG 2019) is claimed to improve on state-of-the-art approaches based on majorization. We present experimental evidence that the new approach does not actually yield better layouts, but that it is still to be preferred because it is simpler and robust against poor initialization.
翻訳日:2022-10-25 12:35:57 公開日:2020-08-24
# 最適輸送に制約のある情報:タラグラッドからマートンへ、そしてカバーへ

Information Constrained Optimal Transport: From Talagrand, to Marton, to Cover ( http://arxiv.org/abs/2008.10249v1 )

ライセンス: Link先を確認
Yikun Bai, Xiugang Wu, Ayfer Ozgur(参考訳) 最適な輸送問題は、最もコスト効率のよい方法である尺度を別の尺度に転送する方法を研究し、経済学から機械学習まで幅広い応用がある。 本稿では,この問題の情報制約変動について紹介し,考察する。 本研究は,タラグランドの運送コスト不平等の強化と一般化をもたらすものである。 Marton氏のアプローチに従えば,新しい輸送コストの不平等が,古い測定結果の新たな集中の回復に有効であることを示す。 最後に、この新たな不等式をネットワーク情報理論に適用する。 本研究では,リレーチャネルのキャパシティに関するカバーによって生じる長期にわたるオープン問題に対する最近の解を,ほぼ即時に回復するために使用できることを示す。

The optimal transport problem studies how to transport one measure to another in the most cost-effective way and has wide range of applications from economics to machine learning. In this paper, we introduce and study an information constrained variation of this problem. Our study yields a strengthening and generalization of Talagrand's celebrated transportation cost inequality. Following Marton's approach, we show that the new transportation cost inequality can be used to recover old and new concentration of measure results. Finally, we provide an application of this new inequality to network information theory. We show that it can be used to recover almost immediately a recent solution to a long-standing open problem posed by Cover regarding the capacity of the relay channel.
翻訳日:2022-10-25 12:35:41 公開日:2020-08-24
# 深部ニューラルネットワークを用いた電力系統の広域事象分類

Deep Neural Network based Wide-Area Event Classification in Power Systems ( http://arxiv.org/abs/2008.10151v1 )

ライセンス: Link先を確認
Iman Niazazari, Amir Ghasemkhani, Yunchuan Liu, Shuchismita Biswas, Hanif Livani, Lei Yang, Virgilio Centeno(参考訳) 本稿では,送電系統における広域イベント分類について述べる。 深部ニューラルネットワーク(DNN)に基づく分類器は、PMU(Time-synchronized phasor Measurement Unit)からのデータの可用性に基づいて開発された。 提案したDNNはベイズ最適化を用いて最適なハイパーパラメータを探索する。 提案するイベント分類の有効性は、米国送電網の実世界データセットを通じて検証される。 このデータセットは、回線停止、変圧器停止、周波数イベント、振動イベントを含む。 検証プロセスには、電圧等級、角度、電流等級、周波数、周波数変化率(ROCOF)などの異なるPMU出力も含まれている。 シミュレーションの結果,入力特徴としてrocofが最適分類性能を示している。 さらに, より高サンプリング率PMUと高データセットで訓練した分類器は, 精度が高いことを示した。

This paper presents a wide-area event classification in transmission power grids. The deep neural network (DNN) based classifier is developed based on the availability of data from time-synchronized phasor measurement units (PMUs). The proposed DNN is trained using Bayesian optimization to search for the best hyperparameters. The effectiveness of the proposed event classification is validated through the real-world dataset of the U.S. transmission grids. This dataset includes line outage, transformer outage, frequency event, and oscillation events. The validation process also includes different PMU outputs, such as voltage magnitude, angle, current magnitude, frequency, and rate of change of frequency (ROCOF). The simulation results show that ROCOF as input feature gives the best classification performance. In addition, it is shown that the classifier trained with higher sampling rate PMUs and a larger dataset has higher accuracy.
翻訳日:2022-10-25 12:35:31 公開日:2020-08-24
# 学習した空間指標の事例

The Case for Learned Spatial Indexes ( http://arxiv.org/abs/2008.10349v1 )

ライセンス: Link先を確認
Varun Pandey, Alexander van Renen, Andreas Kipf, Ibrahim Sabek, Jialin Ding, Alfons Kemper(参考訳) 空間データはユビキタスである。 大量のデータは、携帯電話、車、センサー、そしてUber、Tinder、Facebook、Twitter、Instagramなどのさまざまな消費者向けアプリケーションなど、何十億ものGPS対応デバイスから毎日生成される。 この空間データの増加により、研究コミュニティは空間データを効率的に処理できるシステムやアプリケーションの構築に注力するようになった。 一方,最近の研究は学習指標構造を導入している。 本研究では,最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いて,空間範囲の問合せに応答できる5つの古典的多次元インデックスに適用する。 各パーティショニングテクニックを最適性能に調整することにより、そのことを示す。 (i)1次元のフィルタリングを使用する場合、分割内の機械学習検索は、バイナリ検索よりも11.79\%速く39.51\%である。 (ii)木構造におけるボトルネックはインデックス検索であり、インデックス分割を線形化することで改善される可能性がある。 (iii)1次元のフィルタリングと機械学習インデックスによる精錬は2次元のフィルタと最も近い競争相手の1.23倍から1.83倍高速である。 (4) 学習指標は, 高い選択性の下では効率が悪く, 低い選択性クエリの性能に大きな影響を及ぼす可能性がある。

Spatial data is ubiquitous. Massive amounts of data are generated every day from billions of GPS-enabled devices such as cell phones, cars, sensors, and various consumer-based applications such as Uber, Tinder, location-tagged posts in Facebook, Twitter, Instagram, etc. This exponential growth in spatial data has led the research community to focus on building systems and applications that can process spatial data efficiently. In the meantime, recent research has introduced learned index structures. In this work, we use techniques proposed from a state-of-the art learned multi-dimensional index structure (namely, Flood) and apply them to five classical multi-dimensional indexes to be able to answer spatial range queries. By tuning each partitioning technique for optimal performance, we show that (i) machine learned search within a partition is faster by 11.79\% to 39.51\% than binary search when using filtering on one dimension, (ii) the bottleneck for tree structures is index lookup, which could potentially be improved by linearizing the indexed partitions (iii) filtering on one dimension and refining using machine learned indexes is 1.23x to 1.83x times faster than closest competitor which filters on two dimensions, and (iv) learned indexes can have a significant impact on the performance of low selectivity queries while being less effective under higher selectivities.
翻訳日:2022-10-25 12:35:03 公開日:2020-08-24
# 産業タスクにおけるオブジェクト中心操作スキルの学習とシークエンシング

Learning and Sequencing of Object-Centric Manipulation Skills for Industrial Tasks ( http://arxiv.org/abs/2008.10471v1 )

ライセンス: Link先を確認
Leonel Rozo, Meng Guo, Andras G. Kupcsik, Marco Todescato, Philipp Schillinger, Markus Giftthaler, Matthias Ochs, Markus Spies, Nicolai Waniek, Patrick Kesper, Mathias B\"uerger(参考訳) 操作スキルを素早く習得するロボットの開発は、重要な問題だが難しい問題だ。 そのような操作スキルは柔軟でなければならない。例えば、現在のワークスペースの設定に適応できる。 さらに、複雑な操作タスクを実現するために、ロボットはいくつかのスキルを順序付けし、変化する状況に適応できるべきである。 本研究では,オブジェクト中心の隠れセミマルコフモデルを用いて,スキルを符号化する高速ロボットのスキルシーケンシングアルゴリズムを提案する。 学習スキルモデルは、マルチモーダル(時間的および空間的)軌道分布を符号化することができる。 このアプローチは、高い柔軟性と学習スキルの再使用性を確保しながら、手動モデリングの労力を大幅に削減します。 タスク目標と一般的なスキルセットが与えられた場合、私たちのフレームワークはスキルインスタンス間のスムーズな移行を計算します。 タスク空間における対応する最適エンドエフェクタ軌道を計算するには、リーマン最適制御器に依存する。 本研究では,産業用組立作業用ロボットアーム7台について実演する。

Enabling robots to quickly learn manipulation skills is an important, yet challenging problem. Such manipulation skills should be flexible, e.g., be able adapt to the current workspace configuration. Furthermore, to accomplish complex manipulation tasks, robots should be able to sequence several skills and adapt them to changing situations. In this work, we propose a rapid robot skill-sequencing algorithm, where the skills are encoded by object-centric hidden semi-Markov models. The learned skill models can encode multimodal (temporal and spatial) trajectory distributions. This approach significantly reduces manual modeling efforts, while ensuring a high degree of flexibility and re-usability of learned skills. Given a task goal and a set of generic skills, our framework computes smooth transitions between skill instances. To compute the corresponding optimal end-effector trajectory in task space we rely on Riemannian optimal controller. We demonstrate this approach on a 7 DoF robot arm for industrial assembly tasks.
翻訳日:2022-10-25 12:34:08 公開日:2020-08-24
# 法的特異性の多次元性:パラメトリック解析とai法的推論の自律的レベル

Multidimensionality of Legal Singularity: Parametric Analysis and the Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2008.10575v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 法学者はここ数年、人工知能(AI)領域から活用された変種または法領域のオフシュート(英語版)を含む、将来起こりうる法的な特異性に関する議論と議論を継続してきた(古典的には「特異性」と呼ばれる)。 This paper examines the postulated Legal Singularity and proffers that such AI and Law cogitations can be enriched by these three facets addressed herein: (1) dovetail additionally salient considerations of The Singularity into the Legal Singularity, (2) make use of an in-depth and innovative multidimensional parametric analysis of the Legal Singularity as posited in this paper, and (3) align and unify the Legal Singularity with the Levels of Autonomy (LoA) associated with AI Legal Reasoning (AILR) as propounded in this paper.

Legal scholars have in the last several years embarked upon an ongoing discussion and debate over a potential Legal Singularity that might someday occur, involving a variant or law-domain offshoot leveraged from the Artificial Intelligence (AI) realm amid its many decades of deliberations about an overarching and generalized technological singularity (referred to classically as The Singularity). This paper examines the postulated Legal Singularity and proffers that such AI and Law cogitations can be enriched by these three facets addressed herein: (1) dovetail additionally salient considerations of The Singularity into the Legal Singularity, (2) make use of an in-depth and innovative multidimensional parametric analysis of the Legal Singularity as posited in this paper, and (3) align and unify the Legal Singularity with the Levels of Autonomy (LoA) associated with AI Legal Reasoning (AILR) as propounded in this paper.
翻訳日:2022-10-25 12:28:03 公開日:2020-08-24
# 精密ヘルスデータ:データセキュリティとプライバシのための要件、課題、既存の技術

Precision Health Data: Requirements, Challenges and Existing Techniques for Data Security and Privacy ( http://arxiv.org/abs/2008.10733v1 )

ライセンス: Link先を確認
Chandra Thapa and Seyit Camtepe(参考訳) 精密医療は、オミック、ライフスタイル、環境、ソーシャルメディア、医療記録、医療保険請求など様々な情報源からの情報を活用し、パーソナライズされたケア、予防と予測、正確な治療を可能にしている。 センシング技術(例えば、電子健康監視装置)、計算技術(例えば、機械学習)、通信技術(例えば、健康データセンター間の相互作用)を多用している。 医療データは、患者や介護者の身元や患者の医療状況など、機密性の高い個人情報を含むため、常に適切なケアが必要である。 これらの個人情報の漏洩は、いじめ、保険料の高騰、医療史による失業など、個人の生活に影響を及ぼす。 したがって、情報に対するセキュリティ、プライバシ、信頼が最も重要である。 さらに、政府法と倫理委員会が医療データのセキュリティとプライバシーを要求する。 ここでは、精度の高い健康データセキュリティ、プライバシ、倫理的および規制上の要件を考慮して、健康データの利用に最適な方法と技術を見つけ、したがって精度の高い健康が不可欠である。 本稿では,まず,世界の規制,倫理的ガイドライン,ドメイン固有のニーズについて考察する。 そして、要求を提示し、関連する課題を調査します。 第2に, 健康関連プロジェクトにおいて, 精度の高い健康データ計算に適した安全かつプライバシー保護の機械学習手法について検討する。 最後に、コンプライアンス、倫理的クリアランス、同意管理、医療革新、健康分野の発展を可能にする概念的システムモデルを用いて、精密な健康データセキュリティとプライバシのための最善のテクニックを説明している。

Precision health leverages information from various sources, including omics, lifestyle, environment, social media, medical records, and medical insurance claims to enable personalized care, prevent and predict illness, and precise treatments. It extensively uses sensing technologies (e.g., electronic health monitoring devices), computations (e.g., machine learning), and communication (e.g., interaction between the health data centers). As health data contain sensitive private information, including the identity of patient and carer and medical conditions of the patient, proper care is required at all times. Leakage of these private information affects the personal life, including bullying, high insurance premium, and loss of job due to the medical history. Thus, the security, privacy of and trust on the information are of utmost importance. Moreover, government legislation and ethics committees demand the security and privacy of healthcare data. Herein, in the light of precision health data security, privacy, ethical and regulatory requirements, finding the best methods and techniques for the utilization of the health data, and thus precision health is essential. In this regard, firstly, this paper explores the regulations, ethical guidelines around the world, and domain-specific needs. Then it presents the requirements and investigates the associated challenges. Secondly, this paper investigates secure and privacy-preserving machine learning methods suitable for the computation of precision health data along with their usage in relevant health projects. Finally, it illustrates the best available techniques for precision health data security and privacy with a conceptual system model that enables compliance, ethics clearance, consent management, medical innovations, and developments in the health domain.
翻訳日:2022-10-25 12:27:49 公開日:2020-08-24
# 生成逆ネットワークを用いた忠実度制御可能な極端画像圧縮

Fidelity-Controllable Extreme Image Compression with Generative Adversarial Networks ( http://arxiv.org/abs/2008.10314v1 )

ライセンス: Link先を確認
Shoma Iwai, Tomo Miyazaki, Yoshihiro Sugaya and Shinichiro Omachi(参考訳) 0.1bpp以下の極低ビットレートで動作するGAN画像圧縮法を提案する。 既存の画像圧縮手法の多くは、非常に低ビットレートでぼやけている。 GANはシャープな画像の再構築に役立つが、2つの欠点がある。 まず、GANはトレーニングを不安定にする。 第二に、再建には音や工芸品が供給されないことが多い。 両欠点に対処するため,本手法では2段階のトレーニングとネットワーク補間を行う。 2段階の訓練は、トレーニングの安定化に有効である。 さらに、ネットワーク補間は両方の段階でモデルを利用し、重要なエッジを維持しながら、望ましくないノイズやアーティファクトを減らす。 したがって、モデルを再訓練することなく知覚品質と忠実さのトレードオフを制御できる。 実験の結果,本モデルは高品質画像を再現できることがわかった。 さらに,本研究は,現状のGAN画像圧縮モデルよりも再構築が望ましいことを示す。 コードは利用可能だ。

We propose a GAN-based image compression method working at extremely low bitrates below 0.1bpp. Most existing learned image compression methods suffer from blur at extremely low bitrates. Although GAN can help to reconstruct sharp images, there are two drawbacks. First, GAN makes training unstable. Second, the reconstructions often contain unpleasing noise or artifacts. To address both of the drawbacks, our method adopts two-stage training and network interpolation. The two-stage training is effective to stabilize the training. Moreover, the network interpolation utilizes the models in both stages and reduces undesirable noise and artifacts, while maintaining important edges. Hence, we can control the trade-off between perceptual quality and fidelity without re-training models. The experimental results show that our model can reconstruct high quality images. Furthermore, our user study confirms that our reconstructions are preferable to state-of-the-art GAN-based image compression model. The code will be available.
翻訳日:2022-10-25 12:26:19 公開日:2020-08-24
# 光検出器と平面板を用いたlidarの大規模校正システム

Automatic LiDAR Extrinsic Calibration System using Photodetector and Planar Board for Large-scale Applications ( http://arxiv.org/abs/2008.10542v1 )

ライセンス: Link先を確認
Ji-Hwan You, Seon Taek Oh, Jae-Eun Park, Azim Eskandarian, and Young-Keun Kim(参考訳) 本稿では,高自動車両の大規模生産において,移動プラットフォームに搭載されたlidarの外部パラメータを推定する新しい自動キャリブレーションシステムを提案する。 そこで本研究では, PD-target System と呼ばれる光検出器アレイを組込み, ターゲット表面上の対応レーザビームの正確な位置を求めるためのターゲットボードの提案を行った。 さらに、提案方式では、自動車製造環境において容易に適用可能な近距離での固定姿勢での目標板の簡易な設計のみを要求される。 提案手法を低分解能LiDARで実験した結果,LiDARオフセットポーズは0.1度と3mmの精度で推定可能であることがわかった。 提案する校正システムの精度と簡易性は,自律システムの信頼性と安全性の大規模適用に有用である。

This paper presents a novel automatic calibration system to estimate the extrinsic parameters of LiDAR mounted on a mobile platform for sensor misalignment inspection in the large-scale production of highly automated vehicles. To obtain subdegree and subcentimeter accuracy levels of extrinsic calibration, this study proposed a new concept of a target board with embedded photodetector arrays, named the PD-target system, to find the precise position of the correspondence laser beams on the target surface. Furthermore, the proposed system requires only the simple design of the target board at the fixed pose in a close range to be readily applicable in the automobile manufacturing environment. The experimental evaluation of the proposed system on low-resolution LiDAR showed that the LiDAR offset pose can be estimated within 0.1 degree and 3 mm levels of precision. The high accuracy and simplicity of the proposed calibration system make it practical for large-scale applications for the reliability and safety of autonomous systems.
翻訳日:2022-10-25 12:25:44 公開日:2020-08-24
# 低分解能自動車用LiDARの高精度配向検査システム

Accurate Alignment Inspection System for Low-resolution Automotive and Mobility LiDAR ( http://arxiv.org/abs/2008.10584v1 )

ライセンス: Link先を確認
Seontake Oh, Ji-Hwan You, Azim Eskandarian, Young-Keun Kim(参考訳) LiDARのミスアライメントは、障害物検出とマッピングにおいて重大なエラーを引き起こし、安全性と品質の問題を引き起こす可能性がある。 本稿では,車両やロボットなどの移動システムにセンサを装着した後にLiDARアライメント誤差を推定するための正確な検査システムを提案する。 提案手法では, 固定位置の1つの目標板のみを用いて3方向(ロール, 傾き, ヨー)とlidarアタッチメントの水平位置を, サブグレード, ミリ級精度で推定する。 提案した前処理ステップの後、各目標コーナーに最も近い特徴ビームポイントを抽出し、非線形最適化法を用いて目標基板フレームに対するセンサアタッチメントポーズを計算し、計算コストを低くする。 提案法の性能は,lidarの基準ヨーと水平変換をそれぞれ3度,30mmの範囲で制御できる試験ベンチを用いて評価した。 低分解能な16チャンネルLiDAR (Velodyne VLP-16) 実験の結果, 視差は0.2度と4mm以内の精度で推定できることが確認された。 提案方式の高精度化と簡易化により,安全品質管理のためのセンサアタッチメントを検査する自動車やロボット製造などの大規模産業用途に実用化されている。

A misalignment of LiDAR as low as a few degrees could cause a significant error in obstacle detection and mapping that could cause safety and quality issues. In this paper, an accurate inspection system is proposed for estimating a LiDAR alignment error after sensor attachment on a mobility system such as a vehicle or robot. The proposed method uses only a single target board at the fixed position to estimate the three orientations (roll, tilt, and yaw) and the horizontal position of the LiDAR attachment with sub-degree and millimeter level accuracy. After the proposed preprocessing steps, the feature beam points that are the closest to each target corner are extracted and used to calculate the sensor attachment pose with respect to the target board frame using a nonlinear optimization method and with a low computational cost. The performance of the proposed method is evaluated using a test bench that can control the reference yaw and horizontal translation of LiDAR within ranges of 3 degrees and 30 millimeters, respectively. The experimental results for a low-resolution 16 channel LiDAR (Velodyne VLP-16) confirmed that misalignment could be estimated with accuracy within 0.2 degrees and 4 mm. The high accuracy and simplicity of the proposed system make it practical for large-scale industrial applications such as automobile or robot manufacturing process that inspects the sensor attachment for the safety quality control.
翻訳日:2022-10-25 12:25:29 公開日:2020-08-24
# 多施設多剤部分注CTを施行したロバスト膵管腺癌の1例

Robust Pancreatic Ductal Adenocarcinoma Segmentation with Multi-Institutional Multi-Phase Partially-Annotated CT Scans ( http://arxiv.org/abs/2008.10652v1 )

ライセンス: Link先を確認
Ling Zhang, Yu Shi, Jiawen Yao, Yun Bian, Kai Cao, Dakai Jin, Jing Xiao, Le Lu(参考訳) より完全な腫瘍計測とイメージングバイオマーカーの計算の効率と再現性を高める大きな可能性を秘めているため、正確で自動化された腫瘍の分節化が望まれている。 これはおそらく、医用画像を用いた大規模臨床腫瘍学患者研究を可能にする唯一の有効な手段である。 ディープラーニングアプローチは、MRI画像における脳腫瘍のような特定の種類の腫瘍に対して、ピクセルレベルの完全な注釈付き腫瘍画像が多数あるトレーニングデータセットが利用可能であるときに、堅牢なセグメンテーション性能を示す。 しかし、多くの場合、我々は(非常に)限定的なアノテーションしか取得できないという困難に直面しています。 膵管腺癌(pdac)の分画は最も困難な腫瘍分画課題の1つであるが,臨床的に重要である。 PDACセグメンテーションに関するこれまでの研究は、静脈または静脈+動脈CTによる中程度の量の注釈画像(n<300)に限られていた。 新しい自己学習フレームワークに基づいて,アノテーション付きおよび無注釈の静脈画像または多相ct画像を組み合わせて,はるかに多くの患者 (n~=1,000) を用いたpdacセグメンテーションモデルを訓練することを提案する。 2つの教師モデルと異なるpdacセグメンテーションを無注画像に組み合わせて擬似アノテーションを生成し、膵臓周辺の関連血管を識別する指導アシスタントモデルによりさらに洗練することができる。 学生モデルは、手動および擬似アノテーション付き多相画像の両方で訓練される。 実験の結果,提案手法は,アノテート画像で訓練されたnnunetの強いベースラインに対して6.3%のdiceスコアを絶対的に改善し,放射線科医間のオブザーバー間変動と同様の性能(dice = 0.71)を得ることができた。

Accurate and automated tumor segmentation is highly desired since it has the great potential to increase the efficiency and reproducibility of computing more complete tumor measurements and imaging biomarkers, comparing to (often partial) human measurements. This is probably the only viable means to enable the large-scale clinical oncology patient studies that utilize medical imaging. Deep learning approaches have shown robust segmentation performances for certain types of tumors, e.g., brain tumors in MRI imaging, when a training dataset with plenty of pixel-level fully-annotated tumor images is available. However, more than often, we are facing the challenge that only (very) limited annotations are feasible to acquire, especially for hard tumors. Pancreatic ductal adenocarcinoma (PDAC) segmentation is one of the most challenging tumor segmentation tasks, yet critically important for clinical needs. Previous work on PDAC segmentation is limited to the moderate amounts of annotated patient images (n<300) from venous or venous+arterial phase CT scans. Based on a new self-learning framework, we propose to train the PDAC segmentation model using a much larger quantity of patients (n~=1,000), with a mix of annotated and un-annotated venous or multi-phase CT images. Pseudo annotations are generated by combining two teacher models with different PDAC segmentation specialties on unannotated images, and can be further refined by a teaching assistant model that identifies associated vessels around the pancreas. A student model is trained on both manual and pseudo annotated multi-phase images. Experiment results show that our proposed method provides an absolute improvement of 6.3% Dice score over the strong baseline of nnUNet trained on annotated images, achieving the performance (Dice = 0.71) similar to the inter-observer variability between radiologists.
翻訳日:2022-10-25 12:25:06 公開日:2020-08-24
# 偽画像はなぜ検出できるのか? 一般化する性質を理解する

What makes fake images detectable? Understanding properties that generalize ( http://arxiv.org/abs/2008.10588v1 )

ライセンス: Link先を確認
Lucy Chai, David Bau, Ser-Nam Lim, Phillip Isola(参考訳) 画像生成と操作の質は印象的なレベルに達しており、人間が本物と偽物を区別することがますます難しくなっている。 しかし、深層ネットワークは、これらの博士画像の微妙なアーティファクトを拾い上げることができる。 偽画像のどの特性が検出可能かを理解し、異なるモデルアーキテクチャ、データセット、トレーニングのバリエーションにまたがって一般化されるものを特定する。 我々は,偽画像のどの領域がより検出しやすいかを可視化するために,レセプティブフィールドが限定されたパッチベースの分類器を用いる。 さらに, 検出可能な特性を誇張する手法を示し, 画像生成装置が偽画像分類器に対して可逆的に微調整されている場合でも, 不完全であり, 検出可能なアーティファクトを特定の画像パッチに残していることを示す。 コードはhttps://chail.github.io/patch-forensics/で入手できる。

The quality of image generation and manipulation is reaching impressive levels, making it increasingly difficult for a human to distinguish between what is real and what is fake. However, deep networks can still pick up on the subtle artifacts in these doctored images. We seek to understand what properties of fake images make them detectable and identify what generalizes across different model architectures, datasets, and variations in training. We use a patch-based classifier with limited receptive fields to visualize which regions of fake images are more easily detectable. We further show a technique to exaggerate these detectable properties and demonstrate that, even when the image generator is adversarially finetuned against a fake image classifier, it is still imperfect and leaves detectable artifacts in certain image patches. Code is available at https://chail.github.io/patch-forensics/.
翻訳日:2022-10-25 12:18:17 公開日:2020-08-24
# セマンティックビューの合成

Semantic View Synthesis ( http://arxiv.org/abs/2008.10598v1 )

ライセンス: Link先を確認
Hsin-Ping Huang, Hung-Yu Tseng, Hsin-Ying Lee, Jia-Bin Huang(参考訳) 我々はセマンティック・ビュー・シンセサイザーの新たな課題に取り組み、セマンティック・ラベル・マップを入力として合成シーンの自由視点レンダリングを生成する。 我々は、画像コンテンツ生成とビュー外挿を扱うためのセマンティック画像合成とビュー合成の最近の進歩の上に構築する。 しかし、既存の画像/ビュー合成法を直接適用すると、深刻なゴースト/ブラリーアーティファクトが発生する。 欠点に対処するため,我々は2段階のアプローチを提案する。 まず,3次元映像の視覚面の色と深度を合成することに焦点を当てた。 次に、合成色と深度を用いて、多面画像(MPI)表現予測プロセスに明示的な制約を課す。 本手法は, オリジナルビューでシャープなコンテンツを生成し, 新たな視点で幾何学的に一貫したレンダリングを行う。 室内および屋外の多数の画像に対する実験は,いくつかの強いベースラインに対して良好な結果を示し,本手法の有効性を検証した。

We tackle a new problem of semantic view synthesis -- generating free-viewpoint rendering of a synthesized scene using a semantic label map as input. We build upon recent advances in semantic image synthesis and view synthesis for handling photographic image content generation and view extrapolation. Direct application of existing image/view synthesis methods, however, results in severe ghosting/blurry artifacts. To address the drawbacks, we propose a two-step approach. First, we focus on synthesizing the color and depth of the visible surface of the 3D scene. We then use the synthesized color and depth to impose explicit constraints on the multiple-plane image (MPI) representation prediction process. Our method produces sharp contents at the original view and geometrically consistent renderings across novel viewpoints. The experiments on numerous indoor and outdoor images show favorable results against several strong baselines and validate the effectiveness of our approach.
翻訳日:2022-10-25 12:18:02 公開日:2020-08-24
# DiverseNet: 片方の右答えが不十分な場合

DiverseNet: When One Right Answer is not Enough ( http://arxiv.org/abs/2008.10634v1 )

ライセンス: Link先を確認
Michael Firman, Neill D. F. Campbell, Lourdes Agapito, Gabriel J. Brostow(参考訳) マシンビジョンにおける多くの構造化予測タスクは、決定的な真理の答えではなく、受け入れられる答えの集合を持っている。 例えば、画像のセグメンテーションは人間のラベル付けバイアスの対象となる。 同様に、複数の可能なピクセル値があり、隠蔽画像領域を確実に完成させることができる。 最先端の教師付き学習手法は通常、クエリ毎に単一のテスト時間予測をするように最適化され、出力空間に他のモードが見つからない。 サンプリングを可能にする既存の方法は、しばしば速度や精度を犠牲にする。 本稿では,テスト時クエリ毎に多様な構造化予測を行うニューラルネットワークの学習手法を提案する。 一つの入力に対して、可能な答えの範囲を予測することを学ぶ。 ネットワークのアンサンブルを通じて多様性を求める手法と比較した。 このような確率的多重選択学習は、1つ以上のアンサンブルメンバーがトレーニング信号を受信できないモード崩壊に直面している。 私たちの最高のパフォーマンスソリューションは、さまざまなタスクにデプロイでき、既存のシングルモードアーキテクチャ、損失関数、トレーニングレジームに小さな変更を伴います。 提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題において定量的に改善できることを示す。

Many structured prediction tasks in machine vision have a collection of acceptable answers, instead of one definitive ground truth answer. Segmentation of images, for example, is subject to human labeling bias. Similarly, there are multiple possible pixel values that could plausibly complete occluded image regions. State-of-the art supervised learning methods are typically optimized to make a single test-time prediction for each query, failing to find other modes in the output space. Existing methods that allow for sampling often sacrifice speed or accuracy. We introduce a simple method for training a neural network, which enables diverse structured predictions to be made for each test-time query. For a single input, we learn to predict a range of possible answers. We compare favorably to methods that seek diversity through an ensemble of networks. Such stochastic multiple choice learning faces mode collapse, where one or more ensemble members fail to receive any training signal. Our best performing solution can be deployed for various tasks, and just involves small modifications to the existing single-mode architecture, loss function, and training regime. We demonstrate that our method results in quantitative improvements across three challenging tasks: 2D image completion, 3D volume estimation, and flow prediction.
翻訳日:2022-10-25 12:17:50 公開日:2020-08-24
# Google Landmark Retrieval 2020の第一の解決法

1st Place Solution to Google Landmark Retrieval 2020 ( http://arxiv.org/abs/2009.05132v1 )

ライセンス: Link先を確認
SeungKee Jeon(参考訳) 本稿では,Google Landmark Retrieval 2020 Competition on Kaggleの1位となるソリューションを提案する。 このソリューションは、多数のランドマーククラスを分類するためのメトリック学習に基づいており、2つのトレインデータセットによる転送学習、大きな画像の微調整、クリーンなサンプルの損失重みの調整、モデルのさらなるパフォーマンス向上のためのエスセンブルを使用する。 最後に、プライベートリーダーボードで0.38677 mAP@100を記録した。

This paper presents the 1st place solution to the Google Landmark Retrieval 2020 Competition on Kaggle. The solution is based on metric learning to classify numerous landmark classes, and uses transfer learning with two train datasets, fine-tuning on bigger images, adjusting loss weight for cleaner samples, and esemble to enhance the model's performance further. Finally, it scored 0.38677 mAP@100 on the private leaderboard.
翻訳日:2022-10-25 12:17:03 公開日:2020-08-24
# 例に基づく名前付きエンティティ認識

Example-Based Named Entity Recognition ( http://arxiv.org/abs/2008.10570v1 )

ライセンス: Link先を確認
Morteza Ziyadi, Yuting Sun, Abhishek Goswami, Jade Huang, and Weizhu Chen(参考訳) 我々は、サンプルベースNERと呼ぶデータが少ない場合に、名前付きエンティティ認識(NER)を新たに提案する。 トレインフリーの少数ショット学習アプローチは、質問応答からインスピレーションを得て、新しくて目に見えないドメイン内のエンティティスパンを識別します。 現状と比較すると,提案手法は,特にサポート例が少ない場合において有意に優れた性能を示す。

We present a novel approach to named entity recognition (NER) in the presence of scarce data that we call example-based NER. Our train-free few-shot learning approach takes inspiration from question-answering to identify entity spans in a new and unseen domain. In comparison with the current state-of-the-art, the proposed method performs significantly better, especially when using a low number of support examples.
翻訳日:2022-10-25 12:16:37 公開日:2020-08-24
# ビジネスプロセスイベントログを用いた次のイベント予測のための異なる分類器、エンコーディングおよびアンサンブル方式の実証的研究

An empirical investigation of different classifiers, encoding and ensemble schemes for next event prediction using business process event logs ( http://arxiv.org/abs/2008.10748v1 )

ライセンス: Link先を確認
Bayu Adhi Tama and Marco Comuzzi and Jonghyeon Ko(参考訳) 与えられた予測タスクに最適な機械学習テクニックを選択する際に、研究者や実践者を支援する経験的ベンチマークの必要性が高まっている。 本稿では、ビジネスプロセス予測モニタリングにおける次のイベント予測タスクを考察し、異なるエンコーディングウィンドウの性能とアンサンブルスキームによる影響を調べることにより、先述したベンチマークを拡張する。 アンサンブルを使用するか、どのスキームを使うかの選択は、しばしばデータの種類と分類タスクに依存する。 アンサンブルがビジネスプロセスの予測監視でうまく機能するという一般的な理解があるが、次のイベント予測はアンサンブルを含む他のベンチマークが利用できないタスクである。 提案するベンチマークは,イベントログのケースレベルでの変動性を考慮した,高性能な個別分類器あるいはアンサンブルスキームの選択を支援する。 実験の結果,特徴エンコーディングに最適なイベント数を選択することは困難であり,各イベントログを最適値を選択する際に個別に考慮する必要があることがわかった。 アンサンブルスキームは、SVMのようなこのタスクにおける低パフォーマンスな分類器の性能を改善する一方、ツリーベースの分類器のような高パフォーマンスな分類器は、アンサンブルスキームを考えると、あまり良くない。

There is a growing need for empirical benchmarks that support researchers and practitioners in selecting the best machine learning technique for given prediction tasks. In this paper, we consider the next event prediction task in business process predictive monitoring and we extend our previously published benchmark by studying the impact on the performance of different encoding windows and of using ensemble schemes. The choice of whether to use ensembles and which scheme to use often depends on the type of data and classification task. While there is a general understanding that ensembles perform well in predictive monitoring of business processes, next event prediction is a task for which no other benchmarks involving ensembles are available. The proposed benchmark helps researchers to select a high performing individual classifier or ensemble scheme given the variability at the case level of the event log under consideration. Experimental results show that choosing an optimal number of events for feature encoding is challenging, resulting in the need to consider each event log individually when selecting an optimal value. Ensemble schemes improve the performance of low performing classifiers in this task, such as SVM, whereas high performing classifiers, such as tree-based classifiers, are not better off when ensemble schemes are considered.
翻訳日:2022-10-25 12:16:29 公開日:2020-08-24
# CSCL:教師なしドメイン適応のためのクリティカルセマンティック一貫性学習

CSCL: Critical Semantic-Consistent Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2008.10464v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Yuyang Liu, Xiaowei Xu(参考訳) ラベルなしのターゲットデータのアノテーションプロセスを使用しない教師なしドメイン適応は、意味セグメンテーションにおいて魅力的な関心を集めている。 しかし、 1) 既存の手法では,ドメイン間のすべての意味表現が転送可能ではないことを無視する。 2)カテゴリー別特徴アライメントによりカテゴリー別分布シフトを狭めることができない。 上記の課題に対処するため,ドメインワイド分布とカテゴリワイド分布の相違を緩和するCSCL(Critical Semantic-Consistent Learning)モデルを開発した。 具体的には、伝達不能な知識を無視しながら、伝達可能なドメインに関する知識を強調するために、クリティカルトランスファーベースの敵対的フレームワークを設計する。 transferability-critic guides transferability-quantizerは強化学習方法で正の転送利得を最大化する。 一方、ターゲットサンプルの信頼誘導擬似ラベル生成の助けを借りて、クラス間の関係を探究し、カテゴリーごとの分布アライメントを促進するために対称なソフトな分散損失を示す。 いくつかのデータセットの実験は、我々のモデルの優位性を実証している。

Unsupervised domain adaptation without consuming annotation process for unlabeled target data attracts appealing interests in semantic segmentation. However, 1) existing methods neglect that not all semantic representations across domains are transferable, which cripples domain-wise transfer with untransferable knowledge; 2) they fail to narrow category-wise distribution shift due to category-agnostic feature alignment. To address above challenges, we develop a new Critical Semantic-Consistent Learning (CSCL) model, which mitigates the discrepancy of both domain-wise and category-wise distributions. Specifically, a critical transfer based adversarial framework is designed to highlight transferable domain-wise knowledge while neglecting untransferable knowledge. Transferability-critic guides transferability-quantizer to maximize positive transfer gain under reinforcement learning manner, although negative transfer of untransferable knowledge occurs. Meanwhile, with the help of confidence-guided pseudo labels generator of target samples, a symmetric soft divergence loss is presented to explore inter-class relationships and facilitate category-wise distribution alignment. Experiments on several datasets demonstrate the superiority of our model.
翻訳日:2022-10-25 12:09:22 公開日:2020-08-24
# 正規化流による損失画像圧縮

Lossy Image Compression with Normalizing Flows ( http://arxiv.org/abs/2008.10486v1 )

ライセンス: Link先を確認
Leonhard Helminger, Abdelaziz Djelouah, Markus Gross, Christopher Schroers(参考訳) ディープラーニングベースの画像圧縮は最近、エキサイティングな進歩を目の当たりにしており、何十年にもわたって確立され洗練されてきたトランスフォーメーションコーディングベースのアプローチを乗り越えることさえある。 しかし、深部画像圧縮の最先端のソリューションでは、入力を低次元の潜在空間にマッピングするオートエンコーダが用いられるため、量子化前には不可逆的に情報を破棄する。 そのため、それらは本質的にカバー可能な品質レベルの範囲を制限します。 対照的に、画像圧縮における従来のアプローチは、より幅広い品質レベルを実現する。 興味深いことに、彼らは情報を捨てる量子化ステップを実行する前に、可逆変換を採用する。 そこで本研究では,画像空間から潜在表現への単射写像を学習するために正規化フローを活用し,低ビットレートからほぼロスレス品質に到達可能な深部画像圧縮手法を提案する。 これに加えて,複数回実行した場合でも,再エンコーディングによって一定の品質を維持できるなど,ソリューション特有のメリットも示しています。 我々の知る限りでは、これは損失のある画像圧縮のために正規化フローを利用する機会を探求する最初の試みである。

Deep learning based image compression has recently witnessed exciting progress and in some cases even managed to surpass transform coding based approaches that have been established and refined over many decades. However, state-of-the-art solutions for deep image compression typically employ autoencoders which map the input to a lower dimensional latent space and thus irreversibly discard information already before quantization. Due to that, they inherently limit the range of quality levels that can be covered. In contrast, traditional approaches in image compression allow for a larger range of quality levels. Interestingly, they employ an invertible transformation before performing the quantization step which explicitly discards information. Inspired by this, we propose a deep image compression method that is able to go from low bit-rates to near lossless quality by leveraging normalizing flows to learn a bijective mapping from the image space to a latent representation. In addition to this, we demonstrate further advantages unique to our solution, such as the ability to maintain constant quality results through re-encoding, even when performed multiple times. To the best of our knowledge, this is the first work to explore the opportunities for leveraging normalizing flows for lossy image compression.
翻訳日:2022-10-25 12:08:56 公開日:2020-08-24
# ビデオによるインフルエンザ症状検出のための意思決定支援

Decision Support for Video-based Detection of Flu Symptoms ( http://arxiv.org/abs/2008.10534v1 )

ライセンス: Link先を確認
Kenneth Lai and Svetlana N. Yanushkevich(参考訳) 意思決定支援システムの開発は、疾患のコントロールと診断の領域に適用できる成長領域である。 ビデオベースのサーベイランスデータを用いて、スケルトンの特徴を抽出し、動作認識、具体的にはくしゃみやくしゃみの動きの検出と認識を行う。 インフルエンザ様症状の証拠として、因果関係に基づく意思決定支援システムは、意思決定に不可欠な情報を提供することができる。 骨格特徴を用いた行動認識のために, 時間的残差畳み込みネットワークの修正を提案する。 本稿では,機械学習モデルの結果を認知的意思決定支援システムの証拠として活用する能力について論じる。 我々は,機械学習と機械学習を橋渡しするための指標として,リスクと信頼の尺度を提案する。 本稿では,提案するネットワークの性能評価実験を行い,これらのパフォーマンス対策をリスクと組み合わせて信頼を生み出す方法について述べる。

The development of decision support systems is a growing domain that can be applied in the area of disease control and diagnostics. Using video-based surveillance data, skeleton features are extracted to perform action recognition, specifically the detection and recognition of coughing and sneezing motions. Providing evidence of flu-like symptoms, a decision support system based on causal networks is capable of providing the operator with vital information for decision-making. A modified residual temporal convolutional network is proposed for action recognition using skeleton features. This paper addresses the capability of using results from a machine-learning model as evidence for a cognitive decision support system. We propose risk and trust measures as a metric to bridge between machine-learning and machine-reasoning. We provide experiments on evaluating the performance of the proposed network and how these performance measures can be combined with risk to generate trust.
翻訳日:2022-10-25 12:08:12 公開日:2020-08-24
# tornado-net:ダイヤモンドインセプションモジュールを用いた多視点全変動意味セグメンテーション

TORNADO-Net: mulTiview tOtal vaRiatioN semAntic segmentation with Diamond inceptiOn module ( http://arxiv.org/abs/2008.10544v1 )

ライセンス: Link先を確認
Martin Gerdzhev, Ryan Razani, Ehsan Taghavi, Bingbing Liu(参考訳) ポイントクラウドのセグメンテーションは、ロボット工学と自動運転におけるシーン理解の重要な要素である。 本稿では,3次元LiDARポイントクラウドセマンティックセグメンテーションのためのニューラルネットワークTORNADO-Netを紹介する。 我々は,新しいダイヤモンドコンテキストブロックを備えたエンコーダデコーダResNetアーキテクチャを用いて,多視点投影特徴抽出を組み込んだ。 現在の射影に基づく方法は、隣接する点が通常同じクラスに属することを考慮しない。 この局所的近傍情報の利用と騒音予測の低減のために,総変動,lovasz-softmax,重み付きクロスエントロピー損失の組合せを導入する。 また、LiDARデータは360度視野を包含し、円形のパディングを使用するという事実も活用する。 本稿では,SemanticKITTIデータセットの最先端結果と,詳細な定量的評価とアブレーション結果を提供する。

Semantic segmentation of point clouds is a key component of scene understanding for robotics and autonomous driving. In this paper, we introduce TORNADO-Net - a neural network for 3D LiDAR point cloud semantic segmentation. We incorporate a multi-view (bird-eye and range) projection feature extraction with an encoder-decoder ResNet architecture with a novel diamond context block. Current projection-based methods do not take into account that neighboring points usually belong to the same class. To better utilize this local neighbourhood information and reduce noisy predictions, we introduce a combination of Total Variation, Lovasz-Softmax, and Weighted Cross-Entropy losses. We also take advantage of the fact that the LiDAR data encompasses 360 degrees field of view and uses circular padding. We demonstrate state-of-the-art results on the SemanticKITTI dataset and also provide thorough quantitative evaluations and ablation results.
翻訳日:2022-10-25 12:07:57 公開日:2020-08-24
# Products-10K: 大規模製品認識データセット

Products-10K: A Large-scale Product Recognition Dataset ( http://arxiv.org/abs/2008.10545v1 )

ライセンス: Link先を確認
Yalong Bai, Yuxiang Chen, Wei Yu, Linfang Wang, and Wei Zhang(参考訳) 電子商取引の急速な発展により、ショッピングのやり方は革命的な進化を遂げた。 顧客の大規模で多様なオンラインショッピングニーズを迅速に対応するために、小売AIシステムは、画像やビデオから自動的に商品をストックキーピングユニット(SKU)レベルで高精度に認識する必要がある。 しかし、SKUレベルの製品の多くはきめ細やかで視覚的に類似しているため、製品認識は依然として難しい課題だ。 すでに利用可能な製品ベンチマークはいくつかあるが、これらのデータセットは小さすぎる(限定製品数)か、騒がしい(人間ラベルの不足)かのどちらかである。 本稿では、JD.comのオンライン顧客によって頻繁に購入される1万個の細粒度SKUレベルの製品を含む「Products-10K」というラベル付き製品イメージデータセットを構築する。 当社の新しいデータベースに基づいて,製品認識に有用なヒントやテクニックをいくつか紹介した。 product-10kデータセットはhttps://products-10k.github.io/で入手できる。

With the rapid development of electronic commerce, the way of shopping has experienced a revolutionary evolution. To fully meet customers' massive and diverse online shopping needs with quick response, the retailing AI system needs to automatically recognize products from images and videos at the stock-keeping unit (SKU) level with high accuracy. However, product recognition is still a challenging task, since many of SKU-level products are fine-grained and visually similar by a rough glimpse. Although there are already some products benchmarks available, these datasets are either too small (limited number of products) or noisy-labeled (lack of human labeling). In this paper, we construct a human-labeled product image dataset named "Products-10K", which contains 10,000 fine-grained SKU-level products frequently bought by online customers in JD.com. Based on our new database, we also introduced several useful tips and tricks for fine-grained product recognition. The products-10K dataset is available via https://products-10k.github.io/.
翻訳日:2022-10-25 12:07:40 公開日:2020-08-24
# 複数のインスタンス学習のための確実性プール

Certainty Pooling for Multiple Instance Learning ( http://arxiv.org/abs/2008.10548v1 )

ライセンス: Link先を確認
Jacob Gildenblat, Ido Ben-Shaul, Zvi Lapp, and Eldad Klaiman(参考訳) マルチインスタンス学習(Multiple Instance Learning)は、データがバッグと呼ばれるインスタンスのセットに配置され、バッグごとに1つのラベルが割り当てられる弱い教師付き学習形式である。 bagレベルクラスの予測は、インスタンスの予測や埋め込みに置換不変プーリング演算子を適用することにより、複数のインスタンスから導かれる。 本稿では,モデル確実性をバッグ予測に組み込むことで,より堅牢で説明可能なモデルが得られる新しいプール演算子「textbf{Certainty Pooling」を提案する。 mnistに基づく低エビデンス比バッグを用いた制御実験と実際の病理組織学的データセットであるcamlyon16を用いて,提案法を他のプール操作者と比較した。 本手法は,バッグレベルとインスタンスレベルの予測において,特に小規模なトレーニングセットのみが利用できる場合において,他の手法よりも優れる。 このアプローチの背景にある理論的根拠と,このようなデータセットが優れている理由について論じる。

Multiple Instance Learning is a form of weakly supervised learning in which the data is arranged in sets of instances called bags with one label assigned per bag. The bag level class prediction is derived from the multiple instances through application of a permutation invariant pooling operator on instance predictions or embeddings. We present a novel pooling operator called \textbf{Certainty Pooling} which incorporates the model certainty into bag predictions resulting in a more robust and explainable model. We compare our proposed method with other pooling operators in controlled experiments with low evidence ratio bags based on MNIST, as well as on a real life histopathology dataset - Camelyon16. Our method outperforms other methods in both bag level and instance level prediction, especially when only small training sets are available. We discuss the rationale behind our approach and the reasons for its superiority for these types of datasets.
翻訳日:2022-10-25 12:07:23 公開日:2020-08-24
# 深部畳み込みニューラルネットワークを用いた非コーディングRNA要素の分類

Classification of Noncoding RNA Elements Using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2008.10580v1 )

ライセンス: Link先を確認
Brian McClannahan, Krushi Patel, Usman Sajid, Cuncong Zhong, Guanghui Wang(参考訳) 本稿では,非コーディングRNA(ncRNA)配列の分類に深層畳み込みニューラルネットワーク(CNN)を用いることを提案する。 そこで我々はまず,RNA配列を塩基対化確率を特徴付ける画像に変換する効率的な手法を提案する。 その結果、RNA配列の分類は画像分類問題に変換され、利用可能なCNNベースの分類モデルで効率的に解ける。 この論文は、ncrnaの一次配列に加えて折り畳みポテンシャルも考慮している。 提案手法に基づいて,ncRNA配列のRFAMデータベースからベンチマーク画像分類データセットを生成する。 加えて、3つの古典的なcnnモデルが実装され、提案手法の優れた性能と効率を示すために比較されている。 広範な実験結果から,rna分類に深層学習法を用いる可能性が示唆された。

The paper proposes to employ deep convolutional neural networks (CNNs) to classify noncoding RNA (ncRNA) sequences. To this end, we first propose an efficient approach to convert the RNA sequences into images characterizing their base-pairing probability. As a result, classifying RNA sequences is converted to an image classification problem that can be efficiently solved by available CNN-based classification models. The paper also considers the folding potential of the ncRNAs in addition to their primary sequence. Based on the proposed approach, a benchmark image classification dataset is generated from the RFAM database of ncRNA sequences. In addition, three classical CNN models have been implemented and compared to demonstrate the superior performance and efficiency of the proposed approach. Extensive experimental results show the great potential of using deep learning approaches for RNA classification.
翻訳日:2022-10-25 12:06:45 公開日:2020-08-24
# 条件付きモーメントマッチング画像分類のための学習カーネル

Learning Kernel for Conditional Moment-Matching Discrepancy-based Image Classification ( http://arxiv.org/abs/2008.10165v1 )

ライセンス: Link先を確認
Chuan-Xian Ren, Pengfei Ge, Dao-Qing Dai, Hong Yan(参考訳) 条件付き最大平均離散性(CMMD)は、非線形カーネル関数からの支持により条件付き分布間の差を捉えることができ、パターン分類に成功している。 しかし、CMMDは複雑な分布ではうまく機能せず、特にカーネル関数がクラス内類似性とクラス間類似性の違いを正しく特徴づけることができない。 本稿では,CMMDの識別性能を向上させるため,新しいカーネル学習手法を提案する。 ディープネットワークの特徴を反復的に操作することができ、略してKLNと表記される。 CMMD損失とオートエンコーダ(AE)は、インジェクティブ関数の学習に使用される。 複合カーネル、すなわち特性カーネルを持つ注入関数を考えることで、データカテゴリ記述におけるcmmdの有効性が向上する。 KLNは、より表現力のあるカーネルとラベル予測分布を同時に学習できるため、教師付きおよび半教師付き両方の学習シナリオにおける分類性能を改善するために使用できる。 特に、カーネルベースの類似性はディープネットワークの特徴に基づいて反復的に学習され、アルゴリズムはエンドツーエンドで実装できる。 MNIST、SVHN、CIFAR-10、CIFAR-100の4つのベンチマークデータセットで大規模な実験が行われた。 その結果,klnは最先端の分類性能を達成できた。

Conditional Maximum Mean Discrepancy (CMMD) can capture the discrepancy between conditional distributions by drawing support from nonlinear kernel functions, thus it has been successfully used for pattern classification. However, CMMD does not work well on complex distributions, especially when the kernel function fails to correctly characterize the difference between intra-class similarity and inter-class similarity. In this paper, a new kernel learning method is proposed to improve the discrimination performance of CMMD. It can be operated with deep network features iteratively and thus denoted as KLN for abbreviation. The CMMD loss and an auto-encoder (AE) are used to learn an injective function. By considering the compound kernel, i.e., the injective function with a characteristic kernel, the effectiveness of CMMD for data category description is enhanced. KLN can simultaneously learn a more expressive kernel and label prediction distribution, thus, it can be used to improve the classification performance in both supervised and semi-supervised learning scenarios. In particular, the kernel-based similarities are iteratively learned on the deep network features, and the algorithm can be implemented in an end-to-end manner. Extensive experiments are conducted on four benchmark datasets, including MNIST, SVHN, CIFAR-10 and CIFAR-100. The results indicate that KLN achieves state-of-the-art classification performance.
翻訳日:2022-10-25 12:00:40 公開日:2020-08-24
# 人間解析のための親和性認識圧縮・拡張ネットワーク

Affinity-aware Compression and Expansion Network for Human Parsing ( http://arxiv.org/abs/2008.10191v1 )

ライセンス: Link先を確認
Xinyan Zhang, Yunfeng Wang, Pengfei Xiong(参考訳) きめ細かなセグメンテーションタスクとして、人間のパーシングには、不明瞭な定義と類似した部分間の混乱により、部分間不連続と部分内不整合という2つの課題がある。 そこで本稿では,これら2つの問題に対処するために,ローカル圧縮モジュール (lcm) とグローバル拡張モジュール (gem) の2つのモジュールを主とする新しいネットワーク (acenet) を提案する。 具体的には、LCMは余分な骨格枝から得られる構造骨格点を通して部品相関情報を圧縮する。 部分間干渉を減少させ、あいまいな部分間の構造的関係を強化する。 さらに、GEMは、空間親和性を境界ガイダンスに組み込むことで、各部分の意味情報を完全な部分へと拡張し、部分内の意味的一貫性を効果的に強化する。 ACENetは、挑戦的なLIPとPascal-Person-Partデータセット上で、最先端の新たなパフォーマンスを実現する。 特に58.1%は、LIPベンチマークでIoUを達成することを意味する。

As a fine-grained segmentation task, human parsing is still faced with two challenges: inter-part indistinction and intra-part inconsistency, due to the ambiguous definitions and confusing relationships between similar human parts. To tackle these two problems, this paper proposes a novel \textit{Affinity-aware Compression and Expansion} Network (ACENet), which mainly consists of two modules: Local Compression Module (LCM) and Global Expansion Module (GEM). Specifically, LCM compresses parts-correlation information through structural skeleton points, obtained from an extra skeleton branch. It can decrease the inter-part interference, and strengthen structural relationships between ambiguous parts. Furthermore, GEM expands semantic information of each part into a complete piece by incorporating the spatial affinity with boundary guidance, which can effectively enhance the semantic consistency of intra-part as well. ACENet achieves new state-of-the-art performance on the challenging LIP and Pascal-Person-Part datasets. In particular, 58.1% mean IoU is achieved on the LIP benchmark.
翻訳日:2022-10-25 12:00:21 公開日:2020-08-24
# シミュレーションデータと実データを用いた混合訓練によるイチゴ検出

Strawberry Detection using Mixed Training on Simulated and Real Data ( http://arxiv.org/abs/2008.10236v1 )

ライセンス: Link先を確認
Sunny Goondram, Akansel Cosgun and Dana Kulic(参考訳) 本稿では,ラベル付きデータが不足し,収集に費用がかかる農業分野において,シミュレーション画像がオブジェクト検出作業にどのように役立つかを示す。 実画像におけるイチゴ検出のための実データと模擬データとの混合データセットのトレーニングを検討する。 その結果,シミュレーションデータセットを用いて実データを用いた場合,精度はわずかに向上した。

This paper demonstrates how simulated images can be useful for object detection tasks in the agricultural sector, where labeled data can be scarce and costly to collect. We consider training on mixed datasets with real and simulated data for strawberry detection in real images. Our results show that using the real dataset augmented by the simulated dataset resulted in slightly higher accuracy.
翻訳日:2022-10-25 12:00:01 公開日:2020-08-24
# vlanet: 弱教師付きビデオモーメント検索のためのビデオ言語アライメントネットワーク

VLANet: Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval ( http://arxiv.org/abs/2008.10238v1 )

ライセンス: Link先を確認
Minuk Ma, Sunjae Yoon, Junyeong Kim, Youngjoon Lee, Sunghun Kang, and Chang D. Yoo(参考訳) ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。 VMRでは、トレーニングの完全な監督を必要とするいくつかの方法が提案されている。 残念ながら、各クエリの時間境界をラベル付けした多数のトレーニングビデオを取得することは、労働集約的なプロセスである。 本稿では,ビデオのセグメントを記述したテキストクエリのみを用いて,時間的モーメントラベルなしでトレーニングを行う。 wVMRの既存のメソッドは、マルチスケールの提案を生成し、クエリ誘導型アテンションメカニズムを適用して、最も関連する提案をハイライトする。 弱監督を利用するには、不正なペアよりも適切なビデオクエリペアに対して高いスコアを予測するコントラスト学習を用いる。 多数の候補提案,粗いクエリ表現,一方的な注意機構が,局所化性能を制限したぼやけた注意マップにつながることが確認されている。 この問題に対処するためにビデオ言語アライメントネットワーク(vlanet)が提案され、スプリアス候補の提案を抽出し、きめ細かなクエリ表現を持つ多方向アライメント機構を適用することで、より鋭いアライメントを学ぶ。 サロゲート提案選択モジュールは、共同埋め込み空間におけるクエリに近接した提案を選択し、計算負荷の低減と注意力の向上につながる候補提案を大幅に削減する。 次に、カスケードクロスモーダルアテンションモジュールは、密度の高い特徴相互作用と多方向アテンションフローを考慮して、マルチモーダルアライメントを学ぶ。 VLANetはコントラスト損失を使用してエンドツーエンドでトレーニングされ、セマンティックに類似したビデオやクエリを収集する。 実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。

Video Moment Retrieval (VMR) is a task to localize the temporal moment in untrimmed video specified by natural language query. For VMR, several methods that require full supervision for training have been proposed. Unfortunately, acquiring a large number of training videos with labeled temporal boundaries for each query is a labor-intensive process. This paper explores methods for performing VMR in a weakly-supervised manner (wVMR): training is performed without temporal moment labels but only with the text query that describes a segment of the video. Existing methods on wVMR generate multi-scale proposals and apply query-guided attention mechanisms to highlight the most relevant proposal. To leverage the weak supervision, contrastive learning is used which predicts higher scores for the correct video-query pairs than for the incorrect pairs. It has been observed that a large number of candidate proposals, coarse query representation, and one-way attention mechanism lead to blurry attention maps which limit the localization performance. To handle this issue, Video-Language Alignment Network (VLANet) is proposed that learns sharper attention by pruning out spurious candidate proposals and applying a multi-directional attention mechanism with fine-grained query representation. The Surrogate Proposal Selection module selects a proposal based on the proximity to the query in the joint embedding space, and thus substantially reduces candidate proposals which leads to lower computation load and sharper attention. Next, the Cascaded Cross-modal Attention module considers dense feature interactions and multi-directional attention flow to learn the multi-modal alignment. VLANet is trained end-to-end using contrastive loss which enforces semantically similar videos and queries to gather. The experiments show that the method achieves state-of-the-art performance on Charades-STA and DiDeMo datasets.
翻訳日:2022-10-25 11:59:55 公開日:2020-08-24
# 弱教師付きセグメンテーションによる説明可能な疾患分類

Explainable Disease Classification via weakly-supervised segmentation ( http://arxiv.org/abs/2008.10268v1 )

ライセンス: Link先を確認
Aniket Joshi, Gaurav Mishra, Jayanthi Sivaswamy(参考訳) ディープラーニングに基づくCAD(Computer Aided Diagnosis)アプローチは、画像分類(Normal or Abnormal)問題として問題を引き起こす。 これらのシステムは、訓練された特定の疾患の検出において高い精度で達成されるが、提供された決定・分類結果の説明に欠ける。 決定に対応する活性化マップは、特定の疾患に対する関心領域とよく相関しない。 本稿では,この問題を考察し,診断に先立ってエビデンスを探す臨床実践を模倣するアプローチを提案する。 cadモデルは、画像のトレーニングセット全体に対するクラスラベルと、学習を導くためのトレーニング画像の小さなサブセットの余分な入力として被疑領域のラフローカライズと、の混合情報を用いて学習される。 OCTスライスから糖尿病性黄斑浮腫(DME)の検出を行った。 大規模な公開データセット上での試験結果から,約3分の1の領域に分断された流体を充填した画像で,分類精度は技術手法の状況と同等であり,解剖学的に正確な熱マップ/領域の形式での良好な説明が得られた。 提案手法はマンモグラフィー画像から乳癌の検出に適用される。 公開データセットの良好な評価結果は,提案手法の一般性を示している。

Deep learning based approaches to Computer Aided Diagnosis (CAD) typically pose the problem as an image classification (Normal or Abnormal) problem. These systems achieve high to very high accuracy in specific disease detection for which they are trained but lack in terms of an explanation for the provided decision/classification result. The activation maps which correspond to decisions do not correlate well with regions of interest for specific diseases. This paper examines this problem and proposes an approach which mimics the clinical practice of looking for an evidence prior to diagnosis. A CAD model is learnt using a mixed set of information: class labels for the entire training set of images plus a rough localisation of suspect regions as an extra input for a smaller subset of training images for guiding the learning. The proposed approach is illustrated with detection of diabetic macular edema (DME) from OCT slices. Results of testing on on a large public dataset show that with just a third of images with roughly segmented fluid filled regions, the classification accuracy is on par with state of the art methods while providing a good explanation in the form of anatomically accurate heatmap /region of interest. The proposed solution is then adapted to Breast Cancer detection from mammographic images. Good evaluation results on public datasets underscores the generalisability of the proposed solution.
翻訳日:2022-10-25 11:59:11 公開日:2020-08-24
# 教師なしドメイン適応型Re-IDのための相互平均学習の改善

Improved Mutual Mean-Teaching for Unsupervised Domain Adaptive Re-ID ( http://arxiv.org/abs/2008.10313v1 )

ライセンス: Link先を確認
Yixiao Ge, Shijie Yu, Dapeng Chen(参考訳) このテクニカルレポートでは、ECCV 2020のVisDA Challengeに応募し、リーダーボードで最も優れた結果の1つを達成しました。 私たちのソリューションは、Structured Domain Adaptation (SDA) と Mutual Mean-Teaching (MMT) フレームワークをベースにしています。 ドメイン翻訳ベースのフレームワークであるSDAは、ソースドメインイメージをターゲットドメインに慎重に翻訳することに焦点を当てている。 擬似ラベルベースのフレームワークであるMTは、頑健なソフトラベルを用いて擬似ラベル精錬を行う。 具体的には、トレーニングパイプラインには3つの主要なステップがあります。 (i)ソースからターゲットへの変換画像を生成するためにSDAを採用し、 (ii)これらの画像は、ネットワークを事前学習するための情報的トレーニングサンプルとして機能する。 (iii)予め訓練されたネットワークは、ターゲットドメインのmmtによりさらに微調整される。 改良されたMT(MMT+と呼ばれる)を設計し、2つの領域にわたるサンプル間関係をモデル化し、インスタンス識別を維持することでラベルノイズを緩和する。 提案手法はmAPで74.78%の精度を達成し、153チーム中2位にランクインした。

In this technical report, we present our submission to the VisDA Challenge in ECCV 2020 and we achieved one of the top-performing results on the leaderboard. Our solution is based on Structured Domain Adaptation (SDA) and Mutual Mean-Teaching (MMT) frameworks. SDA, a domain-translation-based framework, focuses on carefully translating the source-domain images to the target domain. MMT, a pseudo-label-based framework, focuses on conducting pseudo label refinery with robust soft labels. Specifically, there are three main steps in our training pipeline. (i) We adopt SDA to generate source-to-target translated images, and (ii) such images serve as informative training samples to pre-train the network. (iii) The pre-trained network is further fine-tuned by MMT on the target domain. Note that we design an improved MMT (dubbed MMT+) to further mitigate the label noise by modeling inter-sample relations across two domains and maintaining the instance discrimination. Our proposed method achieved 74.78% accuracies in terms of mAP, ranked the 2nd place out of 153 teams.
翻訳日:2022-10-25 11:58:39 公開日:2020-08-24
# FCN-8を用いたRGB衛星画像のLULC分割

LULC Segmentation of RGB Satellite Image Using FCN-8 ( http://arxiv.org/abs/2008.10736v1 )

ライセンス: Link先を確認
Abu Bakar Siddik Nayem, Anis Sarker, Ovi Paul, Amin Ali, Md. Ashraful Amin and AKM Mahbubur Rahman(参考訳) 本研究は,高解像度RGB地表面サセルライト画像の土地利用土地被覆(LULC)カテゴリへのセマンティックセグメンテーションにFCN-8(Fully Convolutional Network)を用いた。 具体的には,vgg-16重み付き完全コンボリレーショナルネットワーク(fcn-8)を訓練し,衛星im-ageを4クラス(森林,ビルトアップ,農地,水)に分割する非重複グリッド方式を提案する。 fcn-8は、エンコーダが学習した低分解能の識別特徴を高分解能の画素空間に意味的に投影し、密集したクラスカチオンを得る。 提案手法を,中国60都市以上の画像を含むGaofen-2画像データセットを用いて実験した。 比較のために,ecogni-tionと呼ばれる汎用gisソフトウェアを用いて,利用可能な地上画像とセグメンテーション画像を用いた。 提案した非オーバーラップグリッドベースのアプローチにより、FCN-8はeCognitionソフトウェアよりも顕著に性能が向上した。 本モデルでは,平均精度91.0%,平均区間間距離(iou)0.84。 対照的に、eCognitions平均のアクク人種は74.0%、IoUは0.60である。 また,LULC境界における誤差の詳細な解析を行った。

This work presents use of Fully Convolutional Network (FCN-8) for semantic segmentation of high-resolution RGB earth surface satel-lite images into land use land cover (LULC) categories. Specically, we propose a non-overlapping grid-based approach to train a Fully Convo-lutional Network (FCN-8) with vgg-16 weights to segment satellite im-ages into four (forest, built-up, farmland and water) classes. The FCN-8 semantically projects the discriminating features in lower resolution learned by the encoder onto the pixel space in higher resolution to get a dense classi cation. We experimented the proposed system with Gaofen-2 image dataset, that contains 150 images of over 60 di erent cities in china. For comparison, we used available ground-truth along with images segmented using a widely used commeriial GIS software called eCogni-tion. With the proposed non-overlapping grid-based approach, FCN-8 obtains signi cantly improved performance, than the eCognition soft-ware. Our model achieves average accuracy of 91.0% and average Inter-section over Union (IoU) of 0.84. In contrast, eCognitions average accu-racy is 74.0% and IoU is 0.60. This paper also reports a detail analysis of errors occurred at the LULC boundary.
翻訳日:2022-10-25 11:51:20 公開日:2020-08-24
# drive safe:知的輸送サイバー物理システムのための認知行動マイニング

Drive Safe: Cognitive-Behavioral Mining for Intelligent Transportation Cyber-Physical System ( http://arxiv.org/abs/2008.10148v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Sarder Fakhrul Abedin, Ki Tae Kim, Do Hyeon Kim, Md. Golam Rabiul Alam, and Choong Seon Hong(参考訳) 本稿では,道路安全のための知的輸送サイバー物理システム(IT-CPS)における認知行動に基づく運転気分修復プラットフォームを提案する。 特に,IT-CPSにおいて,注意をそらした運転者,すなわち 'emph{drive safe} のための運転安全プラットフォームを提案する。 提案プラットフォームは、運転者の気を散らす活動と、気分修復のための感情を認識する。 さらに,IT-CPSにおける道路安全のための概念実証(PoC)を確立するための,提案するドライブセーフプラットフォームのプロトタイプを開発する。 先進的運転安全プラットフォームでは,運転者の認知行動マイニングを推論するために5つのaiモデルと統計モデルを用いて運転中の安全な運転を確保する。 特に、運転者の行動認識、環境特徴抽出、気分認識、逐次パターンマイニング、情緒的気分修復のためのコンテンツ推奨のために、カプセルネットワーク(CN)、最大可能性(ML)、畳み込みニューラルネットワーク(CNN)、Aprioriアルゴリズム、ベイズネットワーク(BN)を配置する。 さらに,IT-CPSにおけるシステムとの対話を非同期に行う通信モジュールを開発する。 これにより、開発した駆動安全pocは、認知行動要因により運転に気を取られたときに車両ドライバを誘導することができる。 最後に,開発したドライブセーフプラットフォームのユーザビリティと有効性を評価するための定性評価を行った。 p-値が 00041 (すなわち < 0.05) であるのを anova test で確認する。 さらに、信頼区間分析により、95%信頼度で約0.93の有病率値が顕著に向上した。 上記の統計結果は、運転者の安全と精神状態の観点から高い信頼性を示している。

This paper presents a cognitive behavioral-based driver mood repairment platform in intelligent transportation cyber-physical systems (IT-CPS) for road safety. In particular, we propose a driving safety platform for distracted drivers, namely \emph{drive safe}, in IT-CPS. The proposed platform recognizes the distracting activities of the drivers as well as their emotions for mood repair. Further, we develop a prototype of the proposed drive safe platform to establish proof-of-concept (PoC) for the road safety in IT-CPS. In the developed driving safety platform, we employ five AI and statistical-based models to infer a vehicle driver's cognitive-behavioral mining to ensure safe driving during the drive. Especially, capsule network (CN), maximum likelihood (ML), convolutional neural network (CNN), Apriori algorithm, and Bayesian network (BN) are deployed for driver activity recognition, environmental feature extraction, mood recognition, sequential pattern mining, and content recommendation for affective mood repairment of the driver, respectively. Besides, we develop a communication module to interact with the systems in IT-CPS asynchronously. Thus, the developed drive safe PoC can guide the vehicle drivers when they are distracted from driving due to the cognitive-behavioral factors. Finally, we have performed a qualitative evaluation to measure the usability and effectiveness of the developed drive safe platform. We observe that the P-value is 0.0041 (i.e., < 0.05) in the ANOVA test. Moreover, the confidence interval analysis also shows significant gains in prevalence value which is around 0.93 for a 95% confidence level. The aforementioned statistical results indicate high reliability in terms of driver's safety and mental state.
翻訳日:2022-10-25 11:50:57 公開日:2020-08-24
# SemEval-2020 Task 11:BERTに基づく確率論的手法とスパン検出のためのモデル設計

syrapropa at SemEval-2020 Task 11: BERT-based Models Design For Propagandistic Technique and Span Detection ( http://arxiv.org/abs/2008.10163v1 )

ライセンス: Link先を確認
Jinfen Li, Lu Xiao(参考訳) 本稿では,SemEval-2020 Task 11における2つのサブタスクを対象としたBERTモデルについて述べる。 まず,SpanBERTに基づくSpan Identification(SI)モデルを構築し,より深いモデルと文レベルの表現による検出を容易にする。 そこで我々は,技術分類(TC)のハイブリッドモデルを開発した。 ハイブリッドモデルは、2つのBERTモデルと異なるトレーニング方法、特徴ベースのロジスティック回帰モデルを含む3つのサブモデルで構成されている。 コスト関数を調整することで、不均衡なデータセットに対処する努力をします。 第7位はSIサブタスク(F1測定の0.4711)、第3位は開発セットのTCサブタスク(F1測定の0.6783)です。

This paper describes the BERT-based models proposed for two subtasks in SemEval-2020 Task 11: Detection of Propaganda Techniques in News Articles. We first build the model for Span Identification (SI) based on SpanBERT, and facilitate the detection by a deeper model and a sentence-level representation. We then develop a hybrid model for the Technique Classification (TC). The hybrid model is composed of three submodels including two BERT models with different training methods, and a feature-based Logistic Regression model. We endeavor to deal with imbalanced dataset by adjusting cost function. We are in the seventh place in SI subtask (0.4711 of F1-measure), and in the third place in TC subtask (0.6783 of F1-measure) on the development set.
翻訳日:2022-10-25 11:49:57 公開日:2020-08-24
# モデル伝達を用いた言語間セマンティックロールラベリング

Cross-lingual Semantic Role Labeling with Model Transfer ( http://arxiv.org/abs/2008.10284v1 )

ライセンス: Link先を確認
Hao Fei and Meishan Zhang and Fei Li and Donghong Ji(参考訳) 先行研究では、言語間意味的役割ラベリング(srl)は普遍的な特徴の助けを借りてモデル転送によって達成できることが示されている。 本稿では,多種多様な普遍的特徴と伝達手法を組み込んだエンドツーエンドSRLモデルを提案することにより,言語間SRLのギャップを埋める。 金や機械による構文入力、事前訓練された高次抽象的特徴、文脈化された多言語単語表現など、バイリンガルトランスファーとマルチソーストランスファーの両方について検討する。 普遍命題バンクコーパスにおける実験結果から, 言語間srlの性能は, 異なる言語間特徴の活用により異なることが示された。 さらに、機能がゴールドスタンダードであるかどうかもパフォーマンスに影響を与えます。 正確には、自動生成機能と比較して、金の構文機能は言語間SRLにとってはるかに重要である。 さらに、ユニバーサル依存性構造機能は最善の助けとなり、事前訓練された高次機能とコンテキスト化された単語表現の両方が、さらに大きな改善をもたらす可能性がある。

Prior studies show that cross-lingual semantic role labeling (SRL) can be achieved by model transfer under the help of universal features. In this paper, we fill the gap of cross-lingual SRL by proposing an end-to-end SRL model that incorporates a variety of universal features and transfer methods. We study both the bilingual transfer and multi-source transfer, under gold or machine-generated syntactic inputs, pre-trained high-order abstract features, and contextualized multilingual word representations. Experimental results on the Universal Proposition Bank corpus indicate that performances of the cross-lingual SRL can vary by leveraging different cross-lingual features. In addition, whether the features are gold-standard also has an impact on performances. Precisely, we find that gold syntax features are much more crucial for cross-lingual SRL, compared with the automatically-generated ones. Moreover, universal dependency structure features are able to give the best help, and both pre-trained high-order features and contextualized word representations can further bring significant improvements.
翻訳日:2022-10-25 11:49:43 公開日:2020-08-24
# エンド・ツー・エンドの対話トランスフォーマ

End to End Dialogue Transformer ( http://arxiv.org/abs/2008.10392v1 )

ライセンス: Link先を確認
Ond\v{r}ej M\v{e}kota, Memduh G\"ok{\i}rmak, Petr Laitoch(参考訳) 対話システムは、休暇を予約する小さな会話のような目的のために、人間とコンピュータ間の会話を促進する。 ここでは、リカレントニューラルネットワークベースモデルSequicityの性能に着想を得ており、対話を行う際には、まずシーケンシャル・ツー・シーケンス・アーキテクチャを使用して対話で起きていることのテキスト表現を生成し、さらにこれをデータベースの発見とともに使用して、ユーザに応答を生成する。 本稿では,SequicityのRNNアーキテクチャの代わりにTransformerアーキテクチャに基づく対話システムを提案する。

Dialogue systems attempt to facilitate conversations between humans and computers, for purposes as diverse as small talk to booking a vacation. We are here inspired by the performance of the recurrent neural network-based model Sequicity, which when conducting a dialogue uses a sequence-to-sequence architecture to first produce a textual representation of what is going on in the dialogue, and in a further step use this along with database findings to produce a reply to the user. We here propose a dialogue system based on the Transformer architecture instead of Sequicity's RNN-based architecture, that works similarly in an end-to-end, sequence-to-sequence fashion.
翻訳日:2022-10-25 11:49:26 公開日:2020-08-24
# 動き合成のための階層型スタイルベースネットワーク

Hierarchical Style-based Networks for Motion Synthesis ( http://arxiv.org/abs/2008.10162v1 )

ライセンス: Link先を確認
Jingwei Xu, Huazhe Xu, Bingbing Ni, Xiaokang Yang, Xiaolong Wang, Trevor Darrell(参考訳) 多様な自然な人間の動きを生み出すことは、アニメーションの世界においてインテリジェントなキャラクターを作るための長年の目標の1つです。 本稿では,特定の目標位置を達成するために,長距離かつ多様で妥当な行動を生成する自己教師あり手法を提案する。 提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。 開始状態と終了状態が与えられると、メモリバンクは、短距離クリップ生成のソース素材として動作参照を取得するために使用される。 まず, 2 成分の自由形式結合により多様な合成を実現するバイリニア変換モデルを用いて, 提示された動作材料をスタイルとコンテンツに明示的に絡み合うことを提案する。 短い範囲のクリップは、長い範囲のモーションシーケンスを形成するために接続される。 基礎的真理のアノテーションがなければ,生成結果の物理的妥当性と視覚的自然性を保証するためのパラメータ化双方向補間スキームを提案する。 大規模スケルトンデータセットでは,提案手法が長距離,多様,多彩な動作を合成できることを示す。 さらに,アニメーションの世界において,実際の物理的実行のためのサブゴールとして,生成されたシーケンスが有用であることを示す。

Generating diverse and natural human motion is one of the long-standing goals for creating intelligent characters in the animated world. In this paper, we propose a self-supervised method for generating long-range, diverse and plausible behaviors to achieve a specific goal location. Our proposed method learns to model the motion of human by decomposing a long-range generation task in a hierarchical manner. Given the starting and ending states, a memory bank is used to retrieve motion references as source material for short-range clip generation. We first propose to explicitly disentangle the provided motion material into style and content counterparts via bi-linear transformation modelling, where diverse synthesis is achieved by free-form combination of these two components. The short-range clips are then connected to form a long-range motion sequence. Without ground truth annotation, we propose a parameterized bi-directional interpolation scheme to guarantee the physical validity and visual naturalness of generated results. On large-scale skeleton dataset, we show that the proposed method is able to synthesise long-range, diverse and plausible motion, which is also generalizable to unseen motion data during testing. Moreover, we demonstrate the generated sequences are useful as subgoals for actual physical execution in the animated world.
翻訳日:2022-10-25 11:48:59 公開日:2020-08-24
# 適応型サーバレス学習

Adaptive Serverless Learning ( http://arxiv.org/abs/2008.10422v1 )

ライセンス: Link先を確認
Hongchang Gao, Heng Huang(参考訳) 分散データの出現に伴い、サーバレスな方法で機械学習モデルをトレーニングすることが近年注目を集めている。 この体制では、分散sgdのような多くのトレーニングアプローチが提案されている。 しかし、既存の分散アルゴリズムはすべて標準SGDのみに焦点を当てている。 適応的学習アルゴリズムが必要とされるように、この機能が高度にスパースで分類可能なディープ・ファクタライゼーション・マシンなど、いくつかのアプリケーションには適さないかもしれない。 本稿では,データから学習率を動的に計算できる適応型分散学習手法を提案する。 私たちの知る限りでは、これは最初の適応型分散トレーニングアプローチです。 提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。 さらに,コミュニケーション効率のよいオーバヘッドを削減するために,作業者数に対して線形速度アップを実現する通信効率のよい適応分散トレーニング手法を提案する。 最終的に、異なるタスクに対する広範な実験により、提案した2つのアプローチの有効性が確認された。

With the emergence of distributed data, training machine learning models in the serverless manner has attracted increasing attention in recent years. Numerous training approaches have been proposed in this regime, such as decentralized SGD. However, all existing decentralized algorithms only focus on standard SGD. It might not be suitable for some applications, such as deep factorization machine in which the feature is highly sparse and categorical so that the adaptive training algorithm is needed. In this paper, we propose a novel adaptive decentralized training approach, which can compute the learning rate from data dynamically. To the best of our knowledge, this is the first adaptive decentralized training approach. Our theoretical results reveal that the proposed algorithm can achieve linear speedup with respect to the number of workers. Moreover, to reduce the communication-efficient overhead, we further propose a communication-efficient adaptive decentralized training approach, which can also achieve linear speedup with respect to the number of workers. At last, extensive experiments on different tasks have confirmed the effectiveness of our proposed two approaches.
翻訳日:2022-10-25 11:42:54 公開日:2020-08-24
# ラグランジアン双対理論に基づく深層ニューラルネットワーク

A Lagrangian Dual-based Theory-guided Deep Neural Network ( http://arxiv.org/abs/2008.10159v1 )

ライセンス: Link先を確認
Miao Rong, Dongxiao Zhang, Nanzhe Wang(参考訳) 理論誘導ニューラルネットワーク(TgNN)は、科学的知識や物理情報を取り入れることで、ニューラルネットワークアーキテクチャの有効性と効率を向上させる手法の一種である。 その大きな成功にもかかわらず、理論誘導(ディープ)ニューラルネットワークは、トレーニングプロセス中にトレーニングデータとドメイン知識とのトレードオフを維持する際に、一定の制限を持つ。 本稿では、TgNNの有効性を改善するために、ラグランジアン二重ベースTgNN(TgNN-LD)を提案する。 偏微分方程式(pdes)、工学制御(ecs)、専門家知識(ek)を制約として、1つのラグランジアン変数を制約として、元の損失関数をより少ない項目で制約された形式に変換する。 これらのラグランジュ変数は、予測精度を向上させるために観測データと対応する制約との等間隔のトレードオフを達成するために組み込まれ、アドホックな手順で調整された時間と計算資源を保存する。 提案手法の性能について検討するため, 地下流れ問題に対して, アドホック法により調整された最適化された重み値のセットを用いたオリジナルのTgNNモデルを比較し, そのL2誤差, R2正方形, 計算時間について検討した。 実験結果はラグランジアン双対TgNNの優位性を示している。

The theory-guided neural network (TgNN) is a kind of method which improves the effectiveness and efficiency of neural network architectures by incorporating scientific knowledge or physical information. Despite its great success, the theory-guided (deep) neural network possesses certain limits when maintaining a tradeoff between training data and domain knowledge during the training process. In this paper, the Lagrangian dual-based TgNN (TgNN-LD) is proposed to improve the effectiveness of TgNN. We convert the original loss function into a constrained form with fewer items, in which partial differential equations (PDEs), engineering controls (ECs), and expert knowledge (EK) are regarded as constraints, with one Lagrangian variable per constraint. These Lagrangian variables are incorporated to achieve an equitable tradeoff between observation data and corresponding constraints, in order to improve prediction accuracy, and conserve time and computational resources adjusted by an ad-hoc procedure. To investigate the performance of the proposed method, the original TgNN model with a set of optimized weight values adjusted by ad-hoc procedures is compared on a subsurface flow problem, with their L2 error, R square (R2), and computational time being analyzed. Experimental results demonstrate the superiority of the Lagrangian dual-based TgNN.
翻訳日:2022-10-25 11:42:41 公開日:2020-08-24
# ツイートエンゲージメント予測のための2段階的アプローチ

Two Stages Approach for Tweet Engagement Prediction ( http://arxiv.org/abs/2008.10419v1 )

ライセンス: Link先を確認
Amine Dadoun (1 and 2), Ismail Harrando (1), Pasquale Lisena (1), Alison Reboud (1), Raphael Troncy (1) ((1) Eurecom, (2) Amadeus SAS)(参考訳) 本稿では、2020年のRecSys Challengeにおいて、D2KLabチームが提案したアプローチについて述べる。 このアプローチは2つの異なる段階に依存します。 まず、関連する機能はチャレンジデータセットから学べる。 これらの特徴は異種であり、手作り機能、知識グラフ埋め込み、感情分析機能、BERT単語埋め込みなどの異なる学習モジュールの結果である。 第2に、これらの機能はXGBoostに基づいたアンサンブルシステムに入力される。 このアプローチは、チャレンジデータセット全体のサブセットのみをトレーニングし、最終リーダーボードで22位になった。

This paper describes the approach proposed by the D2KLab team for the 2020 RecSys Challenge on the task of predicting user engagement facing tweets. This approach relies on two distinct stages. First, relevant features are learned from the challenge dataset. These features are heterogeneous and are the results of different learning modules such as handcrafted features, knowledge graph embeddings, sentiment analysis features and BERT word embeddings. Second, these features are provided in input to an ensemble system based on XGBoost. This approach, only trained on a subset of the entire challenge dataset, ranked 22 in the final leaderboard.
翻訳日:2022-10-25 11:42:20 公開日:2020-08-24
# 低ランクデータを用いた高次元近似クロスバリデーション

Approximate Cross-Validation with Low-Rank Data in High Dimensions ( http://arxiv.org/abs/2008.10547v1 )

ライセンス: Link先を確認
William T. Stephenson, Madeleine Udell, Tamara Broderick(参考訳) 機械学習の最近の進歩の多くは、大きなデータサイズN$、高次元、高価なアルゴリズムという、難しいトリフェクタによって駆動されている。 この設定では、クロスバリデーション(CV)がモデルアセスメントの重要なツールとなる。 近年の近似的クロスバリデーション (ACV) の進歩により, CV の精度が向上し, 高価なアルゴリズムの繰り返し実行に対する従来の CV の要求が回避された。 Unfortunately, these ACV methods can lose both speed and accuracy in high dimensions -- unless sparsity structure is present in the data. Fortunately, there is an alternative type of simplifying structure that is present in most data: approximate low rank (ALR). Guided by this observation, we develop a new algorithm for ACV that is fast and accurate in the presence of ALR data. Our first key insight is that the Hessian matrix -- whose inverse forms the computational bottleneck of existing ACV methods -- is ALR. 我々は, ヘッセン方程式を用いたにもかかわらず, 最大(最小ではない)行列固有値を用いた低ランク近似が高速で信頼性の高いAVVを実現することを示す。 2つ目の重要な洞察は、ALRデータが存在する場合、既存のACV手法の誤差は、(完全で高い)次元ではなく、(近似的で低い)ランクで大きくなります。 これらの知見により、提案アルゴリズムの品質に関する理論的保証と、その誤差に対する高速で計算可能な上限を証明できる。 本研究では,実データとシミュレーションデータを用いて,提案手法の速度と精度,限界の有用性を実証する。

Many recent advances in machine learning are driven by a challenging trifecta: large data size $N$; high dimensions; and expensive algorithms. In this setting, cross-validation (CV) serves as an important tool for model assessment. Recent advances in approximate cross validation (ACV) provide accurate approximations to CV with only a single model fit, avoiding traditional CV's requirement for repeated runs of expensive algorithms. Unfortunately, these ACV methods can lose both speed and accuracy in high dimensions -- unless sparsity structure is present in the data. Fortunately, there is an alternative type of simplifying structure that is present in most data: approximate low rank (ALR). Guided by this observation, we develop a new algorithm for ACV that is fast and accurate in the presence of ALR data. Our first key insight is that the Hessian matrix -- whose inverse forms the computational bottleneck of existing ACV methods -- is ALR. We show that, despite our use of the \emph{inverse} Hessian, a low-rank approximation using the largest (rather than the smallest) matrix eigenvalues enables fast, reliable ACV. Our second key insight is that, in the presence of ALR data, error in existing ACV methods roughly grows with the (approximate, low) rank rather than with the (full, high) dimension. These insights allow us to prove theoretical guarantees on the quality of our proposed algorithm -- along with fast-to-compute upper bounds on its error. We demonstrate the speed and accuracy of our method, as well as the usefulness of our bounds, on a range of real and simulated data sets.
翻訳日:2022-10-25 11:41:55 公開日:2020-08-24
# 重複記録データからのサンプリングについて

On sampling from data with duplicate records ( http://arxiv.org/abs/2008.10549v1 )

ライセンス: Link先を確認
Alireza Heidari, Shrinu Kushagra, Ihab F. Ilyas(参考訳) データ重複は、同じ現実世界のエンティティに対応するデータベース内のレコードを検出するタスクである。 私たちの目標は、重複の存在下でデータベースに存在するエンティティのセットから一様にサンプルする手順を開発することです。 これを二段階のプロセスで達成する。 最初のステップでは、データベース内の全てのエンティティの周波数を推定します。 第2のステップでは、拒絶サンプリングを使用して、エンティティの集合から(ほぼ)均一なサンプルを得る。 しかしながら、すべてのエンティティの頻度を効率的に推定することは非自明な作業であり、一般的な場合では達成できない。 したがって、そのような周波数推定(従って一様サンプリング)が可能なデータの様々な自然特性を考察する。 それぞれの仮定の下では、サンプリングアルゴリズムを提供し、我々のアプローチの複雑さ(統計と計算の両方)の証明を与える。 我々は,実データと合成データの両方について広範な実験を行い,研究を補完する。

Data deduplication is the task of detecting records in a database that correspond to the same real-world entity. Our goal is to develop a procedure that samples uniformly from the set of entities present in the database in the presence of duplicates. We accomplish this by a two-stage process. In the first step, we estimate the frequencies of all the entities in the database. In the second step, we use rejection sampling to obtain a (approximately) uniform sample from the set of entities. However, efficiently estimating the frequency of all the entities is a non-trivial task and not attainable in the general case. Hence, we consider various natural properties of the data under which such frequency estimation (and consequently uniform sampling) is possible. Under each of those assumptions, we provide sampling algorithms and give proofs of the complexity (both statistical and computational) of our approach. We complement our study by conducting extensive experiments on both real and synthetic datasets.
翻訳日:2022-10-25 11:41:31 公開日:2020-08-24
# Fokker-Planck方程式と物理インフォームドニューラルネットワークを用いた離散粒子観測による逆確率問題の解法

Solving Inverse Stochastic Problems from Discrete Particle Observations Using the Fokker-Planck Equation and Physics-informed Neural Networks ( http://arxiv.org/abs/2008.10653v1 )

ライセンス: Link先を確認
Xiaoli Chen, Liu Yang, Jinqiao Duan, George Em Karniadakis(参考訳) 確率密度関数(pdf)の進化を規定するfokker-planck(fp)方程式は、多くの分野に適用できるが、各ケースの係数の指定が必要であり、これは定数だけでなく時空の関数であり、データ駆動モデリング手法の開発を必要とする。 利用可能なデータがPDF上に直接存在する場合、係数を推論してFP方程式を決定し、その解を得るのに使える逆問題のための方法が存在する。 ここで、より現実的なシナリオに対処し、例えば、カーネル推定アルゴリズムのような既存の方法からでも、pdfを直接正確に構築するには不十分な数回の瞬時に、粒子の位置でスパースデータのみを与えられる。 そこで本研究では,物理インフォームドニューラルネットワーク(PINN)に基づく一般フレームワークを開発し,Kullback-Leibler分散を用いた新たな損失関数を導入し,確率的サンプルとFP方程式を接続し,方程式を同時に学習し,多次元PDFを常に推測する。 特に、fp 方程式が知られているが初期 pdf が不明なタイプ i と、未知の初期 pdf に加えて、ドリフト項と拡散項も不明であるタイプ ii という2つの逆問題を考える。 いずれの場合も、ブラウンノイズとレヴィノイズのどちらか、あるいは両方の組み合わせの問題を調査した。 1次元の場合 (1d) では, 新たな pinn フレームワークを詳細に示すとともに, fp 方程式と} 力学の両方を, 粒子の離散的観測のみを用いて, 常に高精度に推算できることを示した。

The Fokker-Planck (FP) equation governing the evolution of the probability density function (PDF) is applicable to many disciplines but it requires specification of the coefficients for each case, which can be functions of space-time and not just constants, hence requiring the development of a data-driven modeling approach. When the data available is directly on the PDF, then there exist methods for inverse problems that can be employed to infer the coefficients and thus determine the FP equation and subsequently obtain its solution. Herein, we address a more realistic scenario, where only sparse data are given on the particles' positions at a few time instants, which are not sufficient to accurately construct directly the PDF even at those times from existing methods, e.g., kernel estimation algorithms. To this end, we develop a general framework based on physics-informed neural networks (PINNs) that introduces a new loss function using the Kullback-Leibler divergence to connect the stochastic samples with the FP equation, to simultaneously learn the equation and infer the multi-dimensional PDF at all times. In particular, we consider two types of inverse problems, type I where the FP equation is known but the initial PDF is unknown, and type II in which, in addition to unknown initial PDF, the drift and diffusion terms are also unknown. In both cases, we investigate problems with either Brownian or Levy noise or a combination of both. We demonstrate the new PINN framework in detail in the one-dimensional case (1D) but we also provide results for up to 5D demonstrating that we can infer both the FP equation and} dynamics simultaneously at all times with high accuracy using only very few discrete observations of the particles.
翻訳日:2022-10-25 11:41:19 公開日:2020-08-24
# ライム病患者調査データの特徴選択

Feature Selection on Lyme Disease Patient Survey Data ( http://arxiv.org/abs/2009.09087v1 )

ライセンス: Link先を確認
Joshua Vendrow, Jamie Haddock, Deanna Needell, and Lorraine Johnson(参考訳) ライム病は急速に増加する病気であり、医療界では理解されていない。 患者がいつ、なぜ治療に反応するか、どのような治療が効果的か、どのように適切に診断するか、といった重要な疑問はいまだにほとんど答えられていない。 lymedisease.orgが開発した大規模ライム病患者登録簿mylymedataに機械学習技術を適用することで,これらの質問について検討する。 各種機械学習手法を適用し, 症状の改善, 悪化, あるいは抗生物質治療後に変化しない自己申告度を評価する, GROC (Global Rating of Change) 調査に対して, 参加者の回答を予測するための個々の特徴の効果を測定する。 基本的な線形回帰、サポートベクターマシン、ニューラルネットワーク、エントロピーベースの決定木モデル、および$k$-nearest近傍アプローチを使用する。 まずモデルの一般的な性能を分析し,GROCに対する回答を予測する上で最も重要な特徴を同定する。 キー"機能を特定した後、データセットから分離し、GROCを識別する際のこれらの機能の有効性を示す。 そこで我々は,数学的・臨床的に今後の研究の方向性を明らかにする。

Lyme disease is a rapidly growing illness that remains poorly understood within the medical community. Critical questions about when and why patients respond to treatment or stay ill, what kinds of treatments are effective, and even how to properly diagnose the disease remain largely unanswered. We investigate these questions by applying machine learning techniques to a large scale Lyme disease patient registry, MyLymeData, developed by the nonprofit LymeDisease.org. We apply various machine learning methods in order to measure the effect of individual features in predicting participants' answers to the Global Rating of Change (GROC) survey questions that assess the self-reported degree to which their condition improved, worsened, or remained unchanged following antibiotic treatment. We use basic linear regression, support vector machines, neural networks, entropy-based decision tree models, and $k$-nearest neighbors approaches. We first analyze the general performance of the model and then identify the most important features for predicting participant answers to GROC. After we identify the "key" features, we separate them from the dataset and demonstrate the effectiveness of these features at identifying GROC. In doing so, we highlight possible directions for future study both mathematically and clinically.
翻訳日:2022-10-25 11:40:45 公開日:2020-08-24
# 一発現実的頭部アバターの高速二層神経合成

Fast Bi-layer Neural Synthesis of One-Shot Realistic Head Avatars ( http://arxiv.org/abs/2008.10174v1 )

ライセンス: Link先を確認
Egor Zakharov, Aleksei Ivakhnenko, Aliaksandra Shysheya, Victor Lempitsky(参考訳) 本論文では,1枚の写真から頭部アバターを生成できるニューラルネットワークシステムを提案する。 我々のアプローチは、人を2つの層に分解して外観をモデル化する。 第1層は、小さなニューラルネットワークによって合成されるポーズ依存粗画像である。 第2の層は、高周波の詳細を含むポーズ非依存なテクスチャイメージによって定義される。 テクスチャ画像はオフラインで生成され、ゆがめられ、粗画像に追加され、合成されたヘッドビューの高効率な解像度が確保される。 視覚的品質と速度の観点から,我々のシステムと最先端システムを比較した。 実験では、与えられた視覚的品質のために、以前の神経頭アバターモデルよりも大きな推論速度が示される。 また,スマートフォンによるリアルタイムシステム実装についても報告する。

We propose a neural rendering-based system that creates head avatars from a single photograph. Our approach models a person's appearance by decomposing it into two layers. The first layer is a pose-dependent coarse image that is synthesized by a small neural network. The second layer is defined by a pose-independent texture image that contains high-frequency details. The texture image is generated offline, warped and added to the coarse image to ensure a high effective resolution of synthesized head views. We compare our system to analogous state-of-the-art systems in terms of visual quality and speed. The experiments show significant inference speedup over previous neural head avatar models for a given visual quality. We also report on a real-time smartphone-based implementation of our system.
翻訳日:2022-10-25 11:40:24 公開日:2020-08-24
# 神経面反射野の単眼的再構成

Monocular Reconstruction of Neural Face Reflectance Fields ( http://arxiv.org/abs/2008.10247v1 )

ライセンス: Link先を確認
Mallikarjun B R. (1), Ayush Tewari (1), Tae-Hyun Oh (2), Tim Weyrich (3), Bernd Bickel (4), Hans-Peter Seidel (1), Hanspeter Pfister (5), Wojciech Matusik (6), Mohamed Elgharib (1), Christian Theobalt (1) ((1) Max Planck Institute for Informatics, Saarland Informatics Campus, (2) POSTECH, (3) University College London, (4) IST Austria, (5) Harvard University, (6) MIT CSAIL)(参考訳) 顔の反射場は、拡散、スペクトル、反射間、自己陰影などの複雑な照明効果の原因となる反射特性を記述する。 モノクル画像から顔の反射率を推定する既存の手法は、特異成分を加えるアプローチはほとんどないが、顔は拡散していると仮定している。 これはなお、高次大域照明効果や自己シャドーイングがモデル化されていないため、反射性の重要な知覚的側面を除外している。 顔反射に対する新しいニューラル表現法を提案し、単一の単眼画像から最終出現に寄与する反射の全ての成分を推定する。 パラメトリックモデルを用いて反射率の各成分を別々にモデル化するのではなく、入力光方向、視点、顔形状によってパラメータ化された幾何学的変形不変空間における顔の基本セットを生成することができる。 我々は、任意の光条件において、任意の視点から顔をレンダリングするために使用できる単眼像から、この面の反射場を再構成することを学ぶ。 本手法は,8つの視点から,150光条件で照らされた300人を対象に,光ステージトレーニングデータセットを用いてトレーニングを行う。 本手法は, サブサーフェス散乱, スペキュラリティ, 自己シャドウ, その他の高次効果などの物理前駆体の捕捉性が向上し, フォトリアリズムの観点から, 既存の単眼反射率再構成法よりも優れることを示す。

The reflectance field of a face describes the reflectance properties responsible for complex lighting effects including diffuse, specular, inter-reflection and self shadowing. Most existing methods for estimating the face reflectance from a monocular image assume faces to be diffuse with very few approaches adding a specular component. This still leaves out important perceptual aspects of reflectance as higher-order global illumination effects and self-shadowing are not modeled. We present a new neural representation for face reflectance where we can estimate all components of the reflectance responsible for the final appearance from a single monocular image. Instead of modeling each component of the reflectance separately using parametric models, our neural representation allows us to generate a basis set of faces in a geometric deformation-invariant space, parameterized by the input light direction, viewpoint and face geometry. We learn to reconstruct this reflectance field of a face just from a monocular image, which can be used to render the face from any viewpoint in any light condition. Our method is trained on a light-stage training dataset, which captures 300 people illuminated with 150 light conditions from 8 viewpoints. We show that our method outperforms existing monocular reflectance reconstruction methods, in terms of photorealism due to better capturing of physical premitives, such as sub-surface scattering, specularities, self-shadows and other higher-order effects.
翻訳日:2022-10-25 11:40:15 公開日:2020-08-24
# サンプルランク:拒絶サンプリングを用いた弱多目的推薦

Sample-Rank: Weak Multi-Objective Recommendations Using Rejection Sampling ( http://arxiv.org/abs/2008.10277v1 )

ライセンス: Link先を確認
Abhay Shukla, Jairaj Sathyanarayana, Dipyaman Banerjee(参考訳) オンライン食品注文マーケットプレイスは、システム内の各参加者の経験と成長に影響を及ぼすマルチステークホルダーシステムである。 この設定のレコメンダシステムは、推奨項目の効用を見つけるために、異なる利害関係者の目的と制約をカプセル化しなければならない。 この問題に対する制約最適化に基づくアプローチは、典型的には複雑な定式化を伴い、数百万のエンティティを含む生産環境において高い計算複雑性を有する。 単純化と緩和技術(例えば、スカラー化)は、準最適を導入するのに役立ち、必要なチューニング量のために時間がかかる。 本稿では,マルチゴールサンプリングとユーザ関連ランキング(Sample-Rank)を併用して,マーケットプレースのマルチオブジェクト(MO)目標に対する推薦を行う手法を提案する。 提案手法の新規性は、望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し、プロダクションフレンドリーなラーニング・ツー・ランク(LTR)モデルを構築することである。 オフライン実験では,auc や ndcg などの指標で許容できるトレードオフを用いて,mo 基準に対するレコメンデーションをバイアスできることを示した。 また,大規模なオンラインa/b実験の結果から,この手法は,平均ラストマイルトラバースフラット(目的#3)とベースラインランキング法を比較検討しながら,コンバージョン率(cr)の低下(目的#2)を伴わずに,平均売上(rpo) (目的#1) で2.64%という統計的に有意な上昇を示した。 この方法はMO設定で開発とデプロイをモデル化する時間を大幅に短縮し、より多くの目的や他の種類のLTRモデルへの自明な拡張を可能にします。

Online food ordering marketplaces are multi-stakeholder systems where recommendations impact the experience and growth of each participant in the system. A recommender system in this setting has to encapsulate the objectives and constraints of different stakeholders in order to find utility of an item for recommendation. Constrained-optimization based approaches to this problem typically involve complex formulations and have high computational complexity in production settings involving millions of entities. Simplifications and relaxation techniques (for example, scalarization) help but introduce sub-optimality and can be time-consuming due to the amount of tuning needed. In this paper, we introduce a method involving multi-goal sampling followed by ranking for user-relevance (Sample-Rank), to nudge recommendations towards multi-objective (MO) goals of the marketplace. The proposed method's novelty is that it reduces the MO recommendation problem to sampling from a desired multi-goal distribution then using it to build a production-friendly learning-to-rank (LTR) model. In offline experiments we show that we are able to bias recommendations towards MO criteria with acceptable trade-offs in metrics like AUC and NDCG. We also show results from a large-scale online A/B experiment where this approach gave a statistically significant lift of 2.64% in average revenue per order (RPO) (objective #1) with no drop in conversion rate (CR) (objective #2) while holding the average last-mile traversed flat (objective #3), vs. the baseline ranking method. This method also significantly reduces time to model development and deployment in MO settings and allows for trivial extensions to more objectives and other types of LTR models.
翻訳日:2022-10-25 09:17:28 公開日:2020-08-24
# 改善された記憶学習

Improved Memories Learning ( http://arxiv.org/abs/2008.10433v1 )

ライセンス: Link先を確認
Francesco Varoli, Guido Novati, Pantelis R. Vlachas, Petros Koumoutsakos(参考訳) 本稿では,強化学習(rl)を教師付き学習(sl)問題に変換し,ニューラルネットワーク(nn)の役割を補間に限定する新しいアルゴリズムである改良メモリ学習(imel)を提案する。 IMeLは2つのコンポーネントから構成される。 ひとつは経験の貯水池です。 それぞれの経験は、境界1サンプルモンテカルロ推定として計算されるポリシーの非パラメトリック手続き的改善に基づいて更新される。 第2のNN回帰器は、貯水池(コンテキストポイント)からの入力改善経験を受信し、補間によってポリシーを計算する。 NNは、NNパラメータに問題構造をエンコードするのではなく、平均的な経験によって長期予測を計算するために、状態間の類似度を測定することを学ぶ。 本稿では,より複雑なモデルと帰納バイアスの利点を評価するためのベースライン手法としてIMeLを提案する。

We propose Improved Memories Learning (IMeL), a novel algorithm that turns reinforcement learning (RL) into a supervised learning (SL) problem and delimits the role of neural networks (NN) to interpolation. IMeL consists of two components. The first is a reservoir of experiences. Each experience is updated based on a non-parametric procedural improvement of the policy, computed as a bounded one-sample Monte Carlo estimate. The second is a NN regressor, which receives as input improved experiences from the reservoir (context points) and computes the policy by interpolation. The NN learns to measure the similarity between states in order to compute long-term forecasts by averaging experiences, rather than by encoding the problem structure in the NN parameters. We present preliminary results and propose IMeL as a baseline method for assessing the merits of more complex models and inductive biases.
翻訳日:2022-10-25 09:16:50 公開日:2020-08-24
# 分権訓練用モーメント付き周期的確率的グラディエントDescence

Periodic Stochastic Gradient Descent with Momentum for Decentralized Training ( http://arxiv.org/abs/2008.10435v1 )

ライセンス: Link先を確認
Hongchang Gao, Heng Huang(参考訳) 近年,分散学習が盛んに研究されている。 様々な手法が提案されているが、分散化運動量SGD法はまだ未定である。 本稿では,分散学習のための運動量スキーマと周期的通信を用いた周期的分散モーメントsgd法を提案する。 これら2つの戦略と分散トレーニングシステムのトポロジーにより,提案手法の理論的収束解析は困難である。 本稿では,この問題に対処し,提案手法が作業者数に関する線形速度アップを実現する条件を提案する。 さらに,各通信ラウンドにおける通信コストを削減するための通信効率の変動も導入する。 また、この変種に対して線形スピードアップを達成する条件も提供される。 我々の知る限りでは、これらの2つの手法は対応する領域においてこれらの理論的結果を達成する最初の方法である。 提案する2つの手法の性能を検証するために広範な実験を行い,両手法ともに既存の手法よりも優れた性能を示した。

Decentralized training has been actively studied in recent years. Although a wide variety of methods have been proposed, yet the decentralized momentum SGD method is still underexplored. In this paper, we propose a novel periodic decentralized momentum SGD method, which employs the momentum schema and periodic communication for decentralized training. With these two strategies, as well as the topology of the decentralized training system, the theoretical convergence analysis of our proposed method is difficult. We address this challenging problem and provide the condition under which our proposed method can achieve the linear speedup regarding the number of workers. Furthermore, we also introduce a communication-efficient variant to reduce the communication cost in each communication round. The condition for achieving the linear speedup is also provided for this variant. To the best of our knowledge, these two methods are all the first ones achieving these theoretical results in their corresponding domain. We conduct extensive experiments to verify the performance of our proposed two methods, and both of them have shown superior performance over existing methods.
翻訳日:2022-10-25 09:16:34 公開日:2020-08-24
# 自律走行のためのwhat-ifモーション予測

What-If Motion Prediction for Autonomous Driving ( http://arxiv.org/abs/2008.10587v1 )

ライセンス: Link先を確認
Siddhesh Khandelwal, William Qi, Jagjeet Singh, Andrew Hartnett, Deva Ramanan(参考訳) 安全自動運転車(AV)の展開において、道路アクターの長期的な動きを予測することは、中核的な課題である。 実行可能な解決策は、道路レーンのような静的な幾何学的コンテキストと、複数のアクターから生じる動的な社会的相互作用の両方を考慮しなければならない。 最近のディープアーキテクチャは距離ベースの予測メトリクスで最先端のパフォーマンスを達成しているが、これらのアプローチはavの意図した動作計画によらず予測される予測を生成する。 対照的に, 解釈可能な幾何学的(アクタレーン)と, 反事実的幾何学的目標と社会的文脈の注入を支援する社会的(アクタ-アクタ)関係を用いた, 繰り返しグラフに基づく注意的アプローチを提案する。 提案モデルでは,道路レーンやマルチアクターの相互作用を仮定的に,あるいは「何」かで予測できる。 このようなアプローチは計画ループにおいて、AVの意図する経路に直接関係する観測されていない原因や、ありそうもない未来を推論するために使用できることを示す。

Forecasting the long-term future motion of road actors is a core challenge to the deployment of safe autonomous vehicles (AVs). Viable solutions must account for both the static geometric context, such as road lanes, and dynamic social interactions arising from multiple actors. While recent deep architectures have achieved state-of-the-art performance on distance-based forecasting metrics, these approaches produce forecasts that are predicted without regard to the AV's intended motion plan. In contrast, we propose a recurrent graph-based attentional approach with interpretable geometric (actor-lane) and social (actor-actor) relationships that supports the injection of counterfactual geometric goals and social contexts. Our model can produce diverse predictions conditioned on hypothetical or "what-if" road lanes and multi-actor interactions. We show that such an approach could be used in the planning loop to reason about unobserved causes or unlikely futures that are directly relevant to the AV's intended route.
翻訳日:2022-10-25 09:16:09 公開日:2020-08-24
# 長期視覚認識におけるバランスド・アクティベーション

Balanced Activation for Long-tailed Visual Recognition ( http://arxiv.org/abs/2008.11037v1 )

ライセンス: Link先を確認
Jiawei Ren, Cunjun Yu, Zhongang Cai, Haiyu Zhao(参考訳) 深い分類器は視覚認識で大きな成功を収めた。 しかし、実世界のデータは自然に長い距離を置き、トレーニングとテストディストリビューションのミスマッチにつながる。 本稿では,SigmoidおよびSoftmaxアクティベーション関数のエレガントでシンプルな拡張であるBalanced Activation(Balanced Softmax and Balanced Sigmoid)を導入し,オブジェクト検出におけるトレーニングとテストの間のラベル分布シフトに対応する。 多クラスソフトマックス回帰に対する一般化を導出し、損失が境界を最小化することを示す。 実験では,LVIS-1.0上でのmAPは平均約3%向上し,余分なパラメータを伴わずに現在の最先端手法よりも優れていた。

Deep classifiers have achieved great success in visual recognition. However, real-world data is long-tailed by nature, leading to the mismatch between training and testing distributions. In this report, we introduce Balanced Activation (Balanced Softmax and Balanced Sigmoid), an elegant unbiased, and simple extension of Sigmoid and Softmax activation function, to accommodate the label distribution shift between training and testing in object detection. We derive the generalization bound for multiclass Softmax regression and show our loss minimizes the bound. In our experiments, we demonstrate that Balanced Activation generally provides ~3% gain in terms of mAP on LVIS-1.0 and outperforms the current state-of-the-art methods without introducing any extra parameters.
翻訳日:2022-10-25 09:15:52 公開日:2020-08-24
# lca-net: イメージデハジング用光畳み込みオートエンコーダ

LCA-Net: Light Convolutional Autoencoder for Image Dehazing ( http://arxiv.org/abs/2008.10325v1 )

ライセンス: Link先を確認
Pavan A, Adithya Bennur, Mohit Gaggar, Shylaja S S(参考訳) 画像のデハジングは、画像の視覚的魅力を改善するために、ヘイズによって生じる不整合ノイズを取り除くために重要な画像前処理タスクである。 既存のモデルは、計算効率が悪く、重いハードウェアを必要とする高度なネットワークとカスタムロス関数を使用する。 リアルタイム出力を即座に得ることができるため、画像の前処理は時間の本質である。 これらの問題を解決するために,提案する汎用モデルは,大気モデルに依存しない非常に軽量な畳み込みエンコーダデコーダネットワークを用いている。 このニューラルネットワークでは、ネットワークの複雑性とイメージの品質のトレードオフがうまく処理され、低スペックシステムではネットワークの性能が制限されない。 このネットワークは、画像品質の面で最先端の手法に匹敵する、いくつかの標準データセットにおいて、より高速に最適なデハージング性能を達成する。

Image dehazing is a crucial image pre-processing task aimed at removing the incoherent noise generated by haze to improve the visual appeal of the image. The existing models use sophisticated networks and custom loss functions which are computationally inefficient and requires heavy hardware to run. Time is of the essence in image pre-processing since real time outputs can be obtained instantly. To overcome these problems, our proposed generic model uses a very light convolutional encoder-decoder network which does not depend on any atmospheric models. The network complexity-image quality trade off is handled well in this neural network and the performance of this network is not limited by low-spec systems. This network achieves optimum dehazing performance at a much faster rate, on several standard datasets, comparable to the state-of-the-art methods in terms of image quality.
翻訳日:2022-10-25 09:15:22 公開日:2020-08-24
# 対話システムの評価方法: token-level Evaluation Metrics の代替としての Probe Tasks

How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for Token-level Evaluation Metrics ( http://arxiv.org/abs/2008.10427v1 )

ライセンス: Link先を確認
Prasanna Parthasarathi and Joelle Pineau and Sarath Chandar(参考訳) 生成的対話モデリングは、言語モデリングタスクとして広く見なされているが、そのタスクは、エージェントに対して、ユーザと意味のある対話を行うために、入力テキストの複雑な自然言語理解を要求する。 自動メトリクスは、生成したテキストの品質をエージェントの総合的なインタラクションのプロキシとして評価する。 このような指標は、人間の判断と相関しない。 本研究では,適切な評価のための十分な情報がないため,対話エージェントの人間による評価が不確定であることを示す。 自動メトリクスは決定論的だが浅く、人間による評価は決定的ではない。 この評価のギャップを埋めるため,対話モデルを評価するための探索タスクセットの設計を提案する。 手作りのタスクは、生成したテキストのトークンレベルの評価を超えた生成対話モデルの理解を定量的に評価することを目的としている。 探索タスクは自動メトリクスのように決定論的であり、設計において人間の判断を必要とする。 プローブタスクの実験では、RNNベースのアーキテクチャとは異なり、トランスフォーマーモデルは、ターゲットテキストと高い重なり合いを持つ生成されたテキストにもかかわらず、入力テキストを理解することを学ばない可能性がある。

Though generative dialogue modeling is widely seen as a language modeling task, the task demands an agent to have a complex natural language understanding of its input text to carry a meaningful interaction with an user. The automatic metrics used evaluate the quality of the generated text as a proxy to the holistic interaction of the agent. Such metrics were earlier shown to not correlate with the human judgement. In this work, we observe that human evaluation of dialogue agents can be inconclusive due to the lack of sufficient information for appropriate evaluation. The automatic metrics are deterministic yet shallow and human evaluation can be relevant yet inconclusive. To bridge this gap in evaluation, we propose designing a set of probing tasks to evaluate dialogue models. The hand-crafted tasks are aimed at quantitatively evaluating a generative dialogue model's understanding beyond the token-level evaluation on the generated text. The probing tasks are deterministic like automatic metrics and requires human judgement in their designing; benefiting from the best of both worlds. With experiments on probe tasks we observe that, unlike RNN based architectures, transformer model may not be learning to comprehend the input text despite its generated text having higher overlap with the target text.
翻訳日:2022-10-25 09:07:56 公開日:2020-08-24
# MIMIC-IIIを用いたクリニカルBERT埋め込みによるICD符号の予測とラベルバランスによるテキスト拡張

Prediction of ICD Codes with Clinical BERT Embeddings and Text Augmentation with Label Balancing using MIMIC-III ( http://arxiv.org/abs/2008.10492v1 )

ライセンス: Link先を確認
Brent Biseda, Gaurav Desai, Haifeng Lin, and Anish Philip(参考訳) 本報告では,MIMIC-IIIデータセットを用いたICD符号予測タスクにおける技術成果について述べる。 これは臨床用bert(alsentzer et al., 2019)の使用によって達成された。 埋め込みとテキスト拡張とラベルバランスは、ICD章とICD病コードの両方のF1スコアを改善する。 学習中の文章の順序をシャッフルするために,新しいテキスト拡張を用いたことによる性能向上が主である。 トップ32icd符号予測(keyang xu, et. al.)とf1スコア0.76と比較すると、最終的なf1スコアは0.75であるが、トップ50icd符号の総数である。

This paper achieves state of the art results for the ICD code prediction task using the MIMIC-III dataset. This was achieved through the use of Clinical BERT (Alsentzer et al., 2019). embeddings and text augmentation and label balancing to improve F1 scores for both ICD Chapter as well as ICD disease codes. We attribute the improved performance mainly to the use of novel text augmentation to shuffle the order of sentences during training. In comparison to the Top-32 ICD code prediction (Keyang Xu, et. al.) with an F1 score of 0.76, we achieve a final F1 score of 0.75 but on a total of the top 50 ICD codes.
翻訳日:2022-10-25 09:07:34 公開日:2020-08-24
# 機械セミオティックス

Machine Semiotics ( http://arxiv.org/abs/2008.10522v1 )

ライセンス: Link先を確認
Peter Klimczak, G\"unther Wirsching and Peter beim Graben(参考訳) 十分な音声認識能力にもかかわらず、現在の音声補助装置には、実用的な世界知識の表現だけでなく、適切な自動意味分析機能がない。 代わりに、現在の技術では、ユーザーが機械で効果的に操作および操作するのに必要なキーワードを学習する必要がある。 このようなマシン中心のアプローチは、ユーザにはイライラさせる可能性がある。 しかしながら、人間と機械のセミオティックスの基本的違いを認識することは、この欠点を克服する可能性を示す: 機械にとって、(人間)発話の意味は、その行動の範囲によって定義される。 したがって、機械は、個々の単語の意味や、個々の単語の意味と追加の暗黙の世界知識を結合するフレーズや文の意味を理解する必要はない。 音声補助装置の場合、試行錯誤による人間の発話の機械固有の意味の学習は十分である。 認知的加熱装置の自明な例を用いて、動的意味論に基づくこのプロセスは、発話意味ペア(UMP)の学習として形式化できることを示す。 これに続き、以前に生成された記号の詳細なセミオティックな文脈化が続く。

Despite their satisfactory speech recognition capabilities, current speech assistive devices still lack suitable automatic semantic analysis capabilities as well as useful representation of pragmatic world knowledge. Instead, current technologies require users to learn keywords necessary to effectively operate and work with a machine. Such a machine-centered approach can be frustrating for users. However, recognizing a basic difference between the semiotics of humans and machines presents a possibility to overcome this shortcoming: For the machine, the meaning of a (human) utterance is defined by its own scope of actions. Machines, thus, do not need to understand the meanings of individual words, nor the meaning of phrasal and sentence semantics that combine individual word meanings with additional implicit world knowledge. For speech assistive devices, the learning of machine specific meanings of human utterances by trial and error should be sufficient. Using the trivial example of a cognitive heating device, we show that -- based on dynamic semantics -- this process can be formalized as the learning of utterance-meaning pairs (UMP). This is followed by a detailed semiotic contextualization of the previously generated signs.
翻訳日:2022-10-25 09:07:21 公開日:2020-08-24
# LC-NAS: ポイントクラウドネットワークのためのレイテンシ制約付きニューラルネットワーク探索

LC-NAS: Latency Constrained Neural Architecture Search for Point Cloud Networks ( http://arxiv.org/abs/2008.10309v1 )

ライセンス: Link先を確認
Guohao Li, Mengmeng Xu, Silvio Giancola, Ali Thabet, Bernard Ghanem(参考訳) ポイントクラウドアーキテクチャ設計は3Dディープラーニングにとって重要な問題となっている。 分類、セグメンテーション、検出などのポイントクラウドタスクにおいて、高い精度でアーキテクチャを手作業で設計する試みがいくつかある。 最近の自動ニューラルネットワーク検索(nas)の進歩は、ネットワーク設計における人間の努力を最小化し、ハイパフォーマンスアーキテクチャを最適化する。 しかし、これらの取り組みは推論中の遅延などの重要な要因を考慮しない。 レイテンシは、一般的に利用可能なハードウェアに縛られる自動運転車、ロボットナビゲーション、モバイルアプリケーションなど、時間的に重要なアプリケーションにおいて非常に重要である。 本稿では、LC-NASと呼ばれる新しいNASフレームワークを導入し、ターゲットのレイテンシに制約のあるポイントクラウドアーキテクチャを探索する。 アーキテクチャ検索の精度とレイテンシのトレードオフを抑えるために,新しい遅延制約式を実装した。 以前の動作とは対照的に、レイテンシ損失は、最終ネットワークが指定された目標値の下で遅延を達成することを保証します。 最終タスクが限られたハードウェア設定でデプロイされる場合、これは非常に重要です。 大規模な実験により、LC-NASは最小の計算コストでModelNet40のポイントクラウド分類のための最先端アーキテクチャを見つけることができることが示された。 また、検索したアーキテクチャが所望のレイテンシーをある程度の精度で達成する方法も示しています。 最後に、検索したアーキテクチャをpartnet上の部分セグメンテーションという別のタスクに簡単に転送する方法を示し、レイテンシを10倍に抑えながら、最先端の結果を達成します。

Point cloud architecture design has become a crucial problem for 3D deep learning. Several efforts exist to manually design architectures with high accuracy in point cloud tasks such as classification, segmentation, and detection. Recent progress in automatic Neural Architecture Search (NAS) minimizes the human effort in network design and optimizes high performing architectures. However, these efforts fail to consider important factors such as latency during inference. Latency is of high importance in time critical applications like self-driving cars, robot navigation, and mobile applications, that are generally bound by the available hardware. In this paper, we introduce a new NAS framework, dubbed LC-NAS, where we search for point cloud architectures that are constrained to a target latency. We implement a novel latency constraint formulation to trade-off between accuracy and latency in our architecture search. Contrary to previous works, our latency loss guarantees that the final network achieves latency under a specified target value. This is crucial when the end task is to be deployed in a limited hardware setting. Extensive experiments show that LC-NAS is able to find state-of-the-art architectures for point cloud classification in ModelNet40 with minimal computational cost. We also show how our searched architectures achieve any desired latency with a reasonably low drop in accuracy. Finally, we show how our searched architectures easily transfer to a different task, part segmentation on PartNet, where we achieve state-of-the-art results while lowering latency by a factor of 10.
翻訳日:2022-10-25 09:06:50 公開日:2020-08-24
# マルチエージェント深層強化学習による大規模異種艦隊の動的派遣

Dynamic Dispatching for Large-Scale Heterogeneous Fleet via Multi-agent Deep Reinforcement Learning ( http://arxiv.org/abs/2008.10713v1 )

ライセンス: Link先を確認
Chi Zhang, Philip Odonkor, Shuai Zheng, Hamed Khorasgani, Susumu Serita, Chetan Gupta(参考訳) 動的ディスパッチは、適切なリソースを適切なタイミングで適切な場所に適切に割り当てる方法について、鉱業などの伝統的な産業における運用最適化の核となる問題のひとつです。 伝統的に、業界はヒューリスティックスや人間の直観にも依存しており、それらはしばしば近視的かつ最適のソリューションである。 AIとIoT(Internet of Things)のパワーを活用することで、データ駆動の自動化がこの領域を変えようとしている。 しかし、高度にダイナミックな環境で走る大規模で異質なトラックのような独自の課題に直面して、他のドメイン(例えばライドシェアリング)で開発された手法をほとんど採用できない。 本稿では,鉱業における動的派遣問題を解くための新しい深層強化学習手法を提案する。 まず,実地雷のパラメータを校正したイベントベースマイニングシミュレータを開発した。 そこで本研究では,多様なエージェントから記憶を学習するために,新しい抽象状態/動作表現を用いた経験共有型ディープqネットワークを提案する。 提案手法は,生産性の面で業界で最も広く採用されている手法である5.56\%を著しく上回っている。 提案手法は, 動的資源配分の汎用フレームワークとして, 多様な産業(製造, 物流など)において, 高度にダイナミックな環境で動作する大規模異種機器を有する大きな可能性を秘めている。

Dynamic dispatching is one of the core problems for operation optimization in traditional industries such as mining, as it is about how to smartly allocate the right resources to the right place at the right time. Conventionally, the industry relies on heuristics or even human intuitions which are often short-sighted and sub-optimal solutions. Leveraging the power of AI and Internet of Things (IoT), data-driven automation is reshaping this area. However, facing its own challenges such as large-scale and heterogenous trucks running in a highly dynamic environment, it can barely adopt methods developed in other domains (e.g., ride-sharing). In this paper, we propose a novel Deep Reinforcement Learning approach to solve the dynamic dispatching problem in mining. We first develop an event-based mining simulator with parameters calibrated in real mines. Then we propose an experience-sharing Deep Q Network with a novel abstract state/action representation to learn memories from heterogeneous agents altogether and realizes learning in a centralized way. We demonstrate that the proposed methods significantly outperform the most widely adopted approaches in the industry by $5.56\%$ in terms of productivity. The proposed approach has great potential in a broader range of industries (e.g., manufacturing, logistics) which have a large-scale of heterogenous equipment working in a highly dynamic environment, as a general framework for dynamic resource allocation.
翻訳日:2022-10-25 09:06:28 公開日:2020-08-24
# boschディープラーニングハードウェアベンチマーク

Bosch Deep Learning Hardware Benchmark ( http://arxiv.org/abs/2008.10293v1 )

ライセンス: Link先を確認
Armin Runge (1) and Thomas Wenzel (2) and Dimitrios Bariamis (2) and Benedikt Sebastian Staffler (3) and Lucas Rego Drumond (2) and Michael Pfeiffer (3) ((1) Department of Advanced Digital Technologies, Bosch Corporate Research, Renningen, Germany, (2) Computer Vision Lab, Bosch Corporate Research, Hildesheim, Germany, (3) Bosch Center for Artificial Intelligence, Renningen, Germany)(参考訳) 科学や産業におけるディープラーニング(DL)応用の普及は、効率的な推論システムに対する大きな需要を生み出している。 これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。 これに対処するために、多くのモデル、タスク、ハードウェアプラットフォームの包括的な比較を目的としたいくつかのdlハードウェアベンチマークが提案されている。 本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークを示す。 従来のベンチマークに加えて,DLモデルの共通部分加群を評価するための新たな粒度レベル,HWAメーカによるハードウェアおよびモデル最適化を考慮に入れた2倍のベンチマーク手順,ベンチマークで使用されるHWAモデルとDLモデルのミスマッチを識別するためのパフォーマンス指標の拡張などを提案する。

The widespread use of Deep Learning (DL) applications in science and industry has created a large demand for efficient inference systems. This has resulted in a rapid increase of available Hardware Accelerators (HWAs) making comparison challenging and laborious. To address this, several DL hardware benchmarks have been proposed aiming at a comprehensive comparison for many models, tasks, and hardware platforms. Here, we present our DL hardware benchmark which has been specifically developed for inference on embedded HWAs and tasks required for autonomous driving. In addition to previous benchmarks, we propose a new granularity level to evaluate common submodules of DL models, a twofold benchmark procedure that accounts for hardware and model optimizations done by HWA manufacturers, and an extended set of performance indicators that can help to identify a mismatch between a HWA and the DL models used in our benchmark.
翻訳日:2022-10-25 08:59:33 公開日:2020-08-24
# ランダム重み付きニューラルネットワークの効率的な設計

Efficient Design of Neural Networks with Random Weights ( http://arxiv.org/abs/2008.10425v1 )

ライセンス: Link先を確認
Ajay M. Patrikar(参考訳) ランダムな重みを持つ単一層フィードフォワードネットワークは、非定性的かつ高速なトレーニングアルゴリズムで知られ、様々な分類や回帰問題で成功している。 これらのネットワークの大きな欠点は、大量の隠しユニットを必要とすることだ。 本稿では,ネットワークの精度に大きな影響を及ぼすことなく,隠れユニットの数を著しく削減する手法を提案する。 プライマリとセカンダリの隠蔽ユニットの概念を導入する。 一次隠蔽ユニットの重みはランダムに選択され、二次隠蔽ユニットは一次隠蔽ユニットのペアの組合せを用いて導出される。 この手法を用いることで、隠蔽ユニットの数を少なくとも1桁減らすことができることを示す。 実験により,この手法は推定時に計算量が大幅に減少し,ネットワークの精度にはほとんど影響しないことがわかった。 若干の精度が許容される場合、計算の大幅な削減が可能となる。

Single layer feedforward networks with random weights are known for their non-iterative and fast training algorithms and are successful in a variety of classification and regression problems. A major drawback of these networks is that they require a large number of hidden units. In this paper, we propose a technique to reduce the number of hidden units substantially without affecting the accuracy of the networks significantly. We introduce the concept of primary and secondary hidden units. The weights for the primary hidden units are chosen randomly while the secondary hidden units are derived using pairwise combinations of the primary hidden units. Using this technique, we show that the number of hidden units can be reduced by at least one order of magnitude. We experimentally show that this technique leads to significant drop in computations at inference time and has only a minor impact on network accuracy. A huge reduction in computations is possible if slightly lower accuracy is acceptable.
翻訳日:2022-10-25 08:59:18 公開日:2020-08-24
# ヘッセンのペナルティ:教師なしの絡み合いの前の弱い

The Hessian Penalty: A Weak Prior for Unsupervised Disentanglement ( http://arxiv.org/abs/2008.10599v1 )

ライセンス: Link先を確認
William Peebles, John Peebles, Jun-Yan Zhu, Alexei Efros, Antonio Torralba(参考訳) 深層生成モデルの既存の絡み合い法は、ハンドピックされたプリエントと複雑なエンコーダベースのアーキテクチャに依存している。 本稿では,その入力が対角的であることに関して,生成モデルのヘッシアンを奨励する単純な正規化項であるヘッシアンペナルティを提案する。 本稿では,Hutchinsonの推定値に基づいて,モデルに依存しない確率的近似を導入し,学習中に効率よく計算する。 我々の手法は数行のコードで広範囲の深層発電機に適用できる。 いくつかのデータセットで ProGAN に適用した場合, Hessian Penalty を用いたトレーニングにより, 潜時空間に軸方向の絡み合いが生じることがよく見られる。 さらに、正規化項を用いて、教師なしの方法でBigGANの潜在空間の解釈可能な方向を特定する。 最後に、過パラメータ化潜在空間に適用した場合、ヘッセン罰則が実質的な縮小を促進するという経験的証拠を提供する。

Existing disentanglement methods for deep generative models rely on hand-picked priors and complex encoder-based architectures. In this paper, we propose the Hessian Penalty, a simple regularization term that encourages the Hessian of a generative model with respect to its input to be diagonal. We introduce a model-agnostic, unbiased stochastic approximation of this term based on Hutchinson's estimator to compute it efficiently during training. Our method can be applied to a wide range of deep generators with just a few lines of code. We show that training with the Hessian Penalty often causes axis-aligned disentanglement to emerge in latent space when applied to ProGAN on several datasets. Additionally, we use our regularization term to identify interpretable directions in BigGAN's latent space in an unsupervised fashion. Finally, we provide empirical evidence that the Hessian Penalty encourages substantial shrinkage when applied to over-parameterized latent spaces.
翻訳日:2022-10-25 08:59:04 公開日:2020-08-24
# 360度パノラマビデオ超解像のための単フレーム・多フレームジョイントネットワーク

A Single Frame and Multi-Frame Joint Network for 360-degree Panorama Video Super-Resolution ( http://arxiv.org/abs/2008.10320v1 )

ライセンス: Link先を確認
Hongying Liu, Zhubo Ruan, Chaowei Fang, Peng Zhao, Fanhua Shang, Yuanyuan Liu, Lijun Wang(参考訳) 球形ビデオは \ang{360} (panorama) ビデオとしても知られ、コンピュータやヘッドマウントディスプレイなどの様々な仮想現実デバイスで見ることができる。 球面ビデオを見るときに素晴らしい没入感が体験できるので、大きな関心を集めている。 しかし、高解像度の球面ビデオの撮影、保存、送信は非常に高価である。 本稿では,低解像度入力から高分解能球面映像を回収する新しい単一フレーム多フレームジョイントネットワーク(smfn)を提案する。 画素レベルのフレーム間の一貫性を活用するために、変形可能な畳み込みを用いて、対象フレームの特徴マップとその隣接するフレームの運動差を除去する。 特徴表現能力を高めるために混合注意機構が考案される。 デュアルラーニング戦略は、より良いソリューションを見つけるために、ソリューションの空間を制限するために実施されます。 赤道域の超解像を強調するために,重み付き平均二乗誤差に基づく新しい損失関数を提案した。 これは球面ビデオの超解像を解消する最初の試みであり、インターネットから204本のビデオを含む新しいデータセットであるmig panorama videoを収集した。 提案手法の有効性を示すビデオクリップ4本について実験を行った。 データセットとコードはhttps://github.com/lovepiano/smfn_for_360vsrで入手できる。

Spherical videos, also known as \ang{360} (panorama) videos, can be viewed with various virtual reality devices such as computers and head-mounted displays. They attract large amount of interest since awesome immersion can be experienced when watching spherical videos. However, capturing, storing and transmitting high-resolution spherical videos are extremely expensive. In this paper, we propose a novel single frame and multi-frame joint network (SMFN) for recovering high-resolution spherical videos from low-resolution inputs. To take advantage of pixel-level inter-frame consistency, deformable convolutions are used to eliminate the motion difference between feature maps of the target frame and its neighboring frames. A mixed attention mechanism is devised to enhance the feature representation capability. The dual learning strategy is exerted to constrain the space of solution so that a better solution can be found. A novel loss function based on the weighted mean square error is proposed to emphasize on the super-resolution of the equatorial regions. This is the first attempt to settle the super-resolution of spherical videos, and we collect a novel dataset from the Internet, MiG Panorama Video, which includes 204 videos. Experimental results on 4 representative video clips demonstrate the efficacy of the proposed method. The dataset and code are available at https://github.com/lovepiano/SMFN_For_360VSR.
翻訳日:2022-10-25 08:58:29 公開日:2020-08-24
# カオスとディープラーニングを備えたインド銀行におけるatmキャッシュ需要予測

ATM Cash demand forecasting in an Indian Bank with chaos and deep learning ( http://arxiv.org/abs/2008.10365v1 )

ライセンス: Link先を確認
Sarveswararao Vangala, Ravi Vadlamani(参考訳) 本稿では,インドの大手銀行のATMキャッシュ引き出しタイムシリーズにおけるカオスをモデル化し,深層学習手法を用いて撤退を予測することを提案する。 また、週1日の重要性も考慮し、ダミー外生変数として含んでいる。 まず,各系列の状態空間をラグを用いて再構成し,自己相関関数とcao法による埋め込み次元を求めることで,離脱時間列に存在するカオスをモデル化した。 このプロセスは、ユニ変数時系列をマルチ変数時系列に変換する。 は、ワンホットエンコーディングの助けを借りて7つの機能に変換される。 これら7つの特徴は、多変量時系列に拡張される。 将来の現金引き出しを予測するには、arima、random forest(rf)、 support vector regressor(svr)、multi-layer perceptron(mlp)、group method of data handling(gmdh)、general regression neural network(grnn)、long short memory neural network、および1-dimensional convolutional neural networkといったアルゴリズムを使用する。 インドの商業銀行からの 毎日の現金引き揚げのデータを検討しました カオスをモデル化し、データセットに外因性機能を追加した後、すべてのモデルの予測の改善を観察した。 ランダムフォレスト(RF)では,SMAPE(Symmetric Mean Absolute Percentage Error)値が向上したが,深層学習アルゴリズム(LSTMと1D CNN)では,t-testに基づくRFと同等の性能を示した。

This paper proposes to model chaos in the ATM cash withdrawal time series of a big Indian bank and forecast the withdrawals using deep learning methods. It also considers the importance of day-of-the-week and includes it as a dummy exogenous variable. We first modelled the chaos present in the withdrawal time series by reconstructing the state space of each series using the lag, and embedding dimension found using an auto-correlation function and Cao's method. This process converts the uni-variate time series into multi variate time series. The "day-of-the-week" is converted into seven features with the help of one-hot encoding. Then these seven features are augmented to the multivariate time series. For forecasting the future cash withdrawals, using algorithms namely ARIMA, random forest (RF), support vector regressor (SVR), multi-layer perceptron (MLP), group method of data handling (GMDH), general regression neural network (GRNN), long short term memory neural network and 1-dimensional convolutional neural network. We considered a daily cash withdrawals data set from an Indian commercial bank. After modelling chaos and adding exogenous features to the data set, we observed improvements in the forecasting for all models. Even though the random forest (RF) yielded better Symmetric Mean Absolute Percentage Error (SMAPE) value, deep learning algorithms, namely LSTM and 1D CNN, showed similar performance compared to RF, based on t-test.
翻訳日:2022-10-25 08:58:09 公開日:2020-08-24
# sde-net: ディープニューラルネットワークと不確実性推定

SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates ( http://arxiv.org/abs/2008.10546v1 )

ライセンス: Link先を確認
Lingkai Kong, Jimeng Sun and Chao Zhang(参考訳) 不確かさの定量化は、ディープラーニングの根本的かつ未解決な問題である。 ベイズフレームワークは、原則化された不確実性推定方法を提供するが、多くのパラメータを持つ現代のディープニューラルネットワーク(DNN)にはスケーラビリティがないことが多い。 非ベイズ的手法は実装が簡単であるが、しばしば異なる不確実性の源を詳述し、膨大な計算資源を必要とする。 動的システムの観点からDNNの不確かさを定量化する新しい手法を提案する。 本手法の中核は,DNN変換を確率的力学系の状態進化とみなし,その状態変化を認識できるブラウン運動項を導入することである。 そこで本研究では,(1)システムが予測関数に適合するように制御するドリフトネット,(2)認識の不確かさを捉える拡散ネットからなる,神経確率微分方程式モデル(sde-net)を提案する。 SDE-Net に対する解の存在と特異性について理論的に解析する。 実験により,SDE-Netモデルは,不確実性が基本的役割を果たす一連のタスクにおいて,既存の不確実性推定手法よりも優れていることを示した。

Uncertainty quantification is a fundamental yet unsolved problem for deep learning. The Bayesian framework provides a principled way of uncertainty estimation but is often not scalable to modern deep neural nets (DNNs) that have a large number of parameters. Non-Bayesian methods are simple to implement but often conflate different sources of uncertainties and require huge computing resources. We propose a new method for quantifying uncertainties of DNNs from a dynamical system perspective. The core of our method is to view DNN transformations as state evolution of a stochastic dynamical system and introduce a Brownian motion term for capturing epistemic uncertainty. Based on this perspective, we propose a neural stochastic differential equation model (SDE-Net) which consists of (1) a drift net that controls the system to fit the predictive function; and (2) a diffusion net that captures epistemic uncertainty. We theoretically analyze the existence and uniqueness of the solution to SDE-Net. Our experiments demonstrate that the SDE-Net model can outperform existing uncertainty estimation methods across a series of tasks where uncertainty plays a fundamental role.
翻訳日:2022-10-25 08:57:39 公開日:2020-08-24
# CA-GAN:制御可能なメイクアップ転送のためのカラーアウェアGAN

CA-GAN: Weakly Supervised Color Aware GAN for Controllable Makeup Transfer ( http://arxiv.org/abs/2008.10298v1 )

ライセンス: Link先を確認
Robin Kips, Pietro Gori, Matthieu Perrot, Isabelle Bloch(参考訳) 既存のメイクスタイル転送モデルは、結果を明示的に制御できない画像合成を行うが、メイクスタイルを連続的に修正することは仮想トライオンアプリケーションにとって望ましい特性である。 色制御可能な化粧スタイル合成の学習を目的とした化粧スタイル伝達タスクの新しい定式化を提案する。 画像中の特定の物体(例えば唇や目)の色を、背景を保ちながら任意のターゲット色に変化させることを学習する生成モデルであるCA-GANを紹介する。 カラーラベルは稀で,取得に費用がかかるため,条件付きGANに対して弱い教師付き学習を利用する。 これにより、複雑なオブジェクトの制御可能な合成を学ぶことができ、修正したい画像属性の弱いプロキシのみを必要とする。 最後に,メイクスタイルの転写と色制御性能の定量的解析を行った。

While existing makeup style transfer models perform an image synthesis whose results cannot be explicitly controlled, the ability to modify makeup color continuously is a desirable property for virtual try-on applications. We propose a new formulation for the makeup style transfer task, with the objective to learn a color controllable makeup style synthesis. We introduce CA-GAN, a generative model that learns to modify the color of specific objects (e.g. lips or eyes) in the image to an arbitrary target color while preserving background. Since color labels are rare and costly to acquire, our method leverages weakly supervised learning for conditional GANs. This enables to learn a controllable synthesis of complex objects, and only requires a weak proxy of the image attribute that we desire to modify. Finally, we present for the first time a quantitative analysis of makeup style transfer and color control performance.
翻訳日:2022-10-25 08:57:23 公開日:2020-08-24
# 3d for free: hdマップを用いたクロスモーダル転送学習

3D for Free: Crossmodal Transfer Learning using HD Maps ( http://arxiv.org/abs/2008.10592v1 )

ライセンス: Link先を確認
Benjamin Wilson, Zsolt Kira, James Hays(参考訳) 3dオブジェクト検出は、ロボットと自動運転にとって重要な課題だ。 しかし、現代の自動運転データセットにおけるクラス分類は、多くの影響力のある2d検出データセットよりもかなり小さい。 本研究では,現代2次元データセットの大規模クラスタコノミクスと最先端2次元検出手法のロバスト性を両立させることにより,長鎖問題に対処する。 我々は、画像とLiDARの大きなラベルのないデータセットを抽出し、市販の2Dインスタンスセグメンテーションモデルからシードされた3Dオブジェクト境界立方体を推定する。 批判的に、この不適切な2dから3dマッピングを高定義写像とオブジェクトサイズプリエントを用いて制限する。 鉱業プロセスの結果は、信頼性の異なる3d立方体である。 このマイニングプロセスはそれ自体が3dオブジェクト検出器であるが、評価すると特に正確ではない。 しかし,これらの立方体上で3次元物体検出モデルをトレーニングし,近年の深層学習文献の観察結果と一致して,このモデルが鉱業プロセスが提供するノイズにかなり頑健であることが判明した。 我々は1151個のラベルのないマルチモーダル走行ログを自動運転車から収集し、発見した物体を使ってLiDARベースの物体検出器を訓練した。 ラベルなしデータのマイニングにより検出性能が向上することを示す。 完全ラベル付きデータセットでは、人間の3Dアノテーションを使わずに、特定のオブジェクトカテゴリのパフォーマンスを超過しながら、完全に教師された手法と競合する。

3D object detection is a core perceptual challenge for robotics and autonomous driving. However, the class-taxonomies in modern autonomous driving datasets are significantly smaller than many influential 2D detection datasets. In this work, we address the long-tail problem by leveraging both the large class-taxonomies of modern 2D datasets and the robustness of state-of-the-art 2D detection methods. We proceed to mine a large, unlabeled dataset of images and LiDAR, and estimate 3D object bounding cuboids, seeded from an off-the-shelf 2D instance segmentation model. Critically, we constrain this ill-posed 2D-to-3D mapping by using high-definition maps and object size priors. The result of the mining process is 3D cuboids with varying confidence. This mining process is itself a 3D object detector, although not especially accurate when evaluated as such. However, we then train a 3D object detection model on these cuboids, consistent with other recent observations in the deep learning literature, we find that the resulting model is fairly robust to the noisy supervision that our mining process provides. We mine a collection of 1151 unlabeled, multimodal driving logs from an autonomous vehicle and use the discovered objects to train a LiDAR-based object detector. We show that detector performance increases as we mine more unlabeled data. With our full, unlabeled dataset, our method performs competitively with fully supervised methods, even exceeding the performance for certain object categories, without any human 3D annotations.
翻訳日:2022-10-25 08:57:11 公開日:2020-08-24