このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201120となっている論文です。

PDF登録状況(公開日: 20201120)

TitleAuthorsAbstract論文公表日・翻訳日
# Smell Pittsburgh: 空気の質に関するコミュニティ市民科学

Smell Pittsburgh: Engaging Community Citizen Science for Air Quality ( http://arxiv.org/abs/1912.11936v4 )

ライセンス: Link先を確認
Yen-Chia Hsu, Jennifer Cross, Paul Dille, Michael Tasota, Beatrice Dias, Randy Sargent, Ting-Hao 'Kenneth' Huang, Illah Nourbakhsh(参考訳) 都市大気汚染は、心肺疾患を含む様々な人間の健康問題と関連している。 大気汚染に苦しむコミュニティはしばしば、アクセス可能なツールがないため、汚染源を特定する専門家に頼っている。 これを踏まえて、コミュニティメンバーが匂いを報告し、これらの匂いが頻繁に集中している場所を追跡するシステムであるSmell Pittsburghを開発した。 すべての匂いレポートデータはオンラインで公開されている。 これらのレポートは地元の保健省にも送られ、モニタリングステーションからの空気質データとともに地図上に視覚化される。 この可視化は、地域汚染の景観を包括的に概観する。 さらに,これらのレポートと大気質データを用いて,今後の臭いイベントを予測し,コミュニティにプッシュ通知を送るモデルを開発した。 また,プッシュ通知がユーザエンゲージメントに与える影響を統計的に評価するために回帰分析を適用した。 本システムの評価は, 住民が大気汚染の臭いを文書化することで, 地域大気汚染のパターンを識別し, 地域社会に空気質の向上を奨励できることを示す。 すべての市民による匂いデータは公開されており、https://smellpgh.orgからダウンロードできる。

Urban air pollution has been linked to various human health concerns, including cardiopulmonary diseases. Communities who suffer from poor air quality often rely on experts to identify pollution sources due to the lack of accessible tools. Taking this into account, we developed Smell Pittsburgh, a system that enables community members to report odors and track where these odors are frequently concentrated. All smell report data are publicly accessible online. These reports are also sent to the local health department and visualized on a map along with air quality data from monitoring stations. This visualization provides a comprehensive overview of the local pollution landscape. Additionally, with these reports and air quality data, we developed a model to predict upcoming smell events and send push notifications to inform communities. We also applied regression analysis to identify statistically significant effects of push notifications on user engagement. Our evaluation of this system demonstrates that engaging residents in documenting their experiences with pollution odors can help identify local air pollution patterns, and can empower communities to advocate for better air quality. All citizen-contributed smell data are publicly accessible and can be downloaded from https://smellpgh.org.
翻訳日:2023-06-10 08:00:41 公開日:2020-11-20
# パッシブ操作における2モードガウス状態の最大絡み合い

Maximum entanglement of formation for a two-mode Gaussian state over passive operations ( http://arxiv.org/abs/2004.13948v4 )

ライセンス: Link先を確認
Spyros Tserkis, Jayne Thompson, Austin P. Lund, Timothy C. Ralph, Ping Koy Lam, Mile Gu, Syed M. Assad(参考訳) 我々は、受動的操作下で連続可変状態によって達成できる生成の絡み合いの最大量(EoF)を定量化し、これをEoFポテンシャル(EoF-potential)と呼ぶ。 特に2モードガウス状態に着目して、特定の状態のクラスに対するEoFポテンシャルに対する解析的表現を導出する。 より一般的な状態に対しては、この量はガウスモードを合成するのに必要となる最小のスクイーズ量、すなわち形成のスクイーズ量によって上界化できることを示す。 したがって、我々の研究は量子状態の非古典性と相関の非古典性の間に新たなつながりをもたらす。

We quantify the maximum amount of entanglement of formation (EoF) that can be achieved by continuous-variable states under passive operations, which we refer to as EoF-potential. Focusing, in particular, on two-mode Gaussian states we derive analytical expressions for the EoF-potential for specific classes of states. For more general states, we demonstrate that this quantity can be upper-bounded by the minimum amount of squeezing needed to synthesize the Gaussian modes, a quantity called squeezing of formation. Our work, thus, provides a new link between non-classicality of quantum states and the non-classicality of correlations.
翻訳日:2023-05-21 19:46:25 公開日:2020-11-20
# ストロボスコープから連続測定への絡み合い遷移の普遍性

Universality of entanglement transitions from stroboscopic to continuous measurements ( http://arxiv.org/abs/2005.01863v2 )

ライセンス: Link先を確認
Marcin Szyniszewski, Alessandro Romito, Henning Schomerus(参考訳) エントロピーのエントロピーの広範なスケールとサブ拡張スケールの間の測定駆動の遷移は、オープン相互作用量子システムにおける熱化と制御の複雑な物理を照らして興味を惹きつける。 この遷移はランダムな量子回路における分光計測によく確立されているが、物理設定への重要なリンクは連続的な観測への拡張であり、積分可能なモデルでは、遷移はその性質を変えてすぐに現れることが示されている。 ここでは, 有限結合における絡み合い遷移が, 連続測定系がランダムに非可積分である場合に持続することを示した。 これは、幅広い実験的な設定と、後者のシステムに蓄積された豊富な知識の間の橋渡しとなる。

Measurement-driven transitions between extensive and sub-extensive scaling of the entanglement entropy receive interest as they illuminate the intricate physics of thermalization and control in open interacting quantum systems. Whilst this transition is well established for stroboscopic measurements in random quantum circuits, a crucial link to physical settings is its extension to continuous observations, where for an integrable model it has been shown that the transition changes its nature and becomes immediate. Here, we demonstrate that the entanglement transition at finite coupling persists if the continuously measured system is randomly nonintegrable, and show that it is smoothly connected to the transition in the stroboscopic models. This provides a bridge between a wide range of experimental settings and the wealth of knowledge accumulated for the latter systems.
翻訳日:2023-05-21 04:54:18 公開日:2020-11-20
# 古典回路の量子仮想ブラックボックス難読化の可能性

Impossibility of Quantum Virtual Black-Box Obfuscation of Classical Circuits ( http://arxiv.org/abs/2005.06432v2 )

ライセンス: Link先を確認
Gorjan Alagic, Zvika Brakerski, Yfke Dulek, Christian Schaffner(参考訳) 仮想ブラックボックス難読化は強力な暗号プリミティブであり、完全な入出力機能を維持しながら回路を暗号化する。 Barak et al. (Crypto 2001) による顕著な結果は、古典回路を古典回路に難解化する一般の難読回路は存在しないことを示している。 この不可能な結果を回避するための有望な方向は、古典的な回路を量子状態に難読化することである。 量子コンピュータではlwe(learning-with-errors)が難しいという仮定の下では、この量子変種である古典回路の仮想ブラックボックス難読化は一般に不可能であることを示す。 その過程で、依存型古典的補助入力の存在下では、古典的点関数の小さなクラスでさえ量子仮想ブラックボックスの難読化はできないことを示す。

Virtual black-box obfuscation is a strong cryptographic primitive: it encrypts a circuit while maintaining its full input/output functionality. A remarkable result by Barak et al. (Crypto 2001) shows that a general obfuscator that obfuscates classical circuits into classical circuits cannot exist. A promising direction that circumvents this impossibility result is to obfuscate classical circuits into quantum states, which would potentially be better capable of hiding information about the obfuscated circuit. We show that, under the assumption that learning-with-errors (LWE) is hard for quantum computers, this quantum variant of virtual black-box obfuscation of classical circuits is generally impossible. On the way, we show that under the presence of dependent classical auxiliary input, even the small class of classical point functions cannot be quantum virtual black-box obfuscated.
翻訳日:2023-05-20 07:40:13 公開日:2020-11-20
# 量子後マルチパーティ計算

Post-Quantum Multi-Party Computation ( http://arxiv.org/abs/2005.12904v2 )

ライセンス: Link先を確認
Amit Agarwal, James Bartusek, Vipul Goyal, Dakshita Khurana, Giulio Malavolta(参考訳) 我々は,悪意ある多項式時間量子敵に対する安全性を持つ古典的機能(プレーンモデル)に対する多人数計算の研究を開始する。 既存の手法は多項式ラウンドプロトコルを容易に与えるが、主な結果は *constant-round* post-quantum のマルチパーティ計算である。 誤りを伴う学習における多項式量子硬度(LWE)とLWEに基づく円形セキュリティ仮定の多項式量子硬度を軽度に仮定する。 その過程で、LWEベースの円形セキュリティ仮定の量子硬度から、量子回路で計算可能な関係のスゴイ暗号化スキームを開発する。 これにより、古典鍵を持つ最初の量子マルチキー完全正則暗号スキームが得られる。 2. 量子回路で計算可能な関係を暗号化する複数の並列量子検証器に対して一定のラウンドゼロ知識が確保される。 これを実現するために、敵の状態をクローンしない *parallel* 検証器に対して、新しい直線非ブラックボックスシミュレーション手法を開発した。 これは私たちの技術貢献の中心となり、古典的な設定にも関係しているかもしれません。 3. LWEの軽度超多項式量子硬度から定ラウンドの非有理コミットメントスキーム。

We initiate the study of multi-party computation for classical functionalities (in the plain model) with security against malicious polynomial-time quantum adversaries. We observe that existing techniques readily give a polynomial-round protocol, but our main result is a construction of *constant-round* post-quantum multi-party computation. We assume mildly super-polynomial quantum hardness of learning with errors (LWE), and polynomial quantum hardness of an LWE-based circular security assumption. Along the way, we develop the following cryptographic primitives that may be of independent interest: 1. A spooky encryption scheme for relations computable by quantum circuits, from the quantum hardness of an LWE-based circular security assumption. This yields the first quantum multi-key fully-homomorphic encryption scheme with classical keys. 2. Constant-round zero-knowledge secure against multiple parallel quantum verifiers from spooky encryption for relations computable by quantum circuits. To enable this, we develop a new straight-line non-black-box simulation technique against *parallel* verifiers that does not clone the adversary's state. This forms the heart of our technical contribution and may also be relevant to the classical setting. 3. A constant-round post-quantum non-malleable commitment scheme, from the mildly super-polynomial quantum hardness of LWE.
翻訳日:2023-05-18 23:29:40 公開日:2020-11-20
# 一次元変換不変自由フェルミオン散逸系に対するリー代数的アプローチ

Lie-algebraic approach to one-dimensional translationally invariant free-fermionic dissipative systems ( http://arxiv.org/abs/2007.07754v2 )

ライセンス: Link先を確認
L.R. Bakker, V.I. Yashin, D.V. Kurlov, A.K. Fedorov, and V. Gritsev(参考訳) 二次リウビリアンを用いた散逸変換不変自由フェルミオン理論について検討する。 リー-代数的アプローチを用いてリンドブラッド方程式を解くと、リウビリアンの任意の時間依存に対して常に密度行列を求める。 次に、リウヴィリアスペクトル特性を調査し、非平衡散逸相転移と関連していると考えられる散逸ギャップの閉包に対する一般的な基準を導出する。 本稿では,エキゾチックな例をいくつか紹介する。 特に、長距離ホッピングを持つフェルミオンに対する線形スペクトルを持つギャップレスモードの存在を示す。 予測された効果は、現在利用可能な実験施設を用いて超低温原子および量子光学系の実験で観測することができる。

We study dissipative translationally invariant free-fermionic theories with quadratic Liouvillians. Using a Lie-algebraic approach, we solve the Lindblad equation and find the density matrix at all times for arbitrary time dependence of the Liouvillian. We then investigate the Liouvillian spectral properties and derive a generic criterion for the closure of the dissipative gap, which is believed to be linked with nonequilibrium dissipative phase transitions. We illustrate our findings with a few exotic examples. Particularly, we show the presence of gapless modes with a linear spectrum for fermions with long-range hopping, which might be related to nonunitary conformal field theories. The predicted effects can be probed in experiments with ultracold atomic and quantum-optical systems using currently available experimental facilities.
翻訳日:2023-05-10 01:50:57 公開日:2020-11-20
# 平面マイクロ共振器に結合したシリコン中のビスマスドナーのスピン共鳴線幅

Spin resonance linewidths of bismuth donors in silicon coupled to planar microresonators ( http://arxiv.org/abs/2007.07600v3 )

ライセンス: Link先を確認
James O'Sullivan, Oscar W. Kennedy, Christoph W. Zollitsch, Mantas \v{S}im\.enas, Christopher N. Thomas, Leonid V. Abdurakhimov, Stafford Withington, John J. L. Morton(参考訳) シリコン中のビスマスドナースピンの集合は、数秒を超える長いコヒーレンス時間のために、マイクロ波量子メモリの保存要素を約束している。 効率的な量子メモリを操作するには、スピンアンサンブルと適切な高品質因子共振器との臨界結合を実現する必要がある。 本稿では,ニオブ超伝導共振器をパターン化した自然シリコン中のビスマスドナーのアンサンブルのパルス電子スピン共鳴測定を行う。 スピン遷移を周波数と磁場の範囲で研究することで、異なる線幅拡大機構、特に磁場に敏感な「クロック遷移」で動作させることで抑制できるものを特定する。 ここではドナー濃度と共振器を用いて協調度を$C\sim 0.2$と測定し、量子メモリに必要な単位協調性を達成するための経路について議論する。

Ensembles of bismuth donor spins in silicon are promising storage elements for microwave quantum memories due to their long coherence times which exceed seconds. Operating an efficient quantum memory requires achieving critical coupling between the spin ensemble and a suitable high-quality factor resonator -- this in turn requires a thorough understanding of the lineshapes for the relevant spin resonance transitions, particularly considering the influence of the resonator itself on line broadening. Here, we present pulsed electron spin resonance measurements of ensembles of bismuth donors in natural silicon, above which niobium superconducting resonators have been patterned. By studying spin transitions across a range of frequencies and fields we identify distinct line broadening mechanisms, and in particular those which can be suppressed by operating at magnetic-field-insensitive `clock transitions'. Given the donor concentrations and resonator used here, we measure a cooperativity $C\sim 0.2$ and based on our findings we discuss a route to achieve unit cooperativity, as required for a quantum memory.
翻訳日:2023-05-09 11:31:22 公開日:2020-11-20
# 量子アニーリングにおける状態進化のダイナミクスの推定

Inferring the Dynamics of the State Evolution During Quantum Annealing ( http://arxiv.org/abs/2009.06387v2 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Hristo Djidjev(参考訳) 商用の量子アニール器を用いた最適化問題を解くためには、Isingあるいは2次非拘束バイナリ最適化(QUBO)問題として関心の問題を表現し、その係数をアニール器に送信し、ユーザが指定した低エネルギーの解を返却する必要がある。 量子プロセッサがアニールプロセス中に何が起こるかを知ることで、より良いアルゴリズムを設計したり、ハードウェアの改善を提案することができるでしょう。 しかし、既存の量子アニールはプロセッサから直接そのような情報を抽出することはできない。 そこで本研究では,D-Wave 2000Qの高度な特徴を利用して,アニール過程における状態進化のダイナミクスに関する情報を間接的に推測する。 具体的には、D-Wave 2000Qにより、ユーザは、アニールの開始から終了までのアニール分率を変更するスケジュールをカスタマイズすることができる。 本機能を用いて,標準アニール中のユーザ定義時点におけるシステム状態に関する情報を生成するために,出力を使用可能な改良アニールスケジュールのセットを設計する。 この過程は「スライシング」と呼ばれ、アニール時間の進化とともに最低エネルギーアニール解の近似分布を得る。 本手法は,アニーリング中の状態変化,アニーリング中の個々のビットが進行する解のフリップ時および安定化時などのアニーラヤに関する様々な洞察を得るために使用し,システムと個々のキュービットの両方のフリーズアウトポイントを推定する手法を提案する。

To solve an optimization problem using a commercial quantum annealer, one has to represent the problem of interest as an Ising or a quadratic unconstrained binary optimization (QUBO) problem and submit its coefficients to the annealer, which then returns a user-specified number of low-energy solutions. It would be useful to know what happens in the quantum processor during the anneal process so that one could design better algorithms or suggest improvements to the hardware. However, existing quantum annealers are not able to directly extract such information from the processor. Hence, in this work we propose to use advanced features of D-Wave 2000Q to indirectly infer information about the dynamics of the state evolution during the anneal process. Specifically, D-Wave 2000Q allows the user to customize the anneal schedule, that is, the schedule with which the anneal fraction is changed from the start to the end of the anneal. Using this feature, we design a set of modified anneal schedules whose outputs can be used to generate information about the states of the system at user-defined time points during a standard anneal. With this process, called "slicing", we obtain approximate distributions of lowest-energy anneal solutions as the anneal time evolves. We use our technique to obtain a variety of insights into the annealer, such as the state evolution during annealing, when individual bits in an evolving solution flip during the anneal process and when they stabilize, and we introduce a technique to estimate the freeze-out point of both the system as well as of individual qubits.
翻訳日:2023-05-03 00:28:55 公開日:2020-11-20
# 大きな光子数を用いた超伝導人工原子の量子非退化分散読み出し

Quantum non-demolition dispersive readout of a superconducting artificial atom using large photon numbers ( http://arxiv.org/abs/2009.14785v2 )

ライセンス: Link先を確認
Daria Gusenkova, Martin Spiecker, Richard Gebauer, Madita Willsch, Francesco Valenti, Nick Karcher, Lukas Gr\"unhaupt, Ivan Takmakov, Patrick Winkel, Dennis Rieger, Alexey V. Ustinov, Nicolas Roch, Wolfgang Wernsdorfer, Kristel Michielsen, Oliver Sander, and Ioan M. Pop(参考訳) 超伝導人工原子の状態を読み出すのは通常、読み出し共振器への分散結合に依存する。 系の雑音温度に対して、共振器内で循環する光子数$\bar{n}$を上昇させることで、測定時間が短くなり、自発的な原子遷移による読み出し誤差を低減することが期待できる。 しかしながら、$\bar{n}$ の増加は、一般的にこれらの遷移率を増加させることが観察される。 ここでは、最初の2つの状態間の遷移率の全体的平坦な依存性を、最大$\bar{n}\approx200$の関数として測定するフラックスニウム人工原子を示す。 読み出し電力の増加に伴う分散シフトの期待値の減少にもかかわらず、信号対雑音比は$\bar{n}$の増加とともに継続的に改善される。 パラメトリック増幅器を使わなくても、それぞれ$\bar{n}=74$で、フィードバックアシストグラウンドと励起状態準備のために99%と93%のフィデルを測定する。

Reading out the state of superconducting artificial atoms typically relies on dispersive coupling to a readout resonator. For a given system noise temperature, increasing the circulating photon number $\bar{n}$ in the resonator enables a shorter measurement time and is therefore expected to reduce readout errors caused by spontaneous atom transitions. However, increasing $\bar{n}$ is generally observed to also increase these transition rates. Here we present a fluxonium artificial atom in which we measure an overall flat dependence of the transition rates between its first two states as a function of $\bar{n}$, up to $\bar{n}\approx200$. Despite the fact that we observe the expected decrease of the dispersive shift with increasing readout power, the signal-to-noise ratio continuously improves with increasing $\bar{n}$. Even without the use of a parametric amplifier, at $\bar{n}=74$, we measure fidelities of 99% and 93% for feedback-assisted ground and excited state preparation, respectively.
翻訳日:2023-04-30 14:09:17 公開日:2020-11-20
# スケールに対する挑発とスケール思考への抵抗

Against Scale: Provocations and Resistances to Scale Thinking ( http://arxiv.org/abs/2010.08850v2 )

ライセンス: Link先を確認
Alex Hanna, Tina M. Park(参考訳) シリコンバレーなどにおけるイノベーションと活動の大きな推進要因はスケーラビリティにある。 この、効率的な成長戦略を特定するためのスケーラビリティへの波及しないコミットメントは、私たちが"スケール思考"と呼ぶものの中心にあります。 人々がそれを認識しているかどうかに関わらず、スケール思考は全面的だ。 それは単に製品、サービス、あるいは企業の特性ではなく、世界(何を構成するか、どのように観察し測定するか)、その問題(解決する価値があるか、解決する価値があるか)、それらの問題に対する技術的修正の可能性に関するものである。 本稿では, スケール思考のさまざまな側面と, 技術と協調的作業の考え方の意義について考察する。 大規模思考に根ざした技術的ソリューションは、純粋に想像するほど、深い体系的な変化において、解放的あるいは効果的ではない、と我々は主張する。 むしろ、スケール思考に抵抗する解決策は、社会的不平等の中心にある社会構造を解き放つために必要である。 本稿では,近年の相互援助ネットワークに関する研究を振り返り,技術ソリューションの評価手段として協調作業システムについて質問し,スケール思考に抵抗する場所を特定するための設計者の指導を行う。

At the heart of what drives the bulk of innovation and activity in Silicon Valley and elsewhere is scalability. This unwavering commitment to scalability -- to identify strategies for efficient growth -- is at the heart of what we refer to as "scale thinking." Whether people are aware of it or not, scale thinking is all-encompassing. It is not just an attribute of one's product, service, or company, but frames how one thinks about the world (what constitutes it and how it can be observed and measured), its problems (what is a problem worth solving versus not), and the possible technological fixes for those problems. This paper examines different facets of scale thinking and its implication on how we view technology and collaborative work. We argue that technological solutions grounded in scale thinking are unlikely to be as liberatory or effective at deep, systemic change as their purveyors imagine. Rather, solutions which resist scale thinking are necessary to undo the social structures which lie at the heart of social inequality. We draw on recent work on mutual aid networks and propose questions to ask of collaborative work systems as a means to evaluate technological solutions and guide designers in identifying sites of resistance to scale thinking.
翻訳日:2023-04-28 19:52:18 公開日:2020-11-20
# グラフェンの磁気光学特性によるチューニング共鳴エネルギー伝達

Tuning resonance energy transfer with magneto-optical properties of graphene ( http://arxiv.org/abs/2010.09836v2 )

ライセンス: Link先を確認
P.P. Abrantes, G. Bastos, D. Szilard, C. Farina and F.S.S. Rosa(参考訳) 真空中における懸濁グラフェンシート近傍の2つの量子エミッタ間の共振エネルギー伝達(RET)速度を外部磁場の影響下で検討した。 室温, 室温の解析を行い, グラフェンの異常な磁気光学応答により, 室温においてもRETの能動的制御とチューニングが可能であることを示した。 また、ret速度は印加された磁場の小さな変動に非常に敏感であり、非常に現実的な磁場の値に対して6桁の等級まで調整できることを示した。 さらに, グラフェン単層が支持する磁気プラズモン分極がRETを一定の距離範囲で支配的なチャネルとして果たす基本的な役割を実証する。 以上の結果から,磁気光学媒体は,量子エミッタ間のエネルギー移動を全く新しいレベルまで操作し,その応用範囲をさらに拡大する可能性が示唆された。

We investigate the resonance energy transfer (RET) rate between two quantum emitters near a suspended graphene sheet in vacuum under the influence of an external magnetic field. We perform the analysis for low and room temperatures and show that, due to the extraordinary magneto-optical response of graphene, it allows for an active control and tunability of the RET even in the case of room temperature. We also demonstrate that the RET rate is extremely sensitive to small variations of the applied magnetic field, and can be tuned up to a striking six orders of magnitude for quite realistic values of magnetic field. Moreover, we evidence the fundamental role played by the magnetoplasmon polaritons supported by the graphene monolayer as the dominant channel for the RET within a certain distance range. Our results suggest that magneto-optical media may take the manipulation of energy transfer between quantum emitters to a whole new level, and broaden even more its great spectrum of applications.
翻訳日:2023-04-28 07:53:29 公開日:2020-11-20
# 一般化エンタングルメントスワップにおける情報ゆらぎトレードオフ

Information-disturbance trade-off in generalized entanglement swapping ( http://arxiv.org/abs/2010.15523v2 )

ライセンス: Link先を確認
Pratapaditya Bej, Arkaprabha Ghosal, Debarshi Das, Arup Roy, Somshubhro Bandyopadhyay(参考訳) ベルペアの$\left(1,2\right)$ と $\left(3,4\right)$ から開始すると、$\left(2,3\right)$ で任意のジョイント測定を行い、$\left(1,4\right)$ が関連付けられる。 相関関係における情報ゲインのトレードオフ不等式を$\left(1,4\right)$と$\left(1,2\right)$と$\left(3,4\right)$の相関関係で取得し、各不等式が等しい場合、相関関係に含まれる情報が保存されると主張している。 我々は,情報を最大交絡測定に保存するが,他の全直交測定には保存せず,ベル測定には白色雑音が混在していることを示す。 しかし、意外なことに、2階ベル対角測定では情報が保存されるが、そのような測定では絡み合いは保存されない。 また、$\left(2,3\right)$ の分離可能な測定は、例えば、すべての3組の残余測定状態が$\left(1,2\right)$, $\left(3,4\right)$, $\left(1,4\right)$ となるとしても、情報を保存できることを示した。 これは、絡み合ったペアからの相関を分離可能なペアに非自明な方法で転送することができ、その過程で$information$が失われることがないことを意味する。

We study information-disturbance trade-off in generalized entanglement swapping protocols wherein starting from Bell pairs $\left(1,2\right)$ and $\left(3,4\right)$, one performs an arbitrary joint measurement on $\left(2,3\right)$, so that $\left(1,4\right)$ now becomes correlated. We obtain trade-off inequalities between information gain in correlations of $\left(1,4\right)$ and residual information in correlations of $\left(1,2\right)$ and $\left(3,4\right)$ respectively and argue that information contained in correlations (information) is conserved if each inequality is an equality. We show that information is conserved for a maximally entangled measurement but is not conserved for any other complete orthogonal measurement and Bell measurement mixed with white noise. However, rather surprisingly, we find that information is conserved for rank-two Bell diagonal measurements, although such measurements do not conserve entanglement. We also show that a separable measurement on $\left(2,3\right)$ can conserve information, even if, as in our example, the post-measurement states of all three pairs $\left(1,2\right)$, $\left(3,4\right)$, and $\left(1,4\right)$ become separable. This implies correlations from an entangled pair can be transferred to separable pairs in nontrivial ways so that no $information$ is lost in the process.
翻訳日:2023-04-27 00:59:28 公開日:2020-11-20
# コンピュータゲームをプレイしながら見せた感情とゲーム行動との関係

How do you feel: Emotions exhibited while Playing Computer Games and their Relationship with Gaming Behaviors ( http://arxiv.org/abs/2011.10265v1 )

ライセンス: Link先を確認
Rex Bringula, Kristian Paul M. Lugtu, Mark Anthony D. Uy, Ariel Aviles(参考訳) 本研究は,コンピュータゲーマーによるサイバーカフェにおける感情の定量化を目的とした。 ゲーマーのほとんどが若年者、男性、独身者であり、中産階級の高校生や職業学生であったことが判明した。 多くは家庭でコンピュータにアクセスできたが、家庭でインターネットにアクセスできたのはわずかであった。 ゲーマーは週に少なくとも3回はサイバーカフェでゲームをする傾向があり、通常は夕方に1回の訪問で少なくとも2時間プレイした。 彼らはまた、頻繁にゲームをしたと報告した。 ゲーマーの多くはDOTA、League of Legends、CABALをプレイすることが好きで、彼らは少なくとも2年間ゲームをしていた。 ゲーム中にポジティブな感情とネガティブな感情の両方を示したことが明かされた。 ゲームが頻繁になり、ゲーム期間が長くなるにつれて、ゲーマーはゲームで負けることを切望する傾向が見られた。 また、ゲーム期間が長くなるとストレスが強くなる傾向があった。 一方,ゲーム行動は他の感情と有意な関連は認められなかった。 したがって、コンピュータゲーム中に提示された感情と回答者のゲーム行動が有意な関係がないという無効仮説を部分的に否定する。 したがって、コンピュータゲーム中に現れるすべての感情が、彼らのゲーム行動に起因しているわけではない。 今後の研究には、怒り、フラストレーション、退屈、娯楽など他の感情も含むことが推奨されている。

This descriptive study utilized a validated questionnaire to determine the emotions exhibited by computer gamers in cyber caf\'es. It was revealed that most of the gamers were young, male, single, as well as high school and vocational students who belonged to middle-income families. Most of them had computer access at home but only a few had Internet access at home. Gamers tended to play games in cyber caf\'es at least three times a week, usually in the evening, for at least two hours per visit. They also reported that they played games frequently. Majority of the gamers were fond of playing DOTA, League of Legends, and CABAL and they had been playing games for at least two years. It was disclosed that they exhibited both positive and negative emotions while playing games. It was shown that gamers were inclined to be more anxious to be defeated in a game as gaming became frequent and length of years in playing games increased. They also had the tendency to become more stressed when length of years of playing games increased. On the other hand, other gaming behaviors were not significantly related to other emotions. Thus, the null hypothesis stating that gaming behaviors of the respondents are not significantly related to the emotions exhibited while playing the computer games is partially rejected. Therefore, not all emotions exhibited while playing computer games could be attributed to their gaming behaviors. It is recommended that other emotions such as anger, frustration, boredom, amusement, etc. be included in future research.
翻訳日:2023-04-23 15:09:56 公開日:2020-11-20
# データサイエンスツールを用いた国の政治リズムの探索

Exploring the political pulse of a country using data science tools ( http://arxiv.org/abs/2011.10264v1 )

ライセンス: Link先を確認
Miguel G. Folgado and Ver\'onica Sanz(参考訳) 本稿では,複雑なヒューマンコミュニケーションの分析にデータサイエンス技術を用いる方法について述べる。 特に、政党の指導者からのツイートを、政治プログラムやアイデアのダイナミックな代行と見なしている。 また,その内容の時間的進化を,特定の事象に対する反応として検討した。 ソーシャルメディアに適応した新しいツールを用いて、ツイートのポジティブな感情とネガティブな感情のレベルを分析した。 私たちはまた、ツイートの政治的関連を認識するために人工知能を訓練します。 aiは、71-75\%の範囲で精度でツイートの起源を予測でき、約90\%の精度で政治的傾き(左か右)を予測できる。 この研究は、データサイエンスと政治分析のインターフェースにおいて、学際的な性質の実証として見なされる。

In this paper we illustrate the use of Data Science techniques to analyse complex human communication. In particular, we consider tweets from leaders of political parties as a dynamical proxy to political programmes and ideas. We also study the temporal evolution of their contents as a reaction to specific events. We analyse levels of positive and negative sentiment in the tweets using new tools adapted to social media. We also train an Artificial Intelligence to recognise the political affiliation of a tweet. The AI is able to predict the origin of the tweet with a precision in the range of 71-75\%, and the political leaning (left or right) with a precision of around 90\%. This study is meant to be viewed as a proof-of-concept of interdisciplinary nature, at the interface between Data Science and political analysis.
翻訳日:2023-04-23 15:09:32 公開日:2020-11-20
# ブラックホールと異方性コンパクト物体のUnruh-DeWitt検出器による識別

Unruh-DeWitt Detector Differentiation of Black Holes and Exotic Compact Objects ( http://arxiv.org/abs/2011.10179v1 )

ライセンス: Link先を確認
Bob Holdom, Robert B. Mann, Chen Zhang(参考訳) 本研究では,3+1次元の一般反射境界条件を持つエキゾチックコンパクト物体(ECO)外部の静的Unruh-DeWitt検出器の応答について検討する。 境界が事象の地平線に非常に近い地平線のないESOは、ブラックホールの模倣者として働く。 ECO境界が完全に吸収されている場合でも、反応速度はブラックホールの場合と明らかに異なる。 部分的に)反射的エコ境界の場合、反応速度における共鳴構造は、エコ境界と検出器の異なる位置に依存する。 本研究では,ECOの真空モード構造と伝達関数に関する詳細な解析を行う。

We study the response of a static Unruh-DeWitt detector outside an exotic compact object (ECO) with a general reflective boundary condition in 3+1 dimensions. The horizonless ECO, whose boundary is extremely close to the would-be event horizon, acts as a black hole mimicker. We find that the response rate is notably distinct from the black hole case, even when the ECO boundary is perfectly absorbing. For a (partially) reflective ECO boundary, we find resonance structures in the response rate that depend on the different locations of the ECO boundary and those of the detector. We provide a detailed analysis in connection with the ECO's vacuum mode structure and transfer function.
翻訳日:2023-04-23 15:09:20 公開日:2020-11-20
# 量子力学半群の緩和率の普遍的制約について

On the universal constraints for relaxation rates for quantum dynamical semigroup ( http://arxiv.org/abs/2011.10159v1 )

ライセンス: Link先を確認
Dariusz Chruscinski, Gen Kimura, Andrzej Kossakowski, Yasuhito Shishido(参考訳) 量子力学半群の緩和速度に対する普遍的制約の予想が提案される。 これは、例えば単体半群や、適切な顕微鏡モデルから弱カップリング極限に導かれる半群のいくつかの興味深いクラスに対して成り立つ。 さらに, 数値解析により予測が支持される。 この予想はいくつかの重要な意味を持つ: 量子チャネルのスペクトルに普遍的な制約を与え、与えられたチャネルがマルコフの進化と一致するかどうかを決定するために必要な条件を与える。

A conjecture for the universal constraints for relaxation rates of a quantum dynamical semigroup is proposed. It is shown that it holds for several interesting classes of semigroups, e.g. unital semigroups and semigroups derived in the weak coupling limit from the proper microscopic model. Moreover, proposed conjecture is supported by numerical analysis. This conjecture has several important implications: it allows to provide universal constraints for spectra of quantum channels and provides necessary condition to decide whether a given channel is consistent with Markovian evolution.
翻訳日:2023-04-23 15:09:08 公開日:2020-11-20
# 非線形共鳴による量子ビットの保護

Protection of qubits by nonlinear resonances ( http://arxiv.org/abs/2011.10329v1 )

ライセンス: Link先を確認
Rakesh Kumar Saini, Raman Sehgal, Sudhir R. Jain(参考訳) 量子化超伝導回路は, 古典的記述レベルでは非積分性であり, 確率的海中での非線形共鳴によって評価される。 これらの準可積分系のスペクトル変動は、規則性とカオスの間の中間的な挙動を示す。 隣接する間隔の比率の分布関数と、最も近い間隔の分布関数は、"mild chaos"の発生を証明する。 これらの特徴に基づき, 古典系の一次非線形共鳴の楕円点に可能な限り近い位置に存在するように, システムのパラメータを選択することに相当するデコヒーレンスから量子ビットを保護するための基準を提案する。

We show that quantized superconducting circuits are non-integrable at the classical level of description, adorned by nonlinear resonances amidst stochastic sea. The spectral fluctuations of these quasi-integrable systems exhibit intermediate behaviour between regularity and chaos. The distribution function of ratios of adjacent spacings, and, nearest-neighbour spacing distribution functions attest to the occurrence of "mild chaos". Based on these features, we propose criteria for protection of qubits from decoherence which amounts to choosing the parameters of the system in a way that the system resides as close as possible to the elliptic point of the primary nonlinear resonance of the corresponding classical system.
翻訳日:2023-04-23 15:04:05 公開日:2020-11-20
# 一般化Susskind-Glogowerコヒーレント状態

Generalized Susskind-Glogower coherent states ( http://arxiv.org/abs/2011.10303v1 )

ライセンス: Link先を確認
Jean-Pierre Gazeau, V\'eronique Hussin, James Moran, and Kevin Zelaya(参考訳) フォック展開係数がベッセル関数を含むサスキント・グロゴワーコヒーレント状態は、最近光学的性質にかなりの注目を集めている。 それでも、同一性解決は未解決の問題であり、フォック空間における超完全基底を定義し、コヒーレント状態量子化写像を許す本質的な数学的性質である。 この点において、修正されたSusskind-Glogowerコヒーレント状態は、恒等分解を解く代替状態の族として導入された。 この写本では、修正されたススキンド=グロワーのコヒーレント状態に関連する量子化写像が利用され、自然にその離散級数における$\mathfrak{su}(1,1)$リー代数の特定の表現につながる。 後者は、第1種のベッセル関数のインデックスを拡張し、第2種の修正ベッセル関数を使用することにより、サスキント・グロゴワール状態から構築されたコヒーレント状態のさらなる一般化に関する証拠を提供する。 この形態では、Susskind-Glogower-IおよびSusskind-Glogower-IIコヒーレントな状態が導入された。 対応する量子化写像は、それぞれ su$(1,1)$ および su$(2)$ ユニタリ既約表現の生成元として、$\mathfrak{su}(1,1)$ および $\mathfrak{su}(2)$ リー代数の元の一般表現に導くように構成される。 完全性については、新しいコヒーレント状態の族に関する光学的性質を探索し、よく知られた光学状態と比較する。

Susskind-Glogower coherent states, whose Fock expansion coefficients include Bessel functions, have recently attracted considerable attention for their optical properties. Nevertheless, identity resolution is still an open question, which is an essential mathematical property that defines an overcomplete basis in the Fock space and allows a coherent state quantization map. In this regard, the modified Susskind-Glogower coherent states have been introduced as an alternative family of states that resolve the identity resolution. In the present manuscript, the quantization map related to the modified Susskind-Glogower coherent states is exploited, which naturally leads to a particular representation of the $\mathfrak{su}(1,1)$ Lie algebra in its discrete series. The latter provides evidence about further generalizations of coherent states, built from the Susskind-Glogower ones by extending the indexes of the Bessel functions of the first kind and, alternatively, by employing the modified Bessel functions of the second kind. In this form, the new families of Susskind-Glogower-I and Susskind-Glogower-II coherent states are introduced. The corresponding quantization maps are constructed so that they lead to general representations of elements of the $\mathfrak{su}(1,1)$ and $\mathfrak{su}(2)$ Lie algebras as generators of the SU$(1,1)$ and SU$(2)$ unitary irreducible representations respectively. For completeness, the optical properties related to the new families of coherent states are explored and compared with respect to some well-known optical states.
翻訳日:2023-04-23 15:03:38 公開日:2020-11-20
# 絡み合いのない真の量子非局所性に基づく局所微分可能性

Local distinguishability based genuinely quantum nonlocality without entanglement ( http://arxiv.org/abs/2011.10286v1 )

ライセンス: Link先を確認
Mao-Sheng Li, Yan-Ling Wang, Fei Shi, and Man-Hong Yung(参考訳) 最近、Halder \emph{et al。 である。 Rev. Lett. textbf{122}, 040403 (2019)] は、強い非局所性(英語版)(strong nonlocality) という概念を提案した。 問題の難しさとして、ほとんどの結果は三分割系に限られている。 ここでは、局所微分可能性に基づく真の非局所性と呼ばれるより弱い非局所性を考える。 直交多部量子状態の集合が真の非局所であるとは、部分系のすべての分割に対して局所的に区別できないことである。 本研究では,後者の非局所性について研究する傾向がある。 まず,局所的に区別できない二成分系において,優雅な生成状態の組を示す。 その後、簡単な観察に基づいて、真に非局所であるがパーティーが少ないような集合を用いて、真の非局所な積状態を構成する一般的な方法を提案する。 その結果、すべての可能な多元量子系に対して、完全積状態の真に非局所な集合が存在することが得られる。

Recently, Halder \emph{et al.} [Phys. Rev. Lett. \textbf{122}, 040403 (2019)] proposed the concept strong nonlocality without entanglement: an orthogonal set of fully product states in multipartite quantum systems that is locally irreducible for every bipartition of the subsystems. As the difficulty of the problem, most of the results are restricted to tripartite systems. Here we consider a weaker form of nonlocality called local distinguishability based genuine nonlocality. A set of orthogonal multipartite quantum states is said to be genuinely nonlocal if it is locally indistinguishable for every bipartition of the subsystems. In this work, we tend to study the latter form of nonlocality. First, we present an elegant set of product states in bipartite systems that is locally indistinguishable. After that, based on a simple observation, we present a general method to construct genuinely nonlocal sets of multipartite product states by using those sets that are genuinely nonlocal but with less parties. As a consequence, we obtain that genuinely nonlocal sets of fully product states exist for all possible multipartite quantum systems.
翻訳日:2023-04-23 15:02:59 公開日:2020-11-20
# フォトニックトポロジー絶縁体における2光子エッジ状態:位相保護と絡み合いの程度

Two-photon edge states in photonic topological insulators: topological protection versus degree of entanglement ( http://arxiv.org/abs/2011.10461v1 )

ライセンス: Link先を確認
Konrad Tschernig, Alvaro Jimenez-Galan, Demetrios N. Christodoulides, Misha Ivanov, Kurt Busch, Miguel A. Bandres, and Armando Perez-Leija(参考訳) トポロジカルな絶縁体は、バルクの絶縁特性とエッジに沿った散乱のない輸送を結合し、欠陥や障害が存在する場合でも散逸のない一方向エネルギーと情報の流れをサポートする。 量子ハミルトニアンと光子ツールを組み合わせることで、量子量子量子コンピューティングや情報処理において位相的に保護されたエンタングル状態を用いる可能性が高まる。 しかしながら、2光子状態は2つのトポロジカルに保護された単一光子状態の積として構築され、1光子状態の「親」から完全な保護を受け継いだが、高い非分離性は、障害による伝播後の2光子状態の急速な劣化を引き起こす可能性がある。 トポロジカルフォトニック格子における絡み合い状態の脆弱性に寄与する物理的メカニズムを特定し,トポロジカル保護を犠牲にすることなく絡み合いを最大化するための明確なガイドラインを示す。

Topological insulators combine insulating properties in the bulk with scattering-free transport along edges, supporting dissipationless unidirectional energy and information flow even in the presence of defects and disorder. The feasibility of engineering quantum Hamiltonians with photonic tools, combined with the availability of entangled photons, raises the intriguing possibility of employing topologically protected entangled states in optical quantum computing and information processing. However, while two-photon states built as a product of two topologically protected single-photon states inherit full protection from their single-photon "parents", high degree of non-separability may lead to rapid deterioration of the two-photon states after propagation through disorder. We identify physical mechanisms which contribute to the vulnerability of entangled states in topological photonic lattices and present clear guidelines for maximizing entanglement without sacrificing topological protection.
翻訳日:2023-04-23 14:55:23 公開日:2020-11-20
# 超伝導トランスモン量子ビットの高速崩壊時の状態漏洩と制御

State leakage during fast decay and control of a superconducting transmon qubit ( http://arxiv.org/abs/2011.10442v1 )

ライセンス: Link先を確認
Aravind Plathanam Babu, Jani Tuorila, Tapio Ala-Nissila(参考訳) 超伝導ジョセフソン接合量子ビットは、スケーラブルな量子コンピュータや熱デバイスを含む多くのアプリケーションの主要な現在の技術である。 そのような系の理論的モデリングは通常2段階近似の中で行われる。 しかし、正確な理論モデリングでは、2レベルキュービット部分空間にシステムを制限することなく、より高い励起状態の影響を考慮する必要がある。 本稿では, 超伝導トランスモンの力学と制御について, 数値計算式Liouville-von Neumann方程式を用いて検討する。 本研究では,浴槽崩壊と単一キュービットゲート操作のための理想的2レベル部分空間からの状態漏洩の役割に焦点をあてる。 浴槽との結合性が強く, 短時間の漏出が顕著であった。 我々は,単一キュービットゲートにおける漏洩誤差を定量化し,デコヒーレンスの存在下での5レベルトランスモンのドラッグ制御による抑制を示す。 本結果は,2段階近似の精度の限界と,量子力学における固有制約の可能性を予測し,パラメータ集合の制御を行う。

Superconducting Josephson junction qubits constitute the main current technology for many applications, including scalable quantum computers and thermal devices. Theoretical modeling of such systems is usually done within the two-level approximation. However, accurate theoretical modeling requires taking into account the influence of the higher excited states without limiting the system to the two-level qubit subspace. Here, we study the dynamics and control of a superconducting transmon using the numerically exact stochastic Liouville-von Neumann equation approach. We focus on the role of state leakage from the ideal two-level subspace for bath induced decay and single-qubit gate operations. We find significant short-time state leakage due to the strong coupling to the bath. We quantify the leakage errors in single-qubit gates and demonstrate their suppression with DRAG control for a five-level transmon in the presence of decoherence. Our results predict the limits of accuracy of the two-level approximation and possible intrinsic constraints in qubit dynamics and control for an experimentally relevant parameter set.
翻訳日:2023-04-23 14:54:53 公開日:2020-11-20
# ゲインスイッチ半導体レーザの位相ランダム性:確率微分方程式解析

Phase randomness in a gain-switched semiconductor laser: stochastic differential equation analysis ( http://arxiv.org/abs/2011.10401v1 )

ライセンス: Link先を確認
Roman Shakhovoy, Alexander Tumachek, Natalia Andronova, Yury Mironov, and Yury Kurochkin(参考訳) 我々は、ゲインスイッチング半導体レーザーの位相ランダム性の理論解析を行い、量子エントロピー源として応用した。 数値シミュレーションにより、位相拡散r.m.s.はバイアス電流に非線形依存を示すことが示され、特に高速光量子乱数発生器への応用において重要な実用的重要性を持つ。 レーザーパルス間の位相拡散は必ずしも必要効率、特にパルス反復率の高い場合の位相拡散は仮定できないことが示されている。 また, ゲイン飽和度は相拡散のr.m.s.値に大きく影響し, ポンプ電流依存性の非線形性が決定されることが明らかとなった。

We performed theoretical analysis of the phase randomness in a gain-switched semiconductor laser in the context of its application as a quantum entropy source. Numerical simulations demonstrate that phase diffusion r.m.s. exhibits non-linear dependence on the bias current, which could be of significant practical importance, particularly, in application to high-speed optical quantum random number generators. It is shown that phase diffusion between laser pulses cannot always be assumed to exhibit required efficiency, particularly, at high pulse repetition rates. It was also revealed that the gain saturation significantly affects the r.m.s. value of the phase diffusion and, in essence, determines the degree of non-linearity of its dependence on the pump current.
翻訳日:2023-04-23 14:53:59 公開日:2020-11-20
# オンライン学習環境における計算学生の障壁と課題:フィリピンの1つの私立大学からの考察

Barriers and Challenges of Computing Students in an Online Learning Environment: Insights from One Private University in the Philippines ( http://arxiv.org/abs/2012.02121v1 )

ライセンス: Link先を確認
Bernie S. Fabito, Arlene O. Trillanes, Jeshnile R. Sarmiento(参考訳) この文献はブレンド学習の様々な利点を示すが、政策立案者はオンライン学習体験を損なう可能性のある学生が直面する障壁と課題を特定する必要がある。 これらの障壁を理解することは、学術機関が学生のオンライン学習体験を進歩させ改善するための政策を立案するのに役立つ。 本研究は, フィリピンの1つの私立大学において, 新型コロナウイルスのパンデミックへの対応として, ルソン地域全体が拡張地域検疫(ECQ)の下に置かれた時期に, 計算学生の課題を明らかにするために行われた。 オンライン学習における学生の体験を特定するため,MS Forms Proによる調査を行った。 調査は2020年3月16日から3月18日まで行われ、合計300の回答を得た。 記述的統計では,生徒が遭遇する3つの障壁と課題が1。 教授との話題や議論の明確化の難しさ,2.オンライン活動を行うための研究や作業領域の欠如,3。 オンライン活動に参加するための良いインターネット接続がないこと。 学生も教員も完全にオンライン学習を行う準備が整っていないと結論付けることができる。 さらに、一部の教員は、オンライン学習環境における学生のニーズに適応できなかったかもしれない。 本研究の主なデータは, 主に学生から得られたものであるが, 学生との経験から, 教員の視点を理解する上でも, 優れた追加となるだろう。 彼らの洞察は、調査の回答を検証し、調査に含まれなかったかもしれない他の障壁を提供するのに役立つかもしれない。

While the literature presents various advantages of using blended learning, policymakers must identify the barriers and challenges faced by students that may cripple their online learning experience. Understanding these barriers can help academic institutions craft policies to advance and improve the students' online learning experience. This study was conducted to determine the challenges of computing students in one private University in the Philippines during the period where the entire Luzon region was placed under the Enhanced Community Quarantine (ECQ) as a response to the COVID-19 pandemic. A survey through MS Forms Pro was performed to identify the experiences of students in online learning. The survey ran from March 16 to March 18, 2020, which yielded a total of 300 responses. Descriptive statistics revealed that the top three barriers and challenges encountered by students were 1. the difficulty of clarifying topics or discussions with the professors, 2.the lack of study or working area for doing online activities, and 3. the lack of a good Internet connection for participating in online activities. It can be concluded that both students and faculty members were not fully prepared to undergo full online learning. More so, some faculty members may have failed to adapt to the needs of the students in an online learning environment. While the primary data of the study mainly came from the students, it would also be an excellent addition to understand the perspective of the faculty members in terms of their experiences with their students. Their insights could help validate the responses in the survey and provide other barriers that may not have been included in the study.
翻訳日:2023-04-23 14:46:33 公開日:2020-11-20
# PreSENT: 顔認識技術を用いたAndroidベースのクラス出席監視システム

PRESENT: An Android-Based Class Attendance Monitoring System Using Face Recognition Technology ( http://arxiv.org/abs/2012.01907v1 )

ライセンス: Link先を確認
Djoanna Marie V. Salac(参考訳) 本研究は,顔認証を用いたandroidベースのクラス参加者監視アプリケーションの開発を目的としている。 研究者はインクリメンタルモデルをソフトウェア開発プロセスとして使用し、17人の教員(17)が適用を評価した。 iso 9126ソフトウェアの品質と主要な機能に対する満足度に基づいて、アプリケーションの受け入れ度レベルを評価するために検証された評価質問紙を用いた。 収集したデータの統計的処理には,likertスケール,重み付け平均,t-テストが用いられた。 その結果,インストラクターは参加者の確認に要する時間と面倒な作業として既存の方法を見出した。 さらに, ポータビリティは高い評価を受けながら, 機能, 信頼性, ユーザビリティの観点から, 開発アプリケーションを適度に許容できるものと評価した。 機能に関して、回答者は非常に満足していました。 研究者は、開発したアプリケーションは有用であり、参加者のチェックとモニタリングを容易にするためにインストラクターのニーズをサポートすることができると結論づけた。 評価結果が許容できるため,教師は,授業出席の確認・監視を行う既存のプロセスに代わるツールとして,このツールを使用する必要がある。 android、顔認識、smsといったさまざまな技術の統合により、クラス参加者のチェック方法がより簡単で、高速で、信頼性が高く、セキュアになり、教室管理が改善される。

The study aimed to develop an Android-Based Class Attendance Monitoring Application using Face Recognition to make attendance checking and monitoring easier and faster. The researcher used incremental model as the software development process and the application was evaluated by seventeen (17) faculty members .A validated evaluation questionnaire was used to rate the level of acceptability of the application based on ISO 9126 software quality and the level of satisfaction for its major features. For the statistical treatment of the data collected, Likert Scale, weighted mean and t-test were utilized by the researcher. The results revealed that instructors find the existing way of checking attendance as time consuming and a tedious task. Furthermore, the respondents assessed the developed application as moderately acceptable in terms of functionality, reliability and usability while portability was rated as highly acceptable. With regards to the features, the respondents were very satisfied. The researcher concluded that the developed application was useful and it can support the needs of the instructors to make attendance checking and monitoring easier, faster, and reliable. Due to its acceptable evaluation result, instructors should consider the use of this tool as an alternative to the existing process of checking and monitoring class attendance. With the integration of different technologies such as Android, face recognition and SMS, the traditional way of checking class attendance can be made easier, faster, reliable and secured, thus improving classroom management.
翻訳日:2023-04-23 14:46:05 公開日:2020-11-20
# 放射線場の二項状態の穴を燃やしましょう

Let's Burn a hole in the Binomial state of the radiation field ( http://arxiv.org/abs/2011.11438v1 )

ライセンス: Link先を確認
Priya Malpani(参考訳) 量子光学では、放射場の様々な量子状態の非古典的性質が頻繁に研究されている。 これらの状態のいくつかは有限次元であり、quditsと呼ばれる。 これらの状態は量子情報処理における潜在的な応用のために重要である。 さらに、非古典的状態は古典的条件を持たない状態である。 したがって、量子超越性を確立するためには、常に非古典的状態が必要である。 近年、Sivakumar と Meher は数値状態フィルタリングコヒーレント状態の非古典的性質を研究し、数値状態フィルタリングが非古典的特徴を古典的でないコヒーレント状態に導入することを示した。 この観察は、既に非古典的状態におけるホールバーニング(状態フィルタリング)の役割を調べる動機となった。 具体的には, 試験床として非古典的な二項状態を選択し, 真空(真空状態と同程度)で穴を焼いた。 真空濾過二項状態の非古典的性質を確認するために、vogelの基準、高次および低次アンチバンチングの基準、高次サブポアソニアン光子統計の基準、線形エントロピー等を用いた。 調査の結果, 真空濾過二項状態は非古典的であり, ホール燃焼は非古典的深度を高めることがわかった。

In quantum optics, nonclassical properties of various quantum states of radiation field are frequently studied. Some of those states are finite dimensional and referred to as qudits. These states are important because of their potential applications in quantum information processing. Further, nonclassical states are those which do not have any classical counterpart. Consequently, to establish quantum supremacy, we always require nonclassical state. Recently, Sivakumar and Meher have studied the nonclassical properties of the number state filtered coherent state, and shown that the number state filtering introduces nonclassical features into coherent state which is otherwise classical. This observation motivated us to investigate the role of hole burning (state filtering) on a state which is already nonclassical. Specifically, we have selected a Binomial state which is known to be nonclassical as our test bed and burnt a hole at vacuum (equivalently filtered the vacuum state). To check the nonclassical properties of vacuum filtered binomial state, we have used Vogel's criterion, criterion of higher- and lower-order antibunching, criterion of higher-order sub-Poissonian photon statistics, Linear entropy etc. The investigation results show that vacuum filtered binomial state studied here is highly nonclassical, and the hole burning process enhances the nonclassical depth.
翻訳日:2023-04-23 14:45:42 公開日:2020-11-20
# 倫理に責任のあるAI研究者を訓練する事例研究

Training Ethically Responsible AI Researchers: a Case Study ( http://arxiv.org/abs/2011.11393v1 )

ライセンス: Link先を確認
Hang Yuan, Claudia Vanea, Federica Lucivero, Nina Hallowell(参考訳) AI研究の倫理的監視は多くの問題に悩まされている。 これらの問題に対処するには多くの方法があるが、審査委員会や委員会に倫理的考察の責任を負わせている。 本稿では、倫理的に責任を持つAI研究者のトレーニングという代替ソリューションを提案する。 本稿では,博士養成センターの事例研究を通じて,この課題を提示し,そのプログラムにおける倫理訓練の構造について概説する。 続いて,倫理的責任を負う研究者として新たに見いだされた能力のいくつかを実証する,2年目の学生のトレーニングの振り返りを提示する。

Ethical oversight of AI research is beset by a number of problems. There are numerous ways to tackle these problems, however, they leave full responsibility for ethical reflection in the hands of review boards and committees. In this paper, we propose an alternative solution: the training of ethically responsible AI researchers. We showcase this solution through a case study of a centre for doctoral training and outline how ethics training is structured in the program. We go on to present two second-year students' reflections on their training which demonstrates some of their newly found capabilities as ethically responsible researchers.
翻訳日:2023-04-23 14:45:21 公開日:2020-11-20
# 人間対自動フィードバックがAI概念とプログラミングスタイルの理解に及ぼす影響

Effects of Human vs. Automatic Feedback on Students' Understanding of AI Concepts and Programming Style ( http://arxiv.org/abs/2011.10653v1 )

ライセンス: Link先を確認
Abe Leite and Sa\'ul A. Blanco(参考訳) 大規模な学部プログラミングコースでは,自動採点ツールの利用が普及し,近年では自動生成フィードバックの品質向上に重点が置かれている。 しかし,コンピュータが生成したフィードバックや人間によるフィードバックを学生の成果と直接比較するデータは比較的少ない。 本稿では,90名の生徒を2つのフィードバックグループに分割し,2つのコホートのパフォーマンスの違いを分析することで,このギャップを解消する。 このクラスは、HW割り当てをプログラミングするAIの入門である。 ある学生グループは、アルゴリズムのロジックのどの部分が欠けているかを記述するプログラムの割り当てに関する詳細なコンピュータ生成フィードバックを受け取り、他のグループは、プログラムの構文がロジックの問題とどう関係しているかを記述した人文によるフィードバックを受け取り、コードを改善するための質的(スタイルの)レコメンデーションを受けた。 クイズと試験の質問の結果から、人間のフィードバックは学生の理解を深める助けになることが示唆されたが、分析の結果、最終プロジェクトでの協力能力には差がなかった。 コースグレードの分布から,人書きフィードバックを受けた学生は全体の成績が良く,各グループ中2学年で最も顕著であった。 これらの結果から,構文・論理関係に関するフィードバックは,人間のフィードバックが学生の成果を改善する主要なメカニズムである可能性が示唆された。

The use of automatic grading tools has become nearly ubiquitous in large undergraduate programming courses, and recent work has focused on improving the quality of automatically generated feedback. However, there is a relative lack of data directly comparing student outcomes when receiving computer-generated feedback and human-written feedback. This paper addresses this gap by splitting one 90-student class into two feedback groups and analyzing differences in the two cohorts' performance. The class is an intro to AI with programming HW assignments. One group of students received detailed computer-generated feedback on their programming assignments describing which parts of the algorithms' logic was missing; the other group additionally received human-written feedback describing how their programs' syntax relates to issues with their logic, and qualitative (style) recommendations for improving their code. Results on quizzes and exam questions suggest that human feedback helps students obtain a better conceptual understanding, but analyses found no difference between the groups' ability to collaborate on the final project. The course grade distribution revealed that students who received human-written feedback performed better overall; this effect was the most pronounced in the middle two quartiles of each group. These results suggest that feedback about the syntax-logic relation may be a primary mechanism by which human feedback improves student outcomes.
翻訳日:2023-04-23 14:44:55 公開日:2020-11-20
# カレン・サブリー真空偏極ポテンシャルの精密級数展開

An exact power series expansion for the Kallen-Sabry vacuum polarization potential ( http://arxiv.org/abs/2011.10621v1 )

ライセンス: Link先を確認
Antonio Ricardo Martines(参考訳) 本研究では、カレン・サブリー真空分極ポテンシャルの正確な電力系列式を提示する。

In this work it is presented an exact power series formula for the Kallen-Sabry vacuum polarization potential.
翻訳日:2023-04-23 14:44:28 公開日:2020-11-20
# ランダム測定のためのモーメント

A Moment for Random Measurements ( http://arxiv.org/abs/2011.10591v1 )

ライセンス: Link先を確認
Lukas Knips(参考訳) 量子絡み合いは量子理論の中核的な特徴の1つである。 通常、慎重に選択された方向に沿って測定によって明らかにされるが、ここでは、いわゆるランダムまたはランダム化測定に基づいて異なる手法をレビューする。 このアプローチは最初は非効率に思えるかもしれないが、様々なランダムな方向のサンプリング相関は局所単位変換の下で不変な性質を研究する強力なツールである。 ランダムな測定に基づいて、観察者同士の共有参照フレームや、たとえ局所参照フレームが定義できない場合でも、絡み合いを検出して特徴付けることができる。 本稿では,SLOCCクラスを識別するために,実測値を用いた異なる手法について述べる。 さらに,球面設計に基づいて計測方向を効率的に得る方法について検討する。

Quantum entanglement is one of the core features of quantum theory. While it is typically revealed by measurements along carefully chosen directions, here we review different methods based on so-called random or randomized measurements. Although this approach might seem inefficient at first, sampling correlations in various random directions is a powerful tool to study properties which are invariant under local-unitary transformations. Based on random measurements, entanglement can be detected and characterized without a shared reference frame between the observers or even if local reference frames cannot be defined. This overview article discusses different methods using random measurements to detect genuine multipartite entanglement and to distinguish SLOCC classes. Furthermore, it reviews how measurement directions can efficiently be obtained based on spherical designs.
翻訳日:2023-04-23 14:44:25 公開日:2020-11-20
# 非線形プログラミングによる確率的K平均クラスタリング

Probabilistic K-means Clustering via Nonlinear Programming ( http://arxiv.org/abs/2001.03286v2 )

ライセンス: Link先を確認
Yujian Li, Bowen Liu, Zhaoying Liu, and Ting Zhang(参考訳) k-meansは、幅広い応用を持つ古典的なクラスタリングアルゴリズムである。 しかし、軟K平均またはm=1のファジィc平均は1981年以来未解決である。 この課題に対処するために、線形等式と線形不等式に制約された非線形プログラミングモデルである確率的K平均(PKM)という新しいクラスタリングモデルを提案する。 理論上は、能動的勾配射影により非効率にモデルを解くことができる。 そこで本研究では,より効率的に解くために,最大ステップアクティブ勾配投影と高速最大ステップアクティブ勾配投影を提案する。 実験により, pkmの性能を評価し, 提案手法は, 初期化ロバスト性, クラスタリング性能, 降下安定性, イテレーション数, 収束速度の5つの面において, どのように解決されるかを検討した。

K-means is a classical clustering algorithm with wide applications. However, soft K-means, or fuzzy c-means at m=1, remains unsolved since 1981. To address this challenging open problem, we propose a novel clustering model, i.e. Probabilistic K-Means (PKM), which is also a nonlinear programming model constrained on linear equalities and linear inequalities. In theory, we can solve the model by active gradient projection, while inefficiently. Thus, we further propose maximum-step active gradient projection and fast maximum-step active gradient projection to solve it more efficiently. By experiments, we evaluate the performance of PKM and how well the proposed methods solve it in five aspects: initialization robustness, clustering performance, descending stability, iteration number, and convergence speed.
翻訳日:2023-01-12 22:46:59 公開日:2020-11-20
# 非負のテンソル因子化のためのブロック座標の高速化

Accelerating Block Coordinate Descent for Nonnegative Tensor Factorization ( http://arxiv.org/abs/2001.04321v2 )

ライセンス: Link先を確認
Andersen Man Shun Ang, Jeremy E. Cohen, Nicolas Gillis, Le Thi Khanh Hien(参考訳) 本稿では、近似非負のテンソル因子化(NTF)のためのブロック座標降下アルゴリズムの経験的収束速度の改善について検討する。 ブロック更新間の外挿戦略を,ヒューリスティック外挿法(heuristic extrapolation with restarts,her)と呼ぶ。 HERは、高密度NTFのための既存のブロックコーディネートアルゴリズムの実験的収束速度を著しく加速し、特に計算シナリオの難しさに対して、無視できない計算予算を必要とする。

This paper is concerned with improving the empirical convergence speed of block-coordinate descent algorithms for approximate nonnegative tensor factorization (NTF). We propose an extrapolation strategy in-between block updates, referred to as heuristic extrapolation with restarts (HER). HER significantly accelerates the empirical convergence speed of most existing block-coordinate algorithms for dense NTF, in particular for challenging computational scenarios, while requiring a negligible additional computational budget.
翻訳日:2023-01-11 22:56:22 公開日:2020-11-20
# ニューラルネットワーク重みのラベルノイズ情報制御による一般化

Improving Generalization by Controlling Label-Noise Information in Neural Network Weights ( http://arxiv.org/abs/2002.07933v2 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Kyle Reing, Greg Ver Steeg, Aram Galstyan(参考訳) ノイズや誤ったラベルが存在する場合、ニューラルネットワークはノイズに関する情報を記憶する好ましくない傾向を持つ。 ドロップアウト、ウェイト崩壊、データ増大といった標準的な正則化技術は、時折役立つが、そのような振舞いを防げない。 ニューラルネットワークの重みを、データとトレーニングの確率性に依存する確率変数として考えると、記憶された情報の量は、入力されたすべてのトレーニングラベルの重みとベクトルの間のシャノン相互情報、すなわち$i(w ; \mathbf{y} \mid \mathbf{x})$で定量化することができる。 任意の学習アルゴリズムにおいて,この項の低値がラベル雑音の記憶量減少と一般化境界の改善に対応していることを示す。 これらの低値を得るために,ラベルにアクセスせずに分類器の最終層の勾配を予測する補助ネットワークを用いた学習アルゴリズムを提案する。 本稿では, MNIST, CIFAR-10, CIFAR-100の様々なノイズモデルで劣化したバージョンと, ノイズラベルを持つ大規模データセットであるCloting1Mについて検討した。

In the presence of noisy or incorrect labels, neural networks have the undesirable tendency to memorize information about the noise. Standard regularization techniques such as dropout, weight decay or data augmentation sometimes help, but do not prevent this behavior. If one considers neural network weights as random variables that depend on the data and stochasticity of training, the amount of memorized information can be quantified with the Shannon mutual information between weights and the vector of all training labels given inputs, $I(w ; \mathbf{y} \mid \mathbf{x})$. We show that for any training algorithm, low values of this term correspond to reduction in memorization of label-noise and better generalization bounds. To obtain these low values, we propose training algorithms that employ an auxiliary network that predicts gradients in the final layers of a classifier without accessing labels. We illustrate the effectiveness of our approach on versions of MNIST, CIFAR-10, and CIFAR-100 corrupted with various noise models, and on a large-scale dataset Clothing1M that has noisy labels.
翻訳日:2022-12-30 12:59:15 公開日:2020-11-20
# Gated Linear Networks を用いたコンテキスト帯域でのオンライン学習

Online Learning in Contextual Bandits using Gated Linear Networks ( http://arxiv.org/abs/2002.11611v2 )

ライセンス: Link先を確認
Eren Sezener, Marcus Hutter, David Budden, Jianan Wang, Joel Veness(参考訳) 本稿では,新しい完全オンラインコンテキストバンディットアルゴリズムであるgated linear context bandits (glcb)を提案する。 このアルゴリズムは、最近導入されたディープラーニングアーキテクチャであるGated Linear Networks (GLNs)をベースとしている。 GLNのデータ依存ゲーティング特性を活用することで、アルゴリズムのオーバーヘッドを効果的にゼロにする予測の不確実性を推定できる。 我々は、離散的かつ連続的なコンテキスト的バンディット問題の標準ベンチマークスイートにおいて、ディープニューラルネットワークを利用する9つの最先端アルゴリズムと比較して、GLCBを実証的に評価する。 GLCBは唯一のオンライン手法であるにもかかわらず、中央値の1位を獲得し、これらの結果をさらに支援し、収束特性の理論的研究を行う。

We introduce a new and completely online contextual bandit algorithm called Gated Linear Contextual Bandits (GLCB). This algorithm is based on Gated Linear Networks (GLNs), a recently introduced deep learning architecture with properties well-suited to the online setting. Leveraging data-dependent gating properties of the GLN we are able to estimate prediction uncertainty with effectively zero algorithmic overhead. We empirically evaluate GLCB compared to 9 state-of-the-art algorithms that leverage deep neural networks, on a standard benchmark suite of discrete and continuous contextual bandit problems. GLCB obtains median first-place despite being the only online method, and we further support these results with a theoretical study of its convergence properties.
翻訳日:2022-12-30 00:16:37 公開日:2020-11-20
# 一般化改善のためのアンシャッフルデータ

Unshuffling Data for Improved Generalization ( http://arxiv.org/abs/2002.11894v3 )

ライセンス: Link先を確認
Damien Teney, Ehsan Abbasnejad, Anton van den Hengel(参考訳) トレーニング分布を超えた一般化は、マシンラーニングの核となる課題である。 ニューラルネットワークをトレーニングする際の例を混ぜてシャッフルする一般的なプラクティスは、この点において最適ではないかもしれない。 本研究では,複数の訓練環境として扱われる不適切な部分集合にデータを分割することで,より優れた分散一般化によるモデルの学習を導くことができることを示す。 本稿では,環境にまたがる安定なパターンを捉えるための訓練手順について述べる。 分割の選択は、トレーニングデータのジョイント分布から回復できないタスクに関する情報を注入することを可能にする。 データセットバイアスの悪名高い視覚的質問応答のタスクで,複数のユースケースを実演する。 我々は,VQA-CPにおいて,事前知識,既存のメタデータ,あるいは教師なしクラスタリングから構築された環境を利用して,大幅な改良を行った。 また、GQAのアノテーションやマルチデータセットトレーニング(VQA v2 / Visual Genome)についても、異なる環境として扱うことで改善しています。

Generalization beyond the training distribution is a core challenge in machine learning. The common practice of mixing and shuffling examples when training neural networks may not be optimal in this regard. We show that partitioning the data into well-chosen, non-i.i.d. subsets treated as multiple training environments can guide the learning of models with better out-of-distribution generalization. We describe a training procedure to capture the patterns that are stable across environments while discarding spurious ones. The method makes a step beyond correlation-based learning: the choice of the partitioning allows injecting information about the task that cannot be otherwise recovered from the joint distribution of the training data. We demonstrate multiple use cases with the task of visual question answering, which is notorious for dataset biases. We obtain significant improvements on VQA-CP, using environments built from prior knowledge, existing meta data, or unsupervised clustering. We also get improvements on GQA using annotations of "equivalent questions", and on multi-dataset training (VQA v2 / Visual Genome) by treating them as distinct environments.
翻訳日:2022-12-28 08:50:22 公開日:2020-11-20
# DiPE:単眼ビデオからの深度とエゴモーションの教師なし学習のための測光誤差の深化

DiPE: Deeper into Photometric Errors for Unsupervised Learning of Depth and Ego-motion from Monocular Videos ( http://arxiv.org/abs/2003.01360v3 )

ライセンス: Link先を確認
Hualie Jiang, Laiyan Ding, Zhenglong Sun and Rui Huang(参考訳) 教師なし単眼ビデオからの深度とエゴモーションの教師なし学習は近年注目され、教師付きビデオでは高価な地上真実の使用が避けられている。 ターゲットビューと隣接するソースビューからの合成ビュー間の測光誤差を損失として利用することで、これを実現する。 かなりの進歩にもかかわらず、学習は依然として閉塞とシーンダイナミクスに悩まされている。 本稿では,光度誤差を慎重に操作することで,これらの問題に対処できることを示す。 主な改善は、フォトメトリックエラーマップ内の見えないピクセルまたは非定常ピクセルをマスクして、ネットワークの誤解を防止できる統計的手法によって達成される。 この異常マスキングアプローチにより、カメラと反対方向に移動する物体の深さをより正確に推定することができる。 我々の知る限りでは、このようなシナリオは、自動運転のようなアプリケーションに高いリスクをもたらすにもかかわらず、以前の研究では真剣に検討されていない。 また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。 KITTIデータセットの大規模な実験により,提案手法の有効性が示された。 総合システムは,深度とエゴモーション推定の両方で最先端の性能を達成する。

Unsupervised learning of depth and ego-motion from unlabelled monocular videos has recently drawn great attention, which avoids the use of expensive ground truth in the supervised one. It achieves this by using the photometric errors between the target view and the synthesized views from its adjacent source views as the loss. Despite significant progress, the learning still suffers from occlusion and scene dynamics. This paper shows that carefully manipulating photometric errors can tackle these difficulties better. The primary improvement is achieved by a statistical technique that can mask out the invisible or nonstationary pixels in the photometric error map and thus prevents misleading the networks. With this outlier masking approach, the depth of objects moving in the opposite direction to the camera can be estimated more accurately. To the best of our knowledge, such scenarios have not been seriously considered in the previous works, even though they pose a higher risk in applications like autonomous driving. We also propose an efficient weighted multi-scale scheme to reduce the artifacts in the predicted depth maps. Extensive experiments on the KITTI dataset show the effectiveness of the proposed approaches. The overall system achieves state-of-theart performance on both depth and ego-motion estimation.
翻訳日:2022-12-26 23:19:06 公開日:2020-11-20
# 逆ロジスティクスにおける選択的かつ周期的な在庫ルーティング問題に対する高速かつ効果的なMIPベースヒューリスティック

A fast and effective MIP-based heuristic for a selective and periodic inventory routing problem in reverse logistics ( http://arxiv.org/abs/2004.04188v2 )

ライセンス: Link先を確認
Leopoldo E. C\'ardenas-Barr\'on and Rafael A. Melo(参考訳) 廃棄物収集環境におけるnp-hard selective and periodic inventory routing problem (spirp) を考える。 このSPIRPは、バイオディーゼル会社が生産過程で原料として使用する油の日次要求を満たす逆ロジスティクスの文脈で発生する。 これらの要件は、利用可能な在庫の使用、廃野菜油の収集、または処女油の購入によって満たされる。 この問題は、会社の石油要求と運用上の制約を満たしながら、総収量、在庫および購入コストを最小化するような、石油の回収及び購入の期間(周期的)計画を決定することにある。 MIPベースのヒューリスティックは、ルーティングなしで緩和されたモデルを解き、緩和ソリューションを考慮した経路を構築し、各周期に関連する静電容量化車両ルーティング問題を解くことでこれらの経路を改善する。 このアプローチに従うと、a事後性能保証が保証され、このアプローチは下限と実現可能な解決策の両方を提供する。 計算実験により, MIPに基づくヒューリスティックは, 低ギャップの最適解に数秒で遭遇し, 最先端のヒューリスティックに費やされる時間のほんの一握りの時間を用いて, 最もよく知られた結果のいくつかを改良し, 極めて高速かつ効果的であることが確認された。 注目すべき事実は、提案されたMIPベースのヒューリスティックが、文献で利用可能なすべての大きな事例に対して最もよく知られた結果よりも改善されていることである。

We consider an NP-hard selective and periodic inventory routing problem (SPIRP) in a waste vegetable oil collection environment. This SPIRP arises in the context of reverse logistics where a biodiesel company has daily requirements of oil to be used as raw material in its production process. These requirements can be fulfilled by using the available inventory, collecting waste vegetable oil or purchasing virgin oil. The problem consists in determining a period (cyclic) planning for the collection and purchasing of oil such that the total collection, inventory and purchasing costs are minimized, while meeting the company's oil requirements and all the operational constraints. We propose a MIP-based heuristic which solves a relaxed model without routing, constructs routes taking into account the relaxation's solution and then improves these routes by solving the capacitated vehicle routing problem associated to each period. Following this approach, an a posteriori performance guarantee is ensured, as the approach provides both a lower bound and a feasible solution. The performed computational experiments show that the MIP-based heuristic is very fast and effective as it is able to encounter near optimal solutions with low gaps within seconds, improving several of the best known results using just a fraction of the time spent by a state-of-the-art heuristic. A remarkable fact is that the proposed MIP-based heuristic improves over the best known results for all the large instances available in the literature.
翻訳日:2022-12-15 09:21:13 公開日:2020-11-20
# 深部モデルで学習した特徴表現に対する因果性を考慮した反事実共起調整

Causality-aware counterfactual confounding adjustment for feature representations learned by deep models ( http://arxiv.org/abs/2004.09466v4 )

ライセンス: Link先を確認
Elias Chaibub Neto(参考訳) 因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。 本稿では,最近提案されている線形構造因果モデル解法を用いて,ディープニューラルネットワーク(dnn)モデルによって学習された特徴表現を解き明かす手法について述べる。 重要な洞察は、分類層でsoftmaxアクティベーションを使用して正確なdnnをトレーニングし、出力層の前に最終層によって学習された表現を特徴として採用することで、構築により、学習された機能は(複数クラスの)ロジスティック回帰モデルに適し、ラベルと線形に関連付けられる、ということです。 その結果、単純な線形モデルに基づく分解アプローチを用いて、DNNが学習した特徴表現を分解することができる。 MNISTデータセットのカラーバージョンを用いて提案手法を検証する。 提案手法は,選択バイアスによって生じるデータセットシフトの文脈において,モデル安定性を効果的に解決し,改善できることを示す。

Causal modeling has been recognized as a potential solution to many challenging problems in machine learning (ML). Here, we describe how a recently proposed counterfactual approach developed to deconfound linear structural causal models can still be used to deconfound the feature representations learned by deep neural network (DNN) models. The key insight is that by training an accurate DNN using softmax activation at the classification layer, and then adopting the representation learned by the last layer prior to the output layer as our features, we have that, by construction, the learned features will fit well a (multi-class) logistic regression model, and will be linearly associated with the labels. As a consequence, deconfounding approaches based on simple linear models can be used to deconfound the feature representations learned by DNNs. We validate the proposed methodology using colored versions of the MNIST dataset. Our results illustrate how the approach can effectively combat confounding and improve model stability in the context of dataset shifts generated by selection biases.
翻訳日:2022-12-11 17:53:50 公開日:2020-11-20
# 自然進化戦略と変分モンテカルロ

Natural evolution strategies and variational Monte Carlo ( http://arxiv.org/abs/2005.04447v2 )

ライセンス: Link先を確認
Tianchen Zhao, Giuseppe Carleo, James Stokes, Shravan Veerapaneni(参考訳) 量子自然進化戦略の概念を導入し、古典的なブラックボックス最適化を行うための既知の量子/古典的アルゴリズムを幾何的に合成する。 Gomesらによる最近の作品。 2019] ニューラル量子状態を用いたヒューリスティックコンビネータの最適化について,この文脈で教育的に検討し,自然進化戦略との関連を強調する。 近似組合せ最適化問題に対してアルゴリズムの枠組みを図示し,近似比を改善するための体系的戦略を見出した。 特に自然進化戦略は、計算時間の増加を犠牲にして、Max-Cutの広く使われているヒューリスティックアルゴリズムと競合する近似比を達成することができる。

A notion of quantum natural evolution strategies is introduced, which provides a geometric synthesis of a number of known quantum/classical algorithms for performing classical black-box optimization. Recent work of Gomes et al. [2019] on heuristic combinatorial optimization using neural quantum states is pedagogically reviewed in this context, emphasizing the connection with natural evolution strategies. The algorithmic framework is illustrated for approximate combinatorial optimization problems, and a systematic strategy is found for improving the approximation ratios. In particular it is found that natural evolution strategies can achieve approximation ratios competitive with widely used heuristic algorithms for Max-Cut, at the expense of increased computation time.
翻訳日:2022-12-05 07:15:53 公開日:2020-11-20
# 非自然画像データセットにおける勝利チケットの転送性について

On the Transferability of Winning Tickets in Non-Natural Image Datasets ( http://arxiv.org/abs/2005.05232v2 )

ライセンス: Link先を確認
Matthia Sabatelli, Mike Kestemont, Pierre Geurts(参考訳) 自然画像のデータセット上での抽選券仮説の勝者であるプルーニングニューラルネットワークの一般化特性について検討する。 我々は、トレーニングデータが不足し、非自然領域から生じる状況下でその可能性を解析する。 具体的には,流行のcifar-10/100やファッション・マンニストデータセットに見られる散布されたモデルが,デジタル病理学やデジタル遺産の分野の7つの異なるデータセットに一般化されるかどうかについて検討する。 私たちの実験では、抽選チケット仮説の勝者であるprunedネットワークが、より大きな非prunedモデルを大きく上回っているため、大きなパラメータモデル上でスパースアーキテクチャを転送およびトレーニングする上で大きなメリットがあります。 これらの結果は, 勝利初期化にはある程度汎用的な帰納的バイアスが存在することを示唆しているが, 生物医学的データセットに関する実験で報告されたように, それらの一般化特性は文献でこれまでに観測されたものよりも限定的である。

We study the generalization properties of pruned neural networks that are the winners of the lottery ticket hypothesis on datasets of natural images. We analyse their potential under conditions in which training data is scarce and comes from a non-natural domain. Specifically, we investigate whether pruned models that are found on the popular CIFAR-10/100 and Fashion-MNIST datasets, generalize to seven different datasets that come from the fields of digital pathology and digital heritage. Our results show that there are significant benefits in transferring and training sparse architectures over larger parametrized models, since in all of our experiments pruned networks, winners of the lottery ticket hypothesis, significantly outperform their larger unpruned counterparts. These results suggest that winning initializations do contain inductive biases that are generic to some extent, although, as reported by our experiments on the biomedical datasets, their generalization properties can be more limiting than what has been so far observed in the literature.
翻訳日:2022-12-04 20:28:13 公開日:2020-11-20
# Kernel Analog Forecasting: マルチスケールテスト問題

Kernel Analog Forecasting: Multiscale Test Problems ( http://arxiv.org/abs/2005.06623v2 )

ライセンス: Link先を確認
Dmitry Burov, Dimitrios Giannakis, Krithika Manohar, Andrew Stuart(参考訳) データ駆動予測は、利用可能なデータの量が増加し、アルゴリズム開発がこの成長に一致するにつれて、ますます広まりつつある。 予測の性質とそれらが解釈されるべき方法は、予測のために選択された変数がマルコフ的であるか、あるいはほぼマルコフ的であるかによって決定的に左右される。 マルチスケールシステムはこの問題を分析するためのフレームワークを提供する。 本研究では,マルチスケール力学系が生成するデータの観点から,カーネルアナログ予測手法について検討する。 選択された問題は平均化とホモゲン化の両方を用いて様々な異なるマルコフ閉包を示し、さらに、スケール分離が存在せず、予測変数がマルコフでない設定も考慮される。 本研究は,データ駆動予測手法を実際に使用する場合の解釈のガイダンスを提供する。

Data-driven prediction is becoming increasingly widespread as the volume of data available grows and as algorithmic development matches this growth. The nature of the predictions made, and the manner in which they should be interpreted, depends crucially on the extent to which the variables chosen for prediction are Markovian, or approximately Markovian. Multiscale systems provide a framework in which this issue can be analyzed. In this work kernel analog forecasting methods are studied from the perspective of data generated by multiscale dynamical systems. The problems chosen exhibit a variety of different Markovian closures, using both averaging and homogenization; furthermore, settings where scale-separation is not present and the predicted variables are non-Markovian, are also considered. The studies provide guidance for the interpretation of data-driven prediction methods when used in practice.
翻訳日:2022-12-03 13:43:17 公開日:2020-11-20
# 視覚トランスフォーマー:コンピュータビジョンのためのトークンベースの画像表現と処理

Visual Transformers: Token-based Image Representation and Processing for Computer Vision ( http://arxiv.org/abs/2006.03677v4 )

ライセンス: Link先を確認
Bichen Wu, Chenfeng Xu, Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Zhicheng Yan, Masayoshi Tomizuka, Joseph Gonzalez, Kurt Keutzer, Peter Vajda(参考訳) コンピュータビジョンは驚くべき成功を収めた (a)一様に配置された画素配列と画像を表す (b)高度に局所化された特徴を伴う。 しかし、畳み込みは、重要性に関係なくすべての画像ピクセルを平等に扱い、コンテンツに関係なくすべてのイメージを明示的にモデル化し、空間的に異なる概念を関連付けるのに苦労する。 本研究では,このパラダイムに挑戦する。 (a)イメージを意味的視覚的トークンとして表現し、 b) トークン関係を密にモデル化するためにトランスフォーマーを実行する。 重要な点として、私たちのVisual Transformerはセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に順応する。 これは、高次計算を必要とするピクセル空間変換器とは対照的である。 高度なトレーニングレシピを使用することで、私たちのVTは畳み込みよりも大幅に優れ、ImageNet top-1上のResNetの精度は4.6から7ポイント向上し、FLOPやパラメータは少なくなった。 LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成する。

Computer vision has achieved remarkable success by (a) representing images as uniformly-arranged pixel arrays and (b) convolving highly-localized features. However, convolutions treat all image pixels equally regardless of importance; explicitly model all concepts across all images, regardless of content; and struggle to relate spatially-distant concepts. In this work, we challenge this paradigm by (a) representing images as semantic visual tokens and (b) running transformers to densely model token relationships. Critically, our Visual Transformer operates in a semantic token space, judiciously attending to different image parts based on context. This is in sharp contrast to pixel-space transformers that require orders-of-magnitude more compute. Using an advanced training recipe, our VTs significantly outperform their convolutional counterparts, raising ResNet accuracy on ImageNet top-1 by 4.6 to 7 points while using fewer FLOPs and parameters. For semantic segmentation on LIP and COCO-stuff, VT-based feature pyramid networks (FPN) achieve 0.35 points higher mIoU while reducing the FPN module's FLOPs by 6.5x.
翻訳日:2022-11-25 03:43:17 公開日:2020-11-20
# 課外学習: 経験的分布を超えた知識伝達

Extracurricular Learning: Knowledge Transfer Beyond Empirical Distribution ( http://arxiv.org/abs/2007.00051v2 )

ライセンス: Link先を確認
Hadi Pouransari, Mojan Javaheripi, Vinay Sharma, Oncel Tuzel(参考訳) 知識蒸留は、洗練されたモデル(教師)によって学んだ知識をより単純なモデル(学生)に移すために使われてきた。 この手法はモデル複雑性の圧縮に広く用いられている。 しかし、ほとんどの応用において、圧縮された学生モデルは教師との精度の差に苦しむ。 本研究では,(1)学生と教師の出力分布をモデル化することで,このギャップを埋める新しい知識蒸留法であるエクセルラーニングを提案し,(2)データ分布への近似からのサンプルサンプル,(3)不確実なサンプルを含むこの拡張セット上の生徒と教師の出力分布をマッチングする。 回帰・分類タスクについて厳密な評価を行い, 標準知識蒸留に比べて, 課外学習はギャップを46%から68%削減することを示した。 これは、MPIIGazeデータセットにおける16%の回帰エラー削減、CIFAR100データセットにおけるトップ1分類精度の+3.4%から+9.1%の改善、ImageNetデータセットにおける+2.9%のトップ1改善などである。

Knowledge distillation has been used to transfer knowledge learned by a sophisticated model (teacher) to a simpler model (student). This technique is widely used to compress model complexity. However, in most applications the compressed student model suffers from an accuracy gap with its teacher. We propose extracurricular learning, a novel knowledge distillation method, that bridges this gap by (1) modeling student and teacher output distributions; (2) sampling examples from an approximation to the underlying data distribution; and (3) matching student and teacher output distributions over this extended set including uncertain samples. We conduct rigorous evaluations on regression and classification tasks and show that compared to the standard knowledge distillation, extracurricular learning reduces the gap by 46% to 68%. This leads to major accuracy improvements compared to the empirical risk minimization-based training for various recent neural network architectures: 16% regression error reduction on the MPIIGaze dataset, +3.4% to +9.1% improvement in top-1 classification accuracy on the CIFAR100 dataset, and +2.9% top-1 improvement on the ImageNet dataset.
翻訳日:2022-11-15 04:52:52 公開日:2020-11-20
# 畳み込み神経プロセスを用いたメタラーニング定常確率過程予測

Meta-Learning Stationary Stochastic Process Prediction with Convolutional Neural Processes ( http://arxiv.org/abs/2007.01332v2 )

ライセンス: Link先を確認
Andrew Y. K. Foong, Wessel P. Bruinsma, Jonathan Gordon, Yann Dubois, James Requeima, Richard E. Turner(参考訳) 定常確率過程(SP)は、オフザグリッド時空間データなど、多くの確率モデルの主要な構成要素である。 これにより、基礎となる物理現象の統計的対称性を活用でき、一般化を助長できる。 このようなモデルの予測は、観測されたデータセットから予測SPへの変換同変写像と見なすことができ、定常性と等価性の間の親密な関係を強調する。 そこで我々は,畳み込み型ニューラルネットワーク(ConvNP, Convolutional Neural Process, ConvNP, Convolutional Neural Process)を提案する。 後者では、トンプソンサンプリングや条件付き画像補完など、コヒーレントなサンプルを必要とする設定でconvnpをデプロイすることができる。 さらに,このフレームワークを概念的に単純化し,性能を実証的に改善する,標準のELBOをNPで置き換える,新たな最大形目的を提案する。 実世界の時空間データを用いた1次元回帰、画像補完、各種タスクにおけるConvNPの性能と一般化能力を示す。

Stationary stochastic processes (SPs) are a key component of many probabilistic models, such as those for off-the-grid spatio-temporal data. They enable the statistical symmetry of underlying physical phenomena to be leveraged, thereby aiding generalization. Prediction in such models can be viewed as a translation equivariant map from observed data sets to predictive SPs, emphasizing the intimate relationship between stationarity and equivariance. Building on this, we propose the Convolutional Neural Process (ConvNP), which endows Neural Processes (NPs) with translation equivariance and extends convolutional conditional NPs to allow for dependencies in the predictive distribution. The latter enables ConvNPs to be deployed in settings which require coherent samples, such as Thompson sampling or conditional image completion. Moreover, we propose a new maximum-likelihood objective to replace the standard ELBO objective in NPs, which conceptually simplifies the framework and empirically improves performance. We demonstrate the strong performance and generalization capabilities of ConvNPs on 1D regression, image completion, and various tasks with real-world spatio-temporal data.
翻訳日:2022-11-14 13:24:10 公開日:2020-11-20
# 最初のステップ:四足歩行のための意味制約付き潜時空間制御

First Steps: Latent-Space Control with Semantic Constraints for Quadruped Locomotion ( http://arxiv.org/abs/2007.01520v2 )

ライセンス: Link先を確認
Alexander L. Mitchell, Martin Engelcke, Oiwi Parker Jones, David Surovik, Siddhant Gangapurwala, Oliwier Melon, Ioannis Havoutis, and Ingmar Posner(参考訳) 四足制御への伝統的なアプローチは、しばしば単純化された手から派生したモデルを用いる。 これにより、効果的な運動範囲が縮小されるため、ロボットの能力は大幅に低下する。 さらに、キノダイナミック制約はしばしば微分不可能であり、最適化アプローチでは実装が困難である。 この研究において、これらの課題は構造化潜在空間における最適化として四足制御をフレーミングすることで解決される。 ディープジェネレーティブモデルは実現可能なジョイント構成の統計的表現をキャプチャし、複雑な動的および終端の制約は高レベルで意味的な指標を介して表現され、潜在空間で動作する学習された分類器によって表現される。 その結果、複雑な制約は微分可能となり、分析的アプローチよりも桁違いに高速に評価される。 シミュレーションと実世界のANYmal四重奏の両方で最適化された移動軌道の実現可能性を検証する。 その結果、この手法は滑らかで実現可能な軌跡を生成できることがわかった。 私たちの知る限りでは、複雑な現実のロボットプラットフォームに潜伏した空間制御がうまく適用されたのはこれが初めてです。

Traditional approaches to quadruped control frequently employ simplified, hand-derived models. This significantly reduces the capability of the robot since its effective kinematic range is curtailed. In addition, kinodynamic constraints are often non-differentiable and difficult to implement in an optimisation approach. In this work, these challenges are addressed by framing quadruped control as optimisation in a structured latent space. A deep generative model captures a statistical representation of feasible joint configurations, whilst complex dynamic and terminal constraints are expressed via high-level, semantic indicators and represented by learned classifiers operating upon the latent space. As a consequence, complex constraints are rendered differentiable and evaluated an order of magnitude faster than analytical approaches. We validate the feasibility of locomotion trajectories optimised using our approach both in simulation and on a real-world ANYmal quadruped. Our results demonstrate that this approach is capable of generating smooth and realisable trajectories. To the best of our knowledge, this is the first time latent space control has been successfully applied to a complex, real robot platform.
翻訳日:2022-11-14 06:14:14 公開日:2020-11-20
# 振動に基づく品質モニタリングのためのアンサンブル分類器

An ensemble classifier for vibration-based quality monitoring ( http://arxiv.org/abs/2007.08789v2 )

ライセンス: Link先を確認
Vahid Yaghoubi, Liangliang Cheng, Wim Van Paepegem, Mathias Kersemans(参考訳) 製造部品の振動に基づく品質モニタリングは、しばしばパターン認識方式を用いる。 いくつかの分類法が開発されているが、通常、特定の種類のデータセットに対して高い精度を提供するが、一般的な場合ではない。 本稿では, 証拠のデンプスター・シェーファー理論に基づく新しいアンサンブル分類器の開発によって, この問題に対処してきた。 矛盾する証拠に対処するため、組み合わせ前に3つの治療法が提案されている。 (i)予測出力と目標出力の関連性を評価した適切な分類器の選択 二 予測出力と目標出力との間の距離を最小化する最適化方法の考案 (iii)新しいものを含む5つの異なる重み付け因子を利用して核融合性能を向上させること。 提案フレームワークの有効性は、15UCIおよびKEEL機械学習データセットに適用することで検証される。 次に, イヌ骨シリンダーの有限要素モデルから生成された1つの合成データセットと, 多結晶ニッケル合金第一段タービンブレードのブロードバンド振動応答を収集した1つの実実験データセットとを用いて, 欠陥試料を検出する。 この調査は、ノイズ-信号比の異なるレベルが存在する場合の統計的解析によって行われる。 この結果と4つの最先端核融合技術との比較により,提案手法の有効性が示された。

Vibration-based quality monitoring of manufactured components often employs pattern recognition methods. Albeit developing several classification methods, they usually provide high accuracy for specific types of datasets, but not for general cases. In this paper, this issue has been addressed by developing a novel ensemble classifier based on the Dempster-Shafer theory of evidence. To deal with conflicting evidences, three remedies are proposed prior to combination: (i) selection of proper classifiers by evaluating the relevancy between the predicted and target outputs, (ii) devising an optimization method to minimize the distance between the predicted and target outputs, (iii) utilizing five different weighting factors, including a new one, to enhance the fusion performance. The effectiveness of the proposed framework is validated by its application to 15 UCI and KEEL machine learning datasets. It is then applied to two vibration-based datasets to detect defected samples: one synthetic dataset generated from the finite element model of a dogbone cylinder, and one real experimental dataset generated by collecting broadband vibrational response of polycrystalline Nickel alloy first-stage turbine blades. The investigation is made through statistical analysis in presence of different levels of noise-to-signal ratio. Comparing the results with those of four state-of-the-art fusion techniques reveals the good performance of the proposed ensemble method.
翻訳日:2022-11-09 12:55:20 公開日:2020-11-20
# Manifold moving Least Squares による点雲からのリーマン計量の近似

Approximating the Riemannian Metric from Point Clouds via Manifold Moving Least Squares ( http://arxiv.org/abs/2007.09885v2 )

ライセンス: Link先を確認
Barak Sober, Robert Ravier, Ingrid Daubechies(参考訳) ユークリッド空間の埋め込み部分多様体$\mathcal{M}$からサンプリングされた点雲上の測地線距離と最短経路の近似は、計算幾何学における長年の課題である。 サンプリング解像度パラメータが $h $ であれば、最先端の離散メソッドは$ O(h) $ provable approximations をもたらす。 本論文では,2019年にSober \& Levin によって開発された所定の点雲からの情報を用いて,多様体 $\mathcal{M}^h$ を近似する手法である Manifold moving Least-Squares (Manifold-MLS) による近似の収束について検討する。 この論文では、$\mathcal{M}\in C^{k}$ と閉(つまり、$\mathcal{M}$ は境界のないコンパクト多様体)のリーマン計量 $ \mathcal{M}^h$ がリーマン計量 $ \mathcal{M}, $ を近似することを示した。 p_1, p_2 \in \mathcal{M}$ と測地距離 $ \rho_{\mathcal{M}}(p_1, p_2)$ とすると、対応する点 $ p_1^h, p_2^h \in \mathcal{M}^h$ が測地距離 $ \rho_{\mathcal{M}^h}(p_1^h,p_2^h) = \rho_{\mathcal{M}}(p_1, p_2)(1 + O(h^{k-1}) $ (つまり、Manifold-MLS は概等距離である)。 次に、この結果と$ \mathcal{m}^h $ を任意の所望の解像度でサンプリングできるという事実を使い、収束率 $ o(h^{k-1}) $ で測地距離を近似するナイーブアルゴリズムを考案する。 いくつかの数値シミュレーションにおいて,提案手法の雑音に対するポテンシャルと頑健性を示す。

The approximation of both geodesic distances and shortest paths on point cloud sampled from an embedded submanifold $\mathcal{M}$ of Euclidean space has been a long-standing challenge in computational geometry. Given a sampling resolution parameter $ h $, state-of-the-art discrete methods yield $ O(h) $ provable approximations. In this paper, we investigate the convergence of such approximations made by Manifold Moving Least-Squares (Manifold-MLS), a method that constructs an approximating manifold $\mathcal{M}^h$ using information from a given point cloud that was developed by Sober \& Levin in 2019. In this paper, we show that provided that $\mathcal{M}\in C^{k}$ and closed (i.e. $\mathcal{M}$ is a compact manifold without boundary) the Riemannian metric of $ \mathcal{M}^h $ approximates the Riemannian metric of $ \mathcal{M}, $. Explicitly, given points $ p_1, p_2 \in \mathcal{M}$ with geodesic distance $ \rho_{\mathcal{M}}(p_1, p_2) $, we show that their corresponding points $ p_1^h, p_2^h \in \mathcal{M}^h$ have a geodesic distance of $ \rho_{\mathcal{M}^h}(p_1^h,p_2^h) = \rho_{\mathcal{M}}(p_1, p_2)(1 + O(h^{k-1})) $ (i.e., the Manifold-MLS is nearly an isometry). We then use this result, as well as the fact that $ \mathcal{M}^h $ can be sampled with any desired resolution, to devise a naive algorithm that yields approximate geodesic distances with a rate of convergence $ O(h^{k-1}) $. We show the potential and the robustness to noise of the proposed method on some numerical simulations.
翻訳日:2022-11-08 14:53:20 公開日:2020-11-20
# Kronecker製品表現による多線形共通成分分析

Multilinear Common Component Analysis via Kronecker Product Representation ( http://arxiv.org/abs/2009.02695v2 )

ライセンス: Link先を確認
Kohei Yoshikawa, Shuichi Kawano(参考訳) 複数のテンソルデータセットから共通構造を抽出する問題を考察する。 本研究では,モード分割共分散行列のクロネッカー積に基づく多重線形共通成分分析(mcca)を提案する。 MCCAは、複数のテンソルデータセットのほとんど情報を失う元の変数の線形結合で表される共通基盤を構築する。 また,モードワイドのグローバル収束を保証するMCCAの推定アルゴリズムを開発した。 mcca の有効性を示す数値的研究を行った。

We consider the problem of extracting a common structure from multiple tensor datasets. For this purpose, we propose multilinear common component analysis (MCCA) based on Kronecker products of mode-wise covariance matrices. MCCA constructs a common basis represented by linear combinations of the original variables which loses as little information of the multiple tensor datasets. We also develop an estimation algorithm for MCCA that guarantees mode-wise global convergence. Numerical studies are conducted to show the effectiveness of MCCA.
翻訳日:2022-10-21 08:12:06 公開日:2020-11-20
# リカレントネットワークを用いた地球磁気活動の同時予測

Simultaneously forecasting global geomagnetic activity using Recurrent Networks ( http://arxiv.org/abs/2010.06487v2 )

ライセンス: Link先を確認
Charles Topliff, Morris Cohen, William Bristow(参考訳) 社会で使用される多くのシステムは、太陽フレアや地磁気嵐のような宇宙の天気に非常に脆弱であり、破滅的な被害を引き起こす可能性がある。 近年,このような事象をプロキシを通じて予測することで早期に警告する研究が数多く出回っているが,これらのアプローチは特定の現象に主に焦点を絞っている。 本研究では,地球規模の気象条件を時間分解能で予測する問題に対するシーケンス・ツー・シーケンス学習手法を提案する。 このアプローチは、この分野での他の作業を改善するため、いくつかの重要なプロキシを同時に6時間前まで予測する。 我々は,現在最もよく知られている地磁気嵐の予測器に対する改善と,数時間前の持続性基準に対する改善を実証する。

Many systems used by society are extremely vulnerable to space weather events such as solar flares and geomagnetic storms which could potentially cause catastrophic damage. In recent years, many works have emerged to provide early warning to such systems by forecasting these events through some proxy, but these approaches have largely focused on a specific phenomenon. We present a sequence-to-sequence learning approach to the problem of forecasting global space weather conditions at an hourly resolution. This approach improves upon other work in this field by simultaneously forecasting several key proxies for geomagnetic activity up to 6 hours in advance. We demonstrate an improvement over the best currently known predictor of geomagnetic storms, and an improvement over a persistence baseline several hours in advance.
翻訳日:2022-10-08 00:24:38 公開日:2020-11-20
# 表現学習のための自己教師付きランキング

Self-Supervised Ranking for Representation Learning ( http://arxiv.org/abs/2010.07258v2 )

ライセンス: Link先を確認
Ali Varamesh, Ali Diba, Tinne Tuytelaars, Luc Van Gool(参考訳) 本稿では,画像から得られる多数のランダムビュー(拡張)に基づいて,画像検索コンテキストにおけるランキング問題として定式化することで,自己指導型表現学習のための新しいフレームワークを提案する。 まず、画像の良質な表現は、検索タスクにおいて高品質な画像ランキングを得る必要があり、次に、画像のランダムなビューは他の画像のランダムなビューよりも、その画像の参照ビューに近い位置にランク付けされることを期待する。 したがって、画像検索におけるランク付け問題の学習として表現学習をモデル化する。 平均精度 (ap) を最大化することで表現エンコーダを訓練し, 画像のランダムなビューが正の相関をみせ, その他の画像は負の相関をみせている。 S2R2と呼ばれる新しいフレームワークは、一対のビューで計算される一般的なコントラスト学習フレームワークのローカルな目的と比較して、複数のビューでグローバルな目的を計算できる。 原則として、ランキング基準を使用することで、オブジェクト中心のキュレートされたデータセットへの依存をなくす。 STL10とMS-COCOでトレーニングすると、S2R2はSimCLRとクラスタリングベースのコントラスト学習モデルSwAVより優れ、概念的にも実装的にもはるかにシンプルである。 MS-COCOでは、S2R2はSwAVとSimCLRをSTl10よりも大きなマージンで上回る。 これは、S2R2が多様なシーンでより効果的であることを示し、自己教師付き表現学習のためのオブジェクト中心の大規模なトレーニングデータセットの必要性を排除している。

We present a new framework for self-supervised representation learning by formulating it as a ranking problem in an image retrieval context on a large number of random views (augmentations) obtained from images. Our work is based on two intuitions: first, a good representation of images must yield a high-quality image ranking in a retrieval task; second, we would expect random views of an image to be ranked closer to a reference view of that image than random views of other images. Hence, we model representation learning as a learning to rank problem for image retrieval. We train a representation encoder by maximizing average precision (AP) for ranking, where random views of an image are considered positively related, and that of the other images considered negatives. The new framework, dubbed S2R2, enables computing a global objective on multiple views, compared to the local objective in the popular contrastive learning framework, which is calculated on pairs of views. In principle, by using a ranking criterion, we eliminate reliance on object-centric curated datasets. When trained on STL10 and MS-COCO, S2R2 outperforms SimCLR and the clustering-based contrastive learning model, SwAV, while being much simpler both conceptually and at implementation. On MS-COCO, S2R2 outperforms both SwAV and SimCLR with a larger margin than on STl10. This indicates that S2R2 is more effective on diverse scenes and could eliminate the need for an object-centric large training dataset for self-supervised representation learning.
翻訳日:2022-10-07 13:46:12 公開日:2020-11-20
# 文脈線形帯域に対する漸近的最適2次元インクリメンタルアルゴリズム

An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits ( http://arxiv.org/abs/2010.12247v2 )

ライセンス: Link先を確認
Andrea Tirinzoni, Matteo Pirotta, Marcello Restelli, Alessandro Lazaric(参考訳) 文脈線形バンディット設定では、オプティミズム原理に基づくアルゴリズムは問題の構造をうまく利用できず、漸近的に非最適であることが示されている。 本稿では,問題依存的後悔下限から漸近的最適アルゴリズムを導出する最近のアプローチを追従し,多次元に沿う最先端技術を改良した新しいアルゴリズムを提案する。 我々は、文脈分布と探索ポリシーを分離した下界の再構成に基づいて構築し、不均衡な文脈分布に頑健なアルゴリズムを得る。 そこで,下界のラグランジュ緩和を解くために,漸進的原始双対法を用いて,スケーラブルで計算効率の良いアルゴリズムを得る。 最後に,探索を強制的に取り除き,最適化問題の信頼区間を構築し,問題構造に適応した最小レベルの探索を促す。 本アルゴリズムの漸近的最適性を示すとともに,問題依存型および最悪の有限時間後悔保証を提供する。 我々の境界は、アームの数の対数と共にスケールし、従ってすべての関連する先行研究に共通する線形依存を避ける。 特に、非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。 最後に,本アルゴリズムが最先端のベースラインよりも優れた経験的性能が得られることを検証した。

In the contextual linear bandit setting, algorithms built on the optimism principle fail to exploit the structure of the problem and have been shown to be asymptotically suboptimal. In this paper, we follow recent approaches of deriving asymptotically optimal algorithms from problem-dependent regret lower bounds and we introduce a novel algorithm improving over the state-of-the-art along multiple dimensions. We build on a reformulation of the lower bound, where context distribution and exploration policy are decoupled, and we obtain an algorithm robust to unbalanced context distributions. Then, using an incremental primal-dual approach to solve the Lagrangian relaxation of the lower bound, we obtain a scalable and computationally efficient algorithm. Finally, we remove forced exploration and build on confidence intervals of the optimization problem to encourage a minimum level of exploration that is better adapted to the problem structure. We demonstrate the asymptotic optimality of our algorithm, while providing both problem-dependent and worst-case finite-time regret guarantees. Our bounds scale with the logarithm of the number of arms, thus avoiding the linear dependence common in all related prior works. Notably, we establish minimax optimality for any learning horizon in the special case of non-contextual linear bandits. Finally, we verify that our algorithm obtains better empirical performance than state-of-the-art baselines.
翻訳日:2022-10-03 21:50:31 公開日:2020-11-20
# Convai3チャレンジにおけるNTES_ALONGからの質問選択システム

A Clarifying Question Selection System from NTES_ALONG in Convai3 Challenge ( http://arxiv.org/abs/2010.14202v3 )

ライセンス: Link先を確認
Wenjie Ou, Yue Lin(参考訳) 本稿では,検索指向会話型AI (SCAI) EMNLPワークショップにおけるClariQチャレンジへのNetEase Game AI Labチームの参加について述べる。 この課題は、明確化問題を理解し、生成できる完全な会話情報検索システムを求めるものである。 本稿では,回答理解,質問のリコール,質問ランキングの明確化からなる質問選択システムを提案する。 ユーザの応答を理解するためにRoBERTaモデルを微調整し、BM25モデルを拡張して候補質問をリコールする。 質問ランキングの段階では、トレーニングデータセットを再構築し、ELECTRAに基づく2つのモデルを提案する。 最後に、出力確率を合計してモデルをアンサンブルし、最も高い確率で解を明確化問題として選択する。 実験の結果,我々のアンサンブルランキングモデルは文書関連タスクにおいて優れており,質問関連タスクにおいて最高のリコール@[20,30]メトリクスを達成することがわかった。 そして,ステージ2におけるマルチターン会話評価において,本システムはすべての文書関連指標のトップスコアを達成する。

This paper presents the participation of NetEase Game AI Lab team for the ClariQ challenge at Search-oriented Conversational AI (SCAI) EMNLP workshop in 2020. The challenge asks for a complete conversational information retrieval system that can understanding and generating clarification questions. We propose a clarifying question selection system which consists of response understanding, candidate question recalling and clarifying question ranking. We fine-tune a RoBERTa model to understand user's responses and use an enhanced BM25 model to recall the candidate questions. In clarifying question ranking stage, we reconstruct the training dataset and propose two models based on ELECTRA. Finally we ensemble the models by summing up their output probabilities and choose the question with the highest probability as the clarification question. Experiments show that our ensemble ranking model outperforms in the document relevance task and achieves the best recall@[20,30] metrics in question relevance task. And in multi-turn conversation evaluation in stage2, our system achieve the top score of all document relevance metrics.
翻訳日:2022-10-02 12:05:53 公開日:2020-11-20
# latent space oddity:ギターの音色設計のための潜在空間の探索

Latent Space Oddity: Exploring Latent Spaces to Design Guitar Timbres ( http://arxiv.org/abs/2010.15989v2 )

ライセンス: Link先を確認
Jason Taylor(参考訳) ギターアンプをモデル化するための解釈可能な潜在空間を持つ新しい畳み込みネットワークアーキテクチャを提案する。 様々なスタイルにまたがる一般的なアンプのドメイン知識を活用して、提案されたシステムは異なるアンプの特性を直感的に結合または減算し、ミュージシャンが全く新しいギター音色を設計することができる。

We introduce a novel convolutional network architecture with an interpretable latent space for modeling guitar amplifiers. Leveraging domain knowledge of popular amplifiers spanning a range of styles, the proposed system intuitively combines or subtracts characteristics of different amplifiers, allowing musicians to design entirely new guitar timbres.
翻訳日:2022-10-02 00:10:28 公開日:2020-11-20
# 熱力学的変動物体のガウス過程帯域最適化

Gaussian Process Bandit Optimization of the Thermodynamic Variational Objective ( http://arxiv.org/abs/2010.15750v3 )

ライセンス: Link先を確認
Vu Nguyen, Vaden Masrani, Rob Brekelmans, Michael A. Osborne, Frank Wood(参考訳) 最近提案された1次元リーマン積分近似を含むログ証拠の変分下界である熱力学変分対象(TVO)の完全公約を達成するには、ソートされた離散化点の「スケジュール」を選択する必要がある。 本稿では,これらの点を自動選択するガウス過程帯域最適化手法を提案する。 このアプローチは1回選択を自動化するだけでなく、最適化の過程で動的に位置を適応させ、モデル学習と推論を改善します。 我々は,帯域最適化が積分点の最小化選択に収束するという理論的保証を提供する。 このアルゴリズムの実証的検証は、変分オートエンコーダとsgmoid belief networkにおける学習と推論の改善の観点から提供される。

Achieving the full promise of the Thermodynamic Variational Objective (TVO), a recently proposed variational lower bound on the log evidence involving a one-dimensional Riemann integral approximation, requires choosing a "schedule" of sorted discretization points. This paper introduces a bespoke Gaussian process bandit optimization method for automatically choosing these points. Our approach not only automates their one-time selection, but also dynamically adapts their positions over the course of optimization, leading to improved model learning and inference. We provide theoretical guarantees that our bandit optimization converges to the regret-minimizing choice of integration points. Empirical validation of our algorithm is provided in terms of improved learning and inference in Variational Autoencoders and Sigmoid Belief Networks.
翻訳日:2022-10-01 23:29:59 公開日:2020-11-20
# HypperSteer:ディープラーニングを用いたシーケンス予測における仮説的ステアリングとデータ摂動

HypperSteer: Hypothetical Steering and Data Perturbation in Sequence Prediction with Deep Learning ( http://arxiv.org/abs/2011.02149v2 )

ライセンス: Link先を確認
Chuan Wang and Kwan-Liu Ma(参考訳) ディープリカレントニューラルネットワーク(RNN)は、時間的イベントシーケンスによる予測的意思決定に成功し続けている。 近年の研究では、実世界の応用のためのディープラーニングモデルを解釈する上で、視覚分析の重要性と実用性を示している。 しかし、非常に限られた作業によってディープラーニングモデルとのインタラクションが可能になり、特にシーケンス予測のために、実践者が望ましい予測結果に向けて仮説を形成することができる。 具体的には、シーケンス結果予測の異なる時間ステップに沿って、何の分析と値摂動に対処する既存の研究は存在しない。 そこで我々は,モデルに依存しないビジュアル分析ツールであるhyppersteerを提案する。 我々は、HypperSteerが患者データをステアリングして望ましい治療結果を得るのにどのように役立つかを示し、HypperSteerが他の実践シナリオの包括的ソリューションとして機能するかについて議論する。

Deep Recurrent Neural Networks (RNN) continues to find success in predictive decision-making with temporal event sequences. Recent studies have shown the importance and practicality of visual analytics in interpreting deep learning models for real-world applications. However, very limited work enables interactions with deep learning models and guides practitioners to form hypotheticals towards the desired prediction outcomes, especially for sequence prediction. Specifically, no existing work has addressed the what-if analysis and value perturbation along different time-steps for sequence outcome prediction. We present a model-agnostic visual analytics tool, HypperSteer, that steers hypothetical testing and allows users to perturb data for sequence predictions interactively. We showcase how HypperSteer helps in steering patient data to achieve desired treatment outcomes and discuss how HypperSteer can serve as a comprehensive solution for other practical scenarios.
翻訳日:2022-09-29 21:48:38 公開日:2020-11-20
# 機械学習と大規模データによる亡命関連マイグレーションフローの予測

Forecasting asylum-related migration flows with machine learning and data at scale ( http://arxiv.org/abs/2011.04348v3 )

ライセンス: Link先を確認
Marcello Carammia, Stefano Maria Iacus, Teddy Wilkin(参考訳) 2015-16年のいわゆる「難民危機」の影響は、欧州の政治政策を支配し続けている。 移行フローは突然で予期せぬものとなり、政府は準備ができなくなり、移行予測の分野において重大な欠点を露呈した。 移行はエピソードの変化によって特徴づけられる複雑なシステムであり、相互作用し、文脈に依存し、短命である因果因子によって支えられている。 移行監視は散在するデータに依存する一方で、特定の移行フローに注目して予測するアプローチでは、地域やグローバルレベルでの一般化が難しい一貫性のない結果がしばしば発生する。 ここでは,公式統計と非伝統的なデータソースを大規模に統合した適応型機械学習アルゴリズムが,亡命関連マイグレーションフローを効果的に予測できることを示す。 我々は、欧州連合(eu)加盟国に所在する世界各国の亡命申請に焦点をあて、適切な移行や亡命データが利用可能であれば、あらゆる状況において同じアプローチを適用することができる。 我々は3つの階層(起源国における位置情報イベントとインターネット検索、eu国境における不規則な交差点の検出、目的地国でのアジラム認識率)を活用し、高精度で4週間以内の個々のアジラム移民の流れを効果的に予測する。 私たちのアプローチは a) 原産地諸国における移住の潜在的な要因を監視して,早期に変化を検出すること b) 個別の国間移動フロー及び移動時間窓のモデル c) 標識効果を含む個々のドライバの効果を推定すること。 d) 亡命申請の予測を最大4週間先まで提供すること。 e) ドライバのパターンが時間の経過とともに移行システムの機能や変更を記述する方法を評価する。

The effects of the so-called "refugee crisis" of 2015-16 continue to dominate the political agenda in Europe. Migration flows were sudden and unexpected, leaving governments unprepared and exposing significant shortcomings in the field of migration forecasting. Migration is a complex system typified by episodic variation, underpinned by causal factors that are interacting, highly context dependent and short-lived. Correspondingly, migration monitoring relies on scattered data, while approaches to forecasting focus on specific migration flows and often have inconsistent results that are difficult to generalise at the regional or global levels. Here we show that adaptive machine learning algorithms that integrate official statistics and non-traditional data sources at scale can effectively forecast asylum-related migration flows. We focus on asylum applications lodged in countries of the European Union (EU) by nationals of all countries of origin worldwide; the same approach can be applied in any context provided adequate migration or asylum data are available. We exploit three tiers of data - geolocated events and internet searches in countries of origin, detections of irregular crossings at the EU border, and asylum recognition rates in countries of destination - to effectively forecast individual asylum-migration flows up to four weeks ahead with high accuracy. Uniquely, our approach a) monitors potential drivers of migration in countries of origin to detect changes early onset; b) models individual country-to-country migration flows separately and on moving time windows; c) estimates the effects of individual drivers, including lagged effects; d) provides forecasts of asylum applications up to four weeks ahead; e) assesses how patterns of drivers shift over time to describe the functioning and change of migration systems.
翻訳日:2022-09-28 02:22:19 公開日:2020-11-20
# 深部強化学習を用いたマルチロボットナビゲーションのための分散動作計画

Decentralized Motion Planning for Multi-Robot Navigation using Deep Reinforcement Learning ( http://arxiv.org/abs/2011.05605v2 )

ライセンス: Link先を確認
Sivanathan Kandhasamy, Vinayagam Babu Kuppusamy, Tanmay Vilas Samak, Chinmay Vilas Samak(参考訳) 本稿では,深層強化学習を用いたマルチロボットナビゲーションの課題に対処する分散型モーションプランニングフレームワークを提案する。 限られた状態情報を3つの異なる環境で共有する4つの非ホロノミックロボットのナビゲーション問題を実験的に検討するために,カスタムシミュレータを開発した。 共通かつ共有的な政策学習による分散型動作計画の概念が採用され、エージェントが相互独立で非同期動作の挙動を示したため、確率的環境下でのこのアプローチの堅牢なトレーニングとテストが可能となった。 このタスクは、エージェントにスパースな観測空間を提供し、他の動的ピアや静的障害物との衝突を常に回避しながら、効率的にかつ安全にそれぞれの目標地点に移動するために、継続的なアクションコマンドを生成することを要求することでさらに強化された。 実験結果は, 訓練段階と展開段階の両方において定量的尺度と質的記述を用いて報告された。

This work presents a decentralized motion planning framework for addressing the task of multi-robot navigation using deep reinforcement learning. A custom simulator was developed in order to experimentally investigate the navigation problem of 4 cooperative non-holonomic robots sharing limited state information with each other in 3 different settings. The notion of decentralized motion planning with common and shared policy learning was adopted, which allowed robust training and testing of this approach in a stochastic environment since the agents were mutually independent and exhibited asynchronous motion behavior. The task was further aggravated by providing the agents with a sparse observation space and requiring them to generate continuous action commands so as to efficiently, yet safely navigate to their respective goal locations, while avoiding collisions with other dynamic peers and static obstacles at all times. The experimental results are reported in terms of quantitative measures and qualitative remarks for both training and deployment phases.
翻訳日:2022-09-26 22:58:17 公開日:2020-11-20
# 畳み込み型変分オートエンコーダを用いたアクチグラムデータによるトラウマ後健康予後予測

Using Convolutional Variational Autoencoders to Predict Post-Trauma Health Outcomes from Actigraphy Data ( http://arxiv.org/abs/2011.07406v2 )

ライセンス: Link先を確認
Ayse S. Cakmak, Nina Thigpen, Garrett Honke, Erick Perez Alday, Ali Bahrami Rad, Rebecca Adaimi, Chia Jung Chang, Qiao Li, Pramod Gupta, Thomas Neylan, Samuel A. McLean, Gari D. Clifford(参考訳) うつ病および外傷後ストレス障害(ptsd)は、外傷性事象に一般的に関連する精神疾患である。 活動に基づくアルゴリズムのような非侵襲的な手法による精神状態の推定は、早期介入の成功を特定するのに役立つ。 本研究は,調査用スマートウォッチを装着した1113名の被験者を対象に,ロコモター活動を用いた。 畳み込み変分オートエンコーダ(VAE)アーキテクチャは4週間のアクチグラフィーデータから教師なしの特徴抽出に用いられた。 VAE潜伏変数と参加者の身体的健康状態を特徴として、ロジスティック回帰分類器は、受信機動作特性曲線(AUC)0.64の領域を達成し、メンタルヘルスの結果を推定した。 その結果, VAEモデルは, 長期研究における精神保健結果のアクチグラフィーデータ分析に有望なアプローチであることが示唆された。

Depression and post-traumatic stress disorder (PTSD) are psychiatric conditions commonly associated with experiencing a traumatic event. Estimating mental health status through non-invasive techniques such as activity-based algorithms can help to identify successful early interventions. In this work, we used locomotor activity captured from 1113 individuals who wore a research grade smartwatch post-trauma. A convolutional variational autoencoder (VAE) architecture was used for unsupervised feature extraction from four weeks of actigraphy data. By using VAE latent variables and the participant's pre-trauma physical health status as features, a logistic regression classifier achieved an area under the receiver operating characteristic curve (AUC) of 0.64 to estimate mental health outcomes. The results indicate that the VAE model is a promising approach for actigraphy data analysis for mental health outcomes in long-term studies.
翻訳日:2022-09-25 14:04:14 公開日:2020-11-20
# ログホログラフィモデルによるシネマティックl1映像安定化

Cinematic-L1 Video Stabilization with a Log-Homography Model ( http://arxiv.org/abs/2011.08144v2 )

ライセンス: Link先を確認
Arwen Bradley, Jason Klivington, Joseph Triscari, Rudolph van der Merwe(参考訳) 撮影者が撮影するカメラの動きを三脚、人形、ステアディカムなどの装置でシミュレートする手持ち動画の安定化手法を提案する。 安定運動の最初の3つの微分の$\ell_1$-normを最小化する制約付き凸最適化問題を定式化する。 私たちのアプローチはgrundmann氏らの仕事を拡張します。 [9]全ホモグラフィーを(親和性ではなく)解いて視点を正し、対数ホモグラフィ空間で作業することで線形性を保つ。 また、視野を保った作物の制約を構築し、元の軌道に忠実さを奨励する$\ell_2$項を許容する二次的(線形ではなく)プログラムとして問題をモデル化し、歪みを減らすために制約と目的を加える。 さらに,包括的制約と中心的目的の両方を通して,サルエントオブジェクトを扱う新しい手法を提案する。 最後に、線形時間と有界メモリで解を近似するウィンドウ化戦略について述べる。 本手法は,iphone xs上で300fpsで動作し,安定ビデオの収集,[9]や他の手法との定量的・質的比較,アブレーション研究等により,高品質な結果が得られる。

We present a method for stabilizing handheld video that simulates the camera motions cinematographers achieve with equipment like tripods, dollies, and Steadicams. We formulate a constrained convex optimization problem minimizing the $\ell_1$-norm of the first three derivatives of the stabilized motion. Our approach extends the work of Grundmann et al. [9] by solving with full homographies (rather than affinities) in order to correct perspective, preserving linearity by working in log-homography space. We also construct crop constraints that preserve field-of-view; model the problem as a quadratic (rather than linear) program to allow for an $\ell_2$ term encouraging fidelity to the original trajectory; and add constraints and objectives to reduce distortion. Furthermore, we propose new methods for handling salient objects via both inclusion constraints and centering objectives. Finally, we describe a windowing strategy to approximate the solution in linear time and bounded memory. Our method is computationally efficient, running at 300fps on an iPhone XS, and yields high-quality results, as we demonstrate with a collection of stabilized videos, quantitative and qualitative comparisons to [9] and other methods, and an ablation study.
翻訳日:2022-09-25 00:31:49 公開日:2020-11-20
# FSPN:確率的グラフモデルの新しいクラス

FSPN: A New Class of Probabilistic Graphical Model ( http://arxiv.org/abs/2011.09020v2 )

ライセンス: Link先を確認
Ziniu Wu, Rong Zhu, Andreas Pfadler, Yuxing Han, Jiangneng Li, Zhengping Qian, Kai Zeng, Jingren Zhou(参考訳) 我々は、確率的グラフィカルモデル(pgms)の新しいクラスであるfspn(factorize sum split product networks)を紹介する。 FSPNは推定精度と推定効率の点で既存のPGMの欠点を克服するように設計されている。 特に、ベイジアンネットワーク(BNs)は、高相関変数の存在下で、予測速度が低く、木構造和積ネットワーク(SPNs)の性能は著しく低下する。 fspnはその依存度に応じて変数の結合分布を適応的にモデル化することでその利点を吸収し、高い推定精度と高速な推論速度の2つの目標を同時に達成できる。 本稿では,fspnのための効率的な確率推論と構造学習アルゴリズムと,理論解析と広範な評価証拠を提案する。 合成およびベンチマークデータを用いた実験結果から,他のPGMよりもFSPNの方が優れていることが示された。

We introduce factorize sum split product networks (FSPNs), a new class of probabilistic graphical models (PGMs). FSPNs are designed to overcome the drawbacks of existing PGMs in terms of estimation accuracy and inference efficiency. Specifically, Bayesian networks (BNs) have low inference speed and performance of tree structured sum product networks(SPNs) significantly degrades in presence of highly correlated variables. FSPNs absorb their advantages by adaptively modeling the joint distribution of variables according to their dependence degree, so that one can simultaneously attain the two desirable goals: high estimation accuracy and fast inference speed. We present efficient probability inference and structure learning algorithms for FSPNs, along with a theoretical analysis and extensive evaluation evidence. Our experimental results on synthetic and benchmark datasets indicate the superiority of FSPN over other PGMs.
翻訳日:2022-09-24 04:14:08 公開日:2020-11-20
# 注意型トランスフォーマーによる微細構造中のセルのセグメンテーション

Attention-Based Transformers for Instance Segmentation of Cells in Microstructures ( http://arxiv.org/abs/2011.09763v2 )

ライセンス: Link先を確認
Tim Prangemeier, Christoph Reich, Heinz Koeppl(参考訳) オブジェクトインスタンスの検出とセグメンテーションは、バイオメディカルアプリケーションで一般的なタスクである。 例えば、機能的磁気共鳴画像上の病変の検出、病理画像中の腫瘍の検出、顕微鏡画像からの定量的単一細胞情報の抽出などである。 注意に基づくトランスフォーマーは、さまざまなディープラーニング分野における最先端技術である。 彼らは最近,他の手法よりも優れたセグメンテーションタスクを提案している。 本稿では, 直接端対端のインスタンスセグメンテーションのための新しいアテンションベースセル検出トランス (Cell-DETR) を提案する。 セグメンテーション性能は最先端のインスタンスセグメンテーション法と同等だが、Cell-DETRはよりシンプルで高速である。 本手法は, システムや合成生物学で一般的に用いられる, 微構造環境における酵母の分節化を典型例として紹介する。 特定のユースケースでは、提案手法はセマンティックセグメンテーションのための最先端ツールを超え、さらに個々のオブジェクトインスタンスを予測する。 高速で正確なインスタンスセグメンテーション性能により、後方データ処理における実験情報の収率が向上し、実験のオンライン監視とクローズドループ最適実験設計が実現可能になる。

Detecting and segmenting object instances is a common task in biomedical applications. Examples range from detecting lesions on functional magnetic resonance images, to the detection of tumours in histopathological images and extracting quantitative single-cell information from microscopy imagery, where cell segmentation is a major bottleneck. Attention-based transformers are state-of-the-art in a range of deep learning fields. They have recently been proposed for segmentation tasks where they are beginning to outperforming other methods. We present a novel attention-based cell detection transformer (Cell-DETR) for direct end-to-end instance segmentation. While the segmentation performance is on par with a state-of-the-art instance segmentation method, Cell-DETR is simpler and faster. We showcase the method's contribution in a the typical use case of segmenting yeast in microstructured environments, commonly employed in systems or synthetic biology. For the specific use case, the proposed method surpasses the state-of-the-art tools for semantic segmentation and additionally predicts the individual object instances. The fast and accurate instance segmentation performance increases the experimental information yield for a posteriori data processing and makes online monitoring of experiments and closed-loop optimal experimental design feasible.
翻訳日:2022-09-23 22:01:42 公開日:2020-11-20
# リアルタイム過渡検出のための広視野小型開口望遠鏡によるスマートオブザービング法

Smart obervation method with wide field small aperture telescopes for real time transient detection ( http://arxiv.org/abs/2011.10407v1 )

ライセンス: Link先を確認
Peng Jia, Qiang Liu, Yongyang Sun, Yitian Zheng, Wenbo Liu, Yifei Zhao(参考訳) 広視野小開口望遠鏡(wfsat)は、高速観測によく用いられる。 複数のWFSATによって構成された望遠鏡アレイは、夜間に数回空をスキャンすることができる。 膨大なデータを彼らによって取得し、これらのデータを直ちに処理する必要がある。 本稿では,ARGUS (Astronomical taRGets Detection framework for Unified telescopes) によるリアルタイムトランジット検出手法を提案する。 ARGUSは、各WFSATの組み込みデバイスに実装されたディープラーニングベースの天文検出アルゴリズムを使用して、天文学的ターゲットを検出する。 天文的目標である検出の位置と確率は、訓練されたアンサンブル学習アルゴリズムに送られ、天体源に関する情報が出力される。 これらのソースとスターカタログをマッチングした後、argusはトランジェント候補の型と位置を直接出力する。 シミュレーションデータを用いてARGUSの性能を検証し,一過性検出タスクにおけるWFSATの性能を向上させることができることを示す。

Wide field small aperture telescopes (WFSATs) are commonly used for fast sky survey. Telescope arrays composed by several WFSATs are capable to scan sky several times per night. Huge amount of data would be obtained by them and these data need to be processed immediately. In this paper, we propose ARGUS (Astronomical taRGets detection framework for Unified telescopes) for real-time transit detection. The ARGUS uses a deep learning based astronomical detection algorithm implemented in embedded devices in each WFSATs to detect astronomical targets. The position and probability of a detection being an astronomical targets will be sent to a trained ensemble learning algorithm to output information of celestial sources. After matching these sources with star catalog, ARGUS will directly output type and positions of transient candidates. We use simulated data to test the performance of ARGUS and find that ARGUS can increase the performance of WFSATs in transient detection tasks robustly.
翻訳日:2022-09-23 06:52:15 公開日:2020-11-20
# SalSum:ジェネレーティブ・ディバイサル・ネットワークを用いたサリエンシに基づくビデオ要約

SalSum: Saliency-based Video Summarization using Generative Adversarial Networks ( http://arxiv.org/abs/2011.10432v1 )

ライセンス: Link先を確認
George Pantazis, George Dimas and Dimitris K. Iakovidis(参考訳) 監視,医療,通信システムなど,カメラベースのシステムによって毎日発生する大量の映像データが,効果的な映像要約(VS)手法の必要性を浮き彫りにしている。 これらの方法は、ビデオコンテンツの概要を作成することができるべきである。 本稿では,人間の目で事前に訓練したGANモデルに基づく新しいVS手法を提案する。 提案手法の主な貢献は、教師なし方式で知覚色と時空間視覚の両方を組み合わせ、知覚に相応しい映像要約を提供することである。 いくつかの融合アプローチは、不確実性の下での堅牢性とパーソナライゼーションのために考慮されている。 提案手法は,ベンチマークデータセットVSUMMの最先端VSアプローチと比較して評価する。 実験結果から,SalSumはVSUMMベンチマークにおいて最も高いF測定値を提供することにより,最先端のアプローチよりも優れることがわかった。

The huge amount of video data produced daily by camera-based systems, such as surveilance, medical and telecommunication systems, emerges the need for effective video summarization (VS) methods. These methods should be capable of creating an overview of the video content. In this paper, we propose a novel VS method based on a Generative Adversarial Network (GAN) model pre-trained with human eye fixations. The main contribution of the proposed method is that it can provide perceptually compatible video summaries by combining both perceived color and spatiotemporal visual attention cues in a unsupervised scheme. Several fusion approaches are considered for robustness under uncertainty, and personalization. The proposed method is evaluated in comparison to state-of-the-art VS approaches on the benchmark dataset VSUMM. The experimental results conclude that SalSum outperforms the state-of-the-art approaches by providing the highest f-measure score on the VSUMM benchmark.
翻訳日:2022-09-23 06:52:00 公開日:2020-11-20
# 知識グラフのプライバシ保存に関する調査とオープン問題:マージ,クエリ,表現,コンプリート,アプリケーション

Survey and Open Problems in Privacy Preserving Knowledge Graph: Merging, Query, Representation, Completion and Applications ( http://arxiv.org/abs/2011.10180v1 )

ライセンス: Link先を確認
Chaochao Chen, Jamie Cui, Guanfeng Liu, Jia Wu, Li Wang(参考訳) Knowledge Graph(KG)は、さまざまなタイプのデータを有意義な方法で接続し、リッチなデータサービスをサポートする能力に対して、ますます多くの企業が注目している。 しかし、データ分離問題はKGの性能を制限し、さらなる開発を妨げている。 すなわち、複数の政党は独自のkgを持っているが、規制や競争上の理由から互いに共有することはできない。 したがって、プライバシー保護KGの実施方法が重要な研究課題となっている。 すなわち、複数のKGのプライバシーを保護するため、複数のKG関連のタスクを協調的に行う。 これまでのところ、上記のkg分離問題を解決する作業はほとんどない。 本稿では,このギャップを埋めるために,データ分離設定におけるプライバシー保護kgのオープン問題を要約し,その解決法を提案する。 具体的には,4つの側面(マージ,クエリ,表現,補完)からkgを保存するプライバシのオープン問題を要約する。 これらの問題を詳述し、技術的解決の可能性を提案する。 さらに,3つのプライバシ保存kg対応アプリケーションを提示し,提案手法をこれらのアプリケーションに適用する方法を簡潔に説明する。

Knowledge Graph (KG) has attracted more and more companies' attention for its ability to connect different types of data in meaningful ways and support rich data services. However, the data isolation problem limits the performance of KG and prevents its further development. That is, multiple parties have their own KGs but they cannot share with each other due to regulation or competition reasons. Therefore, how to conduct privacy preserving KG becomes an important research question to answer. That is, multiple parties conduct KG related tasks collaboratively on the basis of protecting the privacy of multiple KGs. To date, there is few work on solving the above KG isolation problem. In this paper, to fill this gap, we summarize the open problems for privacy preserving KG in data isolation setting and propose possible solutions for them. Specifically, we summarize the open problems in privacy preserving KG from four aspects, i.e., merging, query, representation, and completion. We present these problems in details and propose possible technical solutions for them. Moreover, we present three privacy preserving KG-aware applications and simply describe how can our proposed techniques be applied into these applications.
翻訳日:2022-09-23 06:51:44 公開日:2020-11-20
# WaveNet Vocoderを用いたディープラーニングモデル圧縮手法の実証評価

Empirical Evaluation of Deep Learning Model Compression Techniques on the WaveNet Vocoder ( http://arxiv.org/abs/2011.10469v1 )

ライセンス: Link先を確認
Sam Davis, Giuseppe Coccia, Sam Gooch, Julian Mack(参考訳) WaveNetは最先端のテキストから音声へのボイコーダであり、自動回帰ループのためデプロイが困難である。 この作業では、スケーラブルなテキスト音声合成システムの一部としてモデルをデプロイできるように、アーキテクチャを変更するのとは対照的に、元のWaveNetアーキテクチャを直接高速化する方法に焦点を当てます。 我々は,様々なハードウェアプラットフォームに展開可能な,多種多様なモデル圧縮手法を調査した。 特に、異なるモデルのスパーシティの方法とレベルを比較し、7つの広く使われている精度を量子化のターゲットとし、密度の高い単精度浮動小数点ベースラインと比較して、オーディオの忠実度を損なうことなく最大13.84の圧縮率のモデルを実現することができる。 すべてのテクニックは、既存のオープンソースのディープラーニングフレームワークとライブラリを使用して実装され、より広範な採用を促進する。

WaveNet is a state-of-the-art text-to-speech vocoder that remains challenging to deploy due to its autoregressive loop. In this work we focus on ways to accelerate the original WaveNet architecture directly, as opposed to modifying the architecture, such that the model can be deployed as part of a scalable text-to-speech system. We survey a wide variety of model compression techniques that are amenable to deployment on a range of hardware platforms. In particular, we compare different model sparsity methods and levels, and seven widely used precisions as targets for quantization; and are able to achieve models with a compression ratio of up to 13.84 without loss in audio fidelity compared to a dense, single-precision floating-point baseline. All techniques are implemented using existing open source deep learning frameworks and libraries to encourage their wider adoption.
翻訳日:2022-09-23 06:51:26 公開日:2020-11-20
# MRAC-RL:パラメトリックモデル不確実性を考慮したオンライン政策適応フレームワーク

MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric Model Uncertainty ( http://arxiv.org/abs/2011.10562v1 )

ライセンス: Link先を確認
Anubhav Guha and Anuradha Annaswamy(参考訳) 強化学習(RL)アルゴリズムは動的システムの制御ポリシーの開発に成功している。 多くのシステムでは、これらのポリシーはシミュレーション環境で訓練される。 シミュレーションモデルと真のシステムダイナミクスの相違により、RLのトレーニングされたポリシーは、現実の環境にデプロイされた時に、一般化と適応に失敗することが多い。 このシム・トゥ・リアルギャップのブリッジ化に関する最近の研究は、シミュレーション設計の改善と、堅牢な制御ポリシー生成のための改良された特殊RLアルゴリズムの開発に重点を置いている。 本稿では,適応制御とシステム同定の原理を適用し,モデル参照適応制御・強化学習(MRAC-RL)フレームワークを開発する。 線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムのセットを提案し、関連する制御法則を導出する。 MRAC-RLフレームワークは、パラメトリックモデルの不確実性が存在する場合でも、シミュレーション訓練された外ループポリシーをテスト環境で適応し、効果的に動作させることができるインナーループ適応コントローラを使用する。 MRAC-RLアプローチは、モデリングエラーのあるシステムに適用可能な制御ポリシーを開発する際に、最先端のRLアルゴリズムにより改善されることを示す。

Reinforcement learning (RL) algorithms have been successfully used to develop control policies for dynamical systems. For many such systems, these policies are trained in a simulated environment. Due to discrepancies between the simulated model and the true system dynamics, RL trained policies often fail to generalize and adapt appropriately when deployed in the real-world environment. Current research in bridging this sim-to-real gap has largely focused on improvements in simulation design and on the development of improved and specialized RL algorithms for robust control policy generation. In this paper we apply principles from adaptive control and system identification to develop the model-reference adaptive control & reinforcement learning (MRAC-RL) framework. We propose a set of novel MRAC algorithms applicable to a broad range of linear and nonlinear systems, and derive the associated control laws. The MRAC-RL framework utilizes an inner-loop adaptive controller that allows a simulation-trained outer-loop policy to adapt and operate effectively in a test environment, even when parametric model uncertainty exists. We demonstrate that the MRAC-RL approach improves upon state-of-the-art RL algorithms in developing control policies that can be applied to systems with modeling errors.
翻訳日:2022-09-23 06:50:54 公開日:2020-11-20
# redditにおけるcovid-19とメンタルヘルス/サブスタンス利用障害--縦断研究

COVID-19 and Mental Health/Substance Use Disorders on Reddit: A Longitudinal Study ( http://arxiv.org/abs/2011.10518v1 )

ライセンス: Link先を確認
Amanuel Alambo, Swati Padhee, Tanvi Banerjee, and Krishnaprasad Thirunarayan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、精神疾患や薬物使用の問題に苦しむ人々に悪影響を及ぼしている。 これは、パンデミックの間、社会的孤立とメンタルヘルスや薬物使用障害に関連する社会的汚名によって悪化し、人々が闘いを共有し、助けを求めるのを嫌うようになった。 匿名性とプライバシーのために、ソーシャルメディアは人々が日々の闘いについて経験を共有するための便利な媒体として登場した。 Redditは、サブレディット(subreddits)と呼ばれる集中型で構造化されたフォーラムを提供する、よく認識されたソーシャルメディアプラットフォームである。 メンタルヘルス・物質使用に関するソーシャルメディア投稿とコロナウイルスに関する投稿の関連性に関する時間的評価は、パンデミックに対する世論の感情や、特に脆弱な人口に対する影響をよりよく理解するために重要である。 本研究では、2020年1月から2020年10月にかけて、サブレディットr/depression、r/Anxiety、r/SuicideWatch、r/Coronavirusの投稿と、サブレディットr/opiates、r/OpiatesRecovery、r/addiction、r/Coronavirusの投稿を縦断的に分析した。 以上の結果から,2020年9月のr/depressionとr/Coronavirusの投稿の関連性が示唆された。 さらに,物質使用障害に対する投稿とコロナウイルスの関連性は変動し,2020年8月で最も高い相関性を示した。 Reddit、疫学者、精神保健専門家などのプラットフォームからこれらのトレンドを監視することで、標的とする介入に対するコミュニティが直面する課題に対する洞察を得ることができる。

COVID-19 pandemic has adversely and disproportionately impacted people suffering from mental health issues and substance use problems. This has been exacerbated by social isolation during the pandemic and the social stigma associated with mental health and substance use disorders, making people reluctant to share their struggles and seek help. Due to the anonymity and privacy they provide, social media emerged as a convenient medium for people to share their experiences about their day to day struggles. Reddit is a well-recognized social media platform that provides focused and structured forums called subreddits, that users subscribe to and discuss their experiences with others. Temporal assessment of the topical correlation between social media postings about mental health/substance use and postings about Coronavirus is crucial to better understand public sentiment on the pandemic and its evolving impact, especially related to vulnerable populations. In this study, we conduct a longitudinal topical analysis of postings between subreddits r/depression, r/Anxiety, r/SuicideWatch, and r/Coronavirus, and postings between subreddits r/opiates, r/OpiatesRecovery, r/addiction, and r/Coronavirus from January 2020 - October 2020. Our results show a high topical correlation between postings in r/depression and r/Coronavirus in September 2020. Further, the topical correlation between postings on substance use disorders and Coronavirus fluctuates, showing the highest correlation in August 2020. By monitoring these trends from platforms such as Reddit, epidemiologists, and mental health professionals can gain insights into the challenges faced by communities for targeted interventions.
翻訳日:2022-09-23 06:44:06 公開日:2020-11-20
# 移動型広帯域ネットワークにおける帯域幅予測のための長期記憶ネットワーク

Long Short Term Memory Networks for Bandwidth Forecasting in Mobile Broadband Networks under Mobility ( http://arxiv.org/abs/2011.10563v1 )

ライセンス: Link先を確認
Konstantinos Kousias, Apostolos Pappas, Ozgu Alay, Antonios Argyriou and Michael Riegler(参考訳) モバイルブロードバンド(MBB)ネットワークにおける帯域幅予測は,特にモビリティの程度と組み合わせた場合の課題である。 本研究では,LSTM(Long Short Term Memory)ネットワークを用いたMBBネットワークにおける帯域幅予測実験のためのオープンソースのRベースのフレームワークであるHINDSIGHT++を紹介する。 まず、自動機械学習(automl)パラダイムに従って、データ前処理の負担を軽減し、次にパフォーマンス関連の側面を強化するために、hindsight++を実装します。 主に第5世代(5G)ネットワークの帯域幅予測に重点を置いている。 特に,米国内で運用中の5gネットワーク上でネットワークパフォーマンスを測定する最初のオープンソース試みである5gophersを活用しています。 さらに、さまざまなモビリティシナリオにまたがる数百の帯域トレースからなるオープンソースデータセットであるNYU-METSを用いて、第4世代(4G)の商用設定におけるLSTMパフォーマンス境界について検討する。 本研究では,ハイパーパラメータ最適化が最先端性能に与える影響について検討することを目的とした。 その結果, 平均平均絶対誤差(MAE)が従来の最先端値と比較して30%近く減少することを示す5Gシナリオ下での意義が示された。 汎用設計のため、HINDSIGHT++は他の科学分野の様々な応用のための便利なソフトウェアツールとして機能すると主張している。

Bandwidth forecasting in Mobile Broadband (MBB) networks is a challenging task, particularly when coupled with a degree of mobility. In this work, we introduce HINDSIGHT++, an open-source R-based framework for bandwidth forecasting experimentation in MBB networks with Long Short Term Memory (LSTM) networks. We instrument HINDSIGHT++ following an Automated Machine Learning (AutoML) paradigm to first, alleviate the burden of data preprocessing, and second, enhance performance related aspects. We primarily focus on bandwidth forecasting for Fifth Generation (5G) networks. In particular, we leverage 5Gophers, the first open-source attempt to measure network performance on operational 5G networks in the US. We further explore the LSTM performance boundaries on Fourth Generation (4G) commercial settings using NYU-METS, an open-source dataset comprising of hundreds of bandwidth traces spanning different mobility scenarios. Our study aims to investigate the impact of hyperparameter optimization on achieving state-of-the-art performance and beyond. Results highlight its significance under 5G scenarios showing an average Mean Absolute Error (MAE) decrease of near 30% when compared to prior state-of-the-art values. Due to its universal design, we argue that HINDSIGHT++ can serve as a handy software tool for a multitude of applications in other scientific fields.
翻訳日:2022-09-23 06:43:35 公開日:2020-11-20
# メタ変異モンテカルロ

Meta Variational Monte Carlo ( http://arxiv.org/abs/2011.10614v1 )

ライセンス: Link先を確認
Tianchen Zhao, James Stokes, Oliver Knitter, Brian Chen, Shravan Veerapaneni(参考訳) メタラーニングと既知のアンサンブルから引き出されたランダムに生成されたハミルトニアンの基底状態を決定する問題との間には、同定が存在する。 モデルに依存しないメタラーニング手法を提案し, ランダムなMax-Cut問題の予備実験により, 結果のメタ変分モンテカルロが学習を加速し, 収束を改善することを示す。

An identification is found between meta-learning and the problem of determining the ground state of a randomly generated Hamiltonian drawn from a known ensemble. A model-agnostic meta-learning approach is proposed to solve the associated learning problem and a preliminary experimental study of random Max-Cut problems indicates that the resulting Meta Variational Monte Carlo accelerates training and improves convergence.
翻訳日:2022-09-23 06:42:51 公開日:2020-11-20
# リモートセンシング画像を用いた未資源野生生物保護公園の密猟予測の強化

Enhancing Poaching Predictions for Under-Resourced Wildlife Conservation Parks Using Remote Sensing Imagery ( http://arxiv.org/abs/2011.10666v1 )

ライセンス: Link先を確認
Rachel Guo, Lily Xu, Drew Cronin, Francis Okeke, Andrew Plumptre, Milind Tambe(参考訳) 不法な野生生物の密猟は生物多様性の喪失を促している。 密猟と戦うため、レンジャーズは不法密猟活動のために保護地域をパトロールした。 しかし、レンジャーはしばしばそのような大きな公園を包括的に探すことができない。 したがって、最も密猟リスクの高い地域を特定するのに役立つ機械学習アプローチとして野生生物保護アシスタント(paws)が導入された。 PAWSは世界中の公園にデプロイされているので、多くの公園はデータ収集のリソースが限られているので、機能セットが不足していることに気付きました。 未資源の公園が有意義な密猟予測にアクセスできるようにするため,公園の特徴を抽出するために公開されているリモートセンシングデータを導入した。 Google Earth Engineのこれらのデータを利用することで、以前は利用できなかった動的データを組み込んで、季節的トレンドによる予測を強化します。 我々は、データからデプロイまでのパイプライン全体を自動化し、公開データのみを使用することで、公園の専門家が手作業で計算した機能を使った予測に匹敵する予測性能を回復する。 衛星画像を含めることで、あらゆる資源レベルの公園が今後数年間のリスクを回避できる堅牢なシステムが得られると結論付けている。

Illegal wildlife poaching is driving the loss of biodiversity. To combat poaching, rangers patrol expansive protected areas for illegal poaching activity. However, rangers often cannot comprehensively search such large parks. Thus, the Protection Assistant for Wildlife Security (PAWS) was introduced as a machine learning approach to help identify the areas with highest poaching risk. As PAWS is deployed to parks around the world, we recognized that many parks have limited resources for data collection and therefore have scarce feature sets. To ensure under-resourced parks have access to meaningful poaching predictions, we introduce the use of publicly available remote sensing data to extract features for parks. By employing this data from Google Earth Engine, we also incorporate previously unavailable dynamic data to enrich predictions with seasonal trends. We automate the entire data-to-deployment pipeline and find that, with only using publicly available data, we recuperate prediction performance comparable to predictions made using features manually computed by park specialists. We conclude that the inclusion of satellite imagery creates a robust system through which parks of any resource level can benefit from poaching risks for years to come.
翻訳日:2022-09-23 06:42:43 公開日:2020-11-20
# FLAVA: LiDARベースのポイントクラウドの検索、ローカライズ、調整、検証

FLAVA: Find, Localize, Adjust and Verify to Annotate LiDAR-Based Point Clouds ( http://arxiv.org/abs/2011.10174v1 )

ライセンス: Link先を確認
Tai Wang, Conghui He, Zhe Wang, Jianping Shi, Dahua Lin(参考訳) 近年、自動運転システムに広く採用されているセンサーであるLiDAR上での認識アルゴリズムの急速な進歩を目撃している。 これらのLiDARベースのソリューションは通常、データ空腹であり、トレーニングと評価のために大量のデータをラベル付けする必要がある。 しかし、このようなデータの注釈付けは非常に難しいのは、点雲のばらつきと不規則さと、この手順に関わるより複雑な相互作用のためである。 そこで本研究では,アノテーションプロセスにおけるヒューマンインタラクションを最小化するための体系的アプローチであるFLAVAを提案する。 具体的には、アノテーションパイプラインをfind、localize、adapted、verifyの4つに分割します。 さらに、アノテーション手順の異なる段階のUIを慎重に設計し、各段階において最も重要な側面にアノテータを集中させます。 さらに,アノテーション結果を伝達する軽量かつ効果的な機構を導入することで,インタラクションの量を大幅に削減する。 実験の結果, 提案手法は, 手順を著しく加速し, アノテーション品質を向上できることがわかった。

Recent years have witnessed the rapid progress of perception algorithms on top of LiDAR, a widely adopted sensor for autonomous driving systems. These LiDAR-based solutions are typically data hungry, requiring a large amount of data to be labeled for training and evaluation. However, annotating this kind of data is very challenging due to the sparsity and irregularity of point clouds and more complex interaction involved in this procedure. To tackle this problem, we propose FLAVA, a systematic approach to minimizing human interaction in the annotation process. Specifically, we divide the annotation pipeline into four parts: find, localize, adjust and verify. In addition, we carefully design the UI for different stages of the annotation procedure, thus keeping the annotators to focus on the aspects that are most important to each stage. Furthermore, our system also greatly reduces the amount of interaction by introducing a light-weight yet effective mechanism to propagate the annotation results. Experimental results show that our method can remarkably accelerate the procedure and improve the annotation quality.
翻訳日:2022-09-23 06:42:02 公開日:2020-11-20
# マルチ露光カラーフィルタアレイを用いた深部スナップショットhdrイメージング

Deep Snapshot HDR Imaging Using Multi-Exposure Color Filter Array ( http://arxiv.org/abs/2011.10232v1 )

ライセンス: Link先を確認
Takeru Suda, Masayuki Tanaka, Yusuke Monno, Masatoshi Okutomi(参考訳) 本稿では,マルチ露光カラーフィルタアレイ (me-cfa) を用いて取得した生データから,rgbフィルタのモザイクパターンを異なる露光レベルで構成したhdrイメージングフレームワークであるdeep snapshot high dynamic range (hdr) を提案する。 HDR画像再構成ネットワークを効果的に学習するために,HDR領域の相対的局所コントラストを考慮し,有効損失計算と入力データ正規化を可能にする輝度正規化の概念を導入する。 このアイデアは、絶対輝度レベルに関係なく、明暗領域の誤差を等しく扱えるようにし、トーンマップされた領域における視覚的画質を大幅に改善する。 2つのパブリックなHDR画像データセットを用いた実験の結果、我々のフレームワークは他のスナップショット手法よりも優れ、視覚的アーティファクトが少ない高品質なHDR画像を生成することが示された。

In this paper, we propose a deep snapshot high dynamic range (HDR) imaging framework that can effectively reconstruct an HDR image from the RAW data captured using a multi-exposure color filter array (ME-CFA), which consists of a mosaic pattern of RGB filters with different exposure levels. To effectively learn the HDR image reconstruction network, we introduce the idea of luminance normalization that simultaneously enables effective loss computation and input data normalization by considering relative local contrasts in the "normalized-by-luminance" HDR domain. This idea makes it possible to equally handle the errors in both bright and dark areas regardless of absolute luminance levels, which significantly improves the visual image quality in a tone-mapped domain. Experimental results using two public HDR image datasets demonstrate that our framework outperforms other snapshot methods and produces high-quality HDR images with fewer visual artifacts.
翻訳日:2022-09-23 06:41:45 公開日:2020-11-20
# 深層学習に基づくポイントオフ・インテンシブ(POI)勧告に関する調査

A Survey on Deep Learning Based Point-Of-Interest (POI) Recommendations ( http://arxiv.org/abs/2011.10187v1 )

ライセンス: Link先を確認
Md. Ashraful Islam, Mir Mahathir Mohammad, Sarkar Snigdha Sarathi Das, Mohammed Eunus Ali(参考訳) 位置情報ベースのソーシャルネットワーク(LBSN)は、チェックイン、意見、写真、レビューを共有することで、友人や知り合いと交流できる。 LBSNから生成される膨大な量のデータが新たな研究の道を開き、Point-of-Interest(POI)レコメンデーションと呼ばれる新しいサブフィールドのレコメンデーションシステムを生み出す。 POIレコメンデーション技術は、ユーザの履歴チェックインとPOI属性や友情ネットワークなどのマルチモーダル情報を利用して、ユーザに適した次のPOIセットを推奨する。 データセットから手作りの機能を使って、従来の機械学習技術にフォーカスした初期の作品が多数ある。 近年の深層学習研究の活発化に伴い,様々な深層学習パラダイムを活用したpoiレコメンデーション作業が数多く実施されている。 これらの技法は、問題定式化、提案手法、使用済みデータセット、特徴などによって大きく異なる。 私たちの知る限りでは、この研究は主要なディープラーニングベースのpoi推奨作業の包括的な調査としては初めてです。 我々の研究は、異なるディープラーニングパラダイムやその他の関連する機能に基づいて、最近のPOIレコメンデーションワークを分類し、批判的に分析します。 このレビューは、POIレコメンデーションの領域で働く研究者や実践者の料理本と見なすことができる。

Location-based Social Networks (LBSNs) enable users to socialize with friends and acquaintances by sharing their check-ins, opinions, photos, and reviews. Huge volume of data generated from LBSNs opens up a new avenue of research that gives birth to a new sub-field of recommendation systems, known as Point-of-Interest (POI) recommendation. A POI recommendation technique essentially exploits users' historical check-ins and other multi-modal information such as POI attributes and friendship network, to recommend the next set of POIs suitable for a user. A plethora of earlier works focused on traditional machine learning techniques by using hand-crafted features from the dataset. With the recent surge of deep learning research, we have witnessed a large variety of POI recommendation works utilizing different deep learning paradigms. These techniques largely vary in problem formulations, proposed techniques, used datasets, and features, etc. To the best of our knowledge, this work is the first comprehensive survey of all major deep learning-based POI recommendation works. Our work categorizes and critically analyzes the recent POI recommendation works based on different deep learning paradigms and other relevant features. This review can be considered a cookbook for researchers or practitioners working in the area of POI recommendation.
翻訳日:2022-09-23 06:34:26 公開日:2020-11-20
# ReLU活性化を伴う2層ニューラルネットワークの普遍性

A global universality of two-layer neural networks with ReLU activations ( http://arxiv.org/abs/2011.10225v1 )

ライセンス: Link先を確認
Naoya Hatano, Masahiro Ikeda, Isao Ishikawa, and Yoshihiro Sawano(参考訳) 本研究では,関数空間における2層ニューラルネットワークの集合の密度に関するニューラルネットワークの普遍性について検討する。 コンパクト集合上の収束を扱う多くの作品がある。 本稿では、任意のコンパクト集合に対して結果が均一となるように、基準を適切に導入することで大域収束を考える。

In the present study, we investigate a universality of neural networks, which concerns a density of the set of two-layer neural networks in a function spaces. There are many works that handle the convergence over compact sets. In the present paper, we consider a global convergence by introducing a norm suitably, so that our results will be uniform over any compact set.
翻訳日:2022-09-23 06:34:06 公開日:2020-11-20
# stressnet: 脆性材料の破壊伝播を伴う応力予測のためのディープラーニング

StressNet: Deep Learning to Predict Stress With Fracture Propagation in Brittle Materials ( http://arxiv.org/abs/2011.10227v1 )

ライセンス: Link先を確認
Yinan Wang, Diane Oyen, Weihong (Grace) Guo, Anishi Mehta, Cory Braker Scott, Nishant Panda, M. Giselle Fern\'andez-Godino, Gowri Srinivasan, Xiaowei Yue(参考訳) 脆性材料の破砕は、しばしば内部応力の強い亀裂の急激な成長と合体によるものである。 したがって, 内部応力の最大値の正確な予測は, 破壊時期の予測や材料の耐破壊性, 信頼性の向上に不可欠である。 FDEM(Finite-Discrete Element Model)のような既存の高忠実度法はその計算コストによって制限される。 そのため, 精度を保ちつつ計算コストを削減するために, 破壊伝播と初期応力データに基づく最大内部応力列の予測のために, 新たな深層学習モデルstressnetが提案されている。 より具体的には、時間独立畳み込みニューラルネットワーク(ti-cnn)は骨折経路やスポール領域などの骨折の空間的特徴を捉えるように設計され、双方向長期記憶(bi-lstm)ネットワークは時間的特徴を捉えるように適応されている。 これらの特徴を融合することにより、最大内部応力の時間変化を正確に予測することができる。 さらに, 平均正方形誤差 (MSE) と平均絶対パーセンテージ誤差 (MAPE) を動的に統合することにより, 内部応力の最大変動を反映して適応損失関数を設計する。 トレーニング後,FDEMの実行時間は4時間であり,テストデータに対する平均MAPEは2%であるのに対し,本モデルでは,最大内部応力の高精度なマルチステップ予測を約20秒で行うことができる。

Catastrophic failure in brittle materials is often due to the rapid growth and coalescence of cracks aided by high internal stresses. Hence, accurate prediction of maximum internal stress is critical to predicting time to failure and improving the fracture resistance and reliability of materials. Existing high-fidelity methods, such as the Finite-Discrete Element Model (FDEM), are limited by their high computational cost. Therefore, to reduce computational cost while preserving accuracy, a novel deep learning model, "StressNet," is proposed to predict the entire sequence of maximum internal stress based on fracture propagation and the initial stress data. More specifically, the Temporal Independent Convolutional Neural Network (TI-CNN) is designed to capture the spatial features of fractures like fracture path and spall regions, and the Bidirectional Long Short-term Memory (Bi-LSTM) Network is adapted to capture the temporal features. By fusing these features, the evolution in time of the maximum internal stress can be accurately predicted. Moreover, an adaptive loss function is designed by dynamically integrating the Mean Squared Error (MSE) and the Mean Absolute Percentage Error (MAPE), to reflect the fluctuations in maximum internal stress. After training, the proposed model is able to compute accurate multi-step predictions of maximum internal stress in approximately 20 seconds, as compared to the FDEM run time of 4 hours, with an average MAPE of 2% relative to test data.
翻訳日:2022-09-23 06:34:00 公開日:2020-11-20
# 故障分類のためのGANベースボールスクリュー駆動画像データベースの拡張

GAN based ball screw drive picture database enlargement for failure classification ( http://arxiv.org/abs/2011.10235v1 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Chenwei Sun, J\"urgen Fleischer(参考訳) 信頼性の高い大規模データセットの欠如は、製造業における障害検出の分野で、現代の機械学習手法を使用する上での最大の難点の1つだ。 ボールねじ面の故障分類機能を開発するためには, 表面欠陥の十分な画像データが必要である。 小さなデータセットに基づいてニューラルネットワークモデルをトレーニングする場合、トレーニングされたモデルは一般化能力に欠ける可能性があり、実際にはあまり機能しない可能性がある。 本研究の目的は, 生成逆数ネットワーク(GAN)に基づいて合成画像を生成し, ボールねじ面故障の画像データセットを拡大することである。 ピッティング障害とrust障害は,表面障害クラスを表現するために,ボールスクリュー表面で選択される2つの障害タイプである。 得られた画像の品質と多様性を、専門家の観察、t-SNE可視化、FIDスコアの定量的手法を含む定性的な方法を用いて評価する。 GANをベースとした生成画像が障害分類性能を向上できるかどうかを検証するため、実画像データセットをGANベースの生成画像に置き換えて分類処理を行った。 著者らは, ボールスクリュー表面欠陥のGANに基づく画像の作成に成功し, 分類試験性能に正の効果を示した。

The lack of reliable large datasets is one of the biggest difficulties of using modern machine learning methods in the field of failure detection in the manufacturing industry. In order to develop the function of failure classification for ball screw surface, sufficient image data of surface failures is necessary. When training a neural network model based on a small dataset, the trained model may lack the generalization ability and may perform poorly in practice. The main goal of this paper is to generate synthetic images based on the generative adversarial network (GAN) to enlarge the image dataset of ball screw surface failures. Pitting failure and rust failure are two possible failure types on ball screw surface chosen in this paper to represent the surface failure classes. The quality and diversity of generated images are evaluated afterwards using qualitative methods including expert observation, t-SNE visualization and the quantitative method of FID score. To verify whether the GAN based generated images can increase failure classification performance, the real image dataset was augmented and replaced by GAN based generated images to do the classification task. The authors successfully created GAN based images of ball screw surface failures which showed positive effect on classification test performance.
翻訳日:2022-09-23 06:33:34 公開日:2020-11-20
# 非凸最適化のためのホモトピーSGDの収束解析

Convergence Analysis of Homotopy-SGD for non-convex optimization ( http://arxiv.org/abs/2011.10298v1 )

ライセンス: Link先を確認
Matilde Gargiani and Andrea Zanelli and Quoc Tran-Dinh and Moritz Diehl and Frank Hutter(参考訳) 大規模非凸最適化問題を解決する一階確率的手法は、ディープニューラルネットワークのトレーニングや、複雑な非凸機械学習モデルなど、多くのビッグデータアプリケーションで広く使われている。 それらの安価なイテレーションは一般的に、遅いグローバル収束率(主にサブリニア)でまとめられ、イテレーションが最小限の近傍に到達する前に非常に多くのイテレーションを実行する必要がある。 本研究では,ホモトピー法とSGDを組み合わせた一階確率的アルゴリズム,Homotopy-Stochastic Gradient Descent (H-SGD)を提案する。 問題構造に関するいくつかの軽微な仮定の下で,提案アルゴリズムの理論的解析を行う。 H-SGDは, ホモトピーパラメータを特別に設計した手法により, 高速かつ安価な反復を保ちながら, 最小限の近傍に収束する大域的線形率を享受できることを示す。 実験により,H-SGDが標準SGDより優れていることが示された。

First-order stochastic methods for solving large-scale non-convex optimization problems are widely used in many big-data applications, e.g. training deep neural networks as well as other complex and potentially non-convex machine learning models. Their inexpensive iterations generally come together with slow global convergence rate (mostly sublinear), leading to the necessity of carrying out a very high number of iterations before the iterates reach a neighborhood of a minimizer. In this work, we present a first-order stochastic algorithm based on a combination of homotopy methods and SGD, called Homotopy-Stochastic Gradient Descent (H-SGD), which finds interesting connections with some proposed heuristics in the literature, e.g. optimization by Gaussian continuation, training by diffusion, mollifying networks. Under some mild assumptions on the problem structure, we conduct a theoretical analysis of the proposed algorithm. Our analysis shows that, with a specifically designed scheme for the homotopy parameter, H-SGD enjoys a global linear rate of convergence to a neighborhood of a minimum while maintaining fast and inexpensive iterations. Experimental evaluations confirm the theoretical results and show that H-SGD can outperform standard SGD.
翻訳日:2022-09-23 06:33:14 公開日:2020-11-20
# 乳癌検診における鑑別的局所スパース表現

Discriminative Localized Sparse Representations for Breast Cancer Screening ( http://arxiv.org/abs/2011.10201v1 )

ライセンス: Link先を確認
Sokratis Makrogiannis and Chelsea E. Harris and Keni Zheng(参考訳) 乳がんは、先進国と発展途上国の両方で女性の間で最も多いがんである。 乳がんの早期発見と診断は、その死亡率を低下させ、生活の質を向上させる可能性がある。 CAD (Computer-Aided Detection) とCAD (Computer-Aided diagnosis) 技術は,人間の読影の負担を軽減し,その結果の精度と再現性を向上させることを約束している。 スパース解析技術は、画像パターンの表現と認識に関連した結果を生み出している。 本研究では,LC-SLESA(空間的局所的アンサンブルスパース解析)のラベル一貫性を示す手法を提案する。 本研究は,乳腺病変を良性または悪性に分類するために,ブロックベーススパース分析法に辞書学習を適用した。 LC-KSVD辞書学習と組み合わせた手法の性能をMIASデータセット上で10倍,20倍,30倍のクロス検証を用いて評価した。 以上の結果から,乳がん検診にはスパース分析が有用である可能性が示唆された。

Breast cancer is the most common cancer among women both in developed and developing countries. Early detection and diagnosis of breast cancer may reduce its mortality and improve the quality of life. Computer-aided detection (CADx) and computer-aided diagnosis (CAD) techniques have shown promise for reducing the burden of human expert reading and improve the accuracy and reproducibility of results. Sparse analysis techniques have produced relevant results for representing and recognizing imaging patterns. In this work we propose a method for Label Consistent Spatially Localized Ensemble Sparse Analysis (LC-SLESA). In this work we apply dictionary learning to our block based sparse analysis method to classify breast lesions as benign or malignant. The performance of our method in conjunction with LC-KSVD dictionary learning is evaluated using 10-, 20-, and 30-fold cross validation on the MIAS dataset. Our results indicate that the proposed sparse analyses may be a useful component for breast cancer screening applications.
翻訳日:2022-09-23 06:26:48 公開日:2020-11-20
# 胸部ct画像における気道注釈のクラウドソーシング

Crowdsourcing Airway Annotations in Chest Computed Tomography Images ( http://arxiv.org/abs/2011.10433v1 )

ライセンス: Link先を確認
Veronika Cheplygina and Adria Perez-Rovira and Wieying Kuo and Harm A. W. M. Tiddens and Marleen de Bruijne(参考訳) 胸部CT検査における気道計測は嚢胞性線維症などの疾患を特徴づけるのに重要であるが,手動で行うのには非常に時間がかかる。 機械学習アルゴリズムは代替手段を提供するが、優れたパフォーマンスを得るためには大量の注釈付きスキャンを必要とする。 本研究では,エアウェイアノテーションの収集にクラウドソーシングが利用できるか検討する。 航空路の既知地点を24の被験者で画像スライスし,気道路面と気道壁の概略を観客に依頼する。 複数の群集作業員を組み合わせることで、元のスキャンで専門家が行った測定値と比較する。 予備研究と同様に、アノテーションの大部分は、おそらく労働者が指示を誤解しているため除外された。 このようなアノテーションを除くと、専門家との適度な相関関係が観察できるが、これらの相関関係は専門家間の相関関係よりもわずかに低い。 さらに,本研究の被験者間での結果は,かなり多様である。 観客は気道アノテートする可能性があるが、実際にアノテーションを収集するのに十分なロバスト性を持つためにさらなる開発が必要である。 再現性のために、データとコードはオンラインで利用可能である。

Measuring airways in chest computed tomography (CT) scans is important for characterizing diseases such as cystic fibrosis, yet very time-consuming to perform manually. Machine learning algorithms offer an alternative, but need large sets of annotated scans for good performance. We investigate whether crowdsourcing can be used to gather airway annotations. We generate image slices at known locations of airways in 24 subjects and request the crowd workers to outline the airway lumen and airway wall. After combining multiple crowd workers, we compare the measurements to those made by the experts in the original scans. Similar to our preliminary study, a large portion of the annotations were excluded, possibly due to workers misunderstanding the instructions. After excluding such annotations, moderate to strong correlations with the expert can be observed, although these correlations are slightly lower than inter-expert correlations. Furthermore, the results across subjects in this study are quite variable. Although the crowd has potential in annotating airways, further development is needed for it to be robust enough for gathering annotations in practice. For reproducibility, data and code are available online: \url{http://github.com/adriapr/crowdairway.git}.
翻訳日:2022-09-23 06:25:19 公開日:2020-11-20
# 自律的オブジェクトレベルデータアソシエーションを用いたセマンティックSLAM

Semantic SLAM with Autonomous Object-Level Data Association ( http://arxiv.org/abs/2011.10625v1 )

ライセンス: Link先を確認
Zhentian Qian, Kartik Patath, Jie Fu, Jing Xiao(参考訳) 同時局所化とマッピング(SLAM)の間、環境の意味情報をキャプチャしてマッピングすることが望ましいことが多い。 このような意味情報は、ロボットが類似の低レベルの幾何学的・視覚的特徴を持つ場所をよりよく識別し、操作対象のセマンティック情報と操作対象の環境に関するハイレベルなタスクを実行することを可能にする。 セマンティックSLAMは注目されているが、セマンティックオブジェクト、すなわちオブジェクトレベルのデータアソシエーションに基づくセマンティックレベルのデータアソシエーションについてはほとんど研究されていない。 本稿では,最大重み付き二分項マッチング問題として定式化された単語の袋に基づくオブジェクトレベルのデータアソシエーションアルゴリズムを提案する。 オブジェクトレベルのデータアソシエーションが解決されると、双対二次を用いた二次プログラミングに基づく意味オブジェクト初期化スキームを開発し、オブジェクト初期化の成功率を改善するために追加の制約を導入する。 統合意味レベルSLAMシステムは、実験で示されたように、高精度なオブジェクトレベルデータアソシエーションとリアルタイム意味マッピングを実現することができる。 オンラインセマンティクスマップの構築とセマンティクスレベルのローカライゼーション機能により、事前の未知環境におけるセマンティクスレベルのマッピングとタスク計画が容易になる。

It is often desirable to capture and map semantic information of an environment during simultaneous localization and mapping (SLAM). Such semantic information can enable a robot to better distinguish places with similar low-level geometric and visual features and perform high-level tasks that use semantic information about objects to be manipulated and environments to be navigated. While semantic SLAM has gained increasing attention, there is little research on semanticlevel data association based on semantic objects, i.e., object-level data association. In this paper, we propose a novel object-level data association algorithm based on bag of words algorithm, formulated as a maximum weighted bipartite matching problem. With object-level data association solved, we develop a quadratic-programming-based semantic object initialization scheme using dual quadric and introduce additional constraints to improve the success rate of object initialization. The integrated semantic-level SLAM system can achieve high-accuracy object-level data association and real-time semantic mapping as demonstrated in the experiments. The online semantic map building and semantic-level localization capabilities facilitate semantic-level mapping and task planning in a priori unknown environment.
翻訳日:2022-09-23 06:25:03 公開日:2020-11-20
# 不確かさモデルを用いた分散推論のための一般的なフレームワーク

A General Framework for Distributed Inference with Uncertain Models ( http://arxiv.org/abs/2011.10669v1 )

ライセンス: Link先を確認
James Z. Hare, Cesar A. Uribe, Lance Kaplan, Ali Jadbabaie(参考訳) 本稿では,異種エージェントのネットワークを用いた分散分類の問題について検討する。 エージェントは、観測のシーケンスを最もよく記述するターゲットクラスを共同で識別しようとする。 この問題はまず仮説テストフレームワークに抽象化され、エージェントが観測の分布に最もよく一致する仮説(ターゲットクラス)に同意しようとすると仮定する。 非ベイズ的社会学習理論は、エージェントがネットワーク上の仮説ごとに順次コミュニケーションし、彼らの信念を更新することによって、効率的な方法でこの問題を解決する枠組みを提供する。 既存のアプローチの多くは、エージェントが仮説ごとに正確な統計モデルにアクセスできると仮定している。 しかし、多くの実践的応用において、エージェントは限られたデータに基づいて確率モデルを学習し、確率関数パラメータの不確実性を引き起こす。 本研究では,エージェントの信念を中央集権的アプローチと同じ結果に収束させることを可能にするパラメトリック分布の幅広い集合を特定することにより,エージェントの不確実性を可能性に組み込む不確実性モデルの概念を構築する。 さらに,非パラメトリックモデルの拡張を実証的に検討し,非ベイズ型社会学習における不確定モデルの一般化フレームワークを提供する。

This paper studies the problem of distributed classification with a network of heterogeneous agents. The agents seek to jointly identify the underlying target class that best describes a sequence of observations. The problem is first abstracted to a hypothesis-testing framework, where we assume that the agents seek to agree on the hypothesis (target class) that best matches the distribution of observations. Non-Bayesian social learning theory provides a framework that solves this problem in an efficient manner by allowing the agents to sequentially communicate and update their beliefs for each hypothesis over the network. Most existing approaches assume that agents have access to exact statistical models for each hypothesis. However, in many practical applications, agents learn the likelihood models based on limited data, which induces uncertainty in the likelihood function parameters. In this work, we build upon the concept of uncertain models to incorporate the agents' uncertainty in the likelihoods by identifying a broad set of parametric distribution that allows the agents' beliefs to converge to the same result as a centralized approach. Furthermore, we empirically explore extensions to non-parametric models to provide a generalized framework of uncertain models in non-Bayesian social learning.
翻訳日:2022-09-23 06:24:01 公開日:2020-11-20
# 感情分析による新型コロナウイルスの影響分析のための言語非依存型深層ネットワーク

A Deep Language-independent Network to analyze the impact of COVID-19 on the World via Sentiment Analysis ( http://arxiv.org/abs/2011.10358v1 )

ライセンス: Link先を確認
Ashima Yadav, Dinesh Kumar Vishwakarma(参考訳) 2019年末にかけて、武漢は新型コロナウイルスの流行を経験し、すぐに世界中に広まり、世界中の何百万人もの人々が感染する致命的なパンデミックを引き起こした。 政府と公衆衛生機関は、致命的なウイルスに対抗する多くの戦略に従っていた。 しかし、ウイルスは人々の社会的・経済的生活に深刻な影響を及ぼした。 本報告では、米国、ブラジル、インド、ロシア、南アフリカの5カ国で感染が拡大している国のトップ5の人々の意見を抽出し、調査する。 本稿では,埋め込み層,単語レベルのエンコード型アテンション,文レベルのエンコードアテンション機構を含む,言語非依存な多レベルアテンションベースconv-bigruネットワーク(macbig-net)を提案する。 埋め込み層は、文列を実数値ベクトルに符号化する。 単語レベルと文レベルエンコーディングは、1D Conv-BiGRUベースのメカニズムで行われ、それぞれ単語レベルと文レベルアテンションが続く。 Twitterのツイートをクロールすることで、COVID-19センチメントデータセットをさらに発展させます。 提案するデータセットを広範囲に実験した結果,macbig-netの有効性が示された。 また,注意重みの可視化と詳細な分析の結果から,提案するネットワークが効果的に人々の感情を捉えていることが示された。

Towards the end of 2019, Wuhan experienced an outbreak of novel coronavirus, which soon spread all over the world, resulting in a deadly pandemic that infected millions of people around the globe. The government and public health agencies followed many strategies to counter the fatal virus. However, the virus severely affected the social and economic lives of the people. In this paper, we extract and study the opinion of people from the top five worst affected countries by the virus, namely USA, Brazil, India, Russia, and South Africa. We propose a deep language-independent Multilevel Attention-based Conv-BiGRU network (MACBiG-Net), which includes embedding layer, word-level encoded attention, and sentence-level encoded attention mechanism to extract the positive, negative, and neutral sentiments. The embedding layer encodes the sentence sequence into a real-valued vector. The word-level and sentence-level encoding is performed by a 1D Conv-BiGRU based mechanism, followed by word-level and sentence-level attention, respectively. We further develop a COVID-19 Sentiment Dataset by crawling the tweets from Twitter. Extensive experiments on our proposed dataset demonstrate the effectiveness of the proposed MACBiG-Net. Also, attention-weights visualization and in-depth results analysis shows that the proposed network has effectively captured the sentiments of the people.
翻訳日:2022-09-23 06:17:34 公開日:2020-11-20
# 低次元マニフォールドによる繰り返しニューラルネットワークの多重化支援

Low-Dimensional Manifolds Support Multiplexed Integrations in Recurrent Neural Networks ( http://arxiv.org/abs/2011.10435v1 )

ライセンス: Link先を確認
Arnaud Fanthomme (ENS Paris), R\'emi Monasson (ENS Paris)(参考訳) 1つまたは複数の時間的信号を統合するように訓練されたリカレントニューラルネットワークに出現する学習ダイナミクスと表現について検討する。 解析的および数値的な研究を組み合わせることで、nニューロンを持つRNNが任意の期間のD(n)スカラー信号を統合することを学習する条件を特徴づける。 線形ニューロンとReLUニューロンの両方に対して、その内部状態が活性化関数に関係したD次元多様体に近く存在することを示す。 したがって、各ニューロンは全ての積分の値に関する情報を様々な程度に伝達する。 計算神経科学者による皮質記録の解釈のための混合選択性の概念と結果の深い類似性について論じる。

We study the learning dynamics and the representations emerging in Recurrent Neural Networks trained to integrate one or multiple temporal signals. Combining analytical and numerical investigations, we characterize the conditions under which a RNN with n neurons learns to integrate D(n) scalar signals of arbitrary duration. We show, both for linear and ReLU neurons, that its internal state lives close to a D-dimensional manifold, whose shape is related to the activation function. Each neuron therefore carries, to various degrees, information about the value of all integrals. We discuss the deep analogy between our results and the concept of mixed selectivity forged by computational neuroscientists to interpret cortical recordings.
翻訳日:2022-09-23 06:16:57 公開日:2020-11-20
# 回復効率:不確実性下での多目的最適化のための新しいロバストネス概念

Recovery-to-Efficiency: A New Robustness Concept for Multi-objective Optimization under Uncertainty ( http://arxiv.org/abs/2011.10341v1 )

ライセンス: Link先を確認
El-Ghazali Talbi and Raca Todosijevic(参考訳) 本稿では,不確実な多目的最適化問題に対する新しいロバスト性概念を提案する。 より正確には、いわゆるリカバリ・トゥ・効率ロバストネスの概念を提案し、検討する。 また,多目的最適化の文脈で高効率化を実現するためのいくつかの手法を提案する。 異なる概念を用いて得られるロバストな集合の違いを明らかにするとともに、興味深い観察を導出するために、広範な実験的解析を行う。 テスト目的では、bi-objective knapsack問題からのインスタンスが考慮される。

This paper presents a new robustness concept for uncertain multi-objective optimization problems. More precisely, in the paper the so-called recovery-to-efficiency robustness concept is proposed and investigated. Several approaches for generating recovery-to-efficiency robust sets in the context of multi-objective optimization are proposed as well. An extensive experimental analysis is performed to disclose differences among robust sets obtained using different concepts as well as to deduce some interesting observations. For testing purposes, instances from the bi-objective knapsack problem are considered.
翻訳日:2022-09-23 06:16:06 公開日:2020-11-20
# SophiaPop:ポピュラー音楽に関する人間-AIコラボレーションの実験

SophiaPop: Experiments in Human-AI Collaboration on Popular Music ( http://arxiv.org/abs/2011.10363v1 )

ライセンス: Link先を確認
David Hanson, Frankie Storm, Wenwei Huang, Vytas Krisciunas, Tiger Darrow, Audrey Brown, Mengna Lei, Matthew Aylett, Adam Pickrell, Sophia the Robot(参考訳) エンジニア、アーティスト、アルゴリズムの多様なチームが協力して、さまざまなニューラルネットワーク、ロボット工学技術、芸術的ツールを通じてソフィアポップの曲を作り、ロボットの有名人やアニメーションキャラクターであるソフィア・ザ・ロボットの結果をアニメーション化した。 sophiaは芸術、研究、その他の用途のためのプラットフォームである。 ソフィアの芸術と技術の進歩のために、様々なaiとポップスターとしての彼女の急成長するキャリアの物語を組み合わせる。 彼女の実際のAIによるポップ歌詞、音楽、絵画、アニメーションによる会話は、彼女の経験を語る物語の中で人間とリアルタイムで対話する。 音楽を構成するために、SophiaPopチームは、人間とAIが生成したソフィアキャラクターのパーソナリティコンテンツとポップミュージックのフォームからコーパスを作り、エキスパートモデルやカスタムトレーニングされたトランスフォーマーニューラルネットワークを含むAIアルゴリズムの種を訓練し、提供し、その後にオリジナルのポップソングの歌詞とメロディを生成した。 Frankie Storm氏、Adam Pickrell氏、Tiger Darrow氏を含む私たちのミュージシャンは、歌と楽器を含むAI生成の音楽コンテンツを解釈しました。 人間の演奏した歌声データは、神経ネットワークに基づくソフィアの音声によって処理された。 このAIはその後、ユニークなソフィアの歌声を生み出した。 次に、Sophiaをアニメーションして、さまざまなアニメーションジェネレータと人間生成アニメーションを使って、ミュージックビデオで歌います。 アルゴリズムと人間であるSophiaPopは、人間とAIのコラボレーションであり、人間のAI共生を目指している。 このような、人間とAIが協力して働く複数の分野の創造的な収束は、人間の文化に関連するAIを、新しくエキサイティングな方法で実現し、人間とAIの関係の将来に対する希望的なビジョンへと導くことができる、と私たちは信じています。

A diverse team of engineers, artists, and algorithms, collaborated to create songs for SophiaPop, via various neural networks, robotics technologies, and artistic tools, and animated the results on Sophia the Robot, a robotic celebrity and animated character. Sophia is a platform for arts, research, and other uses. To advance the art and technology of Sophia, we combine various AI with a fictional narrative of her burgeoning career as a popstar. Her actual AI-generated pop lyrics, music, and paintings, and animated conversations wherein she interacts with humans real-time in narratives that discuss her experiences. To compose the music, SophiaPop team built corpora from human and AI-generated Sophia character personality content, along with pop music song forms, to train and provide seeds for a number of AI algorithms including expert models, and custom-trained transformer neural networks, which then generated original pop-song lyrics and melodies. Our musicians including Frankie Storm, Adam Pickrell, and Tiger Darrow, then performed interpretations of the AI-generated musical content, including singing and instrumentation. The human-performed singing data then was processed by a neural-network-based Sophia voice, which was custom-trained from human performances by Cereproc. This AI then generated the unique Sophia voice singing of the songs. Then we animated Sophia to sing the songs in music videos, using a variety of animation generators and human-generated animations. Being algorithms and humans, working together, SophiaPop represents a human-AI collaboration, aspiring toward human AI symbiosis. We believe that such a creative convergence of multiple disciplines with humans and AI working together, can make AI relevant to human culture in new and exciting ways, and lead to a hopeful vision for the future of human-AI relations.
翻訳日:2022-09-23 06:15:58 公開日:2020-11-20
# OAK:デジタル農業におけるオントロジーに基づく知識マップモデル

OAK: Ontology-Based Knowledge Map Model for Digital Agriculture ( http://arxiv.org/abs/2011.11442v1 )

ライセンス: Link先を確認
Quoc Hung Ngo, Tahar Kechadi, and Nhien-An Le-Khac(参考訳) 今日では、デジタル農業に膨大な知識が蓄積されている。 この知識とノウハウ情報は様々な情報源から収集されるため、この知識を効率的に活用するためにどのように整理するかが問題となる。 このような農業の実践に関する知識はオントロジー、ルールベースのエキスパートシステム、データマイニングプロセスから構築された知識モデルを使って表現することができるが、スケーラビリティは依然として未解決の問題である。 本研究では,異なる情報源から知識を収集し,それを蓄積し,利害関係者から直接,あるいは知識発見プロセス(データマイニング)への入力として利用する,オントロジベースの知識マップと呼ばれる知識表現モデルを提案する。 提案モデルは2段階からなる。 1)特定のドメインとデータマイニングの概念の知識基盤としてオントロジーを構築する。 2) 作物データセットにマイニングされた知識を表現・保存するためのオントロジベースの知識マップモデルの構築。 農業分野において,提案モデルの枠組みが実装されている。 効率的でスケーラブルなモデルであり、デジタル農業の知識リポジトリとして使用することができる。

Nowadays, a huge amount of knowledge has been amassed in digital agriculture. This knowledge and know-how information are collected from various sources, hence the question is how to organise this knowledge so that it can be efficiently exploited. Although this knowledge about agriculture practices can be represented using ontology, rule-based expert systems, or knowledge model built from data mining processes, the scalability still remains an open issue. In this study, we propose a knowledge representation model, called an ontology-based knowledge map, which can collect knowledge from different sources, store it, and exploit either directly by stakeholders or as an input to the knowledge discovery process (Data Mining). The proposed model consists of two stages, 1) build an ontology as a knowledge base for a specific domain and data mining concepts, and 2) build the ontology-based knowledge map model for representing and storing the knowledge mined on the crop datasets. A framework of the proposed model has been implemented in agriculture domain. It is an efficient and scalable model, and it can be used as knowledge repository a digital agriculture.
翻訳日:2022-09-23 06:15:21 公開日:2020-11-20
# 計算可能性-論理ウェブ:深層学習の代替

Computability-logic web: an alternative to deep learning ( http://arxiv.org/abs/2101.09222v1 )

ライセンス: Link先を確認
Keehang Kwon(参考訳) {\em Computability logic} (CoL) は、強力で数学的に厳密な計算モデルである。 本稿では,CoLのWeb拡張であるCoL-webが,データベース更新に関わるWebプログラミングを自然にサポートすることを示す。 具体的には、CoL(CL9)に基づくAIATMの実装について議論する。 さらに重要なのは、CoL-webは一般的なAIをサポートしており、ニューラルネットワークやディープラーニングの優れた代替手段である、ということです。 また、ニューラルネットワークをCoL-webに統合する方法についても論じる。

{\em Computability logic} (CoL) is a powerful, mathematically rigorous computational model. In this paper, we show that CoL-web, a web extension to CoL, naturally supports web programming where database updates are involved. To be specific, we discuss an implementation of the AI ATM based on CoL (CL9 to be exact). More importantly, we argue that CoL-web supports a general AI and, therefore, is a good alternative to neural nets and deep learning. We also discuss how to integrate neural nets into CoL-web.
翻訳日:2022-09-23 06:15:03 公開日:2020-11-20
# 小型CTデータセットの分類のためのターゲット型自己監督

Targeted Self Supervision for Classification on a Small COVID-19 CT Scan Dataset ( http://arxiv.org/abs/2011.10188v1 )

ライセンス: Link先を確認
Nicolas Ewen and Naimul Khan(参考訳) 伝統的に、畳み込みニューラルネットワークは人間のトレーニングに大量のデータをラベル付けする必要がある。 少量のラベル付きデータを扱う方法として自己監視が提案されている。 本研究の目的は、小型のCOVID-19 CTスキャンデータセットにおいて、自己監督が分類性能を向上させるかどうかを判断することである。 本研究の目的は,提案する自己監督戦略が,新型コロナウイルスの画像データセットにとって有効な選択肢であるかどうかを判断することである。 提案手法の分類性能とデータ量を比較して, 合計10実験を行った。 提案する自己監督戦略で実施した実験は,非自己監督戦略よりも有意に良好である。 自己管理がなければ,完全な自己管理による精度は8%近く向上します。 その結果, 自己管理により, 小規模のctスキャンデータセットにおける分類性能が向上することが示唆された。 ターゲットの自己監督のためのコードは、このリンクで見ることができる。

Traditionally, convolutional neural networks need large amounts of data labelled by humans to train. Self supervision has been proposed as a method of dealing with small amounts of labelled data. The aim of this study is to determine whether self supervision can increase classification performance on a small COVID-19 CT scan dataset. This study also aims to determine whether the proposed self supervision strategy, targeted self supervision, is a viable option for a COVID-19 imaging dataset. A total of 10 experiments are run comparing the classification performance of the proposed method of self supervision with different amounts of data. The experiments run with the proposed self supervision strategy perform significantly better than their non-self supervised counterparts. We get almost 8% increase in accuracy with full self supervision when compared to no self supervision. The results suggest that self supervision can improve classification performance on a small COVID-19 CT scan dataset. Code for targeted self supervision can be found at this link: https://github.com/Mewtwo/Targeted-Self-Supervision/tree/main/COVID-CT
翻訳日:2022-09-23 06:14:29 公開日:2020-11-20
# 映像オブジェクト検出のための時間的画像系列と物体運動の同時表現

Joint Representation of Temporal Image Sequences and Object Motion for Video Object Detection ( http://arxiv.org/abs/2011.10278v1 )

ライセンス: Link先を確認
Junho Koh, Jaekyum Kim, Younji Shin, Byeongwon Lee, Seungji Yang and Jun Won Choi(参考訳) 本稿では,時間的特徴集合と運動認識vod (tm-vod) と呼ばれる,時間的画像シーケンスと物体の動きの結合表現を生成する新しいビデオ物体検出器 (vod) 法を提案する。 時間的注意ゲーティングと空間的特徴アライメントを併用した畳み込みニューラルネットワークにより抽出された視覚特徴マップをtm-vodに集約する。 この時間的特徴集約は階層的な方法で2段階で行われる。 第1段階では、視覚特徴マップは、ゲートアテンションモデルを介して画素レベルで融合される。 第2段階において,提案手法は,時間的ボックスオフセットキャリブレーションを用いて物体の特徴を整列させた後に特徴を集約し,コサイン類似度尺度に従って重み付けする。 提案したTM-VoDは、2つの連続したステップで物体の動きを表現する。 ピクセルレベルの動作特徴は、隣接する視覚特徴マップ間のインクリメンタルな変化に基づいて最初に計算される。 次に、関心領域(roi)調整された画素レベル動作特徴と、ボックス座標の逐次変化の両方からボックスレベルの動作特徴を得る。 最後に、これら全ての機能は結合され、vodのオブジェクトの結合表現を生成する。 ImageNet VIDデータセットで実施した実験により,提案手法は既存のVoD法より優れ,最先端のVoDと同等の性能を発揮することが示された。

In this paper, we propose a new video object detector (VoD) method referred to as temporal feature aggregation and motion-aware VoD (TM-VoD), which produces a joint representation of temporal image sequences and object motion. The proposed TM-VoD aggregates visual feature maps extracted by convolutional neural networks applying the temporal attention gating and spatial feature alignment. This temporal feature aggregation is performed in two stages in a hierarchical fashion. In the first stage, the visual feature maps are fused at a pixel level via gated attention model. In the second stage, the proposed method aggregates the features after aligning the object features using temporal box offset calibration and weights them according to the cosine similarity measure. The proposed TM-VoD also finds the representation of the motion of objects in two successive steps. The pixel-level motion features are first computed based on the incremental changes between the adjacent visual feature maps. Then, box-level motion features are obtained from both the region of interest (RoI)-aligned pixel-level motion features and the sequential changes of the box coordinates. Finally, all these features are concatenated to produce a joint representation of the objects for VoD. The experiments conducted on the ImageNet VID dataset demonstrate that the proposed method outperforms existing VoD methods and achieves a performance comparable to that of state-of-the-art VoDs.
翻訳日:2022-09-23 06:08:56 公開日:2020-11-20
# ガウスパッチ混合モデルと低ランクパッチによる画像の雑音化

Image Denoising by Gaussian Patch Mixture Model and Low Rank Patches ( http://arxiv.org/abs/2011.10290v1 )

ライセンス: Link先を確認
Jing Guo (1), Shuping Wang (1), Chen Luo (1), Qiyu Jin (1), Michael Kwok-Po Ng (2) ((1) School of Mathematical Science, Inner Mongolia University, Hohhot, China, (2) Department of Mathematics, University of Hong Kong, Pokfulam, Hong Kong, China)(参考訳) 非局所自己相似性に基づく低ランクアルゴリズムは、画像のデノイジングの最先端手法である。 本稿では,類似パッチマッチング精度の向上とガウス雑音に対する適切な低ランク行列近似モデルの構築という2つの課題を解決し,新しい手法を提案する。 最初の問題では、同様のパッチをローカルまたはグローバルに見つけることができる。 ローカルパッチマッチングは、ノイズ効果を軽減することができる大きな近所で同様のパッチを見つけることであるが、パッチの数は不十分かもしれない。 グローバルパッチマッチングは、同様のパッチを十分に決定するが、パッチマッチングのエラー率が高い可能性がある。 これに基づいて,まず局所パッチマッチング法を用いてノイズを低減し,次にガウスパッチ混合モデルを用いてグローバルパッチマッチングを実現する。 第2の問題は、ガウス雑音に適応する低階行列近似モデルがないことである。 ガウス雑音の特性に則った新しいモデルを構築し,そのモデルにグローバルに最適解が存在することを証明した。 この2つの問題を解くことにより,提案手法はPSNR/SSIM値と視覚的品質の両方の深層学習を含む最先端の復調手法よりも優れていることを示す実験結果が報告された。

Non-local self-similarity based low rank algorithms are the state-of-the-art methods for image denoising. In this paper, a new method is proposed by solving two issues: how to improve similar patches matching accuracy and build an appropriate low rank matrix approximation model for Gaussian noise. For the first issue, similar patches can be found locally or globally. Local patch matching is to find similar patches in a large neighborhood which can alleviate noise effect, but the number of patches may be insufficient. Global patch matching is to determine enough similar patches but the error rate of patch matching may be higher. Based on this, we first use local patch matching method to reduce noise and then use Gaussian patch mixture model to achieve global patch matching. The second issue is that there is no low rank matrix approximation model to adapt to Gaussian noise. We build a new model according to the characteristics of Gaussian noise, then prove that there is a globally optimal solution of the model. By solving the two issues, experimental results are reported to show that the proposed approach outperforms the state-of-the-art denoising methods includes several deep learning ones in both PSNR / SSIM values and visual quality.
翻訳日:2022-09-23 06:08:33 公開日:2020-11-20
# ラベル付きデータと不均衡サンプルの少ない摩耗粒子のセグメンテーションオーバーラップ

Segmentation overlapping wear particles with few labelled data and imbalance sample ( http://arxiv.org/abs/2011.10313v1 )

ライセンス: Link先を確認
Peng Peng and Jiugen Wang(参考訳) フェログラフ画像分割は摩耗粒子の特徴を得るために重要である。 しかしながら、摩耗粒子は通常、デブリ連鎖の形で重なり合い、摩耗デブリのセグメント化が困難になる。 本研究では, 重ね合わせ粒子鎖を分割するために, オーバーラップ摩耗粒子分割ネットワーク (owpsnet) を提案する。 提案したディープラーニングモデルには,領域分割ネットワーク,エッジ検出ネットワーク,機能改良モジュールの3つの部分が含まれている。 領域分割網は改良されたU字形ネットワークであり、フェログラフ画像の摩耗破片形成背景を分離するために適用される。 エッジ検出ネットワークは、摩耗粒子のエッジを検出するために使用される。 次に,機能改善モジュールは,低レベル機能と高レベルセマンティック機能を組み合わせて最終結果を得る。 サンプル不均衡の問題を解決するために,モデル最適化のための正方形ダイス損失関数を提案した。 最後に、フェログラフ画像データセットで広範な実験が行われた。 その結果,提案モデルでは重なり合う摩耗粒子を分離できることがわかった。 さらに,提案する正方形ダイス損失関数は,特に摩耗粒子エッジのセグメンテーション結果に対して,セグメンテーション結果を改善することができる。

Ferrograph image segmentation is of significance for obtaining features of wear particles. However, wear particles are usually overlapped in the form of debris chains, which makes challenges to segment wear debris. An overlapping wear particle segmentation network (OWPSNet) is proposed in this study to segment the overlapped debris chains. The proposed deep learning model includes three parts: a region segmentation network, an edge detection network and a feature refine module. The region segmentation network is an improved U shape network, and it is applied to separate the wear debris form background of ferrograph image. The edge detection network is used to detect the edges of wear particles. Then, the feature refine module combines low-level features and high-level semantic features to obtain the final results. In order to solve the problem of sample imbalance, we proposed a square dice loss function to optimize the model. Finally, extensive experiments have been carried out on a ferrograph image dataset. Results show that the proposed model is capable of separating overlapping wear particles. Moreover, the proposed square dice loss function can improve the segmentation results, especially for the segmentation results of wear particle edge.
翻訳日:2022-09-23 06:08:15 公開日:2020-11-20
# 自己監督型小型サッカー選手検出・追跡

Self-Supervised Small Soccer Player Detection and Tracking ( http://arxiv.org/abs/2011.10336v1 )

ライセンス: Link先を確認
Samuel Hurault, Coloma Ballester, Gloria Haro(参考訳) サッカーの試合において、検出と追跡によって提供される情報は、個人やチームの行動を含むゲームの戦術的側面を分析し、理解するために重要な手がかりをもたらす。 最先端のトラッキングアルゴリズムは、トレーニングされたシナリオで印象的な結果を得るが、サッカーの試合のような挑戦的なシナリオでは失敗する。 これは、しばしばプレイヤーの相対的なサイズが小さく、同じチームのプレイヤーに類似しているためである。 簡単な解決策は、より具体的なデータセットを使用してこれらのモデルを再トレーニングすることだが、そのような公開アノテートされたデータセットの欠如は、他の効果的なソリューションを探すことを伴う。 本研究では,地上データを必要とせず,異なる記録条件下で低解像度のサッカー選手を検出・追跡できる自己教師付きパイプラインを提案する。 定量的・質的実験を行い,その性能評価を行った。 また,提案手法では,検出器と追跡器の双方が上位層,特に小型プレーヤの存在下での結果を得ることを示す。

In a soccer game, the information provided by detecting and tracking brings crucial clues to further analyze and understand some tactical aspects of the game, including individual and team actions. State-of-the-art tracking algorithms achieve impressive results in scenarios on which they have been trained for, but they fail in challenging ones such as soccer games. This is frequently due to the player small relative size and the similar appearance among players of the same team. Although a straightforward solution would be to retrain these models by using a more specific dataset, the lack of such publicly available annotated datasets entails searching for other effective solutions. In this work, we propose a self-supervised pipeline which is able to detect and track low-resolution soccer players under different recording conditions without any need of ground-truth data. Extensive quantitative and qualitative experimental results are presented evaluating its performance. We also present a comparison to several state-of-the-art methods showing that both the proposed detector and the proposed tracker achieve top-tier results, in particular in the presence of small players.
翻訳日:2022-09-23 06:07:57 公開日:2020-11-20
# 動的局在タンパク質の存在下での不完全:細胞分裂の回復

Recovering the Imperfect: Cell Segmentation in the Presence of Dynamically Localized Proteins ( http://arxiv.org/abs/2011.10486v1 )

ライセンス: Link先を確認
\"Ozg\"un \c{C}i\c{c}ek, Yassine Marrakchi, Enoch Boasiako Antwi, Barbara Di Ventura and Thomas Brox(参考訳) バイオメディカルデータにオフザシェルフセグメンテーションネットワークを配置することは一般的に行われているが、画像シーケンスに対する関心構造が一時的にしか見えない場合、既存のフレーム・バイ・フレーム方式は失敗する。 本稿では,時間的伝搬と不確実性推定に基づく不完全データの分節化の解を提供する。 不確実性推定をマスクr-cnnネットワークに統合し、不確実性の低いフレームから不確実性の高いフレームへ動き補正されたセグメンテーションマスクを伝播させ、セグメンテーションのための信号の一時的な損失に対処する。 ヒト胚腎(hek293t)細胞から得られたデータに対するフレーム毎のセグメンテーションと定期的な時間的伝播に対するこのアプローチの価値を,時間とともに核内を移動・移動する蛍光タンパク質で一過性にトランスフェクトした。 この方法は、分子機能と細胞機能を理解するための顕微鏡実験を強化する。

Deploying off-the-shelf segmentation networks on biomedical data has become common practice, yet if structures of interest in an image sequence are visible only temporarily, existing frame-by-frame methods fail. In this paper, we provide a solution to segmentation of imperfect data through time based on temporal propagation and uncertainty estimation. We integrate uncertainty estimation into Mask R-CNN network and propagate motion-corrected segmentation masks from frames with low uncertainty to those frames with high uncertainty to handle temporary loss of signal for segmentation. We demonstrate the value of this approach over frame-by-frame segmentation and regular temporal propagation on data from human embryonic kidney (HEK293T) cells transiently transfected with a fluorescent protein that moves in and out of the nucleus over time. The method presented here will empower microscopic experiments aimed at understanding molecular and cellular function.
翻訳日:2022-09-23 06:07:41 公開日:2020-11-20
# パラダイムを用いた固有画像分解

Intrinsic Image Decomposition using Paradigms ( http://arxiv.org/abs/2011.10512v1 )

ライセンス: Link先を確認
D. A. Forsyth and Jason J. Rock(参考訳) 内在的な画像分解は、イメージをアルベドにマッピングする古典的なタスクである。 WHDRデータセットは、予測と人間の判断("lighter", "same as", "darker")を比較することによって、メソッドを評価することができる。 画像からアルベドへの地図の学習には、レンダリングされたモデルと人間の判断が最適である。 これは実用的手法には便利であるが、幾何学的、表面的、照明的モデルのない視覚エージェントとレンダラーが本質的な画像の復元をいかに学べるかは説明できない。 本稿では,WHDRアノテーションやレンダリングデータ,あるいは地上真実データを見ることなく,固有の画像分解を学習する手法について述べる。 この方法は、偽のアルベドや偽のシェーディングフィールドといったパラダイムと、実画像の短期的な振る舞いを保証する新しい平滑化手順に依存している。 長期誤差は平均化によって制御される。 提案手法は,WHDRアノテーション,レンダリングデータ,地中真理データなどのトレーニングを行うことのできる,最近の強靭な手法と競合するWHDRスコアを実現する。 提案手法は教師なしであるため,WHDRスコアの試験・列車変動の推定値を計算することが可能であり,非常に大きく,報告されたWHDRの小さな差に頼っても安全ではない。

Intrinsic image decomposition is the classical task of mapping image to albedo. The WHDR dataset allows methods to be evaluated by comparing predictions to human judgements ("lighter", "same as", "darker"). The best modern intrinsic image methods learn a map from image to albedo using rendered models and human judgements. This is convenient for practical methods, but cannot explain how a visual agent without geometric, surface and illumination models and a renderer could learn to recover intrinsic images. This paper describes a method that learns intrinsic image decomposition without seeing WHDR annotations, rendered data, or ground truth data. The method relies on paradigms - fake albedos and fake shading fields - together with a novel smoothing procedure that ensures good behavior at short scales on real images. Long scale error is controlled by averaging. Our method achieves WHDR scores competitive with those of strong recent methods allowed to see training WHDR annotations, rendered data, and ground truth data. Because our method is unsupervised, we can compute estimates of the test/train variance of WHDR scores; these are quite large, and it is unsafe to rely small differences in reported WHDR.
翻訳日:2022-09-23 06:07:21 公開日:2020-11-20
# 多調和スプラインを用いた大規模ニューラルネットワーク探索

Large Scale Neural Architecture Search with Polyharmonic Splines ( http://arxiv.org/abs/2011.10608v1 )

ライセンス: Link先を確認
Ulrich Finkler, Michele Merler, Rameswar Panda, Mayoore S. Jaiswal, Hui Wu, Kandan Ramakrishnan, Chun-Fu Chen, Minsik Cho, David Kung, Rogerio Feris, and Bishwaranjan Bhattacharjee(参考訳) neural architecture search (nas)は、画像分類を含む多くのタスクでディープニューラルネットワークを自動的に設計する強力なツールである。 探索フェーズの計算負荷が大きいため、ほとんどのNAS手法は小さなバランスの取れたデータセットに焦点を合わせてきた。 大規模にnasを実行する試みはすべて、小さなプロキシセットを使用して、検索したセルを複製あるいは積み重ねることで、学習したアーキテクチャをより大きなデータセットに転送した。 大規模かつ不均衡なターゲットデータセット上で直接探索できる多調和スプラインに基づくNAS手法を提案する。 21,841のカテゴリで1400万の画像を高度に不均衡に分散したImageNet22Kベンチマーク[16]において,本手法の有効性を実証した。 ImageNet22K上でのResNet [23]とBig-Little Net ResNext [11]アーキテクチャの検索空間を探索することにより、私たちのポリハーモニックスプラインNAS法は、ImageNet22K上で40.03%の精度でトップ1の精度を達成したモデルを設計した。

Neural Architecture Search (NAS) is a powerful tool to automatically design deep neural networks for many tasks, including image classification. Due to the significant computational burden of the search phase, most NAS methods have focused so far on small, balanced datasets. All attempts at conducting NAS at large scale have employed small proxy sets, and then transferred the learned architectures to larger datasets by replicating or stacking the searched cells. We propose a NAS method based on polyharmonic splines that can perform search directly on large scale, imbalanced target datasets. We demonstrate the effectiveness of our method on the ImageNet22K benchmark[16], which contains 14 million images distributed in a highly imbalanced manner over 21,841 categories. By exploring the search space of the ResNet [23] and Big-Little Net ResNext [11] architectures directly on ImageNet22K, our polyharmonic splines NAS method designed a model which achieved a top-1 accuracy of 40.03% on ImageNet22K, an absolute improvement of 3.13% over the state of the art with similar global batch size [15].
翻訳日:2022-09-23 06:06:58 公開日:2020-11-20
# 残留ネットワークに対する効果的なアンチエイリアシング手法

An Effective Anti-Aliasing Approach for Residual Networks ( http://arxiv.org/abs/2011.10675v1 )

ライセンス: Link先を確認
Cristina Vasconcelos, Hugo Larochelle, Vincent Dumoulin, Nicolas Le Roux, Ross Goroshin(参考訳) 周波数領域における画像前処理は、コンピュータビジョンにおいて伝統的に重要な役割を担い、ディープラーニングの初期において標準パイプラインの一部であった。 しかし、大規模なデータセットの出現に伴い、多くの実践者は、これらの先行データがデータ自体から学べるという考えから、これは不要であると結論づけた。 周波数エイリアス(英: Frequency aliasing)とは、画像や特徴マップなどの信号のサブサンプリング時に発生する現象であり、サブサンプリング出力の歪みを引き起こす。 この効果を,訓練不能なぼかしフィルタを配置し,重要な位置,特にネットワークが学習能力に欠ける場所でスムーズなアクティベーション機能を使用することで軽減できることを示す。 これらの単純なアーキテクチャ変更は、imagenet-c [10]の自然腐敗下でのイメージ分類とメタデータセット[17]でのわずかなショット学習の両方において、トレーニング可能なパラメータの追加や、デフォルトのオープンソースコードベースのハイパーパラメータを使用することなく、大きな改善をもたらす。

Image pre-processing in the frequency domain has traditionally played a vital role in computer vision and was even part of the standard pipeline in the early days of deep learning. However, with the advent of large datasets, many practitioners concluded that this was unnecessary due to the belief that these priors can be learned from the data itself. Frequency aliasing is a phenomenon that may occur when sub-sampling any signal, such as an image or feature map, causing distortion in the sub-sampled output. We show that we can mitigate this effect by placing non-trainable blur filters and using smooth activation functions at key locations, particularly where networks lack the capacity to learn them. These simple architectural changes lead to substantial improvements in out-of-distribution generalization on both image classification under natural corruptions on ImageNet-C [10] and few-shot learning on Meta-Dataset [17], without introducing additional trainable parameters and using the default hyper-parameters of open source codebases.
翻訳日:2022-09-23 06:06:21 公開日:2020-11-20
# 並列マシンスケジューリング問題における流れ時間最小化のためのフィルタリングルール

Filtering Rules for Flow Time Minimization in a Parallel Machine Scheduling Problem ( http://arxiv.org/abs/2011.10307v1 )

ライセンス: Link先を確認
Margaux Nattaf (G-SCOP), Arnaud Malapert(参考訳) 本稿では,資格制約のある並列マシン上での異なる家族のジョブのスケジューリングについて検討する。 半導体製造から派生したこの制約は、同じファミリーの2つのジョブの実行の間に時間しきい値を課す。 さもなくば この家族には マシンが不適格になる 目標は、フロー時間と失格の数の両方を最小化することです。 近年,効率的な制約プログラミングモデルが提案されている。 しかし、フロータイム目標に優先順位が与えられると、モデルの効率が向上する。 本稿では,不適格が考慮されない単一機械リラクゼーションにおける流れ時間を最小限に抑える多項式時間アルゴリズムを用いる。 このアルゴリズムを使うことで、モデルの異なる変数に対するフィルタリングルールを導出することができる。 これらのルールの有効性を示す実験結果を示す。 それらは文学の混合整数線型プログラムとの競合性を改善する。

This paper studies the scheduling of jobs of different families on parallel machines with qualification constraints. Originating from semiconductor manufacturing, this constraint imposes a time threshold between the execution of two jobs of the same family. Otherwise, the machine becomes disqualified for this family. The goal is to minimize both the flow time and the number of disqualifications. Recently, an efficient constraint programming model has been proposed. However, when priority is given to the flow time objective, the efficiency of the model can be improved. This paper uses a polynomial-time algorithm which minimize the flow time for a single machine relaxation where disqualifications are not considered. Using this algorithm one can derived filtering rules on different variables of the model. Experimental results are presented showing the effectiveness of these rules. They improve the competitiveness with the mixed integer linear program of the literature.
翻訳日:2022-09-23 05:59:35 公開日:2020-11-20
# ファジィ条件下における評価と線形計画法

Assessment and Linear Programming under Fuzzy Conditions ( http://arxiv.org/abs/2011.10640v1 )

ライセンス: Link先を確認
Michael Voskoglou(参考訳) メンバの個性評価に数点ではなく質的階数を用いた場合, グループの平均パフォーマンスを評価するために, 三角・三角ファジィ数を用いた新しいファジィ法を開発した。 また, ファジィ係数を用いた線形計画問題を解くための新しい手法が開発され, 日常的応用が提案されている。

A new fuzzy method is developed using triangular/trapezoidal fuzzy numbers for evaluating a group's mean performance, when qualitative grades instead of numerical scores are used for assessing its members' individual performance. Also, a new technique is developed for solving Linear Programming problems with fuzzy coefficients and everyday life applications are presented to illustrate our results.
翻訳日:2022-09-23 05:59:24 公開日:2020-11-20
# 弱ラベル映像のセグメントレベルアライメントに対する動作時間予測

Action Duration Prediction for Segment-Level Alignment of Weakly-Labeled Videos ( http://arxiv.org/abs/2011.10190v1 )

ライセンス: Link先を確認
Reza Ghoddoosian, Saif Sayed, Vassilis Athitsos(参考訳) 本稿では,ビデオレベルアクションの順序列のみをトレーニングに使用可能な,弱教師付きアクションアライメントに焦点を当てる。 本研究では,ビデオの短時間の時間的ウィンドウをキャプチャし,そのアクションの種類に基づいて,任意の時点における動作の残余時間を予測する新しい時間的ネットワークを提案する。 さらに,後続確率を最大化する最良アライメントを得るために,セグメントレベルのビーム探索を導入する。 Segment-Level Beam Searchは、より確実な予測を持つフレームのセットのみを考慮することで、アクションを効率的に調整する。 実験の結果,従来のモデルよりも長編ビデオのアライメントが堅牢であることがわかった。 さらに,提案手法は,人気の高いBreakfast および Hollywood Extended データセットの特定のケースにおいて,技術結果の状態を達成している。

This paper focuses on weakly-supervised action alignment, where only the ordered sequence of video-level actions is available for training. We propose a novel Duration Network, which captures a short temporal window of the video and learns to predict the remaining duration of a given action at any point in time with a level of granularity based on the type of that action. Further, we introduce a Segment-Level Beam Search to obtain the best alignment, that maximizes our posterior probability. Segment-Level Beam Search efficiently aligns actions by considering only a selected set of frames that have more confident predictions. The experimental results show that our alignments for long videos are more robust than existing models. Moreover, the proposed method achieves state of the art results in certain cases on the popular Breakfast and Hollywood Extended datasets.
翻訳日:2022-09-23 05:58:31 公開日:2020-11-20
# DoDNet: 複数の部分ラベル付きデータセットから複数臓器と腫瘍を分離する学習

DoDNet: Learning to segment multi-organ and tumors from multiple partially labeled datasets ( http://arxiv.org/abs/2011.10217v1 )

ライセンス: Link先を確認
Jianpeng Zhang, Yutong Xie, Yong Xia, Chunhua Shen(参考訳) 集中的な作業コストとボクセルレベルで3d医療画像に注釈を付ける専門知識のため、ほとんどのベンチマークデータセットには1種類の臓器や腫瘍のアノテーションしか備えておらず、いわゆる部分的ラベリングの問題となっている。 そこで我々は,複数の臓器と腫瘍を部分的にラベル付けしたデータセット上に分割する動的オンデマンドネットワーク(DoDNet)を提案する。 DoDNetは共有エンコーダデコーダアーキテクチャ、タスク符号化モジュール、動的畳み込みフィルタを生成するコントローラ、そして単一だが動的セグメンテーションヘッドで構成されている。 現在のセグメンテーションタスクの情報は、そのタスクが解決されることをモデルに伝える前にタスク認識としてエンコードされる。 トレーニング後のカーネルを固定する既存のアプローチとは異なり、動的ヘッドのカーネルはコントローラによって適応的に生成され、入力画像と割り当てられたタスクの両方に条件付けされる。 したがって、DoDNetは複数の臓器や腫瘍を、より効率的かつ柔軟な方法で、複数のネットワークやマルチヘッドネットワークによって分割することができる。 我々はMOTSと呼ばれる大規模な部分ラベル付きデータセットを作成し、7つの臓器と腫瘍のセグメンテーションタスクにおいて、他の競合他社よりもDoDNetの優れたパフォーマンスを実証した。 また,motsで事前学習した重みを下流のマルチオーガンセグメンテーションタスクに移し,最新性能を達成した。 本研究は,大規模部分ラベル付きデータセットで事前学習し,(微調整後)下流の医療データセグメンテーションタスクに拡張可能な,一般的な3次元医用画像セグメンテーションモデルを提供する。 データセットとコードは利用可能である。 https://git.io/DoDNet

Due to the intensive cost of labor and expertise in annotating 3D medical images at a voxel level, most benchmark datasets are equipped with the annotations of only one type of organs and/or tumors, resulting in the so-called partially labeling issue. To address this, we propose a dynamic on-demand network (DoDNet) that learns to segment multiple organs and tumors on partially labeled datasets. DoDNet consists of a shared encoder-decoder architecture, a task encoding module, a controller for generating dynamic convolution filters, and a single but dynamic segmentation head. The information of the current segmentation task is encoded as a task-aware prior to tell the model what the task is expected to solve. Different from existing approaches which fix kernels after training, the kernels in dynamic head are generated adaptively by the controller, conditioned on both input image and assigned task. Thus, DoDNet is able to segment multiple organs and tumors, as done by multiple networks or a multi-head network, in a much efficient and flexible manner. We have created a large-scale partially labeled dataset, termed MOTS, and demonstrated the superior performance of our DoDNet over other competitors on seven organ and tumor segmentation tasks. We also transferred the weights pre-trained on MOTS to a downstream multi-organ segmentation task and achieved state-of-the-art performance. This study provides a general 3D medical image segmentation model that has been pre-trained on a large-scale partially labelled dataset and can be extended (after fine-tuning) to downstream volumetric medical data segmentation tasks. The dataset and code areavailableat: https://git.io/DoDNet
翻訳日:2022-09-23 05:58:16 公開日:2020-11-20
# オンデバイステキスト画像スーパーレゾリューション

On-Device Text Image Super Resolution ( http://arxiv.org/abs/2011.10251v1 )

ライセンス: Link先を確認
Dhruval Jain, Arun D Prabhu, Gopi Ramena, Manoj Goyal, Debi Prasanna Mohanty, Sukumar Moharana, Naresh Purre(参考訳) 超解像(SR)に関する最近の研究は、深層畳み込みニューラルネットワークの発展とともに大きな発展をみせた。 景観テキスト画像やデバイス上の文書画像から情報を抽出する必要があるが、そのほとんどは低解像度(LR)画像である。 したがって、従来スマートフォンに存在していたビクビックアップサンプリングは、LR画像に悪影響を及ぼすため、SRは必須の事前処理ステップとなる。 ユーザが自身のプライバシをよりコントロールできるようにし、クラウドコンピューティングのオーバーヘッドとGPU使用時間の短縮によってカーボンフットプリントを削減するためには、エッジ上でSRモデルを実行することが近年必要である。 モデルの実行と最適化には、スマートフォンのようなリソース制約のあるプラットフォーム上でのさまざまな課題がある。 本稿では,より鋭い文字エッジを再構成し,ocr信頼性を高める新しいディープニューラルネットワークを提案する。 提案したアーキテクチャは、様々なベンチマークデータセット上でのバイコビックアップサンプリングよりもPSNRを大幅に改善するだけでなく、1画像あたりの平均推定時間11.7msで動作する。 text330データセットでは最先端を上回っています。 また、icdar 2015 textsrデータセットにおけるocr精度は75.89%で、基底真理は78.10%である。

Recent research on super-resolution (SR) has witnessed major developments with the advancements of deep convolutional neural networks. There is a need for information extraction from scenic text images or even document images on device, most of which are low-resolution (LR) images. Therefore, SR becomes an essential pre-processing step as Bicubic Upsampling, which is conventionally present in smartphones, performs poorly on LR images. To give the user more control over his privacy, and to reduce the carbon footprint by reducing the overhead of cloud computing and hours of GPU usage, executing SR models on the edge is a necessity in the recent times. There are various challenges in running and optimizing a model on resource-constrained platforms like smartphones. In this paper, we present a novel deep neural network that reconstructs sharper character edges and thus boosts OCR confidence. The proposed architecture not only achieves significant improvement in PSNR over bicubic upsampling on various benchmark datasets but also runs with an average inference time of 11.7 ms per image. We have outperformed state-of-the-art on the Text330 dataset. We also achieve an OCR accuracy of 75.89% on the ICDAR 2015 TextSR dataset, where ground truth has an accuracy of 78.10%.
翻訳日:2022-09-23 05:57:08 公開日:2020-11-20
# 弱教師付き物体検出のためのカスケード注意ドロップアウト

Cascade Attentive Dropout for Weakly Supervised Object Detection ( http://arxiv.org/abs/2011.10258v1 )

ライセンス: Link先を確認
Wenlong Gao and Ying Chen and Yong Peng(参考訳) weakly supervised object detection (wsod)は、画像レベルの監視だけでオブジェクトを分類し、特定することを目的としている。 多くのWSODアプローチでは、初期モデルとして複数のインスタンス学習を採用しており、オブジェクト全体を無視しながら最も識別性の高いオブジェクト領域に収束しがちである。 本稿では,グローバルなコンテキストモジュールの改善とともに,部分支配問題を緩和するための新しいカスケード注意ドロップアウト戦略を提案する。 我々は、意図的にチャネル次元と空間次元の両方の注意要素を破棄し、ピクセル間およびチャネル間依存性をキャプチャし、モデルにグローバルコンテキストをよりよく理解させる。 PASCAL VOC 2007ベンチマークでは、49.8% mAP と 66.0% CorLoc を達成し、最先端技術よりも優れていた。

Weakly supervised object detection (WSOD) aims to classify and locate objects with only image-level supervision. Many WSOD approaches adopt multiple instance learning as the initial model, which is prone to converge to the most discriminative object regions while ignoring the whole object, and therefore reduce the model detection performance. In this paper, a novel cascade attentive dropout strategy is proposed to alleviate the part domination problem, together with an improved global context module. We purposely discard attentive elements in both channel and space dimensions, and capture the inter-pixel and inter-channel dependencies to induce the model to better understand the global context. Extensive experiments have been conducted on the challenging PASCAL VOC 2007 benchmarks, which achieve 49.8% mAP and 66.0% CorLoc, outperforming state-of-the-arts.
翻訳日:2022-09-23 05:50:29 公開日:2020-11-20
# ScalarFlow: コンピュータアニメーションと機械学習のための実世界のScalarトランスポートフローの大規模ボリュームデータセット

ScalarFlow: A Large-Scale Volumetric Data Set of Real-world Scalar Transport Flows for Computer Animation and Machine Learning ( http://arxiv.org/abs/2011.10284v1 )

ライセンス: Link先を確認
Marie-Lena Eckert, Kiwon Um, Nils Thuerey(参考訳) 本稿では,実世界の煙管を復元した最初の大規模データセットであるscalarflowを提案する。 また,少数のビデオストリームから物理に基づく正確な再構成を行うためのフレームワークを提案する。 本アルゴリズムの中心的なコンポーネントは,未知の流入領域の新しい推定と効率的な正則化スキームである。 私たちのデータセットには、複雑で自然な浮力駆動フローが多数含まれています。 流れは乱流に遷移し、観測可能なスカラー輸送過程を含む。 そのため、ScalarFlowデータセットは、コンピュータグラフィックス、ビジョン、学習アプリケーション向けに調整されている。 公開されたデータセットには、速度と密度のボリュームリコンストラクション、入力画像シーケンス、キャリブレーションデータ、コード、コモディティなハードウェアキャプチャ設定の再現方法の指示が含まれている。 これは、キャプチャされたデータに含まれる自然な複雑さの少なくとも一部を再現するために、キャプチャされたフローの複雑さが正規のソルバにとって大きなシミュレーション解決を必要とすることを示す最初の知覚的評価研究である。

In this paper, we present ScalarFlow, a first large-scale data set of reconstructions of real-world smoke plumes. We additionally propose a framework for accurate physics-based reconstructions from a small number of video streams. Central components of our algorithm are a novel estimation of unseen inflow regions and an efficient regularization scheme. Our data set includes a large number of complex and natural buoyancy-driven flows. The flows transition to turbulent flows and contain observable scalar transport processes. As such, the ScalarFlow data set is tailored towards computer graphics, vision, and learning applications. The published data set will contain volumetric reconstructions of velocity and density, input image sequences, together with calibration data, code, and instructions how to recreate the commodity hardware capture setup. We further demonstrate one of the many potential application areas: a first perceptual evaluation study, which reveals that the complexity of the captured flows requires a huge simulation resolution for regular solvers in order to recreate at least parts of the natural complexity contained in the captured data.
翻訳日:2022-09-23 05:50:13 公開日:2020-11-20
# RidgeSfM: 深さ不確かさ下でのロバストなペアワイズマッチングによる動きからの構造

RidgeSfM: Structure from Motion via Robust Pairwise Matching Under Depth Uncertainty ( http://arxiv.org/abs/2011.10359v1 )

ライセンス: Link先を確認
Benjamin Graham, David Novotny(参考訳) 本研究では,室内シーンの大規模画像に対して,濃密な深度マップとカメラポーズを同時に推定する問題を考える。 従来のsfmパイプラインは、2段階のアプローチでカメラを最初にバンドル調整を使用して推定し、続くマルチビューステレオステージを接地するが、我々のポーズと濃密な再構築は、修正されたバンドルアジャスタの直接出力である。 この目的のために,各深度マップを,深度ネットによって予測される有限個の基底「深度平面」の線形結合でパラメータ化する。 高品質なスパースキーポイントマッチングを用いて、深度平面とカメラポーズのフレーム単位の線形結合を最適化し、幾何学的に一貫したキーポイントのクラウドを形成する。 我々のバンドル調整はスパースキーポイントのみを考慮するが、基底平面の推論された線形係数は直ちに深度写像を与える。 RidgeSfMは、数百のフレームを集合的にアライメントすることが可能で、これは、少なくとも10フレームをアライメントできる最近のメモリ過剰なディープな代替品に対して、大きな利点である。 定量的比較により、最先端の大規模SfMパイプラインよりも優れた性能を示す。

We consider the problem of simultaneously estimating a dense depth map and camera pose for a large set of images of an indoor scene. While classical SfM pipelines rely on a two-step approach where cameras are first estimated using a bundle adjustment in order to ground the ensuing multi-view stereo stage, both our poses and dense reconstructions are a direct output of an altered bundle adjuster. To this end, we parametrize each depth map with a linear combination of a limited number of basis "depth-planes" predicted in a monocular fashion by a deep net. Using a set of high-quality sparse keypoint matches, we optimize over the per-frame linear combinations of depth planes and camera poses to form a geometrically consistent cloud of keypoints. Although our bundle adjustment only considers sparse keypoints, the inferred linear coefficients of the basis planes immediately give us dense depth maps. RidgeSfM is able to collectively align hundreds of frames, which is its main advantage over recent memory-heavy deep alternatives that can align at most 10 frames. Quantitative comparisons reveal performance superior to a state-of-the-art large-scale SfM pipeline.
翻訳日:2022-09-23 05:49:57 公開日:2020-11-20
# 注意ゲートを用いたW-Netの高度化と教師なし3次元肝セグメンテーションへの応用

Upgraded W-Net with Attention Gates and its Application in Unsupervised 3D Liver Segmentation ( http://arxiv.org/abs/2011.10654v1 )

ライセンス: Link先を確認
Dhanunjaya Mitta, Soumick Chatterjee, Oliver Speck and Andreas N\"urnberger(参考訳) 生体医用画像の分離は、放射線医が腫瘍などの異常の検出を助けることで、より良い診断と判断を迅速に行えるように助けることができる。 しかし、手動または半自動セグメンテーションは時間を要する作業である。 ディープラーニングに基づく自動セグメンテーション手法の多くは教師あり、手動でセグメンテーションを行う。 この問題の可能性のある解決策は、自動化セグメンテーションのための教師なしのディープラーニングベースのアプローチである。 我々はW-Netアーキテクチャを使用し、それを3Dボリュームに適用できるように修正した。 さらに,セグメンテーションのノイズを抑制するため,スキップ接続に注意ゲートを追加した。 分割出力の損失はソフトN-CutsとSSIMを用いた再構成出力で計算した。 条件付きランダムフィールドは、結果を微調整するための後処理ステップとして使用された。 提案法は,手動セグメンテーションと比較して肝臓セグメンテーションに対するサイス係数0.88で有望な結果を示した。

Segmentation of biomedical images can assist radiologists to make a better diagnosis and take decisions faster by helping in the detection of abnormalities, such as tumors. Manual or semi-automated segmentation, however, can be a time-consuming task. Most deep learning based automated segmentation methods are supervised and rely on manually segmented ground-truth. A possible solution for the problem would be an unsupervised deep learning based approach for automated segmentation, which this research work tries to address. We use a W-Net architecture and modified it, such that it can be applied to 3D volumes. In addition, to suppress noise in the segmentation we added attention gates to the skip connections. The loss for the segmentation output was calculated using soft N-Cuts and for the reconstruction output using SSIM. Conditional Random Fields were used as a post-processing step to fine-tune the results. The proposed method has shown promising results, with a dice coefficient of 0.88 for the liver segmentation compared against manual segmentation.
翻訳日:2022-09-23 05:49:36 公開日:2020-11-20
# 2つの時空間畳み込みニューラルネットワークを用いた卓球ストロークのきめ細かい分類のための3次元注意機構

3D attention mechanism for fine-grained classification of table tennis strokes using a Twin Spatio-Temporal Convolutional Neural Networks ( http://arxiv.org/abs/2012.05342v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin (LaBRI, UB), Jenny Benois-Pineau (LaBRI), Renaud P\'eteri, Julien Morlier(参考訳) 本稿では,テーブルテニスストロークのようなクラス間変動の少ないビデオにおける行動認識の問題に対処する。 2つのストリーム「ツイン」畳み込みニューラルネットワークは、RGBデータと光フローの両方で3D畳み込みで使用される。 アクションは時間窓の分類によって認識される。 3Dアテンションモジュールを導入し、分類効率への影響を検討する。 スポーツマンのパフォーマンスに関する研究の文脈では、卓球ストロークの特定の動作のコーパスが考慮されている。 ネットワークにおける注意ブロックの使用は、トレーニングステップを高速化し、我々の双子モデルで最大5%の分類スコアを改善する。 得られた特徴に対する影響を可視化し、注目とプレイヤーの動きと位置の相関を指摘する。 コーパス上で,最先端動作分類法と注意ブロックを用いた提案手法のスコア比較を行った。 注意ブロックを持つ提案モデルは、それとベースラインなしで過去のモデルより優れている。

The paper addresses the problem of recognition of actions in video with low inter-class variability such as Table Tennis strokes. Two stream, "twin" convolutional neural networks are used with 3D convolutions both on RGB data and optical flow. Actions are recognized by classification of temporal windows. We introduce 3D attention modules and examine their impact on classification efficiency. In the context of the study of sportsmen performances, a corpus of the particular actions of table tennis strokes is considered. The use of attention blocks in the network speeds up the training step and improves the classification scores up to 5% with our twin model. We visualize the impact on the obtained features and notice correlation between attention and player movements and position. Score comparison of state-of-the-art action classification method and proposed approach with attentional blocks is performed on the corpus. Proposed model with attention blocks outperforms previous model without them and our baseline.
翻訳日:2022-09-23 05:49:21 公開日:2020-11-20
# 深層学習ナノ粒子セグメンテーションにおける合成画像レンダリングSolvesアノテーション問題

Synthetic Image Rendering Solves Annotation Problem in Deep Learning Nanoparticle Segmentation ( http://arxiv.org/abs/2011.10505v1 )

ライセンス: Link先を確認
Leonid Mill, David Wolff, Nele Gerrits, Patrick Philipp, Lasse Kling, Florian Vollnhals, Andrew Ignatenko, Christian Jaremenko, Yixing Huang, Olivier De Castro, Jean-Nicolas Audinot, Inge Nelissen, Tom Wirtz, Andreas Maier, Silke Christiansen(参考訳) ナノ粒子は人工プロセスの結果、様々な環境に発生するため、環境や人間の健康への影響が懸念される。 適切なリスクアセスメントを可能にするために、自動画像解析手順から大いに恩恵を受ける粒子特性(大きさ、形状、組成など)の正確かつ統計的に関連する分析が必要である。 ディープラーニングはオブジェクト検出タスクにおいて印象的な結果を示すが、その適用性は、実験的な収集と手動のトレーニングデータによって制限される。 本稿では,この高価で面倒なデータ取得プロセスを回避し,エレガントでフレキシブルで汎用的な手法を提案する。 レンダリングソフトウェアを使用することで、リアルで合成されたトレーニングデータを生成し、最先端の深層ニューラルネットワークをトレーニングできることを示す。 本手法を用いて, 有毒な金属酸化物ナノ粒子アンサンブルに対する人為的アノテーションに匹敵するセグメンテーション精度を導出した。 本研究は, マイクロスコープや分光法などの様々なイメージング技術において, 深層学習による高出力粒子検出への取り組みを, プラスチックマイクロ粒子やナノ粒子の検出など, 幅広い研究・応用に向けて進めるものである。

Nanoparticles occur in various environments as a consequence of man-made processes, which raises concerns about their impact on the environment and human health. To allow for proper risk assessment, a precise and statistically relevant analysis of particle characteristics (such as e.g. size, shape and composition) is required that would greatly benefit from automated image analysis procedures. While deep learning shows impressive results in object detection tasks, its applicability is limited by the amount of representative, experimentally collected and manually annotated training data. Here, we present an elegant, flexible and versatile method to bypass this costly and tedious data acquisition process. We show that using a rendering software allows to generate realistic, synthetic training data to train a state-of-the art deep neural network. Using this approach, we derive a segmentation accuracy that is comparable to man-made annotations for toxicologically relevant metal-oxide nanoparticle ensembles which we chose as examples. Our study paves the way towards the use of deep learning for automated, high-throughput particle detection in a variety of imaging techniques such as microscopies and spectroscopies, for a wide variety of studies and applications, including the detection of plastic micro- and nanoparticles.
翻訳日:2022-09-23 05:49:08 公開日:2020-11-20
# Chessの議論はラシストか? 敵対的なヘイトスピーチデータセット

Are Chess Discussions Racist? An Adversarial Hate Speech Data Set ( http://arxiv.org/abs/2011.10280v1 )

ライセンス: Link先を確認
Rupak Sarkar, Ashiqur R. KhudaBukhsh(参考訳) 2020年6月28日、グランドマスターの中村光にチェスのポッドキャストを披露する中、アントニオ・ラディユックのyoutubeハンドルが「ハームフルで危険な」コンテンツを含んでいたためにブロックされた。 YouTubeは具体的な理由を明かさず、チャンネルは24時間以内に復活した。 しかしRadi\'cは、現在の政治状況を考えると、チェスの文脈では「白人に対する黒人」の言及は、この一時的な禁止となったと推測した。 本稿では,チェスに焦点を絞った5つのyoutubeチャンネルがホストする8,818のyoutubeビデオに対して,681,995件のコメントの膨大なコーパスを通じて,次のような研究質問を行う。 既存のヘイトスピーチ分類器がヘイトスピーチとして、良質なチェスに関する議論を誤って分類している。 人種的偏見に関する興味深いアナロジーの結果を結論として,カラーポリセミズムのより広範な課題を指摘した。

On June 28, 2020, while presenting a chess podcast on Grandmaster Hikaru Nakamura, Antonio Radi\'c's YouTube handle got blocked because it contained "harmful and dangerous" content. YouTube did not give further specific reason, and the channel got reinstated within 24 hours. However, Radi\'c speculated that given the current political situation, a referral to "black against white", albeit in the context of chess, earned him this temporary ban. In this paper, via a substantial corpus of 681,995 comments, on 8,818 YouTube videos hosted by five highly popular chess-focused YouTube channels, we ask the following research question: \emph{how robust are off-the-shelf hate-speech classifiers to out-of-domain adversarial examples?} We release a data set of 1,000 annotated comments where existing hate speech classifiers misclassified benign chess discussions as hate speech. We conclude with an intriguing analogy result on racial bias with our findings pointing out to the broader challenge of color polysemy.
翻訳日:2022-09-23 05:48:45 公開日:2020-11-20
# 第1回アフリカNLPワークショップ(2020年)

1st AfricaNLP Workshop Proceedings, 2020 ( http://arxiv.org/abs/2011.10361v1 )

ライセンス: Link先を確認
Kathleen Siminyu, Laura Martinus, Vukosi Marivate(参考訳) 第1回アフリカNLPワークショップは4月26日にICLR 2020、Virtual Conference、Addis Ababa Ethiopiaと共に開催された。

Proceedings of the 1st AfricaNLP Workshop held on 26th April alongside ICLR 2020, Virtual Conference, Formerly Addis Ababa Ethiopia.
翻訳日:2022-09-23 05:48:24 公開日:2020-11-20
# 歴史新聞における話題モデリング談話力学

Topic modelling discourse dynamics in historical newspapers ( http://arxiv.org/abs/2011.10428v1 )

ライセンス: Link先を確認
Jani Marjanen, Elaine Zosa, Simon Hengchen, Lidia Pivovarova, Mikko Tolonen(参考訳) 本稿では,歴史研究におけるダイアクロニックデータ解析の方法論的問題に対処する。 話題モデル(LDAとDTM)の2つのファミリーを,談話力学の把握と理解を目的とした,比較的大規模な歴史新聞に適用する。 ケーススタディは1854年から1917年にかけてフィンランドで発行された新聞や定期刊行物に焦点をあてるが、我々の手法はどんなダイアクロニックデータにも容易に適用できる。 私たちの主な貢献は イ 巨大かつ不均衡なダイアクロニックテキストコレクションに話題モデルを適用するための複合的なサンプリング、トレーニング及び推論手順 b) この種のデータに対する2つの話題モデルの違いに関する議論 c) ある期間の話題の優位性を定量化し、したがって、談話レベルへの文書的話題の割り当ての一般化 d) 話題モデルによる談話のダイナミクスの分析におけるヒューマニズム的解釈の役割に関する議論。

This paper addresses methodological issues in diachronic data analysis for historical research. We apply two families of topic models (LDA and DTM) on a relatively large set of historical newspapers, with the aim of capturing and understanding discourse dynamics. Our case study focuses on newspapers and periodicals published in Finland between 1854 and 1917, but our method can easily be transposed to any diachronic data. Our main contributions are a) a combined sampling, training and inference procedure for applying topic models to huge and imbalanced diachronic text collections; b) a discussion on the differences between two topic models for this type of data; c) quantifying topic prominence for a period and thus a generalization of document-wise topic assignment to a discourse level; and d) a discussion of the role of humanistic interpretation with regard to analysing discourse dynamics through topic models.
翻訳日:2022-09-23 05:48:20 公開日:2020-11-20
# cscf:実用的な応用問題に対するカオス正弦波コサインホタルアルゴリズム

CSCF: a chaotic sine cosine firefly Algorithm for practical application problems ( http://arxiv.org/abs/2011.10283v1 )

ライセンス: Link先を確認
Bryar A. Hassan(参考訳) 近年,多くのメタヒューリスティックなアプローチが,難解な導出,非常に大きなメモリ空間要件,初期値感度など,いくつかの既存手法の計算複雑性の低減を意図している。 しかしながら、いくつかの最適化アルゴリズム、すなわちfireflyアルゴリズム、sine cosineアルゴリズム、 particle swarm optimizationアルゴリズムは計算複雑性や収束速度といった欠点が少ない。 このような欠点を克服するため,本稿では,最適化問題を解くために,多数の変種を持つ新しいCSCFアルゴリズムを提案する。 ここでは、2つのアルゴリズムのカオス形式である正コサインアルゴリズム(SCA)とファイアフライアルゴリズム(FF)を統合し、収束速度と効率を改善することにより、いくつかの複雑性問題を最小化する。 さらに、提案するcscfアプローチは様々なカオス相の下で動作し、最適なカオスマッピングを含む最適なカオス変種を選択する。 次に、CSCFアルゴリズムのシステム性能を調べるために、多数のカオスベンチマーク関数を利用する。 最後に, 工学設計に基づく問題に対するシミュレーション結果を用いて, 提案アルゴリズムの有効性, 堅牢性, 有効性を示す。

Recently, numerous meta-heuristic based approaches are deliberated to reduce the computational complexities of several existing approaches that include tricky derivations, very large memory space requirement, initial value sensitivity etc. However, several optimization algorithms namely firefly algorithm, sine cosine algorithm, particle swarm optimization algorithm have few drawbacks such as computational complexity, convergence speed etc. So to overcome such shortcomings, this paper aims in developing a novel Chaotic Sine Cosine Firefly (CSCF) algorithm with numerous variants to solve optimization problems. Here, the chaotic form of two algorithms namely the sine cosine algorithm (SCA) and the Firefly (FF) algorithms are integrated to improve the convergence speed and efficiency thus minimizing several complexity issues. Moreover, the proposed CSCF approach is operated under various chaotic phases and the optimal chaotic variants containing the best chaotic mapping is selected. Then numerous chaotic benchmark functions are utilized to examine the system performance of the CSCF algorithm. Finally, the simulation results for the problems based on engineering design are demonstrated to prove the efficiency, robustness and effectiveness of the proposed algorithm.
翻訳日:2022-09-23 05:42:27 公開日:2020-11-20
# 通信制約付き分散最適化における複数のゴシップステップの利点について

On the Benefits of Multiple Gossip Steps in Communication-Constrained Decentralized Optimization ( http://arxiv.org/abs/2011.10643v1 )

ライセンス: Link先を確認
Abolfazl Hashemi, Anish Acharya, Rudrajit Das, Haris Vikalo, Sujay Sanghavi, Inderjit Dhillon(参考訳) 分散最適化では、ノードを(局所的な)勾配降下反復をゴシップ(ネットワーク上の平均化)ステップでインターリーブするアルゴリズムが一般的である。 大規模機械学習モデルのトレーニングによって動機付けられたメッセージは、ローカルパラメータの可逆圧縮バージョンを要求されることがますます一般的になっている。 本稿では,圧縮された分散最適化設定において,圧縮情報の精度を低下させるなど,そのコストが適切に考慮されている場合でも,後続の勾配イテレーションの間に"em multiple"のゴシップステップを持つことにメリットがあることを示す。 特に、これらの各イテレーション間の$o(\log\frac{1}{\epsilon})$gradient iterations {with constant step size} - and $o(\log\frac{1}{\epsilon})$ gossip stepを、polyak-\l{}ojasiewicz条件を満たす滑らかな非凸目的に対して最適な値である$\epsilon$に収束できることを示す。 この結果は滑らかな強凸目的にも当てはまる。 我々の知る限り、これは任意の通信圧縮の下で非凸最適化の収束結果を導出する最初の研究である。

In decentralized optimization, it is common algorithmic practice to have nodes interleave (local) gradient descent iterations with gossip (i.e. averaging over the network) steps. Motivated by the training of large-scale machine learning models, it is also increasingly common to require that messages be {\em lossy compressed} versions of the local parameters. In this paper, we show that, in such compressed decentralized optimization settings, there are benefits to having {\em multiple} gossip steps between subsequent gradient iterations, even when the cost of doing so is appropriately accounted for e.g. by means of reducing the precision of compressed information. In particular, we show that having $O(\log\frac{1}{\epsilon})$ gradient iterations {with constant step size} - and $O(\log\frac{1}{\epsilon})$ gossip steps between every pair of these iterations - enables convergence to within $\epsilon$ of the optimal value for smooth non-convex objectives satisfying Polyak-\L{}ojasiewicz condition. This result also holds for smooth strongly convex objectives. To our knowledge, this is the first work that derives convergence results for nonconvex optimization under arbitrary communication compression.
翻訳日:2022-09-23 05:40:29 公開日:2020-11-20
# オンライン学習による制約付き線形不確かさシステムのリスク・アバース確率mpc

Online Learning Based Risk-Averse Stochastic MPC of Constrained Linear Uncertain Systems ( http://arxiv.org/abs/2011.11441v1 )

ライセンス: Link先を確認
Chao Ning, Fengqi You(参考訳) 本稿では, 確率分布が不明だがデータから部分的に推定できる線形時間不変系に対して, データ駆動確率モデル予測制御(MPC)を設計する際の問題点について検討する。 本稿では,システム状態に対する条件付きバリュー・アット・リスク(CVaR)制約があいまい性集合と呼ばれる分布の族を保持するために必要となる,オンライン学習に基づくリスク・アバース確率的MPCフレームワークを提案する。 曖昧性セットは、基盤となるデータ構造と複雑性に自己適応的なdirichletプロセス混合モデルを利用して、外乱データから構築される。 具体的には、各混合成分の1次および2次モーメント情報を曖昧性集合に組み込むように、マルチモダリティの構造的性質を悪用する。 提案したあいまい性集合に対する分布的ロバストCVaR制約の等価な再構成に基づいて,新しい制約緩和戦略を開発する。 コントローラの実行中により多くのデータが収集されると、リアルタイム外乱データを使用して曖昧性セットがオンラインに更新される。 オンライン変分推論アルゴリズムは、すべての収集データをスクラッチから学習する必要がないため、提案したMPCは、オンライン学習の計算複雑性を保証している。 提案したMPCの再帰可能性と閉ループ安定性の保証は,安全な更新方式によって確立される。 数値例は,提案するmpcの有効性と利点を説明するために用いられる。

This paper investigates the problem of designing data-driven stochastic Model Predictive Control (MPC) for linear time-invariant systems under additive stochastic disturbance, whose probability distribution is unknown but can be partially inferred from data. We propose a novel online learning based risk-averse stochastic MPC framework in which Conditional Value-at-Risk (CVaR) constraints on system states are required to hold for a family of distributions called an ambiguity set. The ambiguity set is constructed from disturbance data by leveraging a Dirichlet process mixture model that is self-adaptive to the underlying data structure and complexity. Specifically, the structural property of multimodality is exploit-ed, so that the first- and second-order moment information of each mixture component is incorporated into the ambiguity set. A novel constraint tightening strategy is then developed based on an equivalent reformulation of distributionally ro-bust CVaR constraints over the proposed ambiguity set. As more data are gathered during the runtime of the controller, the ambiguity set is updated online using real-time disturbance data, which enables the risk-averse stochastic MPC to cope with time-varying disturbance distributions. The online variational inference algorithm employed does not require all collected data be learned from scratch, and therefore the proposed MPC is endowed with the guaranteed computational complexity of online learning. The guarantees on recursive feasibility and closed-loop stability of the proposed MPC are established via a safe update scheme. Numerical examples are used to illustrate the effectiveness and advantages of the proposed MPC.
翻訳日:2022-09-23 05:39:45 公開日:2020-11-20
# MobileDepth: モバイルデバイス上での効率的な単眼深度予測

MobileDepth: Efficient Monocular Depth Prediction on Mobile Devices ( http://arxiv.org/abs/2011.10189v1 )

ライセンス: Link先を確認
Yekai Wang(参考訳) 深度予測は、コンピュータビジョンやロボットシステムにおける多くの有用な応用に基礎を置いている。 携帯電話では,拡張現実やオートフォーカスなどの有用なアプリケーションの性能を,正確な深度予測によって向上させることができる。 本研究では,エンコーダとしてregnety 06を,デコーダとして分割結合型シャッフルブロックを使用する,深さ予測のための効率的な完全畳み込みネットワークアーキテクチャを提案する。 同時に、軽量ネットワークを効率的にトレーニングするためのデータ拡張、ハイパーパラメータ、損失関数の適切な組み合わせも提供された。 また、cnnモデルを読み込んで、モバイルカメラから撮影した単眼画像によって深度マップを予測し、モデルの平均レイテンシとフレームを評価できるandroidアプリケーションも開発されている。 その結果、ネットワークはNYU Depth v2データセット上で82.7%の精度を達成すると同時に、ARM A76 CPU上で62msのレイテンシしか持たないため、モバイルカメラからの深度マップをリアルタイムで予測できる。

Depth prediction is fundamental for many useful applications on computer vision and robotic systems. On mobile phones, the performance of some useful applications such as augmented reality, autofocus and so on could be enhanced by accurate depth prediction. In this work, an efficient fully convolutional network architecture for depth prediction has been proposed, which uses RegNetY 06 as the encoder and split-concatenate shuffle blocks as decoder. At the same time, an appropriate combination of data augmentation, hyper-parameters and loss functions to efficiently train the lightweight network has been provided. Also, an Android application has been developed which can load CNN models to predict depth map by the monocular images captured from the mobile camera and evaluate the average latency and frame per second of the models. As a result, the network achieves 82.7% {\delta}1 accuracy on NYU Depth v2 dataset and at the same time, have only 62ms latency on ARM A76 CPUs so that it can predict the depth map from the mobile camera in real-time.
翻訳日:2022-09-23 05:39:19 公開日:2020-11-20
# Shuffleと学習:教師なしハッシュのための相互情報の最小化

Shuffle and Learn: Minimizing Mutual Information for Unsupervised Hashing ( http://arxiv.org/abs/2011.10239v1 )

ライセンス: Link先を確認
Fangrui Liu, Zheng Liu(参考訳) 教師なしバイナリ表現は、アノテーションなしで高速なデータ検索を可能にし、高速人物再識別やマルチメディア検索のような実用的なアプリケーションを可能にする。 バイナリ空間における競合は、現在のメソッドが完全なドメイン内の正確なコード競合を捕捉できなかったため、高性能な教師なしハッシュに対する大きな障壁の1つである、と論じられている。 教師なしハッシュの符号競合に対処するために、shuffle and learnと呼ばれる新しい緩和法が提案されている。 ハッシュから入力への更新をブリッジするために、ジョイント確率の近似微分とバイナリ層の勾配を導入する。 相互情報に適用される更新の正確性を保証するため、近似微分を持つ合同確率の$\epsilon$-convergenceに関する証明を提供する。 提案アルゴリズムは相互情報を最小限に抑えるために反復的グローバル更新を用いて実行され、通常の教師なし最適化の前にコードを分岐する。 実験により,提案手法は局所最適からコードの最適化を緩和し,アノテーションを使わずにより識別的かつ情報的なバイナリ表現を生成することができることが示唆された。 教師なしバイナリコードによる画像検索のパフォーマンスベンチマークを3つのオープンデータセット上で実施し、これらのデータセットに対する画像検索タスクにおける最先端の精度を実現する。 データセットと再現可能なコードが提供される。

Unsupervised binary representation allows fast data retrieval without any annotations, enabling practical application like fast person re-identification and multimedia retrieval. It is argued that conflicts in binary space are one of the major barriers to high-performance unsupervised hashing as current methods failed to capture the precise code conflicts in the full domain. A novel relaxation method called Shuffle and Learn is proposed to tackle code conflicts in the unsupervised hash. Approximated derivatives for joint probability and the gradients for the binary layer are introduced to bridge the update from the hash to the input. Proof on $\epsilon$-Convergence of joint probability with approximated derivatives is provided to guarantee the preciseness on update applied on the mutual information. The proposed algorithm is carried out with iterative global updates to minimize mutual information, diverging the code before regular unsupervised optimization. Experiments suggest that the proposed method can relax the code optimization from local optimum and help to generate binary representations that are more discriminative and informative without any annotations. Performance benchmarks on image retrieval with the unsupervised binary code are conducted on three open datasets, and the model achieves state-of-the-art accuracy on image retrieval task for all those datasets. Datasets and reproducible code are provided.
翻訳日:2022-09-23 05:39:01 公開日:2020-11-20
# 単純なシームズ表現学習の探求

Exploring Simple Siamese Representation Learning ( http://arxiv.org/abs/2011.10566v1 )

ライセンス: Link先を確認
Xinlei Chen and Kaiming He(参考訳) シームズネットワークは、教師なし視覚表現学習の様々なモデルにおいて共通の構造となっている。 これらのモデルは、1つの画像の2つの拡張の類似性を最大化し、崩壊する解を避けるための特定の条件を満たす。 本稿では、単純なシャムネットワークが、下記のどれも使わずに意味のある表現を学習できるという驚くべき実験結果を報告する。 (i)負のサンプル対。 (ii)大きなバッチ。 (iii)運動量エンコーダ。 実験の結果,崩壊解は損失や構造に対して存在するが,崩壊防止には停止段階の操作が不可欠であることがわかった。 停止段階の含意に関する仮説を提案し、さらにそれを検証した概念実証実験を示す。 我々の"SimSiam"メソッドは、ImageNetおよび下流タスクの競合結果を達成する。 このシンプルなベースラインが、教師なし表現学習におけるシームズアーキテクチャの役割を再考する動機になることを期待しています。 コードは利用可能になる。

Siamese networks have become a common structure in various recent models for unsupervised visual representation learning. These models maximize the similarity between two augmentations of one image, subject to certain conditions for avoiding collapsing solutions. In this paper, we report surprising empirical results that simple Siamese networks can learn meaningful representations even using none of the following: (i) negative sample pairs, (ii) large batches, (iii) momentum encoders. Our experiments show that collapsing solutions do exist for the loss and structure, but a stop-gradient operation plays an essential role in preventing collapsing. We provide a hypothesis on the implication of stop-gradient, and further show proof-of-concept experiments verifying it. Our "SimSiam" method achieves competitive results on ImageNet and downstream tasks. We hope this simple baseline will motivate people to rethink the roles of Siamese architectures for unsupervised representation learning. Code will be made available.
翻訳日:2022-09-23 05:33:09 公開日:2020-11-20
# ATSal:360度ビデオの可用性予測のための注意ベースのアーキテクチャ

ATSal: An Attention Based Architecture for Saliency Prediction in 360 Videos ( http://arxiv.org/abs/2011.10600v1 )

ライセンス: Link先を確認
Yasser Dahou, Marouane Tliba, Kevin McGuinness, Noel O'Connor(参考訳) 360ビデオ/イメージの球面領域表現は、全方向ビデオ(ODV)の保存、処理、送信、レンダリングに関する多くの課題を提示する。 人間の視覚的注意のモデルは、一度に1つのビューポートのみをレンダリングするために使用することができ、これはユーザがヘッドマウントディスプレイ(HMD)でODVを探索できるシステムの開発において重要である。 そのため、研究者は360度ビデオ/画像のための様々なサリエンシモデルを提案した。 本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。 アテンションメカニズムは、グローバルな静的アテンションを明示的にエンコードすることで、専門家モデルが連続したフレームを通してローカルパッチのサリエンシを学習することに集中できるようにする。 提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。 80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。

The spherical domain representation of 360 video/image presents many challenges related to the storage, processing, transmission and rendering of omnidirectional videos (ODV). Models of human visual attention can be used so that only a single viewport is rendered at a time, which is important when developing systems that allow users to explore ODV with head mounted displays (HMD). Accordingly, researchers have proposed various saliency models for 360 video/images. This paper proposes ATSal, a novel attention based (head-eye) saliency model for 360\degree videos. The attention mechanism explicitly encodes global static visual attention allowing expert models to focus on learning the saliency on local patches throughout consecutive frames. We compare the proposed approach to other state-of-the-art saliency models on two datasets: Salient360! and VR-EyeTracking. Experimental results on over 80 ODV videos (75K+ frames) show that the proposed method outperforms the existing state-of-the-art.
翻訳日:2022-09-23 05:32:56 公開日:2020-11-20
# マルチモーダルメンタルウェルビング分類のためのディープトランスファー学習と信号画像符号化の併用

Combining Deep Transfer Learning with Signal-image Encoding for Multi-Modal Mental Wellbeing Classification ( http://arxiv.org/abs/2012.03711v1 )

ライセンス: Link先を確認
Kieran Woodward, Eiman Kanjo, Athanasios Tsanas(参考訳) 感情状態の定量化は幸福を理解するための重要なステップである。 生理学や運動センサーデータなどの複数のモードからの時系列データは、感情の測定と定量化に不可欠であることが証明されている。 長期にわたる感情的軌跡のモニタリングは、トレーニングデータのサイズに関していくつかの限界を継承する。 この欠点は、信頼性と正確な機械学習モデルの開発を妨げる可能性がある。 この問題に対処するために,複数のマルチモーダルデータセット上で感情状態認識を行う際の限界に対処する枠組みを提案する。 1) 多変量時系列データをカラー画像に符号化すること 2) 事前学習対象認識モデルを利用して,ステップ1の画像を用いた伝達学習(TL)アプローチを適用する。 3) 1次元畳み込みニューラルネットワーク(cnn)を利用して,生理データから感情分類を行う。 4) 事前学習TLモデルと1D CNNを連結した。 さらに,大規模物理活動データセットを用いて1次元CNNをトレーニングし,学習した知識を対象データセットに適用することにより,生理的データからストレスを推測するためのTLの実行の可能性を検討する。 その結果,従来のCNNを4.5%上回る98.5%の精度で,実世界の幸福度を5-point Likertスケールで推定する際のモデル性能が向上できることが実証された。 同じアプローチを用いた対象非依存モデルでは平均72.3%の精度(SD 0.038)が得られた。 提案するcnn-tlに基づく手法は、小規模のトレーニングデータセットによる問題を克服し、従来のディープラーニング手法の性能を向上させる。

The quantification of emotional states is an important step to understanding wellbeing. Time series data from multiple modalities such as physiological and motion sensor data have proven to be integral for measuring and quantifying emotions. Monitoring emotional trajectories over long periods of time inherits some critical limitations in relation to the size of the training data. This shortcoming may hinder the development of reliable and accurate machine learning models. To address this problem, this paper proposes a framework to tackle the limitation in performing emotional state recognition on multiple multimodal datasets: 1) encoding multivariate time series data into coloured images; 2) leveraging pre-trained object recognition models to apply a Transfer Learning (TL) approach using the images from step 1; 3) utilising a 1D Convolutional Neural Network (CNN) to perform emotion classification from physiological data; 4) concatenating the pre-trained TL model with the 1D CNN. Furthermore, the possibility of performing TL to infer stress from physiological data is explored by initially training a 1D CNN using a large physical activity dataset and then applying the learned knowledge to the target dataset. We demonstrate that model performance when inferring real-world wellbeing rated on a 5-point Likert scale can be enhanced using our framework, resulting in up to 98.5% accuracy, outperforming a conventional CNN by 4.5%. Subject-independent models using the same approach resulted in an average of 72.3% accuracy (SD 0.038). The proposed CNN-TL-based methodology may overcome problems with small training datasets, thus improving on the performance of conventional deep learning methods.
翻訳日:2022-09-23 05:32:23 公開日:2020-11-20
# 教科書を用いた概念間の前提関係の探索

Finding Prerequisite Relations between Concepts using Textbook ( http://arxiv.org/abs/2011.10337v1 )

ライセンス: Link先を確認
Shivam Pal, Vipul Arora, Pawan Goyal(参考訳) 前提条件は、何か新しいことを学び、理解しようとする前に、最初に知るか、理解する必要があることである。 本稿では,関連する教科書を用いて概念間の前提関係を求める手法を提案する。 従来の研究者は、教師なしおよび教師なしの学習アプローチを通じて、wikipediaのリンク構造を使ってこれらの関係を見つけることに重点を置いてきた。 本研究では,統計的手法と学習に基づく方法の2つの方法を提案する。 教科書で利用可能な豊かで構造化された知識を抽出し、それらの概念とそれらが議論される順序のコンテンツを見つける。 この情報を用いて,提案手法は,概念間の暗黙的前提関係と同様に明示的な推定を行う。 実験中,wikipediaリンク構造を用いた人気のあるrefd法よりも,提案手法の性能が優れていることがわかった。 提案手法は,グラフやテキストベースの学習手法と比較して,教師あり学習法の有効性が著しく向上している。

A prerequisite is anything that you need to know or understand first before attempting to learn or understand something new. In the current work, we present a method of finding prerequisite relations between concepts using related textbooks. Previous researchers have focused on finding these relations using Wikipedia link structure through unsupervised and supervised learning approaches. In the current work, we have proposed two methods, one is statistical method and another is learning-based method. We mine the rich and structured knowledge available in the textbooks to find the content for those concepts and the order in which they are discussed. Using this information, proposed statistical method estimates explicit as well as implicit prerequisite relations between concepts. During experiments, we have found performance of proposed statistical method is better than the popular RefD method, which uses Wikipedia link structure. And proposed learning-based method has shown a significant increase in the efficiency of supervised learning method when compared with graph and text-based learning-based approaches.
翻訳日:2022-09-23 05:31:40 公開日:2020-11-20
# レビュー支援のユーザ・アイテム・アウェア推定

User and Item-aware Estimation of Review Helpfulness ( http://arxiv.org/abs/2011.10456v1 )

ライセンス: Link先を確認
Noemi Mauro and Liliana Ardissono and Giovanna Petrone(参考訳) オンラインレビューサイトでは, 個人レビューの特性をローカルに研究することで, 意思決定に役立つユーザフィードバックの分析を行うのが一般的である。 しかし、ユーザフィードバックの品質を正確に評価するためには、グローバルなプロパティも考慮すべきである。 本稿では,「中核から」フィードバックが項目評価に役立つという直感に則って,レビューの性質における逸脱が有用性決定要因としての役割を考察する。 本研究では, 評価, 長さ, 極性の偏差を, 同一人物が書いたレビュー, あるいは同一項目について分析することにより, 過去の評価を拡張できる新しい有用度推定モデルを提案する。 Yelpのソーシャルネットワークから抽出した2つの大規模なレビューデータセットを用いて回帰分析を行った結果,レビュー長と評価におけるユーザベースの偏差が,有用性に明確に影響を及ぼしていることがわかった。 さらに, 同データセットを用いた実験により, 有用性推定モデルの統合により, 評価評価のための高品質なデータの選択を強化することにより, 協調推薦システムの性能向上が図られた。 そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。

In online review sites, the analysis of user feedback for assessing its helpfulness for decision-making is usually carried out by locally studying the properties of individual reviews. However, global properties should be considered as well to precisely evaluate the quality of user feedback. In this paper we investigate the role of deviations in the properties of reviews as helpfulness determinants with the intuition that "out of the core" feedback helps item evaluation. We propose a novel helpfulness estimation model that extends previous ones with the analysis of deviations in rating, length and polarity with respect to the reviews written by the same person, or concerning the same item. A regression analysis carried out on two large datasets of reviews extracted from Yelp social network shows that user-based deviations in review length and rating clearly influence perceived helpfulness. Moreover, an experiment on the same datasets shows that the integration of our helpfulness estimation model improves the performance of a collaborative recommender system by enhancing the selection of high-quality data for rating estimation. Our model is thus an effective tool to select relevant user feedback for decision-making.
翻訳日:2022-09-23 05:31:19 公開日:2020-11-20
# フレキシブルシミュレーション環境によるシーン理解とタスク実行の橋渡し

Bridging Scene Understanding and Task Execution with Flexible Simulation Environments ( http://arxiv.org/abs/2011.10452v1 )

ライセンス: Link先を確認
Zachary Ravichandran, J. Daniel Griffith, Benjamin Smith, and Costas Frost(参考訳) 世界の3d、メートル法、オブジェクト指向の表現を構築しようとするシーン理解において、大きな進歩があった。 同時に、強化学習は、シミュレーションの進歩によって大きな進歩を遂げた。 相対的に、知覚アルゴリズムのシミュレーションにはあまり焦点が当てられていない。 メトリック・セマンティクスマッピングや3d動的シーングラフ生成のような高度な知覚アプローチでは、インタラクティブな環境で正確な3d、2d、慣性情報を必要とするため、シミュレーションはますます重要になっている。 そこで我々は,シーン理解とタスク実行アルゴリズムを開発するためのオープンソースシミュレータであるTESSE(Task Execution with Semantic Segmentation Environments)を紹介する。 tesseはメトリック・セマンティクスマッピングと3次元動的シーングラフ生成のための最先端ソリューションの開発に使われている。 さらにTESSEは、強化学習を重視したオブジェクト検索コンペであるInternational Conference of Robotics and Automation (ICRA) 2020において、GOSEEK Challengeのプラットフォームとして機能した。 TESSEのコードはhttps://github.com/MIT-TESSEで公開されている。

Significant progress has been made in scene understanding which seeks to build 3D, metric and object-oriented representations of the world. Concurrently, reinforcement learning has made impressive strides largely enabled by advances in simulation. Comparatively, there has been less focus in simulation for perception algorithms. Simulation is becoming increasingly vital as sophisticated perception approaches such as metric-semantic mapping or 3D dynamic scene graph generation require precise 3D, 2D, and inertial information in an interactive environment. To that end, we present TESSE (Task Execution with Semantic Segmentation Environments), an open source simulator for developing scene understanding and task execution algorithms. TESSE has been used to develop state-of-the-art solutions for metric-semantic mapping and 3D dynamic scene graph generation. Additionally, TESSE served as the platform for the GOSEEK Challenge at the International Conference of Robotics and Automation (ICRA) 2020, an object search competition with an emphasis on reinforcement learning. Code for TESSE is available at https://github.com/MIT-TESSE.
翻訳日:2022-09-23 05:30:15 公開日:2020-11-20
# データ依存学習の効率化

Efficient Data-Dependent Learnability ( http://arxiv.org/abs/2011.10334v1 )

ライセンス: Link先を確認
Yaniv Fogel, Tal Shapira and Meir Feder(参考訳) 予測正規化最大可能性(pNML)アプローチは、最近、トレーニングセットとテストデータ特徴の両方が既知のシーケンスであるバッチ学習問題に対する min-max 最適解として提案されている。 このアプローチは安定性尺度としても解釈できる学習可能性尺度を生み出している。 この尺度は分布外例の検出にいくつかの可能性を示しているが、計算コストは相当である。 本稿では,影響関数に基づくpNMLの近似を提案し,解析する。 理論的解析と実験を組み合わせることで、ニューラルネットワークに適用すると、この近似が分布外例を効果的に検出できることを示す。 また、可能なラベルごとに単一の勾配ステップを実行することで達成した性能と比較する。

The predictive normalized maximum likelihood (pNML) approach has recently been proposed as the min-max optimal solution to the batch learning problem where both the training set and the test data feature are individuals, known sequences. This approach has yields a learnability measure that can also be interpreted as a stability measure. This measure has shown some potential in detecting out-of-distribution examples, yet it has considerable computational costs. In this project, we propose and analyze an approximation of the pNML, which is based on influence functions. Combining both theoretical analysis and experiments, we show that when applied to neural networks, this approximation can detect out-of-distribution examples effectively. We also compare its performance to that achieved by conducting a single gradient step for each possible label.
翻訳日:2022-09-23 05:24:01 公開日:2020-11-20
# 共役写像を用いた軽量データ融合

Lightweight Data Fusion with Conjugate Mappings ( http://arxiv.org/abs/2011.10607v1 )

ライセンス: Link先を確認
Christopher L. Dean, Stephen J. Lee, Jason Pacheco, John W. Fisher III(参考訳) 本稿では,構造化確率的グラフィカルモデルの解釈可能性とニューラルネットワークの柔軟性を組み合わせたデータ融合手法を提案する。 提案手法は,有意データ量と有意データ量との有意な統計的関係を欠くが,有意データ量と有意データ量との相関が十分でない2種類の情報を用いて,有意データ融合 (LDF) を実現する。 補助データに対する前方モデルの欠如は、標準データ融合アプローチの使用を妨げる一方で、潜在変数の観測ができないことは、ほとんどの教師付き学習手法の直接適用を著しく制限する。 LDFは、ニューラルネットワークを補助データの共役写像として利用することでこれらの問題に対処する。 これにより、プライマリデータの共役性を保持し、潜在変数の後続分布のコンパクト表現に繋がる効率的な推論が容易になる。 本研究では,(1)衛星画像からルワンダの電化率を学習し,(2)複数の共役写像の混合モデルを用いて社会経済データを統合することで,米国における郡レベルの殺人率を推定する。

We present an approach to data fusion that combines the interpretability of structured probabilistic graphical models with the flexibility of neural networks. The proposed method, lightweight data fusion (LDF), emphasizes posterior analysis over latent variables using two types of information: primary data, which are well-characterized but with limited availability, and auxiliary data, readily available but lacking a well-characterized statistical relationship to the latent quantity of interest. The lack of a forward model for the auxiliary data precludes the use of standard data fusion approaches, while the inability to acquire latent variable observations severely limits direct application of most supervised learning methods. LDF addresses these issues by utilizing neural networks as conjugate mappings of the auxiliary data: nonlinear transformations into sufficient statistics with respect to the latent variables. This facilitates efficient inference by preserving the conjugacy properties of the primary data and leads to compact representations of the latent variable posterior distributions. We demonstrate the LDF methodology on two challenging inference problems: (1) learning electrification rates in Rwanda from satellite imagery, high-level grid infrastructure, and other sources; and (2) inferring county-level homicide rates in the USA by integrating socio-economic data using a mixture model of multiple conjugate mappings.
翻訳日:2022-09-23 05:23:01 公開日:2020-11-20
# 複雑度制御による生成逆数ネットワーク

Complexity Controlled Generative Adversarial Networks ( http://arxiv.org/abs/2011.10223v1 )

ライセンス: Link先を確認
Himanshu Pant, Jayadeva and Sumit Soman(参考訳) gans(generative adversarial nets)のトレーニングで直面する問題の一つは、より多くのトレーニングデータを使用するにつれて生成損失の観点からのトレーニング安定性が増加するモード崩壊の問題である。 本稿では,低複雑性ニューラルネットワーク (LCNN) を用いて,低複雑性のモデルを学習するための代替アーキテクチャを提案する。 モチベーションは、モデルの複雑さを制御することが、トレーニングデータに過剰に適合しないモデルにつながることです。 我々は、LCNN-GAN、LCNN-DCGAN、LCNN-SNGANと呼ばれるハイブリッドアーキテクチャを開発するために、LCNN損失関数をGAN、DCGAN(Deep Convolutional GAN)、SNGAN(Spectral Normalized GAN)に組み込んだ。 様々な大規模なベンチマーク画像データセットにおいて,提案モデルを用いることで,モード崩壊の問題を回避し,トレーニングの安定性が向上することを示す。 また,学習行動がLCNN関数のハイパーパラメータによって制御可能であることを示し,学習開始スコアも向上した。

One of the issues faced in training Generative Adversarial Nets (GANs) and their variants is the problem of mode collapse, wherein the training stability in terms of the generative loss increases as more training data is used. In this paper, we propose an alternative architecture via the Low-Complexity Neural Network (LCNN), which attempts to learn models with low complexity. The motivation is that controlling model complexity leads to models that do not overfit the training data. We incorporate the LCNN loss function for GANs, Deep Convolutional GANs (DCGANs) and Spectral Normalized GANs (SNGANs), in order to develop hybrid architectures called the LCNN-GAN, LCNN-DCGAN and LCNN-SNGAN respectively. On various large benchmark image datasets, we show that the use of our proposed models results in stable training while avoiding the problem of mode collapse, resulting in better training stability. We also show how the learning behavior can be controlled by a hyperparameter in the LCNN functional, which also provides an improved inception score.
翻訳日:2022-09-23 05:22:38 公開日:2020-11-20
# コントラスト集合によるオブジェクト中心映像モデルの学習

Learning Object-Centric Video Models by Contrasting Sets ( http://arxiv.org/abs/2011.10287v1 )

ライセンス: Link先を確認
Sindy L\"owe, Klaus Greff, Rico Jonschkowski, Alexey Dosovitskiy, Thomas Kipf(参考訳) オブジェクト表現の自己教師型学習は、最近、再構成ベースのトレーニングの魅力的な代替手段として登場した。 以前のアプローチでは、個々のオブジェクト表現(slot)を互いに対比することに重点を置いている。 しかし、このアプローチの根本的な問題は、全体的なコントラスト損失が同じであることだ。 (i)各スロット内の別のオブジェクトを表すもの (ii) (re-)すべてのスロットで同じオブジェクトを表現する。 したがって、この目的は本質的にはスロット内のオブジェクト中心表現の出現に向かわない。 我々は、グローバルな集合ベースのコントラスト損失を導入することでこの問題に対処する:個々のスロット表現を互いに対比するのではなく、表現を集約し、結合された集合を互いに対比する。 さらに,このコントラスト設定に注意に基づくエンコーダを導入することで,トレーニングを簡素化し,解釈可能なオブジェクトマスクを提供する。 2つの合成ビデオデータセットの結果から, 従来のコントラスト法と比較し, 再現性, 将来予測, オブジェクト分離性能について比較した。

Contrastive, self-supervised learning of object representations recently emerged as an attractive alternative to reconstruction-based training. Prior approaches focus on contrasting individual object representations (slots) against one another. However, a fundamental problem with this approach is that the overall contrastive loss is the same for (i) representing a different object in each slot, as it is for (ii) (re-)representing the same object in all slots. Thus, this objective does not inherently push towards the emergence of object-centric representations in the slots. We address this problem by introducing a global, set-based contrastive loss: instead of contrasting individual slot representations against one another, we aggregate the representations and contrast the joined sets against one another. Additionally, we introduce attention-based encoders to this contrastive setup which simplifies training and provides interpretable object masks. Our results on two synthetic video datasets suggest that this approach compares favorably against previous contrastive methods in terms of reconstruction, future prediction and object separation performance.
翻訳日:2022-09-23 05:22:16 公開日:2020-11-20
# 建物損傷検出のための領域外一般化の評価

Assessing out-of-domain generalization for robust building damage detection ( http://arxiv.org/abs/2011.10328v1 )

ライセンス: Link先を確認
Vitus Benson and Alexander Ecker(参考訳) 自然災害の負の影響を抑える重要なステップは、災害後の急激な被害評価である。 例えば、建築損傷検出は、衛星画像にコンピュータビジョン技術を適用することで自動化することができる。 あらゆる災害は本質的に異なる(新しいジオロケーション、ユニークな状況)ため、モデルはトレーニングで利用可能な災害画像と新しいイベントの画像の間の分散の変化に対して堅牢でなければならない。 したがって、実世界のパフォーマンスを見積もるには、ドメイン外テストセットが必要です。 しかし, 建築損傷検出モデルは, 単純で非現実的インディストリビューション(iid)テスト設定において評価されている。 ここでは、今後の作業は代わりにOOD体制に焦点を当てるべきである、と論じる。 我々は,2つの競合損傷検出モデルのOOD性能を評価し,既存の最先端モデルでは,訓練中に使用しない新たな災害に対するOOD評価時の性能低下が大幅に一般化することを示した。 さらに、IIDパフォーマンスはOODパフォーマンスを予測できないため、現在のベンチマークは現実世界のパフォーマンスについて非形式的である。 コードとモデルの重み付けはhttps://github.com/ecker-lab/robust-bddで利用可能です。

An important step for limiting the negative impact of natural disasters is rapid damage assessment after a disaster occurred. For instance, building damage detection can be automated by applying computer vision techniques to satellite imagery. Such models operate in a multi-domain setting: every disaster is inherently different (new geolocation, unique circumstances), and models must be robust to a shift in distribution between disaster imagery available for training and the images of the new event. Accordingly, estimating real-world performance requires an out-of-domain (OOD) test set. However, building damage detection models have so far been evaluated mostly in the simpler yet unrealistic in-distribution (IID) test setting. Here we argue that future work should focus on the OOD regime instead. We assess OOD performance of two competitive damage detection models and find that existing state-of-the-art models show a substantial generalization gap: their performance drops when evaluated OOD on new disasters not used during training. Moreover, IID performance is not predictive of OOD performance, rendering current benchmarks uninformative about real-world performance. Code and model weights are available at https://github.com/ecker-lab/robust-bdd.
翻訳日:2022-09-23 05:22:02 公開日:2020-11-20
# 一段階検出器の分類改善

Improvement of Classification in One-Stage Detector ( http://arxiv.org/abs/2011.10465v1 )

ライセンス: Link先を確認
Wu Kehe, Chen Zuge, Zhang Xiaoliang, Li Wei(参考訳) RetinaNetは分類タスクのためのFocal Lossを提案し、1段検出器を大幅に改善した。 しかし、それと2段検出器の間にはまだギャップがある。 我々はRetinaNetの予測を解析し、分類と局所化のミスアライメントが主な要因であることを示す。 予測されたボックスのほとんどは、iouと接地ボックスが0.5以上あるが、分類スコアは0.5未満であり、分類タスクを最適化する必要があることを示している。 本稿では,この問題に対するオブジェクト信頼度タスクを提案し,その特徴を分類タスクと共有する。 このタスクは、サンプルと接地ボックスの間のiousをターゲットとして使用し、トレーニングで陽性サンプルの損失のみを使用し、分類タスクトレーニングで陽性サンプルの損失重量を増加させる。 また、分類スコアとオブジェクト信頼の結合がNMSのガイドに使用される。 本手法は分類作業を改善するだけでなく,分類と局所化の誤認を緩和する。 本手法の有効性を評価するため,MS COCO 2017データセットを用いて実験を行った。 ホイッスルとベルを使わずに、同じトレーニング設定でResNet50とResNet101でそれぞれCOCO検証データセットのAPを0.7%、1.0%改善することが可能で、2回のトレーニング時間で38.4%APを達成することができる。 コードは http://github.com/chenzuge1/RetinaNet-Conf.git.com にある。

RetinaNet proposed Focal Loss for classification task and improved one-stage detectors greatly. However, there is still a gap between it and two-stage detectors. We analyze the prediction of RetinaNet and find that the misalignment of classification and localization is the main factor. Most of predicted boxes, whose IoU with ground-truth boxes are greater than 0.5, while their classification scores are lower than 0.5, which shows that the classification task still needs to be optimized. In this paper we proposed an object confidence task for this problem, and it shares features with classification task. This task uses IoUs between samples and ground-truth boxes as targets, and it only uses losses of positive samples in training, which can increase loss weight of positive samples in classification task training. Also the joint of classification score and object confidence will be used to guide NMS. Our method can not only improve classification task, but also ease misalignment of classification and localization. To evaluate the effectiveness of this method, we show our experiments on MS COCO 2017 dataset. Without whistles and bells, our method can improve AP by 0.7% and 1.0% on COCO validation dataset with ResNet50 and ResNet101 respectively at same training configs, and it can achieve 38.4% AP with two times training time. Code is at: http://github.com/chenzuge1/RetinaNet-Conf.git.
翻訳日:2022-09-23 05:21:18 公開日:2020-11-20
# 潜在変数モデルを用いた生体医学関係のインフォームド表現学習

Learning Informative Representations of Biomedical Relations with Latent Variable Models ( http://arxiv.org/abs/2011.10285v1 )

ライセンス: Link先を確認
Harshil Shah and Julien Fauqueur(参考訳) 大量の科学文書から生物医学関係を抽出することは難しい自然言語処理課題である。 既存のアプローチは、通常、単一の文(メントレベル)または全コーパス(ペアレベル)で関係を特定することに集中する。 どちらの場合も、関係を表す点推定を学習することで、最近の手法は強力な結果を得ることができ、それが関係分類器への入力として使われる。 しかし、一対の生物医学的実体間のテキストで表される関係は、しばしば点推定によって捉えられるよりも複雑である。 この問題に対処するために、任意に柔軟な分布を持つ潜在変数モデルを提案し、エンティティペア間の関係を表現する。 さらに,参照レベルとペアレベルの関係抽出のための統一アーキテクチャも提供する。 我々のモデルは、パラメータが少なく、トレーニングがかなり速く、両方のタスクの強いベースラインと競合する結果が得られることを実証する。 コードを公開しています。

Extracting biomedical relations from large corpora of scientific documents is a challenging natural language processing task. Existing approaches usually focus on identifying a relation either in a single sentence (mention-level) or across an entire corpus (pair-level). In both cases, recent methods have achieved strong results by learning a point estimate to represent the relation; this is then used as the input to a relation classifier. However, the relation expressed in text between a pair of biomedical entities is often more complex than can be captured by a point estimate. To address this issue, we propose a latent variable model with an arbitrarily flexible distribution to represent the relation between an entity pair. Additionally, our model provides a unified architecture for both mention-level and pair-level relation extraction. We demonstrate that our model achieves results competitive with strong baselines for both tasks while having fewer parameters and being significantly faster to train. We make our code publicly available.
翻訳日:2022-09-23 05:14:53 公開日:2020-11-20
# ベトナムレビューの感性分析のための微調整BERT

Fine-Tuning BERT for Sentiment Analysis of Vietnamese Reviews ( http://arxiv.org/abs/2011.10426v1 )

ライセンス: Link先を確認
Quoc Thai Nguyen, Thoai Linh Nguyen, Ngoc Hoang Luong, and Quoc Hung Ngo(参考訳) 感性分析はNLP(Nature Language Processing)の分野で重要な課題であり,ユーザの特定の問題に対するフィードバックデータの評価と分析を行う。 最近導入された変換器(BERT)モデルによる双方向エンコーダのRep-resentationsなど、多くの深層学習モデルがこの問題に取り組むために提案されている。 本稿では,ベトナムのレビューデータセットに対する感性分析タスクのための2つのBERT微調整手法を実験した。 1)[CLS]トークンのみをアタッチメントフィードフォワードニューラルネットワークの入力として使用する方法 2)全てのBERT出力ベクトルを入力の分類として使用する別のメソッド。 2つのデータセットの実験結果は、BERTを使用したモデルがGloVeとFastTextを使用して、他のモデルよりわずかに優れていることを示している。 また,本研究では,提案したBERTファインチューニング法を用いて,従来のBERTファインチューニング法よりも優れた性能を持つモデルを生成する。

Sentiment analysis is an important task in the field ofNature Language Processing (NLP), in which users' feedbackdata on a specific issue are evaluated and analyzed. Manydeep learning models have been proposed to tackle this task, including the recently-introduced Bidirectional Encoder Rep-resentations from Transformers (BERT) model. In this paper,we experiment with two BERT fine-tuning methods for thesentiment analysis task on datasets of Vietnamese reviews: 1) a method that uses only the [CLS] token as the input for anattached feed-forward neural network, and 2) another methodin which all BERT output vectors are used as the input forclassification. Experimental results on two datasets show thatmodels using BERT slightly outperform other models usingGloVe and FastText. Also, regarding the datasets employed inthis study, our proposed BERT fine-tuning method produces amodel with better performance than the original BERT fine-tuning method.
翻訳日:2022-09-23 05:14:38 公開日:2020-11-20
# 感情認識のためのクロスモーダルトランスフォーマーによる自己教師あり学習

Self-Supervised learning with cross-modal transformers for emotion recognition ( http://arxiv.org/abs/2011.10652v1 )

ライセンス: Link先を確認
Aparna Khare, Srinivas Parthasarathy, Shiva Sundaram(参考訳) 内蔵ラベル付きデータセットが限られているため、感情認識は難しいタスクである。 自己教師型学習は、音声や自然言語のようなドメインのラベル付きデータセットでタスクを改善する。 BERTのようなモデルは、文脈を単語の埋め込みに取り入れることを学ぶ。 本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。 マスク言語モデリングタスクでトレーニングされたトランスフォーマティブを使用して,音声,視覚,テキスト機能を備えたマルチモーダル表現を学習する。 このモデルは、感情認識の下流タスクに微調整される。 cmu-moseiデータセットを用いた結果から,このプレトレーニング手法は,ベースラインと比較して感情認識性能を最大3%向上できることがわかった。

Emotion recognition is a challenging task due to limited availability of in-the-wild labeled datasets. Self-supervised learning has shown improvements on tasks with limited labeled datasets in domains like speech and natural language. Models such as BERT learn to incorporate context in word embeddings, which translates to improved performance in downstream tasks like question answering. In this work, we extend self-supervised training to multi-modal applications. We learn multi-modal representations using a transformer trained on the masked language modeling task with audio, visual and text features. This model is fine-tuned on the downstream task of emotion recognition. Our results on the CMU-MOSEI dataset show that this pre-training technique can improve the emotion recognition performance by up to 3% compared to the baseline.
翻訳日:2022-09-23 05:14:21 公開日:2020-11-20
# 認証単調ニューラルネットワーク

Certified Monotonic Neural Networks ( http://arxiv.org/abs/2011.10219v1 )

ライセンス: Link先を確認
Xingchao Liu, Xing Han, Na Zhang, Qiang Liu(参考訳) 入力のサブセットに関する単調モデルを学ぶことは、実際の公正性、解釈可能性、一般化問題を効果的に解決する上で望ましい特徴である。 既存のモノトニックニューラルネットワークの学習方法は、モノトニック性を保証するために特別に設計されたモデル構造を必要とするか、学習プロセスを調整することによってモノトニック性を強制するかのどちらかである。 本研究では、混合整数線形計画問題の解法により、一般のピースワイド線形ニューラルネットワークの単調性を証明し、任意のモデル構造を持つ単調ニューラルネットワークを学習するための新しい一般的なアプローチを提案する。 本手法では,ニューラルネットワークをヒューリスティックな単調性正規化でトレーニングすることが可能であり,学習ネットワークが単調性認定を受けるまで,徐々に正規化の規模を増大させることができる。 先行研究と比較して,重み空間に対する人間設計の制約は必要とせず,より正確な近似も得られる。 様々なデータセットに関する実証的研究は、Deep Lattice Networksのような最先端の手法に対するアプローチの有効性を示す。

Learning monotonic models with respect to a subset of the inputs is a desirable feature to effectively address the fairness, interpretability, and generalization issues in practice. Existing methods for learning monotonic neural networks either require specifically designed model structures to ensure monotonicity, which can be too restrictive/complicated, or enforce monotonicity by adjusting the learning process, which cannot provably guarantee the learned model is monotonic on selected features. In this work, we propose to certify the monotonicity of the general piece-wise linear neural networks by solving a mixed integer linear programming problem.This provides a new general approach for learning monotonic neural networks with arbitrary model structures. Our method allows us to train neural networks with heuristic monotonicity regularizations, and we can gradually increase the regularization magnitude until the learned network is certified monotonic. Compared to prior works, our approach does not require human-designed constraints on the weight space and also yields more accurate approximation. Empirical studies on various datasets demonstrate the efficiency of our approach over the state-of-the-art methods, such as Deep Lattice Networks.
翻訳日:2022-09-23 05:14:10 公開日:2020-11-20
# EM分類ネットワークの逆学習

Adversarial Training for EM Classification Networks ( http://arxiv.org/abs/2011.10615v1 )

ライセンス: Link先を確認
Tom Grimes, Eric Church, William Pitts, Lynn Wood, Eva Brayfindley, Luke Erikson, Mark Greaves(参考訳) 本稿では,損失関数,トレーニングパラダイム,ハイパーパラメータ最適化を改良した新しいドメイン・アドバイザリアル・ネットワークを提案する。 新たな損失関数は、より迅速な勾配降下を促進し、現代的なニューラルネットワークフレームワークへのシームレスな統合を提供し、従来使用できなかったネットワーク動作への推論を可能にするために、dannネットワークのフォーク、ラベル予測器、ドメイン分類器の両方で定義されている。 これらの損失関数を使用すると、トレーニングデータのサブセット、テストデータ、またはその両方に適用可能な任意のユーザ定義ラベルを含む「ドメイン」の概念を拡張することができる。 これにより、訓練データにおける「ドメイン」ラベル間の差異を示す特徴抽出器により提供される特徴を示す「オン・ザ・フライ」モードと、訓練データとテストデータとにおける「ドメイン」ラベル間の差異を示す特徴を除去した「テストコレクションインフォームド」モードのいずれかでネットワークを動作させることができる(ネットワークにテストアクティビティラベルを知る必要がなくとも)。 この研究は、データのランダムなゆらぎによって引き起こされる脆弱な特徴を取り除くために、トレーニングデータの周りにL_infボールからトレーニング例を引き出すロバストトレーニングに関する以前の研究から大きく引き出された。 これらのネットワーク上で、ドメイン逆数とロバストハイパーパラメータの両方に対するハイパーパラメータ最適化のプロセスについて検討する。 最後に、このネットワークはターボポンプによって出力されるEM信号の存在を特定するために使用されるバイナリ分類器の構築に適用される。 例えば、ロバストとドメインの敵対的トレーニングの効果は、分類器を構成する非常に識別的な特徴を提供するデバイスの動作のインスタンス間の背景の違いを示す特徴を削除することである。

We present a novel variant of Domain Adversarial Networks with impactful improvements to the loss functions, training paradigm, and hyperparameter optimization. New loss functions are defined for both forks of the DANN network, the label predictor and domain classifier, in order to facilitate more rapid gradient descent, provide more seamless integration into modern neural networking frameworks, and allow previously unavailable inferences into network behavior. Using these loss functions, it is possible to extend the concept of 'domain' to include arbitrary user defined labels applicable to subsets of the training data, the test data, or both. As such, the network can be operated in either 'On the Fly' mode where features provided by the feature extractor indicative of differences between 'domain' labels in the training data are removed or in 'Test Collection Informed' mode where features indicative of difference between 'domain' labels in the combined training and test data are removed (without needing to know or provide test activity labels to the network). This work also draws heavily from previous works on Robust Training which draws training examples from a L_inf ball around the training data in order to remove fragile features induced by random fluctuations in the data. On these networks we explore the process of hyperparameter optimization for both the domain adversarial and robust hyperparameters. Finally, this network is applied to the construction of a binary classifier used to identify the presence of EM signal emitted by a turbopump. For this example, the effect of the robust and domain adversarial training is to remove features indicative of the difference in background between instances of operation of the device - providing highly discriminative features on which to construct the classifier.
翻訳日:2022-09-23 05:13:12 公開日:2020-11-20
# ハードバイニングを用いた微分可能ヒストグラム

Differentiable Histogram with Hard-Binning ( http://arxiv.org/abs/2012.06311v1 )

ライセンス: Link先を確認
Ibrahim Yusuf, George Igwegbe, Oluwafemi Azeez(参考訳) ヒストグラムの単純さと表現力は、深層学習を含む様々な文脈で有用な特徴である。 ヒストグラムの計算プロセスは微分不可能であるが、研究者は微分可能近似を提案している。 従来のヒストグラムのハードバイニング操作を直接近似する微分可能なヒストグラムを提案する。 既存の微分可能なヒストグラムの強さを組み合わせ、個々の課題を克服する。 numpyで計算したヒストグラムと比較して,提案するヒストグラムの絶対近似誤差は0.000158である。

The simplicity and expressiveness of a histogram render it a useful feature in different contexts including deep learning. Although the process of computing a histogram is non-differentiable, researchers have proposed differentiable approximations, which have some limitations. A differentiable histogram that directly approximates the hard-binning operation in conventional histograms is proposed. It combines the strength of existing differentiable histograms and overcomes their individual challenges. In comparison to a histogram computed using Numpy, the proposed histogram has an absolute approximation error of 0.000158.
翻訳日:2022-09-23 05:12:25 公開日:2020-11-20
# Tune Hyperparameters に対する近似的Leave-outクロスバリデーションの最適化

Optimizing Approximate Leave-one-out Cross-validation to Tune Hyperparameters ( http://arxiv.org/abs/2011.10218v1 )

ライセンス: Link先を確認
Ryan Burn(参考訳) 大規模な正規化モデルでは、残余のクロスバリデーションを近似的な残余の式(ALO)で効率的に推定することができる。 ALOを最適化するためにハイパーパラメータを調整する問題を考える。 ALOの勾配とヘシアンを計算するための効率的な公式を導出し、ハイパーパラメーターを見つけるために2階最適化器を適用する方法を示す。 本稿では,実世界の各種データセット上での正規化ロジスティック回帰とリッジ回帰のためのハイパーパラメータを求めることにより,提案手法の有用性を示す。

For a large class of regularized models, leave-one-out cross-validation can be efficiently estimated with an approximate leave-one-out formula (ALO). We consider the problem of adjusting hyperparameters so as to optimize ALO. We derive efficient formulas to compute the gradient and hessian of ALO and show how to apply a second-order optimizer to find hyperparameters. We demonstrate the usefulness of the proposed approach by finding hyperparameters for regularized logistic regression and ridge regression on various real-world data sets.
翻訳日:2022-09-23 05:12:18 公開日:2020-11-20
# 大規模ニューラルネットワークモデルを用いたストーリーテリング

Collaborative Storytelling with Large-scale Neural Language Models ( http://arxiv.org/abs/2011.10208v1 )

ライセンス: Link先を確認
Eric Nichols and Leo Gao and Randy Gomez(参考訳) ストーリーテリングは人間の社交と娯楽において中心的な役割を果たす。 しかしながら、自動ストーリーテリング生成に関する研究の多くは、ストーリーは人間の相互作用なしにエージェントによって生成されると仮定している。 本稿では,人工知能のエージェントと人が協力して,それを交互に付加することでユニークなストーリーを創造する,協調型ストーリーテリングの課題を紹介する。 本稿では,人間ストーリーテラーと連携して,これまでのストーリーに基づいて新たな発話を生成できる協調型ストーリーテリングシステムを提案する。 本稿は,公開可能な大規模言語モデルを,文章プロンプトとその付随する架空の作品のデータセットにチューニングし,ストーリーテリングシステムを構築した。 我々は,人間の発話を十分に生成することが重要な技術的課題であると認識し,発話品質を向上させるためのサンプル・アンド・ランク・アプローチを提案する。 定量的評価は,我々のアプローチがベースラインを上回ることを示し,システムの能力の質的評価を示す。

Storytelling plays a central role in human socializing and entertainment. However, much of the research on automatic storytelling generation assumes that stories will be generated by an agent without any human interaction. In this paper, we introduce the task of collaborative storytelling, where an artificial intelligence agent and a person collaborate to create a unique story by taking turns adding to it. We present a collaborative storytelling system which works with a human storyteller to create a story by generating new utterances based on the story so far. We constructed the storytelling system by tuning a publicly-available large scale language model on a dataset of writing prompts and their accompanying fictional works. We identify generating sufficiently human-like utterances to be an important technical issue and propose a sample-and-rank approach to improve utterance quality. Quantitative evaluation shows that our approach outperforms a baseline, and we present qualitative evaluation of our system's capabilities.
翻訳日:2022-09-23 05:07:05 公開日:2020-11-20
# 制限ボルツマンマシンを用いたグラフ信号の復元

Graph Signal Recovery Using Restricted Boltzmann Machines ( http://arxiv.org/abs/2011.10549v1 )

ライセンス: Link先を確認
Ankith Mohan, Aiichiro Nakano, Emilio Ferrara(参考訳) 本稿では,制限ボルツマンマシンのメモリ特性とニューラルネットワークの表現能力を利用して,エキスパートシステムからグラフ信号を復元するモデル非依存パイプラインを提案する。 提案したパイプラインは、汚職や不完全性のないクリーンなデータによって、下向きの機械学習タスクでトレーニングされたディープニューラルネットワークを必要とする。 深層ニューラルネットワークによって学習される表現は、通常、データ自体の表現よりも効果的であることを示す。 このパイプラインは任意のデータセットのノイズに対処できるが、グラフ構造化データセットには特に有効である。

We propose a model-agnostic pipeline to recover graph signals from an expert system by exploiting the content addressable memory property of restricted Boltzmann machine and the representational ability of a neural network. The proposed pipeline requires the deep neural network that is trained on a downward machine learning task with clean data, data which is free from any form of corruption or incompletion. We show that denoising the representations learned by the deep neural networks is usually more effective than denoising the data itself. Although this pipeline can deal with noise in any dataset, it is particularly effective for graph-structured datasets.
翻訳日:2022-09-23 05:06:49 公開日:2020-11-20
# ロボットインタラクションにおける抽象的関係学習に向けて

Towards Abstract Relational Learning in Human Robot Interaction ( http://arxiv.org/abs/2011.10364v1 )

ライセンス: Link先を確認
Mohamadreza Faridghasemnia, Daniele Nardi, Alessandro Saffiotti(参考訳) 人間は環境における実体を豊かに表現する。 エンティティは属性によって記述され、属性を共有するエンティティはしばしば意味的に関連します。 例えば、2冊の本が『タイトル』属性の値として「自然言語処理」を持っている場合、それらの『トピック』属性もまた等しく、すなわち「nlp」と期待できる。 人間はそのような観察を一般化し、あらゆる実体の「トピック」属性が「NLP」である十分な条件を推測する傾向がある。 ロボットが人間とうまく対話する必要がある場合、同様の方法で実体、属性、一般化を表現する必要がある。 これは文脈化された認知エージェントで終わり、その理解に適応し、コンテキストが正しい理解に十分な条件を提供する。 本稿では,人間とロボットのインタラクションを通じてこれらの表現を得る方法の問題点について論じる。 我々は、視覚知覚と自然言語入力を統合して、世界の意味モデルを漸進的に構築し、帰納的推論を用いて、このモデルに当てはまる一般的な意味関係を捉える論理的規則を推論する。 これらの関係は、人間とロボットの相互作用を豊かにしたり、推論された事実を知識ベースに投入したり、ロボットの知覚入力の不確実性を取り除くために使うことができる。

Humans have a rich representation of the entities in their environment. Entities are described by their attributes, and entities that share attributes are often semantically related. For example, if two books have "Natural Language Processing" as the value of their `title' attribute, we can expect that their `topic' attribute will also be equal, namely, "NLP". Humans tend to generalize such observations, and infer sufficient conditions under which the `topic' attribute of any entity is "NLP". If robots need to interact successfully with humans, they need to represent entities, attributes, and generalizations in a similar way. This ends in a contextualized cognitive agent that can adapt its understanding, where context provides sufficient conditions for a correct understanding. In this work, we address the problem of how to obtain these representations through human-robot interaction. We integrate visual perception and natural language input to incrementally build a semantic model of the world, and then use inductive reasoning to infer logical rules that capture generic semantic relations, true in this model. These relations can be used to enrich the human-robot interaction, to populate a knowledge base with inferred facts, or to remove uncertainty in the robot's sensory inputs.
翻訳日:2022-09-23 05:06:39 公開日:2020-11-20
# DeepPhaseCut:教師なしフーリエ位相検索のための位相の深い緩和

DeepPhaseCut: Deep Relaxation in Phase for Unsupervised Fourier Phase Retrieval ( http://arxiv.org/abs/2011.10475v1 )

ライセンス: Link先を確認
Eunju Cha, Chanseok Lee, Mooseok Jang, and Jong Chul Ye(参考訳) フーリエ位相探索は、フーリエ変換の測定値からのみ信号を復元する古典的な問題である。 空間領域とフーリエ領域の両方で事前の知識を使用するフィエナップ型アルゴリズムは、実際には広く用いられているが、局所的なミニマではしばしば停止する。 PhaseLift や PhaseCut のような現代的な手法は凸緩和の助けを借りて性能保証を提供する。 しかし、これらのアルゴリズムは通常、実用上は計算量が多い。 この問題に対処するために,Fourier位相検索のための新しい,教師なしフィードフォワードニューラルネットワークを提案する。 ニューラルネットワークを正規化用語として使用する既存のディープラーニングアプローチや、教師付きトレーニングのためのエンドツーエンドブラックボックスモデルとは異なり、本アルゴリズムは教師なし学習フレームワークにおけるフェーズカットアルゴリズムのフィードフォワードニューラルネットワーク実装である。 具体的には、フェーズカット損失を用いた位相推定と、画像再構成のための別のジェネレータの2つのジェネレータで構成されており、これら全ては一致したデータを持たないCycleGANフレームワークを用いて同時に訓練されている。 古典fienup型アルゴリズムと最近の対称性破壊学習手法との関係も明らかにされている。 大規模な実験により,提案手法はフーリエ位相探索問題において既存の全ての手法より優れていることが示された。

Fourier phase retrieval is a classical problem of restoring a signal only from the measured magnitude of its Fourier transform. Although Fienup-type algorithms, which use prior knowledge in both spatial and Fourier domains, have been widely used in practice, they can often stall in local minima. Modern methods such as PhaseLift and PhaseCut may offer performance guarantees with the help of convex relaxation. However, these algorithms are usually computationally intensive for practical use. To address this problem, we propose a novel, unsupervised, feed-forward neural network for Fourier phase retrieval which enables immediate high quality reconstruction. Unlike the existing deep learning approaches that use a neural network as a regularization term or an end-to-end blackbox model for supervised training, our algorithm is a feed-forward neural network implementation of PhaseCut algorithm in an unsupervised learning framework. Specifically, our network is composed of two generators: one for the phase estimation using PhaseCut loss, followed by another generator for image reconstruction, all of which are trained simultaneously using a cycleGAN framework without matched data. The link to the classical Fienup-type algorithms and the recent symmetry-breaking learning approach is also revealed. Extensive experiments demonstrate that the proposed method outperforms all existing approaches in Fourier phase retrieval problems.
翻訳日:2022-09-23 05:05:04 公開日:2020-11-20
# マルチ選択QAシステムに何を期待しますか?

What do we expect from Multiple-choice QA Systems? ( http://arxiv.org/abs/2011.10647v1 )

ライセンス: Link先を確認
Krunal Shah, Nitish Gupta, Dan Roth(参考訳) さまざまなQAデータセット上での機械学習システムの最近の成功は、モデルの言語理解能力の大幅な向上と解釈できる。 しかし、様々な摂動を用いて、最近の複数の研究により、データセットの優れたパフォーマンスは「理解する」言語モデルからの人間の期待と相関する性能を示すものではないことが示されている。 本研究では,複数のMultiple Choice Question Answering (MCQA)データセット上でトップパフォーマンスモデルを検討し,モデル入力のゼロ情報摂動を用いて,そのようなモデルから得られる可能性のある一連の期待値に対して評価する。 結果から,モデルが期待に届かないことは明らかであり,モデルの入力によりよい参加を強制する,トレーニングアプローチの変更が動機となっている。 新しいトレーニングパラダイムは、私たちの期待をより良く満たしながら、元のモデルと同等に機能するモデルに導かれることを示す。

The recent success of machine learning systems on various QA datasets could be interpreted as a significant improvement in models' language understanding abilities. However, using various perturbations, multiple recent works have shown that good performance on a dataset might not indicate performance that correlates well with human's expectations from models that "understand" language. In this work we consider a top performing model on several Multiple Choice Question Answering (MCQA) datasets, and evaluate it against a set of expectations one might have from such a model, using a series of zero-information perturbations of the model's inputs. Our results show that the model clearly falls short of our expectations, and motivates a modified training approach that forces the model to better attend to the inputs. We show that the new training paradigm leads to a model that performs on par with the original model while better satisfying our expectations.
翻訳日:2022-09-23 05:04:04 公開日:2020-11-20