このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200710となっている論文です。

PDF登録状況(公開日: 20200710)

TitleAuthorsAbstract論文公表日・翻訳日
# ユニバーサルアトム干渉計シミュレータ --弾性散乱過程

Universal Atom Interferometer Simulator -- Elastic Scattering Processes ( http://arxiv.org/abs/2002.05148v2 )

ライセンス: Link先を確認
Florian Fitzek, Jan-Niclas Siem\ss, Stefan Seckmeyer, Holger Ahlers, Ernst M. Rasel, Klemens Hammerer, Naceur Gaaloul(参考訳) 本稿では,物質波光パルス弾性散乱のすべての状態をカバーする普遍シミュレータを提案する。 原子干渉法を研究ケースとして適用すると、このシミュレータは弾性の場合、すなわち原子の内部状態が変化しない場合の原子光回折問題を解く。 この観点から、光パルスビームスプリッティングは空間依存と時間依存の外部ポテンシャルとして解釈される。 運動量空間の常微分方程式系に基づく通常のアプローチからシフトすると、我々の位置空間処理は柔軟であり、光場が平面波ではなく任意の複雑な空間的振る舞いを持つ現実的なケースに好適にスケールする。 さらに、我々が開発した数値パッケージは、運動量空間常微分方程式の通常の枠組みでは簡単な定式化をもたない、捕捉および相互作用する幾何学の問題クラスに無益に拡張される。 精度原子干渉法コミュニティに関するいくつかのケーススタディを再検討し,本モデルの有効性を確認した。 解析解が存在する場合,解析解を検索し,より複雑なパラメータ範囲に拡張する。 このアプローチの柔軟性、それが与える洞察、数値的なスケーラビリティと精度は、メトロジー指向の物質-波干渉実験を設計、理解、定量的に分析するために必要なツールである。

In this article, we introduce a universal simulator covering all regimes of matter wave light-pulse elastic scattering. Applied to atom interferometry as a study case, this simulator solves the atom-light diffraction problem in the elastic case i.e. when the internal state of the atoms remains unchanged. Taking this perspective, the light-pulse beam splitting is interpreted as a space- and time-dependent external potential. In a shift from the usual approach based on a system of momentum-space ordinary differential equations, our position-space treatment is flexible and scales favourably for realistic cases where the light fields have an arbitrary complex spatial behaviour rather than being mere plane waves. Moreover, the numerical package we developed is effortlessly extended to the problem class of trapped and interacting geometries, which have no simple formulation in the usual framework of momentum-space ordinary differential equations. We check the validity of our model by revisiting several case studies relevant to the precision atom interferometry community. We retrieve analytical solutions when they exist and extend the analysis to more complex parameter ranges in a cross-regime fashion. The flexibility of the approach, the insight it gives, its numerical scalability and accuracy make it an exquisite tool to design, understand and quantitatively analyse metrology-oriented matter-wave interferometry experiments.
翻訳日:2023-06-03 21:25:16 公開日:2020-07-10
# ブロックチェーンのスケーラビリティ問題に対する量子マネーソリューション

A Quantum Money Solution to the Blockchain Scalability Problem ( http://arxiv.org/abs/2002.11998v2 )

ライセンス: Link先を確認
Andrea Coladangelo, Or Sattath(参考訳) 我々は、古典的なブロックチェーンとスマートコントラクトは、古典的な暗号だけでなく、量子暗号にも有用なプリミティブである、という考えを提唱した。 要約すると、スマートコントラクトは、当事者が資金を調達し、アルゴリズムでチェック可能な条件を満たして解放できる機能であり、インセンティブを強制するための正式なツールとして使用できる。 本稿では,量子環境におけるスマートコントラクトの利用例を示す。 本稿では,zhandry(eurocrypt'19)が導入した公開鍵量子マネーの強化であるquantum lightningと,ステートフルなスマートコントラクトを処理可能な古典的ブロックチェーンを主成分とする,単純なハイブリッド古典量子決済システムについて述べる。 当社のハイブリッド支払いシステムは,量子状態を銀行券と古典的なブロックチェーンとして使用し,紛争を解決し,有効なシリアル番号を追跡する。 それはいくつかの望ましい特性を持っている: 分散化され、単一のエンティティに対する信頼を必要とせず、支払いは、総ユーザ数に関係なく、量子通信と同じくらい高速である。

We put forward the idea that classical blockchains and smart contracts are potentially useful primitives not only for classical cryptography, but for quantum cryptography as well. Abstractly, a smart contract is a functionality that allows parties to deposit funds, and release them upon fulfillment of algorithmically checkable conditions, and can thus be employed as a formal tool to enforce monetary incentives. In this work, we give the first example of the use of smart contracts in a quantum setting. We describe a simple hybrid classical-quantum payment system whose main ingredients are a classical blockchain capable of handling stateful smart contracts, and quantum lightning, a strengthening of public-key quantum money introduced by Zhandry (Eurocrypt'19). Our hybrid payment system employs quantum states as banknotes and a classical blockchain to settle disputes and to keep track of the valid serial numbers. It has several desirable properties: it is decentralized, requiring no trust in any single entity; payments are as quick as quantum communication, regardless of the total number of users; when a quantum banknote is damaged or lost, the rightful owner can recover the lost value.
翻訳日:2023-06-01 12:48:18 公開日:2020-07-10
# 平面最大絡み合い状態

Planar Maximally Entangled States ( http://arxiv.org/abs/2004.00906v4 )

ライセンス: Link先を確認
Mehregan Doroudiani, Vahid Karimipour(参考訳) 我々は、絶対極大絡み(AME)状態よりも広いマルチパーティの絡み合い状態のクラスである平面最大絡み合い(PME)状態の大規模なファミリーを構築する。 これらはクウディッツの半分が最大混合状態にある状態であり、それらは連結部分集合を形成する。 AMEとは対照的に、PMEは見つけやすく、任意の数のキューディットに対して様々なPMEが存在することを示す。 特に、4 qubit の AME 状態は存在しないことが知られているが、4 qubit PME の 2 つの異なるマルチパラメータクラスが存在することを示す。 また、任意の粒子数および任意の次元に対して、PMEの明示的な族を与える。

We construct a large family of Planar Maximally Entangled (PME) states which are a wider class of multi-partite entangled states than Absolutely Maximally Entangled (AME) states. These are states in which any half of the qudits are in a maximally mixed state, provided that they form a connected subset. We show that in contrast to AMEs, PMEs are easier to find and there are various PMEs for any even number of qudits. In particular, while it is known that no AME state of four qubits exists, we show that there are two distinct multi-parameter classes of four qubit PMEs. We also give explicit families of PMEs for any even number of particles and for any dimension.
翻訳日:2023-05-27 03:25:01 公開日:2020-07-10
# 2光子干渉を用いたロバスト干渉センシング

Robust interferometric sensing using two-photon interference ( http://arxiv.org/abs/2005.05263v2 )

ライセンス: Link先を確認
G. H. Aguilar, R. S. Piera, P. L. Saldanha, R. L. de Matos Filho, and S. P. Walborn(参考訳) 物体の角偏差の精密測定は、科学技術において一般的な課題である。 この目的のために多くの方法が光を用いる。 これらのいくつかは干渉効果を利用して増幅効果や簡易測定装置などの技術的利点を達成する。 しかし、これら全てのスキームは位相安定性を必要とする。 ここでは, 位相ゆらぎに対する感度が低い2光子干渉を用いることで, この欠点を解くことができることを理論的および実験的に示す。 以上の結果から,非古典的干渉はロバスト干渉センシングへの経路となり,位相雑音の存在下での計測精度が高まることを示した。

Precise measurement of the angular deviation of an object is a common task in science and technology. Many methods use light for this purpose. Some of these exploit interference effects to achieve technological advantages, such as amplification effects, or simplified measurement devices. However, all of these schemes require phase stability to be useful. Here we show theoretically and experimentally that this drawback can be lifted by utilizing two-photon interference, which is known to be less sensitive to phase fluctuations. Our results show that non-classical interference can provide a path towards robust interferometric sensing, allowing for increased metrological precision in the presence of phase noise.
翻訳日:2023-05-20 14:02:56 公開日:2020-07-10
# 重力に結合した量子スカラー場のエントロピーダイナミクス

The Entropic Dynamics of Quantum Scalar Fields Coupled to Gravity ( http://arxiv.org/abs/2006.05036v2 )

ライセンス: Link先を確認
Selman Ipek and Ariel Caticha(参考訳) エントロピック・ダイナミクス(Entropic dynamics, ED)は、エントロピック法に基づく非決定論的力学モデルを構築するための一般的なフレームワークである。 edは非相対論的量子力学と曲面時空場の量子論の両方を導出または再構成するために用いられる。 本稿では,動的時空に伝播する量子スカラー場のモデルを提案する。 1)フィールドのダイナミクスをモデル化するのではなく、EDはその確率のダイナミクスをモデル化する。 2) 標準のエントロピー的推論法に従って, 力学は制約で符号化された情報によって決定される。 3) 物理的に関連する制約の選択は、対称性と不変性の原理によって決定される。 第一のそのような原理はシンプレクティックな構造を保ち、従属するポアソンブラケットと行動原理を持つハミルトン形式に繋がる。 第二の対称性の原理は葉の不変性であり、ホイマン、クチャー、テイテルボイムによる初期の研究に続いて経路独立性の要件として実装される。 結果は、ある極限における量子場理論と別の極限における古典的一般相対性理論にアプローチするハイブリッドEDモデルであるが、どちらも完全には説明されていない。 このEDモデルの特に重要な予測は、量子場と重力とのカップリングが量子重ね合わせ原理の違反を意味することである。

Entropic dynamics (ED) is a general framework for constructing indeterministic dynamical models based on entropic methods. ED has been used to derive or reconstruct both non-relativistic quantum mechanics and quantum field theory in curved space-time. Here we propose a model for a quantum scalar field propagating in a dynamical space-time. The approach rests on a few key ingredients: (1) Rather than modelling the dynamics of the fields, ED models the dynamics of their probabilities. (2) In accordance with the standard entropic methods of inference the dynamics is dictated by information encoded in constraints. (3) The choice of the physically relevant constraints is dictated by principles of symmetry and invariance. The first such principle imposes the preservation of a symplectic structure which leads to a Hamiltonian formalism with its attendant Poisson brackets and action principle. The second symmetry principle is foliation invariance, which following earlier work by Hojman, Kuchar, and Teitelboim, is implemented as a requirement of path independence. The result is a hybrid ED model that approaches quantum field theory in one limit and classical general relativity in another, but is not fully described by either. A particularly significant prediction of this ED model is that the coupling of quantum fields to gravity implies violations of the quantum superposition principle.
翻訳日:2023-05-16 05:03:50 公開日:2020-07-10
# 2つの実グラフェンシートと熱力学の間のカシミール効果の量子場理論的記述

Quantum field theoretical description of the Casimir effect between two real graphene sheets and thermodynamics ( http://arxiv.org/abs/2006.15557v2 )

ライセンス: Link先を確認
G. L. Klimchitskaya and V. M. Mostepanenko(参考訳) 非零エネルギーギャップ $\delta$ と化学ポテンシャル $\mu$ を持つ2つの平行グラフェンシートのカシミール自由エネルギーとエントロピーに関する解析漸近式は任意に低温で導出される。 グラフェンは(2+1)次元時空における分極テンソルを用いて松原定式法において熱量子場理論の枠組みで記述される。 松原周波数の和による暗黙の温度依存性と、偏光テンソルの温度依存性をパラメータとして考慮して、異なる漸近的表現が、$\delta>2\mu$、$\delta=2\mu$、$\delta<2\mu$という条件下で見出される。 2\mu$ と $\delta<2\mu$ の両方の場合、カシミールエントロピーは熱力学の第3法則(ネルンスト熱定理)を満たすが、$\delta=2\mu$ ではこの基本条件が破られる。 発見された異常の物理的意味は、金属と誘電体の間のカシミール効果の熱力学的性質の文脈において考慮される。

The analytic asymptotic expressions for the Casimir free energy and entropy for two parallel graphene sheets possessing nonzero energy gap $\Delta$ and chemical potential $\mu$ are derived at arbitrarily low temperature. Graphene is described in the framework of thermal quantum field theory in the Matsubara formulation by means of the polarization tensor in (2+1)-dimensional space-time. Different asymptotic expressions are found under the conditions $\Delta>2\mu$, $\Delta=2\mu$, and $\Delta<2\mu$ taking into account both the implicit temperature dependence due to a summation over the Matsubara frequencies and the explicit one caused by a dependence of the polarization tensor on temperature as a parameter. It is shown that for both $\Delta>2\mu$ and $\Delta<2\mu$ the Casimir entropy satisfies the third law of thermodynamics (the Nernst heat theorem), whereas for $\Delta=2\mu$ this fundamental requirement is violated. The physical meaning of the discovered anomaly is considered in the context of thermodynamic properties of the Casimir effect between metallic and dielectric bodies.
翻訳日:2023-05-12 05:41:40 公開日:2020-07-10
# 時間依存結合をもつ調和振動子系の量子緩和

Quantum relaxation in a system of harmonic oscillators with time-dependent coupling ( http://arxiv.org/abs/2007.02939v2 )

ライセンス: Link先を確認
F. B. Lustosa, S. Colin, S. E. Perez Bergliaffa(参考訳) de broglie-bohm のパイロット波理論の文脈では、単純な系の数値シミュレーションにより、最初に量子平衡から外れた状態、すなわちボルン則に違反している状態は、通常、粗粒度で期待される ||\psi|^2$ の分布に時間とともに緩和されることが示されている。 数値シミュレーションにより,結合が時間に比例して依存する結合1次元高調波発振器系の非平衡初期分布の緩和を解析し,モード数,粗粒径,結合定数などの異なるパラメータの影響に着目した。 ここで研究されている系は一般に平衡する傾向があるが、緩和はパラメータの値、特に相互作用の強さに関連する値によって遅延する可能性がある。 遺物非平衡系の検出に関する可能性について論じる。

In the context of the de Broglie-Bohm pilot wave theory, numerical simulations for simple systems have shown that states that are initially out of quantum equilibrium - thus violating the Born rule - usually relax over time to the expected $|\psi|^2$ distribution on a coarse-grained level. We analyze the relaxation of nonequilibrium initial distributions for a system of coupled one-dimensional harmonic oscillators in which the coupling depends explicitly on time through numerical simulations, focusing in the influence of different parameters such as the number of modes, the coarse-graining length and the coupling constant. We show that in general the system studied here tends to equilibrium, but the relaxation can be retarded depending on the values of the parameters, particularly to the one related to the strength of the interaction. Possible implications on the detection of relic nonequilibrium systems are discussed.
翻訳日:2023-05-11 04:01:49 公開日:2020-07-10
# 相関光子の3次元量子ウォークによる複素グラフの探索

Exploring complex graphs using three-dimensional quantum walks of correlated photons ( http://arxiv.org/abs/2007.05262v1 )

ライセンス: Link先を確認
Max Ehrhardt, Robert Keil, Lukas J. Maczewsky, Christoph Dittel, Matthias Heinrich, and Alexander Szameit(参考訳) グラフ表現は自然科学における複雑な問題を解決するための強力な概念である。 グラフベースのアプローチは、高分岐量子ネットワークにおける量子通信と量子探索アルゴリズムにおいて特に有益であることが証明されている。 本稿では,複雑な導波路回路における光子対の自由度と空間的および偏光度のハイブリッド作用を利用して,三次元ネットワークに付随する励起ダイナミクスの直接的実験的実現のための新しいパラダイムを提案する。 複雑な高連結グラフ上の多粒子量子ウォークの実験的探索のための新しいテストベッドは、集積量子フォトニクスにおけるフェルミオンダイナミクスの応用可能性を利用する道を開く。

Graph representations are a powerful concept for solving complex problems across natural science, as patterns of connectivity can give rise to a multitude of emergent phenomena. Graph-based approaches have proven particularly fruitful in quantum communication and quantum search algorithms in highly branched quantum networks. Here we introduce a new paradigm for the direct experimental realization of excitation dynamics associated with three-dimensional networks by exploiting the hybrid action of spatial and polarization degrees of freedom of photon pairs in complex waveguide circuits with tailored birefringence. This novel testbed for the experimental exploration of multi-particle quantum walks on complex, highly connected graphs paves the way towards exploiting the applicative potential of fermionic dynamics in integrated quantum photonics.
翻訳日:2023-05-10 17:23:40 公開日:2020-07-10
# デンマークにおけるサイバーセキュリティ問題に関する予備調査の結果

"It's Not Something We Have Talked to Our Team About": Results From a Preliminary Investigation of Cybersecurity Challenges in Denmark ( http://arxiv.org/abs/2007.05259v1 )

ライセンス: Link先を確認
Camilla Nadja Fleron, Jonas Kofod J{\o}rgensen, Oksana Kulyk, and Elda Paja(参考訳) デンマークはヨーロッパで最もデジタル化された国であると言われているが、デンマーク企業のITセキュリティはそれに従っていない。 企業がitセキュリティを実装する上で経験する課題を明らかにするため,我々は,4つの異なる企業から4人の従業員による半構造化インタビューを実施し,itセキュリティと,サイバー脅威のリスクを軽減するために必要なものについて質問した。 以上の結果から,企業には基本的なセキュリティ保護が欠如しており,サイバー脅威に対する意識を高めつつ,基本的なセキュリティプラクティスの実装を支援するためのガイダンスやツールが必要であることが示唆された。 当社の調査結果と、最新の報告や国際セキュリティ基準のインスピレーションに基づいて、簡単かつ実用的なITセキュリティガイダンスを採用したい中小企業を対象としたフレームワーク開発に向けたさらなる調査に向けたステップについて論じる。

Although Denmark is reportedly one of the most digitised countries in Europe, IT security in Danish companies has not followed along. To shed light into the challenges that companies experience with implementing IT security, we conducted a preliminary study running semi-structured interviews with four employees from four different companies, asking about their IT security and what they need to reduce risks of cyber threats. Our results show that companies are lacking fundamental security protection and are in need of guidance and tools to help them implementing basic security practices, while raising awareness of cyber threats. Based on our findings and with the inspiration of the latest reports and international security standards, we discuss steps towards further investigation towards developing a framework targeting SMEs that want to adopt straightforward and actionable IT security guidance.
翻訳日:2023-05-10 17:23:28 公開日:2020-07-10
# 光トラップ中に強い相互作用を持つ冷原子を持つ工学的絡み合いハミルトニアン

Engineering entanglement Hamiltonians with strongly interacting cold atoms in optical traps ( http://arxiv.org/abs/2007.05241v1 )

ライセンス: Link先を確認
R. E. Barfknecht, T. Mendes-Santos and L. Fallani(参考訳) 本稿では,強い相互作用を持つ低温原子を持つ一次元臨界スピン系におけるハミルトニアンの絡み合いの実現を提案する。 我々のアプローチは、そのような系の絡み合いスペクトルは、位置依存結合の集合を含む物理ハミルトニアンによって実現できるという考えに基づいている。 本研究では、無限系に埋め込まれた分割に対応する調和トラップと、開境界条件を持つ半分割の性質を再現する線形ポテンシャルという、2つの異なる領域における系の絡み合いスペクトルの普遍的な比を再現することに焦点を当てる。 本研究は, 重力と標準トラッピング技術を用いて, ハイゼンベルクモデルとxxモデルの絡み合いスペクトルを, 現実的なコールド原子実験環境で測定する可能性を示す。

We present a proposal for the realization of entanglement Hamiltonians in one-dimensional critical spin systems with strongly interacting cold atoms. Our approach is based on the notion that the entanglement spectrum of such systems can be realized with a physical Hamiltonian containing a set of position-dependent couplings. We focus on reproducing the universal ratios of the entanglement spectrum for systems in two different geometries: a harmonic trap, which corresponds to a partition embedded in an infinite system, and a linear potential, which reproduces the properties of a half-partition with open boundary conditions. Our results demonstrate the possibility of measuring the entanglement spectra of the Heisenberg and XX models in a realistic cold-atom experimental setting by simply using gravity and standard trapping techniques.
翻訳日:2023-05-10 17:23:13 公開日:2020-07-10
# テラヘルツ駆動型プラズモンとエクソンのハイブリッド系における時間分解発光

Time-resolved Photoluminescence in Terahertz-driven Hybrid Systems of Plasmons and Excitons ( http://arxiv.org/abs/2007.05151v1 )

ライセンス: Link先を確認
Chen-Yen Lai, D. A. Yarotski, and Jian-Xin Zhu(参考訳) 超高速ポンププローブ技術は、新しい量子デバイスを設計するための材料の特性を理解し、操作するための強力なツールである。 強烈な単サイクルテラヘルツパルスは、半導体量子ドットの固有特性を変化させ、異なる発光を持つことができる。 プラズモンと励起子のハイブリッド系では、これらの2つの自由度の間のコヒーレンスとカップリングが光学的性質に重要な役割を果たす。 したがって、テラヘルツポンプパルスが量子ドット上の励起子の自由度に結合するハイブリッドシステムにおけるテラヘルツポンプ光プローブ実験を考察する。 ハイブリッドシステムの時間分解光ルミネッセンスは,ポンプとプローブパルスの重なりに応じて特性周波数の応答が変化することを示している。 さらに、エキシトンとプラズモンの共鳴は、いくつかのパラメータでテラヘルツポンプパルスによって引き起こされる。 以上の結果から,テラヘルツ駆動ハイブリッドシステムは,材料特性を操作するための汎用的なツールであり,現代的な光学デバイスを設計するための新しい経路を開くことができる。

Ultrafast pump-probe technique is a powerful tool to understand and manipulate properties of materials for designing novel quantum devices. An intense, single cycle terahertz pulse can change the intrinsic properties of semiconductor quantum dots to have different luminescence. In a hybrid system of plasmon and exciton, the coherence and coupling between these two degrees of freedom play an important role on their optical properties. Therefore, we consider a terahertz pump optical probe experiment in the hybrid systems where the terahertz pump pulse couples to the exciton degrees of freedom on the quantum dot. The time resolved photoluminescence of the hybrid system shows that the response of the characteristic frequency shifts according to the overlap between the pump and probe pulses. Furthermore, the resonance between the exciton and plasmons can be induced by the terahertz pump pulse in some parameter regimes. Our results show the terahertz driven hybrid system can be a versatile tool for manipulating the material properties and open a new route to design modern optical devices.
翻訳日:2023-05-10 17:23:01 公開日:2020-07-10
# 量子セキュアインターネットトランスポート

Quantum Secured Internet Transport ( http://arxiv.org/abs/2007.05522v1 )

ライセンス: Link先を確認
Bernardo Huberman, Bob Lund and Jing Wang(参考訳) 量子コンピューティングは、インターネットで広く使われているトランスポート層セキュリティ(TLS)を支える公開鍵インフラストラクチャに対する新たな脅威である。 本稿では,qkd対称鍵をtlsを用いて,既存のインターネットアプリケーションに対して,量子コンピューティングに耐性のあるセキュリティを提供する方法について述べる。 また、セキュアなサイト間の長距離ファイバ上でのQKDと、各サイト内の短距離における無線キー分布を用いて、一般的なハイブリッドキー配信アーキテクチャを実装し、テストする。

Quantum computing represents an emerging threat to the public key infrastructure underlying transport layer security (TLS) widely used in the Internet. This paper describes how QKD symmetric keys can be used with TLS to provide quantum computing resistant security for existing Internet applications. We also implement and test a general hybrid key delivery architecture with QKD over long distance fibers between secure sites, and wireless key distribution over short distance within each site Finally we show how this same capability can be extended to a TLS cipher scheme with perfect security.
翻訳日:2023-05-10 17:13:41 公開日:2020-07-10
# 隠れ重み付きビット関数に対する効率的なアンシラフリー可逆回路と量子回路

Efficient ancilla-free reversible and quantum circuits for the Hidden Weighted Bit function ( http://arxiv.org/abs/2007.05469v1 )

ライセンス: Link先を確認
Sergey Bravyi, Theodore J. Yoder, and Dmitri Maslov(参考訳) 隠れ重み付きビット関数は古典的な計算モデルの研究において重要な役割を果たす。 一般的な考えでは、この関数は可逆アンシラフリー回路による実装では指数関数的に難しいが、少数のアンシラを導入することで非常に効率的な実装が可能になる。 本稿では,隠れ重み付きビット関数を演算する多項式サイズ可逆アンシラフリー回路を開発し,指数的ハードネス予想を反論する。 我々の回路は$O(n^{6.42})$であり、$n$は入力ビットの数である。 また、Hidden Weighted Bit関数はサイズ$O(n^2)$の量子アンシラ自由回路で計算可能であることを示す。 採用される技術ツールは、理論計算機科学(バーリントンの定理)と物理学(フェルミオン・ハミルトニアンのシミュレーション)の技術を組み合わせたものである。

The Hidden Weighted Bit function plays an important role in the study of classical models of computation. A common belief is that this function is exponentially hard for the implementation by reversible ancilla-free circuits, even though introducing a small number of ancillae allows a very efficient implementation. In this paper, we refute the exponential hardness conjecture by developing a polynomial-size reversible ancilla-free circuit computing the Hidden Weighted Bit function. Our circuit has size $O(n^{6.42})$, where $n$ is the number of input bits. We also show that the Hidden Weighted Bit function can be computed by a quantum ancilla-free circuit of size $O(n^2)$. The technical tools employed come from a combination of Theoretical Computer Science (Barrington's theorem) and Physics (simulation of fermionic Hamiltonians) techniques.
翻訳日:2023-05-10 17:13:32 公開日:2020-07-10
# 符号問題周辺の複雑な経路

Complex Paths Around The Sign Problem ( http://arxiv.org/abs/2007.05436v1 )

ライセンス: Link先を確認
Andrei Alexandru, Gokce Basar, Paulo F. Bedaque and Neill C. Warrington(参考訳) 経路積分のモンテカルロ評価は、強結合系にアプローチするための数少ない汎用手法の一つである。 QCD/核物理学から相関電子系まで、物理学のあらゆる分野で使われている。 しかし、多くの重要なシステム(中性子星内部の高密度物質、半充満、力学、非平衡可観測物からの反発ハバードモデル)は、現在のモンテカルロ法では「サイン・プロブレム」(sign-problem)と呼ばれる現象が原因である。 フィールド空間の複素化とそれに伴うピカール・レフシェッツ理論に基づく符号問題に取り組むために最近開発された新しいアイデアの集合を概説する。 このアプローチの根底にある数学的アイデアは、これまでに開発されたアルゴリズムと同様に、この手法がすでに成功している非自明な例と共に説明されている。 機械学習技術が急速に普及する中、今後の研究の方向性は一線を画す。

The Monte Carlo evaluation of path integrals is one of a few general purpose methods to approach strongly coupled systems. It is used in all branches of Physics, from QCD/nuclear physics to the correlated electron systems. However, many systems of great importance (dense matter inside neutron stars, the repulsive Hubbard model away from half-filling, dynamical and non-equilibrium observables) are not amenable to the Monte Carlo method as it currently stands due to the so-called "sign-problem". We review a new set of ideas recently developed to tackle the sign problem based on the complexification of field space and the Picard-Lefshetz theory accompanying it. The mathematical ideas underpinning this approach, as well as the algorithms so far developed, are described together with non-trivial examples where the method has already been proved successful. Directions of future work, including the burgeoning use of machine learning techniques, are delineated.
翻訳日:2023-05-10 17:13:05 公開日:2020-07-10
# プライバシー保護型クラウドソーシングプラットフォームにおけるタスクチューニングからタスク割り当てへ

From Task Tuning to Task Assignment in Privacy-Preserving Crowdsourcing Platforms ( http://arxiv.org/abs/2007.05373v1 )

ライセンス: Link先を確認
Joris Dugu\'ep\'eroux (DRUID), Tristan Allard (DRUID)(参考訳) クラウドソーシングプラットフォームの特殊なワーカープロファイルには、個人情報(個人の好み、スキル、利用可能なスロット、利用可能なデバイスなど)を多量の識別し、潜在的にセンシティブな個人情報が含まれている可能性がある。 これは、プラットフォームが完全に信頼されていない場合でも、強力なプライバシ保証を提供しながら、効率的なクラウドソーシングプロセスの実現を目的とした、プライバシ保護のクラウドソーシングプラットフォームの設計につながった。 本稿では,2つの貢献を提案する。 まず,プライバシ保護型クラウドソーシングプラットフォーム内での作業者プロファイルの多種多様な利用を支援することを目的としたPKDアルゴリズムを提案する。 PKDアルゴリズムは、労働者の実際の集団のスキルの多次元空間のコンピューティング(摂動)パーティションと、パーティション当たりの労働者の(摂動)COUNTのホモモルフィック暗号化と差分プライバシを結合する。 第2に,プライベート情報検索技術の最近の進歩を活かして,プライベートかつ安価なタスク割り当てのソリューションを設計することを提案する。 作業者へのタスク提案にPIR技術を用いることの問題点を詳細に検討し、NP-Hardであることを示し、PKDアルゴリズムによる分割出力に基づいてタスクをグループ化するPKD PIR Packingヒューリスティックを考案する。 要するに、pkdアルゴリズムとpkd pirパッキングヒューリスティックをデザインし、正直な作業者やプラットフォームに対するセキュリティを正式に証明し、それらの複雑さを分析し、合成データと現実的なデータセットの両方で実施した広範囲な実験的評価を通じて、現実のシナリオにおける品質と可用性を実証します。

Specialized worker profiles of crowdsourcing platforms may contain a large amount of identifying and possibly sensitive personal information (e.g., personal preferences, skills, available slots, available devices) raising strong privacy concerns. This led to the design of privacy-preserving crowdsourcing platforms, that aim at enabling efficient crowd-sourcing processes while providing strong privacy guarantees even when the platform is not fully trusted. In this paper, we propose two contributions. First, we propose the PKD algorithm with the goal of supporting a large variety of aggregate usages of worker profiles within a privacy-preserving crowdsourcing platform. The PKD algorithm combines together homomorphic encryption and differential privacy for computing (perturbed) partitions of the multi-dimensional space of skills of the actual population of workers and a (perturbed) COUNT of workers per partition. Second, we propose to benefit from recent progresses in Private Information Retrieval techniques in order to design a solution to task assignment that is both private and affordable. We perform an in-depth study of the problem of using PIR techniques for proposing tasks to workers, show that it is NP-Hard, and come up with the PKD PIR Packing heuristic that groups tasks together according to the partitioning output by the PKD algorithm. In a nutshell, we design the PKD algorithm and the PKD PIR Packing heuristic, we prove formally their security against honest-but-curious workers and/or platform, we analyze their complexities, and we demonstrate their quality and affordability in real-life scenarios through an extensive experimental evaluation performed over both synthetic and realistic datasets.
翻訳日:2023-05-10 17:12:31 公開日:2020-07-10
# フラットバンドの量子輸送と超金属性

Quantum transport in flat bands and super-metallicity ( http://arxiv.org/abs/2007.05309v1 )

ライセンス: Link先を確認
G. Bouzerar and D. Mayou(参考訳) フラットバンド(FB)システムにおける量子物理学は、様々なエキゾチックな現象を具現化し、直感的な特徴に反する。 平坦なバンドと波長可変ギャップを示すグラフェン系化合物の量子輸送について検討した。 FB状態の局在性と0群速度にもかかわらず、FBエネルギーにおける超金属(SM)相が明らかにされる。 SM相は非弾性散乱強度に対して堅牢であり、FBと分散バンド間のバンド間遷移によってのみ制御される。 SM相は、格子のギャップ振幅と性質(秩序あるいはナノパターン)とは無関係で準独立に現れる。 非慣習的なfb輸送の普遍性は、リーブ格子内の電子の場合で示される。

Quantum physics in flat-band (FB) systems embodies a variety of exotic phenomenon and even counter intuitive features. The quantum transport in several graphene based compounds that exhibit a flat band and a tunable gap is investigated. Despite the localized nature of the FB states and a zero group velocity, a super-metallic (SM) phase at the FB energy is revealed. The SM phase is robust against the inelastic scattering strength and controlled only by the inter-band transitions between the FB and the dispersive bands. The SM phase appears insensitive and quasi independent of the gap amplitude and nature of the lattice (disordered or nano-patterned). The universal nature of the unconventional FB transport is illustrated with the case of electrons in the Lieb lattice.
翻訳日:2023-05-10 17:11:46 公開日:2020-07-10
# ランダムな量子回路をサンプリングする歩行者ガイド

Sampling random quantum circuits: a pedestrian's guide ( http://arxiv.org/abs/2007.07872v1 )

ライセンス: Link先を確認
Sean Mullane(参考訳) google、nasa ames、カリフォルニア大学サンタバーバラ校などの研究グループによる最近の実験は、量子超越性が超伝導量子プロセッサでようやく達成されたという説得力のある証拠を提供した。 これらの実験の理論的基礎はランダム量子回路の出力分布のサンプリングに依存するが、残念ながらこの理論的な基礎が量子超越性を定義するためにどのように使われるかを理解することは極めて難しい課題である。 このサンプリングタスクと量子超越性との関係を理解するためには、ランダム行列理論、数学的解析、量子カオス、計算複雑性、確率論といった概念を学ばなければならない。 量子超越性という文脈でこれらの概念をつなぐリソースは散在しており、しばしば見つけるのが困難である。 この記事では、googleの量子超越実験の理論的基礎を理解するために、量子超越性の正確な数学的定義を慎重に導出することにより、この困難を緩和する試みである。 量子超越性に関する多くの研究論文に取り組む際、どこから始めるべきか分からない、一般的な科学論文よりも多くの情報を欲しがっている、上級の大学生や大学院生向けにデザインされています。

Recent experiments completed by collaborating research groups from Google, NASA Ames, UC Santa Barbara, and others provided compelling evidence that quantum supremacy has finally been achieved on a superconducting quantum processor. The theoretical basis for these experiments depends on sampling the output distributions of random quantum circuits; unfortunately, understanding how this theoretical basis can be used to define quantum supremacy is an extremely difficult task. Anyone attempting to understand how this sampling task relates to quantum supremacy must study concepts from random matrix theory, mathematical analysis, quantum chaos, computational complexity, and probability theory. Resources connecting these concepts in the context of quantum supremacy are scattered and often difficult to find. This article is an attempt to alleviate this difficulty in those who wish to understand the theoretical basis of Google's quantum supremacy experiments, by carefully walking through a derivation of their precise mathematical definition of quantum supremacy. It's designed for advanced undergraduate or graduate students who want more information than can be provided in popular science articles, but who might not know where to begin when tackling the many research papers related to quantum supremacy.
翻訳日:2023-05-10 17:04:31 公開日:2020-07-10
# 学術的文脈における二次研究:システムマッピングと調査

Secondary Studies in the Academic Context: A Systematic Mapping and Survey ( http://arxiv.org/abs/2007.07751v1 )

ライセンス: Link先を確認
Katia Romero Felizardo, \'Erica Ferreira de Souza, Bianca Minetto Napole\~ao, Nandamudi Lankalapalli Vijaykumar, Maria Teresa Baldassarre(参考訳) 文脈: 何人かの研究者がソフトウェア工学(se)における二次研究(systematic literature review - slr and systematic mappings - sms)の適用経験を報告している。 しかし、学術的な文脈で中等教育を実施することの価値を論じる研究は依然として乏しい。 Goal: この研究の主な目的は、学術的な文脈における二次研究の利用の概要を提供することです。 方法:2つの実証研究手法が用いられた。 当初我々は,SE研究プロジェクト実施のための研究手法として,セカンダリリサーチの利用に関する利用可能な,関連する研究をSMを用いて検討した。 次に,研究プロジェクトを支援する二次研究の価値に関する認識を明らかにするため,64人の研究者による調査を行った。 結果:本研究の結果は,学術的文脈における二次研究の活用,文献の概要の提供,研究分野における研究文献の特定などのメリットを示し,研究プロジェクトへの助成及び/又は研究プロジェクトにおける決定の支持について,研究プロジェクトを承認すべき理由を説明するための理由を見出すことができる。 二次研究のse大学院生が直面する困難は、チームによって行われる傾向があり、従来のレビューよりも多くの努力を必要とすることである。 結論: 大学院生にとって二次研究は有益である。 プロジェクト全体の発展に資する利益と貢献のために、研究プロジェクトのための二次的な研究を行うことを検討するべきである。 しかし、経験豊富な上司のアドバイスはバイアスを避けるために不可欠である。 さらに、スキルの獲得は、研究プロジェクトを追求し、学術的または工業的なキャリアのために準備する学生のモチベーションを高めることができる。

Context: Several researchers have reported their experiences in applying secondary studies (Systematic Literature Reviews - SLRs and Systematic Mappings - SMs) in Software Engineering (SE). However, there is still a lack of studies discussing the value of performing secondary studies in an academic context. Goal: The main goal of this study is to provide an overview on the use of secondary studies in an academic context. Method: Two empirical research methods were used. Initially, we conducted an SM to identify the available and relevant studies on the use of secondary studies as a research methodology for conducting SE research projects. Secondly, a survey was performed with 64 SE researchers to identify their perception related to the value of performing secondary studies to support their research projects. Results: Our results show benefits of using secondary studies in the academic context, such as, providing an overview of the literature as well as identifying relevant research literature on a research area enabling to find reasons to explain why a research project should be approved for a grant and/or supporting decisions made in a research project. Difficulties faced by SE graduate students with secondary studies are that they tend to be conducted by a team and it demands more effort than a traditional review. Conclusions: Secondary studies are valuable to graduate students. They should consider conducting a secondary study for their research project due to the benefits and contributions provided to develop the overall project. However, the advice of an experienced supervisor is essential to avoid bias. In addition, the acquisition of skills can increase student's motivation to pursue their research projects and prepare them for both academic or industrial careers.
翻訳日:2023-05-10 17:04:11 公開日:2020-07-10
# ランダム測定による未知連続変数状態の絡み合いの検出

Detecting entanglement of unknown continuous variable states with random measurements ( http://arxiv.org/abs/2007.05650v1 )

ライセンス: Link先を確認
Tatiana Mihaescu, Hermann Kampermann, Giulio Gianfelici, Aurelian Isar, Dagmar Bruss(参考訳) ランダムホモダイン測定から構築可能な共分散行列に基づく絡み合い証人による連続変数系における絡み合い検出の可能性について検討する。 本稿では,第2モーメントに基づく絡み合いを特徴付ける新しい線形制約を提案し,与えられたランダムな測定に最適な絡み合いテストを提供する半定プログラムで使用する。 本手法をスクイーズド真空状態のクラスでテストし,一般未知共分散行列における絡み合い検出の効率について検討した。

We explore the possibility of entanglement detection in continuous variable systems by entanglement witnesses based on covariance matrices, constructible from random homodyne measurements. We propose new linear constraints characterizing the entanglement witnesses based on second moments, and use them in a semidefinite program providing the optimal entanglement test for given random measurements. We test the method on the class of squeezed vacuum states and study the efficiency of entanglement detection in general unknown covariance matrices.
翻訳日:2023-05-10 17:03:47 公開日:2020-07-10
# スピン回転結合による核表面共鳴

Nuclear Surface Acoustic Resonance with Spin-Rotation Coupling ( http://arxiv.org/abs/2007.05645v1 )

ライセンス: Link先を確認
Koji Usami and Kazuyuki Takeda(参考訳) 本研究では、平面外静磁場下では、表面音響波(SAW)キャビティ上の薄い試料中の核スピンが共鳴的に励起され、スピン回転結合によって検出されることを示す。 このようなsawキャビティは、品質係数が10^{4}$であり、モード容積が10^{-2}$mm$^{3}$であるので、共鳴検出における信号対雑音比はかなり高いと推定される。 従来の誘導法では望ましくない2次元半導体の原子薄層の単一フレークの核スピン共鳴を検出することは,提案手法により現実的な標的となる可能性が示唆された。

We show that, under an appropriate out-of-plane static magnetic field, nuclear spins in a thin specimen on a surface acoustic wave (SAW) cavity can be resonantly excited and detected through spin-rotation coupling. Since such a SAW cavity can have the quality factor as high as $10^{4}$ and the mode volume as small as $10^{-2}$ mm$^{3}$ the signal-to-noise ratio in detecting the resonance is estimated to be quite high. We argue that detecting nuclear spin resonance of a single flake of an atomically-thin layer of two-dimensional semiconductor, which has so far been beyond hope with the conventional inductive method, can be a realistic target with the proposed scheme.
翻訳日:2023-05-10 17:03:38 公開日:2020-07-10
# 量子特異振動子の古典的および統計的極限

Classical and statistical limits of the quantum singular oscillator ( http://arxiv.org/abs/2007.05575v1 )

ライセンス: Link先を確認
Caio Fernando e Silva and Alex E. Bernardini(参考訳) 量子特異振動子(so)の古典的境界は、位相空間と構成空間の量子軌道を相対的に評価し、歪む量子揺らぎを計算するために、ワイル・ウィグナー位相空間とボーム力学の枠組みの下で取り扱われる。 古典的時間発展を(位相空間および構成空間において)回復するエンテンダーされた純粋な状態 \textit{quasi}-gaussian wigner関数に対して、ボーム軌道は、soエネルギーと非調和性パラメータが量子構造をどのように駆動するかを解析的に求めることで、回復した古典的振る舞いを定量的に歪ませる。 古典量子制限の議論を量子統計アンサンブルに拡張し、熱化されたウィグナー関数と対応するウィグナー電流を計算し、温度依存性が局所的な量子ゆらぎに与える影響を示す。 量子混合のレベルが量子純度によって定量化されることを考えると、情報の損失は温度効果の観点から定量化される。 位相空間のフロープロファイルが対照的であるにもかかわらず、2つの非等価量子系、すなわち特異点と調和振動子は、安定な古典的極限を再現するだけでなく、熱平衡において統計的に等価であることが示されている。

The classical boundaries of the quantum singular oscillator (SO) is addressed under Weyl-Wigner phase-space and Bohmian mechanics frameworks as to comparatively evaluate phase-space and configuration space quantum trajectories as well as to compute distorting quantum fluctuations. For an engendered pure state \textit{quasi}-gaussian Wigner function that recovers the classical time evolution (at phase and configuration spaces), Bohmian trajectories are analytically obtained as to show how the SO energy and anharmonicity parameters drive the quantum regime through the so-called quantum force, which quantitatively distorts the recovered classical behavior. Extending the discussion of classical-quantum limits to a quantum statistical ensemble, the thermalized Wigner function and the corresponding Wigner currents are computed as to show how the temperature dependence affects the local quantum fluctuations. Considering that the level of quantum mixing is quantified by the quantum purity, the loss of information is quantified in terms of the temperature effects. Despite having contrasting phase-space flow profiles, two inequivalent quantum systems, namely the singular and the harmonic oscillators, besides reproducing stable classical limits, are shown to be statistically equivalent at thermal equilibrium, a fact that raises the SO non-linear system to a very particular category of quantum systems.
翻訳日:2023-05-10 17:03:25 公開日:2020-07-10
# 食品ブログエンターテイメントの追跡複雑さ

Tracing Complexity in Food Blogging Entries ( http://arxiv.org/abs/2007.05552v1 )

ライセンス: Link先を確認
Maija K\=ale and Ebenezer Agbozo(参考訳) 本稿では,Twitter上での食品ブログにおける複雑性の概念と,その表現方法に焦点をあてる。 健康・健康・健康という概念を包含する食品ブログエントリに注目して、健康食品を見る際の複雑性の把握に特に注意を向ける。 我々は、複雑性が、栄養と健康に関する合理的な考察よりも、食物選択の不合理な決定要因である、ヘドニズムを顕在化すると考えるからである。 分析のプラットフォームとしてテキストを使用することで,単語やバイグラムの頻度を示すbigramやトピックモデルを導出する。 以上の結果から,健康食品領域の優位性は,食品の調理の容易性や速さに反するが,合理的かつ健康関連的な考察が常に優先されるとは限らないことが示唆された。 食事のブログエントリは、健康な食べ物が美味しく楽しいという驚くほど少ない説明を示している。 これにより、より健全な消費者行動を形成する方法に関する知識に寄与することを目指しています。 ヘドニックな意味の不足を発見したこの研究は、食べ物に関するテキストベースの情報に関するさらなる研究を招いている。

Within this paper, we focus on the concept of complexity and how it is represented in food blogging entries on Twitter. We turn specific attention to complexity capture when looking at healthy foods, focusing on food blogging entries that entail the notions of health/healthiness/healthy. We do so because we consider that complexity manifests hedonism - that is the irrational determinant of food choice above rational considerations of nutrition and healthiness. Using text as a platform for our analysis, we derive bigrams and topic models that illustrate the frequencies of words and bi-grams, thus, pointing our attention to current discourse in food blogging entries on Twitter. The results show that, contrary to complexity, that the dominating characteristics in healthy food domain are easiness and speed of preparation, however, rational and health related considerations may not always take precedence when the choice is determined. Food blogging entries show surprisingly little account of healthy food as being tasty and enjoyable. With this we aim to contribute to the knowledge of how to shape more healthy consumer behaviors. Having discovered the scarcity of hedonic connotations, this work invites for further research in text-based information about food.
翻訳日:2023-05-10 17:02:57 公開日:2020-07-10
# 有限状態マルコフ鎖に対するホッフィング不等式とそのマルコフバンドイットへの応用

A Hoeffding Inequality for Finite State Markov Chains and its Applications to Markovian Bandits ( http://arxiv.org/abs/2001.01199v2 )

ライセンス: Link先を確認
Vrettos Moulos(参考訳) 本稿では、部分和 $\sum_{k=1}^n f (x_k)$ に対するホッフィング不等式を開発し、ここで$\{x_k\}_{k \in \mathbb{z}_{> 0}} は有限状態空間上の既約マルコフ連鎖であり、$f : s \to [a, b]$ は実数値関数である。 私たちの境界は一般に単純であり、状態空間の既約性と有限性を前提としており、強力である。 その有用性を示すために、多武装バンディット問題に2つの応用を提供する。 第一は、ほぼ最良のマルコフの腕を特定すること、第二は、マルコフの盗賊の文脈における後悔の最小化に関するものである。

This paper develops a Hoeffding inequality for the partial sums $\sum_{k=1}^n f (X_k)$, where $\{X_k\}_{k \in \mathbb{Z}_{> 0}}$ is an irreducible Markov chain on a finite state space $S$, and $f : S \to [a, b]$ is a real-valued function. Our bound is simple, general, since it only assumes irreducibility and finiteness of the state space, and powerful. In order to demonstrate its usefulness we provide two applications in multi-armed bandit problems. The first is about identifying an approximately best Markovian arm, while the second is concerned with regret minimization in the context of Markovian bandits.
翻訳日:2023-01-14 07:42:56 公開日:2020-07-10
# エッジ保存型CNN SAR復号アルゴリズム

Edge Preserving CNN SAR Despeckling Algorithm ( http://arxiv.org/abs/2001.04716v3 )

ライセンス: Link先を確認
Sergio Vitale, Giampaolo Ferraioli, Vito Pascazio(参考訳) SARの切り離しは地球観測の鍵となるツールである。 SAR画像の解釈は、照明シーンからセンサーへの後方散乱の干渉に関連する乗法ノイズであるスペックルによって障害される。 騒音の低減はシーンを理解する上で重要な課題である。 先程のソリューションであるKL-DNNの結果に基づいて、この研究では、非特定のための畳み込みニューラルネットワークをトレーニングするための新たなコスト関数を定義する。 目的は,KL-DNNにとって非常に困難な人工構造物や都市部をよりよくフィルタすることである。 その結果,不均質な領域では良好な結果が得られ,均質な領域では良好な結果が得られた。 シミュレーションデータと実データの両方の結果が論文に示されている。

SAR despeckling is a key tool for Earth Observation. Interpretation of SAR images are impaired by speckle, a multiplicative noise related to interference of backscattering from the illuminated scene towards the sensor. Reducing the noise is a crucial task for the understanding of the scene. Based on the results of our previous solution KL-DNN, in this work we define a new cost function for training a convolutional neural network for despeckling. The aim is to control the edge preservation and to better filter manmade structures and urban areas that are very challenging for KL-DNN. The results show a very good improvement on the not homogeneous areas keeping the good results in the homogeneous ones. Result on both simulated and real data are shown in the paper.
翻訳日:2023-01-11 13:18:21 公開日:2020-07-10
# 映像特徴の解釈:3次元畳み込みネットワークと畳み込みLSTMネットワークの比較

Interpreting video features: a comparison of 3D convolutional networks and convolutional LSTM networks ( http://arxiv.org/abs/2002.00367v2 )

ライセンス: Link先を確認
Joonatan M\"antt\"ari, Sofia Broom\'e, John Folkesson, Hedvig Kjellstr\"om(参考訳) コンピュータビジョンの深層学習において、ネットワークの分類に基づくものを理解することを目的として、解釈可能性に関するいくつかの技術が提示されている。 しかし、深層ビデオアーキテクチャの解釈可能性はまだ初期段階にあり、時空間的特徴をデコードする方法の明確な概念はまだわかっていない。 本稿では,3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存フレーム間でどのように特徴を学習するかを比較する。 これは、空間的特徴を学習するが、主に異なるモデリング時間を持つ2つのビデオモデルの最初の比較である。 さらに, \cite{MeaningFulPert} が導入した有意義な摂動の概念を時間次元に拡張し, 分類決定のためにネットワークに最も有意義なシーケンスの時間的部分を特定する。 以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続領域に配置することが示唆された。

A number of techniques for interpretability have been presented for deep learning in computer vision, typically with the goal of understanding what the networks have based their classification on. However, interpretability for deep video architectures is still in its infancy and we do not yet have a clear concept of how to decode spatiotemporal features. In this paper, we present a study comparing how 3D convolutional networks and convolutional LSTM networks learn features across temporally dependent frames. This is the first comparison of two video models that both convolve to learn spatial features but have principally different methods of modeling time. Additionally, we extend the concept of meaningful perturbation introduced by \cite{MeaningFulPert} to the temporal dimension, to identify the temporal part of a sequence most meaningful to the network for a classification decision. Our findings indicate that the 3D convolutional model concentrates on shorter events in the input sequence, and places its spatial focus on fewer, contiguous areas.
翻訳日:2023-01-04 20:04:35 公開日:2020-07-10
# 混合シーンにおける意味認識画像インペインティングの指導と評価

Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed Scenes ( http://arxiv.org/abs/2003.06877v3 )

ライセンス: Link先を確認
Liang Liao, Jing Xiao, Zheng Wang, Chia-Wen Lin, Shin'ichi Satoh(参考訳) 複雑なシーンの正しい構造と合理的なテクスチャを備えた腐敗したイメージを完成させることは、いまだに難しい課題である。 劣化した画像の混合シーンの欠落穴には様々な意味情報が含まれることが多いため、従来の2段階のアプローチでは、信頼できない構造予測と曖昧な画像テクスチャ生成の問題が発生することが多い。 本稿では,セマンティクス抽出と画像インパインティングの相互プレイフレームワークにおいて,構造先行とインペイント画像を反復的に更新する意味的指導・評価ネットワーク(sge-net)を提案する。 セマンティクスセグメンテーションマップを、位置依存的な推論を再評価するインペインティングの各尺度のガイダンスとして使用し、それゆえ、後続のスケールで不適切な推論領域を洗練する。 混合シーンの現実画像に対する大規模な実験により,提案手法が最先端手法よりも明瞭な境界とフォトリアリスティックテクスチャで優れていることが示された。

Completing a corrupted image with correct structures and reasonable textures for a mixed scene remains an elusive challenge. Since the missing hole in a mixed scene of a corrupted image often contains various semantic information, conventional two-stage approaches utilizing structural information often lead to the problem of unreliable structural prediction and ambiguous image texture generation. In this paper, we propose a Semantic Guidance and Evaluation Network (SGE-Net) to iteratively update the structural priors and the inpainted image in an interplay framework of semantics extraction and image inpainting. It utilizes semantic segmentation map as guidance in each scale of inpainting, under which location-dependent inferences are re-evaluated, and, accordingly, poorly-inferred regions are refined in subsequent scales. Extensive experiments on real-world images of mixed scenes demonstrated the superiority of our proposed method over state-of-the-art approaches, in terms of clear boundaries and photo-realistic textures.
翻訳日:2022-12-23 09:05:21 公開日:2020-07-10
# パラメータ学習による変分推論の車両軌道推定への応用

Variational Inference with Parameter Learning Applied to Vehicle Trajectory Estimation ( http://arxiv.org/abs/2003.09736v2 )

ライセンス: Link先を確認
Jeremy N. Wong, David J. Yoon, Angela P. Schoellig, Timothy D. Barfoot(参考訳) ガウス変分推論におけるパラメータ学習について,雑音測定のみを用いて検討した。 これは車両軌道推定の文脈で実証されるが,提案手法は一般的である。 本稿は,従来,大規模非線形バッチ状態推定に用いられてきたExactly Sparse Gaussian Variational Inference (ESGVI)フレームワークを拡張したものである。 私たちの貢献は、ESGVIフレームワーク内でシステムモデルのパラメータ(実際は選択が難しいかもしれません)を学習することにあります。 本稿では,車両軌道推定における運動モデルとセンサモデルの共分散を学習する。 具体的には,ホワイトノイズ・オン・アクセラレーション運動モデルのパラメータと,センサモデルの計測共分散より先行する逆ウィッシュアートのパラメータを学習する。 本研究では,lidarを用いて高精細度マップに対してローカライズする車からなる36~kmのデータセットを用いて,データのトレーニング部でパラメータを学習し,異常値が存在する場合でもテスト部で高品質な状態推定を行うことを示す。 最後に,多数の偽ループクロージャがあっても,ポーズグラフの最適化にフレームワークが利用できることを示す。

We present parameter learning in a Gaussian variational inference setting using only noisy measurements (i.e., no groundtruth). This is demonstrated in the context of vehicle trajectory estimation, although the method we propose is general. The paper extends the Exactly Sparse Gaussian Variational Inference (ESGVI) framework, which has previously been used for large-scale nonlinear batch state estimation. Our contribution is to additionally learn parameters of our system models (which may be difficult to choose in practice) within the ESGVI framework. In this paper, we learn the covariances for the motion and sensor models used within vehicle trajectory estimation. Specifically, we learn the parameters of a white-noise-on-acceleration motion model and the parameters of an Inverse-Wishart prior over measurement covariances for our sensor model. We demonstrate our technique using a 36~km dataset consisting of a car using lidar to localize against a high-definition map; we learn the parameters on a training section of the data and then show that we achieve high-quality state estimates on a test section, even in the presence of outliers. Lastly, we show that our framework can be used to solve pose graph optimization even with many false loop closures.
翻訳日:2022-12-21 13:17:40 公開日:2020-07-10
# SUMO:潜時変動モデルにおけるログマージ確率の非バイアス推定

SUMO: Unbiased Estimation of Log Marginal Probability for Latent Variable Models ( http://arxiv.org/abs/2004.00353v2 )

ライセンス: Link先を確認
Yucen Luo, Alex Beatson, Mohammad Norouzi, Jun Zhu, David Duvenaud, Ryan P. Adams, and Ricky T. Q. Chen(参考訳) 潜在変数モデルのトレーニングに使用される標準変分下限は、ほとんどの関心の偏りのある推定値を生成する。 無限級数のランダム化切り換えに基づく潜在変数モデルに対する、ログ周縁確率とその勾配の偏りのない推定器を導入する。 エンコーダ-デコーダアーキテクチャによってパラメータ化される場合、エンコーダのパラメータは、この推定器の分散を最小限に抑えるために最適化できる。 推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。 この推定器はまた、逆klの発散を最小化しスコア関数を推定するなど、偏りのない推定器が好ましいタスクに潜在変数モデルを使用することも可能である。

Standard variational lower bounds used to train latent variable models produce biased estimates of most quantities of interest. We introduce an unbiased estimator of the log marginal likelihood and its gradients for latent variable models based on randomized truncation of infinite series. If parameterized by an encoder-decoder architecture, the parameters of the encoder can be optimized to minimize its variance of this estimator. We show that models trained using our estimator give better test-set likelihoods than a standard importance-sampling based approach for the same average computational cost. This estimator also allows use of latent variable models for tasks where unbiased estimators, rather than marginal likelihood lower bounds, are preferred, such as minimizing reverse KL divergences and estimating score functions.
翻訳日:2022-12-17 18:00:45 公開日:2020-07-10
# 顔認識における顔品質推定と人口統計・非デポグラフィバイアスとの関連

Face Quality Estimation and Its Correlation to Demographic and Non-Demographic Bias in Face Recognition ( http://arxiv.org/abs/2004.01019v3 )

ライセンス: Link先を確認
Philipp Terh\"orst, Jan Niklas Kolf, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 顔の質評価は、認識のための顔画像の有用性を推定することを目的としている。 これは高い顔認識性能を達成するための重要な要素である。 現在、これらの顔認識システムの高性能化は、人口統計や非デポジトリサブグループに対して強いバイアスを負うコストを伴っている。 近年の研究では、顔品質評価アルゴリズムは、高精度で堅牢な品質評価を実現するために、デプロイされた顔認識システムに適応することが示されている。 しかし、これは、例えばエンロラメント中の差別効果につながる顔の品質評価へのバイアス伝達につながる可能性がある。 本研究では,顔認識におけるバイアスと顔品質評価の相関関係を詳細に分析する。 2つの一般的な顔埋め込みを使用して、制御および制御不能の状況下でキャプチャされた2つの公開データセットで実験を行った。 ポーズ,民族,年齢に対するバイアスに対する顔品質評価のための,最先端の4つのソリューションを評価した。 実験の結果, 顔品質評価ソリューションは, 認識バイアスの影響を受けやすいサブグループに対して有意に低い品質値を割り当てることがわかった。 これは、将来の仕事が対処しなければならない公平さと差別に対する倫理的疑問を提起する。

Face quality assessment aims at estimating the utility of a face image for the purpose of recognition. It is a key factor to achieve high face recognition performances. Currently, the high performance of these face recognition systems come with the cost of a strong bias against demographic and non-demographic sub-groups. Recent work has shown that face quality assessment algorithms should adapt to the deployed face recognition system, in order to achieve highly accurate and robust quality estimations. However, this could lead to a bias transfer towards the face quality assessment leading to discriminatory effects e.g. during enrolment. In this work, we present an in-depth analysis of the correlation between bias in face recognition and face quality assessment. Experiments were conducted on two publicly available datasets captured under controlled and uncontrolled circumstances with two popular face embeddings. We evaluated four state-of-the-art solutions for face quality assessment towards biases to pose, ethnicity, and age. The experiments showed that the face quality assessment solutions assign significantly lower quality values towards subgroups affected by the recognition bias demonstrating that these approaches are biased as well. This raises ethical questions towards fairness and discrimination which future works have to address.
翻訳日:2022-12-17 12:46:02 公開日:2020-07-10
# 知っていることを知る:マルチクラスおよびマルチラベル予測における検証された信頼セット

Knowing what you know: valid and validated confidence sets in multiclass and multilabel prediction ( http://arxiv.org/abs/2004.10181v3 )

ライセンス: Link先を確認
Maxime Cauchois and Suyash Gupta and John Duchi(参考訳) 我々は,データ生成分布の仮定を伴わずに,多クラスおよび多ラベル問題において有効な予測信頼セットを構築するための共形予測手法を開発した。 ここでの課題は、典型的な共形予測 - 限界妥当性(被覆)の保証を与える - が不均一なカバレッジを提供し、難しい例を無視して簡単な例に対処することだ。 量子回帰からアイデアを活用することで、常に正しいカバレッジを保証するが、マルチクラスとマルチラベルの予測問題に対して(漸近的に最適な)条件付きカバレッジを提供する手法を構築する。 マルチラベル予測における指数関数的に大きな信頼セットの潜在的な課題に対処するために,ラベル間の相互作用を効率的に考慮した木構造分類器を構築した。 本手法は,どの分類モデルにも適用可能である。ニューラルネットワーク,ランダムフォレスト,ブーストツリーなど,その妥当性を保証する。 また、信頼性セットのより堅牢なカバレッジを示唆する新しい検証手法を同時に提供する経験的評価も提供します。

We develop conformal prediction methods for constructing valid predictive confidence sets in multiclass and multilabel problems without assumptions on the data generating distribution. A challenge here is that typical conformal prediction methods---which give marginal validity (coverage) guarantees---provide uneven coverage, in that they address easy examples at the expense of essentially ignoring difficult examples. By leveraging ideas from quantile regression, we build methods that always guarantee correct coverage but additionally provide (asymptotically optimal) conditional coverage for both multiclass and multilabel prediction problems. To address the potential challenge of exponentially large confidence sets in multilabel prediction, we build tree-structured classifiers that efficiently account for interactions between labels. Our methods can be bolted on top of any classification model---neural network, random forest, boosted tree---to guarantee its validity. We also provide an empirical evaluation, simultaneously providing new validation methods, that suggests the more robust coverage of our confidence sets.
翻訳日:2022-12-11 06:29:23 公開日:2020-07-10
# cord-19: 新型コロナウイルスのオープンリサーチデータセット

CORD-19: The COVID-19 Open Research Dataset ( http://arxiv.org/abs/2004.10706v4 )

ライセンス: Link先を確認
Lucy Lu Wang, Kyle Lo, Yoganand Chandrasekhar, Russell Reas, Jiangjiang Yang, Doug Burdick, Darrin Eide, Kathryn Funk, Yannis Katsis, Rodney Kinney, Yunyao Li, Ziyang Liu, William Merrill, Paul Mooney, Dewey Murdick, Devvret Rishi, Jerry Sheehan, Zhihong Shen, Brandon Stilson, Alex Wade, Kuansan Wang, Nancy Xin Ru Wang, Chris Wilhelm, Boya Xie, Douglas Raymond, Daniel S. Weld, Oren Etzioni, Sebastian Kohlmeier(参考訳) 新型コロナウイルス(COVID-19)のオープンリサーチデータセット(CORD-19)は、新型コロナウイルスとその関連歴史的な研究に関する科学論文の資源が増えている。 CORD-19は、豊富なメタデータと構造化された全文文書の収集を通じて、テキストマイニングと情報検索システムの開発を容易にするように設計されている。 CORD-19はリリース以来、200万回以上ダウンロードされ、多くのCOVID-19テキストマイニングおよび発見システムの基盤となっている。 本稿では、データセット構築のメカニズムを説明し、課題と重要な設計決定を強調し、CORD-19の使用方法の概要を説明し、データセットの周りに構築されたいくつかの共有タスクについて説明する。 このリソースが、コンピュータコミュニティ、バイオメディカルの専門家、そして政策立案者たちを、新型コロナウイルスの効果的な治療と管理ポリシーの探求につぎ込むことを願っている。

The COVID-19 Open Research Dataset (CORD-19) is a growing resource of scientific papers on COVID-19 and related historical coronavirus research. CORD-19 is designed to facilitate the development of text mining and information retrieval systems over its rich collection of metadata and structured full text papers. Since its release, CORD-19 has been downloaded over 200K times and has served as the basis of many COVID-19 text mining and discovery systems. In this article, we describe the mechanics of dataset construction, highlighting challenges and key design decisions, provide an overview of how CORD-19 has been used, and describe several shared tasks built around the dataset. We hope this resource will continue to bring together the computing community, biomedical experts, and policy makers in the search for effective treatments and management policies for COVID-19.
翻訳日:2022-12-10 18:31:32 公開日:2020-07-10
# 病理組織像の難解な翻訳

Difficulty Translation in Histopathology Images ( http://arxiv.org/abs/2004.12535v2 )

ライセンス: Link先を確認
Jerry Wei and Arief Suriawinata and Xiaoying Liu and Bing Ren and Mustafa Nasir-Moin and Naofumi Tomita and Jason Wei and Saeed Hassanpour(参考訳) 病理組織学画像のユニークな性質は、画像翻訳モデルのドメイン固有の定式化への扉を開く。 本稿では,大腸癌の病理像を分類しやすくする難易度翻訳モデルを提案する。 本モデルは,画像の難易度を測定するための出力信頼度を提供するスコアラと,スコアラが定義したトレーニングセットを用いて,画像の分類から分類の難易度への変換を学習するイメージトランスレータとを備える。 我々は3つの発見を提示する。 まず、生成された画像は、人間の病理学者と機械学習の分類者の両方にとって、対応するソース画像よりも分類が難しい。 第2に,生成した画像を拡張データとしてトレーニングした画像分類器は,独立したテストセットから,容易かつハードな画像の両方に対して優れた性能を示した。 最後に、人間のアノテータ合意とモデルの難易度尺度は、人間のアノテータ合意を必要とする今後の作業において、機械学習分類器の信頼性スコアをプロキシとして使用できることを示唆している。

The unique nature of histopathology images opens the door to domain-specific formulations of image translation models. We propose a difficulty translation model that modifies colorectal histopathology images to be more challenging to classify. Our model comprises a scorer, which provides an output confidence to measure the difficulty of images, and an image translator, which learns to translate images from easy-to-classify to hard-to-classify using a training set defined by the scorer. We present three findings. First, generated images were indeed harder to classify for both human pathologists and machine learning classifiers than their corresponding source images. Second, image classifiers trained with generated images as augmented data performed better on both easy and hard images from an independent test set. Finally, human annotator agreement and our model's measure of difficulty correlated strongly, implying that for future work requiring human annotator agreement, the confidence score of a machine learning classifier could be used as a proxy.
翻訳日:2022-12-09 05:30:56 公開日:2020-07-10
# 内部活性ノードの選択的可視化による深部時間表現の解釈

Interpretation of Deep Temporal Representations by Selective Visualization of Internally Activated Nodes ( http://arxiv.org/abs/2004.12538v2 )

ライセンス: Link先を確認
Sohee Cho, Ginkyeng Lee, Wonjoon Chang and Jaesik Choi(参考訳) 最近のディープニューラルネットワークは、多くの時間的またはシーケンシャルなデータに対する分類および回帰タスクにおける競合性能を示す。 しかし、時間的深層ニューラルネットワークの分類機構を理解することは依然として困難である。 本稿では,深層ニューラルネットワークから学習した時間表現を可視化する2つの新しいフレームワークを提案する。 入力データと出力を与えられたアルゴリズムは、高度に活性化された周期を抽出して時間的ニューラルネットワークの決定を解釈し、ユニットの活性化に寄与する入力データのサブシーケンスを可視化する。 さらに,これらのサブシーケンスをクラスタリングで特徴付け,提案する型と実際のデータの不確実性を計算する。 また、最終出力からではなく、各入力点の関連スコアを示すために、下位のモンテカルロドロップアウトを用いて、ユニットの出力からレイヤ毎の関連性を示唆し、この影響に関する不確かさを視覚的に表現する。

Recently deep neural networks demonstrate competitive performances in classification and regression tasks for many temporal or sequential data. However, it is still hard to understand the classification mechanisms of temporal deep neural networks. In this paper, we propose two new frameworks to visualize temporal representations learned from deep neural networks. Given input data and output, our algorithm interprets the decision of temporal neural network by extracting highly activated periods and visualizes a sub-sequence of input data which contributes to activate the units. Furthermore, we characterize such sub-sequences with clustering and calculate the uncertainty of the suggested type and actual data. We also suggest Layer-wise Relevance from the output of a unit, not from the final output, with backward Monte-Carlo dropout to show the relevance scores of each input point to activate units with providing a visual representation of the uncertainty about this impact.
翻訳日:2022-12-09 04:18:00 公開日:2020-07-10
# 強化学習によるフォグ支援IoTネットワークにおける遅延対応リソース割り当て

Delay-aware Resource Allocation in Fog-assisted IoT Networks Through Reinforcement Learning ( http://arxiv.org/abs/2005.04097v2 )

ライセンス: Link先を確認
Qiang Fan, Jianan Bai, Hongxia Zhang, Yang Yi, Lingjia Liu(参考訳) IoTデバイス近傍のFogノードは、IoTデバイスからタスクをオフロードすることで、低レイテンシサービスをプロビジョニングすることを約束している。 モバイルIoTは、車両、ウェアラブルデバイス、スマートフォンなどのモバイルIoTデバイスで構成されている。 時間とともに変化するチャネル条件、トラフィック負荷、コンピューティング負荷のため、モバイルIoTデバイスのサービス品質(QoS)を改善するのは難しい。 タスク遅延は送信遅延と計算遅延の両方から構成されるので、無線チャネルとフォグノードのリソース割り当て(すなわち、無線リソースと計算リソースの両方を含む)を調べ、QoS制約を満たす間、全てのタスクの遅延を最小限に抑える。 我々は、資源割り当て問題を整数非線形問題に定式化し、無線リソースと計算資源の両方を考慮に入れた。 IoTタスクは動的であるため、異なるタスクのリソース割り当ては互いに結合され、将来の情報は入手できない。 そこで本研究では,オンライン強化学習アルゴリズムを設計し,システムエクスペリエンスの再生データに基づいて,準最適決定をリアルタイムで行う。 設計アルゴリズムの性能は広範なシミュレーション結果によって実証されている。

Fog nodes in the vicinity of IoT devices are promising to provision low latency services by offloading tasks from IoT devices to them. Mobile IoT is composed by mobile IoT devices such as vehicles, wearable devices and smartphones. Owing to the time-varying channel conditions, traffic loads and computing loads, it is challenging to improve the quality of service (QoS) of mobile IoT devices. As task delay consists of both the transmission delay and computing delay, we investigate the resource allocation (i.e., including both radio resource and computation resource) in both the wireless channel and fog node to minimize the delay of all tasks while their QoS constraints are satisfied. We formulate the resource allocation problem into an integer non-linear problem, where both the radio resource and computation resource are taken into account. As IoT tasks are dynamic, the resource allocation for different tasks are coupled with each other and the future information is impractical to be obtained. Therefore, we design an on-line reinforcement learning algorithm to make the sub-optimal decision in real time based on the system's experience replay data. The performance of the designed algorithm has been demonstrated by extensive simulation results.
翻訳日:2022-12-08 05:49:29 公開日:2020-07-10
# テロはオンラインヘイトスピーチを引き起こすか? イベントと時系列の関連について

Does Terrorism Trigger Online Hate Speech? On the Association of Events and Time Series ( http://arxiv.org/abs/2004.14733v2 )

ライセンス: Link先を確認
Erik Scharw\"achter and Emmanuel M\"uller(参考訳) 憎しみの言葉はウェブ上どこにでもある。 近年,オンラインヘイトスピーチに寄与するオフライン原因が注目されている。 エクストリームな出来事が発生すると、ネット上でのヘイトスピーチの爆発が組織的に引き起こされるのか、という質問が繰り返されている。 形式的には、この質問はスパースイベントシリーズと時系列の関係を測るものである。 時系列におけるレア事象とピークの系統的関係を計測し, テストし, 可視化するための新しい統計手法を提案する。 時系列における因果推論や独立テストの従来の手法とは対照的に,本手法は事象とピークのタイミングのみに注目し,他の分布的特徴は認めない。 我々は、もともとポイントプロセスの相関のために開発されたイベント偶然解析(ECA)の枠組みに従う。 我々は,ECAの離散時間変種を定式化し,時系列におけるピークの解析を可能にするために必要なすべての分布を導出する。 この分析は、分位数-トリガーレートプロットによる相関の新たな可視化をもたらす。 欧米や北米におけるイスラム主義のテロ攻撃が、ヘイトスピーチや反ヘイトスピーチの爆発を組織的に引き起こしているかどうかを分析し、このアプローチの有用性を実証する。

Hate speech is ubiquitous on the Web. Recently, the offline causes that contribute to online hate speech have received increasing attention. A recurring question is whether the occurrence of extreme events offline systematically triggers bursts of hate speech online, indicated by peaks in the volume of hateful social media posts. Formally, this question translates into measuring the association between a sparse event series and a time series. We propose a novel statistical methodology to measure, test and visualize the systematic association between rare events and peaks in a time series. In contrast to previous methods for causal inference or independence tests on time series, our approach focuses only on the timing of events and peaks, and no other distributional characteristics. We follow the framework of event coincidence analysis (ECA) that was originally developed to correlate point processes. We formulate a discrete-time variant of ECA and derive all required distributions to enable analyses of peaks in time series, with a special focus on serial dependencies and peaks over multiple thresholds. The analysis gives rise to a novel visualization of the association via quantile-trigger rate plots. We demonstrate the utility of our approach by analyzing whether Islamist terrorist attacks in Western Europe and North America systematically trigger bursts of hate speech and counter-hate speech on Twitter.
翻訳日:2022-12-08 05:44:10 公開日:2020-07-10
# 地理空間風速予測のための局所畳み込みニューラルネットワーク

Localized convolutional neural networks for geospatial wind forecasting ( http://arxiv.org/abs/2005.05930v3 )

ライセンス: Link先を確認
Arnas Uselis, Mantas Luko\v{s}evi\v{c}ius, Lukas Stasytis(参考訳) 畳み込みニューラルネットワーク(CNN)は空間ラスタデータに関して多くの肯定的な特性を持っている。 翻訳不変性(translation invariance)により、cnnはシーンの位置に関係なく特徴を検出できる。 しかし、地理空間のようないくつかの領域では、すべての位置が完全に等しいわけではない。 本研究では,グローバルなアーキテクチャに加えて,局所的な特徴を学習するための局所的畳み込みニューラルネットワークを提案する。 学習可能な入力,局所的な重み,より一般的な形でのインスタンス化について検討する。 どのような畳み込みレイヤにも追加可能で、簡単にエンドツーエンドのトレーニングが可能で、最小限の複雑さを導入でき、CNNは必要な範囲でそのメリットの大部分を維持できる。 本研究は, 時空間予測(spatio-temporal prediction): 合成ベンチマークデータセット上での手法の有効性を検証し, 3つの実世界の風速予測データセットに取り組む。 その1つとして,未順序データの空間的順序付け手法を提案する。 本研究では,最新の時空間予測モデルを同一データ上で比較する。 畳み込み層を使用するモデルは、ローカライゼーションによって拡張することができます。 これらすべてのケースにおいて、私たちの拡張は結果を改善します。 すべてのコードを公開リポジトリで共有しています。

Convolutional Neural Networks (CNN) possess many positive qualities when it comes to spatial raster data. Translation invariance enables CNNs to detect features regardless of their position in the scene. However, in some domains, like geospatial, not all locations are exactly equal. In this work, we propose localized convolutional neural networks that enable convolutional architectures to learn local features in addition to the global ones. We investigate their instantiations in the form of learnable inputs, local weights, and a more general form. They can be added to any convolutional layers, easily end-to-end trained, introduce minimal additional complexity, and let CNNs retain most of their benefits to the extent that they are needed. In this work we address spatio-temporal prediction: test the effectiveness of our methods on a synthetic benchmark dataset and tackle three real-world wind prediction datasets. For one of them, we propose a method to spatially order the unordered data. We compare the recent state-of-the-art spatio-temporal prediction models on the same data. Models that use convolutional layers can be and are extended with our localizations. In all these cases our extensions improve the results, and thus often the state-of-the-art. We share all the code at a public repository.
翻訳日:2022-12-03 18:07:55 公開日:2020-07-10
# ポラリメトリック画像増強

Polarimetric image augmentation ( http://arxiv.org/abs/2005.11044v2 )

ライセンス: Link先を確認
Marc Blanchon, Olivier Morel, Fabrice Meriaudeau, Ralph Seulin, D\'esir\'e Sidib\'e(参考訳) 都市環境におけるロボティクスの応用は、自律的なナビゲーションを妨げる特異な反射を示す障害にさらされる。 一方、これらの反射は高度に偏光化されており、この余分な情報はスペクトル領域を分割するのにうまく利用できる。 自然界では、偏光は反射または散乱によって得られる。 ディープ畳み込みニューラルネットワーク(DCNN)は優れたセグメンテーション結果を示しているが、最高のパフォーマンスを達成するには大量のデータが必要である。 データ不足は通常、拡張メソッドを使用することで克服される。 しかし、RGB画像とは異なり、偏光画像はスカラー(強度)画像ばかりでなく、標準拡張技術は簡単には適用できない。 本研究では,難易度条件下でのシーンをより効果的に特徴付けるために,偏光データに適用した正規化拡張手法によりディープラーニングモデルを強化することを提案する。 その後、実世界データにおける非強化トレーニングと正規化トレーニングの間に平均18.1%のIoU改善が観察された。

Robotics applications in urban environments are subject to obstacles that exhibit specular reflections hampering autonomous navigation. On the other hand, these reflections are highly polarized and this extra information can successfully be used to segment the specular areas. In nature, polarized light is obtained by reflection or scattering. Deep Convolutional Neural Networks (DCNNs) have shown excellent segmentation results, but require a significant amount of data to achieve best performances. The lack of data is usually overcomed by using augmentation methods. However, unlike RGB images, polarization images are not only scalar (intensity) images and standard augmentation techniques cannot be applied straightforwardly. We propose to enhance deep learning models through a regularized augmentation procedure applied to polarimetric data in order to characterize scenes more effectively under challenging conditions. We subsequently observe an average of 18.1% improvement in IoU between non augmented and regularized training procedures on real world data.
翻訳日:2022-11-30 09:25:19 公開日:2020-07-10
# 会話検索における表データの要約と探索

Summarizing and Exploring Tabular Data in Conversational Search ( http://arxiv.org/abs/2005.11490v3 )

ライセンス: Link先を確認
Shuo Zhang and Zhuyun Dai and Krisztian Balog and Jamie Callan(参考訳) タブラリデータは、検索クエリのかなりの部分に対する回答を提供する。 しかし,対話型検索システムでは,結果表全体を暗唱することは不可能である。 本稿では,テーブルに含まれる複雑な情報を記述するための回答として,自然言語要約を生成することを提案する。 クラウドソーシング実験を通じて,対話指向のオープンドメインテーブル要約データセットを新たに構築する。 注釈付きテーブルサマリーは、質問に答えるだけでなく、テーブル内の他の情報を探索するのに役立つ。 本データセットを用いて,SOTAベースラインとして自動テーブル要約システムの開発を行う。 実験結果に基づいて,課題を特定し,このリソースがサポートする今後の研究方向性を指摘する。

Tabular data provide answers to a significant portion of search queries. However, reciting an entire result table is impractical in conversational search systems. We propose to generate natural language summaries as answers to describe the complex information contained in a table. Through crowdsourcing experiments, we build a new conversation-oriented, open-domain table summarization dataset. It includes annotated table summaries, which not only answer questions but also help people explore other information in the table. We utilize this dataset to develop automatic table summarization systems as SOTA baselines. Based on the experimental results, we identify challenges and point out future research directions that this resource will support.
翻訳日:2022-11-30 03:45:01 公開日:2020-07-10
# 教師なし人物再識別のための大域的距離分布分離

Global Distance-distributions Separation for Unsupervised Person Re-identification ( http://arxiv.org/abs/2006.00752v3 )

ライセンス: Link先を確認
Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 監視された人物の再識別(ReID)は、ドメインのギャップと対象のドメインデータに対するアノテーションの欠如により、現実のデプロイメントにおいてスケーラビリティとユーザビリティが劣ることが多い。 ドメイン適応による教師なしのReIDは魅力的だが、難しい。 既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。 正のサンプル対 (Pos-distr) と負のサンプル対 (Neg-distr) の2つの距離分布はよく分離されず、重なり合いが大きい。 そこで本研究では,2つの分布上のgds(global distance-distributions separation)制約を導入し,全球的視点から正のサンプルと負のサンプルを明確に分離する手法を提案する。 我々は2つの大域距離分布をガウス分布としてモデル化し、2つの分布を分割し、教師なしトレーニングプロセスにおけるシャープさを奨励する。 特に、グローバルな視点から分布をモデル化し、分布とGDS関連損失のタイムリーな更新を容易にするために、分布パラメータ(平均と分散)を構築し維持するためのモーメント更新機構を活用し、トレーニング中のハエの損失を算出する。 分布型ハードマイニングは2つの分布の分離をさらに促進するために提案されている。 教師なしReIDネットワークにおけるGDS制約の有効性を検証する。 複数のReIDベンチマークデータセットに対する大規模な実験により、我々の手法はベースラインを大幅に改善し、最先端のパフォーマンスを実現する。

Supervised person re-identification (ReID) often has poor scalability and usability in real-world deployments due to domain gaps and the lack of annotations for the target domain data. Unsupervised person ReID through domain adaptation is attractive yet challenging. Existing unsupervised ReID approaches often fail in correctly identifying the positive samples and negative samples through the distance-based matching/ranking. The two distributions of distances for positive sample pairs (Pos-distr) and negative sample pairs (Neg-distr) are often not well separated, having large overlap. To address this problem, we introduce a global distance-distributions separation (GDS) constraint over the two distributions to encourage the clear separation of positive and negative samples from a global view. We model the two global distance distributions as Gaussian distributions and push apart the two distributions while encouraging their sharpness in the unsupervised training process. Particularly, to model the distributions from a global view and facilitate the timely updating of the distributions and the GDS related losses, we leverage a momentum update mechanism for building and maintaining the distribution parameters (mean and variance) and calculate the loss on the fly during the training. Distribution-based hard mining is proposed to further promote the separation of the two distributions. We validate the effectiveness of the GDS constraint in unsupervised ReID networks. Extensive experiments on multiple ReID benchmark datasets show our method leads to significant improvement over the baselines and achieves the state-of-the-art performance.
翻訳日:2022-11-26 07:16:07 公開日:2020-07-10
# 画像スタイライゼーションによるイライラし易いドメイン一般化

Frustratingly Simple Domain Generalization via Image Stylization ( http://arxiv.org/abs/2006.11207v2 )

ライセンス: Link先を確認
Nathan Somavarapu and Chih-Yao Ma and Zsolt Kira(参考訳) 畳み込みニューラルネットワーク(cnns)は、所定の領域からトレーニングとテストデータを描画する標準分類設定において、印象的なパフォーマンスを示す。 しかし、CNNは、人間にとって簡単な設定である異なる統計を持つ新しいドメインに容易に一般化することができない。 本研究では,分類器が未知の対象領域に一般化しなければならない領域一般化問題に対処する。 CNNと人間のバイアスの違いを示す最近の研究に触発されて、我々は非常に単純で効果的な方法、すなわち、このバイアスをスタイリングされた画像でデータセットを拡大することで補正することを示した。 アートなどの外部データソースを使用する既存のスタイル化作業とは対照的に,そのような余分なデータソースを使わずに完全にドメイン内となる手法を導入する。 我々は,この手法が機能するメカニズムに関する詳細な分析を行い,形状やテクスチャのバイアスが変化するという我々の主張を検証し,より複雑な手法を用いた最先端の技術に匹敵する結果を示す。

Convolutional Neural Networks (CNNs) show impressive performance in the standard classification setting where training and testing data are drawn i.i.d. from a given domain. However, CNNs do not readily generalize to new domains with different statistics, a setting that is simple for humans. In this work, we address the Domain Generalization problem, where the classifier must generalize to an unknown target domain. Inspired by recent works that have shown a difference in biases between CNNs and humans, we demonstrate an extremely simple yet effective method, namely correcting this bias by augmenting the dataset with stylized images. In contrast with existing stylization works, which use external data sources such as art, we further introduce a method that is entirely in-domain using no such extra sources of data. We provide a detailed analysis as to the mechanism by which the method works, verifying our claim that it changes the shape/texture bias, and demonstrate results surpassing or comparable to the state of the arts that utilize much more complex methods.
翻訳日:2022-11-19 04:16:17 公開日:2020-07-10
# IoTにおける逆機械学習に基づく部分モデルアタック

Adversarial Machine Learning based Partial-model Attack in IoT ( http://arxiv.org/abs/2006.14146v2 )

ライセンス: Link先を確認
Zhengping Luo, Shangqing Zhao, Zhuo Lu, Yalin E. Sagduyu, Jie Xu(参考訳) IoT(Internet of Things)がインターネットの次の論理的な段階として出現するにつれ、さまざまなアプリケーションをサポートする上で、IoTシステムの脆弱性を理解することが不可欠になっています。 多くのIoTシステムに機械学習が適用されているため、機械学習のセキュリティへの影響は、敵対的な機械学習アプローチに従って研究する必要がある。 本稿では,iotのデータ融合/集約プロセスにおいて,センシングデバイスの一部のみを制御して,機械学習に基づく部分モデル攻撃を提案する。 本研究では,iotデバイスの制御が限定されたデータフュージョンにおける意思決定を妨害する攻撃の可能性を示す。例えば,iotデバイス20台中8台に敵のタンパがある場合,攻撃成功率は83.2%に達する。 これらの結果から、敵が一部のIoTデバイスを操作しても、IoTシステムの機械学習エンジンは攻撃に対して非常に脆弱であり、これらの攻撃の結果がIoTシステムの操作を著しく破壊することが明らかとなった。

As Internet of Things (IoT) has emerged as the next logical stage of the Internet, it has become imperative to understand the vulnerabilities of the IoT systems when supporting diverse applications. Because machine learning has been applied in many IoT systems, the security implications of machine learning need to be studied following an adversarial machine learning approach. In this paper, we propose an adversarial machine learning based partial-model attack in the data fusion/aggregation process of IoT by only controlling a small part of the sensing devices. Our numerical results demonstrate the feasibility of this attack to disrupt the decision making in data fusion with limited control of IoT devices, e.g., the attack success rate reaches 83\% when the adversary tampers with only 8 out of 20 IoT devices. These results show that the machine learning engine of IoT system is highly vulnerable to attacks even when the adversary manipulates a small portion of IoT devices, and the outcome of these attacks severely disrupts IoT system operations.
翻訳日:2022-11-17 04:33:30 公開日:2020-07-10
# 液体アルゴン時間投影室におけるサブピクセル精度3次元粒子エンドポイント再構成のためのポイント提案ネットワーク

Point Proposal Network for Reconstructing 3D Particle Endpoints with Sub-Pixel Precision in Liquid Argon Time Projection Chambers ( http://arxiv.org/abs/2006.14745v3 )

ライセンス: Link先を確認
Laura Domin\'e, Pierre C\^ote de Soux, Fran\c{c}ois Drielsma, Dae Heun Koh, Ran Itay, Qing Lin, Kazuhiro Terao, Ka Vang Tsang, Tracy L. Usher(参考訳) 液体アルゴン時間射影チャンバー(Liquid Argon Time Projection Chambers、LArTPC)は、荷電粒子の軌跡の2Dまたは3D画像を記録する粒子イメージング検出器である。 これらの画像における関心点、すなわちミューオンや陽子のような軌道のような粒子軌道の初期および終点、および電子やガンマ線のような電磁シャワーのような粒子軌道の初期点は、これらの粒子を識別し分析し、ニュートリノ相互作用のような物理信号の推測に影響を与える重要なステップである。 ポイント提案ネットワークは、これらの特定の関心点を発見するように設計されている。 アルゴリズムは、その空間的位置をサブボクセル精度で予測し、特定された関心点のカテゴリを決定する。 ボクセル解像度が3mm/voxelのPILArNet公開LArTPCデータサンプルのベンチマークとして,提案した真点位置から3D点の96.8%と97.8%をそれぞれ予測した。 最寄りの真点位置の3つのボクセル内の予測された3D点について、中央値は0.25ボクセルであり、サブボクセルレベルの精度を達成する。 さらに,提案手法が提供された真の点位置と異なる誤りを10~4分の1以上のボクセルで解析した。 視覚的にスキャンされた50の誤りのうち、25は真の位置位置の定義によるものであり、15は物理学者がアルゴリズムの予測に視覚的に反対できない正当な誤りであり、10は将来改善したい真の誤りであった。 さらに, 予測した点を用いて, 3次元ボクセルを, クラスタリング効率, 純度, 調整ランド指数をそれぞれ96%, 93%, 91%で, 個々のトラック状粒子軌道に集積する簡単なアルゴリズムを示す。

Liquid Argon Time Projection Chambers (LArTPC) are particle imaging detectors recording 2D or 3D images of trajectories of charged particles. Identifying points of interest in these images, namely the initial and terminal points of track-like particle trajectories such as muons and protons, and the initial points of electromagnetic shower-like particle trajectories such as electrons and gamma rays, is a crucial step of identifying and analyzing these particles and impacts the inference of physics signals such as neutrino interaction. The Point Proposal Network is designed to discover these specific points of interest. The algorithm predicts with a sub-voxel precision their spatial location, and also determines the category of the identified points of interest. Using as a benchmark the PILArNet public LArTPC data sample in which the voxel resolution is 3mm/voxel, our algorithm successfully predicted 96.8% and 97.8% of 3D points within a distance of 3 and 10~voxels from the provided true point locations respectively. For the predicted 3D points within 3 voxels of the closest true point locations, the median distance is found to be 0.25 voxels, achieving the sub-voxel level precision. In addition, we report our analysis of the mistakes where our algorithm prediction differs from the provided true point positions by more than 10~voxels. Among 50 mistakes visually scanned, 25 were due to the definition of true position location, 15 were legitimate mistakes where a physicist cannot visually disagree with the algorithm's prediction, and 10 were genuine mistakes that we wish to improve in the future. Further, using these predicted points, we demonstrate a simple algorithm to cluster 3D voxels into individual track-like particle trajectories with a clustering efficiency, purity, and Adjusted Rand Index of 96%, 93%, and 91% respectively.
翻訳日:2022-11-16 22:15:29 公開日:2020-07-10
# 超勾配計算の反復複雑性について

On the Iteration Complexity of Hypergradient Computation ( http://arxiv.org/abs/2006.16218v2 )

ライセンス: Link先を確認
Riccardo Grazzi, Luca Franceschi, Massimiliano Pontil, Saverio Salzo(参考訳) パラメトリック不動点方程式の解に依存する上層目標の最小化から成り立つ2段階問題の一般的なクラスについて検討する。 機械学習で発生する重要なインスタンスには、ハイパーパラメータ最適化、メタラーニング、特定のグラフとリカレントニューラルネットワークがある。 通常、上層の目標(高度)の勾配は正確に計算することは困難か不可能であり、近似法への関心が高まっている。 逆モード反復微分と近似的暗黙的微分に基づく過次微分を計算するための一般的なアプローチについて検討する。 固定点方程式は縮尺写像によって定義されるという仮説の下で、これらの手法を定量的に比較し、その反復複雑性に対して明示的な境界を与える統一解析を提案する。 この分析は, 共役勾配に基づく近似的暗黙差を最良とする, 上記の手法の計算効率の階層性を示す。 本研究は, 理論的な知見を裏付ける方法の広範囲な実験比較を行う。

We study a general class of bilevel problems, consisting in the minimization of an upper-level objective which depends on the solution to a parametric fixed-point equation. Important instances arising in machine learning include hyperparameter optimization, meta-learning, and certain graph and recurrent neural networks. Typically the gradient of the upper-level objective (hypergradient) is hard or even impossible to compute exactly, which has raised the interest in approximation methods. We investigate some popular approaches to compute the hypergradient, based on reverse mode iterative differentiation and approximate implicit differentiation. Under the hypothesis that the fixed point equation is defined by a contraction mapping, we present a unified analysis which allows for the first time to quantitatively compare these methods, providing explicit bounds for their iteration complexity. This analysis suggests a hierarchy in terms of computational efficiency among the above methods, with approximate implicit differentiation based on conjugate gradient performing best. We present an extensive experimental comparison among the methods which confirm the theoretical findings.
翻訳日:2022-11-15 13:55:42 公開日:2020-07-10
# FathomNet:海洋探査と発見のための水中画像トレーニングデータベース

FathomNet: An underwater image training database for ocean exploration and discovery ( http://arxiv.org/abs/2007.00114v3 )

ライセンス: Link先を確認
Oc\'eane Boulais, Ben Woodward, Brian Schlining, Lonny Lundsten, Kevin Barnard, Katy Croff Bell, and Kakani Katija(参考訳) 数千時間に及ぶ海洋ビデオデータは、遠隔操作車両(rov)や他の水中の資産から毎年収集される。 しかし、現在の手動解析手法は、ROVのリアルタイムアルゴリズムと大規模生物多様性解析のための収集データの完全利用を妨げている。 fathomnetは、新しいベースラインイメージトレーニングセットであり、水中画像の現代的でインテリジェントで自動的な解析の開発を加速するために最適化されている。 私たちのシードデータセットは、26,000時間以上のビデオテープ、680万のアノテーション、知識ベースで4,349の用語を備えた、専門家が注釈付きで継続的に維持するデータベースで構成されています。 FathomNetはこのデータセットを利用して、機械学習アルゴリズムの開発を可能にするために、水中の概念の画像、ローカライゼーション、クラスラベルを提供する。 現在までに、中水生物やベント生物を含む233の異なるクラスで、80,000以上の画像と106,000のローカライズがある。 実験では,教師付きローカライゼーション,画像ラベリング,物体検出,分類といった手法を用いて,様々なディープラーニングアルゴリズムのトレーニングを行った。 この新たなデータセットの予測における品質結果を見いだす一方で、我々の結果は最終的に海洋探査のためにより大きなデータセットが必要であることを示唆している。

Thousands of hours of marine video data are collected annually from remotely operated vehicles (ROVs) and other underwater assets. However, current manual methods of analysis impede the full utilization of collected data for real time algorithms for ROV and large biodiversity analyses. FathomNet is a novel baseline image training set, optimized to accelerate development of modern, intelligent, and automated analysis of underwater imagery. Our seed data set consists of an expertly annotated and continuously maintained database with more than 26,000 hours of videotape, 6.8 million annotations, and 4,349 terms in the knowledge base. FathomNet leverages this data set by providing imagery, localizations, and class labels of underwater concepts in order to enable machine learning algorithm development. To date, there are more than 80,000 images and 106,000 localizations for 233 different classes, including midwater and benthic organisms. Our experiments consisted of training various deep learning algorithms with approaches to address weakly supervised localization, image labeling, object detection and classification which prove to be promising. While we find quality results on prediction for this new dataset, our results indicate that we are ultimately in need of a larger data set for ocean exploration.
翻訳日:2022-11-15 06:15:41 公開日:2020-07-10
# MAGIC:脳疾患のマルチスケール不均一性解析とクラスタリング

MAGIC: Multi-scale Heterogeneity Analysis and Clustering for Brain Diseases ( http://arxiv.org/abs/2007.00812v2 )

ライセンス: Link先を確認
Junhao Wen, Erdem Varol, Ganesh Chand, Aristeidis Sotiras, Christos Davatzikos(参考訳) 統合失調症やアルツハイマー病(AD)などの神経精神・神経変性疾患の異質な発現を示す臨床、解剖学的、機能的な証拠が増えている。 疾患の異なるサブタイプを解明することで、神経病原性の理解を深め、標的とする治療プログラムの開発を可能にする。 最近の半教師付きクラスタリング技術は、病気の多様性を理解するデータ駆動の方法を提供する。 しかし、既存の方法では、この病気のサブタイプが脳全体に異なる空間スケールで存在している可能性を考慮していない。 本稿では,マルチスケールクラスタリングを活用して,病気の多様性を明らかにする新しい手法MAGICを提案する。 まず,多スケール構造共分散(PSC)のパターンを抽出し,その後,PSCの異なるスケールにわたる2サイクルブロックワイズ最適化による半教師付きクラスタリングを行った。 認知正常228例(CN)と191例(CN)のT1 MRIスキャンを用いて, MRICを擬似異種神経解剖学的データを用いて検証し, その臨床的有用性について検討した。 以上の結果から,海馬の微細萎縮と皮質域の大規模萎縮の2種類のadサブタイプが,それぞれ異なる萎縮パターンを示した。 この不均一性の証拠は、2つのサブタイプの臨床的評価によってさらに裏付けられ、AD患者は、他のサブタイプと比較してより若く、認知能力がより早く低下する傾向にあり、認知能力の相対的に低下する傾向にあることが示されている。

There is a growing amount of clinical, anatomical and functional evidence for the heterogeneous presentation of neuropsychiatric and neurodegenerative diseases such as schizophrenia and Alzheimers Disease (AD). Elucidating distinct subtypes of diseases allows a better understanding of neuropathogenesis and enables the possibility of developing targeted treatment programs. Recent semi-supervised clustering techniques have provided a data-driven way to understand disease heterogeneity. However, existing methods do not take into account that subtypes of the disease might present themselves at different spatial scales across the brain. Here, we introduce a novel method, MAGIC, to uncover disease heterogeneity by leveraging multi-scale clustering. We first extract multi-scale patterns of structural covariance (PSCs) followed by a semi-supervised clustering with double cyclic block-wise optimization across different scales of PSCs. We validate MAGIC using simulated heterogeneous neuroanatomical data and demonstrate its clinical potential by exploring the heterogeneity of AD using T1 MRI scans of 228 cognitively normal (CN) and 191 patients. Our results indicate two main subtypes of AD with distinct atrophy patterns that consist of both fine-scale atrophy in the hippocampus as well as large-scale atrophy in cortical regions. The evidence for the heterogeneity is further corroborated by the clinical evaluation of two subtypes, which indicates that there is a subpopulation of AD patients that tend to be younger and decline faster in cognitive performance relative to the other subpopulation, which tends to be older and maintains a relatively steady decline in cognitive abilities.
翻訳日:2022-11-14 22:28:20 公開日:2020-07-10
# 勾配遅延緩和のための適応制動

Adaptive Braking for Mitigating Gradient Delay ( http://arxiv.org/abs/2007.01397v2 )

ライセンス: Link先を確認
Abhinav Venigalla and Atli Kosson and Vitaliy Chiley and Urs K\"oster(参考訳) ニューラルネットワークトレーニングは、複数の同期ワーカーを使用して並列に勾配更新を計算することで、一般的に加速される。 非同期メソッドは同期のオーバーヘッドを取り除き、勾配遅延を導入するコストでハードウェア利用を改善する。 我々は,勾配遅延の影響を緩和する運動量に基づくオプティマイザの修正であるadaptive braking (ab)を導入する。 ABは勾配と速度のアライメントに基づいて勾配を動的にスケールする。 これにより、損失面の高曲率方向に沿って振動を減衰させ、安定化し、非同期トレーニングを加速することができる。 CIFAR-10 と ImageNet-1k 上の ResNet を CIFAR-10 および ImageNet-1k 上で,SGD 上の AB を運動量で適用することにより,最終テスト精度を最小限に抑えることができることを示す。

Neural network training is commonly accelerated by using multiple synchronized workers to compute gradient updates in parallel. Asynchronous methods remove synchronization overheads and improve hardware utilization at the cost of introducing gradient delay, which impedes optimization and can lead to lower final model performance. We introduce Adaptive Braking (AB), a modification for momentum-based optimizers that mitigates the effects of gradient delay. AB dynamically scales the gradient based on the alignment of the gradient and the velocity. This can dampen oscillations along high curvature directions of the loss surface, stabilizing and accelerating asynchronous training. We show that applying AB on top of SGD with momentum enables training ResNets on CIFAR-10 and ImageNet-1k with delays $D \geq$ 32 update steps with minimal drop in final test accuracy.
翻訳日:2022-11-14 14:01:56 公開日:2020-07-10
# TLIO:高度に学習された慣性眼振

TLIO: Tight Learned Inertial Odometry ( http://arxiv.org/abs/2007.01867v3 )

ライセンス: Link先を確認
Wenxin Liu, David Caruso, Eddy Ilg, Jing Dong, Anastasios I. Mourikis, Kostas Daniilidis, Vijay Kumar, Jakob Engel(参考訳) 本研究では,IMUのみの状態推定のための拡張カルマンフィルタフレームワークを提案する。 ストリップダウンIMU測定は、IMU運動モデルに基づく相対状態推定を提供する。 しかし、測定の統合はセンサバイアスやノイズに敏感であり、数秒でかなりのドリフトを引き起こす。 yan et al. (ronin) と chen et al. (ionet) による最近の研究は、トレーニングされたニューラルネットワークを用いて imu データのセグメントから正確な 2d 変位推定を得る能力を示し、それらの結合から良好な位置推定を得た。 本稿では,3次元変位推定とその不確かさを抑えるネットワークを示し,相対状態測定を確率的閉包EKFに密に融合させ,ポーズ,速度,センサバイアスの解消を可能にする。 我々は,ヘッドセットからの歩行者データを用いてトレーニングしたネットワークが,フィルタの更新ステップとして使用する統計的に一貫した計測と不確実性を生み出すことを示し,その密結合システムは位置推定における速度積分アプローチと向き推定におけるAHRS姿勢フィルタより優れていることを示す。

In this work we propose a tightly-coupled Extended Kalman Filter framework for IMU-only state estimation. Strap-down IMU measurements provide relative state estimates based on IMU kinematic motion model. However the integration of measurements is sensitive to sensor bias and noise, causing significant drift within seconds. Recent research by Yan et al. (RoNIN) and Chen et al. (IONet) showed the capability of using trained neural networks to obtain accurate 2D displacement estimates from segments of IMU data and obtained good position estimates from concatenating them. This paper demonstrates a network that regresses 3D displacement estimates and its uncertainty, giving us the ability to tightly fuse the relative state measurement into a stochastic cloning EKF to solve for pose, velocity and sensor biases. We show that our network, trained with pedestrian data from a headset, can produce statistically consistent measurement and uncertainty to be used as the update step in the filter, and the tightly-coupled system outperforms velocity integration approaches in position estimates, and AHRS attitude filter in orientation estimates.
翻訳日:2022-11-13 02:18:47 公開日:2020-07-10
# 低ランクアクティベーションを用いたテンソル畳み込みスパース符号化 : 脳波解析への応用

Tensor Convolutional Sparse Coding with Low-Rank activations, an application to EEG analysis ( http://arxiv.org/abs/2007.02534v2 )

ライセンス: Link先を確認
Pierre Humbert (ENS Paris Saclay, CGB, CNRS), Laurent Oudre (L2TI), Nivolas Vayatis (ENS Paris Saclay, CGB, CNRS), Julien Audiffren(参考訳) 近年,脳電図(eeg)のスペクトログラム分析への関心が高まっている。 実際、3つのテンソル(チャネル x 周波数 x 倍)がこれらの信号の自然な、有用な表現であることが示されている。 しかし、この符号化は、特に畳み込みスパース符号化(CSC)において、既存の手法では、ランク構造のようなテンソル表現の特異性を生かせず、医療行為中に脳波に固有の高レベルのノイズや摂動に弱いため、重大な困難を伴う。 そこで,本稿では,アクティベーションテンソルのkruskal分解を用いて,これらの表現の固有低ランク性を活用する新しいcscモデルであるkruskal csc(k-csc)を提案する。 我々の主な貢献であるTC-FISTAは、テンソル表現によって引き起こされる複雑さの増大にもかかわらず、結果の最適化問題を効率的に解くために複数のツールを使用する。 次に、GA中に記録された合成データセットと実際の脳波の双方でTC-FISTAを評価する。 その結果,TC-FISTAはノイズや摂動に対して頑健であり,信号の正確でスパースで解釈可能な符号化を実現することがわかった。

Recently, there has been growing interest in the analysis of spectrograms of ElectroEncephaloGram (EEG), particularly to study the neural correlates of (un)-consciousness during General Anesthesia (GA). Indeed, it has been shown that order three tensors (channels x frequencies x times) are a natural and useful representation of these signals. However this encoding entails significant difficulties, especially for convolutional sparse coding (CSC) as existing methods do not take advantage of the particularities of tensor representation, such as rank structures, and are vulnerable to the high level of noise and perturbations that are inherent to EEG during medical acts. To address this issue, in this paper we introduce a new CSC model, named Kruskal CSC (K-CSC), that uses the Kruskal decomposition of the activation tensors to leverage the intrinsic low rank nature of these representations in order to extract relevant and interpretable encodings. Our main contribution, TC-FISTA, uses multiple tools to efficiently solve the resulting optimization problem despite the increasing complexity induced by the tensor representation. We then evaluate TC-FISTA on both synthetic dataset and real EEG recorded during GA. The results show that TC-FISTA is robust to noise and perturbations, resulting in accurate, sparse and interpretable encoding of the signals.
翻訳日:2022-11-13 02:11:25 公開日:2020-07-10
# Run2Survive:生存分析に基づくアルゴリズム選択のための決定論的アプローチ

Run2Survive: A Decision-theoretic Approach to Algorithm Selection based on Survival Analysis ( http://arxiv.org/abs/2007.02816v2 )

ライセンス: Link先を確認
Alexander Tornede, Marcel Wever, Stefan Werner, Felix Mohr, Eyke H\"ullermeier(参考訳) アルゴリズム選択 (as) はアルゴリズム問題クラスの特定のインスタンスに最も適した固定されたアルゴリズムのセットからアルゴリズムの自動選択を扱う。 候補アルゴリズムの非常に長いランタイムのため、アルゴリズム選択モデルのトレーニングデータは通常、すべてのアルゴリズムが全インスタンスで完了するまで実行されないという意味で、時間制約の下で生成される。 したがって、トレーニングデータは通常検閲された情報を含んでいるが、アルゴリズムの真の実行時間は不明のままである。 しかし、標準的なASアプローチの多くは、そのような情報を適切な方法で扱えない。 一方、サバイバル分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズム実行時の分散モデルを学習するための適切な方法を提供する。 このようなモデルを,アルゴリズム選択に対する洗練された決定論的アプローチの基礎として活用します。 さらに,このような枠組みを生かして,タイムアウトの回避が優先されるアルゴリズム選択に対するリスク・アバースアプローチを提唱する。 標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。

Algorithm selection (AS) deals with the automatic selection of an algorithm from a fixed set of candidate algorithms most suitable for a specific instance of an algorithmic problem class, where "suitability" often refers to an algorithm's runtime. Due to possibly extremely long runtimes of candidate algorithms, training data for algorithm selection models is usually generated under time constraints in the sense that not all algorithms are run to completion on all instances. Thus, training data usually comprises censored information, as the true runtime of algorithms timed out remains unknown. However, many standard AS approaches are not able to handle such information in a proper way. On the other side, survival analysis (SA) naturally supports censored data and offers appropriate ways to use such data for learning distributional models of algorithm runtime, as we demonstrate in this work. We leverage such models as a basis of a sophisticated decision-theoretic approach to algorithm selection, which we dub Run2Survive. Moreover, taking advantage of a framework of this kind, we advocate a risk-averse approach to algorithm selection, in which the avoidance of a timeout is given high priority. In an extensive experimental study with the standard benchmark ASlib, our approach is shown to be highly competitive and in many cases even superior to state-of-the-art AS approaches.
翻訳日:2022-11-13 01:32:58 公開日:2020-07-10
# グラフ構造バンディットの最適戦略

Optimal Strategies for Graph-Structured Bandits ( http://arxiv.org/abs/2007.03224v2 )

ライセンス: Link先を確認
Hassan Saber (SEQUEL), Pierre M\'enard (SEQUEL), Odalric-Ambrym Maillard (SEQUEL)(参考訳) ベルヌーイ分布の集合によって定義される多武装バンディット問題の構造化変種について研究する。 = \! (\nu\_{a,b})\_{a \in \mathcal{A}, b \in \mathcal{B}}$ with means $(\mu\_{a,b})\_{a \in \mathcal{A}, b \in \mathcal{B}}\! イン! [0,1]^{\mathcal{A}\times\mathcal{B}}$ そして与えられた重み行列$\omega\! =\! (\omega\_{b,b'})\_{b,b' \in \mathcal{B}}$, ここで $ \mathcal{A}$ は有限個のアームの集合、 $ \mathcal{B} $ は有限個のユーザ集合である。 重み行列 $\omega$ は、任意の 2 ユーザに対して $b,b'\! イン! \mathcal{B}, \text{max}\_{a\in\mathcal{A}}|\mu\_{a,b} \! -\! b' {\displaystyle b'}|\,b'} である。 くたばれ! \omega\_{b,b'} $。 この定式化は、高度に構造化されたシナリオ($\omega\! イン! \{0,1\}^{\mathcal{b}\times\mathcal{b}}$) 完全に構造化されていないセットアップ ($\omega\! \equiv\! 1$). 我々は,学習者が報酬をサンプリングする行動のみを選択するか,ユーザと行動の両方を選択するかの2つのシナリオを考察する。 まず、構造依存線形計画問題を含むこの一般的なグラフ構造に対する後悔に関する問題依存下限を導出する。 第2に本田と竹村(2015)が導入したindexed minimum empirical divergence(imed)アルゴリズムの設定に適応し,imed-gs$^\star$アルゴリズムを導入する。 興味深いことに、imed-gs$^\star$は、t$ステップの後に約$\log(t)$倍の線形計画問題の解を計算する必要はないが、漸近的に最適である。 また、他の一般的な構造向けに設計された既存のバンディット戦略とは異なり、imed-gs$^\star$は明示的な強制探査スキームを頼らず、経験的な事象の局所的なカウントのみを使用する。 最終的に IMED-GS$^\star$ の性能を確認する数値図式を提供する。

We study a structured variant of the multi-armed bandit problem specified by a set of Bernoulli distributions $ \nu \!= \!(\nu\_{a,b})\_{a \in \mathcal{A}, b \in \mathcal{B}}$ with means $(\mu\_{a,b})\_{a \in \mathcal{A}, b \in \mathcal{B}}\!\in\![0,1]^{\mathcal{A}\times\mathcal{B}}$ and by a given weight matrix $\omega\!=\! (\omega\_{b,b'})\_{b,b' \in \mathcal{B}}$, where $ \mathcal{A}$ is a finite set of arms and $ \mathcal{B} $ is a finite set of users. The weight matrix $\omega$ is such that for any two users $b,b'\!\in\!\mathcal{B}, \text{max}\_{a\in\mathcal{A}}|\mu\_{a,b} \!-\! \mu\_{a,b'}| \!\leq\! \omega\_{b,b'} $. This formulation is flexible enough to capture various situations, from highly-structured scenarios ($\omega\!\in\!\{0,1\}^{\mathcal{B}\times\mathcal{B}}$) to fully unstructured setups ($\omega\!\equiv\! 1$).We consider two scenarios depending on whether the learner chooses only the actions to sample rewards from or both users and actions. We first derive problem-dependent lower bounds on the regret for this generic graph-structure that involves a structure dependent linear programming problem. Second, we adapt to this setting the Indexed Minimum Empirical Divergence (IMED) algorithm introduced by Honda and Takemura (2015), and introduce the IMED-GS$^\star$ algorithm. Interestingly, IMED-GS$^\star$ does not require computing the solution of the linear programming problem more than about $\log(T)$ times after $T$ steps, while being provably asymptotically optimal. Also, unlike existing bandit strategies designed for other popular structures, IMED-GS$^\star$ does not resort to an explicit forced exploration scheme and only makes use of local counts of empirical events. We finally provide numerical illustration of our results that confirm the performance of IMED-GS$^\star$.
翻訳日:2022-11-12 20:37:47 公開日:2020-07-10
# 畳み込みニューラルネットワークのための動的群畳み込み

Dynamic Group Convolution for Accelerating Convolutional Neural Networks ( http://arxiv.org/abs/2007.04242v2 )

ライセンス: Link先を確認
Zhuo Su, Linpu Fang, Wenxiong Kang, Dewen Hu, Matti Pietik\"ainen, Li Liu(参考訳) グループ畳み込みによる通常の畳み込みは、コンパクトなネットワークアーキテクチャ設計で広く採用されている現代の深層畳み込みネットワークの計算効率を大幅に向上させることができる。 しかし、既存のグループ畳み込みは、いくつかの接続を永久に切断することで、元のネットワーク構造を損なう。 本稿では,各グループ内の入力チャネルのどの部分をオンザフライで接続するかを適応的に選択する動的グループ畳み込み(dgc)を提案する。 具体的には、各グループに小さな特徴セレクタを装備し、入力画像に条件付けられた最も重要な入力チャネルを自動的に選択する。 複数のグループは、入力画像ごとに、豊富で相補的な視覚的特徴を適応的にキャプチャすることができる。 DGCは元のネットワーク構造を保持し、従来のグループ畳み込みと同様の計算効率を持つ。 CIFAR-10、CIFAR-100、ImageNetを含む複数の画像分類ベンチマークに対する大規模な実験は、既存のグループ畳み込み技術や動的実行方法よりも優れていることを示した。 コードはhttps://github.com/zhuogege1943/dgcで入手できる。

Replacing normal convolutions with group convolutions can significantly increase the computational efficiency of modern deep convolutional networks, which has been widely adopted in compact network architecture designs. However, existing group convolutions undermine the original network structures by cutting off some connections permanently resulting in significant accuracy degradation. In this paper, we propose dynamic group convolution (DGC) that adaptively selects which part of input channels to be connected within each group for individual samples on the fly. Specifically, we equip each group with a small feature selector to automatically select the most important input channels conditioned on the input images. Multiple groups can adaptively capture abundant and complementary visual/semantic features for each input image. The DGC preserves the original network structure and has similar computational efficiency as the conventional group convolution simultaneously. Extensive experiments on multiple image classification benchmarks including CIFAR-10, CIFAR-100 and ImageNet demonstrate its superiority over the existing group convolution techniques and dynamic execution methods. The code is available at https://github.com/zhuogege1943/dgc.
翻訳日:2022-11-12 13:24:34 公開日:2020-07-10
# jgr-p2o:単一深度画像からの3次元手ポーズ推定のための統合グラフ推論に基づく画素対オフ予測ネットワーク

JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network for 3D Hand Pose Estimation from a Single Depth Image ( http://arxiv.org/abs/2007.04646v2 )

ライセンス: Link先を確認
Linpu Fang, Xingyan Liu, Li Liu, Hang Xu, and Wenxiong Kang(参考訳) 最先端の単一深度画像に基づく3次元ハンドポーズ推定手法は、voxel-to-voxel予測、ポイント・ツー・ポイント回帰、ピクセルワイズ推定など、密集した予測に基づいている。 優れた性能にもかかわらず、これらの手法には、精度と効率のトレードオフが乏しいことや、局所的な畳み込みを伴う平易な特徴表現学習など、いくつかの問題がある。 本稿では,上記の問題に対処するために,画素方向予測に基づく新しい手法を提案する。 重要なアイデアは2つあります。 a) 局所的特徴表現学習を改善するため,関節間の依存関係及び画素と関節の関係を明示的にモデル化すること。 b) エンド・ツー・エンド訓練における高密度画素方向オフセット予測と直接回帰の統合 具体的には,まず,ジョイント間の複雑な依存関係をモデル化し,各画素の表現能力を高めるグラフ畳み込みネットワーク(gcn)ベースのジョイントグラフ推論モジュールを提案する。 次に,すべての画素のオフセットを画像平面と深度空間の両方の接合部に密に推定し,すべての画素の予測に対して重み付き平均で関節の位置を計算し,複雑な後処理操作を完全に破棄する。 提案モデルは,効率の良い2次元完全畳み込みネットワーク(fcn)バックボーンを用いて実装され,約1.4mのパラメータしか持たない。 複数の3Dハンドポーズ推定ベンチマークの大規模な実験により、提案手法は1つのNVIDIA 1080Ti GPU上で110fpsの速度で非常に効率的に動作しながら、新しい最先端の精度を実現する。

State-of-the-art single depth image-based 3D hand pose estimation methods are based on dense predictions, including voxel-to-voxel predictions, point-to-point regression, and pixel-wise estimations. Despite the good performance, those methods have a few issues in nature, such as the poor trade-off between accuracy and efficiency, and plain feature representation learning with local convolutions. In this paper, a novel pixel-wise prediction-based method is proposed to address the above issues. The key ideas are two-fold: a) explicitly modeling the dependencies among joints and the relations between the pixels and the joints for better local feature representation learning; b) unifying the dense pixel-wise offset predictions and direct joint regression for end-to-end training. Specifically, we first propose a graph convolutional network (GCN) based joint graph reasoning module to model the complex dependencies among joints and augment the representation capability of each pixel. Then we densely estimate all pixels' offsets to joints in both image plane and depth space and calculate the joints' positions by a weighted average over all pixels' predictions, totally discarding the complex postprocessing operations. The proposed model is implemented with an efficient 2D fully convolutional network (FCN) backbone and has only about 1.4M parameters. Extensive experiments on multiple 3D hand pose estimation benchmarks demonstrate that the proposed method achieves new state-of-the-art accuracy while running very efficiently with around a speed of 110fps on a single NVIDIA 1080Ti GPU.
翻訳日:2022-11-12 04:33:55 公開日:2020-07-10
# AIによるアパレルデザイン

AI Assisted Apparel Design ( http://arxiv.org/abs/2007.04950v2 )

ライセンス: Link先を確認
Alpana Dubey, Nitish Bhardwaj, Kumar Abhinav, Suma Mani Kuriakose, Sakshi Jain and Veenu Arora(参考訳) ファッションは急速に変化する産業であり、毎年大規模なデザインが更新される。 さらに、すべてのデザインが顧客にアピールするわけではないため、在庫の売却という大きな課題に直面している。 これによりデザイナーは大きなプレッシャーを受ける。 まず、無数の新しいデザインを作る必要がある。 第二に、顧客にアピールするデザインを作る必要がある。 デザイナーが消費者の分析を支援するアプローチは進歩していますが、そのような洞察は多すぎます。 これらの洞察で可能なすべての設計を作成するのに時間がかかります。 本稿では,設計過程における設計者を支援するAIアシスタントシステムを提案する。 提案システムは,アパレルの異なる販売・販売属性の分析を支援する。 本稿では,アパレル式マージとアパレル型トランスファーという2つのデザイン生成アシスタントを提案する。 Apparel-Style-Mergeはアパレルの高レベルなコンポーネントを組み合わせることで新しいデザインを生成するが、Apparel-Style-Transferは異なるスタイル、色、パターンを適用することで複数のアパレルのカスタマイズを生成する。 DeepAttributeStyleという新しいデータセットを作成し、ネックやスリーブといった異なるアパレルコンポーネントのランドマークを詳細にアノテーションします。 提案システムは,デザインの背景を持たない人々からなるユーザグループに対して評価を行う。 評価結果から,本手法は製造に容易に利用できる高品質な設計を創出することを示す。 さらに、提案するデザインは、デザイナーの創造性に役立つ。

Fashion is a fast-changing industry where designs are refreshed at large scale every season. Moreover, it faces huge challenge of unsold inventory as not all designs appeal to customers. This puts designers under significant pressure. Firstly, they need to create innumerous fresh designs. Secondly, they need to create designs that appeal to customers. Although we see advancements in approaches to help designers analyzing consumers, often such insights are too many. Creating all possible designs with those insights is time consuming. In this paper, we propose a system of AI assistants that assists designers in their design journey. The proposed system assists designers in analyzing different selling/trending attributes of apparels. We propose two design generation assistants namely Apparel-Style-Merge and Apparel-Style-Transfer. Apparel-Style-Merge generates new designs by combining high level components of apparels whereas Apparel-Style-Transfer generates multiple customization of apparels by applying different styles, colors and patterns. We compose a new dataset, named DeepAttributeStyle, with fine-grained annotation of landmarks of different apparel components such as neck, sleeve etc. The proposed system is evaluated on a user group consisting of people with and without design background. Our evaluation result demonstrates that our approach generates high quality designs that can be easily used in fabrication. Moreover, the suggested designs aid to the designers creativity.
翻訳日:2022-11-12 03:49:10 公開日:2020-07-10
# 抽象視覚推論のための多次元モジュラー化ネットワーク

Multi-Granularity Modularized Network for Abstract Visual Reasoning ( http://arxiv.org/abs/2007.04670v2 )

ライセンス: Link先を確認
Xiangru Tang, Haoyuan Wang, Xiang Pan, Jiyang Qi(参考訳) 抽象的視覚推論は、認知発達の重要な要素である精神的能力と物理的世界を結びつける。 ほとんどの幼児はこのスキルに敏感だが、機械にとっては容易ではない。 そこで我々は,認知的推論を測定するために考案されたRaven Progressive Matrices Testに注目した。 最近の研究は、いくつかのブラックボックスをエンドツーエンドで解決するために設計しているが、非常に複雑で説明が難しい。 認知研究に触発されて,生の感覚情報の処理と記号的推論のギャップを埋めるマルチグラニュラ性モジュラー化ネットワーク(mmon)を提案する。 具体的には、モジュール化された推論関数を学習し、神経シンボリックかつ半スーパービジョンの方法で視覚の接地から意味規則をモデル化する。 MMoNを包括的に評価するために,本実験は,見知らぬ推論ルールのデータセットを用いて行った。 その結果,mmon は抽象的視覚的推論に適しており,一般化テストでも説明可能であることがわかった。

Abstract visual reasoning connects mental abilities to the physical world, which is a crucial factor in cognitive development. Most toddlers display sensitivity to this skill, but it is not easy for machines. Aimed at it, we focus on the Raven Progressive Matrices Test, designed to measure cognitive reasoning. Recent work designed some black-boxes to solve it in an end-to-end fashion, but they are incredibly complicated and difficult to explain. Inspired by cognitive studies, we propose a Multi-Granularity Modularized Network (MMoN) to bridge the gap between the processing of raw sensory information and symbolic reasoning. Specifically, it learns modularized reasoning functions to model the semantic rule from the visual grounding in a neuro-symbolic and semi-supervision way. To comprehensively evaluate MMoN, our experiments are conducted on the dataset of both seen and unseen reasoning rules. The result shows that MMoN is well suited for abstract visual reasoning and also explainable on the generalization test.
翻訳日:2022-11-12 03:12:35 公開日:2020-07-10
# EVO-RL:進化型強化学習

EVO-RL: Evolutionary-Driven Reinforcement Learning ( http://arxiv.org/abs/2007.04725v2 )

ライセンス: Link先を確認
Ahmed Hallawa, Thorsten Born, Anke Schmeink, Guido Dartmann, Arne Peine, Lukas Martin, Giovanni Iacca, A. E. Eiben, Gerd Ascheid(参考訳) 本研究では,進化計算による強化学習のための新しい手法を提案する。 進化駆動強化学習(evo-RL)と呼ばれる我々のアルゴリズムは、強化学習アルゴリズムを進化サイクルに組み込み、純粋に進化可能な(本能的な)行動と純粋に学習可能な行動とを明確に区別する。 さらに、この区別は進化過程によって決定され、エボ-RLは異なる環境に適応可能であることを提案する。 さらに、evo-RLは報酬のない状態の環境での学習を容易にするため、不完全な情報を持つ現実世界の問題により適している。 evo-RLが最先端性能をもたらすことを示すため、evo-RL内で動作している場合、異なる最先端強化学習アルゴリズムの性能を示し、同じアルゴリズムが独立に実行される場合と比較する。 その結果,Evo-RL手法に埋め込まれた強化学習アルゴリズムは,同じ計算予算で制約された無報酬状態を持つOpenAI Gym制御問題において,同一のRLアルゴリズムのスタンドアロンバージョンよりも有意に優れていた。

In this work, we propose a novel approach for reinforcement learning driven by evolutionary computation. Our algorithm, dubbed as Evolutionary-Driven Reinforcement Learning (evo-RL), embeds the reinforcement learning algorithm in an evolutionary cycle, where we distinctly differentiate between purely evolvable (instinctive) behaviour versus purely learnable behaviour. Furthermore, we propose that this distinction is decided by the evolutionary process, thus allowing evo-RL to be adaptive to different environments. In addition, evo-RL facilitates learning on environments with rewardless states, which makes it more suited for real-world problems with incomplete information. To show that evo-RL leads to state-of-the-art performance, we present the performance of different state-of-the-art reinforcement learning algorithms when operating within evo-RL and compare it with the case when these same algorithms are executed independently. Results show that reinforcement learning algorithms embedded within our evo-RL approach significantly outperform the stand-alone versions of the same RL algorithms on OpenAI Gym control problems with rewardless states constrained by the same computational budget.
翻訳日:2022-11-12 03:06:37 公開日:2020-07-10
# モラベックのパラドックスを破る:スマートファッション小売における視覚的分布

Breaking Moravec's Paradox: Visual-Based Distribution in Smart Fashion Retail ( http://arxiv.org/abs/2007.09102v1 )

ライセンス: Link先を確認
Shin Woong Sung, Hyunsuk Baek, Hyeonjun Sim, Eun Hie Kim, Hyunwoo Hwangbo, and Young Jae Jang(参考訳) 本稿では,人工知能(AI)技術と最適化手法を組み合わせた,ファッション製品の流通方法に関する産学連携研究について報告する。 短い製品寿命の現在のファッショントレンドと多様なスタイルに対応するため、同社は様々なスタイルの限られたボリュームを生産している。 しかし、各形態のボリュームが限られているため、一部のオフライン店舗では流通しないものもある。 その結果、この多変量低ボリューム戦略は、ディストリビューションマネージャにとって別の課題となる。 我々は韓国最大のファッションビジネスユニットであるKOLON F/Cと協力して、商品の視覚イメージに基づいて商品をストアに最適に配布するモデルとアルゴリズムを開発した。 チームは、視覚イメージに基づいて服のスタイルを効果的に表現するディープラーニングモデルを開発した。 さらに、服のイメージ表現に基づいて、各店舗の商品ミックスを効果的に決定する最適化モデルを作成した。 かつてはコンピュータは論理計算を行うのにしか役に立たないと考えられており、視覚認識と認知は難しい計算課題と考えられていた。 提案されたアプローチは、ai(知覚と認知)と数学的最適化(論理計算)の両方を使用して実用的なサプライチェーン問題に対処するという点において重要である。

In this paper, we report an industry-academia collaborative study on the distribution method of fashion products using an artificial intelligence (AI) technique combined with an optimization method. To meet the current fashion trend of short product lifetimes and an increasing variety of styles, the company produces limited volumes of a large variety of styles. However, due to the limited volume of each style, some styles may not be distributed to some off-line stores. As a result, this high-variety, low-volume strategy presents another challenge to distribution managers. We collaborated with KOLON F/C, one of the largest fashion business units in South Korea, to develop models and an algorithm to optimally distribute the products to the stores based on the visual images of the products. The team developed a deep learning model that effectively represents the styles of clothes based on their visual image. Moreover, the team created an optimization model that effectively determines the product mix for each store based on the image representation of clothes. In the past, computers were only considered to be useful for conducting logical calculations, and visual perception and cognition were considered to be difficult computational tasks. The proposed approach is significant in that it uses both AI (perception and cognition) and mathematical optimization (logical calculation) to address a practical supply chain problem, which is why the study was called "Breaking Moravec's Paradox."
翻訳日:2022-11-11 22:46:14 公開日:2020-07-10
# 並列ゲームを用いた多目的クラスタリングアルゴリズム

Multi-objective Clustering Algorithm with Parallel Games ( http://arxiv.org/abs/2007.05119v1 )

ライセンス: Link先を確認
Dalila Kessira and Mohand-Tahar Kechadi(参考訳) データマイニングと知識発見は、さまざまな情報源から収集されたデータが豊富にあるため、過去20年で重要な2つの研究分野となっている。 指数関数的に増加する生成データの量は、自動的に派生した知識のニーズを満たすためにいくつかの採掘技術の開発を促す。 クラスタリング分析(類似したデータ群を見つける)は、データマイニングと知識発見において確立され、広く使われているアプローチである。 本稿では,ゲーム理論モデルを用いて多目的アプリケーション問題に対処するクラスタリング手法を提案する。 メインのアイデアは、渋滞ゲームと呼ばれる特定のタイプの同時移動ゲームを活用することである。 混雑ゲームは、簡潔に表現されるから多項式時間で到達可能なナッシュ平衡を持つまで、多くの利点をもたらす。 提案アルゴリズムには3つのステップがある。 1)初期プレイヤー(またはクラスタヘッド)を特定することから始まる。 2) ゲームを構成することで初期クラスタの構成を確立し, ゲームの平衡を見出そうとする。 3番目のステップは、最終クラスターを得るために近接クラスタをマージする。 実験の結果,提案手法は良好な結果を得ることができ,スケーラビリティと性能の面で非常に有望であることがわかった。

Data mining and knowledge discovery are two important growing research fields in the last two decades due to the abundance of data collected from various sources. The exponentially growing volumes of generated data urge the development of several mining techniques to feed the needs for automatically derived knowledge. Clustering analysis (finding similar groups of data) is a well-established and widely used approach in data mining and knowledge discovery. In this paper, we introduce a clustering technique that uses game theory models to tackle multi-objective application problems. The main idea is to exploit a specific type of simultaneous move games, called congestion games. Congestion games offer numerous advantages ranging from being succinctly represented to possessing Nash equilibrium that is reachable in a polynomial-time. The proposed algorithm has three main steps: 1) it starts by identifying the initial players (or the cluster-heads), 2) it establishes the initial clusters' composition by constructing the game and try to find the equilibrium of the game. The third step consists of merging close clusters to obtain the final clusters. The experimental results show that the proposed clustering approach obtains good results and it is very promising in terms of scalability and performance.
翻訳日:2022-11-11 22:45:25 公開日:2020-07-10
# 深層学習に基づく医用画像の自動ランドマーク定位のための回帰と分類

Deep Learning-Based Regression and Classification for Automatic Landmark Localization in Medical Images ( http://arxiv.org/abs/2007.05295v1 )

ライセンス: Link先を確認
Julia M. H. Noothout, Bob D. de Vos, Jelmer M. Wolterink, Elbrich M. Postma, Paul A. M. Smeets, Richard A. P. Takx, Tim Leiner, Max A. Viergever and Ivana I\v{s}gum(参考訳) 本研究では,医用画像中の解剖学的ランドマークを自動的にローカライズする高速かつ高精度な手法を提案する。 完全畳み込みニューラルネットワーク(FCNN)を用いたグローバル・ローカルなローカライゼーション手法を用いる。 まず、グローバルFCNNは画像パッチの分析を通じて複数のランドマークをローカライズし、レグレッションと分類を同時に行う。 回帰において、画像パッチの中心からランドマーク位置に向かう変位ベクトルを決定する。 分類では、パッチに対する興味のあるランドマークの存在が確立される。 グローバルなランドマーク位置は、予測された変位ベクトルを平均化し、各変位ベクトルの寄与は、それが指しているパッチの後方分類確率によって重み付けされる。 その後、グローバルローカライズでローカライズされたランドマーク毎に局所解析を行う。 特別なfcnnは、局所サブイメージを同様の方法で分析し、回帰と分類を同時に行い、結果を組み合わせることで、グローバルランドマークの位置を洗練する。 cctaスキャンでは8つの解剖学的ランドマーク,嗅覚mrスキャンでは2つのランドマーク,頭蓋x線では19のランドマークを局在させて評価を行った。 本手法は第2の観察者と同様の動作を示し,画像のモダリティ,画像寸法,解剖学的範囲の異なる,多種多様な医用画像にランドマークを局在させることができる。

In this study, we propose a fast and accurate method to automatically localize anatomical landmarks in medical images. We employ a global-to-local localization approach using fully convolutional neural networks (FCNNs). First, a global FCNN localizes multiple landmarks through the analysis of image patches, performing regression and classification simultaneously. In regression, displacement vectors pointing from the center of image patches towards landmark locations are determined. In classification, presence of landmarks of interest in the patch is established. Global landmark locations are obtained by averaging the predicted displacement vectors, where the contribution of each displacement vector is weighted by the posterior classification probability of the patch that it is pointing from. Subsequently, for each landmark localized with global localization, local analysis is performed. Specialized FCNNs refine the global landmark locations by analyzing local sub-images in a similar manner, i.e. by performing regression and classification simultaneously and combining the results. Evaluation was performed through localization of 8 anatomical landmarks in CCTA scans, 2 landmarks in olfactory MR scans, and 19 landmarks in cephalometric X-rays. We demonstrate that the method performs similarly to a second observer and is able to localize landmarks in a diverse set of medical images, differing in image modality, image dimensionality, and anatomical coverage.
翻訳日:2022-11-11 22:44:14 公開日:2020-07-10
# 音響イベント検出のための条件付き時間差畳み込み

Conditioned Time-Dilated Convolutions for Sound Event Detection ( http://arxiv.org/abs/2007.05183v1 )

ライセンス: Link先を確認
Konstantinos Drossos and Stylianos I. Mimilakis and Tuomas Virtanen(参考訳) 音響イベント検出 (sound event detection, sed) は、その開始時間とオフセット時間とともに音響イベントを識別するタスクである。 最近の畳み込みニューラルネットワークに基づくSED法では,DWS(Deepwise Separable)と時間差畳み込み(Time-Dilated Convolutions)が提案されている。 DWSと時間差の畳み込みはSEDの最先端の結果となり、かなりの量のパラメータが得られた。 本研究では,SED分類器によるSED予測の埋め込みを共同で学習することで,時間分割畳み込みの拡張を提案する。 本稿では,言語モデルと同様に機能する時間拡張畳み込みの条件付けのための新しいアルゴリズムを提案し,それらの畳み込みの性能を向上させる。 我々は,TUT-SED Syntheticデータセットを無償で使用し,平均フレーム当たり$\text{F}_{1}$スコアと平均フレーム毎エラー率を用いて,本手法の性能を評価する。 平均$\text{f}_{1}$スコアで2\%(0.63から0.65)、エラー率で3\%(0.50から0.47)の低下(より低い)を達成する。

Sound event detection (SED) is the task of identifying sound events along with their onset and offset times. A recent, convolutional neural networks based SED method, proposed the usage of depthwise separable (DWS) and time-dilated convolutions. DWS and time-dilated convolutions yielded state-of-the-art results for SED, with considerable small amount of parameters. In this work we propose the expansion of the time-dilated convolutions, by conditioning them with jointly learned embeddings of the SED predictions by the SED classifier. We present a novel algorithm for the conditioning of the time-dilated convolutions which functions similarly to language modelling, and enhances the performance of the these convolutions. We employ the freely available TUT-SED Synthetic dataset, and we assess the performance of our method using the average per-frame $\text{F}_{1}$ score and average per-frame error rate, over the 10 experiments. We achieve an increase of 2\% (from 0.63 to 0.65) at the average $\text{F}_{1}$ score (the higher the better) and a decrease of 3\% (from 0.50 to 0.47) at the error rate (the lower the better).
翻訳日:2022-11-11 22:43:11 公開日:2020-07-10
# Grapevine葉の加齢, 欠陥, 個人栄養欠乏を検出するハイパースペクトルイメージング

Hyperspectral Imaging to detect Age, Defects and Individual Nutrient Deficiency in Grapevine Leaves ( http://arxiv.org/abs/2007.05197v1 )

ライセンス: Link先を確認
Manoranjan Paul, Sourabhi Debnath, Tanmoy Debnath, Suzy Rogiers, Tintu Baby, DM Motiur Rahaman, Lihong Zheng, Leigh Schmidtke(参考訳) 380nmから1000nmの波長範囲で高スペクトル(hs)イメージングを行い, オーストラリア, ニューサウスウェールズ州中部のブドウ畑から採取したブドウ葉の熟成, 健康, 個々の栄養分不足の検出効果を検討した。 年齢検出のために、多くの健康なブドウの葉の外観を調べた。 そして, 健康な葉と比較した。 また, コントロール葉と個々の栄養不足葉(N, K, Mg)も分析した。 紫外光(UV)、可視光(VIS)、近赤外(NIR)の各領域で、平均輝度、平均微分輝度、変動指数、平均スペクトル比、正規化差分量分布指数(NDVI)、標準偏差(SD)といった実験データを評価するために、いくつかの特徴が採用された。 実験結果から, これらの特徴は, 年齢比較, 不健康な試料の同定, コントロールと栄養不足の識別だけでなく, 個々の栄養欠陥の同定に有効であることが示唆された。 以上の結果から, HSイメージングは非破壊性, 非接触性, 老化, 健康性, 個人の栄養欠乏を検出できる可能性が示唆された。

Hyperspectral (HS) imaging was successfully employed in the 380 nm to 1000 nm wavelength range to investigate the efficacy of detecting age, healthiness and individual nutrient deficiency of grapevine leaves collected from vineyards located in central west NSW, Australia. For age detection, the appearance of many healthy grapevine leaves has been examined. Then visually defective leaves were compared with healthy leaves. Control leaves and individual nutrient-deficient leaves (e.g. N, K and Mg) were also analysed. Several features were employed at various stages in the Ultraviolet (UV), Visible (VIS) and Near Infrared (NIR) regions to evaluate the experimental data: mean brightness, mean 1st derivative brightness, variation index, mean spectral ratio, normalised difference vegetation index (NDVI) and standard deviation (SD). Experiment results demonstrate that these features could be utilised with a high degree of effectiveness to compare age, identify unhealthy samples and not only to distinguish from control and nutrient deficiency but also to identify individual nutrient defects. Therefore, our work corroborated that HS imaging has excellent potential as a non-destructive as well as a non-contact method to detect age, healthiness and individual nutrient deficiencies of grapevine leaves
翻訳日:2022-11-11 22:37:20 公開日:2020-07-10
# 周期的知覚深度スーパービジョンによる効率の良い不対向画像デハージング

Efficient Unpaired Image Dehazing with Cyclic Perceptual-Depth Supervision ( http://arxiv.org/abs/2007.05220v1 )

ライセンス: Link先を確認
Chen Liu, Jiaqi Fan, Guosheng Yin(参考訳) ペア画像の取得には多大なコストを要するため、ペア画像のない画像のデハージングは極めて重要である。 しかし, 従来の未ペア画像復調手法は, 深度境界付近で性能劣化に悩まされる傾向にあり, 急激な変化が生じる傾向にある。 そこで本研究では,周期的知覚深度監視による不対面画像デハージングにおける奥行き境界の劣化を緩和することを提案する。 ジェネレータとディスクリミネータのバックボーンを再利用したデュアルパス機能と組み合わせたモデルでは,NYU Depth V2データセット上でのピーク信号対ノイズ比(PSNR)が,Floating Point Operations (FLOPs) の削減によって前バージョンよりも大幅に向上した。

Image dehazing without paired haze-free images is of immense importance, as acquiring paired images often entails significant cost. However, we observe that previous unpaired image dehazing approaches tend to suffer from performance degradation near depth borders, where depth tends to vary abruptly. Hence, we propose to anneal the depth border degradation in unpaired image dehazing with cyclic perceptual-depth supervision. Coupled with the dual-path feature re-using backbones of the generators and discriminators, our model achieves $\mathbf{20.36}$ Peak Signal-to-Noise Ratio (PSNR) on NYU Depth V2 dataset, significantly outperforming its predecessors with reduced Floating Point Operations (FLOPs).
翻訳日:2022-11-11 22:36:23 公開日:2020-07-10
# 部分畳み込みネットワークを用いた変形型レジストレーションを用いたグリオーマmr脳画像における非腫瘍組織の自動分割

Automatic Segmentation of Non-Tumor Tissues in Glioma MR Brain Images Using Deformable Registration with Partial Convolutional Networks ( http://arxiv.org/abs/2007.05224v1 )

ライセンス: Link先を確認
Zhongqiang Liu(参考訳) 脳腫瘍の診断と手術計画には腫瘍領域の分節化と周囲の正常組織の正確な分析が必要である。 病理学的変異は、よくラベルされた正常なアトラスをそのような画像に登録し、正常な脳組織を取り巻く自動セグメント/ラベルに登録することが困難であることが多い。 本稿では,まずU-Netを用いて脳腫瘍を分離し,その後部分畳み込みネットワークを用いて腫瘍領域内の正常組織を模擬する新しい登録手法を提案する。 そして、正常な脳組織を分割・標識するために、標準の正常な脳アトラス画像をそのような腫瘍除去画像に登録する。 このようにして,本手法は変形性登録における病理変動の影響を大幅に減らし,脳腫瘍周囲の正常組織をよく分断する。 実験では,MICCAI BraTS2018 T1腫瘍画像を用いて提案アルゴリズムの評価を行った。 提案アルゴリズムと直接登録を比較した結果, 灰白質のDice係数は正常な脳組織に対して有意に改善された。

In brain tumor diagnosis and surgical planning, segmentation of tumor regions and accurate analysis of surrounding normal tissues are necessary for physicians. Pathological variability often renders difficulty to register a well-labeled normal atlas to such images and to automatic segment/label surrounding normal brain tissues. In this paper, we propose a new registration approach that first segments brain tumor using a U-Net and then simulates missed normal tissues within the tumor region using a partial convolutional network. Then, a standard normal brain atlas image is registered onto such tumor-removed images in order to segment/label the normal brain tissues. In this way, our new approach greatly reduces the effects of pathological variability in deformable registration and segments the normal tissues surrounding brain tumor well. In experiments, we used MICCAI BraTS2018 T1 tumor images to evaluate the proposed algorithm. By comparing direct registration with the proposed algorithm, the results showed that the Dice coefficient for gray matters was significantly improved for surrounding normal brain tissues.
翻訳日:2022-11-11 22:36:04 公開日:2020-07-10
# 光音響画像におけるスムーズで連続的な皮膚層セグメンテーションのための距離ベース損失

A distance-based loss for smooth and continuous skin layer segmentation in optoacoustic images ( http://arxiv.org/abs/2007.05324v1 )

ライセンス: Link先を確認
Stefan Gerl, Johannes C. Paetzold, Hailong He, Ivan Ezhov, Suprosanna Shit, Florian Kofler, Amirhossein Bayat, Giles Tetteh, Vasilis Ntziachristos, Bjoern Menze(参考訳) raster-scan optoacoustic mesoscopy (rsom)は、機能的、解剖学的、および分子的皮膚および組織分析のための強力で非侵襲的な光学イメージング技術である。 しかし,RSOM画像はコントラストが非常に低く,信号対雑音比が低く,メラニンとヘモグロビンの吸収スペクトルが体系的に重なり合うため,手動と自動解析の両方が困難である。 それにもかかわらず、表皮層のセグメンテーションは、血管のセグメンテーションや癌進行のモニタリングなど、下流の多くの医療および診断タスクにとって重要なステップである。 本研究では,不連続なセグメンテーションを克服し,同じ体積ダイスとiouを保ちながら滑らかなセグメンテーション面を実現する,新しい形状特異的損失関数を提案する。 さらに,血管のセグメンテーションの感度による表皮のセグメンテーションを検証した。 血管セグメンテーションネットワークへの追加情報として表皮マスクが提供される場合, 血管セグメンテーションタスクに対して20$\%のDiceの改善が得られた。

Raster-scan optoacoustic mesoscopy (RSOM) is a powerful, non-invasive optical imaging technique for functional, anatomical, and molecular skin and tissue analysis. However, both the manual and the automated analysis of such images are challenging, because the RSOM images have very low contrast, poor signal to noise ratio, and systematic overlaps between the absorption spectra of melanin and hemoglobin. Nonetheless, the segmentation of the epidermis layer is a crucial step for many downstream medical and diagnostic tasks, such as vessel segmentation or monitoring of cancer progression. We propose a novel, shape-specific loss function that overcomes discontinuous segmentations and achieves smooth segmentation surfaces while preserving the same volumetric Dice and IoU. Further, we validate our epidermis segmentation through the sensitivity of vessel segmentation. We found a 20 $\%$ improvement in Dice for vessel segmentation tasks when the epidermis mask is provided as additional information to the vessel segmentation network.
翻訳日:2022-11-11 22:35:24 公開日:2020-07-10
# 医用超音波画像における血液血流推定のためのブラインドデコンボリューションとロバスト成分分析

Joint Blind Deconvolution and Robust Principal Component Analysis for Blood Flow Estimation in Medical Ultrasound Imaging ( http://arxiv.org/abs/2007.05428v1 )

ライセンス: Link先を確認
Duong-Hung Pham, Adrian Basarab, Ilyess Zemmoura, Jean-Pierre Remenieras and Denis Kouame(参考訳) 本稿では,超高速超音波画像からの高分解能ドップラー血流推定の問題に対処する。 クラッタと血液成分の分離を逆問題として定式化することは,時空間特異値分解(SVD)に基づくクラッタフィルタの優れた代替となることが文献で示されている。 特に、画像システムの実験的に測定された点展開関数(PSF)の影響を軽減するために、近年、デコンボリューションステップがそのような問題に埋め込まれている。 この文脈でデコンボリューションが示され、血流再建の精度が向上した。 しかし、PSFの測定には非自明な実験装置が必要である。 この制限を克服するために,ドップラーデータから血液成分とPSFの両方を推定できるブラインドデコンボリューション法を提案する。 シミュレーションおよび生体内データを用いて行った数値実験は,実験により測定したPSFおよび他の2つの最先端アプローチに基づいて,提案手法の有効性を定量的に定量的に検証した。

This paper addresses the problem of high-resolution Doppler blood flow estimation from an ultrafast sequence of ultrasound images. Formulating the separation of clutter and blood components as an inverse problem has been shown in the literature to be a good alternative to spatio-temporal singular value decomposition (SVD)-based clutter filtering. In particular, a deconvolution step has recently been embedded in such a problem to mitigate the influence of the experimentally measured point spread function (PSF) of the imaging system. Deconvolution was shown in this context to improve the accuracy of the blood flow reconstruction. However, measuring the PSF requires non-trivial experimental setups. To overcome this limitation, we propose herein a blind deconvolution method able to estimate both the blood component and the PSF from Doppler data. Numerical experiments conducted on simulated and in vivo data demonstrate qualitatively and quantitatively the effectiveness of the proposed approach in comparison with the previous method based on experimentally measured PSF and two other state-of-the-art approaches.
翻訳日:2022-11-11 22:35:04 公開日:2020-07-10
# ディープニューラルネットワークを用いた敵画像の検出の改善

Improved Detection of Adversarial Images Using Deep Neural Networks ( http://arxiv.org/abs/2007.05573v1 )

ライセンス: Link先を確認
Yutong Gao, Yi Pan(参考訳) 機械学習のテクニックは、業界とアカデミーの両方に大きく展開されている。 最近の研究では、分類タスクに使用される機械学習モデルは、精度の高い分野におけるアプリケーションの使用を制限する敵の例に弱いことが示されている。 本稿では,異なる攻撃アルゴリズムで生成した逆数例からなる混合データセットにおいて,事前学習したDNNを低コストで関連付けることが可能な特徴マップデノケーション(Feature Map Denoising)という手法を提案する。 Wienerフィルタはディフェンスモデルにデノイズアルゴリズムとして導入され、さらなる性能向上が期待できる。 実験結果から,我々の特徴マップデノケーションアルゴリズムにより,敵のサンプルを検出する精度が向上できることが示唆された。

Machine learning techniques are immensely deployed in both industry and academy. Recent studies indicate that machine learning models used for classification tasks are vulnerable to adversarial examples, which limits the usage of applications in the fields with high precision requirements. We propose a new approach called Feature Map Denoising to detect the adversarial inputs and show the performance of detection on the mixed dataset consisting of adversarial examples generated by different attack algorithms, which can be used to associate with any pre-trained DNNs at a low cost. Wiener filter is also introduced as the denoise algorithm to the defense model, which can further improve performance. Experimental results indicate that good accuracy of detecting the adversarial examples can be achieved through our Feature Map Denoising algorithm.
翻訳日:2022-11-11 22:34:27 公開日:2020-07-10
# スカイ領域分割に基づく単一画像デハージングアルゴリズム

Single Image Dehazing Algorithm Based on Sky Region Segmentation ( http://arxiv.org/abs/2007.06492v1 )

ライセンス: Link先を確認
Weixiang Li, Wei Jie, Somaiyeh MahmoudZadeh(参考訳) 本稿では,空域のデフォギングにおけるダークチャネル優先アルゴリズムの欠点に対処するために,領域分割に基づくハイブリッド画像デフォギング手法を提案する。 提案手法の予備段階は、平均シフトとエッジ検出の利点を生かした霧画像における空と非スキー領域のセグメンテーションに焦点を当てている。 第2段階では、非空領域を識別するために改良されたダークチャネル優先アルゴリズムが用いられる。 最終的に、スカイエリアは、ディープラーニング畳み込みニューラルネットワークに依存するdehazenetアルゴリズムによって処理される。 本研究で提案したハイブリッド手法は,霧画像の空域に付随する色歪みの問題に対処するものである。 このアプローチは、エントロピー情報、エッジの可視率、平均勾配、飽和率を含む画像品質指標を非常に高速に計算できるため、このモデルの優れた性能を示す良い指標となる。

In this paper a hybrid image defogging approach based on region segmentation is proposed to address the dark channel priori algorithm's shortcomings in de-fogging the sky regions. The preliminary stage of the proposed approach focuses on the segmentation of sky and non-sky regions in a foggy image taking the advantageous of Meanshift and edge detection with embedded confidence. In the second stage, an improved dark channel priori algorithm is employed to defog the non-sky region. Ultimately, the sky area is processed by DehazeNet algorithm, which relies on deep learning Convolutional Neural Networks. The simulation results show that the proposed hybrid approach in this research addresses the problem of color distortion associated with sky regions in foggy images. The approach greatly improves the image quality indices including entropy information, visibility ratio of the edges, average gradient, and the saturation percentage with a very fast computation time, which is a good indication of the excellent performance of this model.
翻訳日:2022-11-11 22:34:15 公開日:2020-07-10
# 混合自律化時代の自動運転車制御に関する調査研究:物理からAI誘導運転政策学習へ

A Survey on Autonomous Vehicle Control in the Era of Mixed-Autonomy: From Physics-Based to AI-Guided Driving Policy Learning ( http://arxiv.org/abs/2007.05156v1 )

ライセンス: Link先を確認
Xuan Di and Rongye Shi(参考訳) 本稿では,混合自律の時代における自律走行車(AV)制御のための輸送工学分野への人工知能(AI)からの潜在的有用なモデルと方法論の紹介と概要を提供する。 我々は、AI誘導手法の最先端の応用について議論し、機会と障害を特定し、オープンな質問を提起し、AIが混合自律において役割を果たす可能性のあるビルディングブロックとエリアを提案する。 自動運転車(AV)の展開段階は、純粋なHV、HVが支配する、AVが支配する、純粋なAVの4段階に分けられる。 本論文は, 主に後半3段階に焦点をあてる。 交通工学とaiの混合交通モデリングに関する文献を総合的にレビューする最初のits-kind調査論文である。 各フェーズで使用されるモデルは、ゲーム理論、深い(強化)学習、模倣学習を含む要約される。 1)人間ドライバーと制御不能なAVによる混在トラフィックにおいて、多数のAVを制御するためのスケーラブルな運転ポリシーとは何か? 2) 人間の運転行動をどのように推定するか? 3)制御不能avの運転挙動を環境にモデル化するにはどうすればよいか? (4)人間と自動運転車の相互作用はどのようなものか? この論文は、データショート時代に開発された従来のモデルを再考するだけでなく、ロボット工学や機械学習といった他の分野にも手を差し伸べ、安全で効率的な混合交通エコシステムの構築に力を入れることを願っている。

This paper serves as an introduction and overview of the potentially useful models and methodologies from artificial intelligence (AI) into the field of transportation engineering for autonomous vehicle (AV) control in the era of mixed autonomy. We will discuss state-of-the-art applications of AI-guided methods, identify opportunities and obstacles, raise open questions, and help suggest the building blocks and areas where AI could play a role in mixed autonomy. We divide the stage of autonomous vehicle (AV) deployment into four phases: the pure HVs, the HV-dominated, the AVdominated, and the pure AVs. This paper is primarily focused on the latter three phases. It is the first-of-its-kind survey paper to comprehensively review literature in both transportation engineering and AI for mixed traffic modeling. Models used for each phase are summarized, encompassing game theory, deep (reinforcement) learning, and imitation learning. While reviewing the methodologies, we primarily focus on the following research questions: (1) What scalable driving policies are to control a large number of AVs in mixed traffic comprised of human drivers and uncontrollable AVs? (2) How do we estimate human driver behaviors? (3) How should the driving behavior of uncontrollable AVs be modeled in the environment? (4) How are the interactions between human drivers and autonomous vehicles characterized? Hopefully this paper will not only inspire our transportation community to rethink the conventional models that are developed in the data-shortage era, but also reach out to other disciplines, in particular robotics and machine learning, to join forces towards creating a safe and efficient mixed traffic ecosystem.
翻訳日:2022-11-11 22:28:05 公開日:2020-07-10
# 自律型ミッションプランニング・マネジメントシステムの現状と展望--AUVとUAVの視点から

Current Advancements on Autonomous Mission Planning and Management Systems: an AUV and UAV perspective ( http://arxiv.org/abs/2007.05179v1 )

ライセンス: Link先を確認
Adham Atyabi, Somaiyeh MahmoudZadeh, Samia Nefti-Meziani(参考訳) ハードウェア技術の進歩により、高度なソフトウェアの統合が促進され、無人車両(UV)の開発と雇用が進展し、搭載されたインテリジェンスに対する抑制が緩和された。 その結果、uvsはより複雑なミッションに参加し、環境条件における継続的な変換はより高いレベルの状況応答性を必要とする。 本稿は,無人水中・航空車両分野における最近の発展を浮き彫りにすることを目的とした,UVのミッションプランニング・マネジメントシステムの導入として,将来的な方向性を強調し,学習した教訓について議論することを目的としている。 本研究は,UVの自律性評価と,状況意識,認知,意思決定といった自律性の異なる側面に関する総合的な調査である。 論文はヒューマノイドと自律システムの性能を別々に説明し、uvs運用における人間の役割と影響を強調する。

Advances in hardware technology have enabled more integration of sophisticated software, triggering progress in the development and employment of Unmanned Vehicles (UVs), and mitigating restraints for onboard intelligence. As a result, UVs can now take part in more complex mission where continuous transformation in environmental condition calls for a higher level of situational responsiveness. This paper serves as an introduction to UVs mission planning and management systems aiming to highlight some of the recent developments in the field of autonomous underwater and aerial vehicles in addition to stressing some possible future directions and discussing the learned lessons. A comprehensive survey over autonomy assessment of UVs, and different aspects of autonomy such as situation awareness, cognition, and decision-making has been provided in this study. The paper separately explains the humanoid and autonomous system's performance and highlights the role and impact of a human in UVs operations.
翻訳日:2022-11-11 22:27:39 公開日:2020-07-10
# 外部利害関係者の機械学習説明可能性

Machine Learning Explainability for External Stakeholders ( http://arxiv.org/abs/2007.05408v1 )

ライセンス: Link先を確認
Umang Bhatt, McKane Andrus, Adrian Weller, Alice Xiang(参考訳) 人々の生活に影響を与える高リスクなコンテキストに機械学習が展開されることが増えているため、ブラックボックスを開き、機械学習アルゴリズムをより説明しやすくするための要求が増えている。 有用な説明を提供するには、エンドユーザ、規制当局、ドメインエキスパートを含むステークホルダーのニーズを慎重に考慮する必要がある。 このようなニーズにもかかわらず、説明可能な機械学習に関するステークホルダー間の会話を促進するための作業はほとんど行われていない。 このギャップに対処するため、我々は、学者、業界専門家、法学者、政策立案者との日中ワークショップを開催し、説明可能性に関する共通言語を開発し、透明性の目標を達成するために、説明可能な機械学習を展開するための現在の欠点と潜在的な解決策を理解する。 参加者には,説明可能な機械学習を大規模に展開する上でのケーススタディの共有も求めました。 本稿では,説明可能な機械学習のさまざまなケーススタディ,これらの研究からの教訓を要約し,オープン課題について考察する。

As machine learning is increasingly deployed in high-stakes contexts affecting people's livelihoods, there have been growing calls to open the black box and to make machine learning algorithms more explainable. Providing useful explanations requires careful consideration of the needs of stakeholders, including end-users, regulators, and domain experts. Despite this need, little work has been done to facilitate inter-stakeholder conversation around explainable machine learning. To help address this gap, we conducted a closed-door, day-long workshop between academics, industry experts, legal scholars, and policymakers to develop a shared language around explainability and to understand the current shortcomings of and potential solutions for deploying explainable machine learning in service of transparency goals. We also asked participants to share case studies in deploying explainable machine learning at scale. In this paper, we provide a short summary of various case studies of explainable machine learning, lessons from those studies, and discuss open challenges.
翻訳日:2022-11-11 22:27:23 公開日:2020-07-10
# 分子の電子励起状態のための機械学習

Machine learning for electronically excited states of molecules ( http://arxiv.org/abs/2007.05320v1 )

ライセンス: Link先を確認
Julia Westermayr, Philipp Marquetand(参考訳) 分子の電子励起状態は、光化学、光物理、および光生物学の中心であり、物質科学においても重要な役割を果たしている。 彼らの理論記述には、計算コストが高い高精度な量子化学計算が必要である。 本稿では,このような興奮状態シミュレーションを高速化するだけでなく,人工知能のこの分野が,そのあらゆる側面においてこのエキサイティングな研究分野を前進させる上でどのように活用できるかを,機械学習がいかに活用するかに焦点をあてる。 励起状態に対する機械学習の応用例としては、励起状態ダイナミクスシミュレーション、吸収スペクトルの静的計算、その他多くのものがある。 これらの研究を文脈に当てはめるために、関連する機械学習技術の約束と落とし穴について論じる。 後者は、主に量子化学計算に基づくため、励起状態電子構造法、非断熱力学シミュレーションへのアプローチ、および分子の励起状態に機械学習でそれらを使用する際のトリックと問題を記述した短い紹介も提供する。

Electronically excited states of molecules are at the heart of photochemistry, photophysics, as well as photobiology and also play a role in material science. Their theoretical description requires highly accurate quantum chemical calculations, which are computationally expensive. In this review, we focus on how machine learning is employed not only to speed up such excited-state simulations but also how this branch of artificial intelligence can be used to advance this exciting research field in all its aspects. Discussed applications of machine learning for excited states include excited-state dynamics simulations, static calculations of absorption spectra, as well as many others. In order to put these studies into context, we discuss the promises and pitfalls of the involved machine learning techniques. Since the latter are mostly based on quantum chemistry calculations, we also provide a short introduction into excited-state electronic structure methods, approaches for nonadiabatic dynamics simulations and describe tricks and problems when using them in machine learning for excited states of molecules.
翻訳日:2022-11-11 22:25:42 公開日:2020-07-10
# TAWLアルゴリズムによる可視性向上のためのビデオにおける降雨ストリーク除去

Rain Streak Removal in a Video to Improve Visibility by TAWL Algorithm ( http://arxiv.org/abs/2007.05167v1 )

ライセンス: Link先を確認
Muhammad Rafiqul Islam, Manoranjan Paul(参考訳) コンピュータビジョンアプリケーションでは、ビデオコンテンツの可視性は、より正確な分析を行うために不可欠である。 可視性はいくつかの大気干渉の影響を受けうるが、そのうちの1つは雨天の出現である。 近年,自律走行車,インテリジェント交通監視システム,マルチメディアなどのエキサイティングな応用が期待されているため,雨害の除去は研究者にとって大きな関心を集めている。 そこで本研究では,雨林の時間的外観,形状,相対的な位置に着目した3つの抽出特徴を組み合わせることで,新しい簡易な手法を提案し,taul法(temporal appearance, width, and location)と呼ぶ。 提案手法では,解像度やフレームレートの異なる特徴を適応的に利用する。 さらに、先行するフレームから徐々に機能を処理して、リアルタイムに雨を除去できるようにします。 実験は,実雨と人工雨を併用したビデオシーケンスを用いて実施し,提案手法の性能を関連する最先端手法と比較した。 実験の結果,提案手法は,他の移動領域を保ちながらより多くの雨裂を除去し,最先端手法を上回っていることがわかった。

In computer vision applications, the visibility of the video content is crucial to perform analysis for better accuracy. The visibility can be affected by several atmospheric interferences in challenging weather-one of them is the appearance of rain streak. In recent time, rain streak removal achieves lots of interest to the researchers as it has some exciting applications such as autonomous car, intelligent traffic monitoring system, multimedia, etc. In this paper, we propose a novel and simple method by combining three novel extracted features focusing on temporal appearance, wide shape and relative location of the rain streak and we called it TAWL (Temporal Appearance, Width, and Location) method. The proposed TAWL method adaptively uses features from different resolutions and frame rates. Moreover, it progressively processes features from the up-coming frames so that it can remove rain in the real-time. The experiments have been conducted using video sequences with both real rains and synthetic rains to compare the performance of the proposed method against the relevant state-of-the-art methods. The experimental results demonstrate that the proposed method outperforms the state-of-the-art methods by removing more rain streaks while keeping other moving regions.
翻訳日:2022-11-11 22:25:07 公開日:2020-07-10
# 幾何学的スタイル転送

Geometric Style Transfer ( http://arxiv.org/abs/2007.05471v1 )

ライセンス: Link先を確認
Xiao-Chang Liu, Xuan-Yi Li, Ming-Ming Cheng, Peter Hall(参考訳) 入力画像が他の画像のスタイルで描画されるニューラルスタイル転送(NST)は、近年かなり進歩しているトピックである。 この時期の研究は、色とテクスチャの側面を移すことで支配されてきたが、これらの要素はスタイルの一要素に過ぎない。 他のスタイルの要素としては、作曲、使用する投影システム、アーティストが物体をねじり曲げる方法などがある。 私たちの貢献は、幾何学的スタイルの転送をサポートするニューラルネットワークアーキテクチャの導入です。 この分野での最近の研究と異なり、セマンティックなコンテンツに制限されないという点で、私たちは独特です。 この新しいアーキテクチャはテクスチャスタイルを転送するネットワークに先立って動作し、テクスチャを歪んだ画像に転送することができる。 この形態のネットワークは、NST入力パラダイムを拡張して第二の新規性をサポートする。 ユーザーは一般的なようにコンテンツ/スタイルのペアを入力したり、コンテンツ/テキストスタイル/ジオメトリスタイルのトリプルを入力できる。 この3つのイメージ入力パラダイムはスタイルを2つの部分に分けて、私たちが生成できるアウトプットに対して、はるかに高い汎用性を提供します。 我々は、出力の質を示すユーザ研究を行い、人間のスタイル認識への幾何学的スタイル変換の重要性を定量化する。

Neural style transfer (NST), where an input image is rendered in the style of another image, has been a topic of considerable progress in recent years. Research over that time has been dominated by transferring aspects of color and texture, yet these factors are only one component of style. Other factors of style include composition, the projection system used, and the way in which artists warp and bend objects. Our contribution is to introduce a neural architecture that supports transfer of geometric style. Unlike recent work in this area, we are unique in being general in that we are not restricted by semantic content. This new architecture runs prior to a network that transfers texture style, enabling us to transfer texture to a warped image. This form of network supports a second novelty: we extend the NST input paradigm. Users can input content/style pair as is common, or they can chose to input a content/texture-style/geometry-style triple. This three image input paradigm divides style into two parts and so provides significantly greater versatility to the output we can produce. We provide user studies that show the quality of our output, and quantify the importance of geometric style transfer to style recognition by humans.
翻訳日:2022-11-11 22:19:12 公開日:2020-07-10
# STaRFlow:軽量多フレーム光フロー推定のための時空間リカレントセル

STaRFlow: A SpatioTemporal Recurrent Cell for Lightweight Multi-Frame Optical Flow Estimation ( http://arxiv.org/abs/2007.05481v1 )

ライセンス: Link先を確認
Pierre Godet, Alexandre Boulch, Aur\'elien Plyer and Guy Le Besnerais(参考訳) マルチフレーム光フロー推定のための軽量CNNアルゴリズムを提案する。 提案手法では,空間的スケールと時間の2倍の繰り返しを,汎用的なSTaR (SpatioTemporal Recurrent) 細胞を用いて繰り返し行う。 含む。 (i)オプティカルフロー推定よりも学習された特徴の伝達に基づく時間的再発 (ii)オプティカルフロー推定と結合したオクルージョン検出プロセスは、非常に限られた数の余剰パラメータを使用する。 結果の STaRFlow アルゴリズムは MPI Sintel と Kitti2015 上での最先端のパフォーマンスを提供する。

We present a new lightweight CNN-based algorithm for multi-frame optical flow estimation. Our solution introduces a double recurrence over spatial scale and time through repeated use of a generic "STaR" (SpatioTemporal Recurrent) cell. It includes (i) a temporal recurrence based on conveying learned features rather than optical flow estimates; (ii) an occlusion detection process which is coupled with optical flow estimation and therefore uses a very limited number of extra parameters. The resulting STaRFlow algorithm gives state-of-the-art performances on MPI Sintel and Kitti2015 and involves significantly less parameters than all other methods with comparable results.
翻訳日:2022-11-11 22:18:54 公開日:2020-07-10
# ISINet: 手術機器セグメンテーションのためのインスタンスベースのアプローチ

ISINet: An Instance-Based Approach for Surgical Instrument Segmentation ( http://arxiv.org/abs/2007.05533v1 )

ライセンス: Link先を確認
Cristina Gonz\'alez (1), Laura Bravo-S\'anchez (1), Pablo Arbelaez (1) ((1) Center for Research and Formation in Artificial Intelligence, Universidad de los Andes, Colombia)(参考訳) ロボット支援手術シーンにおける手術器具の意味的セグメンテーションの課題について検討する。 本稿では,この課題をインスタンスベースセグメンテーションの観点から解決する手法として,インスタンスベースの手術機器セグメンテーションネットワーク(ISINet)を提案する。 本手法は,以前見過ごされていた問題の時間的情報を考慮した時間的一貫性モジュールを含む。 我々は,この課題に対する既存のベンチマーク,the endoscopic vision 2017 robot instrument segmentation dataset,および2018年版のinstrumental segmentation用アノテーションを拡張したthe datasetについて検証を行った。 以上の結果から,ISINetは従来手法のIoU(Intersection over Union)を重複させたベースラインバージョンと,IoUを3倍にした完全モデルで,最先端の手法よりも優れていたことが示唆された。

We study the task of semantic segmentation of surgical instruments in robotic-assisted surgery scenes. We propose the Instance-based Surgical Instrument Segmentation Network (ISINet), a method that addresses this task from an instance-based segmentation perspective. Our method includes a temporal consistency module that takes into account the previously overlooked and inherent temporal information of the problem. We validate our approach on the existing benchmark for the task, the Endoscopic Vision 2017 Robotic Instrument Segmentation Dataset, and on the 2018 version of the dataset, whose annotations we extended for the fine-grained version of instrument segmentation. Our results show that ISINet significantly outperforms state-of-the-art methods, with our baseline version duplicating the Intersection over Union (IoU) of previous methods and our complete model triplicating the IoU.
翻訳日:2022-11-11 22:18:26 公開日:2020-07-10
# PCAMs:ポイントスーパービジョンを用いた弱い監視セマンティックセグメンテーション

PCAMs: Weakly Supervised Semantic Segmentation Using Point Supervision ( http://arxiv.org/abs/2007.05615v1 )

ライセンス: Link先を確認
R. Austin McEver and B.S. Manjunath(参考訳) セマンティックセグメンテーションを生成するためのartメソッドの現状は、各ピクセルに関心のあるラベルや背景のクラスをラベル付けした大規模なイメージセットに大きく依存している。 このようなラベルを思いつくことは、特に専門家がアノテーションを行う必要があるドメインでは、時間とお金のコストがかかります。 いくつかの方法では、より安価な画像レベルラベルから意味的セグメンテーションを学習できることが示されているが、点レベルラベルの有効性は、ラベルされた全てのピクセルとノーの間の健全な妥協である。 本稿では,ある点レベルのアノテーションが与えられた画像から意味的セグメンテーションを生成する新しい手法を提案する。 この方法は、改良されたローカライゼーションとクラスアクティベーションマップを生成するための畳み込みニューラルネットワーク(CNN)のトレーニングにおけるポイントアノテーションを含む。 次に,他のCNNを用いてセマンティック親和性を予測し,粗いクラスラベルを伝播し,擬似セマンティックセマンティクスラベルを作成する。 最後に,2つの推論において1つのCNNしか必要とせず,さらに性能を向上し,推論プロセスを簡素化するCNNのトレーニングを提案する。 提案手法は,PASCAL VOC 2012 データセット \cite{everingham2010pascal} 上の点教師付きセマンティックセマンティックセマンティックセマンティクスに対する技術結果の状態を達成し,より強いバウンディングボックスとリスグルインスペクションのための技術手法よりも優れていた。

Current state of the art methods for generating semantic segmentation rely heavily on a large set of images that have each pixel labeled with a class of interest label or background. Coming up with such labels, especially in domains that require an expert to do annotations, comes at a heavy cost in time and money. Several methods have shown that we can learn semantic segmentation from less expensive image-level labels, but the effectiveness of point level labels, a healthy compromise between all pixels labelled and none, still remains largely unexplored. This paper presents a novel procedure for producing semantic segmentation from images given some point level annotations. This method includes point annotations in the training of a convolutional neural network (CNN) for producing improved localization and class activation maps. Then, we use another CNN for predicting semantic affinities in order to propagate rough class labels and create pseudo semantic segmentation labels. Finally, we propose training a CNN that is normally fully supervised using our pseudo labels in place of ground truth labels, which further improves performance and simplifies the inference process by requiring just one CNN during inference rather than two. Our method achieves state of the art results for point supervised semantic segmentation on the PASCAL VOC 2012 dataset \cite{everingham2010pascal}, even outperforming state of the art methods for stronger bounding box and squiggle supervision.
翻訳日:2022-11-11 22:18:10 公開日:2020-07-10
# ポリゴン推定のための相対勾配角領域の量子化

Quantization in Relative Gradient Angle Domain For Building Polygon Estimation ( http://arxiv.org/abs/2007.05617v1 )

ライセンス: Link先を確認
Yuhao Chen and Yifan Wu and Linlin Xu and Alexander Wong(参考訳) リモートセンシングデータにおけるビルのフットプリント抽出は、都市計画や人口推定など、多くの重要な応用に役立つ。 近年,CNN(Convolutional Neural Networks)とオープンソースの高解像度衛星構築画像データセットの急速な開発が,自動ビルディング抽出のためのパフォーマンス境界をさらに推し進めている。 しかし、CNNアプローチは、しばしばノイズの多いエッジや丸いコーナーを含む不正確な建築形態を生成する。 本稿では,CNNの性能を活用し,CNNセグメンテーション出力から角状かつ簡潔なビルディングポリゴンを生成するために,ビルディングコーナーの事前知識を利用するモジュールを提案する。 本稿では、時間対空間から時間対角への物体の輪郭変換を行うRGA変換(Relative Gradient Angle Transform)について述べる。 直交性や並列性などのRGA領域におけるエッジ間の角度関係を記述するために,新しい形状記述子BORS(Boundary Orientation Relation Set)を提案する。 最後に,ホウの角度関係を利用してエッジをストレート化し,鋭角を再構成するエネルギー最小化フレームワークを開発し,その結果得られる角が多角形を形成する。 実験の結果,cnn出力を丸い近似値から,建物足跡のより明瞭な角形状に洗練できることが判明した。

Building footprint extraction in remote sensing data benefits many important applications, such as urban planning and population estimation. Recently, rapid development of Convolutional Neural Networks (CNNs) and open-sourced high resolution satellite building image datasets have pushed the performance boundary further for automated building extractions. However, CNN approaches often generate imprecise building morphologies including noisy edges and round corners. In this paper, we leverage the performance of CNNs, and propose a module that uses prior knowledge of building corners to create angular and concise building polygons from CNN segmentation outputs. We describe a new transform, Relative Gradient Angle Transform (RGA Transform) that converts object contours from time vs. space to time vs. angle. We propose a new shape descriptor, Boundary Orientation Relation Set (BORS), to describe angle relationship between edges in RGA domain, such as orthogonality and parallelism. Finally, we develop an energy minimization framework that makes use of the angle relationship in BORS to straighten edges and reconstruct sharp corners, and the resulting corners create a polygon. Experimental results demonstrate that our method refines CNN output from a rounded approximation to a more clear-cut angular shape of the building footprint.
翻訳日:2022-11-11 22:17:40 公開日:2020-07-10
# 顔認識のための損失関数探索

Loss Function Search for Face Recognition ( http://arxiv.org/abs/2007.06542v1 )

ライセンス: Link先を確認
Xiaobo Wang, Shuo Wang, Cheng Chi, Shifeng Zhang, Tao Mei(参考訳) 顔認識において、マージンに基づく設計(例えば、角、添加物、角のマージン)ソフトマックス損失関数は、識別的特徴の学習において重要な役割を果たす。 しかし、これらの手作りのヒューリスティック手法は、大きな設計空間を探索するのに多くの労力を必要とするため、準最適である。 近年,学習過程における損失関数の探索に強化学習を活用する,損失関数探索法AM-LFSが提案されている。 しかし、検索スペースは複雑で不安定であり、優位性を妨げている。 本稿では,まず,特徴の識別性を高める鍵が,実際,ソフトマックス確率を減少させる方法であることを示す。 次に,現在のマージンベースソフトマックス損失に対する統一的な定式化を設計する。 そこで我々は,新しい検索空間を定義し,最適な候補を自動的に獲得する報酬誘導探索法を開発した。 種々の顔認証ベンチマークによる実験結果から,提案手法の有効性が示された。

In face recognition, designing margin-based (e.g., angular, additive, additive angular margins) softmax loss functions plays an important role in learning discriminative features. However, these hand-crafted heuristic methods are sub-optimal because they require much effort to explore the large design space. Recently, an AutoML for loss function search method AM-LFS has been derived, which leverages reinforcement learning to search loss functions during the training process. But its search space is complex and unstable that hindering its superiority. In this paper, we first analyze that the key to enhance the feature discrimination is actually \textbf{how to reduce the softmax probability}. We then design a unified formulation for the current margin-based softmax losses. Accordingly, we define a novel search space and develop a reward-guided search method to automatically obtain the best candidate. Experimental results on a variety of face recognition benchmarks have demonstrated the effectiveness of our method over the state-of-the-art alternatives.
翻訳日:2022-11-11 22:17:02 公開日:2020-07-10
# SeqHAND:RGBシーケンスに基づく3次元ハンドポースと形状推定

SeqHAND:RGB-Sequence-Based 3D Hand Pose and Shape Estimation ( http://arxiv.org/abs/2007.05168v1 )

ライセンス: Link先を確認
John Yang, Hyung Jin Chang, Seungeui Lee, Nojun Kwak(参考訳) RGB画像に基づく3次元手ポーズ推定は長い間研究されてきた。 しかし、ほとんどの研究は独立した静的画像に基づくフレームバイフレーム推定を行っている。 本稿では,手の外観だけでなく,手の動きの時間的移動情報を学習フレームワークに組み込んで3次元手ポーズ推定性能を向上させることで,rgb手画像を用いた大規模データセットの必要性を生かそうとする。 本研究では,既存の静的ポーズデータセットのアノテーションをポーズフローに再設計することで,人間の手の動きを模倣する合成データセットを生成する手法を提案する。 生成したデータセットを用いて,新たに提案するリカレント・フレームワークを訓練し,合成手の動きの逐次画像から時間的特徴を活用し,時間的一貫性を制約した推定の時間的滑らかさを強調する。 本研究は, 合成画像から学習した時空間的特徴の保存を可能にするため, ドメインの微調整中にフレームワークのリカレント層を切り離すための新しいトレーニング戦略を提案する。 連続的に推定される手ポーズは、より堅牢な推定につながる自然な手の動きと滑らかな手の動きを生み出す。 本研究では,3次元手振り推定における時間的情報の利用により,手振り推定ベンチマーク実験において,手振り推定実験において,手振り推定の精度を向上することを示す。

3D hand pose estimation based on RGB images has been studied for a long time. Most of the studies, however, have performed frame-by-frame estimation based on independent static images. In this paper, we attempt to not only consider the appearance of a hand but incorporate the temporal movement information of a hand in motion into the learning framework for better 3D hand pose estimation performance, which leads to the necessity of a large scale dataset with sequential RGB hand images. We propose a novel method that generates a synthetic dataset that mimics natural human hand movements by re-engineering annotations of an extant static hand pose dataset into pose-flows. With the generated dataset, we train a newly proposed recurrent framework, exploiting visuo-temporal features from sequential images of synthetic hands in motion and emphasizing temporal smoothness of estimations with a temporal consistency constraint. Our novel training strategy of detaching the recurrent layer of the framework during domain finetuning from synthetic to real allows preservation of the visuo-temporal features learned from sequential synthetic hand images. Hand poses that are sequentially estimated consequently produce natural and smooth hand movements which lead to more robust estimations. We show that utilizing temporal information for 3D hand pose estimation significantly enhances general pose estimations by outperforming state-of-the-art methods in experiments on hand pose estimation benchmarks.
翻訳日:2022-11-11 22:10:18 公開日:2020-07-10
# アフィン非負の協調表現に基づくパターン分類

Affine Non-negative Collaborative Representation Based Pattern Classification ( http://arxiv.org/abs/2007.05175v1 )

ライセンス: Link先を確認
He-Feng Yin, Xiao-Jun Wu, Zhen-Hua Feng and Josef Kittler(参考訳) 過去10年間で、表現に基づく分類法は、パターン認識に大きな注目を集めてきた。 特に,最近提案された非負の表現ベース分類(NRC)法は,幅広い分類タスクにおいて有望な結果をもたらすことが報告されている。 しかし、NRCには2つの大きな欠点がある。 まず、NRCの定式化には正規化項はなく、不安定な解と誤分類をもたらす可能性がある。 第二に、NRCは、データが実際的な応用において線形な部分空間ではなく、複数のアフィン部分空間の結合にあるという事実を無視している。 本稿では,パターン分類のためのアフィン非負協調表現(ANCR)モデルを提案する。 より具体的に言うと、ancrは符号化ベクトルに正規化項を課す。 さらに、ANCRはアフィン部分空間からのデータをよりよく表現するためのアフィン制約を導入している。 いくつかのベンチマークデータセットの実験結果から,提案手法の有効性が示された。 ANCRのソースコードはhttps://github.com/yinhefeng/ANCRで公開されています。

During the past decade, representation-based classification methods have received considerable attention in pattern recognition. In particular, the recently proposed non-negative representation based classification (NRC) method has been reported to achieve promising results in a wide range of classification tasks. However, NRC has two major drawbacks. First, there is no regularization term in the formulation of NRC, which may result in unstable solution and misclassification. Second, NRC ignores the fact that data usually lies in a union of multiple affine subspaces, rather than linear subspaces in practical applications. To address the above issues, this paper presents an affine non-negative collaborative representation (ANCR) model for pattern classification. To be more specific, ANCR imposes a regularization term on the coding vector. Moreover, ANCR introduces an affine constraint to better represent the data from affine subspaces. The experimental results on several benchmarking datasets demonstrate the merits of the proposed ANCR method. The source code of our ANCR is publicly available at https://github.com/yinhefeng/ANCR.
翻訳日:2022-11-11 22:09:55 公開日:2020-07-10
# ミス・ザ・ポイント:複数のランドマーク検出に対する敵の標的攻撃

Miss the Point: Targeted Adversarial Attack on Multiple Landmark Detection ( http://arxiv.org/abs/2007.05225v1 )

ライセンス: Link先を確認
Qingsong Yao, Zecheng He, Hu Han and S. Kevin Zhou(参考訳) 深層畳み込みニューラルネットワーク(cnns)に基づくマルチランドマーク検出手法は, 精度が高く, 従来の臨床ワークフローを改善している。 しかし、cnnの悪意ある攻撃に対する脆弱性は、分類とセグメンテーションタスクを壊すために容易に利用することができる。 本論文は,複数のランドマーク検出に基づくcnnモデルが,逆摂動に対して脆弱であることを示す最初の方法である。 具体的には,マルチランドマーク検出における最先端モデルに対する適応的目標型反復fgsm(ati-fgsm)攻撃を提案する。 攻撃者はAIT-FGSMを使用して、任意に選択されたランドマークのモデル予測を正確に制御し、他の静止ランドマークをそのまま保持することができる。 ATI-FGSMによって生成された敵の例が、元のIterative FGSM攻撃と比較して、CNNベースのネットワークをより効果的かつ効率的に破壊することを示す。 我々の研究は患者の健康に深刻な脅威をもたらす。 さらに,本手法の限界を議論し,近隣のランドマークの結合効果,すなわち実験における発散の主な要因について検討することで,潜在的な防御方向を提供する。 ソースコードはhttps://github.com/qsyao/attack_landmark_detectionで入手できます。

Recent methods in multiple landmark detection based on deep convolutional neural networks (CNNs) reach high accuracy and improve traditional clinical workflow. However, the vulnerability of CNNs to adversarial-example attacks can be easily exploited to break classification and segmentation tasks. This paper is the first to study how fragile a CNN-based model on multiple landmark detection to adversarial perturbations. Specifically, we propose a novel Adaptive Targeted Iterative FGSM (ATI-FGSM) attack against the state-of-the-art models in multiple landmark detection. The attacker can use ATI-FGSM to precisely control the model predictions of arbitrarily selected landmarks, while keeping other stationary landmarks still, by adding imperceptible perturbations to the original image. A comprehensive evaluation on a public dataset for cephalometric landmark detection demonstrates that the adversarial examples generated by ATI-FGSM break the CNN-based network more effectively and efficiently, compared with the original Iterative FGSM attack. Our work reveals serious threats to patients' health. Furthermore, we discuss the limitations of our method and provide potential defense directions, by investigating the coupling effect of nearby landmarks, i.e., a major source of divergence in our experiments. Our source code is available at https://github.com/qsyao/attack_landmark_detection.
翻訳日:2022-11-11 22:09:21 公開日:2020-07-10
# ヒートマップ回帰と直接座標回帰を組み合わせた脊椎ランドマーク位置推定

Spine Landmark Localization with combining of Heatmap Regression and Direct Coordinate Regression ( http://arxiv.org/abs/2007.05355v1 )

ライセンス: Link先を確認
Wanhong Huang, Chunxi Yang, TianHong Hou(参考訳) ランドマークの局所化は、医療画像の処理や病気の識別において非常に重要な役割を果たす。 However, In medical field, it's a challenging task because of the complexity of medical images and the high requirement of accuracy for disease identification and treatment.There are two dominant ways to regress landmark coordination, one using the full convolutional network to regress the heatmaps of landmarks , which is a complex way and heatmap post-process strategies are needed, and the other way is to regress the coordination using CNN + Full Connective Network directly, which is very simple and faster training , but larger dataset and deeper model are needed to achieve higher accuracy. データ拡張とネットワークの深みにより、妥当な精度に達するが、その正確さは医療分野の要件には達しない。 さらに、より深いネットワークは、より大きな空間消費を意味する。 高精度化のために,確率法とシステム制御理論に基づいて,熱マップ回帰と直接座標回帰を併用した新しいランドマーク回帰法を考案した。

Landmark Localization plays a very important role in processing medical images as well as in disease identification. However, In medical field, it's a challenging task because of the complexity of medical images and the high requirement of accuracy for disease identification and treatment.There are two dominant ways to regress landmark coordination, one using the full convolutional network to regress the heatmaps of landmarks , which is a complex way and heatmap post-process strategies are needed, and the other way is to regress the coordination using CNN + Full Connective Network directly, which is very simple and faster training , but larger dataset and deeper model are needed to achieve higher accuracy. Though with data augmentation and deeper network it can reach a reasonable accuracy, but the accuracy still not reach the requirement of medical field. In addition, a deeper networks also means larger space consumption. To achieve a higher accuracy, we contrived a new landmark regression method which combing heatmap regression and direct coordinate regression base on probability methods and system control theory.
翻訳日:2022-11-11 22:08:26 公開日:2020-07-10
# プログレッシブポイントクラウドデコンボリューション生成ネットワーク

Progressive Point Cloud Deconvolution Generation Network ( http://arxiv.org/abs/2007.05361v1 )

ライセンス: Link先を確認
Le Hui, Rui Xu, Jin Xie, Jianjun Qian, Jian Yang(参考訳) 本論文では,同じ形状の多解像度点雲を潜在ベクトルから生成できる有効点雲生成法を提案する。 具体的には,学習に基づく双方向補間を用いた新しいプログレッシブデコンボリューションネットワークを開発する。 学習に基づく双方向補間は点雲の空間的・特徴空間において行われ、点雲の局所幾何構造情報を活用できる。 低解像度の点雲から始まり、両側の補間と最大プール操作により、デコンボリューションネットワークは、高分解能の局所的および大域的な特徴マップを徐々に出力することができる。 局所的特徴マップと大域的特徴マップの異なる分解能を結合することにより,マルチレイヤ・パーセプトロンを生成ネットワークとして活用し,マルチレゾリューション・ポイント・クラウドを生成する。 点雲の異なる解像度の形状を一定に保つために,点雲逆畳み生成ネットワークを訓練するための形状保存逆損失を提案する。 実験の結果,提案手法の有効性が示された。

In this paper, we propose an effective point cloud generation method, which can generate multi-resolution point clouds of the same shape from a latent vector. Specifically, we develop a novel progressive deconvolution network with the learning-based bilateral interpolation. The learning-based bilateral interpolation is performed in the spatial and feature spaces of point clouds so that local geometric structure information of point clouds can be exploited. Starting from the low-resolution point clouds, with the bilateral interpolation and max-pooling operations, the deconvolution network can progressively output high-resolution local and global feature maps. By concatenating different resolutions of local and global feature maps, we employ the multi-layer perceptron as the generation network to generate multi-resolution point clouds. In order to keep the shapes of different resolutions of point clouds consistent, we propose a shape-preserving adversarial loss to train the point cloud deconvolution generation network. Experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2022-11-11 22:08:00 公開日:2020-07-10
# 脳のミッドライン化に先行する構造的接続性を考慮したコンテキストアウェアリファインメントネットワーク

Context-Aware Refinement Network Incorporating Structural Connectivity Prior for Brain Midline Delineation ( http://arxiv.org/abs/2007.05393v1 )

ライセンス: Link先を確認
Shen Wang, Kongming Liang, Yiming Li, Yizhou Yu, Yizhou Wang(参考訳) 脳のミッドラインデライン化は、様々な脳病理の診断と予後において重要な役割を果たす脳のミッドラインシフトの臨床的評価を促進する。 それでも、質量効果によって大きく変形した中線や、予測中線が連結曲線ではないという形態的失敗など、脳の正中線デライン化には大きな課題がある。 これらの課題に対処するために,我々は,unet が生成する機能ピラミッド表現を洗練し統合するための,文脈認識リファインメントネットワーク (car-net) を提案する。 その結果、CAR-Netはより差別的な文脈特徴とより大きな受容領域を探索し、大きな変形中線を予測することが非常に重要である。 正中線における脳の構造的接続を維持するため,隣接座標間の不連結性を抑える新しい接続規則損失(CRL)を導入する。 さらに,脳CT画像が標準ポーズにある必要がある過去の回帰ベース手法の無視的前提に対処する。 ソース入力画像と標準ポーズ画像とを整列させるため、簡単なポーズ修正ネットワークが提供される。 cqデータセットと1つの内部データセットに関する広範囲な実験結果から,提案手法はパラメータを少なくし,4つの評価指標で3つの最先端手法を上回った。 コードはhttps://github.com/ShawnBIT/Brain-Midline-Detectionで入手できる。

Brain midline delineation can facilitate the clinical evaluation of brain midline shift, which plays an important role in the diagnosis and prognosis of various brain pathology. Nevertheless, there are still great challenges with brain midline delineation, such as the largely deformed midline caused by the mass effect and the possible morphological failure that the predicted midline is not a connected curve. To address these challenges, we propose a context-aware refinement network (CAR-Net) to refine and integrate the feature pyramid representation generated by the UNet. Consequently, the proposed CAR-Net explores more discriminative contextual features and a larger receptive field, which is of great importance to predict largely deformed midline. For keeping the structural connectivity of the brain midline, we introduce a novel connectivity regular loss (CRL) to punish the disconnectivity between adjacent coordinates. Moreover, we address the ignored prerequisite of previous regression-based methods that the brain CT image must be in the standard pose. A simple pose rectification network is presented to align the source input image to the standard pose image. Extensive experimental results on the CQ dataset and one inhouse dataset show that the proposed method requires fewer parameters and outperforms three state-of-the-art methods in terms of four evaluation metrics. Code is available at https://github.com/ShawnBIT/Brain-Midline-Detection.
翻訳日:2022-11-11 22:07:43 公開日:2020-07-10
# 病理組織像における部分点アノテーションによる深層核分割の監督

Weakly Supervised Deep Nuclei Segmentation Using Partial Points Annotation in Histopathology Images ( http://arxiv.org/abs/2007.05448v1 )

ライセンス: Link先を確認
Hui Qu, Pengxiang Wu, Qiaoying Huang, Jingru Yi, Zhennan Yan, Kang Li, Gregory M. Riedlinger, Subhajyoti De, Shaoting Zhang, Dimitris N. Metaxas(参考訳) 核セグメンテーションは病理画像解析の基本的な課題である。 通常、これらのセグメンテーションタスクは、完全な教師付きトレーニングのために正確なピクセル単位でのアノテーションを手動で生成するためにかなりの労力を必要とする。 このような退屈で手動的な作業を軽減するため、この論文では、部分点アノテーションに基づく、各画像内の核位置のごく一部をラベル付けする、弱制御されたセグメンテーションフレームワークを提案する。 フレームワークは2つの学習段階で構成される。 最初の段階では、部分的にラベル付けされた核位置から検出モデルを学習するための半教師付き戦略を設計する。 具体的には、拡張ガウスマスクは、部分的にラベル付けされたデータで初期モデルをトレーニングするために設計されている。 そこで, 背景伝播を用いた自己学習手法を提案し, 未標識領域を用いて核検出を促進し, 偽陽性を抑制する。 第2段階では、検出された核位置から弱い教師付きでセグメンテーションモデルを訓練する。 検出された点から相補的な情報を持つ2種類の粗いラベルが導出され、深層ニューラルネットワークのトレーニングに使用される。 完全に接続された条件付きランダムフィールド損失は、推論中に余分な計算複雑性を導入することなく、モデルをさらに洗練するために訓練で利用される。 提案手法は2つの核セグメンテーションデータセットに対して広範に評価される。 実験の結果,本手法は,完全教師付き手法や最先端手法に比べて,アノテーションの労力をかなり少なくして,競争力の高い性能が得られることがわかった。

Nuclei segmentation is a fundamental task in histopathology image analysis. Typically, such segmentation tasks require significant effort to manually generate accurate pixel-wise annotations for fully supervised training. To alleviate such tedious and manual effort, in this paper we propose a novel weakly supervised segmentation framework based on partial points annotation, i.e., only a small portion of nuclei locations in each image are labeled. The framework consists of two learning stages. In the first stage, we design a semi-supervised strategy to learn a detection model from partially labeled nuclei locations. Specifically, an extended Gaussian mask is designed to train an initial model with partially labeled data. Then, selftraining with background propagation is proposed to make use of the unlabeled regions to boost nuclei detection and suppress false positives. In the second stage, a segmentation model is trained from the detected nuclei locations in a weakly-supervised fashion. Two types of coarse labels with complementary information are derived from the detected points and are then utilized to train a deep neural network. The fully-connected conditional random field loss is utilized in training to further refine the model without introducing extra computational complexity during inference. The proposed method is extensively evaluated on two nuclei segmentation datasets. The experimental results demonstrate that our method can achieve competitive performance compared to the fully supervised counterpart and the state-of-the-art methods while requiring significantly less annotation effort.
翻訳日:2022-11-11 22:07:18 公開日:2020-07-10
# asdで10代の若者とのソーシャルなインタラクションを改善するための自動ジェスチャー模倣ゲーム

How An Automated Gesture Imitation Game Can Improve Social Interactions With Teenagers With ASD ( http://arxiv.org/abs/2007.05394v1 )

ライセンス: Link先を確認
Linda Nanan Vall\'ee (ESATIC), Sao Mai Nguyen (IMT Atlantique, IMT Atlantique - INFO, Lab-STICC, Flowers), Christophe Lohr (Lab-STICC, IMT Atlantique - INFO, IMT Atlantique), Ioannis Kanellos (Lab-STICC, IMT Atlantique - INFO, IMT Atlantique), Olivier Asseu (ESATIC)(参考訳) ASD患者におけるコミュニケーションと社会的能力の向上の展望から,ロボットによる模倣ゲームのパラダイムをASDティーンに拡張することを提案する。 本稿では,ASD のティーンエイジャーに適応したインタラクションシナリオを提案するとともに,人間のポーズ検出のための機械学習アルゴリズム Openpose を用いた計算アーキテクチャを提案し,そのシナリオの基本的なテスト結果を示す。 これらの結果は,(1)セッション数と(4)参加者による予備結果である。 それらは、openposeのパフォーマンスの技術的評価、および私たちのゲームシナリオが被験者から期待される反応を誘発する可能性があることを確認するための予備的なユーザー調査を含む。

With the outlook of improving communication and social abilities of people with ASD, we propose to extend the paradigm of robot-based imitation games to ASD teenagers. In this paper, we present an interaction scenario adapted to ASD teenagers, propose a computational architecture using the latest machine learning algorithm Openpose for human pose detection, and present the results of our basic testing of the scenario with human caregivers. These results are preliminary due to the number of session (1) and participants (4). They include a technical assessment of the performance of Openpose, as well as a preliminary user study to confirm our game scenario could elicit the expected response from subjects.
翻訳日:2022-11-11 22:01:10 公開日:2020-07-10
# SacreROUGE: 要約評価メトリクスの使用と開発のためのオープンソースライブラリ

SacreROUGE: An Open-Source Library for Using and Developing Summarization Evaluation Metrics ( http://arxiv.org/abs/2007.05374v1 )

ライセンス: Link先を確認
Daniel Deutsch, Dan Roth(参考訳) 要約評価メトリクスの使用と開発のためのオープンソースライブラリであるsacrerougeを提案する。 SacreROUGE removes many obstacles that researchers face when using or developing metrics: (1) The library provides Python wrappers around the official implementations of existing evaluation metrics so they share a common, easy-to-use interface; (2) it provides functionality to evaluate how well any metric implemented in the library correlates to human-annotated judgments, so no additional code needs to be written for a new evaluation metric; and (3) it includes scripts for loading datasets that contain human judgments so they can easily be used for evaluation. 本書では,コアメトリックインターフェース,要約モデルとメトリクスを評価するコマンドラインapi,公開データセットのロードと再構成を行うスクリプトなど,ライブラリの設計について説明する。 SacreROUGEの開発は進行中であり、コミュニティからの貢献も受けている。

We present SacreROUGE, an open-source library for using and developing summarization evaluation metrics. SacreROUGE removes many obstacles that researchers face when using or developing metrics: (1) The library provides Python wrappers around the official implementations of existing evaluation metrics so they share a common, easy-to-use interface; (2) it provides functionality to evaluate how well any metric implemented in the library correlates to human-annotated judgments, so no additional code needs to be written for a new evaluation metric; and (3) it includes scripts for loading datasets that contain human judgments so they can easily be used for evaluation. This work describes the design of the library, including the core Metric interface, the command-line API for evaluating summarization models and metrics, and the scripts to load and reformat publicly available datasets. The development of SacreROUGE is ongoing and open to contributions from the community.
翻訳日:2022-11-11 22:00:10 公開日:2020-07-10
# agiエージェントの実用機能向上による安全性向上

AGI Agent Safety by Iteratively Improving the Utility Function ( http://arxiv.org/abs/2007.05411v1 )

ライセンス: Link先を確認
Koen Holtman(参考訳) AGI(Artificial General Intelligence)のエージェントが構築できるかどうかはまだ不明だが、これらのエージェントの潜在的な安全システムを調べるために、すでに数学的モデルが利用できる。 本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。 エージェントをスイッチした人間は、この端末を使って、ユーティリティ関数のエージェントの目標と制約のエンコーディングで発見されたあらゆる抜け穴を閉じたり、エージェントを新しい目標に向けて誘導したり、エージェントをオフにしたりすることができる。 AGIエージェントは、上記実用機能改善プロセスを操作するための創発的なインセンティブ、例えば、人間を欺いたり、抑制したり、あるいは攻撃したりすることができる。 安全層はこの危険なインセンティブを部分的に、時には完全に抑制する。 本稿では,AGI緊急停止ボタンに関する先行研究を概説する。 mdpモデルに適用することで、層の構築に使用する数学的手法をより使いやすくすることを目指している。 安全層の2つの証明可能な特性について論じ,それを因果影響図(CID)にマッピングする作業が進行中であることを示す。 第2部では、完全な数学的証明を開発し、安全層が官僚的な盲目を生み出すことを示す。 次に、既知の機械学習システムや将来のagiレベルの学習システムの周りに安全層を包む設計であるラーニングエージェントの設計を紹介する。 生成したエージェントは、最初にスイッチオンした時点から証明可能な安全特性を満たす。 最後に、このエージェントがモデルから実際の実装にどのようにマッピングできるかを示す。 本稿では,この段階に関わる方法論的問題を概観し,その解決方法について論じる。

While it is still unclear if agents with Artificial General Intelligence (AGI) could ever be built, we can already use mathematical models to investigate potential safety systems for these agents. We present an AGI safety layer that creates a special dedicated input terminal to support the iterative improvement of an AGI agent's utility function. The humans who switched on the agent can use this terminal to close any loopholes that are discovered in the utility function's encoding of agent goals and constraints, to direct the agent towards new goals, or to force the agent to switch itself off. An AGI agent may develop the emergent incentive to manipulate the above utility function improvement process, for example by deceiving, restraining, or even attacking the humans involved. The safety layer will partially, and sometimes fully, suppress this dangerous incentive. The first part of this paper generalizes earlier work on AGI emergency stop buttons. We aim to make the mathematical methods used to construct the layer more accessible, by applying them to an MDP model. We discuss two provable properties of the safety layer, and show ongoing work in mapping it to a Causal Influence Diagram (CID). In the second part, we develop full mathematical proofs, and show that the safety layer creates a type of bureaucratic blindness. We then present the design of a learning agent, a design that wraps the safety layer around either a known machine learning system, or a potential future AGI-level learning system. The resulting agent will satisfy the provable safety properties from the moment it is first switched on. Finally, we show how this agent can be mapped from its model to a real-life implementation. We review the methodological issues involved in this step, and discuss how these are typically resolved.
翻訳日:2022-11-11 21:59:23 公開日:2020-07-10
# 半検査プロパゲータ

Half-checking propagators ( http://arxiv.org/abs/2007.05423v1 )

ライセンス: Link先を確認
Mikael Zayenz Lagerkvist and Magnus Rattfeldt(参考訳) プロパゲータは制約プログラミングの成功の中心であり、与えられた制約の解でないことが証明された値を取り除く関数を縮めている。 文献には、多くの異なる制約のために、多くの伝播アルゴリズムが含まれており、これらすべての伝播アルゴリズムに共通するのは、正しさの概念である。 本稿では, (プロパゲータによる)特定解が(対応する制約に対する)実際の解であること, および, プロパゲータが契約していることを条件として, 半チェックプロパゲータを導入する。 特に、半チェックプロパゲータは、不完全な解決プロセスをもたらす解を取り除くかもしれないが、(良い)解がより早く見つかるという利点がある。 ポートフォリオ解決プロセスの1つのコンポーネントとして半チェックプロパゲータを実行することで、全体的な完全性を得ることができる。 半チェックプロパゲータは、現在利用可能なものと比較して、伝播アルゴリズムを設計する際に使用される幅広いテクニックを開放する。 半チェックプロパゲータの形式モデルを導入し、制約プログラミングシステムにおいてそのようなプロパゲータをサポートする方法について詳述する。 半チェック伝搬アルゴリズムを作成するための3つの一般的な方向を導入し、コスト回路制約に対する新しい半チェックプロパゲータを例として用いた。 新しいプロパゲータはgecodeシステムに実装されている。

Propagators are central to the success of constraint programming, that is contracting functions removing values proven not to be in any solution of a given constraint. The literature contains numerous propagation algorithms, for many different constraints, and common to all these propagation algorithms is the notion of correctness: only values that appear in no solution to the respective constraint may be removed. In this paper half-checking propagators are introduced, for which the only requirements are that identified solutions (by the propagators) are actual solutions (to the corresponding constraints), and that the propagators are contracting. In particular, a half-checking propagator may remove solutions resulting in an incomplete solving process, but with the upside that (good) solutions may be found faster. Overall completeness can be obtained by running half-checking propagators as one component in a portfolio solving process. Half-checking propagators opens up a wider variety of techniques to be used when designing propagation algorithms, compared to what is currently available. A formal model for half-checking propagators is introduced, together with a detailed description of how to support such propagators in a constraint programming system. Three general directions for creating half-checking propagation algorithms are introduced, and used for designing new half-checking propagators for the cost-circuit constraint as examples. The new propagators are implemented in the Gecode system.
翻訳日:2022-11-11 21:58:55 公開日:2020-07-10
# FC2RN: 高精度多目的シーンテキスト検出のための完全畳み込みコーナリファインメントネットワーク

FC2RN: A Fully Convolutional Corner Refinement Network for Accurate Multi-Oriented Scene Text Detection ( http://arxiv.org/abs/2007.05113v1 )

ライセンス: Link先を確認
Xugong Qin, Yu Zhou, Dayan Wu, Yinliang Yue, Weiping Wang(参考訳) 最近のシーンテキスト検出は主に曲線テキスト検出に焦点を当てている。 しかし、実際のアプリケーションでは、曲線テキストはマルチ指向のものよりも少ない。 スケール,向き,アスペクト比のばらつきが大きい多方向テキストの正確な検出は,非常に重要である。 多方向検出法のうち、シーンテキストの幾何の直接回帰は、単純かつ強力なパイプラインを共有し、学術的および産業的なコミュニティで人気があるが、特に受容領域の制限により、長いテキストに対して不完全な検出をもたらす可能性がある。 この作業では、パイプラインをシンプルに保ちながら、これを改善することを目指している。 完全畳み込み角補正ネットワーク (FC2RN) が提案され, 1パスで初期コーナー予測と改良コーナー予測が得られた。 多目的シーンテキストに特化した新規な四角形RoI畳み込み演算により、初期予測と地上トラスとのオフセットの予測にさらに使用できる特徴マップに初期四角形予測を符号化し、洗練された信頼スコアを出力する。 MSRA-TD500, ICDAR2017-RCTW, ICDAR2015, COCO-Textを含む4つの公開データセットの実験結果は、FC2RNが最先端の手法より優れていることを示している。 アブレーション研究は,精度の高いテキストローカライズにコーナーリファインメントとスコアリングが有効であることを示す。

Recent scene text detection works mainly focus on curve text detection. However, in real applications, the curve texts are more scarce than the multi-oriented ones. Accurate detection of multi-oriented text with large variations of scales, orientations, and aspect ratios is of great significance. Among the multi-oriented detection methods, direct regression for the geometry of scene text shares a simple yet powerful pipeline and gets popular in academic and industrial communities, but it may produce imperfect detections, especially for long texts due to the limitation of the receptive field. In this work, we aim to improve this while keeping the pipeline simple. A fully convolutional corner refinement network (FC2RN) is proposed for accurate multi-oriented text detection, in which an initial corner prediction and a refined corner prediction are obtained at one pass. With a novel quadrilateral RoI convolution operation tailed for multi-oriented scene text, the initial quadrilateral prediction is encoded into the feature maps which can be further used to predict offset between the initial prediction and the ground-truth as well as output a refined confidence score. Experimental results on four public datasets including MSRA-TD500, ICDAR2017-RCTW, ICDAR2015, and COCO-Text demonstrate that FC2RN can outperform the state-of-the-art methods. The ablation study shows the effectiveness of corner refinement and scoring for accurate text localization.
翻訳日:2022-11-11 21:58:30 公開日:2020-07-10
# 病理学者定義ラベルは再現可能か? TUPAC16 mitotic figure データセットと代替ラベルの比較

Are pathologist-defined labels reproducible? Comparison of the TUPAC16 mitotic figure dataset with an alternative set of labels ( http://arxiv.org/abs/2007.05351v1 )

ライセンス: Link先を確認
Christof A. Bertram and Mitko Veta and Christian Marzahl and Nikolas Stathonikos and Andreas Maier and Robert Klopfleisch and Marc Aubreville(参考訳) 病理学者が定義するラベルは、いくつかのタスクの一貫性の既知の制限に関わらず、病理組織学的データセットの黄金の標準である。 これまでは、mitotic figuresのデータセットの一部が利用可能であり、将来性のあるディープラーニングベースのアルゴリズムの開発に使われていた。 これらのアルゴリズムのロバスト性とアルゴリズムの再現性を評価するには、いくつかの独立したデータセットでテストする必要がある。 これらのデータセットの異なるラベル付け方法の影響は現在不明である。 そこで本研究では,TUPAC16チャレンジの補助ミトーシスデータセットの画像に対して,別のラベルセットを提案する。 手動の有糸分裂図形スクリーニングに加えて,画像中に稀な有糸分裂図形が欠落するリスクを最小限に抑える新しいアルゴリズム支援ラベル法を用いた。 全ての有糸分裂病原体は2人の病理学者によって独立に評価された。 新規に公開されたラベルセットは、1,999個の有糸分裂細胞(+28.80%)を含み、さらに10,483個の有糸分裂細胞(硬い例)を含む。 標準深層学習オブジェクト検出アーキテクチャを用いて,F_1スコア(0.549)と新しい代替ラベル(0.735)とを比較した。 代替セットでトレーニングされたモデルでは、全体的な信頼性が向上し、ラベルの一貫性が向上した。 本研究の結果,病理学者が定義したラベルは,モデルの性能に顕著な違いをもたらす可能性が示唆された。 異なるラベル付け手法による独立データセット間のディープラーニングに基づくアルゴリズムの比較には注意が必要である。

Pathologist-defined labels are the gold standard for histopathological data sets, regardless of well-known limitations in consistency for some tasks. To date, some datasets on mitotic figures are available and were used for development of promising deep learning-based algorithms. In order to assess robustness of those algorithms and reproducibility of their methods it is necessary to test on several independent datasets. The influence of different labeling methods of these available datasets is currently unknown. To tackle this, we present an alternative set of labels for the images of the auxiliary mitosis dataset of the TUPAC16 challenge. Additional to manual mitotic figure screening, we used a novel, algorithm-aided labeling process, that allowed to minimize the risk of missing rare mitotic figures in the images. All potential mitotic figures were independently assessed by two pathologists. The novel, publicly available set of labels contains 1,999 mitotic figures (+28.80%) and additionally includes 10,483 labels of cells with high similarities to mitotic figures (hard examples). We found significant difference comparing F_1 scores between the original label set (0.549) and the new alternative label set (0.735) using a standard deep learning object detection architecture. The models trained on the alternative set showed higher overall confidence values, suggesting a higher overall label consistency. Findings of the present study show that pathologists-defined labels may vary significantly resulting in notable difference in the model performance. Comparison of deep learning-based algorithms between independent datasets with different labeling methods should be done with caution.
翻訳日:2022-11-11 21:52:13 公開日:2020-07-10
# VRUNet: 危険道路利用者のインテント予測のためのマルチタスク学習モデル

VRUNet: Multi-Task Learning Model for Intent Prediction of Vulnerable Road Users ( http://arxiv.org/abs/2007.05397v1 )

ライセンス: Link先を確認
Adithya Ranga, Filippo Giruzzi, Jagdish Bhanushali, Emilie Wirbel, Patrick P\'erez, Tuan-Hung Vu and Xavier Perrotton(参考訳) 先進的な認識と経路計画が、あらゆる自動運転車の中核である。 自動運転車は安全な移動計画のために、他の道路利用者の状況や意図を理解する必要がある。 都市では、歩行者、サイクリスト、スクーター等の意図を認識・予測することが重要であり、脆弱な道路利用者(VRU)に分類される。 Intentは、歩行者活動と将来の動きを定義する長期軌跡の組み合わせである。 本稿では,歩行者行動の予測,横断意図の予測,ビデオシーケンスからの今後の経路予測のためのマルチタスク学習モデルを提案する。 我々は、行動アノテーションや実世界のシナリオに富んだ、オープンソースのJAADデータセットを自然言語で駆動するモデルを訓練しました。 実験結果は、JAADデータセットにおける最先端のパフォーマンスと、2次元のポーズ特徴とシーンコンテキストを用いて、共同で学習し、行動や軌跡を予測する利点を示す。

Advanced perception and path planning are at the core for any self-driving vehicle. Autonomous vehicles need to understand the scene and intentions of other road users for safe motion planning. For urban use cases it is very important to perceive and predict the intentions of pedestrians, cyclists, scooters, etc., classified as vulnerable road users (VRU). Intent is a combination of pedestrian activities and long term trajectories defining their future motion. In this paper we propose a multi-task learning model to predict pedestrian actions, crossing intent and forecast their future path from video sequences. We have trained the model on naturalistic driving open-source JAAD dataset, which is rich in behavioral annotations and real world scenarios. Experimental results show state-of-the-art performance on JAAD dataset and how we can benefit from jointly learning and predicting actions and trajectories using 2D human pose features and scene context.
翻訳日:2022-11-11 21:51:46 公開日:2020-07-10
# アクショントリプレットを用いた内視鏡映像における機器間相互作用の認識

Recognition of Instrument-Tissue Interactions in Endoscopic Videos via Action Triplets ( http://arxiv.org/abs/2007.05405v1 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Cristians Gonzalez, Tong Yu, Pietro Mascagni, Didier Mutter, Jacques Marescaux and Nicolas Padoy(参考訳) 手術活動の認識は手術室の文脈認識意思決定支援に欠かせない要素である。 本研究では,ツール活動を表すアクショントリプレット<instrument, verb, target>としてモデル化された,きめ細かい活動の認識に取り組む。 そこで本稿では,公開データセットであるcholec80の40本のビデオからなる新しい腹腔鏡用データセットcholect40を紹介し,全フレームを128個のトリプルトクラスでアノテートした。 さらに,これらの三重項を映像データから直接認識する手法を提案する。 これはClass Activation Guide (CAG)と呼ばれるモジュールに依存しており、楽器のアクティベーションマップを使用して動詞とターゲットの認識をガイドしている。 同一フレームにおける複数の三重項の認識をモデル化するために,三重項成分間の関係を捉える訓練可能な3次元相互作用空間を提案する。 最後に,これらのコントリビューションの意義について,いくつかのアブレーション研究およびColecT40のベースラインとの比較を行った。

Recognition of surgical activity is an essential component to develop context-aware decision support for the operating room. In this work, we tackle the recognition of fine-grained activities, modeled as action triplets <instrument, verb, target> representing the tool activity. To this end, we introduce a new laparoscopic dataset, CholecT40, consisting of 40 videos from the public dataset Cholec80 in which all frames have been annotated using 128 triplet classes. Furthermore, we present an approach to recognize these triplets directly from the video data. It relies on a module called Class Activation Guide (CAG), which uses the instrument activation maps to guide the verb and target recognition. To model the recognition of multiple triplets in the same frame, we also propose a trainable 3D Interaction Space, which captures the associations between the triplet components. Finally, we demonstrate the significance of these contributions via several ablation studies and comparisons to baselines on CholecT40.
翻訳日:2022-11-11 21:51:32 公開日:2020-07-10
# メラノーマを用いた皮膚病変分類におけるビッグデータCNNモデルの評価

Evaluation of Big Data based CNN Models in Classification of Skin Lesions with Melanoma ( http://arxiv.org/abs/2007.05446v1 )

ライセンス: Link先を確認
Prasitthichai Naronglerdrit, Iosif Mporas(参考訳) 本章では畳み込みニューラルネットワークを用いた色素性皮膚病変の診断方法について述べる。 このアーキテクチャは畳み込みニューラルネットワークに基づいており、新しいcnnモデルと既存のcnnモデルの再訓練された修正を用いて評価されている。 実験の結果,皮膚のレションタイプを特定するために,大データセットで事前トレーニングしたCNNモデルは,皮膚内視鏡画像から明示的にトレーニングした畳み込みニューラルネットワークモデルと比較して,より正確な結果が得られることがわかった。 最良の性能は、93.89%の精度でresnet-50畳み込みニューラルネットワークの修正版を再訓練することで達成された。 また, 悪性黒色腫, 基底細胞癌の分類精度は79.13%, 82.88%であった。

This chapter presents a methodology for diagnosis of pigmented skin lesions using convolutional neural networks. The architecture is based on convolu-tional neural networks and it is evaluated using new CNN models as well as re-trained modification of pre-existing CNN models were used. The experi-mental results showed that CNN models pre-trained on big datasets for gen-eral purpose image classification when re-trained in order to identify skin le-sion types offer more accurate results when compared to convolutional neural network models trained explicitly from the dermatoscopic images. The best performance was achieved by re-training a modified version of ResNet-50 convolutional neural network with accuracy equal to 93.89%. Analysis on skin lesion pathology type was also performed with classification accuracy for melanoma and basal cell carcinoma being equal to 79.13% and 82.88%, respectively.
翻訳日:2022-11-11 21:51:15 公開日:2020-07-10
# ランダム欠落入力データに対するマルチドメイン画像補完

Multi-Domain Image Completion for Random Missing Input Data ( http://arxiv.org/abs/2007.05534v1 )

ライセンス: Link先を確認
Liyue Shen, Wentao Zhu, Xiaosong Wang, Lei Xing, John M. Pauly, Baris Turkbey, Stephanie Anne Harmon, Thomas Hogue Sanford, Sherif Mehralivand, Peter Choyke, Bradford Wood, Daguang Xu(参考訳) マルチドメインデータは、例えば、マルチパラメトリックMRI(Multi-parametric magnetic resonance imaging)による脳腫瘍のセグメンテーションなど、様々なモードからの補完情報を活用する視覚応用において広く活用されている。 しかし、データの破損や異なる画像プロトコルにより、各領域の画像の入手は複数のデータソースによって異なる可能性があるため、様々な入力データを持つ普遍的なモデルを構築することは困難である。 この問題に対処するため、実アプリケーションでランダムに欠落したドメイン(s)データを補完する一般的な手法を提案する。 具体的には,GAN(Generative Adversarial Network)を用いた新しい多領域画像補完手法を開発し,複数の領域にまたがる共有スケルトンエンコーディングと肉のエンコーディングの分離を行う。 さらに,共有コンテンツエンコーダによる画像補完とセグメンテーションからなる統合フレームワークを導入することにより,マルチドメイン画像補完における学習表現が,セグメンテーションなどの高レベルなタスクに活用できることを示す。 実験では,脳腫瘍のセグメンテーション,前立腺のセグメンテーション,表情画像の補完の3つのデータセットに対して,一貫した性能向上を示す。

Multi-domain data are widely leveraged in vision applications taking advantage of complementary information from different modalities, e.g., brain tumor segmentation from multi-parametric magnetic resonance imaging (MRI). However, due to possible data corruption and different imaging protocols, the availability of images for each domain could vary amongst multiple data sources in practice, which makes it challenging to build a universal model with a varied set of input data. To tackle this problem, we propose a general approach to complete the random missing domain(s) data in real applications. Specifically, we develop a novel multi-domain image completion method that utilizes a generative adversarial network (GAN) with a representational disentanglement scheme to extract shared skeleton encoding and separate flesh encoding across multiple domains. We further illustrate that the learned representation in multi-domain image completion could be leveraged for high-level tasks, e.g., segmentation, by introducing a unified framework consisting of image completion and segmentation with a shared content encoder. The experiments demonstrate consistent performance improvement on three datasets for brain tumor segmentation, prostate segmentation, and facial expression image completion respectively.
翻訳日:2022-11-11 21:50:45 公開日:2020-07-10
# 機械学習とディープラーニングにおけるウェーブレット変換によるクラウド検出

Cloud Detection through Wavelet Transforms in Machine Learning and Deep Learning ( http://arxiv.org/abs/2007.13678v1 )

ライセンス: Link先を確認
Philippe Reiter(参考訳) クラウド検出は、リモートセンシングデータを用いた画像認識とオブジェクト検出の専用アプリケーションである。 このタスクは、可視、赤外線、多スペクトルの周波数で得られた画像を分析することを含む、多くの課題を提示している。 さらに、このタスクに適用された機械学習とディープラーニング(MLDL)アルゴリズムは、通常は低消費電力デバイスにデプロイされ、リアルタイムに動作するよう要求されるため、計算効率が要求される。 本稿では、Wavelet Transform(WT)理論を、より広く使われている画像および信号処理変換と比較し、強力な信号圧縮器およびMLDL分類器の機能抽出器としてのWTの利用について検討する。

Cloud detection is a specialized application of image recognition and object detection using remotely sensed data. The task presents a number of challenges, including analyzing images obtained in visible, infrared and multi-spectral frequencies, usually without ground truth data for comparison. Moreover, machine learning and deep learning (MLDL) algorithms applied to this task are required to be computationally efficient, as they are typically deployed in low-power devices and called to operate in real-time. This paper explains Wavelet Transform (WT) theory, comparing it to more widely used image and signal processing transforms, and explores the use of WT as a powerful signal compressor and feature extractor for MLDL classifiers.
翻訳日:2022-11-11 21:49:34 公開日:2020-07-10
# 広帯域ニューラルネットワークにおけるモンテカルロドロップアウトの特性

Characteristics of Monte Carlo Dropout in Wide Neural Networks ( http://arxiv.org/abs/2007.05434v1 )

ライセンス: Link先を確認
Joachim Sicking, Maram Akila, Tim Wirtz, Sebastian Houben, Asja Fischer(参考訳) Monte Carlo(MC)ドロップアウトは、ニューラルネットワーク(NN)における不確実性推定のための最先端のアプローチの1つである。 ほぼベイズ推論を行うと解釈されている。 ランダム重みを持つ広層および深層ニューラルネットワークによるガウス過程の近似に関する以前の研究に基づいて、ドロップアウト下での広範囲に訓練されていないnnの制限分布をより厳密に研究し、それらは重みとバイアスの固定集合に対するガウス過程に収束することが証明された。 この性質は、(フルバッチ)勾配勾配で訓練された無限に広いフィードフォワードネットワークにも適用できるという議論をスケッチする。 この理論は、有限幅nnの事前活性化に対する相関と非ガウシアン挙動を見いだす経験的解析によって対照的である。 したがって、(強く)相関したプレアクティベーションが、強く相関した重みを持つNNにおいて非ガウス的行動を引き起こすかを検討する。

Monte Carlo (MC) dropout is one of the state-of-the-art approaches for uncertainty estimation in neural networks (NNs). It has been interpreted as approximately performing Bayesian inference. Based on previous work on the approximation of Gaussian processes by wide and deep neural networks with random weights, we study the limiting distribution of wide untrained NNs under dropout more rigorously and prove that they as well converge to Gaussian processes for fixed sets of weights and biases. We sketch an argument that this property might also hold for infinitely wide feed-forward networks that are trained with (full-batch) gradient descent. The theory is contrasted by an empirical analysis in which we find correlations and non-Gaussian behaviour for the pre-activations of finite width NNs. We therefore investigate how (strongly) correlated pre-activations can induce non-Gaussian behavior in NNs with strongly correlated weights.
翻訳日:2022-11-11 21:44:06 公開日:2020-07-10
# プライベートシンセティックデータリリースのための新しいOracle効率の良いアルゴリズム

New Oracle-Efficient Algorithms for Private Synthetic Data Release ( http://arxiv.org/abs/2007.05453v1 )

ライセンス: Link先を確認
Giuseppe Vietri, Grace Tian, Mark Bun, Thomas Steinke, Zhiwei Steven Wu(参考訳) 本稿では,統計クエリの膨大なコレクションに対する回答をほぼ保存する,センシティブなデータセットのサニタイズ版である,差分プライベートな合成データを構築するための3つの新しいアルゴリズムを提案する。 3つのアルゴリズムはすべて、最適化オラクルへのアクセスが与えられたときに計算効率が良いという意味で、 \emph{oracle- efficient} である。 このようなoracleは、高度な整数プログラムソルバのような既存の(非プライベートな)最適化ツールを使って実装できる。 合成データの精度はオラクルの最適化性能に左右されるが、アルゴリズムは最悪の場合においても差分プライバシーを満たす。 3つのアルゴリズムすべてに対して、正確性とプライバシの両方に関する理論的保証を提供します。 経験的評価により,提案手法がデータ次元とクエリ数の両方において良好に拡張できることを実証した。 最先端の手法であるHigh-dimensional Matrix Mechanism \cite{McKennaMHM18}と比較して、我々のアルゴリズムは大きなワークロードと高いプライバシ体制(プライバシー損失の低い$\varepsilon$に対応する)においてより良い精度を提供する。

We present three new algorithms for constructing differentially private synthetic data---a sanitized version of a sensitive dataset that approximately preserves the answers to a large collection of statistical queries. All three algorithms are \emph{oracle-efficient} in the sense that they are computationally efficient when given access to an optimization oracle. Such an oracle can be implemented using many existing (non-private) optimization tools such as sophisticated integer program solvers. While the accuracy of the synthetic data is contingent on the oracle's optimization performance, the algorithms satisfy differential privacy even in the worst case. For all three algorithms, we provide theoretical guarantees for both accuracy and privacy. Through empirical evaluation, we demonstrate that our methods scale well with both the dimensionality of the data and the number of queries. Compared to the state-of-the-art method High-Dimensional Matrix Mechanism \cite{McKennaMHM18}, our algorithms provide better accuracy in the large workload and high privacy regime (corresponding to low privacy loss $\varepsilon$).
翻訳日:2022-11-11 21:43:48 公開日:2020-07-10
# 海洋景観からのパタゴニア棚の違法漁獲予測

Predicting Illegal Fishing on the Patagonia Shelf from Oceanographic Seascapes ( http://arxiv.org/abs/2007.05470v1 )

ライセンス: Link先を確認
A. John Woodill, Maria Kavanaugh, Michael Harte, and James R. Watson(参考訳) 世界で最も重要な漁業の多くは違法漁業の増加を経験しており、魚の在庫を持続的に保存し管理する努力を弱めている。 違法・未報告・未規制の漁(iuu)を終わらせるための大きな課題は、船が違法に釣りをしているか、海上で違法な釣りが起こる可能性が高いかを識別する能力を向上させることです。 しかし、海洋の監視は費用がかかり、時間がかかり、海上当局がパトロールすることを難しくしている。 この問題に対処するため,我々は船舶追跡データと機械学習を用いて,世界有数の漁業生産地域であるパタゴニア棚上での違法漁獲を予測している。 具体的には、この地域で一貫して違法に漁獲されている中国の漁船に焦点を当てる。 船舶の位置データを海洋地形(海洋変数に基づく海洋地域のクラス)と組み合わせ、他のリモートセンシングされた海洋変数と組み合わせて、さまざまなレベルの複雑さの機械学習モデルをトレーニングします。 これらのモデルは、使用する年や予測変数によって、中国の船が69-96%の信頼性で違法に活動しているかどうかを予測できる。 これらの結果は、法医学的に反応するのではなく、違法行為を先延ばしするための有望なステップを提供する。

Many of the world's most important fisheries are experiencing increases in illegal fishing, undermining efforts to sustainably conserve and manage fish stocks. A major challenge to ending illegal, unreported, and unregulated (IUU) fishing is improving our ability to identify whether a vessel is fishing illegally and where illegal fishing is likely to occur in the ocean. However, monitoring the oceans is costly, time-consuming, and logistically challenging for maritime authorities to patrol. To address this problem, we use vessel tracking data and machine learning to predict illegal fishing on the Patagonian Shelf, one of the world's most productive regions for fisheries. Specifically, we focus on Chinese fishing vessels, which have consistently fished illegally in this region. We combine vessel location data with oceanographic seascapes -- classes of oceanic areas based on oceanographic variables -- as well as other remotely sensed oceanographic variables to train a series of machine learning models of varying levels of complexity. These models are able to predict whether a Chinese vessel is operating illegally with 69-96% confidence, depending on the year and predictor variables used. These results offer a promising step towards preempting illegal activities, rather than reacting to them forensically.
翻訳日:2022-11-11 21:43:28 公開日:2020-07-10
# コンケーブネットワークゼロサムゲームにおける勾配法の指数収束

Exponential Convergence of Gradient Methods in Concave Network Zero-sum Games ( http://arxiv.org/abs/2007.05477v1 )

ライセンス: Link先を確認
Amit Kadan and Hu Fu(参考訳) 本研究では,2人プレイのゼロサムゲームのマルチプレイヤー一般化であるconcave network zero-sum games (nzsgs) におけるnash均衡の計算について検討した。 この一般化では,凸凹型2プレーヤゼロサムゲームの様々なゲーム理論特性が保存されている。 次に、2つのプレイヤーゼロサムゲームで得られた最後の反復収束結果を一般化する。 選手の報酬が線形で、強い凹凸とリプシッツであり、強い凹凸と滑らかである3つの設定で、プレイヤーが戦略を更新する際の収束率と、その変種である楽観的な勾配上昇を分析し、最後に反復的な収束を示す。 これらの理論的知見を裏付ける実験結果を提供する。

Motivated by Generative Adversarial Networks, we study the computation of Nash equilibrium in concave network zero-sum games (NZSGs), a multiplayer generalization of two-player zero-sum games first proposed with linear payoffs. Extending previous results, we show that various game theoretic properties of convex-concave two-player zero-sum games are preserved in this generalization. We then generalize last iterate convergence results obtained previously in two-player zero-sum games. We analyze convergence rates when players update their strategies using Gradient Ascent, and its variant, Optimistic Gradient Ascent, showing last iterate convergence in three settings -- when the payoffs of players are linear, strongly concave and Lipschitz, and strongly concave and smooth. We provide experimental results that support these theoretical findings.
翻訳日:2022-11-11 21:43:06 公開日:2020-07-10
# 微分的にプライベートなクロスサイロフェデレーション学習

Differentially private cross-silo federated learning ( http://arxiv.org/abs/2007.05553v1 )

ライセンス: Link先を確認
Mikko A. Heikkil\"a, Antti Koskela, Kana Shimizu, Samuel Kaski, Antti Honkela(参考訳) 厳密なプライバシは、分散機械学習において最重要事項である。 連合学習(federated learning)は、学習に必要なものだけを伝えるという主なアイデアで、分散学習の一般的なアプローチとして導入され、学習を強化し、セキュリティを向上させる。 しかし、フェデレーション学習自体が、データ対象に対するプライバシを保証しない。 最悪の場合、どれだけのプライバシーが侵害されているかを定量化し、制御するために、差分プライバシーを使用することができる。 本稿では,いわゆるクロスサイロフェデレーション学習環境において,付加的に準同型なセキュアサム化プロトコルと微分プライバシーを組み合わせる。 目標は、個々のデータ対象者の厳格なプライバシーを確保しながら、ニューラルネットワークのような複雑なモデルを学ぶことだ。 提案手法では,非分散設定に匹敵する予測精度が得られ,数百万のパラメータを持つ学習モデルを妥当な時間で実現できることを示す。 サブサンプリングによるプライバシの増幅を必要とする厳格なプライバシー保証の下での学習を可能にするため,不明瞭な分散サブサンプリングのための一般的なアルゴリズムを提案する。 しかし、悪意あるパーティが存在する場合、分散Poissonサブサンプリングを使用するシンプルなアプローチは、より優れたプライバシを提供します。 最後に、ランダムなプロジェクションを活用することで、より大規模なモデルへのアプローチをさらにスケールアップできるが、性能損失はわずかである。

Strict privacy is of paramount importance in distributed machine learning. Federated learning, with the main idea of communicating only what is needed for learning, has been recently introduced as a general approach for distributed learning to enhance learning and improve security. However, federated learning by itself does not guarantee any privacy for data subjects. To quantify and control how much privacy is compromised in the worst-case, we can use differential privacy. In this paper we combine additively homomorphic secure summation protocols with differential privacy in the so-called cross-silo federated learning setting. The goal is to learn complex models like neural networks while guaranteeing strict privacy for the individual data subjects. We demonstrate that our proposed solutions give prediction accuracy that is comparable to the non-distributed setting, and are fast enough to enable learning models with millions of parameters in a reasonable time. To enable learning under strict privacy guarantees that need privacy amplification by subsampling, we present a general algorithm for oblivious distributed subsampling. However, we also argue that when malicious parties are present, a simple approach using distributed Poisson subsampling gives better privacy. Finally, we show that by leveraging random projections we can further scale-up our approach to larger models while suffering only a modest performance loss.
翻訳日:2022-11-11 21:42:43 公開日:2020-07-10
# サブセット・オブ・シグナーズモデルにおける絡み合った単一サンプルガウスの学習

Learning Entangled Single-Sample Gaussians in the Subset-of-Signals Model ( http://arxiv.org/abs/2007.05557v1 )

ライセンス: Link先を確認
Yingyu Liang and Hui Yuan(参考訳) 絡み合った単一サンプル分布の設定では、各分布から1つのサンプルが与えられたとき、$n$分布の族によって共有される共通のパラメータを推定することが目的である。 本研究は,共通平均の異なる未知の分散を持つ絡み合った単一サンプルガウスの推定について述べる。 我々は、$m$分散の未知の部分集合が 1 で有界であるが、他の分散に対する仮定がないような信号の部分集合モデルを提案する。 このモデルでは、切断されたサンプルを反復的に平均化することで、単純で自然な手法を解析し、m=\omega(\sqrt{n\ln n})$ で高い確率でエラー $o \left(\frac{\sqrt{n\ln n}}{m}\right) を達成し、この範囲の$m$ に対して既存の境界と一致することを示す。 我々はさらに、エラーが$\omega\left(\left(\frac{n}{m^4}\right)^{1/2}\right)$ m$が$\omega(\ln n)$と$o(n^{1/4})$の間であるとき、エラーが$\omega\left(\left(\frac{n}{m^4}\right)^{1/6}\right)$$ m$が$\omega(n^{1/4})$と$o(n^{1 - \epsilon})$であるときに、$m$が$\omega(n^{1/4})$と$o(n^{1 - \epsilon})$であることを示す。

In the setting of entangled single-sample distributions, the goal is to estimate some common parameter shared by a family of $n$ distributions, given one single sample from each distribution. This paper studies mean estimation for entangled single-sample Gaussians that have a common mean but different unknown variances. We propose the subset-of-signals model where an unknown subset of $m$ variances are bounded by 1 while there are no assumptions on the other variances. In this model, we analyze a simple and natural method based on iteratively averaging the truncated samples, and show that the method achieves error $O \left(\frac{\sqrt{n\ln n}}{m}\right)$ with high probability when $m=\Omega(\sqrt{n\ln n})$, matching existing bounds for this range of $m$. We further prove lower bounds, showing that the error is $\Omega\left(\left(\frac{n}{m^4}\right)^{1/2}\right)$ when $m$ is between $\Omega(\ln n)$ and $O(n^{1/4})$, and the error is $\Omega\left(\left(\frac{n}{m^4}\right)^{1/6}\right)$ when $m$ is between $\Omega(n^{1/4})$ and $O(n^{1 - \epsilon})$ for an arbitrarily small $\epsilon>0$, improving existing lower bounds and extending to a wider range of $m$.
翻訳日:2022-11-11 21:42:06 公開日:2020-07-10
# 自己回帰範囲密度推定のための可変スキッピング

Variable Skipping for Autoregressive Range Density Estimation ( http://arxiv.org/abs/2007.05572v1 )

ライセンス: Link先を確認
Eric Liang, Zongheng Yang, Ion Stoica, Pieter Abbeel, Yan Duan, Xi Chen(参考訳) 深い自己回帰モデル 個々のデータ点の点確率推定を計算する。 しかし、多くの応用(すなわちデータベース濃度推定)では、現在の神経密度推定文献で未検討の能力である範囲密度の推定が必要となる。 これらのアプリケーションでは、高次元データに対する高速かつ高精度な範囲密度推定が、ユーザ認識性能に直接影響する。 本稿では,深部自己回帰モデルにおける距離密度推定を高速化する可変スキップ法について検討する。 この手法は範囲密度クエリのスパース構造を利用して、近似推論中に不要な変数をサンプリングすることを避ける。 変数スキップは,高質エラーメトリクスをターゲットとした10~100$\times$効率向上を実現するとともに,テキストパターンマッチングなどの複雑なアプリケーションを実現するとともに,通常の最大確率目標を変更することなく,単純なデータ拡張手順によって実現可能であることを示す。

Deep autoregressive models compute point likelihood estimates of individual data points. However, many applications (i.e., database cardinality estimation) require estimating range densities, a capability that is under-explored by current neural density estimation literature. In these applications, fast and accurate range density estimates over high-dimensional data directly impact user-perceived performance. In this paper, we explore a technique, variable skipping, for accelerating range density estimation over deep autoregressive models. This technique exploits the sparse structure of range density queries to avoid sampling unnecessary variables during approximate inference. We show that variable skipping provides 10-100$\times$ efficiency improvements when targeting challenging high-quantile error metrics, enables complex applications such as text pattern matching, and can be realized via a simple data augmentation procedure without changing the usual maximum likelihood objective.
翻訳日:2022-11-11 21:41:05 公開日:2020-07-10
# 経時的基底画像を用いたAMD進行予測のための新しい予測モデルの開発と検証

Development and Validation of a Novel Prognostic Model for Predicting AMD Progression Using Longitudinal Fundus Images ( http://arxiv.org/abs/2007.05120v1 )

ライセンス: Link先を確認
Joshua Bridge, Simon P. Harding, Yalin Zheng(参考訳) 予後モデルは、疾患または状態の今後の経過を予測することを目的としており、パーソナライズされた医療の重要な構成要素である。 統計モデルでは, 病状進行の時間的側面を捉えるために経時的データを用いるが, これらのモデルには事前の特徴抽出が必要である。 ディープラーニングは、明示的な特徴抽出を避けるため、特徴が未知であるか、正確に定量化できない画像のモデルを開発することができる。 画像データを用いたディープラーニングを用いた従来の予後モデルでは、トレーニング中にアノテーションを必要とするか、1つの時点しか利用できない。 本研究では,不均一な時間間隔の時系列画像データを用いて,疾患の進行を予測するための新しい深層学習手法を提案する。 本手法は, 患者の過去の画像から, 患者が次の段階に進行するかどうかを予測することを目的としている。 提案手法はinceptionv3を用いて各画像の特徴ベクトルを生成する。 不均一な間隔を考慮し,新しい間隔スケーリングを提案する。 最後に、再発性ニューラルネットワークを使用して疾患を診断する。 本研究では,年齢関連眼疾患研究から得られた年齢関連黄斑変性症(amd)4903眼の色眼底画像の経時的データセットを用いて,amdの進行を予測した。 本手法では, 0.878の感度, 0.887の特異性, 0.950の受信機動作特性下での面積を測定できる。 我々は,提案手法を従来の手法と比較し,優れた性能を示す。 クラスアクティベーションマップは、ネットワークが最終決定に達する方法を示す。

Prognostic models aim to predict the future course of a disease or condition and are a vital component of personalized medicine. Statistical models make use of longitudinal data to capture the temporal aspect of disease progression; however, these models require prior feature extraction. Deep learning avoids explicit feature extraction, meaning we can develop models for images where features are either unknown or impossible to quantify accurately. Previous prognostic models using deep learning with imaging data require annotation during training or only utilize a single time point. We propose a novel deep learning method to predict the progression of diseases using longitudinal imaging data with uneven time intervals, which requires no prior feature extraction. Given previous images from a patient, our method aims to predict whether the patient will progress onto the next stage of the disease. The proposed method uses InceptionV3 to produce feature vectors for each image. In order to account for uneven intervals, a novel interval scaling is proposed. Finally, a Recurrent Neural Network is used to prognosticate the disease. We demonstrate our method on a longitudinal dataset of color fundus images from 4903 eyes with age-related macular degeneration (AMD), taken from the Age-Related Eye Disease Study, to predict progression to late AMD. Our method attains a testing sensitivity of 0.878, a specificity of 0.887, and an area under the receiver operating characteristic of 0.950. We compare our method to previous methods, displaying superior performance in our model. Class activation maps display how the network reaches the final decision.
翻訳日:2022-11-11 21:34:09 公開日:2020-07-10
# 差分的単純線形回帰

Differentially Private Simple Linear Regression ( http://arxiv.org/abs/2007.05157v1 )

ライセンス: Link先を確認
Daniel Alabi, Audra McMillan, Jayshree Sarathy, Adam Smith and Salil Vadhan(参考訳) 経済学と社会科学の研究では、機密性の高い個人情報のデータセットを細かい粒度で分析する必要があることが多い。 残念ながら、このようなきめ細かい分析は、敏感な個人情報を容易に明らかにすることができる。 差分プライバシーを満たす単純な線形回帰のアルゴリズムについて検討し、アルゴリズムの出力が個々の入力データ記録についてほとんど明らかにしないことを保証する制約を、データセットについて任意のサイド情報を持つ攻撃者にも与える。 我々は、数十から数百のデータポイントを持つ小さなデータセットに対する単純な線形回帰のための微分プライベートアルゴリズムの設計について検討する。 経済学研究における小領域分析への特定の応用に焦点を当て,我々が設定に適応するアルゴリズムのスペクトルの性能について検討する。 我々は、ロバストな推定器(特にTheil-Sen推定器)に基づくアルゴリズムが最小のデータセットで良好に機能することを示す実験を通じて、それらのパフォーマンスに影響を与える重要な要素を同定する。

Economics and social science research often require analyzing datasets of sensitive personal information at fine granularity, with models fit to small subsets of the data. Unfortunately, such fine-grained analysis can easily reveal sensitive individual information. We study algorithms for simple linear regression that satisfy differential privacy, a constraint which guarantees that an algorithm's output reveals little about any individual input data record, even to an attacker with arbitrary side information about the dataset. We consider the design of differentially private algorithms for simple linear regression for small datasets, with tens to hundreds of datapoints, which is a particularly challenging regime for differential privacy. Focusing on a particular application to small-area analysis in economics research, we study the performance of a spectrum of algorithms we adapt to the setting. We identify key factors that affect their performance, showing through a range of experiments that algorithms based on robust estimators (in particular, the Theil-Sen estimator) perform well on the smallest datasets, but that other more standard algorithms do better as the dataset size increases.
翻訳日:2022-11-11 21:33:45 公開日:2020-07-10
# 因果推論に基づく消費者ローンの知的信用限度管理

Intelligent Credit Limit Management in Consumer Loans Based on Causal Inference ( http://arxiv.org/abs/2007.05188v1 )

ライセンス: Link先を確認
Hang Miao, Kui Zhao, Zhun Wang, Linbo Jiang, Quanhui Jia, Yanming Fang, Quan Yu(参考訳) 現在、消費者ローンは経済成長を促進する上で重要な役割を果たしており、クレジットカードは最も人気のある消費者ローンである。 クレジットカードの最も重要な部分の1つは、クレジットリミット管理である。 伝統的に、クレジット制限は経験豊富な専門家によって開発された限定的なヒューリスティック戦略に基づいて調整される。 本稿では,信用限度をインテリジェントに管理するためのデータ駆動アプローチを提案する。 まず,モデル構築のためのデータを取得するための条件付き独立テストを行う。 これらのテストデータに基づいて、複数の制御変数(すなわち特徴)によって描写される異なる顧客に対するクレジット制限(すなわち、治療)の増加による異種処理効果を測定するための応答モデルを構築します。 減少する限界効果を組み込むために、慎重に選択されたログ変換を処理変数に導入する。 さらに、gbdtエンコーディングによる特徴に非線形変換を適用することで、モデルの能力をさらに強化することができる。 最後に,比較手法の性能を適切に測定する指標を提案する。 実験の結果,提案手法の有効性が示された。

Nowadays consumer loan plays an important role in promoting the economic growth, and credit cards are the most popular consumer loan. One of the most essential parts in credit cards is the credit limit management. Traditionally, credit limits are adjusted based on limited heuristic strategies, which are developed by experienced professionals. In this paper, we present a data-driven approach to manage the credit limit intelligently. Firstly, a conditional independence testing is conducted to acquire the data for building models. Based on these testing data, a response model is then built to measure the heterogeneous treatment effect of increasing credit limits (i.e. treatments) for different customers, who are depicted by several control variables (i.e. features). In order to incorporate the diminishing marginal effect, a carefully selected log transformation is introduced to the treatment variable. Moreover, the model's capability can be further enhanced by applying a non-linear transformation on features via GBDT encoding. Finally, a well-designed metric is proposed to properly measure the performances of compared methods. The experimental results demonstrate the effectiveness of the proposed approach.
翻訳日:2022-11-11 21:33:03 公開日:2020-07-10
# 時間重み付き対数損失を伴う不安定力学系の学習

Learning Unstable Dynamical Systems with Time-Weighted Logarithmic Loss ( http://arxiv.org/abs/2007.05189v1 )

ライセンス: Link先を確認
Kamil Nar, Yuan Xue, Andrew M. Dai(参考訳) 線形力学モデルのパラメータをトレーニングする場合、二乗誤差損失がトレーニング損失関数として使用される場合、勾配降下アルゴリズムは収束しない可能性が高い。 パラメータ空間を小さなサブセットに制限し、このサブセット内で勾配降下アルゴリズムを実行することで、安定した力学系を学習することができるが、この戦略は不安定なシステムでは機能しない。 本研究では,勾配降下アルゴリズムのダイナミクスを考察し,不安定なシステムを学習することの難しさを指摘する。 学習対象とするシステムから異なるタイミングで観測された観測は,勾配降下アルゴリズムの力学に大きく異なる影響を及ぼすことを示す。 この不均衡を解消するための時間重対数損失関数を導入し、不安定なシステムを学ぶ上での有効性を示す。

When training the parameters of a linear dynamical model, the gradient descent algorithm is likely to fail to converge if the squared-error loss is used as the training loss function. Restricting the parameter space to a smaller subset and running the gradient descent algorithm within this subset can allow learning stable dynamical systems, but this strategy does not work for unstable systems. In this work, we look into the dynamics of the gradient descent algorithm and pinpoint what causes the difficulty of learning unstable systems. We show that observations taken at different times from the system to be learned influence the dynamics of the gradient descent algorithm in substantially different degrees. We introduce a time-weighted logarithmic loss function to fix this imbalance and demonstrate its effectiveness in learning unstable systems.
翻訳日:2022-11-11 21:32:49 公開日:2020-07-10
# ブラックボックス差分法による逆入力の生成

Generating Adversarial Inputs Using A Black-box Differential Technique ( http://arxiv.org/abs/2007.05315v1 )

ライセンス: Link先を確認
Jo\~ao Batista Pereira Matos Ju\'unior, Lucas Carvalho Cordeiro, Marcelo d'Amorim, Xiaowei Huang(参考訳) ニューラルネットワーク(NN)は敵の攻撃に弱いことが知られている。 悪意のあるエージェントは、2つの入力をnnによって分類するように別の入力を摂動させることでこれらの攻撃を開始する。 本稿では, NNモデルの弱点を示すだけでなく, 2つのNNモデルの異なる振る舞いを示す特別クラスについて考察する。 差分誘導敵例(DIAE)と呼ぶ。 具体的には、逆入力生成のための最初のブラックボックス差分法であるDAEGENを提案する。 DAEGENは、同じ分類問題の2つのNNモデルとして入力され、逆の例を出力する。 得られた逆の例はDIAEであり、2つのNNモデル間の入力空間のポイントワイド差を表す。 アルゴリズム的には、ローカル検索に基づく最適化アルゴリズムを使用して、入力を反復的に摂動させることで、入力予測における2つのモデルの差を最大化する。 我々は、ベンチマークデータセット(例えば、MNIST、ImageNet、Driving)とNNモデル(例えば、LeNet、ResNet、Dave、VGG)で実験を行う。 実験結果は有望だ。 まず、DAEGENと既存の2つのホワイトボックス差分法(DeepXploreとDLFuzz)を比較し、同じ条件下でDAEGENが同じであることを示す。 1)効果的、すなわち、すべての場合において攻撃を発生させるのに成功する唯一の技術である。 2)正確には、すなわち、敵の攻撃は、機械や人間を騙す可能性が非常に高い。 3) 効率的,すなわち,適切な数の分類クエリを必要とする。 第2に,daegenと最先端のブラックボックス攻撃法(simbaとtremba)を比較し,これらを差分設定に適応させる。 実験の結果, DAEGENは両者よりも優れた性能を示した。

Neural Networks (NNs) are known to be vulnerable to adversarial attacks. A malicious agent initiates these attacks by perturbing an input into another one such that the two inputs are classified differently by the NN. In this paper, we consider a special class of adversarial examples, which can exhibit not only the weakness of NN models - as do for the typical adversarial examples - but also the different behavior between two NN models. We call them difference-inducing adversarial examples or DIAEs. Specifically, we propose DAEGEN, the first black-box differential technique for adversarial input generation. DAEGEN takes as input two NN models of the same classification problem and reports on output an adversarial example. The obtained adversarial example is a DIAE, so that it represents a point-wise difference in the input space between the two NN models. Algorithmically, DAEGEN uses a local search-based optimization algorithm to find DIAEs by iteratively perturbing an input to maximize the difference of two models on predicting the input. We conduct experiments on a spectrum of benchmark datasets (e.g., MNIST, ImageNet, and Driving) and NN models (e.g., LeNet, ResNet, Dave, and VGG). Experimental results are promising. First, we compare DAEGEN with two existing white-box differential techniques (DeepXplore and DLFuzz) and find that under the same setting, DAEGEN is 1) effective, i.e., it is the only technique that succeeds in generating attacks in all cases, 2) precise, i.e., the adversarial attacks are very likely to fool machines and humans, and 3) efficient, i.e, it requires a reasonable number of classification queries. Second, we compare DAEGEN with state-of-the-art black-box adversarial attack methods (simba and tremba), by adapting them to work on a differential setting. The experimental results show that DAEGEN performs better than both of them.
翻訳日:2022-11-11 21:32:18 公開日:2020-07-10
# 深層テンプレートネットワークからの印象空間

Impression Space from Deep Template Network ( http://arxiv.org/abs/2007.05441v1 )

ライセンス: Link先を確認
Gongfan Fang, Xinchao Wang, Haofei Zhang, Jie Song, Mingli Song(参考訳) 人間は、自分が見たものの詳細をすべて覚えることなく、印象によってのみ何かを想像する能力である。 この研究では、トレーニングされた畳み込みニューラルネットワークが、入力イメージを"記憶"する能力も持っていることを実証したい。 そこで本研究では,既設の既設ネットワーク上でのemph{Impression Space}}を確立するための,シンプルかつ強力なフレームワークを提案する。 このネットワークは、フィルタが印象からイメージを再構成するテンプレートとして使用されるため、 {\emph{Template Network}}と呼ばれる。 提案手法では,インプレッション空間と画像空間は階層符号化と反復復号プロセスによって橋渡しされる。 その結果, 印象空間は画像から有意な特徴を捉えることができ, ネットワークトレーニングを必要とせず, 印象マッチングによる画像翻訳や画像合成といったタスクに直接適用できることがわかった。 さらに、印象は自然に異なるデータに対して高いレベルの共通空間を構成する。 そこで本研究では,印象空間内のデータ関係をモデル化し,画像間の特徴的類似性を明らかにする機構を提案する。 私たちのコードはリリースされます。

It is an innate ability for humans to imagine something only according to their impression, without having to memorize all the details of what they have seen. In this work, we would like to demonstrate that a trained convolutional neural network also has the capability to "remember" its input images. To achieve this, we propose a simple but powerful framework to establish an {\emph{Impression Space}} upon an off-the-shelf pretrained network. This network is referred to as the {\emph{Template Network}} because its filters will be used as templates to reconstruct images from the impression. In our framework, the impression space and image space are bridged by a layer-wise encoding and iterative decoding process. It turns out that the impression space indeed captures the salient features from images, and it can be directly applied to tasks such as unpaired image translation and image synthesis through impression matching without further network training. Furthermore, the impression naturally constructs a high-level common space for different data. Based on this, we propose a mechanism to model the data relations inside the impression space, which is able to reveal the feature similarity between images. Our code will be released.
翻訳日:2022-11-11 21:25:13 公開日:2020-07-10
# セマンティックマップと注意力を用いた精度と人間ライクな運転の学習

Learning Accurate and Human-Like Driving using Semantic Maps and Attention ( http://arxiv.org/abs/2007.07218v1 )

ライセンス: Link先を確認
Simon Hecker, Dengxin Dai, Alexander Liniger, Luc Van Gool(参考訳) 本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。 最初の課題に取り組むために、ここの技術からセマンティックとビジュアルマップを活用し、既存のdrive360データセットを拡張します。 マップは、セグメンテーションの信頼度マスクを促進するアテンションメカニズムで使用されており、ネットワークは現在の運転状況において重要なイメージのセマンティッククラスに焦点を当てている。 ヒトライクな運転は、人間の運転者に対する模倣損失を最小限に抑えるだけでなく、識別器を更に定義することにより、人間に似た行動シーケンスを駆動モデルに生成させる。 私たちのモデルは、実際の運転データ60時間3000kmのdrive360 + hereデータセットでトレーニングされ、評価されます。 広範な実験により、運転モデルは従来の方法よりも正確で、人間らしく振る舞うことが示された。

This paper investigates how end-to-end driving models can be improved to drive more accurately and human-like. To tackle the first issue we exploit semantic and visual maps from HERE Technologies and augment the existing Drive360 dataset with such. The maps are used in an attention mechanism that promotes segmentation confidence masks, thus focusing the network on semantic classes in the image that are important for the current driving situation. Human-like driving is achieved using adversarial learning, by not only minimizing the imitation loss with respect to the human driver but by further defining a discriminator, that forces the driving model to produce action sequences that are human-like. Our models are trained and evaluated on the Drive360 + HERE dataset, which features 60 hours and 3000 km of real-world driving data. Extensive experiments show that our driving models are more accurate and behave more human-like than previous methods.
翻訳日:2022-11-11 21:24:30 公開日:2020-07-10
# トピックモデリングのための階層的潜在木解析におけるコロケーションの扱い

Handling Collocations in Hierarchical Latent Tree Analysis for Topic Modeling ( http://arxiv.org/abs/2007.05163v1 )

ライセンス: Link先を確認
Leonard K. M. Poon and Nevin L. Zhang and Haoran Xie and Gary Cheng(参考訳) 近年、トピックモデリングは機械学習で最も活発な研究分野の1つとなっている。 階層型潜在木解析(HLTA)は近年,階層型トピックモデリングのために提案されており,最先端手法よりも優れた性能を示している。 しかし、HLTAで使用されるモデルは木構造を持ち、同じ単語を適切に共有するマルチワード表現の異なる意味を表現できない。 そこで本稿では,HLTAの前処理ステップとしてコロケーションを抽出し,選択する手法を提案する。 選択されたコロケーションはhltaを実行する前に、bag-of-wordsモデルで単一のトークンに置き換えられる。 実験により,提案手法により,テストした4つのデータセットのうち3つのHLTAの性能が向上したことを示す。

Topic modeling has been one of the most active research areas in machine learning in recent years. Hierarchical latent tree analysis (HLTA) has been recently proposed for hierarchical topic modeling and has shown superior performance over state-of-the-art methods. However, the models used in HLTA have a tree structure and cannot represent the different meanings of multiword expressions sharing the same word appropriately. Therefore, we propose a method for extracting and selecting collocations as a preprocessing step for HLTA. The selected collocations are replaced with single tokens in the bag-of-words model before running HLTA. Our empirical evaluation shows that the proposed method led to better performance of HLTA on three of the four data sets tested.
翻訳日:2022-11-11 21:24:13 公開日:2020-07-10
# 人工ニューラルネットワークによる代謝物組成に基づくクローン芽の同定

Artificial Neural Network Approach for the Identification of Clove Buds Origin Based on Metabolites Composition ( http://arxiv.org/abs/2007.05125v1 )

ライセンス: Link先を確認
Rustam and Agus Yodi Gunawan and Made Tri Ari Penia Kresnowati(参考訳) 本稿では,人工ニューラルネットワークを用いた代謝物組成に基づくクローン芽の起源同定について検討する。 一般に、大きなデータセットは正確な識別に不可欠である。 大きなデータセットを持つ機械学習は、起源に基づく正確な識別につながる。 しかし、clove budsは代謝物組成の欠如と高い抽出コストのため、小さなデータセットを使用する。 その結果, 1層と2層の隠れた層を持つバックプロパゲーションと弾力性のある伝播はクローブ芽の起源を正確に同定できることがわかった。 1つの隠蔽層によるバックプロパゲーションは、それぞれ99.91%と99.47%のトレーニングデータセットとテストデータセットを提供する。 2つの隠蔽層によるレジリエントな伝播は、それぞれ99.96%と97.89%の精度でデータセットのトレーニングとテストを行う。

This paper examines the use of artificial neural network approach in identifying the origin of clove buds based on metabolites composition. Generally, large data sets are critical for accurate identification. Machine learning with large data sets lead to precise identification based on origins. However, clove buds uses small data sets due to lack of metabolites composition and their high cost of extraction. The results show that backpropagation and resilient propagation with one and two hidden layers identifies clove buds origin accurately. The backpropagation with one hidden layer offers 99.91% and 99.47% for training and testing data sets, respectively. The resilient propagation with two hidden layers offers 99.96% and 97.89% accuracy for training and testing data sets, respectively.
翻訳日:2022-11-11 21:24:01 公開日:2020-07-10
# MAPS:マルチエージェント強化学習に基づくポートフォリオ管理システム

MAPS: Multi-agent Reinforcement Learning-based Portfolio Management System ( http://arxiv.org/abs/2007.05402v1 )

ライセンス: Link先を確認
Jinho Lee, Raehyun Kim, Seok-Won Yi, Jaewoo Kang(参考訳) 近年、株式市場における先進的な深層学習手法による投資戦略の生成が注目されている。 既存のディープラーニング手法の多くは、リターンの最大化による最適モデルやネットワークアーキテクチャの提案に重点を置いている。 しかし、これらのモデルは、しばしば絶えず変化する市場の状況に適応し、考慮しない。 本稿では,マルチエージェント強化学習に基づくポートフォリオ管理システム(MAPS)を提案する。 MAPSは、各エージェントが独立した「投資者」であり、独自のポートフォリオを作成する協調システムである。 訓練手順では、各エージェントは、慎重に設計された損失関数で自身のリターンを最大化しながら、可能な限り多様に行動するように誘導される。 その結果、システムとしてのマップは、多様化したポートフォリオに終わる。 米国の12年間の市場データによる実験の結果、MAPSはシャープ比でベースラインの大半を上回っている。 さらに,システムにより多くのエージェントを追加することで,ポートフォリオの多様化によるリスク低減によるシャープ比の向上が期待できることを示す。

Generating an investment strategy using advanced deep learning methods in stock markets has recently been a topic of interest. Most existing deep learning methods focus on proposing an optimal model or network architecture by maximizing return. However, these models often fail to consider and adapt to the continuously changing market conditions. In this paper, we propose the Multi-Agent reinforcement learning-based Portfolio management System (MAPS). MAPS is a cooperative system in which each agent is an independent "investor" creating its own portfolio. In the training procedure, each agent is guided to act as diversely as possible while maximizing its own return with a carefully designed loss function. As a result, MAPS as a system ends up with a diversified portfolio. Experiment results with 12 years of US market data show that MAPS outperforms most of the baselines in terms of Sharpe ratio. Furthermore, our results show that adding more agents to our system would allow us to get a higher Sharpe ratio by lowering risk with a more diversified portfolio.
翻訳日:2022-11-11 21:23:18 公開日:2020-07-10
# 機械学習における説明可能性に及ぼす法的要件の影響

Impact of Legal Requirements on Explainability in Machine Learning ( http://arxiv.org/abs/2007.05479v1 )

ライセンス: Link先を確認
Adrien Bibal, Michael Lognoul, Alexandre de Streel and Beno\^it Fr\'enay(参考訳) 欧州の法律が課した説明可能性の要件と機械学習(ML)モデルへの含意は必ずしも明確ではない。 そこで本研究では,私的および公的な意思決定に課される説明義務と,それを機械学習によってどのように実施できるかを分析する。

The requirements on explainability imposed by European laws and their implications for machine learning (ML) models are not always clear. In that perspective, our research analyzes explanation obligations imposed for private and public decision-making, and how they can be implemented by machine learning techniques.
翻訳日:2022-11-11 21:22:49 公開日:2020-07-10
# コンセプトドリフトストリームのためのリアクティブソフトプロトタイプ計算

Reactive Soft Prototype Computing for Concept Drift Streams ( http://arxiv.org/abs/2007.05432v1 )

ライセンス: Link先を確認
Christoph Raab, Moritz Heusinger, Frank-Michael Schleif(参考訳) 情報システムにおけるエージェント間のリアルタイム通信量は,10年初め以降急速に増加している。 これは、これらのシステムを使用するためです。 g. 現代社会ではソーシャルメディアが一般的になっている。 分析アルゴリズムは、この情報のストリームをリアルタイムで学習し、予測する必要がある。 これらのシステムの性質は非静的であり、特にトレンドの早さによって説明できる。 これにより、アルゴリズムが変化を認識し、適応しなければならない環境が生成される。 最近の研究はこの分野において重要な研究であるが、主にモデル適応時の安定した性能を欠いている。 本研究は,プロトタイプに基づく適応戦略に続き,コンセプトドリフト検出戦略を提案する。 様々な非静的なデータで実験的結果が検証されたこのソリューションは、変更時の安定かつ迅速な調整を提供する。

The amount of real-time communication between agents in an information system has increased rapidly since the beginning of the decade. This is because the use of these systems, e. g. social media, has become commonplace in today's society. This requires analytical algorithms to learn and predict this stream of information in real-time. The nature of these systems is non-static and can be explained, among other things, by the fast pace of trends. This creates an environment in which algorithms must recognize changes and adapt. Recent work shows vital research in the field, but mainly lack stable performance during model adaptation. In this work, a concept drift detection strategy followed by a prototype-based adaptation strategy is proposed. Validated through experimental results on a variety of typical non-static data, our solution provides stable and quick adjustments in times of change.
翻訳日:2022-11-11 21:15:49 公開日:2020-07-10
# 経験的ベルンシュタイン不等式を用いたUCRL2の改良解析

Improved Analysis of UCRL2 with Empirical Bernstein Inequality ( http://arxiv.org/abs/2007.05456v1 )

ライセンス: Link先を確認
Ronan Fruit, Matteo Pirotta, Alessandro Lazaric(参考訳) マルコフ決定過程の通信における探索探索の問題点を考察する。 経験的ベルンシュタイン不等式 (UCRL2B) を用いた UCRL2 の解析を行った。 S$ 状態、$A$ アクション、$\Gamma \leq S$ 次の状態と直径$D$ を持つ任意の MDP に対して、UCRL2B の後悔は $\widetilde{O}(\sqrt{D\Gamma S A T})$ となる。

We consider the problem of exploration-exploitation in communicating Markov Decision Processes. We provide an analysis of UCRL2 with Empirical Bernstein inequalities (UCRL2B). For any MDP with $S$ states, $A$ actions, $\Gamma \leq S$ next states and diameter $D$, the regret of UCRL2B is bounded as $\widetilde{O}(\sqrt{D\Gamma S A T})$.
翻訳日:2022-11-11 21:15:29 公開日:2020-07-10
# 祖父のテストセットではない - テストのためのラベル付け労力の削減

Not Your Grandfathers Test Set: Reducing Labeling Effort for Testing ( http://arxiv.org/abs/2007.05499v1 )

ライセンス: Link先を確認
Begum Taskazan, Jiri Navratil, Matthew Arnold, Anupama Murthi, Ganesh Venkataraman, Benjamin Elder(参考訳) 高品質なテストセットの構築とメンテナンスは、いまだに手間とコストのかかる作業です。 結果として、実世界のテストセットは、しばしば、それらが表すはずのプロダクショントラフィックから、最新の状態に正しく維持されません。 このドリフトの頻度と重大さは、QAプロセスにおいて手動でラベル付けされたテストセットの価値に対する深刻な懸念を引き起こす。 本稿では,高品質なテストセットの構築と維持に要する労力を大幅に削減する,シンプルだが効果的な手法を提案する。 この結果は、これらのテクニックをすぐにテストを改善することができる実践者と、この新しいアプローチによって提起された多くのオープンな問題に対処できる研究者の両方による、テストプロセスの基本的な再検討を促進する。

Building and maintaining high-quality test sets remains a laborious and expensive task. As a result, test sets in the real world are often not properly kept up to date and drift from the production traffic they are supposed to represent. The frequency and severity of this drift raises serious concerns over the value of manually labeled test sets in the QA process. This paper proposes a simple but effective technique that drastically reduces the effort needed to construct and maintain a high-quality test set (reducing labeling effort by 80-100% across a range of practical scenarios). This result encourages a fundamental rethinking of the testing process by both practitioners, who can use these techniques immediately to improve their testing, and researchers who can help address many of the open questions raised by this new approach.
翻訳日:2022-11-11 21:15:16 公開日:2020-07-10
# アウトオブディストリビューション検出の改善を目的としたコントラストトレーニング

Contrastive Training for Improved Out-of-Distribution Detection ( http://arxiv.org/abs/2007.05566v1 )

ライセンス: Link先を確認
Jim Winkens, Rudy Bunel, Abhijit Guha Roy, Robert Stanforth, Vivek Natarajan, Joseph R. Ledsam, Patricia MacWilliams, Pushmeet Kohli, Alan Karthikesalingam, Simon Kohl, Taylan Cemgil, S. M. Ali Eslami and Olaf Ronneberger(参考訳) 信頼性の高いood(out-of-distribution)インプットの検出は、機械学習システムのデプロイの前提条件として理解されている。 本稿では,OOD検出性能向上のためのコントラストトレーニングを提案する。 OOD検出の先行手法とは異なり,本手法ではOODを明示的にラベル付けした例にアクセスする必要はなく,実際に収集することは困難である。 コントラストトレーニングは,多くのベンチマークにおいてOOD検出性能を著しく向上させることを示す。 Inlier およびoutlier データセットの類似性を捉えることで OOD 検出タスクの難易度を定量化する Confusion Log Probability (CLP) スコアを導入,活用することにより,本手法が特に 'near OOD' クラスのパフォーマンスを向上させることを示す。

Reliable detection of out-of-distribution (OOD) inputs is increasingly understood to be a precondition for deployment of machine learning systems. This paper proposes and investigates the use of contrastive training to boost OOD detection performance. Unlike leading methods for OOD detection, our approach does not require access to examples labeled explicitly as OOD, which can be difficult to collect in practice. We show in extensive experiments that contrastive training significantly helps OOD detection performance on a number of common benchmarks. By introducing and employing the Confusion Log Probability (CLP) score, which quantifies the difficulty of the OOD detection task by capturing the similarity of inlier and outlier datasets, we show that our method especially improves performance in the `near OOD' classes -- a particularly challenging setting for previous methods.
翻訳日:2022-11-11 21:14:37 公開日:2020-07-10
# スペクトルクラスタリングにおける性能保証

A Performance Guarantee for Spectral Clustering ( http://arxiv.org/abs/2007.05627v1 )

ライセンス: Link先を確認
March Boedihardjo, Shaofeng Deng, Thomas Strohmer(参考訳) 2段階のスペクトルクラスタリング法は、ラプラシアン固有写像と丸いステップからなるもので、グラフ分割に広く用いられる方法である。 NP-ハード最小比カット問題に対する自然な緩和と見なすことができる。 スペクトルクラスタリングはいつ,最小比カット問題に対する大域的な解を見つけることができるのか? まず、与えられたパーティションのクラスタ内およびクラスタ間コネクティビティに自然に依存する条件を提供し、この分割が最小比率カット問題の解であることを証明する。 次に、k$最小の固有値に対応するグラフラプラシアンの不変部分空間に対して束縛された決定論的2対無限ノルム摂動を開発する。 最後に、これら2つの結果を組み合わせることで、スペクトルクラスタリングが最小比カット問題に対してグローバルソリューションを出力することを保証し、スペクトルクラスタリングの性能保証となる条件を与える。

The two-step spectral clustering method, which consists of the Laplacian eigenmap and a rounding step, is a widely used method for graph partitioning. It can be seen as a natural relaxation to the NP-hard minimum ratio cut problem. In this paper we study the central question: when is spectral clustering able to find the global solution to the minimum ratio cut problem? First we provide a condition that naturally depends on the intra- and inter-cluster connectivities of a given partition under which we may certify that this partition is the solution to the minimum ratio cut problem. Then we develop a deterministic two-to-infinity norm perturbation bound for the the invariant subspace of the graph Laplacian that corresponds to the $k$ smallest eigenvalues. Finally by combining these two results we give a condition under which spectral clustering is guaranteed to output the global solution to the minimum ratio cut problem, which serves as a performance guarantee for spectral clustering.
翻訳日:2022-11-11 21:14:20 公開日:2020-07-10
# 機械学習による自動車レーダのゴースト画像の検出

Using Machine Learning to Detect Ghost Images in Automotive Radar ( http://arxiv.org/abs/2007.05280v1 )

ライセンス: Link先を確認
Florian Kraus, Nicolas Scheiner, Werner Ritter, Klaus Dietmayer(参考訳) レーダーセンサーは、霧、雪、雨、さらには直射日光など、あらゆる悪条件に対して頑丈であるため、運転支援システムやインテリジェントな車両の重要な部分である。 この堅牢性は、カメラやライダーのような光ベースのセンサーに比べてかなり大きな波長で達成されている。 副作用として、多くの表面はこの波長で鏡のように振る舞うため、望ましくないゴースト検出が生じる。 本稿では,データ駆動機械学習アルゴリズムを用いてゴーストオブジェクトを検出する手法を提案する。 この目的で、アノテーション付きゴーストオブジェクトを含む大規模な自動車用データセットを使用する。 実物体と共にゴースト物体を検出するために最先端のレーダ分類器を使用できることを示す。 さらに,一部の環境ではゴースト画像による偽陽性検出の回数を減らすことができる。

Radar sensors are an important part of driver assistance systems and intelligent vehicles due to their robustness against all kinds of adverse conditions, e.g., fog, snow, rain, or even direct sunlight. This robustness is achieved by a substantially larger wavelength compared to light-based sensors such as cameras or lidars. As a side effect, many surfaces act like mirrors at this wavelength, resulting in unwanted ghost detections. In this article, we present a novel approach to detect these ghost objects by applying data-driven machine learning algorithms. For this purpose, we use a large-scale automotive data set with annotated ghost objects. We show that we can use a state-of-the-art automotive radar classifier in order to detect ghost objects alongside real objects. Furthermore, we are able to reduce the amount of false positive detections caused by ghost images in some settings.
翻訳日:2022-11-11 21:13:51 公開日:2020-07-10
# GloVeInit at SemEval-2020 Task 1: Using GloVe Vector Initialization for Unsupervised Lexical Semantic Change Detection

GloVeInit at SemEval-2020 Task 1: Using GloVe Vector Initialization for Unsupervised Lexical Semantic Change Detection ( http://arxiv.org/abs/2007.05618v1 )

ライセンス: Link先を確認
Vaibhav Jain(参考訳) 本稿では,SemEval2020 Task 1: Unsupervised Lexical Semantic Change Detectionに対するベクトル初期化手法を提案する。 異なる時間帯に属する2つのコーパスと一組の目標単語が与えられた場合、このタスクでは、単語が時間とともに得られたか失ったかを分類し(サブタスク1)、単語感覚の変化に基づいてそれらをランク付けする必要がある(サブタスク2)。 提案手法はベクトル初期化法を用いてGloVeの埋め込みを整列させる。 最初のモデルを使って2番目のモデルを初期化しながら、両コーパスのグローブ埋め込みを連続してトレーニングする、というアイデアだ。 本稿では,GloVe埋め込みがSGNS埋め込みよりもベクトル初期化法に適しているという仮説に基づく。 この仮説の背後にある直感的な推論を示し、また、様々な要因とハイパーパラメータが提案手法の性能に与える影響についても述べる。 私たちのモデルは2つのサブタスクの33チームの中で13位と10位です。 実装は公開されています。

This paper presents a vector initialization approach for the SemEval2020 Task 1: Unsupervised Lexical Semantic Change Detection. Given two corpora belonging to different time periods and a set of target words, this task requires us to classify whether a word gained or lost a sense over time (subtask 1) and to rank them on the basis of the changes in their word senses (subtask 2). The proposed approach is based on using Vector Initialization method to align GloVe embeddings. The idea is to consecutively train GloVe embeddings for both corpora, while using the first model to initialize the second one. This paper is based on the hypothesis that GloVe embeddings are more suited for the Vector Initialization method than SGNS embeddings. It presents an intuitive reasoning behind this hypothesis, and also talks about the impact of various factors and hyperparameters on the performance of the proposed approach. Our model ranks 13th and 10th among 33 teams in the two subtasks. The implementation has been shared publicly.
翻訳日:2022-11-11 21:07:53 公開日:2020-07-10
# ニューラルネットワークにおける予測不確実性と分散検出のための1-vs-all分類器の再検討

Revisiting One-vs-All Classifiers for Predictive Uncertainty and Out-of-Distribution Detection in Neural Networks ( http://arxiv.org/abs/2007.05134v1 )

ライセンス: Link先を確認
Shreyas Padhy, Zachary Nado, Jie Ren, Jeremiah Liu, Jasper Snoek, Balaji Lakshminarayanan(参考訳) 現代のニューラルネットワークにおける予測の不確実性の正確な推定は、適切に校正された予測を達成し、アウト・オブ・ディストリビューション(OOD)入力を検出するために重要である。 最も有望なアプローチは、主にモデル不確実性の改善(ディープアンサンブルやベイズニューラルネットワークなど)とOOD検出のための後処理技術(ODINやマハラノビス距離など)に焦点を当てている。 しかし、識別的分類器における確率のパラメトリゼーションが不確実性推定にどのように影響するかについては、比較的研究が行われておらず、支配的手法であるソフトマックス・クロスエントロピーは、OODデータと共変量シフトに対する誤った高い信頼をもたらす。 1) "none of the above" の概念を捉えたone-vs-all定式化と, (2) 訓練多様体への距離の関数として不確かさを符号化する距離ベースロジット表現を用いて確率を定式化する方法を検討する。 本稿では,画像分類タスクのキャリブレーションを改善するとともに,追加のトレーニングやテストタイムの複雑さを伴わずに,ソフトマックスの予測性能に適合することを示す。

Accurate estimation of predictive uncertainty in modern neural networks is critical to achieve well calibrated predictions and detect out-of-distribution (OOD) inputs. The most promising approaches have been predominantly focused on improving model uncertainty (e.g. deep ensembles and Bayesian neural networks) and post-processing techniques for OOD detection (e.g. ODIN and Mahalanobis distance). However, there has been relatively little investigation into how the parametrization of the probabilities in discriminative classifiers affects the uncertainty estimates, and the dominant method, softmax cross-entropy, results in misleadingly high confidences on OOD data and under covariate shift. We investigate alternative ways of formulating probabilities using (1) a one-vs-all formulation to capture the notion of "none of the above", and (2) a distance-based logit representation to encode uncertainty as a function of distance to the training manifold. We show that one-vs-all formulations can improve calibration on image classification tasks, while matching the predictive performance of softmax without incurring any additional training or test-time complexity.
翻訳日:2022-11-11 21:07:18 公開日:2020-07-10
# サンプルベース正規化: より良い一般化に向けた伝達学習戦略

Sample-based Regularization: A Transfer Learning Strategy Toward Better Generalization ( http://arxiv.org/abs/2007.05181v1 )

ライセンス: Link先を確認
Yunho Jeon, Yongseok Choi, Jaesun Park, Subin Yi, Dongyeon Cho, Jiwon Kim(参考訳) 少量のデータでディープニューラルネットワークをトレーニングすることは、オーバーフィットの脆弱性があるため、難しい問題である。 しかし、私たちがしばしば直面する現実的な困難のひとつは、多くのサンプルを集めることです。 移行学習はこの問題に対する費用対効果の高い解決策である。 大規模なデータセットでトレーニングされたソースモデルを使用することで、トレーニングデータ不足に起因するオーバーフィットを軽減することができる。 ソースモデルの一般化能力に基づき、トレーニング手順全体においてソース知識を使用する方法がいくつか提案されている。 しかし、これはターゲットモデルの可能性を制限する可能性があり、ソースから転送された知識はトレーニング手順に干渉する可能性がある。 そこで本研究では,サンプルベース正規化 (SBR) と呼ばれる正規化手法を提案する。 SBRでは、トランスファー学習のための新しいトレーニングフレームワークを提案する。 実験の結果,既存の手法を各種構成で上回っていた。

Training a deep neural network with a small amount of data is a challenging problem as it is vulnerable to overfitting. However, one of the practical difficulties that we often face is to collect many samples. Transfer learning is a cost-effective solution to this problem. By using the source model trained with a large-scale dataset, the target model can alleviate the overfitting originated from the lack of training data. Resorting to the ability of generalization of the source model, several methods proposed to use the source knowledge during the whole training procedure. However, this is likely to restrict the potential of the target model and some transferred knowledge from the source can interfere with the training procedure. For improving the generalization performance of the target model with a few training samples, we proposed a regularization method called sample-based regularization (SBR), which does not rely on the source's knowledge during training. With SBR, we suggested a new training framework for transfer learning. Experimental results showed that our framework outperformed existing methods in various configurations.
翻訳日:2022-11-11 21:06:37 公開日:2020-07-10
# 商品年齢に基づくファッション小売需要予測モデル

Product age based demand forecast model for fashion retail ( http://arxiv.org/abs/2007.05278v1 )

ライセンス: Link先を確認
Rajesh Kumar Vashishtha, Vibhati Burman, Rajan Kumar, Srividhya Sethuraman, Abhinaya R Sekar, Sharadha Ramanan(参考訳) 需要管理やサプライチェーンの計画のために、ファッション小売業者は次のシーズン、ほぼ1年間、正確な需要予測を必要としている。 正確な予測は、小売業者の収益性を確保し、未処理在庫の廃棄による環境被害を減らすために重要である。 ほとんどの製品は季節によって新しく、ライフサイクルが短く、販売のバリエーションが大きく、リードタイムも長いため、難しい。 本稿では,製品年齢に基づく新しい予測モデルを提案する。製品年齢は発売後数週間の期間を指し,既存のモデルよりも優れていることを示す。 我々は,300以上の店舗,35k品目,約40のカテゴリーを有する多国籍ファッション小売店の現実的利用事例を通じて,アプローチの堅牢性を示す。 この作業の主な貢献は、製品属性値のユニークな重要な機能エンジニアリング、6~12ヶ月前の正確な需要予測、次のシーズンの製品ローンチ時間を推奨するためのアプローチの拡張です。 ファッションアソシエーション最適化モデルを用いて、次のシーズンの店舗に掲載される商品の一覧と量を作成し、総売上を最大化し、ビジネス上の制約を満たす。 当社のフレームワークでは、小売業者の計画と比較して41%の収益を上げています。 また、予測結果を現在の手法と比較し、既存のモデルよりも優れていることを示す。 私たちのフレームワークは、注文、在庫計画、ソート計画、小売業者のサプライチェーンの全体的な利益増加につながる。

Fashion retailers require accurate demand forecasts for the next season, almost a year in advance, for demand management and supply chain planning purposes. Accurate forecasts are important to ensure retailers' profitability and to reduce environmental damage caused by disposal of unsold inventory. It is challenging because most products are new in a season and have short life cycles, huge sales variations and long lead-times. In this paper, we present a novel product age based forecast model, where product age refers to the number of weeks since its launch, and show that it outperforms existing models. We demonstrate the robust performance of the approach through real world use case of a multinational fashion retailer having over 300 stores, 35k items and around 40 categories. The main contributions of this work include unique and significant feature engineering for product attribute values, accurate demand forecast 6-12 months in advance and extending our approach to recommend product launch time for the next season. We use our fashion assortment optimization model to produce list and quantity of items to be listed in a store for the next season that maximizes total revenue and satisfies business constraints. We found a revenue uplift of 41% from our framework in comparison to the retailer's plan. We also compare our forecast results with the current methods and show that it outperforms existing models. Our framework leads to better ordering, inventory planning, assortment planning and overall increase in profit for the retailer's supply chain.
翻訳日:2022-11-11 21:06:04 公開日:2020-07-10
# クラス依存ドメインシフトに基づくロバスト分類

Robust Classification under Class-Dependent Domain Shift ( http://arxiv.org/abs/2007.05335v1 )

ライセンス: Link先を確認
Tigran Galstyan, Hrant Khachatrian, Greg Ver Steeg, Aram Galstyan(参考訳) トレーニングとテスト分布の変化に頑健な機械学習アルゴリズムの調査は、研究の活発な領域である。 本稿では、クラス依存ドメインシフトと呼ばれる特別なタイプのデータセットシフトについて検討する。 入力データはラベルに因果的に依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトがない。 情報理論的な制約を伴う単純な最適化問題を定義し,ニューラルネットワークを用いて解こうとする。 おもちゃのデータセット上での実験は、提案手法が未知の領域によく一般化するロバストな分類器を学習できることを実証する。

Investigation of machine learning algorithms robust to changes between the training and test distributions is an active area of research. In this paper we explore a special type of dataset shift which we call class-dependent domain shift. It is characterized by the following features: the input data causally depends on the label, the shift in the data is fully explained by a known variable, the variable which controls the shift can depend on the label, there is no shift in the label distribution. We define a simple optimization problem with an information theoretic constraint and attempt to solve it with neural networks. Experiments on a toy dataset demonstrate the proposed method is able to learn robust classifiers which generalize well to unseen domains.
翻訳日:2022-11-11 21:05:14 公開日:2020-07-10
# 合成ニューラルネットワークを用いた画像キャプション

Image Captioning with Compositional Neural Module Networks ( http://arxiv.org/abs/2007.05608v1 )

ライセンス: Link先を確認
Junjiao Tian and Jean Oh(参考訳) 画像キャプションにおいて、例えば$n$-gramのメトリクスなど、フラレンシが評価の重要な要素である場合、シーケンシャルモデルは一般的に使用されるが、シーケンシャルモデルは一般的に、入力画像に現れる詳細を欠いた過一般化表現をもたらす。 視覚質問応答タスクにおける構成的ニューラルモジュールネットワークの考え方に着想を得て,自然言語の合成性と逐次性の両方を探索する画像キャプションのための階層的フレームワークを提案する。 本アルゴリズムは、入力画像で検出された各対象の独特な側面に対応する異なるモジュールに選択的に対応し、カウントや色などの特定の記述を含むことで、詳細リッチな文を構成することを学ぶ。 MSCOCOデータセットの一連の実験において、提案されたモデルは、複数の評価指標にわたる最先端技術モデルよりも優れており、より重要なのは、視覚的に解釈可能な結果である。 さらに,SPICE測定値のサブカテゴリ$f$-scoresとAmazon Mechanical Turkの人的評価から,我々の構成モジュールネットワークが正確かつ詳細なキャプションを効果的に生成できることが示唆された。

In image captioning where fluency is an important factor in evaluation, e.g., $n$-gram metrics, sequential models are commonly used; however, sequential models generally result in overgeneralized expressions that lack the details that may be present in an input image. Inspired by the idea of the compositional neural module networks in the visual question answering task, we introduce a hierarchical framework for image captioning that explores both compositionality and sequentiality of natural language. Our algorithm learns to compose a detail-rich sentence by selectively attending to different modules corresponding to unique aspects of each object detected in an input image to include specific descriptions such as counts and color. In a set of experiments on the MSCOCO dataset, the proposed model outperforms a state-of-the art model across multiple evaluation metrics, more importantly, presenting visually interpretable results. Furthermore, the breakdown of subcategories $f$-scores of the SPICE metric and human evaluation on Amazon Mechanical Turk show that our compositional module networks effectively generate accurate and detailed captions.
翻訳日:2022-11-11 20:58:30 公開日:2020-07-10
# 自己反射型変分オートエンコーダ

Self-Reflective Variational Autoencoder ( http://arxiv.org/abs/2007.05166v1 )

ライセンス: Link先を確認
Ifigeneia Apostolopoulou, Elan Rosenfeld, Artur Dubrawski(参考訳) 変分オートエンコーダ(VAE)は確率潜在変数生成モデルを学習するための強力なフレームワークである。 しかし、エンコーダおよび/またはそれ以前の近似後部分布に関する典型的な仮定は、推論と生成モデリングの能力を大幅に制限する。 神経自己回帰モデルに基づく変分推論は、正確な後部の条件依存性を尊重するが、この柔軟性はコストがかかる。 本研究では,自己回帰推論と呼ばれる直交解を提案する。 既存のvaeアーキテクチャの階層構造を再設計することにより、自己回帰は、確率的フローが正確な後方の分解を保ち、累積モデルと一致した再帰的な方法で潜在符号を順次更新することを保証する。 両項化MNISTでは, 自己回帰的推論は, 自己回帰的層のような複雑で計算コストのかかる部品を使わずに, 最先端の芸術的性能を実現する。 さらに,提案手法を応用した変分正規化フローの設計を行い,純粋に生成的なフローと比較し,予測的な利点を得た。 自己回帰推論は、階層内の各レイヤのキャパシティを改善するために、分布推定と生成モデリングの進歩を自然に活用することができる。

The Variational Autoencoder (VAE) is a powerful framework for learning probabilistic latent variable generative models. However, typical assumptions on the approximate posterior distribution of the encoder and/or the prior, seriously restrict its capacity for inference and generative modeling. Variational inference based on neural autoregressive models respects the conditional dependencies of the exact posterior, but this flexibility comes at a cost: such models are expensive to train in high-dimensional regimes and can be slow to produce samples. In this work, we introduce an orthogonal solution, which we call self-reflective inference. By redesigning the hierarchical structure of existing VAE architectures, self-reflection ensures that the stochastic flow preserves the factorization of the exact posterior, sequentially updating the latent codes in a recurrent manner consistent with the generative model. We empirically demonstrate the clear advantages of matching the variational posterior to the exact posterior - on binarized MNIST, self-reflective inference achieves state-of-the art performance without resorting to complex, computationally expensive components such as autoregressive layers. Moreover, we design a variational normalizing flow that employs the proposed architecture, yielding predictive benefits compared to its purely generative counterpart. Our proposed modification is quite general and complements the existing literature; self-reflective inference can naturally leverage advances in distribution estimation and generative modeling to improve the capacity of each layer in the hierarchy.
翻訳日:2022-11-11 20:58:08 公開日:2020-07-10
# 単一cnnを用いたot駆動マルチドメイン非教師なし超音波画像アーティファクト除去

OT-driven Multi-Domain Unsupervised Ultrasound Image Artifact Removal using a Single CNN ( http://arxiv.org/abs/2007.05205v1 )

ライセンス: Link先を確認
Jaeyoung Huh, Shujaat Khan, and Jong Chul Ye(参考訳) 超音波イメージング(us)は、しばしば様々なソースからの異なる画像アーティファクトに苦しむ。 これらの問題を解決するための古典的なアプローチは、典型的にはモデルに基づく反復的アプローチであり、しばしば計算集約的なアーティファクトの種類ごとに特別に開発された。 近年,ディープラーニング手法は計算効率が高く,高性能な代替手段として提案されている。 残念ながら、現在のディープラーニングのアプローチでは、専用のニューラルネットワークは、特定のアーティファクトタイプごとに一致したトレーニングデータでトレーニングされるべきである。 これは、様々な米国イメージアーティファクトを扱うために多数のモデルを保存する必要があるため、米国におけるディープラーニングの実践的使用に根本的な制限が生じる。 本稿では,近年のマルチドメイン画像転送の成功に触発されて,単一のニューラルネットワークを用いて,異なる対象領域を切り替えるマスクベクトルを変更するだけで,異なるタイプの米国成果物を扱うことができる新しい教師なしディープラーニング手法を提案する。 本アルゴリズムは,逐次確率測度に対する最適輸送(ot)理論を用いて厳密に導出される。 phantomとin vivoのデータを用いた実験の結果,本手法は,複数のニューラルネットワークを個別に訓練した結果に匹敵する,異なるアーティファクトを除去して高品質な画像を生成することができた。

Ultrasound imaging (US) often suffers from distinct image artifacts from various sources. Classic approaches for solving these problems are usually model-based iterative approaches that have been developed specifically for each type of artifact, which are often computationally intensive. Recently, deep learning approaches have been proposed as computationally efficient and high performance alternatives. Unfortunately, in the current deep learning approaches, a dedicated neural network should be trained with matched training data for each specific artifact type. This poses a fundamental limitation in the practical use of deep learning for US, since large number of models should be stored to deal with various US image artifacts. Inspired by the recent success of multi-domain image transfer, here we propose a novel, unsupervised, deep learning approach in which a single neural network can be used to deal with different types of US artifacts simply by changing a mask vector that switches between different target domains. Our algorithm is rigorously derived using an optimal transport (OT) theory for cascaded probability measures. Experimental results using phantom and in vivo data demonstrate that the proposed method can generate high quality image by removing distinct artifacts, which are comparable to those obtained by separately trained multiple neural networks.
翻訳日:2022-11-11 20:57:45 公開日:2020-07-10
# TIMELY:細胞型分類のための医用画像のラベリング一貫性の向上

TIMELY: Improving Labeling Consistency in Medical Imaging for Cell Type Classification ( http://arxiv.org/abs/2007.05307v1 )

ライセンス: Link先を確認
Yushan Liu, Markus M. Geipel, Christoph Tietz, Florian Buettner(参考訳) 白血病や貧血などの疾患の診断には、信頼できる血液細胞数を必要とする。 血液学者は通常、血液細胞の顕微鏡画像のラベル付けとカウントを行う。 しかし、多くの場合、異なる成熟状態の細胞は区別が困難であり、画像ノイズや主観性と組み合わせることで、人間はラベル付けミスをしがちである。 この結果、しばしば再現できないラベルが、直接診断に影響を与える可能性がある。 我々は、擬似時間推論手法と不均一な隠れマルコフ木を組み合わせた確率モデルであるTIMELYを導入し、ラベルの不整合の問題に対処する。 まず,誤りラベルを精度良く識別・修正できるシミュレーションデータについて,ラベル補正のためのベースライン法よりも精度良くリコールできることを示す。 そこで本手法を2つの実世界の血液細胞データデータセットに適用し,TIMELYが不整合性ラベルの発見に成功したことを示す。

Diagnosing diseases such as leukemia or anemia requires reliable counts of blood cells. Hematologists usually label and count microscopy images of blood cells manually. In many cases, however, cells in different maturity states are difficult to distinguish, and in combination with image noise and subjectivity, humans are prone to make labeling mistakes. This results in labels that are often not reproducible, which can directly affect the diagnoses. We introduce TIMELY, a probabilistic model that combines pseudotime inference methods with inhomogeneous hidden Markov trees, which addresses this challenge of label inconsistency. We show first on simulation data that TIMELY is able to identify and correct wrong labels with higher precision and recall than baseline methods for labeling correction. We then apply our method to two real-world datasets of blood cell data and show that TIMELY successfully finds inconsistent labels, thereby improving the quality of human-generated labels.
翻訳日:2022-11-11 20:57:24 公開日:2020-07-10
# 翻訳における実用情報:英語とドイツ語の時制と気分に関するコーパスに基づく研究

Pragmatic information in translation: a corpus-based study of tense and mood in English and German ( http://arxiv.org/abs/2007.05234v1 )

ライセンス: Link先を確認
Anita Ramm, Ekaterina Lapshinova-Koltunski, Alexander Fraser(参考訳) 文法的時制とムードは自然言語処理(NLP)研究において考慮すべき重要な言語現象である。 我々は英語とドイツ語の時制と翻訳のムードの対応を考える。 人間の翻訳者は、この対応は容易ではなく、注意深い分析を通して示すように、ある言語から別の言語に時制とムードをマッピングする簡単な方法はない。 テンソルとムードの人間翻訳の課題に対する我々の観察は、多言語NLPにとって重要な意味を持つ。 特に重要なのは、ルールベース、フレーズベース統計およびニューラルマシン翻訳における時制とムードをモデル化することである。

Grammatical tense and mood are important linguistic phenomena to consider in natural language processing (NLP) research. We consider the correspondence between English and German tense and mood in translation. Human translators do not find this correspondence easy, and as we will show through careful analysis, there are no simplistic ways to map tense and mood from one language to another. Our observations about the challenges of human translation of tense and mood have important implications for multilingual NLP. Of particular importance is the challenge of modeling tense and mood in rule-based, phrase-based statistical and neural machine translation.
翻訳日:2022-11-11 20:56:35 公開日:2020-07-10
# MultiWOZ 2.2 : 追加アノテーション補正と状態追跡ベースライン付き対話データセット

MultiWOZ 2.2 : A Dialogue Dataset with Additional Annotation Corrections and State Tracking Baselines ( http://arxiv.org/abs/2007.12720v1 )

ライセンス: Link先を確認
Xiaoxue Zang, Abhinav Rastogi, Srinivas Sunkara, Raghav Gupta, Jianguo Zhang, Jindong Chen(参考訳) multiwoz(マルチウォズ)は8つのドメインにまたがる1万以上の注釈付き対話を含むタスク指向対話データセットである。 対話状態追跡のベンチマークとして広く使われている。 しかし、近年の研究では対話状態の注釈にかなりのノイズがあることが報告されている。 MultiWOZ 2.1はこれらの誤ったアノテーションとユーザー発話の多くを特定し、修正した。 この作業では、このデータセットのもう1つの改良版であるmultiwoz 2.2が導入されている。 まず,MultiWOZ 2.1上での発話の17.3%の対話状態アノテーションエラーを特定し,修正する。 第二に、多くの可能な値(レストラン名、予約時間など)を持つスロットの語彙を無効にすることで、オントロジーを再定義する。 さらに,これらのスロットに対するスロットスパンアノテーションを導入して,従来は独自の文字列マッチングヒューリスティックを使用して生成していた最新のモデル間で標準化する。 また,修正されたデータセット上でのアート対話状態追跡モデルをいくつかベンチマークし,今後の作業の比較を容易にする。 最後に,アノテーションエラーを回避するための対話データ収集のベストプラクティスについて議論する。

MultiWOZ is a well-known task-oriented dialogue dataset containing over 10,000 annotated dialogues spanning 8 domains. It is extensively used as a benchmark for dialogue state tracking. However, recent works have reported presence of substantial noise in the dialogue state annotations. MultiWOZ 2.1 identified and fixed many of these erroneous annotations and user utterances, resulting in an improved version of this dataset. This work introduces MultiWOZ 2.2, which is a yet another improved version of this dataset. Firstly, we identify and fix dialogue state annotation errors across 17.3% of the utterances on top of MultiWOZ 2.1. Secondly, we redefine the ontology by disallowing vocabularies of slots with a large number of possible values (e.g., restaurant name, time of booking). In addition, we introduce slot span annotations for these slots to standardize them across recent models, which previously used custom string matching heuristics to generate them. We also benchmark a few state of the art dialogue state tracking models on the corrected dataset to facilitate comparison for future work. In the end, we discuss best practices for dialogue data collection that can help avoid annotation errors.
翻訳日:2022-11-11 20:56:24 公開日:2020-07-10
# 国レベルの方言識別のためのマルチダイアレクトアラビア語bert

Multi-Dialect Arabic BERT for Country-Level Dialect Identification ( http://arxiv.org/abs/2007.05612v1 )

ライセンス: Link先を確認
Bashar Talafha, Mohammad Ali, Muhy Eddin Za'ter, Haitham Seelawi, Ibraheem Tuffaha, Mostafa Samir, Wael Farhan, Hussein T. Al-Natsheh(参考訳) アラビア語の方言の識別は、言語自体の多くの固有の性質の複雑な問題である。 本稿では、Nuanced Arabic Dialect Identification(NADI)共有タスクのサブタスク1に勝利したソリューションを達成するために、我々のチームであるMawdoo3 AIが実施した実験とモデルについて述べる。 方言識別サブタスクは、21のアラブ諸国すべてをカバーする21,000の国レベルのラベル付きツイートを提供する。 同じドメインから1000万ツイートのラベルのないコーパスも、コンペティション主催者によってオプションで提供される。 優勝したソリューション自体は、トレーニング済みのBERTモデルの異なるトレーニングイテレーションのアンサンブルの形で実現され、手前のサブタスクで平均26.78%のF1スコアを達成しました。 我々は、興味のある研究者のために、優勝ソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルという名前で公開します。

Arabic dialect identification is a complex problem for a number of inherent properties of the language itself. In this paper, we present the experiments conducted, and the models developed by our competing team, Mawdoo3 AI, along the way to achieving our winning solution to subtask 1 of the Nuanced Arabic Dialect Identification (NADI) shared task. The dialect identification subtask provides 21,000 country-level labeled tweets covering all 21 Arab countries. An unlabeled corpus of 10M tweets from the same domain is also presented by the competition organizers for optional use. Our winning solution itself came in the form of an ensemble of different training iterations of our pre-trained BERT model, which achieved a micro-averaged F1-score of 26.78% on the subtask at hand. We publicly release the pre-trained language model component of our winning solution under the name of Multi-dialect-Arabic-BERT model, for any interested researcher out there.
翻訳日:2022-11-11 20:55:43 公開日:2020-07-10
# ニューロモルフィック処理とセンシング:AIのスパイクへの進化

Neuromorphic Processing and Sensing: Evolutionary Progression of AI to Spiking ( http://arxiv.org/abs/2007.05606v1 )

ライセンス: Link先を確認
Philippe Reiter, Geet Rose Jose, Spyridon Bizmpikis, Ionela-Ancu\c{t}a C\^irjil\u{a}(参考訳) 機械学習とディープラーニングのアプリケーションの増加は、常に接続された自動化された世界の需要の増大に対応するために、さらに多くの計算リソースを必要としている。 Spiking Neural Networkアルゴリズムに基づくニューロモルフィック技術は、人間の脳の機能やスパイクをモデル化することで、計算と電力要求のごく一部を使って高度な人工知能を実装することを約束している。 データサイエンティストや機械学習エンジニアが人工および深層ニューラルネットワークの最新のイノベーションを開発するためのツールやプラットフォームが急増する中、新しいパラダイムへの移行には、現在の確立された基盤から構築する必要がある。 本稿では,スパイクに基づくニューロモルフィック技術の理論的研究について解説し,ハードウェアプロセッサ,ソフトウェアプラットフォーム,ニューロモルフィックセンシングデバイスの現状について概説する。 プログレクションパスは、現在の機械学習スペシャリストがスキルセットを更新し、現在の世代のディープニューラルネットワークからSNNへの分類または予測モデルを作成するために舗装されている。 これは、SpiNNakerとNengoマイグレーションツールキットという形で、既存の特別なハードウェアを活用することで実現できる。 まず、VGG-16ニューラルネットワークをSNNに変換する実験結果を共有する。 SNNの恩恵を受けやすい産業用、医療用、商業用アプリケーションへの注目が、ニューロモルフィックコンピューティングの未来に関するこの調査をまとめている。

The increasing rise in machine learning and deep learning applications is requiring ever more computational resources to successfully meet the growing demands of an always-connected, automated world. Neuromorphic technologies based on Spiking Neural Network algorithms hold the promise to implement advanced artificial intelligence using a fraction of the computations and power requirements by modeling the functioning, and spiking, of the human brain. With the proliferation of tools and platforms aiding data scientists and machine learning engineers to develop the latest innovations in artificial and deep neural networks, a transition to a new paradigm will require building from the current well-established foundations. This paper explains the theoretical workings of neuromorphic technologies based on spikes, and overviews the state-of-art in hardware processors, software platforms and neuromorphic sensing devices. A progression path is paved for current machine learning specialists to update their skillset, as well as classification or predictive models from the current generation of deep neural networks to SNNs. This can be achieved by leveraging existing, specialized hardware in the form of SpiNNaker and the Nengo migration toolkit. First-hand, experimental results of converting a VGG-16 neural network to an SNN are shared. A forward gaze into industrial, medical and commercial applications that can readily benefit from SNNs wraps up this investigation into the neuromorphic computing future.
翻訳日:2022-11-11 20:49:21 公開日:2020-07-10
# 局所的・大域的コンパクト化による対向ロバスト性の向上

Improving Adversarial Robustness by Enforcing Local and Global Compactness ( http://arxiv.org/abs/2007.05123v1 )

ライセンス: Link先を確認
Anh Bui, Trung Le, He Zhao, Paul Montague, Olivier deVel, Tamas Abraham, Dinh Phung(参考訳) 深層ニューラルネットワークが人工摂動の影響を受けやすいという事実は、特定の分野におけるディープラーニングの使用に大きな影響を与える。 このような攻撃に対する多くの発達した防衛モデルの中で、敵の訓練は幅広い攻撃に一貫して抵抗する最も成功した方法として現れる。 本研究では,深層ニューラルネットワークの上位層において,クリーンデータ例とその逆例の表現がより多様化する,というこれまでの研究から得られた観察に基づいて,局所的/グローバル的コンパクト性と,ディープニューラルネットワークの中間層上でのクラスタリング仮定を強制する逆分岐低減ネットワークを提案する。 各コンポーネントの分離行動(すなわち、局所的/グローバル的コンパクト性とクラスタリングの仮定)を理解するための包括的な実験を行い、提案モデルと最先端の対向学習法を比較した。 実験結果から,提案するコンポーネントによる対向トレーニングの強化はネットワークの堅牢性をさらに向上させ,非摂動・対向予測性能の向上につながることが示された。

The fact that deep neural networks are susceptible to crafted perturbations severely impacts the use of deep learning in certain domains of application. Among many developed defense models against such attacks, adversarial training emerges as the most successful method that consistently resists a wide range of attacks. In this work, based on an observation from a previous study that the representations of a clean data example and its adversarial examples become more divergent in higher layers of a deep neural net, we propose the Adversary Divergence Reduction Network which enforces local/global compactness and the clustering assumption over an intermediate layer of a deep neural network. We conduct comprehensive experiments to understand the isolating behavior of each component (i.e., local/global compactness and the clustering assumption) and compare our proposed model with state-of-the-art adversarial training methods. The experimental results demonstrate that augmenting adversarial training with our proposed components can further improve the robustness of the network, leading to higher unperturbed and adversarial predictive performances.
翻訳日:2022-11-11 20:48:58 公開日:2020-07-10
# 強化学習における目標条件伝達学習のための事前学習単語埋め込み

Pre-trained Word Embeddings for Goal-conditional Transfer Learning in Reinforcement Learning ( http://arxiv.org/abs/2007.05196v1 )

ライセンス: Link先を確認
Matthias Hutsebaut-Buysse, Kevin Mets, Steven Latr\'e(参考訳) 強化学習(rl)アルゴリズムは通常、事前の環境知識がなく、事前のスキルも持たずに、タブララサを開始する。 しかし、これはしばしばサンプル効率を低下させ、環境との大量の相互作用を必要とする。 これは、エージェントがその能力を継続的に拡張する必要がある生涯学習環境において特に当てはまる。 本稿では,事前学習したタスク非依存言語モデルを用いて,目標条件付きRLエージェントをより効率的にサンプル化する方法を検討する。 異なるタスク間の転送学習を容易にすることで、これを実現します。 我々は,オブジェクトナビゲーションタスクのセットに対するアプローチを実験的に実証した。

Reinforcement learning (RL) algorithms typically start tabula rasa, without any prior knowledge of the environment, and without any prior skills. This however often leads to low sample efficiency, requiring a large amount of interaction with the environment. This is especially true in a lifelong learning setting, in which the agent needs to continually extend its capabilities. In this paper, we examine how a pre-trained task-independent language model can make a goal-conditional RL agent more sample efficient. We do this by facilitating transfer learning between different related tasks. We experimentally demonstrate our approach on a set of object navigation tasks.
翻訳日:2022-11-11 20:48:26 公開日:2020-07-10
# 不確実位相写像を用いた計画学習

Learning to plan with uncertain topological maps ( http://arxiv.org/abs/2007.05270v1 )

ライセンス: Link先を確認
Edward Beeching and Jilles Dibangoye and Olivier Simonin and Christian Wolf(参考訳) エージェントに高レベルグラフベースのプランナとローカルポリシーを含む階層戦略を用いて3次元環境をナビゲートするように訓練する。 我々の主な貢献は、トポロジカルマップにおける不確実性の下での計画のためのデータ駆動学習に基づくアプローチであり、確率的構造を持つ有価グラフにおける最短経路を推定する必要がある。 従来の記号アルゴリズムはノイズのないトポロジや確率的構造を持つグラフ上での確率的感覚で最適な結果を得るのに対して、機械学習は、例えば地図の各場所に利用可能な視覚情報など、リッチな高次元のノードの特徴を考慮して、グラフの欠落した情報を克服できることを示す。 純粋に学習したニューラルネットワークのホワイトボックスアルゴリズムと比較すると,動的プログラミングに基づく最短経路アルゴリズムに対する帰納的バイアスでニューラルネットワークを構築し,神経モデルの特定のパラメータ化がベルマン・フォードアルゴリズムに対応することを示す。 実写3D環境における本手法の実証解析により,学習したニューラルプランナーに視覚的特徴を取り入れることで,グラフベース計画における古典的記号解よりも優れることを示した。

We train an agent to navigate in 3D environments using a hierarchical strategy including a high-level graph based planner and a local policy. Our main contribution is a data driven learning based approach for planning under uncertainty in topological maps, requiring an estimate of shortest paths in valued graphs with a probabilistic structure. Whereas classical symbolic algorithms achieve optimal results on noise-less topologies, or optimal results in a probabilistic sense on graphs with probabilistic structure, we aim to show that machine learning can overcome missing information in the graph by taking into account rich high-dimensional node features, for instance visual information available at each location of the map. Compared to purely learned neural white box algorithms, we structure our neural model with an inductive bias for dynamic programming based shortest path algorithms, and we show that a particular parameterization of our neural model corresponds to the Bellman-Ford algorithm. By performing an empirical analysis of our method in simulated photo-realistic 3D environments, we demonstrate that the inclusion of visual features in the learned neural planner outperforms classical symbolic solutions for graph based planning.
翻訳日:2022-11-11 20:48:14 公開日:2020-07-10
# 未知の対戦相手に対する連続試合の学習

Learning to Play Sequential Games versus Unknown Opponents ( http://arxiv.org/abs/2007.05271v1 )

ライセンス: Link先を確認
Pier Giuseppe Sessa, Ilija Bogunovic, Maryam Kamgarpour, Andreas Krause(参考訳) まず,学習者と選択した行動に反応する相手との間で繰り返し行われる連続的なゲームについて考察する。 我々は,学習者が相手とうまく対話するための戦略を設計する。 従来のほとんどのアプローチでは、既知の相手モデルを考えるが、敵モデルが不明な設定に焦点を当てる。 この目的のために、カーネルベースの正則性仮定を用いて、相手の応答の構造を捕捉し、活用する。 対戦相手の対戦相手列と対戦する際の学習者に対する新しいアルゴリズムを提案する。 このアルゴリズムは、二段階最適化とオンライン学習のアイデアを組み合わせて、探索(相手のモデルについて学ぶ)と搾取(学習者に高い報酬を与える行動を選択する)を効果的にバランスさせる。 結果には,対戦相手の応答の正則性に依存するアルゴリズムの後悔保証や,ゲームラウンド数とサブリニアにスケールすることが含まれる。 さらに,stackelbergの繰り返しゲームへのアプローチを専門とし,交通経路と野生生物保全タスクにおけるその効果を実証的に実証する。

We consider a repeated sequential game between a learner, who plays first, and an opponent who responds to the chosen action. We seek to design strategies for the learner to successfully interact with the opponent. While most previous approaches consider known opponent models, we focus on the setting in which the opponent's model is unknown. To this end, we use kernel-based regularity assumptions to capture and exploit the structure in the opponent's response. We propose a novel algorithm for the learner when playing against an adversarial sequence of opponents. The algorithm combines ideas from bilevel optimization and online learning to effectively balance between exploration (learning about the opponent's model) and exploitation (selecting highly rewarding actions for the learner). Our results include algorithm's regret guarantees that depend on the regularity of the opponent's response and scale sublinearly with the number of game rounds. Moreover, we specialize our approach to repeated Stackelberg games, and empirically demonstrate its effectiveness in a traffic routing and wildlife conservation task
翻訳日:2022-11-11 20:47:52 公開日:2020-07-10
# 神経マルチホップ推論への論理ルールの統合による薬物再導入

Integrating Logical Rules Into Neural Multi-Hop Reasoning for Drug Repurposing ( http://arxiv.org/abs/2007.05292v1 )

ライセンス: Link先を確認
Yushan Liu, Marcel Hildebrandt, Mitchell Joblin, Martin Ringsquandl, Volker Tresp(参考訳) バイオメディカルデータのグラフ構造は、典型的なナレッジグラフベンチマークタスクのグラフ構造とは異なる。 バイオメディカルデータの特徴は、長距離依存の存在であり、論理的な規則として記述されたパターンによって捉えられる。 本稿では,これらのルールと強化学習を用いたニューラルマルチホップ推論手法を組み合わせた新しい手法を提案する。 我々は,この課題をリンク予測問題として定式化することにより,創薬の現実の課題に基づく実証研究を行う。 本手法をバイオメディカルナレッジグラフヘティネットに適用し,本手法がいくつかのベースライン手法よりも優れていることを示す。

The graph structure of biomedical data differs from those in typical knowledge graph benchmark tasks. A particular property of biomedical data is the presence of long-range dependencies, which can be captured by patterns described as logical rules. We propose a novel method that combines these rules with a neural multi-hop reasoning approach that uses reinforcement learning. We conduct an empirical study based on the real-world task of drug repurposing by formulating this task as a link prediction problem. We apply our method to the biomedical knowledge graph Hetionet and show that our approach outperforms several baseline methods.
翻訳日:2022-11-11 20:47:34 公開日:2020-07-10
# マルチフュージョン商取引予測

Multi-future Merchant Transaction Prediction ( http://arxiv.org/abs/2007.05303v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Zhongfang Zhuang, Wei Zhang, Liang Wang(参考訳) 商取引履歴から生成される多変量時系列は、決済処理会社にとって重要な洞察を与えることができる。 商人の将来を予測する能力は、不正検出とレコメンデーションシステムに不可欠である。 従来、この問題はマルチホリゾン設定下で1つの多変量時系列を予測するために定式化されている。 しかし、実世界のアプリケーションでは、不確実性を考慮した将来のトレンド予測が複数回必要であり、複数の多変量時系列を予測する必要がある。 この問題は多未来予測と呼ばれる。 本研究では,この2つの研究方向を組み合わせることで,マルチ未来,マルチホリゾン,多変量時系列予測という新たな課題を考察する。 この問題は、金融業界において、代替先を提供することでユーザエクスペリエンスを改善しつつリスクを低減するための幅広いユースケースがあるため、極めて重要である。 過去のパターンや洞察を捉えるだけでなく、複数の可能な成果を投影する強力な推論能力を持つモデルをトレーニングする必要があるため、この問題もまた困難です。 この問題を解決するために,畳み込みニューラルネットワークと,複数の視点から時系列パターンを学習する簡単なエンコーダ・デコーダ構造を用いた新しいモデルを提案する。 実世界の商取引データを用いた実験を行い,提案モデルの有効性を実証した。 また、実験セクションで異なるモデル設計の選択について広範な議論を行う。

The multivariate time series generated from merchant transaction history can provide critical insights for payment processing companies. The capability of predicting merchants' future is crucial for fraud detection and recommendation systems. Conventionally, this problem is formulated to predict one multivariate time series under the multi-horizon setting. However, real-world applications often require more than one future trend prediction considering the uncertainties, where more than one multivariate time series needs to be predicted. This problem is called multi-future prediction. In this work, we combine the two research directions and propose to study this new problem: multi-future, multi-horizon and multivariate time series prediction. This problem is crucial as it has broad use cases in the financial industry to reduce the risk while improving user experience by providing alternative futures. This problem is also challenging as now we not only need to capture the patterns and insights from the past but also train a model that has a strong inference capability to project multiple possible outcomes. To solve this problem, we propose a new model using convolutional neural networks and a simple yet effective encoder-decoder structure to learn the time series pattern from multiple perspectives. We use experiments on real-world merchant transaction data to demonstrate the effectiveness of our proposed model. We also provide extensive discussions on different model design choices in our experimental section.
翻訳日:2022-11-11 20:47:26 公開日:2020-07-10
# Vizarel:RLエージェントの理解を深めるシステム

Vizarel: A System to Help Better Understand RL Agents ( http://arxiv.org/abs/2007.05577v1 )

ライセンス: Link先を確認
Shuby Deshpande, Jeff Schneider(参考訳) 教師あり学習のための視覚化ツールにより、ユーザーはモデルの成功と失敗を解釈し、内省し、直観的に理解することができる。 強化学習実践者は、同じ質問の多くを問うが、既存のツールはRL設定には適用できない。 本稿では,このようなシステムをカプセル化する可能性のある特徴を特定することにより,これらのアイデアのプロトタイプを構築する最初の試みについて述べる。 我々の設計は、解釈可能な強化学習を実験するためのプラットフォームとしてシステムを構想することによるものである。

Visualization tools for supervised learning have allowed users to interpret, introspect, and gain intuition for the successes and failures of their models. While reinforcement learning practitioners ask many of the same questions, existing tools are not applicable to the RL setting. In this work, we describe our initial attempt at constructing a prototype of these ideas, through identifying possible features that such a system should encapsulate. Our design is motivated by envisioning the system to be a platform on which to experiment with interpretable reinforcement learning.
翻訳日:2022-11-11 20:46:48 公開日:2020-07-10