このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200301となっている論文です。

PDF登録状況(公開日: 20200301)

TitleAuthorsAbstract論文公表日・翻訳日
# ブロックチェーンベースのスマートグリッド:アプリケーション,機会,今後の方向性

A Review of Blockchain-based Smart Grid: Applications,Opportunities, and Future Directions ( http://arxiv.org/abs/2002.05650v2 )

ライセンス: Link先を確認
N. Arjomand and H. Sami Ullah and S. Aslam(参考訳) スマートグリッド(sg)の概念は、経済と環境の状況を改善するためにエネルギー部門をより可用性、信頼性、効率に移す前例のない機会を与えた。 再生可能エネルギー源(solar & wind)は、環境や経済の問題や課題を理解するためにスマートグリッドで使用される技術である。 スマートグリッドは、電力の効率的かつタイムリーな伝送によって、さまざまな混雑したセクターでエネルギーを提供する。 しかし、従来の電力網は、大量の接続を持つエネルギー取引の中央集権的なアプローチを踏襲し、グリッド内の電力の乱れに対処することがより困難になる。 分散型および分散テクノロジとしてのブロックチェーンは、スマートグリッドインフラストラクチャの優れた機能を備えた、有望なアプリケーションを提供します。 本稿では,スマートグリッドにおけるブロックチェーンアーキテクチャ,概念,アプリケーションの簡潔なレビューを行う。 スマートグリッドによるブロックチェーン技術の可能性も議論されている。 将来いくつかの方向が論文を締めくくった。

The Smart Grid (SG) concept presented an unprecedented opportunity to move the energy sector to more availability, reliability, and efficiency to improve our economic and environmental conditions. Renewable energy sources (Solar & Wind) are such technologies that are used in the smart grid to figure out the environmental and economic issues and challenges. Smart grids provide energy in different crowded sectors with the efficient and timely transmission of electricity. But the traditional power grids follow a centralized approach for energy transactions with a large number of growing connections and become more challenging to handle power disturbance in the grid. Blockchain as a decentralized and distributed technology provides promising applications in the smart grid infrastructure with its excellent and salient features. In this paper, we provide a concise review of blockchain architecture, concepts, and applications in smart grids. Different potential opportunities for blockchain technology with smart grids are also discussed. Some future directions concluded the paper.
翻訳日:2023-06-05 02:30:55 公開日:2020-03-01
# フォノン導波路によるSiV中心の定常状態の絡み合い

Phononic waveguide assisted steady state entanglement of SiV centers ( http://arxiv.org/abs/2002.10760v2 )

ライセンス: Link先を確認
Yi-Fan Qiao, Hong-Zhen Li, Xing-Liang Dong, Jia-Qiang Chen, Yuan Zhou, and Peng-Bo Li(参考訳) 多粒子絡み合いは量子力学や量子情報処理において非常に重要である。 本稿では, シリコン空孔中心の配列を擬1次元音響導波路内に埋め込んだ固体状態で安定な多粒子絡み合わせを効率よく生成する手法を提案する。 このスキームでは、フォノンモードの連続体はSiV中心間の制御可能な散逸結合を誘導する。 siv中心間の距離を適切に選択することで、破壊的干渉により双極子-双極子相互作用をオフにすることができ、ディッキン超放射モデルを実現する。 これにより、高い忠実度を持つSiV中心の絡み合った定常状態が生じる。 このプロトコルは、固体システムにおける多粒子絡み合いの発生のための実現可能なセットアップを提供する。

Multiparticle entanglement is of great significance for quantum metrology and quantum information processing. We here present an efficient scheme to generate stable multiparticle entanglement in a solid state setup, where an array of silicon-vacancy centers are embedded in a quasi-one-dimensional acoustic diamond waveguide. In this scheme, the continuum of phonon modes induces a controllable dissipative coupling among the SiV centers. We show that, by an appropriate choice of the distance between the SiV centers, the dipole-dipole interactions can be switched off due to destructive interferences, thus realizing a Dicke superradiance model. This gives rise to an entangled steady state of SiV centers with high fidelities. The protocol provides a feasible setup for the generation of multiparticle entanglement in a solid state system.
翻訳日:2023-06-02 00:05:27 公開日:2020-03-01
# 三角形構造における局所光伝導の幾何誘起循環

Geometry-induced circulation of local photonic transport in a triangular metastructure ( http://arxiv.org/abs/2003.00561v1 )

ライセンス: Link先を確認
Palak Dugar, Michael Scheibner, and Chih-Chun Chien(参考訳) 光子循環を誘導する幾何学的機構は、光子構造に結合した三角形に配置された量子ドットからなる構造によって説明される。 量子ドット内の光子と励起子の間の結合は光子を遮断し、輸送に関与する光子の数を制限する。 光子の量子マスター方程式によって記述される定常状態において、局所光子電流は、多経路幾何学における波動の性質に由来する異なる循環パターンを示す。 幾何学に基づくメカニズムは、光-物質相互作用による人工ゲージ場を必要としない。 各部位で許される光子の数が増加するにつれて、異なる循環パターンがどこにあるかを示す位相図が飽和する。 第3の量子化形式を用いることで、非相互作用の場合、光子遮断なしで循環が生き残ることを示す。 さらに, 密度差から局所電流方向の疎結合を実証し, 局所光輸送の応用の可能性を示した。

A geometry-based mechanism for inducing circulation of photons is illustrated by a metastructure consisting of quantum dots arranged in a triangle coupled to photonic structures. The coupling between the photons and the excitons in the quantum dots leads to a photon blockade and limits the number of photons participating in the transport. In the steady state described by the quantum master equation of photons, the local photonic currents exhibit distinct circulation patterns, which originate from the wave nature in a multi-path geometry. The geometry-based mechanism does not require an artificial gauge field from light-matter interactions. The phase diagrams showing where different patterns of circulation can be found saturate as the number of photons allowed on each site increases. By using the third-quantization formalism, we show the circulation survives without any photon blockade in the noninteracting case. Moreover, we demonstrate the decoupling of the direction of the local current from the density difference and propose possible applications of the local photonic transport.
翻訳日:2023-06-01 03:45:45 公開日:2020-03-01
# 量子力学の確率表現におけるスピン運動方程式

Spin kinetic equations in the probability representation of quantum mechanics ( http://arxiv.org/abs/2003.00485v1 )

ライセンス: Link先を確認
Vladimir N. Chernega, Vladimir I. Man'ko(参考訳) 純粋状態のシュレーディンガー方程式と混合状態のフォン・ノイマン方程式(およびgksl方程式)によって記述されるスピン状態のダイナミクスを確率分布の量子論的方程式として定式化する可能性について議論する。 本稿では,双調確率変数の確率分布を用いたスピン状態記述のアプローチについて検討する。

We discuss the possibility to formulate the dynamics of spin states described by the Schrodinger equation for pure states and the von Neumann equation (as well as the GKSL equation) for mixed states in the form of quantum kinetic equations for probability distributions. We review an approach to the spin-state description by means of the probability distributions of dichotomic random variables.
翻訳日:2023-06-01 03:45:32 公開日:2020-03-01
# ランダム化量子ウォーク

Randomizing Quantum Walk ( http://arxiv.org/abs/2003.00440v1 )

ライセンス: Link先を確認
Rashid Ahmad, Safia Bibi, Uzma Sajjad(参考訳) 標準的な「離散時間量子ウォーク(DTQW)」における歩行器の進化は、コインとシフトユニタリ演算子によって決定される。 条件シフト演算子は、動きの方向がコインオペレータによって指定されている間、ウォーカーの位置を単位ステップサイズで右または左にシフトする。 このシナリオは、特定の間隔で各ステップでランダムにステップサイズを選択することで一般化することができる。 例えば、コインを投げた後のステップサイズを指定するためにサイコロのロールの値を用いることができる。 このような量子ウォークを "Discrete-time Random Step Quantum Walk (DTRSQW)" と呼びましょう。 ウォーカーがdtrsqwに従うと、完全にランダムな確率分布が得られる。 また、「離散時間非バイアス量子ウォーク」(DTUBQW)と「離散時間バイアス量子ウォーク」(DTBQW)の2種類の量子ウォークも分析した。 第1のタイプでは、ステップサイズは単位サイズと異なるが、左シフトと右シフトは同じだが、第2のタイプでは左シフトと右シフトも異なることがある。 dtubqw の確率分布は、ある規則に従うことが分かる。 DTRSQWの標準偏差(\sigma$)はDTQWよりも高く、DTRSQWは速く広がる。 DTUBQWの$\sigma$は、回転角とステップの特定の値に対してDTQWよりも速く広がるソートゥース挙動を示す。

The evolution of a walker in standard "Discrete-time Quantum Walk (DTQW)" is determined by coin and shift unitary operators. The conditional shift operator shifts the position of the walker to right or left by unit step size while the direction of motion is specified by the coin operator. This scenario can be generalized by choosing the step size randomly at each step in some specific interval. For example, the value of the roll of a dice can be used to specify the step size after throwing the coin. Let us call such a quantum walk "Discrete-time Random Step Quantum Walk (DTRSQW)". A completely random probability distribution is obtained whenever the walker follows the DTRSQW. We have also analyzed two more types of quantum walks, the "Discrete-time Un-biased Quantum Walk (DTUBQW)" and the "Discrete-time Biased Quantum Walk (DTBQW)". In the first type, the step size is kept different than unit size but the same for left and right shifts, whereas in the second type left and right shifts can also be different. The probability distribution in DTUBQW is found to follow a certain rule. The standard deviation ($\sigma$) of DTRSQW is higher than DTQW and hence DTRSQW spreads faster. The $\sigma$ of DTUBQW shows sawtooth behavior with faster spread than DTQW for some specific values of rotation angles and steps.
翻訳日:2023-06-01 03:44:56 公開日:2020-03-01
# 280kmで1デコイ状態の量子デジタルシグネチャの実証実験

280-km experimental demonstration of quantum digital signature with one decoy state ( http://arxiv.org/abs/2003.00420v1 )

ライセンス: Link先を確認
Hua-Jian Ding, Jing-Jing Chen, Liang Ji, Xing-Yu Zhou, Chun-Hui Zhang, Chun-Mei Zhang, Qin Wang(参考訳) 量子デジタルシグネチャ(QDS)は、情報理論のセキュリティを備えたシグネチャメッセージの偽造性、非監査性、転送性を保証する。 しかし、qdsの以前の実装のほとんどは、比較的低い署名率または短い伝送距離を示した。 本稿では,1つのデコイ状態のみを用いた基本位相符号化QDSデモを報告する。 第一に、この方法は真空状態の変調を回避し、実験の複雑さと乱数消費を減少させる。 さらに,低損失の非対称マッハツェンダー干渉計と実時間偏光校正手法を組み込んで,0.98ビット/秒の103kmでのシグネチャ率の向上と,280kmの設置ファイバを用いた記録的な伝送距離の達成に成功した。 私たちの研究は、qdsの現実の応用への大きな一歩です。

Quantum digital signature (QDS) guarantee the unforgeability, nonrepudiation and transferability of signature messages with information-theoretical security, and hence has attracted much attention recently. However, most previous implementations of QDS showed relatively low signature rates or/and short transmission distance. In this paper, we report a proof-of-principle phase-encoding QDS demonstration using only one decoy state. Firstly, such method avoids the modulation of vacuum state, thus reducing experimental complexity and random number consumption. Moreover, incorporating with low-loss asymmetric Mach-Zehnder interferometers and real-time polarization calibration technique, we have successfully achieved higher signature rate, e.g., 0.98 bit/s at 103 km, and to date a record-breaking transmission distance over 280-km installed fibers. Our work represents a significant step towards real-world applications of QDS.
翻訳日:2023-06-01 03:44:35 公開日:2020-03-01
# 高分子量子力学におけるシンプレクティック群

The symplectic group in Polymer Quantum Mechanics ( http://arxiv.org/abs/2003.00388v1 )

ライセンス: Link先を確認
Angel Garcia-Chung(参考訳) 本稿では、高分子量子力学におけるシンプレクティック群 $Sp(2n, \mathbb{R})$ の表現について述べる。 ポリマースケールを考慮せずに, ポリマー自由粒子のプロパゲータとポリマー高調波発振器を導出する。 次に、ポリマーのスケールを導入し、その結果をポリマー自由粒子の表現と整合させる。 ポリマー高調波発振器のプロパゲータは非ユニタリ進化を意味する。

In this paper we provide the representation of the symplectic group $Sp(2n, \mathbb{R})$ in polymer quantum mechanics. We derive the propagator of the polymer free particle and the polymer harmonic oscillator without considering a polymer scale. The polymer scale is then introduced to reconcile our results with those expressions for the polymer free particle. The propagator for the polymer harmonic oscillator implies non-unitary evolution.
翻訳日:2023-06-01 03:44:16 公開日:2020-03-01
# AccQOC: 量子最適制御に基づくパルス生成の高速化

AccQOC: Accelerating Quantum Optimal Control Based Pulse Generation ( http://arxiv.org/abs/2003.00376v1 )

ライセンス: Link先を確認
Jinglei Cheng, Haoqing Deng and Xuehai Qian(参考訳) 過去数十年間、量子コンピューティングの急速な成長を目の当たりにしてきた。 現在のノイズ中間スケール量子(NISQ)時代には、量子マシンの能力はデコヒーレンス時間、ゲート忠実度、Qubitsの数によって制限される。 現在の量子コンピューティングアプリケーションは、数マイクロ秒間だけ絡み合える脆弱な物理Qubitsのため、真の「量子超越性」とは程遠い。 最近の研究は量子回路のレイテンシを減らすために量子最適制御を使い、量子体積を効果的に増加させている。 しかし、このテクニックの重要な課題は、長いコンパイル時間による大きなオーバーヘッドである。 本稿では,qoc(量子最適制御)を用いてゲート群(行列に相当)をパルスに変換する,包括的な静的/動的ハイブリッドワークフローであるaccqocを提案する。 AccQOCは静的プリコンパイルと動的コンパイルの高速化で構成されている。 AccQOCの方法論では、コンパイル時間と全体的なレイテンシのバランスのとれたポイントに達しました。 その結果、MSTに基づく高速化コンパイルは、各グループの標準コンパイルと比較して9.88倍の高速化を実現し、ゲートベースのコンパイルに比べて平均2.43倍のレイテンシ低減を実現した。

In the last decades, we have witnessed the rapid growth of Quantum Computing. In the current Noisy Intermediate-Scale Quantum (NISQ) era, the capability of a quantum machine is limited by the decoherence time, gate fidelity and the number of Qubits. Current quantum computing applications are far from the real "quantum supremacy" due to the fragile physical Qubits, which can only be entangled for a few microseconds. Recent works use quantum optimal control to reduce the latency of quantum circuits, thereby effectively increasing quantum volume. However, the key challenge of this technique is the large overhead due to long compilation time. In this paper, we propose AccQOC, a comprehensive static/dynamic hybrid workflow to transform gate groups (equivalent to matrices) to pulses using QOC (Quantum Optimal Control) with a reasonable compilation time budget. AccQOC is composed of static pre-compilation and accelerated dynamic compilation. With the methodology of AccQOC, we reached a balanced point of compilation time and overall latency. The results show that accelerated compilation based on MST achieves 9.88x compilation speedup compared to the standard compilation of each group while maintaining an average 2.43x latency reduction compared with gate-based compilation.
翻訳日:2023-06-01 03:44:02 公開日:2020-03-01
# 宇宙弦時空における変動電磁場と結合する原子の量子絡み合い

Quantum entanglement for atoms coupling to fluctuating electromagnetic field in the cosmic string spacetime ( http://arxiv.org/abs/2003.02223v1 )

ライセンス: Link先を確認
Zhiming Huang(参考訳) 宇宙弦時空のゆらぎ電磁場と結合する2つの原子のエンタングルメントダイナミクスについて検討する。 異なる条件の絡み合いを計算する。 その結果, 絡み合いの挙動は真空揺らぎ, 時空トポロジー, 2原子分離, 原子分極配向に依存することがわかった。 長い進化の後、エンタングルメントは消滅し、電磁揺らぎの影響を受けるエンタングルメントは長期間維持できない。 異なる時空位相に対して、絡み合いは様々なパラメータに依存する異なる挙動を示す。 欠陥角パラメータ$\nu=1$と原子ストリング距離が無限遠のとき、平坦な時空の結果が復元される。 特に、2つの原子が弦上に位置し、軸方向の偏極を持たない場合、原子は電磁ゆらぎの影響を受けず、絡みは変わらない。 2原子分離が比較的大きい場合、絡み合いは原子弦距離が変化するにつれて振動挙動を示す。 このことは、弦の存在が真空揺らぎと原子-磁場相互作用に大きく変化していることを示している。 さらに、二原子分離が小さいと、絡み合いは改善される。 多くのパラメータと条件は、絡み合いの振る舞いを制御する自由を提供する。 原理として、これは宇宙弦時空トポロジーの構造と性質を感知し、異なる種類の時空を識別するのに有用である。

We investigate entanglement dynamics for two atoms coupling with fluctuating electromagnetic field in the cosmic string spacetime. We calculate the entanglement for different conditions. It is found that the entanglement behaviors are dependent on vacuum fluctuation, spacetime topology, two-atom separation and atomic polarization orientation. After a long time of evolution, entanglement would vanish, which means entanglement affected by electromagnetic fluctuation can not maintain for a long time. For different spacetime topologies, entanglement presents different behaviors dependent on various parameters. When deficit angle parameter $\nu=1$ and atom-string distance is towards infinity, the results in flat spacetime are recovered. When atoms keep close to the string, entanglement can be improved; specially, when two atoms locate on the string and have no polarization of axial direction, atoms are not affected by the electromagnetic fluctuation and entanglement can remain unchanged. When two-atom separation is relatively large, entanglement exhibits oscillation behavior as atom-string distance varies. This indicates that the existence of string profoundly modifies on the vacuum fluctuation and atom-field interaction. In addition, when two-atom separation is small, entanglement gains better improvement. Many parameters and conditions provide us with greater freedom to control the entanglement behaviors. In principle, this is useful to sense the cosmic string spacetime topology structure and property, and discriminate different kinds of spacetime.
翻訳日:2023-06-01 03:36:17 公開日:2020-03-01
# 量子力学の確率表現におけるパラメトリック振動子のコヒーレント状態

Coherent states of parametric oscillators in the probability representation of quantum mechanics ( http://arxiv.org/abs/2003.01556v1 )

ライセンス: Link先を確認
Vladimir N. Chernega, Olga V. Man'ko(参考訳) 量子系のグラウバーコヒーレント状態について概説する。 振動子の状態のトモグラフィ的確率分布を構築する。 トモグラフィ確率分布(tomograms)による量子状態の記述の可能性は、パラメトリック発振器のコヒーレント状態の例に示される。 位置と運動量における運動線形の積分は、古典的パラメトリック発振器の軌跡で表されるトモグラム進化を明示的に得るために用いられる

Glauber coherent states of quantum systems are reviewed. We construct the tomographic probability distributions of the oscillator states. The possibility to describe quantum states by tomographic probability distributions (tomograms) is presented on an example of coherent states of parametric oscillator. The integrals of motion linear in the position and momentum are used to explicitly obtain the tomogram evolution expressed in terms of trajectories of classical parametric oscillator
翻訳日:2023-06-01 03:35:56 公開日:2020-03-01
# 量子状態における絡み合い分離性境界

Entanglement-Separability Boundary Within a Quantum State ( http://arxiv.org/abs/2003.00607v1 )

ライセンス: Link先を確認
Bang-Hai Wang(参考訳) 量子状態は量子力学における重要な数学的対象であり、絡み合いは量子情報処理と計算の生まれたばかりの分野の中心にある。 したがって、任意の量子状態が絡み合うか分離可能であるかを決定することは、基礎物理学と実用的応用の両方を調べる上で非常に重要である。 ここで、任意の二成分状態は一意に純粋に絡み合った構造と一意に分離可能な構造に分けられることを示す。 量子状態が絡み合っているか否かは、純粋に絡み合っている構造の重みと純粋に分離可能な構造の重みの比によって決定されることを示す。 本稿では, 完全絡み合い構造と純粋分離構造に対する一般アルゴリズムと, 長年の未解決問題であった最適分離性近似(BSA)分解のための一般アルゴリズムを提案する。 この結果は、量子状態が理論上はファミリーとして存在し、家族の絡み合い(分離性)は家族の重要なメンバーを参照することによって決定できることを示している。

Quantum states are the key mathematical objects in quantum mechanics, and entanglement lies at the heart of the nascent fields of quantum information processing and computation. What determines whether an arbitrary quantum state is entangled or separable is therefore very important for investigating both fundamental physics and practical applications. Here we show that an arbitrary bipartite state can be divided into a unique purely entangled structure and a unique purely separable structure. We show that whether a quantum state is entangled or not is determined by the ratio of its weight of the purely entangled structure and its weight of the purely separable structure. We provide a general algorithm for the purely entangled structure and the purely separable structure, and a general algorithm for the best separable approximation (BSA) decomposition, that has been a long-standing open problem. Our result implies that quantum states exist as families in theory, and that the entanglement (separability) of family members can be determined by referring to a crucial member of the family.
翻訳日:2023-06-01 03:35:47 公開日:2020-03-01
# 位相超伝導体で観測される分数小パークス効果

Fractional Little-Parks effect observed in a topological superconductor ( http://arxiv.org/abs/2003.00603v1 )

ライセンス: Link先を確認
Yufan Li, Xiaoying Xu, Shu-Ping Lee, and C. L. Chien(参考訳) 超伝導体では、クーパー対の凝縮は、離散単位 $\phi_0 = hc / 2e$ のフラックス状量子化をもたらす。 2e$の分母は電子対の署名であり、これはリトルパークス効果やジョセフソン効果のような多くのマクロ量子現象によって証明され、臨界温度や臨界電流は$\phi_0$の周期で振動する。 本稿では, トポロジカル超伝導体であるエピタキシャル$\beta$-Bi$_2$PdのメソスコピックリングにおけるLittle-Parks効果の観察について報告する。 新規のLittle-Parks発振周期は$\Phi_0$、$3\Phi_0$、$4\Phi_0$も観測されており、実質的に電荷がクーパー対の分数である準粒子を示唆している。 分数的なLittle-Parks効果は、キラルなMajoranaエッジ状態のキーシグネチャである分数的なJosephson効果と密接に関連していることが示される。

In superconductors, the condensation of Cooper pairs gives rise to fluxoid quantization in discrete units of $\Phi_0 = hc / 2e$. The denominator of $2e$ is the signature of electron pairing, which is evidenced by a number of macroscopic quantum phenomena, such as the Little-Parks effect and the Josephson effect, where the critical temperature or the critical current oscillates in the period of $\Phi_0$. Here we report the observation of fractional Little-Parks effect in mesoscopic rings of epitaxial $\beta$-Bi$_2$Pd, a topological superconductor. Besides $\Phi_0$, novel Little-Parks oscillation periodicities of $2\Phi_0$, $3\Phi_0$ and $4\Phi_0$ are also observed, implying quasiparticles with effective charges being a fraction of a Cooper pair. We show that the fractional Little-Parks effect may be closely related to the fractional Josephson effect, which is a key signature of chiral Majorana edge states.
翻訳日:2023-06-01 03:35:29 公開日:2020-03-01
# 量子重力不定因構造からの紫外正則性

Ultraviolet regularity from quantum gravitational indefinite causal structure ( http://arxiv.org/abs/2003.00562v1 )

ライセンス: Link先を確認
Ding Jia(参考訳) 不定因果構造は、経路積分の定式化を許す量子重力理論に一般に存在する。 因果構造の和は物質QFTの紫外線散逸を排除し、非摂動的世界量子重力法を用いて時空特異点を解消することを示す。 独立な情報理論とモデル非依存の考察は、不定因果構造による紫外線正規化のメカニズムが他の量子重力理論にも適用されることを示唆している。

Indefinite causal structure is generically present in theories of quantum gravity admitting a path integral formulation. We show that summing over causal structures eliminates ultraviolet divergences of matter QFT and resolves spacetime singularities using the non-perturbative World Quantum Gravity approach. Independent information-theoretic and model-independent considerations suggest that the mechanism of ultraviolet regularization by indefinite causal structure also applies to other theories of quantum gravity.
翻訳日:2023-06-01 03:34:20 公開日:2020-03-01
# 顔識別のための深部畳み込みニューラルネットワーク符号における単一単位状態:スパースネス再定義

Single Unit Status in Deep Convolutional Neural Network Codes for Face Identification: Sparseness Redefined ( http://arxiv.org/abs/2002.06274v2 )

ライセンス: Link先を確認
Connor J. Parde, Y. Ivette Col\'on, Matthew Q. Hill, Carlos D. Castillo, Prithviraj Dhar, Alice J. O'Toole(参考訳) 顔識別のために訓練された深層畳み込みニューラルネットワーク(dcnn)は、対象(性別など)と画像(視点など)情報を保持しながら、可変イメージを一般化する表現を開発する。 顔識別ネットワークの「ニューラルユニット」とアンサンブルレベルにおいて、アイデンティティー、性別、視点符号について検討した。 単位レベルでは、識別、性別分類、視点推定を削除により測定し、トップネットワーク層に可変サイズ、ランダムにサンプリングされた部分空間を作成する。 寸法が 512 単位から 16 (0.95), 4 (0.80), 2 (0.72) 単位に減少したため, 3,531 単位の同定は高いままであった。 個々のアイデンティティは、各上位層のユニットで統計的に分離される。 クロスユニット応答は最小限に相関しており、単位が非冗長なアイデンティティーキューをコードしていることを示している。 この"分散"コードは、顔を正確に識別するために、ばらばらでランダムなユニットのサンプルだけを必要とする。 性別分類は徐々に低下し、次元が減少するにつれて視点推定は急落した。 個々のユニットは性別や視点が弱いが、アンサンブルは効果的な予測を証明した。 したがって、分散およびスパース符号は、異なる顔属性を表現するためにネットワーク単位に共存する。 アンサンブルレベルでは, 顔表現の主成分分析により, 同一性, 性別, 視点情報を高次元部分空間に分割し, 説明分散により順序付けした。 アイデンティティ、性別、ビューポイント情報は、すべての個々のユニット応答に寄与し、顔属性のニューラルネットワークチューニングアナロジーを損なう。 DCNNからのニューラルライクなコードや、アナログ、高レベルな視覚的コードの解釈は、単一の単位応答から推測することはできない。 代わりに、"meaning" は高次元空間の方向によって符号化される。

Deep convolutional neural networks (DCNNs) trained for face identification develop representations that generalize over variable images, while retaining subject (e.g., gender) and image (e.g., viewpoint) information. Identity, gender, and viewpoint codes were studied at the "neural unit" and ensemble levels of a face-identification network. At the unit level, identification, gender classification, and viewpoint estimation were measured by deleting units to create variably-sized, randomly-sampled subspaces at the top network layer. Identification of 3,531 identities remained high (area under the ROC approximately 1.0) as dimensionality decreased from 512 units to 16 (0.95), 4 (0.80), and 2 (0.72) units. Individual identities separated statistically on every top-layer unit. Cross-unit responses were minimally correlated, indicating that units code non-redundant identity cues. This "distributed" code requires only a sparse, random sample of units to identify faces accurately. Gender classification declined gradually and viewpoint estimation fell steeply as dimensionality decreased. Individual units were weakly predictive of gender and viewpoint, but ensembles proved effective predictors. Therefore, distributed and sparse codes co-exist in the network units to represent different face attributes. At the ensemble level, principal component analysis of face representations showed that identity, gender, and viewpoint information separated into high-dimensional subspaces, ordered by explained variance. Identity, gender, and viewpoint information contributed to all individual unit responses, undercutting a neural tuning analogy for face attributes. Interpretation of neural-like codes from DCNNs, and by analogy, high-level visual codes, cannot be inferred from single unit responses. Instead, "meaning" is encoded by directions in the high-dimensional space.
翻訳日:2023-01-01 04:13:29 公開日:2020-03-01
# 適応型センターとスケール予測: より安定し、より正確に

Adapted Center and Scale Prediction: More Stable and More Accurate ( http://arxiv.org/abs/2002.09053v2 )

ライセンス: Link先を確認
Wenhao Wang(参考訳) 歩行者検出はディープラーニング技術から恩恵を受け、近年は急速な発展を遂げている。 ほとんどの検出器は一般的な物体検出フレーム、すなわちデフォルトボックスと2段階プロセスに従う。 近年,アンカーフリーおよびワンステージ検出器がこの地域に導入されている。 しかし、彼らの判断は不満足である。 そこで,アンカーフリー検出器の簡易性と2段検出器の精度を同時に享受するために,検出器,センタ,スケール予測(csp)に基づく適応法を提案する。 本稿の主な貢献は,(1)CSPの堅牢性を改善し,訓練を容易にすることである。 2) 幅,すなわち圧縮幅を予測する新しい手法を提案する。 (3)CityPersonsベンチマークで2番目に優れた性能、すなわち、合理的なセットで9.3%のログ平均ミスレート(MR)、部分集合で8.7%のMR、素集合で5.6%のMRを達成し、アンカーフリーかつ1段検出器の精度は高い。 (4)本論文では言及されていない切換正規化の機能について検討する。

Pedestrian detection benefits from deep learning technology and gains rapid development in recent years. Most of detectors follow general object detection frame, i.e. default boxes and two-stage process. Recently, anchor-free and one-stage detectors have been introduced into this area. However, their accuracies are unsatisfactory. Therefore, in order to enjoy the simplicity of anchor-free detectors and the accuracy of two-stage ones simultaneously, we propose some adaptations based on a detector, Center and Scale Prediction(CSP). The main contributions of our paper are: (1) We improve the robustness of CSP and make it easier to train. (2) We propose a novel method to predict width, namely compressing width. (3) We achieve the second best performance on CityPersons benchmark, i.e. 9.3% log-average miss rate(MR) on reasonable set, 8.7% MR on partial set and 5.6% MR on bare set, which shows an anchor-free and one-stage detector can still have high accuracy. (4) We explore some capabilities of Switchable Normalization which are not mentioned in its original paper.
翻訳日:2022-12-30 08:02:46 公開日:2020-03-01
# MLIR:ムーアの法則を終わらせるためのコンパイラ基盤

MLIR: A Compiler Infrastructure for the End of Moore's Law ( http://arxiv.org/abs/2002.11054v2 )

ライセンス: Link先を確認
Chris Lattner, Mehdi Amini, Uday Bondhugula, Albert Cohen, Andy Davis, Jacques Pienaar, River Riddle, Tatiana Shpeisman, Nicolas Vasilache, Oleksandr Zinenko(参考訳) MLIRは再利用可能な拡張可能なコンパイラインフラストラクチャを構築するための新しいアプローチである。 MLIRは、ソフトウェアの断片化への対処、異種ハードウェアのコンパイルの改善、ドメイン固有のコンパイラ構築コストの大幅な削減、既存のコンパイラの結合の支援を目的としている。 mlirは、さまざまな抽象化レベル、アプリケーションドメイン、ハードウェアターゲット、実行環境にわたって、コードジェネレータ、トランスレータ、オプティマイザの設計と実装を促進する。 本研究の貢献には,(1) MLIRを研究成果物として論じ,拡張と進化のために構築し,設計,セマンティクス,最適化仕様,システム,工学における新たな設計点から生じる課題と機会を特定することが含まれる。 2)MLIRを汎用インフラストラクチャとして評価することにより,将来のプログラミング言語,コンパイラ,実行環境,コンピュータアーキテクチャの研究と教育の機会を示す多様なユースケースを記述したコンパイラの構築コストを削減できる。 また、MLIRの原理、その設計原理、構造、意味論についても述べる。

This work presents MLIR, a novel approach to building reusable and extensible compiler infrastructure. MLIR aims to address software fragmentation, improve compilation for heterogeneous hardware, significantly reduce the cost of building domain specific compilers, and aid in connecting existing compilers together. MLIR facilitates the design and implementation of code generators, translators and optimizers at different levels of abstraction and also across application domains, hardware targets and execution environments. The contribution of this work includes (1) discussion of MLIR as a research artifact, built for extension and evolution, and identifying the challenges and opportunities posed by this novel design point in design, semantics, optimization specification, system, and engineering. (2) evaluation of MLIR as a generalized infrastructure that reduces the cost of building compilers-describing diverse use-cases to show research and educational opportunities for future programming languages, compilers, execution environments, and computer architecture. The paper also presents the rationale for MLIR, its original design principles, structures and semantics.
翻訳日:2022-12-28 22:13:36 公開日:2020-03-01
# Data Science Fire Next Time: データサイエンスのメンタリングのための革新的戦略

The Data Science Fire Next Time: Innovative strategies for mentoring in data science ( http://arxiv.org/abs/2003.07681v1 )

ライセンス: Link先を確認
Latifa Jackson and Heriberto Acosta Maestre(参考訳) データマイニングの研究や応用が医学、金融、セキュリティなど様々な分野に拡大していくにつれ、才能と多様な個人の必要性が明らかに感じられる。 特に、ビッグデータイニシアチブが連邦政府、民間、学術セクターで離陸し、国内、国際的に豊富な機会を提供しているため、これは特にそうだ。 データマイニング(bpdm)ワークショップの広範な参加は、7年以上前に、データサイエンスと機械学習コミュニティの少数派と少数派グループへのメンターシップ、指導、つながりを育むと同時に、有能な学生のグループに対する技術的適性と露出を高めることを目的として作られた。 これまでのところ、データサイエンスの訓練生は330人を超えている。 我々は,有能な学生を産業,アカデミア,専門的社会,政府で革新的な研究者と結びつける場を提供する。 私たちのミッションはBPDM参加者間の有意義で永続的な関係を促進し、最終的にデータマイニングの多様性を高めることです。 直近のワークショップは2019年2月にワシントンD.C.のハワード大学で行われた。 ここでは、2019 BPDMで実施した指導戦略と、その受け取り方について報告する。

As data mining research and applications continue to expand in to a variety of fields such as medicine, finance, security, etc., the need for talented and diverse individuals is clearly felt. This is particularly the case as Big Data initiatives have taken off in the federal, private and academic sectors, providing a wealth of opportunities, nationally and internationally. The Broadening Participation in Data Mining (BPDM) workshop was created more than 7 years ago with the goal of fostering mentorship, guidance, and connections for minority and underrepresented groups in the data science and machine learning community, while also enriching technical aptitude and exposure for a group of talented students. To date it has impacted the lives of more than 330 underrepresented trainees in data science. We provide a venue to connect talented students with innovative researchers in industry, academia, professional societies, and government. Our mission is to facilitate meaningful, lasting relationships between BPDM participants to ultimately increase diversity in data mining. This most recent workshop took place at Howard University in Washington, DC in February 2019. Here we report on the mentoring strategies that we undertook at the 2019 BPDM and how those were received.
翻訳日:2022-12-27 13:32:54 公開日:2020-03-01
# 自動運転のための3Dポイントクラウド処理と学習

3D Point Cloud Processing and Learning for Autonomous Driving ( http://arxiv.org/abs/2003.00601v1 )

ライセンス: Link先を確認
Siheng Chen and Baoan Liu and Chen Feng and Carlos Vallespi-Gonzalez and Carl Wellington(参考訳) 本稿では,自動運転のための3Dポイントクラウド処理と学習についてレビューする。 自動運転車における最も重要なセンサーの1つとして、光検出と測光(LiDAR)センサーは、物体やシーンの外面を正確に記録する3Dポイントの雲を収集する。 3dポイントクラウド処理と学習のためのツールは、自動運転車のマップ作成、ローカライズ、知覚モジュールに不可欠である。 画像やビデオなどのカメラから収集されたデータには多くの注意が払われているが、自動運転におけるlidarの重要性と重要性を認識し、3dポイントクラウドを利用するための処理と学習アルゴリズムを提案している研究者も増えている。 この研究領域における最近の進歩を概観し、実際に安全な自動運転車に必要なものについて概観する。 また、将来的に解決する必要があるオープンな問題についても見解を提供しています。

We present a review of 3D point cloud processing and learning for autonomous driving. As one of the most important sensors in autonomous vehicles, light detection and ranging (LiDAR) sensors collect 3D point clouds that precisely record the external surfaces of objects and scenes. The tools for 3D point cloud processing and learning are critical to the map creation, localization, and perception modules in an autonomous vehicle. While much attention has been paid to data collected from cameras, such as images and videos, an increasing number of researchers have recognized the importance and significance of LiDAR in autonomous driving and have proposed processing and learning algorithms to exploit 3D point clouds. We review the recent progress in this research area and summarize what has been tried and what is needed for practical and safe autonomous vehicles. We also offer perspectives on open issues that are needed to be solved in the future.
翻訳日:2022-12-27 13:23:14 公開日:2020-03-01
# 人体免疫システムを用いたセキュリティ脅威に対する無人航空システム(UAS)の安全性確保

Securing of Unmanned Aerial Systems (UAS) against security threats using human immune system ( http://arxiv.org/abs/2003.04984v1 )

ライセンス: Link先を確認
Reza Fotohi(参考訳) UASは先進軍の戦闘能力の大部分を占めている。 特に機密情報を保管するこれらのシステムは、セキュリティ攻撃の対象となっている。 そこで,ヒト免疫システム(HIS)を用いたセキュリティ対策として,IDS(Intrusion Detection System)が提案されている。 IDSはターゲットシステムに侵入する試みを検知し、応答するために使用される。 uassは現実世界で運用されているため、様々なセンサーを用いたシステムのテストと検証は問題に直面している。 このデザインはHISにインスパイアされている。 マッピングでは、安全でない信号は抗体ベースのトレーニングパターンによって検出され、操作サイクルから取り除かれる抗原と等価である。 提案した設計の主な用途は、侵入信号の迅速検出とそれらの活動の隔離である。 また, NS-3環境下でのSuAS-HIS法の評価を行った。 シミュレーションの結果, uasネットワークの性能指標は, 偽陽性率, 偽陰性率, 検出率, パケット配送率の点で改善されていることがわかった。

UASs form a large part of the fighting ability of the advanced military forces. In particular, these systems that carry confidential information are subject to security attacks. Accordingly, an Intrusion Detection System (IDS) has been proposed in the proposed design to protect against the security problems using the human immune system (HIS). The IDSs are used to detect and respond to attempts to compromise the target system. Since the UASs operate in the real world, the testing and validation of these systems with a variety of sensors is confronted with problems. This design is inspired by HIS. In the mapping, insecure signals are equivalent to an antigen that are detected by antibody-based training patterns and removed from the operation cycle. Among the main uses of the proposed design are the quick detection of intrusive signals and quarantining their activity. Moreover, SUAS-HIS method is evaluated here via extensive simulations carried out in NS-3 environment. The simulation results indicate that the UAS network performance metrics are improved in terms of false positive rate, false negative rate, detection rate, and packet delivery rate.
翻訳日:2022-12-27 13:22:03 公開日:2020-03-01
# 人間とロボットのタスク伝達におけるエルゴノミクスの先駆者

Exploiting Ergonomic Priors in Human-to-Robot Task Transfer ( http://arxiv.org/abs/2003.00544v1 )

ライセンス: Link先を確認
Jeevan Manavalan, Prabhakar Ray, Matthew Howard(参考訳) 近年,ロボットによるタスク指向動作を直感的に教える手法を導入することで,多目的自律型ロボットの開発が急激な変化を遂げている。 本稿では,制約付き動きデータからヌル空間ポリシーを学習するために,実演によるプログラミングに基づく手法を提案する。 これを使用する主な利点は、システムの冗長性を再ターゲティングすることによるタスクの一般化と、システム全体を異なるリンク数と長さで完全に置き換えると同時に、同じ制約を受けるタスクを正確に繰り返す能力である。 本手法の有効性は,3リンクシミュレーションと実世界実験で実証され,実物ロボットのタスク再現により検証されている。 シミュレーションでは、10^-14未満の誤差を生み出す5つのデータポイントでも正確に動作する。 本手法は,学習制約を用いて動作を再現するシミュレーション3DoFロボットマニピュレータ制御問題において,最先端のアプローチよりも優れていることを示す。 システムのヌル空間コンポーネントの再ターゲティングも、冗長性の解決方法を制御するタスクにおいて、障害物回避を可能にする。 最後に、このアプローチは、異なる実施形態の7dofの物理的ロボットに学習されたタスク空間の軌道を転送する人間の被験者による実世界実験で検証される。

In recent years, there has been a booming shift in the development of versatile, autonomous robots by introducing means to intuitively teach robots task-oriented behaviour by demonstration. In this paper, a method based on programming by demonstration is proposed to learn null space policies from constrained motion data. The main advantage to using this is generalisation of a task by retargeting a systems redundancy as well as the capability to fully replace an entire system with another of varying link number and lengths while still accurately repeating a task subject to the same constraints. The effectiveness of the method has been demonstrated in a 3-link simulation and a real world experiment using a human subject as the demonstrator and is verified through task reproduction on a 7DoF physical robot. In simulation, the method works accurately with even as little as five data points producing errors less than 10^-14. The approach is shown to outperform the current state-of-the-art approach in a simulated 3DoF robot manipulator control problem where motions are reproduced using learnt constraints. Retargeting of a systems null space component is also demonstrated in a task where controlling how redundancy is resolved allows for obstacle avoidance. Finally, the approach is verified in a real world experiment using demonstrations from a human subject where the learnt task space trajectory is transferred onto a 7DoF physical robot of a different embodiment.
翻訳日:2022-12-27 13:21:18 公開日:2020-03-01
# ハンドリハビリテーションのためのロブスター型ロボットグローブ

A Lobster-inspired Robotic Glove for Hand Rehabilitation ( http://arxiv.org/abs/2003.00577v1 )

ライセンス: Link先を確認
Yaohui Chen, Sing Le, Qiao Chu Tan, Oscar Lau, Fang Wan, Chaoyang Song(参考訳) 本稿では,ロブスターにインスパイアされたハイブリッドデザインを用いた手のリハビリテーショングローブの設計,開発,評価の予備的な結果について述べる。 ロブスターの曲げ腹部にインスパイアされたハイブリッドアクチュエータは、内部の加圧軟質室によって作動される連続的に接合された硬質シェルで構築され、曲げ運動を生成する。 このようなバイオインスパイレーションは、精密な運動生成を伴う古典的な剛体ロボットや、軽量で物理的に安全で適応的なアクチュエーションを備えたソフトロボティクスから特徴を吸収する。 製造手順について述べ、続いてこれらのアクチュエータを機械的に特徴付ける実験を行う。 最後に,これらのハイブリッドアクチュエータと一体化したオープンパームグローブを定性的ケーススタディとして提示する。 ユーザの前腕からのseg信号のパターンを学習し、手指リハビリテーションのための補助グローブを訓練することにより手指リハビリテーションシステムを構築する。

This paper presents preliminary results of the design, development, and evaluation of a hand rehabilitation glove fabricated using lobster-inspired hybrid design with rigid and soft components for actuation. Inspired by the bending abdomen of lobsters, hybrid actuators are built with serially jointed rigid shells actuated by pressurized soft chambers inside to generate bending motions. Such bio-inspiration absorbs features from the classical rigid-bodied robotics with precisely-defined motion generation, as well as the emerging soft robotics with light-weight, physically safe, and adaptive actuation. The fabrication procedure is described, followed by experiments to mechanically characterize these actuators. Finally, an open-palm glove design integrated with these hybrid actuators is presented for a qualitative case study. A hand rehabilitation system is developed by learning patterns of the sEMG signals from the user's forearm to train the assistive glove for hand rehabilitation exercises.
翻訳日:2022-12-27 13:20:57 公開日:2020-03-01
# リアルタイムビデオオブジェクトセグメンテーションのための状態認識トラッカー

State-Aware Tracker for Real-Time Video Object Segmentation ( http://arxiv.org/abs/2003.00482v1 )

ライセンス: Link先を確認
Xi Chen, Zuoxin Li, Ye Yuan, Gang Yu, Jianxin Shen, Donglian Qi(参考訳) 本研究では,ビデオオブジェクトの半教師付きセグメンテーション(VOS)の課題に対処し,半スーパービジョンの課題に対処するために,ビデオプロパティの効率的な利用方法を検討する。 本研究では,リアルタイム速度で正確なセグメンテーション結果を生成するstate-aware tracker(sat)と呼ばれる新しいパイプラインを提案する。 高効率のため、SATはフレーム間の一貫性を利用し、各ターゲットオブジェクトをトラックレットとして扱う。 ビデオシーケンスよりも安定的で堅牢なパフォーマンスを実現するため、SATは各状態を認識し、2つのフィードバックループを通じて自己適応を行う。 1つのループはSATを補助し、より安定したトラックレットを生成する。 他のループは、より堅牢で全体論的なターゲット表現を構築するのに役立つ。 SATは、DAVIS2017-Valデータセット上で39 FPSで72.3%のJ&F平均を達成し、効率と正確性の間に十分なトレードオフを示す。 コードはgithub.com/MegviiDetection/video_analystでリリースされる。

In this work, we address the task of semi-supervised video object segmentation(VOS) and explore how to make efficient use of video property to tackle the challenge of semi-supervision. We propose a novel pipeline called State-Aware Tracker(SAT), which can produce accurate segmentation results with real-time speed. For higher efficiency, SAT takes advantage of the inter-frame consistency and deals with each target object as a tracklet. For more stable and robust performance over video sequences, SAT gets awareness for each state and makes self-adaptation via two feedback loops. One loop assists SAT in generating more stable tracklets. The other loop helps to construct a more robust and holistic target representation. SAT achieves a promising result of 72.3% J&F mean with 39 FPS on DAVIS2017-Val dataset, which shows a decent trade-off between efficiency and accuracy. Code will be released at github.com/MegviiDetection/video_analyst.
翻訳日:2022-12-27 13:15:24 公開日:2020-03-01
# zoomnet:3次元物体検出のための部分認識適応ズームニューラルネットワーク

ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object Detection ( http://arxiv.org/abs/2003.00529v1 )

ライセンス: Link先を確認
Zhenbo Xu, Wei Zhang, Xiaoqing Ye, Xiao Tan, Wei Yang, Shilei Wen, Errui Ding, Ajin Meng, Liusheng Huang(参考訳) 3dオブジェクト検出は、自動運転とロボティクスにおいて不可欠なタスクである。 大きな進歩はあったが、遠方および閉ざされた物体に対する3dポーズの推定にはまだ課題が残っている。 本稿では,ステレオ画像に基づく3次元検出のためのzoomnetという新しいフレームワークを提案する。 ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。 さらに,RGB画像のテクスチャキューを多用し,より正確な異方性推定を行うために,2Dインスタンス境界ボックスを統一解像度に再サイズし,カメラ固有のパラメータを調整した,概念的にストレート・フォワード・モジュール-アダプティブ・ズームを導入する。 このようにして、再サイズされたボックスイメージから高品質な異質マップを推定し、近くの物体と遠くの物体の両方に密集した点雲を構築することができる。 さらに,咬合に対する抵抗性を向上させるための補足的特徴として学習部の位置を紹介し,3dフィッティングスコアを提示することで3d検出品質を推定する。 一般的なKITTIの3D検出データセットに関する大規模な実験は、ZoomNetが従来の最先端の手法を全て大きなマージンで上回っていることを示している(擬似LiDARよりもAPbv (IoU=0.7)で9.4%向上している)。 アブレーション研究はまた、我々の適応的なズーム戦略がAP3d(IoU=0.7)上で10%以上の改善をもたらすことを示した。 さらに、公式のKITTIベンチマークでは、ピクセルワイズ部分位置のような細かいアノテーションが欠けているため、KITTIに、画素ワイズ部分位置、ピクセルワイズ不一致などを含む詳細なインスタンスワイズアノテーションを付加することで、KFGデータセットも提示する。 KFGデータセットと私たちのコードは、https://github.com/detectRecog/ZoomNetで公開されます。

3D object detection is an essential task in autonomous driving and robotics. Though great progress has been made, challenges remain in estimating 3D pose for distant and occluded objects. In this paper, we present a novel framework named ZoomNet for stereo imagery-based 3D detection. The pipeline of ZoomNet begins with an ordinary 2D object detection model which is used to obtain pairs of left-right bounding boxes. To further exploit the abundant texture cues in RGB images for more accurate disparity estimation, we introduce a conceptually straight-forward module -- adaptive zooming, which simultaneously resizes 2D instance bounding boxes to a unified resolution and adjusts the camera intrinsic parameters accordingly. In this way, we are able to estimate higher-quality disparity maps from the resized box images then construct dense point clouds for both nearby and distant objects. Moreover, we introduce to learn part locations as complementary features to improve the resistance against occlusion and put forward the 3D fitting score to better estimate the 3D detection quality. Extensive experiments on the popular KITTI 3D detection dataset indicate ZoomNet surpasses all previous state-of-the-art methods by large margins (improved by 9.4% on APbv (IoU=0.7) over pseudo-LiDAR). Ablation study also demonstrates that our adaptive zooming strategy brings an improvement of over 10% on AP3d (IoU=0.7). In addition, since the official KITTI benchmark lacks fine-grained annotations like pixel-wise part locations, we also present our KFG dataset by augmenting KITTI with detailed instance-wise annotations including pixel-wise part location, pixel-wise disparity, etc.. Both the KFG dataset and our codes will be publicly available at https://github.com/detectRecog/ZoomNet.
翻訳日:2022-12-27 13:14:41 公開日:2020-03-01
# ソフトルートサイン活性化関数

Soft-Root-Sign Activation Function ( http://arxiv.org/abs/2003.00547v1 )

ライセンス: Link先を確認
Yuan Zhou, Dandan Li, Shuwei Huo, and Sun-Yuan Kung(参考訳) ディープネットワークにおけるアクティベーション関数の選択は、トレーニングダイナミクスとタスクパフォーマンスに大きな影響を及ぼす。 現在、最も効果的で広く利用されているアクティベーション機能はReLUである。 しかし、ゼロではない平均、負の欠落、および非有界な出力のため、ReLUは最適化時に潜在的に不利である。 そこで本稿では,上記の3つの課題を克服するために,新たなアクティベーション機能を導入する。 提案された非線形性(Soft-Root-Sign (SRS))は滑らかで非単調で有界である。 特に、SRSの有界性は、ほとんどの最先端のアクティベーション関数と自身を区別する。 reluとは対照的に、srsは2つの独立したトレーニング可能なパラメータによって出力を適応的に調整し、負の情報をキャプチャし、ゼロ平均特性を提供する。 また、非負の実数空間に散らばる出力分布を回避・修正し、バッチ正規化(BN)との互換性を高め、初期化に敏感でないようにする。 実験では,画像分類,機械翻訳,生成モデルなど,さまざまなタスクに適用可能な深層ネットワーク上のsrsを評価した。 我々のSRSはReLUや他の最先端の非線形性とモデルに適合し、提案したアクティベーション関数が一般化され、タスク間で高い性能を達成できることを示す。 アブレーション研究はBNとの互換性と異なる初期化に対する自己適応性をさらに検証した。

The choice of activation function in deep networks has a significant effect on the training dynamics and task performance. At present, the most effective and widely-used activation function is ReLU. However, because of the non-zero mean, negative missing and unbounded output, ReLU is at a potential disadvantage during optimization. To this end, we introduce a novel activation function to manage to overcome the above three challenges. The proposed nonlinearity, namely "Soft-Root-Sign" (SRS), is smooth, non-monotonic, and bounded. Notably, the bounded property of SRS distinguishes itself from most state-of-the-art activation functions. In contrast to ReLU, SRS can adaptively adjust the output by a pair of independent trainable parameters to capture negative information and provide zero-mean property, which leading not only to better generalization performance, but also to faster learning speed. It also avoids and rectifies the output distribution to be scattered in the non-negative real number space, making it more compatible with batch normalization (BN) and less sensitive to initialization. In experiments, we evaluated SRS on deep networks applied to a variety of tasks, including image classification, machine translation and generative modelling. Our SRS matches or exceeds models with ReLU and other state-of-the-art nonlinearities, showing that the proposed activation function is generalized and can achieve high performance across tasks. Ablation study further verified the compatibility with BN and self-adaptability for different initialization.
翻訳日:2022-12-27 13:14:09 公開日:2020-03-01
# 被疑者から学ぶ : マンモグラフィにおける乳癌検出のためのブートストラップ性能

Learning from Suspected Target: Bootstrapping Performance for Breast Cancer Detection in Mammography ( http://arxiv.org/abs/2003.01109v1 )

ライセンス: Link先を確認
Li Xiao, Cheng Zhu, Junjun Liu, Chunlong Luo, Peifang Liu, Yi Zhao(参考訳) 深層学習物体検出アルゴリズムは医用画像解析に広く用いられている。 現在、すべてのオブジェクト検出タスクは、オブジェクトクラスとそのバウンディングボックスでアノテートされたデータに基づいている。 一方、マンモグラフィーなどの医療画像は、通常、病変領域に類似した正常な領域や物体を含んでおり、治療を受けない場合、検査段階において誤分類されることがある。 本稿では, ターゲット領域の選択と訓練を行う新しいサンプリング手法とともに, ターゲットから被疑対象をさらに識別するために類似度損失を提案することで, 新たなトップラチュエーション損失を導入することで, この問題に対処した。 患者分類による平均平均精度 (mAP) を, 予測目標, 特異度, 感度, 精度, AUC値を用いて評価した。 まず,提案手法を民間の密集マンモグラムデータセットでテストした。 以上の結果から,本手法は偽陽性率を大幅に低減し,質量型癌検出では0.25倍の特異性を示した。 乳腺の濃厚化は乳がんの発症リスクが高く, 診断における癌検出が困難であり, 放射線科医の成績で報告された結果よりも優れていた。 本手法は, DDSM(Digital Database for Screening Mammography)データセット上でも検証され, 質量型癌検出の大幅な改善と, 最先端の成果に優れる。

Deep learning object detection algorithm has been widely used in medical image analysis. Currently all the object detection tasks are based on the data annotated with object classes and their bounding boxes. On the other hand, medical images such as mammography usually contain normal regions or objects that are similar to the lesion region, and may be misclassified in the testing stage if they are not taken care of. In this paper, we address such problem by introducing a novel top likelihood loss together with a new sampling procedure to select and train the suspected target regions, as well as proposing a similarity loss to further identify suspected targets from targets. Mean average precision (mAP) according to the predicted targets and specificity, sensitivity, accuracy, AUC values according to classification of patients are adopted for performance comparisons. We firstly test our proposed method on a private dense mammogram dataset. Results show that our proposed method greatly reduce the false positive rate and the specificity is increased by 0.25 on detecting mass type cancer. It is worth mention that dense breast typically has a higher risk for developing breast cancers and also are harder for cancer detection in diagnosis, and our method outperforms a reported result from performance of radiologists. Our method is also validated on the public Digital Database for Screening Mammography (DDSM) dataset, brings significant improvement on mass type cancer detection and outperforms the most state-of-the-art work.
翻訳日:2022-12-27 13:13:46 公開日:2020-03-01
# PF-Net:3Dポイントクラウドコンプリートのためのポイントフラクタルネットワーク

PF-Net: Point Fractal Network for 3D Point Cloud Completion ( http://arxiv.org/abs/2003.00410v1 )

ライセンス: Link先を確認
Zitian Huang, Yikuan Yu, Jiawen Xu, Feng Ni, and Xinyi Le(参考訳) 本稿では,高精度・高忠実度ポイントクラウド補完のための新しい学習ベースアプローチである点フラクタルネットワーク(pf-net)を提案する。 不完全点雲から点雲の全体形状を生成し、常に既存の点を変え、ノイズや幾何学的損失に遭遇する既存の点雲完了ネットワークとは異なり、pf-netは不完全点雲の空間配置を保存し、予測において欠落領域の詳細な幾何学的構造を把握できる。 このタスクを成功させるために、PF-Netは特徴点ベースのマルチスケール生成ネットワークを利用して、欠落点クラウドを階層的に推定する。 さらに,多段階の完了損失と敵対的損失を加味して,より現実的な欠落領域を生成する。 敵の損失は、予測において複数のモードに対処できる。 本実験は,いくつかの難易度点クラウド補完タスクにおける提案手法の有効性を実証する。

In this paper, we propose a Point Fractal Network (PF-Net), a novel learning-based approach for precise and high-fidelity point cloud completion. Unlike existing point cloud completion networks, which generate the overall shape of the point cloud from the incomplete point cloud and always change existing points and encounter noise and geometrical loss, PF-Net preserves the spatial arrangements of the incomplete point cloud and can figure out the detailed geometrical structure of the missing region(s) in the prediction. To succeed at this task, PF-Net estimates the missing point cloud hierarchically by utilizing a feature-points-based multi-scale generating network. Further, we add up multi-stage completion loss and adversarial loss to generate more realistic missing region(s). The adversarial loss can better tackle multiple modes in the prediction. Our experiments demonstrate the effectiveness of our method for several challenging point cloud completion tasks.
翻訳日:2022-12-27 13:12:35 公開日:2020-03-01
# 3DCFS: 結合特徴選択による高速かつロバストな3次元セマンティック・インスタンス分割

3DCFS: Fast and Robust Joint 3D Semantic-Instance Segmentation via Coupled Feature Selection ( http://arxiv.org/abs/2003.00535v1 )

ライセンス: Link先を確認
Liang Du, Jingang Tan, Xiangyang Xue, Lili Chen, Hongkai Wen, Jianfeng Feng, Jiamao Li and Xiaolin Zhang(参考訳) 3dcfsという機能選択を組み合わせることで、セマンティックとインスタンスのセグメンテーションを共同で行う新しい高速でロバストな3dポイントクラウドセグメンテーションフレームワークを提案する。 ヒトのシーン認識プロセスにインスパイアされた特徴選択モジュールCFSMを設計し、2つのタスクから相互の意味的特徴とインスタンス的特徴を協調的に選択・融合する。 3DCFSにおけるインスタンス分割タスクの性能をさらに向上するため,モデルがトレーニング中の出力埋め込み次元の大きさのバランスをとるのに役立つ損失関数について検討し,ユークリッド距離の計算をより信頼性を高め,モデルの一般化性を高める。 広範な実験により,我々の3dcfsは,精度,速度,計算コストの観点から,ベンチマークデータセットにおける最先端の手法よりも優れていることが示された。

We propose a novel fast and robust 3D point clouds segmentation framework via coupled feature selection, named 3DCFS, that jointly performs semantic and instance segmentation. Inspired by the human scene perception process, we design a novel coupled feature selection module, named CFSM, that adaptively selects and fuses the reciprocal semantic and instance features from two tasks in a coupled manner. To further boost the performance of the instance segmentation task in our 3DCFS, we investigate a loss function that helps the model learn to balance the magnitudes of the output embedding dimensions during training, which makes calculating the Euclidean distance more reliable and enhances the generalizability of the model. Extensive experiments demonstrate that our 3DCFS outperforms state-of-the-art methods on benchmark datasets in terms of accuracy, speed and computational cost.
翻訳日:2022-12-27 13:12:09 公開日:2020-03-01
# 深層学習を用いた個体識別のためのスループシステム

The Sloop System for Individual Animal Identification with Deep Learning ( http://arxiv.org/abs/2003.00559v1 )

ライセンス: Link先を確認
Kshitij Bakliwal and Sai Ravela(参考訳) MIT Sloopシステムは、静止しない動物の集団分布のデータベースから写真をインデックスし、検索する。 これを実現するために、専門家や群衆からのばらばらな関連性フィードバックを使用して、汎用的な視覚特徴表現を適応的に表現し、一致させる。 本稿では、sloopシステムとその応用について述べ、そのアプローチを標準的なディープラーニングの定式化と比較する。 次に,振幅および変形特性を持つプライミングは,優れた認識結果を得るために非常に浅いネットワークを必要とすることを示す。 結果から,Sloopのハイリコール性能を実現する関連フィードバックは,個人識別に対する深層学習アプローチにおいても,同等の結果をもたらす上で不可欠である可能性が示唆された。

The MIT Sloop system indexes and retrieves photographs from databases of non-stationary animal population distributions. To do this, it adaptively represents and matches generic visual feature representations using sparse relevance feedback from experts and crowds. Here, we describe the Sloop system and its application, then compare its approach to a standard deep learning formulation. We then show that priming with amplitude and deformation features requires very shallow networks to produce superior recognition results. Results suggest that relevance feedback, which enables Sloop's high-recall performance may also be essential for deep learning approaches to individual identification to deliver comparable results.
翻訳日:2022-12-27 13:11:54 公開日:2020-03-01
# 灌水水需要予測のための複数のデータマイニング手法の事前処理と性能評価

Data Pre-Processing and Evaluating the Performance of Several Data Mining Methods for Predicting Irrigation Water Requirement ( http://arxiv.org/abs/2003.00411v1 )

ライセンス: Link先を確認
Mahmood A. Khan, Md Zahidul Islam, Mohsin Hafeez(参考訳) 近年の干ばつや人口増加は、利用可能な限られた水資源の使用に対する前例のない需要を植え付けている。 農業は淡水の主要な消費者の1つである。 灌水農業における大量の水は、水管理の貧弱さから無駄になっている。 灌水地域の水管理を改善するためには,将来的な水需要推定モデルが必要である。 水需要予測モデルの開発は、水管理の実践を改善し、水生産性を最大化することができる。 データマイニングはそのようなモデルを構築するのに効果的に利用できる。 本研究では,灌水需要予測に適した属性情報を含むデータセットを作成した。 データは気象データ、リモートセンシング画像、給水ステートメントという3つの異なるソースから取得される。 用意したデータセットを需要予測やパターン抽出に役立てるために,灌水とデータマイニングの知識を組み合わせた新しい手法を用いてデータセットを事前処理する。 次に,様々なデータマイニング手法 (決定木 (dt), 人工ニューラルネットワーク (anns), 体系的に開発された多木用フォレスト (sysfor) , サポートベクタマシン (svm) , ロジスティック回帰 (ロジスティック回帰), 従来の蒸発散水 (etc) 法) の有効性を比較し, これらのモデルの性能を評価し, 灌水水需要を予測する。 実験の結果,データ前処理の有用性と異なる分類器の有効性が示唆された。 使用した6つの手法のうち、SysForは97.5%の精度で最高の予測を生成し、96%の判定木と95%のANNの判定木を生成する。 そこで我々は,SysForモデルとDTモデルを用いて水需要予測を行う。

Recent drought and population growth are planting unprecedented demand for the use of available limited water resources. Irrigated agriculture is one of the major consumers of freshwater. A large amount of water in irrigated agriculture is wasted due to poor water management practices. To improve water management in irrigated areas, models for estimation of future water requirements are needed. Developing a model for forecasting irrigation water demand can improve water management practices and maximise water productivity. Data mining can be used effectively to build such models. In this study, we prepare a dataset containing information on suitable attributes for forecasting irrigation water demand. The data is obtained from three different sources namely meteorological data, remote sensing images and water delivery statements. In order to make the prepared dataset useful for demand forecasting and pattern extraction, we pre-process the dataset using a novel approach based on a combination of irrigation and data mining knowledge. We then apply and compare the effectiveness of different data mining methods namely decision tree (DT), artificial neural networks (ANNs), systematically developed forest (SysFor) for multiple trees, support vector machine (SVM), logistic regression, and the traditional Evapotranspiration (ETc) methods and evaluate the performance of these models to predict irrigation water demand. Our experimental results indicate the usefulness of data pre-processing and the effectiveness of different classifiers. Among the six methods we used, SysFor produces the best prediction with 97.5% accuracy followed by a decision tree with 96% and ANN with 95% respectively by closely matching the predictions with actual water usage. Therefore, we recommend using SysFor and DT models for irrigation water demand forecasting.
翻訳日:2022-12-27 13:05:47 公開日:2020-03-01
# 視覚的質問応答のためのマルチモーダルおよびインタラクティブな説明に関する研究

A Study on Multimodal and Interactive Explanations for Visual Question Answering ( http://arxiv.org/abs/2003.00431v1 )

ライセンス: Link先を確認
Kamran Alipour, Jurgen P. Schulze, Yi Yao, Avi Ziskind, Giedrius Burachas(参考訳) AIモデルの説明可能性と解釈可能性は、AIの安全性に影響を与える重要な要素である。 さまざまな説明可能なAI(XAI)アプローチは、ディープネットワークにおける透明性の欠如を軽減することを目的としているが、ユーザビリティ、信頼、AIシステムの理解を改善するためのこれらのアプローチの有効性の証拠は、いまだに欠落している。 視覚質問応答(VQA)タスクの設定におけるマルチモーダルな説明は,VQAエージェントの応答精度を,説明なしで予測することで評価する。 我々は,ユーザ予測精度,信頼度,信頼度の向上などの観点から,対象間および対象内実験を用いて,説明の有効性を探索する。 結果は,VQAシステムの解答が不正確である場合に,人間の予測精度の向上に役立つことを示す。 さらに,注意マップの編集による介入による因果的注意効果の評価手法であるactive attentionを提案する。 ユーザ説明レーティングは、人間の予測精度と強く相関し、ヒューマンマシンaiコラボレーションタスクにおけるこれらの説明の有効性を示唆する。

Explainability and interpretability of AI models is an essential factor affecting the safety of AI. While various explainable AI (XAI) approaches aim at mitigating the lack of transparency in deep networks, the evidence of the effectiveness of these approaches in improving usability, trust, and understanding of AI systems are still missing. We evaluate multimodal explanations in the setting of a Visual Question Answering (VQA) task, by asking users to predict the response accuracy of a VQA agent with and without explanations. We use between-subjects and within-subjects experiments to probe explanation effectiveness in terms of improving user prediction accuracy, confidence, and reliance, among other factors. The results indicate that the explanations help improve human prediction accuracy, especially in trials when the VQA system's answer is inaccurate. Furthermore, we introduce active attention, a novel method for evaluating causal attentional effects through intervention by editing attention maps. User explanation ratings are strongly correlated with human prediction accuracy and suggest the efficacy of these explanations in human-machine AI collaboration tasks.
翻訳日:2022-12-27 13:05:15 公開日:2020-03-01
# 実パラメータ単一目的最適化のための個人再分配による微分進化

Differential Evolution with Individuals Redistribution for Real Parameter Single Objective Optimization ( http://arxiv.org/abs/2003.00439v1 )

ライセンス: Link先を確認
Chengjun Li and Yang Li(参考訳) 微分進化(DE)は、実パラメータ単一目的最適化において非常に強力である。 しかし, 局所最適地点に落下した場合の探索領域の拡張・変更能力は, 非常に複雑なフィットネスランドスケープを多数の局所最適地点に収容するために, DEで開発する必要がある。 本稿では,個人再分配(de with individual redistribution)と呼ばれる新しいdeフローを提案し,数世代にわたってフィットネスの進歩が低ければ,個人再分配のプロセスが呼び出される。 このようなプロセスでは、突然変異とクロスオーバーが標準化され、トライアルベクターはすべて選択される。 多様性が所定のしきい値を超えると、我々の反対置換が実行され、アルゴリズムの振る舞いは元のモードに戻る。 2つのベンチマークテストスイートに基づく実験では、個別の再分配を10のdeアルゴリズムに適用した。 個人再分配に基づく10のデアルゴリズムのバージョンは、元のバージョンだけでなく、完全な再起動に基づくバージョンと比較される。 実験の結果,DEMアルゴリズムのほとんどの場合,個人の再配布に基づくバージョンは,完全再起動に基づくバージョンとオリジナルバージョンの両方よりも優れた性能を示した。

Differential Evolution (DE) is quite powerful for real parameter single objective optimization. However, the ability of extending or changing search area when falling into a local optimum is still required to be developed in DE for accommodating extremely complicated fitness landscapes with a huge number of local optima. We propose a new flow of DE, termed DE with individuals redistribution, in which a process of individuals redistribution will be called when progress on fitness is low for generations. In such a process, mutation and crossover are standardized, while trial vectors are all kept in selection. Once diversity exceeds a predetermined threshold, our opposition replacement is executed, then algorithm behavior returns to original mode. In our experiments based on two benchmark test suites, we apply individuals redistribution in ten DE algorithms. Versions of the ten DE algorithms based on individuals redistribution are compared with not only original version but also version based on complete restart, where individuals redistribution and complete restart are based on the same entry criterion. Experimental results indicate that, for most of the DE algorithms, version based on individuals redistribution performs better than both original version and version based on complete restart.
翻訳日:2022-12-27 13:04:57 公開日:2020-03-01
# GPM:アノテータの振舞いとグラウンド・トゥルース・ラベリングを再現する汎用確率モデル

GPM: A Generic Probabilistic Model to Recover Annotator's Behavior and Ground Truth Labeling ( http://arxiv.org/abs/2003.00475v1 )

ライセンス: Link先を確認
Jing Li, Suiyi Ling, Junle Wang, Zhi Li, Patrick Le Callet(参考訳) ビッグデータ時代のデータラベリングはクラウドソーシングによって得ることができる。 それにもかかわらず、得られるラベルは一般に騒がしく、信頼できない、あるいは逆境さえある。 本稿では,基礎となる真実とアノテーションの振舞いを推測する確率論的グラフィカルアノテーションモデルを提案する。 個別のアプリケーションシナリオと連続的なアプリケーションシナリオ(例:Likertスケールでのシーンと評価ビデオの分類)の両方に対応するため、基礎となる真実は単一値ではなく分布に従うと考えられる。 このようにして、「良い」アノテータから信頼できるが潜在的に分岐した意見を取り戻すことができる。 提案モデルでは,アノテータがラベル付け処理中にタスクに対して厳格に動作したかどうかを判断し,アノテータのさらなる選択に使用できる。 我々のモデルはシミュレーションデータと実世界のデータの両方でテストされ、精度とロバスト性の観点から、常に他の最先端モデルよりも優れた性能を示している。

In the big data era, data labeling can be obtained through crowdsourcing. Nevertheless, the obtained labels are generally noisy, unreliable or even adversarial. In this paper, we propose a probabilistic graphical annotation model to infer the underlying ground truth and annotator's behavior. To accommodate both discrete and continuous application scenarios (e.g., classifying scenes vs. rating videos on a Likert scale), the underlying ground truth is considered following a distribution rather than a single value. In this way, the reliable but potentially divergent opinions from "good" annotators can be recovered. The proposed model is able to identify whether an annotator has worked diligently towards the task during the labeling procedure, which could be used for further selection of qualified annotators. Our model has been tested on both simulated data and real-world data, where it always shows superior performance than the other state-of-the-art models in terms of accuracy and robustness.
翻訳日:2022-12-27 13:04:39 公開日:2020-03-01
# ジョイントワッサースタイン分布マッチング

Joint Wasserstein Distribution Matching ( http://arxiv.org/abs/2003.00389v1 )

ライセンス: Link先を確認
JieZhang Cao, Langyuan Mo, Qing Du, Yong Guo, Peilin Zhao, Junzhou Huang, Mingkui Tan(参考訳) JDM問題(Joint Distribution matching)は、2つのドメインの関節分布を一致させるために双方向マッピングを学習することを目的としており、多くの機械学習およびコンピュータビジョンアプリケーションで発生する。 しかし、この問題は2つの重大な課題から非常に困難である。 (i)マッチングを行うために、共同分布から十分な情報を活用することは、しばしば困難である。 (ii)この問題は定式化や最適化が難しい。 本稿では、最適輸送理論に基づき、2つの領域における関節分布のワッサーシュタイン距離を最小化することにより、JDM問題に対処することを提案する。 しかし、結果の最適化問題は依然として難解である。 次に,難解な問題を簡単な最適化問題に還元する重要な定理を提案し,それを解決するための新しい手法(joint wasserstein distribution matching (jwdm)) を開発した。 実験では,教師なし画像変換とクロスドメインビデオ合成に本手法を適用した。 質的および定量的比較は,いくつかの最先端技術よりも優れた性能を示す。

Joint distribution matching (JDM) problem, which aims to learn bidirectional mappings to match joint distributions of two domains, occurs in many machine learning and computer vision applications. This problem, however, is very difficult due to two critical challenges: (i) it is often difficult to exploit sufficient information from the joint distribution to conduct the matching; (ii) this problem is hard to formulate and optimize. In this paper, relying on optimal transport theory, we propose to address JDM problem by minimizing the Wasserstein distance of the joint distributions in two domains. However, the resultant optimization problem is still intractable. We then propose an important theorem to reduce the intractable problem into a simple optimization problem, and develop a novel method (called Joint Wasserstein Distribution Matching (JWDM)) to solve it. In the experiments, we apply our method to unsupervised image translation and cross-domain video synthesis. Both qualitative and quantitative comparisons demonstrate the superior performance of our method over several state-of-the-arts.
翻訳日:2022-12-27 13:04:22 公開日:2020-03-01
# インテリジェントホーム3D:言語記述のみによる自動3Dハウスデザイン

Intelligent Home 3D: Automatic 3D-House Design from Linguistic Descriptions Only ( http://arxiv.org/abs/2003.00397v1 )

ライセンス: Link先を確認
Qi Chen, Qi Wu, Rui Tang, Yuhan Wang, Shuai Wang, Mingkui Tan(参考訳) ホームデザインは複雑なタスクであり、アーキテクトが専門的なスキルとツールを仕上げる必要がある。 住宅設計に関する知識や、自然言語による複雑な設計ツールの使用経験をあまり知ることなく、直感的に住宅計画を作成することができるのは、興味深いことです。 本稿では, フロアプラン生成と室内テクスチャ(床や壁など)合成タスクにさらに分割した, 言語条件付き視覚コンテンツ生成問題として定式化する。 生成プロセスの唯一の制御信号は、家の詳細を記述するユーザによって与えられる言語表現である。 この目的のために,まず言語入力を構造グラフ表現に変換し,次にGC LPN(Graph Conditioned Layout Prediction Network)を用いて部屋のレイアウトを予測し,LCT-GAN(Language Conditioned Texture GAN)を用いて内部テクスチャを生成する,HPGM(House Plan Generative Model)を提案する。 いくつかの後処理では、このタスクの最終製品は3Dハウスモデルである。 モデルをトレーニングし,評価するために,最初のText-to-3D House Modelデータセットを構築した。

Home design is a complex task that normally requires architects to finish with their professional skills and tools. It will be fascinating that if one can produce a house plan intuitively without knowing much knowledge about home design and experience of using complex designing tools, for example, via natural language. In this paper, we formulate it as a language conditioned visual content generation problem that is further divided into a floor plan generation and an interior texture (such as floor and wall) synthesis task. The only control signal of the generation process is the linguistic expression given by users that describe the house details. To this end, we propose a House Plan Generative Model (HPGM) that first translates the language input to a structural graph representation and then predicts the layout of rooms with a Graph Conditioned Layout Prediction Network (GC LPN) and generates the interior texture with a Language Conditioned Texture GAN (LCT-GAN). With some post-processing, the final product of this task is a 3D house model. To train and evaluate our model, we build the first Text-to-3D House Model dataset.
翻訳日:2022-12-27 13:04:04 公開日:2020-03-01
# Cops-Ref: 合成参照式に関する新しいデータセットと課題

Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension ( http://arxiv.org/abs/2003.00403v1 )

ライセンス: Link先を確認
Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee K. Wong, Qi Wu(参考訳) Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。 この問題を解決するためには、テキストドメインと視覚ドメインを共同で推論する必要がある。 しかし、いくつかの一般的な参照表現データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。 1)それらの表現は、通常、対象の単純明快な特性のみを記述し、 2) その画像には, 限られた情報が含まれている。 このギャップを埋めるために,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。 まず,多彩な視覚特性と柔軟に組み合わせ,構成の異なる表現を生成する様々な推論論理を表現可能な新しい表現エンジンを設計する。 第2に,表現に具現化された推論連鎖をよりうまく活用するために,類似した特性を共有するオブジェクトを含む画像の追加による新たなテスト設定を提案し,推論不要なクロスドメインアライメントの成功率を最小化する。 我々は最先端のREFモデルをいくつか評価するが、いずれも有望な性能を達成できない。 提案されたモジュラーハードマイニング戦略は最善を尽くすが、改善の余地は十分残されている。 この新しいデータセットとタスクが、より深い視覚的推論分析のベンチマークとなり、表現の理解に関する研究が促進されることを願っている。

Referring expression comprehension (REF) aims at identifying a particular object in a scene by a natural language expression. It requires joint reasoning over the textual and visual domains to solve the problem. Some popular referring expression datasets, however, fail to provide an ideal test bed for evaluating the reasoning ability of the models, mainly because 1) their expressions typically describe only some simple distinctive properties of the object and 2) their images contain limited distracting information. To bridge the gap, we propose a new dataset for visual reasoning in context of referring expression comprehension with two main features. First, we design a novel expression engine rendering various reasoning logics that can be flexibly combined with rich visual properties to generate expressions with varying compositionality. Second, to better exploit the full reasoning chain embodied in an expression, we propose a new test setting by adding additional distracting images containing objects sharing similar properties with the referent, thus minimising the success rate of reasoning-free cross-domain alignment. We evaluate several state-of-the-art REF models, but find none of them can achieve promising performance. A proposed modular hard mining strategy performs the best but still leaves substantial room for improvement. We hope this new dataset and task can serve as a benchmark for deeper visual reasoning analysis and foster the research on referring expression comprehension.
翻訳日:2022-12-27 13:03:43 公開日:2020-03-01
# fmt:マルチタスク畳み込みニューラルネットワークを用いた人物探索

FMT:Fusing Multi-task Convolutional Neural Network for Person Search ( http://arxiv.org/abs/2003.00406v1 )

ライセンス: Link先を確認
Sulan Zhai, Shunqiang Liu, Xiao Wang, Jin Tang(参考訳) 人物探索は、全ての人物を検知し、画像中の検出された人物を、人の再識別とは異なる提案や境界ボックスなしで識別することである。 本稿では,単一畳み込みニューラルネットワークによる検出と再同定の相関と不均一性に取り組むために,FMT-CNN(Fusing Multi-task Convolutional Neural Network)を提案する。 人検出と再識別の相互作用が全体のパフォーマンスにどのように影響するかに焦点をあてる。 地域提案ネットワークに人名ラベルを用いて人物識別と人物検出ネットワークの機能を作成し,同時に検出と再識別の精度を向上させる。 再識別ネットワークのトレーニングには、複数の損失も使用しています。 CUHK-SYSU Person Searchデータセットの実験結果から,提案手法の性能は,mAPおよびtop-1における最先端手法よりも優れていることが示された。

Person search is to detect all persons and identify the query persons from detected persons in the image without proposals and bounding boxes, which is different from person re-identification. In this paper, we propose a fusing multi-task convolutional neural network(FMT-CNN) to tackle the correlation and heterogeneity of detection and re-identification with a single convolutional neural network. We focus on how the interplay of person detection and person re-identification affects the overall performance. We employ person labels in region proposal network to produce features for person re-identification and person detection network, which can improve the accuracy of detection and re-identification simultaneously. We also use a multiple loss to train our re-identification network. Experiment results on CUHK-SYSU Person Search dataset show that the performance of our proposed method is superior to state-of-the-art approaches in both mAP and top-1.
翻訳日:2022-12-27 13:03:22 公開日:2020-03-01
# クラスター融合正規化による多重精度行列の推定

Estimating Multiple Precision Matrices with Cluster Fusion Regularization ( http://arxiv.org/abs/2003.00371v1 )

ライセンス: Link先を確認
Bradley S. Price and Aaron J. Molstad and Ben Sherwood(参考訳) 異なるクラスから複数の精度行列を推定するペナル化可能性フレームワークを提案する。 既存のほとんどの手法では、精度行列間の関係に関する情報は含まないか、あるいはこの情報を事前情報と呼ぶ必要がある。 本稿では, 精度行列と精度行列の関係を同時に推定する枠組みを提案する。 非凸最適化問題を解く必要のあるスパースおよび非スパース推定器を提案する。 提案した推定器の計算には,ブロックワイド座標降下による凸最適化問題とk平均クラスタリング問題とを交互に行う反復アルゴリズムを用いる。 スパース推定器のブロックワイズ更新は、近似勾配勾配法を用いて解く弾性ネットペナライズされた精度行列推定問題を解く必要がある。 我々は、この部分代数が線形収束率を持つことを証明する。 シミュレーション研究と2つの実データ応用において,本手法は,精度行列間の関連関係を無視し,実際に知られていない先行情報を用いる手法と類似した手法を実現できることを示す。

We propose a penalized likelihood framework for estimating multiple precision matrices from different classes. Most existing methods either incorporate no information on relationships between the precision matrices, or require this information be known a priori. The framework proposed in this article allows for simultaneous estimation of the precision matrices and relationships between the precision matrices, jointly. Sparse and non-sparse estimators are proposed, both of which require solving a non-convex optimization problem. To compute our proposed estimators, we use an iterative algorithm which alternates between a convex optimization problem solved by blockwise coordinate descent and a k-means clustering problem. Blockwise updates for computing the sparse estimator require solving an elastic net penalized precision matrix estimation problem, which we solve using a proximal gradient descent algorithm. We prove that this subalgorithm has a linear rate of convergence. In simulation studies and two real data applications, we show that our method can outperform competitors that ignore relevant relationships between precision matrices and performs similarly to methods which use prior information often uknown in practice.
翻訳日:2022-12-27 12:57:06 公開日:2020-03-01
# データ駆動無線通信のためのスケーラブル学習パラダイム

Scalable Learning Paradigms for Data-Driven Wireless Communication ( http://arxiv.org/abs/2003.00474v1 )

ライセンス: Link先を確認
Yue Xu, Feng Yin, Wenjun Xu, Chia-Han Lee, Jiaru Lin, Shuguang Cui(参考訳) ワイヤレスビッグデータと機械学習技術の融合は、データ駆動の哲学によってワイヤレスシステムに革命をもたらす。 しかし、爆発するデータ量とモデルの複雑さは、適切な時間内に学習と応答する集中型ソリューションを制限するだろう。 そのため、スケーラビリティは解決すべき重要な問題となる。 本稿では,スケーラブルなデータ駆動無線ネットワークの構築について,体系的な議論を行う。 一方、グローバルな視点から、スケーラブルなデータ駆動システムの先見的なアーキテクチャとコンピューティングフレームワークについて論じる。 一方,各ノードにおける学習アルゴリズムとモデル学習戦略について,局所的な視点から論じる。 また、スケーラブルなデータ駆動無線通信の文脈における有望な研究方向を強調し、将来の研究を刺激する。

The marriage of wireless big data and machine learning techniques revolutionizes the wireless system by the data-driven philosophy. However, the ever exploding data volume and model complexity will limit centralized solutions to learn and respond within a reasonable time. Therefore, scalability becomes a critical issue to be solved. In this article, we aim to provide a systematic discussion on the building blocks of scalable data-driven wireless networks. On one hand, we discuss the forward-looking architecture and computing framework of scalable data-driven systems from a global perspective. On the other hand, we discuss the learning algorithms and model training strategies performed at each individual node from a local perspective. We also highlight several promising research directions in the context of scalable data-driven wireless communications to inspire future research.
翻訳日:2022-12-27 12:55:57 公開日:2020-03-01
# 筋骨格画像解析のための深層学習

Deep Learning for Musculoskeletal Image Analysis ( http://arxiv.org/abs/2003.00541v1 )

ライセンス: Link先を確認
Ismail Irmakci, Syed Muhammad Anwar, Drew A. Torigian, and Ulas Bagci(参考訳) 筋骨格障害(MSK)患者の診断、予後、治療には、放射線画像(CT、MRI、超音波)と専門医による正確な分析が必要である。 放射線検査は代謝の健康、老化、糖尿病の評価にも役立つ。 本研究は,MSK放射線学における臨床研究であるMRIスキャンの迅速かつ正確な画像解析に,機械学習,特に深層学習法がいかに使用できるかを示す。 課題の一つとして,MRIスキャンによる膝画像の自動解析,メニスカス,前十字靭帯断裂などの異常の機械学習分類について検討した。 広範に使用されている畳み込みニューラルネットワーク(CNN)をベースとしたアーキテクチャを用いて、限られた画像データ構造下で異なるニューラルネットワークアーキテクチャの膝異常分類性能を比較検討した。 有望な結果は,日常臨床評価における多視点深層学習に基づくmsk異常の分類の可能性を示した。

The diagnosis, prognosis, and treatment of patients with musculoskeletal (MSK) disorders require radiology imaging (using computed tomography, magnetic resonance imaging(MRI), and ultrasound) and their precise analysis by expert radiologists. Radiology scans can also help assessment of metabolic health, aging, and diabetes. This study presents how machinelearning, specifically deep learning methods, can be used for rapidand accurate image analysis of MRI scans, an unmet clinicalneed in MSK radiology. As a challenging example, we focus on automatic analysis of knee images from MRI scans and study machine learning classification of various abnormalities including meniscus and anterior cruciate ligament tears. Using widely used convolutional neural network (CNN) based architectures, we comparatively evaluated the knee abnormality classification performances of different neural network architectures under limited imaging data regime and compared single and multi-view imaging when classifying the abnormalities. Promising results indicated the potential use of multi-view deep learning based classification of MSK abnormalities in routine clinical assessment.
翻訳日:2022-12-27 12:55:11 公開日:2020-03-01
# egoに基づく構造表現のエントロピー測度

Ego-based Entropy Measures for Structural Representations ( http://arxiv.org/abs/2003.00553v1 )

ライセンス: Link先を確認
George Dasoulas, Giannis Nikolentzos, Kevin Scaman, Aladin Virmaux, Michalis Vazirgiannis(参考訳) 複雑なネットワークでは、同様の構造的特徴を持つノードがよく似た役割を持つ(例えば、ソーシャルネットワークのユーザの種類や、企業の従業員の階層的な位置)。 この関係を利用するために、増大する文献は構造的に等価なノードを識別する潜在表現を提案した。 しかし、既存の手法のほとんどは時間と空間の複雑さを必要とする。 本稿では,低次元構造ノード埋め込みを生成するための簡単な手法であるVNEstructを提案する。 提案手法は各ノードの局所的近傍に焦点をあて,情報理論ツールであるフォン・ノイマンエントロピー(Von Neumann entropy)を用いて近傍の位相を捉える特徴を抽出する。 さらに、グラフ分類タスクにおいて、属性グラフ構造を拡張ノード属性の集合に変換するために生成された構造埋め込みの利用を提案する。 実験により,提案手法は,高い計算速度を維持しつつ,構造的役割識別タスクとグラフ分類タスクの最先端性能に堅牢性を示す。

In complex networks, nodes that share similar structural characteristics often exhibit similar roles (e.g type of users in a social network or the hierarchical position of employees in a company). In order to leverage this relationship, a growing literature proposed latent representations that identify structurally equivalent nodes. However, most of the existing methods require high time and space complexity. In this paper, we propose VNEstruct, a simple approach for generating low-dimensional structural node embeddings, that is both time efficient and robust to perturbations of the graph structure. The proposed approach focuses on the local neighborhood of each node and employs the Von Neumann entropy, an information-theoretic tool, to extract features that capture the neighborhood's topology. Moreover, on graph classification tasks, we suggest the utilization of the generated structural embeddings for the transformation of an attributed graph structure into a set of augmented node attributes. Empirically, we observe that the proposed approach exhibits robustness on structural role identification tasks and state-of-the-art performance on graph classification tasks, while maintaining very high computational speed.
翻訳日:2022-12-27 12:54:55 公開日:2020-03-01
# 差分プライベートプロトタイプを用いたフェデレーションレコメンデーション

Federating Recommendations Using Differentially Private Prototypes ( http://arxiv.org/abs/2003.00602v1 )

ライセンス: Link先を確認
M\'onica Ribero, Jette Henderson, Sinead Williamson, Haris Vikalo(参考訳) 機械学習は,ユーザのインタラクションパターンの類似性を活用し,エンタテインメントやデート,コマースなどさまざまな分野のアプリケーションにおいて,ユーザへのレコメンデーションを可能にする。 しかし、医療や銀行などの個人機密データの保護を要求するドメインでは、機密データにアクセスせずに、不注意に個人情報を漏らさずに、どのようにそのようなモデルを学べるのか? 本稿では,生データやユーザの統計情報,個人の好みに関する情報を収集することなく,グローバルおよびローカルプライベートモデルのレコメンデーションを学習するための新しい連合アプローチを提案する。 提案手法は,システム内の任意のデータベースのユーザに対して差分プライバシー保証を提供しながら,グローバルな行動パターンを推測する一連のプロトタイプを生成する。 2ラウンドの通信しか必要とせず、通信コストを削減し、反復的な手続きに伴う過剰なプライバシー損失を回避する。 私たちは、合成データと実際の連合医療データと映画評価データに関するフレームワークをテストします。 本稿では,グローバルモデルの局所的適応により,行列再構成の精度とレコメンデーションの妥当性の両面において,集中行列分解に基づくレコメンデーションシステムモデルより優れ,かつ,証明可能なプライバシ保証を維持した。 また,本手法はより頑健であり,独立した実体によって学習された個々のモデルよりも分散が小さい。

Machine learning methods allow us to make recommendations to users in applications across fields including entertainment, dating, and commerce, by exploiting similarities in users' interaction patterns. However, in domains that demand protection of personally sensitive data, such as medicine or banking, how can we learn such a model without accessing the sensitive data, and without inadvertently leaking private information? We propose a new federated approach to learning global and local private models for recommendation without collecting raw data, user statistics, or information about personal preferences. Our method produces a set of prototypes that allows us to infer global behavioral patterns, while providing differential privacy guarantees for users in any database of the system. By requiring only two rounds of communication, we both reduce the communication costs and avoid the excessive privacy loss associated with iterative procedures. We test our framework on synthetic data as well as real federated medical data and Movielens ratings data. We show local adaptation of the global model allows our method to outperform centralized matrix-factorization-based recommender system models, both in terms of accuracy of matrix reconstruction and in terms of relevance of the recommendations, while maintaining provable privacy guarantees. We also show that our method is more robust and is characterized by smaller variance than individual models learned by independent entities.
翻訳日:2022-12-27 12:54:27 公開日:2020-03-01
# Fisher Kernel Self-Supervision によるバイアス付きデータセットの深層能動学習

Deep Active Learning for Biased Datasets via Fisher Kernel Self-Supervision ( http://arxiv.org/abs/2003.00393v1 )

ライセンス: Link先を確認
Denis Gudovskiy, Alec Hodgkinson, Takuya Yamaguchi, Sotaro Tsukizawa(参考訳) active learning(al)は、データ要求型ディープニューラルネットワーク(dnn)のためのラベル付け作業を最小化することを目的としている。 しかし、現在使われている方法はバイアスデータを扱うには不適当である。 本論文の主な動機は,未ラベルデータ収集に偏りがあるプール型半教師付きALの現実的な設定を検討することである。 この設定でALの最適取得関数を理論的に導出する。 これは、ラベルなしの列車データと弱いラベル付きバリデーションデータセットの間の分布シフト最小化として定式化することができる。 このような獲得関数を実装するために,自己教師型フィッシャーカーネル(FK)と新しい擬似ラベル推定器を用いた特徴密度マッチングのための低複雑さ手法を提案する。 fkベースの手法はmnist,svhn,imagenetの最先端手法よりも優れており,処理の10分の1しか必要としない。 実験の結果,既存の手法と比較して,偏りのあるクラス不均衡データに対するラベル付け作業は40%以上減少した。

Active learning (AL) aims to minimize labeling efforts for data-demanding deep neural networks (DNNs) by selecting the most representative data points for annotation. However, currently used methods are ill-equipped to deal with biased data. The main motivation of this paper is to consider a realistic setting for pool-based semi-supervised AL, where the unlabeled collection of train data is biased. We theoretically derive an optimal acquisition function for AL in this setting. It can be formulated as distribution shift minimization between unlabeled train data and weakly-labeled validation dataset. To implement such acquisition function, we propose a low-complexity method for feature density matching using self-supervised Fisher kernel (FK) as well as several novel pseudo-label estimators. Our FK-based method outperforms state-of-the-art methods on MNIST, SVHN, and ImageNet classification while requiring only 1/10th of processing. The conducted experiments show at least 40% drop in labeling efforts for the biased class-imbalanced data compared to existing methods.
翻訳日:2022-12-27 12:48:02 公開日:2020-03-01
# 無限大深層ニューラルネットワークの安定挙動

Stable behaviour of infinitely wide deep neural networks ( http://arxiv.org/abs/2003.00394v1 )

ライセンス: Link先を確認
Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) 重みとバイアスが独立であり、対称中心安定分布として均等に分布する完全連結フィードフォワード深層ニューラルネットワーク (nns) を考える。 そこで, NNの無限幅限界は, 重みに対する適切なスケーリングの下で, 有限次元分布が多変量安定分布である確率過程であることを示す。 この極限過程は安定過程と呼ばれ、最近得られたガウス過程のクラスをNNの無限大極限として一般化する(Matthews at al., 2018b)。 安定したプロセスのパラメータは、ネットワークの層上の明示的な再帰によって計算できる。 この結果は、完全に連結されたフィードフォワード深部NNの理論に寄与し、ガウスの無限大限界に依存する最近の研究線を拡張する道を開いた。

We consider fully connected feed-forward deep neural networks (NNs) where weights and biases are independent and identically distributed as symmetric centered stable distributions. Then, we show that the infinite wide limit of the NN, under suitable scaling on the weights, is a stochastic process whose finite-dimensional distributions are multivariate stable distributions. The limiting process is referred to as the stable process, and it generalizes the class of Gaussian processes recently obtained as infinite wide limits of NNs (Matthews at al., 2018b). Parameters of the stable process can be computed via an explicit recursion over the layers of the network. Our result contributes to the theory of fully connected feed-forward deep NNs, and it paves the way to expand recent lines of research that rely on Gaussian infinite wide limits.
翻訳日:2022-12-27 12:47:48 公開日:2020-03-01
# Advanced kNN: 成熟した機械学習シリーズ

Advanced kNN: A Mature Machine Learning Series ( http://arxiv.org/abs/2003.00415v1 )

ライセンス: Link先を確認
Muhammad Asim and Muaaz Zakria(参考訳) k-nearest neighbor (kNN) は、機械学習やデータマイニングにおいて最も顕著で単純で基本的なアルゴリズムの1つである。 しかし、kNNは予測能力に制限があるため、トレーニングデータセットの事前定義されたクラスに属さない場合、kNNは任意のインスタンスを正確に予測することはできない。 本研究の目的は、事前定義されたどのクラスにも属さないことを検証した後、インスタンスを未知に分類できる高度なkNN(A-kNN)アルゴリズムを提案することである。 kNNとA-kNNのパフォーマンスを,iris植物データセット,BUPA肝障害データセット,Alpha Beta検出データセットの3つの異なるデータセットで比較した。 A-kNNの結果は未知のインスタンスを検出するためにかなり正確である。

k-nearest neighbour (kNN) is one of the most prominent, simple and basic algorithm used in machine learning and data mining. However, kNN has limited prediction ability, i.e., kNN cannot predict any instance correctly if it does not belong to any of the predefined classes in the training data set. The purpose of this paper is to suggest an Advanced kNN (A-kNN) algorithm that will be able to classify an instance as unknown, after verifying that it does not belong to any of the predefined classes. Performance of kNN and A-kNN is compared on three different data sets namely iris plant data set, BUPA liver disorder data set, and Alpha Beta detection data set. Results of A-kNN are significantly accurate for detecting unknown instances.
翻訳日:2022-12-27 12:47:32 公開日:2020-03-01
# 新規に準備された少数ショット分類

Novelty-Prepared Few-Shot Classification ( http://arxiv.org/abs/2003.00497v1 )

ライセンス: Link先を確認
Chao Wang, Ruo-Ze Liu, Han-Jia Ye, Yang Yu(参考訳) 少数ショットの分類アルゴリズムは、他の領域の豊富なデータから事前学習されたモデルを採用することで、多くの現実世界の問題で不可欠なデータ不足問題を軽減することができる。 しかし、トレーニング前のプロセスは、他の概念クラスへの将来の適応をよく知らなかった。 古典的に完全に訓練された特徴抽出器は、目に見えないクラスの埋め込みスペースをほとんど残さず、モデルが新しいクラスに適していないことを開示する。 本研究では,自己補足型ソフトマックス損失 (SSL) と呼ばれる新規な補足型損失関数を,数ショットの分類に使用することを提案する。 SSLは埋め込みスペースの完全な占有を防ぐことができる。 したがって、モデルは新しいクラスを学ぶ準備ができている。 CUB-200-2011とmini-ImageNetデータセットの実験では、SSLが最先端の性能を大幅に向上させることを示した。 この研究は、限定的な分類タスクのモデルのキャパシティを考慮することに光を当てるかもしれない。

Few-shot classification algorithms can alleviate the data scarceness issue, which is vital in many real-world problems, by adopting models pre-trained from abundant data in other domains. However, the pre-training process was commonly unaware of the future adaptation to other concept classes. We disclose that a classically fully trained feature extractor can leave little embedding space for unseen classes, which keeps the model from well-fitting the new classes. In this work, we propose to use a novelty-prepared loss function, called self-compacting softmax loss (SSL), for few-shot classification. The SSL can prevent the full occupancy of the embedding space. Thus the model is more prepared to learn new classes. In experiments on CUB-200-2011 and mini-ImageNet datasets, we show that SSL leads to significant improvement of the state-of-the-art performance. This work may shed some light on considering the model capacity for few-shot classification tasks.
翻訳日:2022-12-27 12:47:00 公開日:2020-03-01
# 電力消費データに対するオンライン階層予測

Online Hierarchical Forecasting for Power Consumption Data ( http://arxiv.org/abs/2003.00585v1 )

ライセンス: Link先を確認
Margaux Br\'eg\`ere and Malo Huard(参考訳) 本研究では,世帯の消費電力の予測と,その下位人口の予測について検討する。 これらのサブポピュレーションは、歴史的世帯消費時系列から決定した外生情報および/またはプロファイルに基づいて、位置に応じて構築される。 そこで本稿では, 電力消費時系列を数段階の家庭集合体で予測することを目的とする。 これらの時系列は、階層を誘導する和の制約によってリンクされる。 私たちのアプローチは,機能生成,集約,投影という3つのステップで構成されています。 第一に(機能生成ステップ)、各世帯の群について、ランダムな森林や一般化された加法モデルを用いて、ベンチマーク予測(特徴と呼ばれる)を行う。 次に(集約ステップ)集約アルゴリズムを並列に実行し、これらの予測を集約し、新しい予測を提供する。 最後に(射影ステップ)、時系列階層によって引き起こされる総和制約を用いて予測を再調整し、それらを well-chosen linear subspace に投影する。 我々は,この手法の平均予測誤差について,後悔と呼ばれる量の最小化を通じて理論的に保証する。 また、エネルギー需要調査プロジェクトにおいて、複数のエネルギー提供者によってイギリスで収集された世帯の電力消費データに対する我々のアプローチをテストした。 我々は,アプローチ性能の評価のために,様々な集団区分を構築し,比較する。

We study the forecasting of the power consumptions of a population of households and of subpopulations thereof. These subpopulations are built according to location, to exogenous information and/or to profiles we determined from historical households consumption time series. Thus, we aim to forecast the electricity consumption time series at several levels of households aggregation. These time series are linked through some summation constraints which induce a hierarchy. Our approach consists in three steps: feature generation, aggregation and projection. Firstly (feature generation step), we build, for each considering group for households, a benchmark forecast (called features), using random forests or generalized additive models. Secondly (aggregation step), aggregation algorithms, run in parallel, aggregate these forecasts and provide new predictions. Finally (projection step), we use the summation constraints induced by the time series underlying hierarchy to re-conciliate the forecasts by projecting them in a well-chosen linear subspace. We provide some theoretical guaranties on the average prediction error of this methodology, through the minimization of a quantity called regret. We also test our approach on households power consumption data collected in Great Britain by multiple energy providers in the Energy Demand Research Project context. We build and compare various population segmentations for the evaluation of our approach performance.
翻訳日:2022-12-27 12:46:44 公開日:2020-03-01
# 人物再同定のための注意深い特徴学習

Deep Attention Aware Feature Learning for Person Re-Identification ( http://arxiv.org/abs/2003.00517v1 )

ライセンス: Link先を確認
Yifan Chen, Han Wang, Xiaolu Sun, Bin Fan, Chu Tang(参考訳) 視覚的注意は、人物の再識別のパフォーマンスを改善するのに有効であることが証明されている。 既存のほとんどの方法は、人物の再識別のために特徴マップを再重み付けするために追加の注意マップを学習することで視覚的注意をヒューリスティックに適用する。 しかし、この種の手法は必然的にモデルの複雑さと推論時間を増加させる。 本稿では,注意学習を対人reidネットワークにおける追加目的として取り入れ,元の構造を変化させることなく,同一の推論時間とモデルサイズを維持することを提案する。 学習した特徴マップは,人物と関連する身体部位をそれぞれ認識させるため,2種類の注意が払われてきた。 グローバルに、全体的注意分枝(HAB)は、背景の影響を軽減するために、バックボーンが人に焦点を当てた特徴マップを作成する。 局所的に、部分注意分岐(pab)は、抽出された特徴を複数のグループに分離し、異なる身体部位(すなわちキーポイント)に別々に責任を負わせることにより、ポーズ変化や部分的咬合に対する堅牢性を高める。 これらの2種類の注意は普遍的であり、既存のReIDネットワークに組み込むことができる。 我々は2つの典型的なネットワーク(TriNetとBag of Tricks)でその性能をテストし、5つの広く使われているデータセットで大幅な性能改善を観測した。

Visual attention has proven to be effective in improving the performance of person re-identification. Most existing methods apply visual attention heuristically by learning an additional attention map to re-weight the feature maps for person re-identification. However, this kind of methods inevitably increase the model complexity and inference time. In this paper, we propose to incorporate the attention learning as additional objectives in a person ReID network without changing the original structure, thus maintain the same inference time and model size. Two kinds of attentions have been considered to make the learned feature maps being aware of the person and related body parts respectively. Globally, a holistic attention branch (HAB) makes the feature maps obtained by backbone focus on persons so as to alleviate the influence of background. Locally, a partial attention branch (PAB) makes the extracted features be decoupled into several groups and be separately responsible for different body parts (i.e., keypoints), thus increasing the robustness to pose variation and partial occlusion. These two kinds of attentions are universal and can be incorporated into existing ReID networks. We have tested its performance on two typical networks (TriNet and Bag of Tricks) and observed significant performance improvement on five widely used datasets.
翻訳日:2022-12-27 12:46:05 公開日:2020-03-01
# 光ルミネッセンスウェハ画像解析のための完全畳み込みネットワークの再検討

Rethinking Fully Convolutional Networks for the Analysis of Photoluminescence Wafer Images ( http://arxiv.org/abs/2003.00594v1 )

ライセンス: Link先を確認
Maike Lorena Stern, Hans Lindberg, Klaus Meyer-Wegener(参考訳) 発光ダイオードの製造は複雑な半導体製造プロセスであり、異なる測定値が組み合わさっている。 光ルミネッセンスイメージングは、非破壊的、高速でコスト効率の良い測定といういくつかの利点がある。 ledウェハの発光測定画像において、各画素は光励起後のledチップの輝度に対応し、チップ性能情報を明らかにする。 しかし、フォトルミネッセンス画像に基づくLEDウエハのチップ微細欠陥マップの生成は、その一方、測定された輝度値が画像によって異なることに加えて、明るさが異なる局所的なスポットがあることなど、いくつかの理由から困難であることが証明されている。 一方、特定の欠陥構造は複数の形状、大きさ、明るさ勾配を仮定し、顕著な輝度値が欠陥LEDチップ、測定アーチファクト、または非欠陥構造に対応する可能性がある。 本研究では,完全畳み込みネットワークを用いたチップ微細欠陥マップの作成を再検討し,密結合した畳み込みブロックとアトーラス空間ピラミッドプーリングモジュールの導入により,複数のスケールでオブジェクトをセグメンテーションする問題を改善できることを示す。 また、測定画像の小さなデータセットを用いたトレーニングネットワークの実装の詳細と経験を共有します。 提案するアーキテクチャは,前バージョンに比べて高度に可変な欠陥構造のセグメンテーション精度を大幅に向上させる。

The manufacturing of light-emitting diodes is a complex semiconductor-manufacturing process, interspersed with different measurements. Among the employed measurements, photoluminescence imaging has several advantages, namely being a non-destructive, fast and thus cost-effective measurement. On a photoluminescence measurement image of an LED wafer, every pixel corresponds to an LED chip's brightness after photo-excitation, revealing chip performance information. However, generating a chip-fine defect map of the LED wafer, based on photoluminescence images, proves challenging for multiple reasons: on the one hand, the measured brightness values vary from image to image, in addition to local spots of differing brightness. On the other hand, certain defect structures may assume multiple shapes, sizes and brightness gradients, where salient brightness values may correspond to defective LED chips, measurement artefacts or non-defective structures. In this work, we revisit the creation of chip-fine defect maps using fully convolutional networks and show that the problem of segmenting objects at multiple scales can be improved by the incorporation of densely connected convolutional blocks and atrous spatial pyramid pooling modules. We also share implementation details and our experiences with training networks with small datasets of measurement images. The proposed architecture significantly improves the segmentation accuracy of highly variable defect structures over our previous version.
翻訳日:2022-12-27 12:45:44 公開日:2020-03-01
# Smooth Sensitivity を用いた差分私的深層学習

Differentially Private Deep Learning with Smooth Sensitivity ( http://arxiv.org/abs/2003.00505v1 )

ライセンス: Link先を確認
Lichao Sun, Yingbo Zhou, Philip S. Yu, Caiming Xiong(参考訳) 現代の機械学習モデルのトレーニングに使用される機密データのプライバシーを確保することは、多くの分野において最重要事項である。 これらの懸念を研究する1つのアプローチは、差分プライバシーのレンズである。 このフレームワークでは、モデルのトレーニングに使用されるデータの詳細が曖昧になるようにモデルを摂動することで、一般的にプライバシー保証が得られます。 このアプローチの特別な例は、機密データを所有している教師が学生に有用な、しかし騒々しい情報を提供し、学生が特定のタスクにおいて、機密データの特定の特徴にアクセスせずに、良いパフォーマンスを得られるようにする「教師学生」フレームワークである。 より強力なプライバシー保証は、一般的に教師の立場でより重大な混乱を伴うため、既存のフレームワークをデプロイすることは、学生のパフォーマンスとプライバシー保証との間のトレードオフを根本的に伴う。 過去の研究で使われた最も重要なテクニックの1つは教師モデルの集合であり、ノイズの多い投票手順に基づいて生徒に情報を返す。 本研究では,学生に伝達される有用な情報に影響を与えずに,ある条件下で教師から非常に大きなランダムノーミングを受けることができる,不可変雑音argmaxと呼ばれる,円滑な感度を持つ新しい投票機構を提案する。 これまでの研究と比較すると、我々のアプローチはあらゆる尺度における最先端の手法よりも改善され、パフォーマンスとより強力なプライバシー(\epsilon \approx 0$)の両方でより大きなタスクにスケールします。 この新しいフレームワークは、任意の機械学習モデルに適用でき、大量のデータでトレーニングを必要とするタスクに対して魅力的なソリューションを提供する。

Ensuring the privacy of sensitive data used to train modern machine learning models is of paramount importance in many areas of practice. One approach to study these concerns is through the lens of differential privacy. In this framework, privacy guarantees are generally obtained by perturbing models in such a way that specifics of data used to train the model are made ambiguous. A particular instance of this approach is through a "teacher-student" framework, wherein the teacher, who owns the sensitive data, provides the student with useful, but noisy, information, hopefully allowing the student model to perform well on a given task without access to particular features of the sensitive data. Because stronger privacy guarantees generally involve more significant perturbation on the part of the teacher, deploying existing frameworks fundamentally involves a trade-off between student's performance and privacy guarantee. One of the most important techniques used in previous works involves an ensemble of teacher models, which return information to a student based on a noisy voting procedure. In this work, we propose a novel voting mechanism with smooth sensitivity, which we call Immutable Noisy ArgMax, that, under certain conditions, can bear very large random noising from the teacher without affecting the useful information transferred to the student. Compared with previous work, our approach improves over the state-of-the-art methods on all measures, and scale to larger tasks with both better performance and stronger privacy ($\epsilon \approx 0$). This new proposed framework can be applied with any machine learning models, and provides an appealing solution for tasks that requires training on a large amount of data.
翻訳日:2022-12-27 12:45:23 公開日:2020-03-01
# ベイジアン惑星:ベイジアン推論を組み込んだ深層計画網の再考と改善

PlaNet of the Bayesians: Reconsidering and Improving Deep Planning Network by Incorporating Bayesian Inference ( http://arxiv.org/abs/2003.00370v1 )

ライセンス: Link先を確認
Masashi Okada and Norio Kosaka and Tadahiro Taniguchi(参考訳) 本稿では,ベイジアン(PlaNet-Bayes)のPlaNetとしても知られるDeep Planning Network(PlaNet)の拡張を提案する。 部分的に観測可能な環境では、例えば高価なセンサーがないために完全な情報が利用できないモデル予測制御(MPC)の需要が高まっている。 PlaNetは、モデルベース強化学習(MBRL)を介して状態空間モデルをトレーニングし、潜伏空間で計画を実行するため、そのような潜伏MPCを実現するための有望なソリューションである。 しかし、近年のmbrr文献では、訓練や計画への不確実性などの技術戦略は考慮されておらず、訓練性能が著しく低下している。 提案した拡張は、モデルとアクションの不確実性の両方を組み込んだベイズ推論に基づいて、PlaNetの不確実性を認識することである。 潜在モデルの不確実性はニューラルネットワークアンサンブルを用いて近似モデル後方に表現される。 最適作用候補のアンサンブルは、最適性の多モード不確実性を捉えるためにも用いられる。 アクションアンサンブルの概念は、一般的な変動推論 MPC (VI-MPC) フレームワークとその例、軌道サンプリング (PaETS) を用いた確率的アクションアンサンブルに依存している。 本稿では,従来文献で紹介されていた VI-MPC と PaETS を拡張し,部分的に観察可能なケースに対処する。 連続制御タスクの性能を実験的に比較し,PlaNetと比較して漸近的性能を継続的に向上させることができると結論付けた。

In the present paper, we propose an extension of the Deep Planning Network (PlaNet), also referred to as PlaNet of the Bayesians (PlaNet-Bayes). There has been a growing demand in model predictive control (MPC) in partially observable environments in which complete information is unavailable because of, for example, lack of expensive sensors. PlaNet is a promising solution to realize such latent MPC, as it is used to train state-space models via model-based reinforcement learning (MBRL) and to conduct planning in the latent space. However, recent state-of-the-art strategies mentioned in MBRR literature, such as involving uncertainty into training and planning, have not been considered, significantly suppressing the training performance. The proposed extension is to make PlaNet uncertainty-aware on the basis of Bayesian inference, in which both model and action uncertainty are incorporated. Uncertainty in latent models is represented using a neural network ensemble to approximately infer model posteriors. The ensemble of optimal action candidates is also employed to capture multimodal uncertainty in the optimality. The concept of the action ensemble relies on a general variational inference MPC (VI-MPC) framework and its instance, probabilistic action ensemble with trajectory sampling (PaETS). In this paper, we extend VI-MPC and PaETS, which have been originally introduced in previous literature, to address partially observable cases. We experimentally compare the performances on continuous control tasks, and conclude that our method can consistently improve the asymptotic performance compared with PlaNet.
翻訳日:2022-12-27 12:39:23 公開日:2020-03-01
# 離散分布に対するシュタイン変分推論

Stein Variational Inference for Discrete Distributions ( http://arxiv.org/abs/2003.00605v1 )

ライセンス: Link先を確認
Jun Han, Fan Ding, Xianglong Liu, Lorenzo Torresani, Jian Peng, Qiang Liu(参考訳) スタイン変分勾配勾配勾配(SVGD)のような勾配に基づく近似推論手法は、微分可能な連続分布に対する単純で汎用的な推論エンジンを提供する。 しかし、既存のSVGDの形式は離散分布に直接適用することはできない。 本研究では、離散分布を等価なピースワイド連続分布に変換する単純な一般的なフレームワークを提案し、その上で勾配のないSVGDを適用して効率的な近似推定を行う。 実験結果は,gibbsサンプリングや不連続ハミルトンモンテカルロといった従来のアルゴリズムを,離散グラフィカルモデルの様々な難解なベンチマークで上回ることを示した。 本手法は,biarized neural network (bnn) のアンサンブルを学習するための有望なツールを提供し,cifar-10 データセット上でバイナリ化されたalexnetを学習する他の広く使われているアンサンブル手法よりも優れていることを示す。 さらに、そのような変換は、勾配のないカーネル化されたStein差分に簡単に適用でき、離散分布の良性(GoF)テストを実行することができる。 提案手法は, 難解離散分布に対する既存のgofテスト手法よりも優れている。

Gradient-based approximate inference methods, such as Stein variational gradient descent (SVGD), provide simple and general-purpose inference engines for differentiable continuous distributions. However, existing forms of SVGD cannot be directly applied to discrete distributions. In this work, we fill this gap by proposing a simple yet general framework that transforms discrete distributions to equivalent piecewise continuous distributions, on which the gradient-free SVGD is applied to perform efficient approximate inference. The empirical results show that our method outperforms traditional algorithms such as Gibbs sampling and discontinuous Hamiltonian Monte Carlo on various challenging benchmarks of discrete graphical models. We demonstrate that our method provides a promising tool for learning ensembles of binarized neural network (BNN), outperforming other widely used ensemble methods on learning binarized AlexNet on CIFAR-10 dataset. In addition, such transform can be straightforwardly employed in gradient-free kernelized Stein discrepancy to perform goodness-of-fit (GOF) test on discrete distributions. Our proposed method outperforms existing GOF test methods for intractable discrete distributions.
翻訳日:2022-12-27 12:38:29 公開日:2020-03-01
# MonoPair: 空間的関係を用いた単眼3次元物体検出

MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships ( http://arxiv.org/abs/2003.00504v1 )

ライセンス: Link先を確認
Yongjian Chen and Lei Tai and Kai Sun and Mingyang Li(参考訳) モノキュラーな3d物体検出は、自律運転において必須の要素であり、特に部分的にしか見えない閉塞されたサンプルの場合、解決が困難である。 ほとんどの検出器は、それぞれの3Dオブジェクトを独立したトレーニングターゲットと見なしており、必然的に、隠蔽されたサンプルの有用な情報が欠如している。 そこで本研究では,一対のサンプルの関係を考慮し,モノラルな3次元物体検出を改良する手法を提案する。 これにより、隣り合う部分閉塞オブジェクトに対する空間的制約をエンコードできる。 具体的には, 近接する物体対の物体位置と3次元距離の不確実性を考慮した予測を, 非線形最小二乗法により共同最適化した。 最後に、ワンステージ不確実性認識予測構造とポスト最適化モジュールを専用に統合し、実行効率を確保する。 実験により,本手法がKITTI 3D検出ベンチマークにおいて,特に硬度試料において,最先端の競合他社よりも高い性能を示すことを示す。

Monocular 3D object detection is an essential component in autonomous driving while challenging to solve, especially for those occluded samples which are only partially visible. Most detectors consider each 3D object as an independent training target, inevitably resulting in a lack of useful information for occluded samples. To this end, we propose a novel method to improve the monocular 3D object detection by considering the relationship of paired samples. This allows us to encode spatial constraints for partially-occluded objects from their adjacent neighbors. Specifically, the proposed detector computes uncertainty-aware predictions for object locations and 3D distances for the adjacent object pairs, which are subsequently jointly optimized by nonlinear least squares. Finally, the one-stage uncertainty-aware prediction structure and the post-optimization module are dedicatedly integrated for ensuring the run-time efficiency. Experiments demonstrate that our method yields the best performance on KITTI 3D detection benchmark, by outperforming state-of-the-art competitors by wide margins, especially for the hard samples.
翻訳日:2022-12-27 12:38:12 公開日:2020-03-01
# 条件付き生成モデルを用いた画像分布の固有ロバスト性理解

Understanding the Intrinsic Robustness of Image Distributions using Conditional Generative Models ( http://arxiv.org/abs/2003.00378v1 )

ライセンス: Link先を確認
Xiao Zhang, Jinghui Chen, Quanquan Gu, David Evans(参考訳) Gilmer et al. (2018) から、いくつかの研究が、基礎となる入力確率空間に関する異なる仮定に基づいて、逆例の必然性を証明している。 しかし、これらの結果が自然画像分布に当てはまるかどうかは不明である。 本研究では,ある条件付き生成モデルによって基礎となるデータ分布が捉えられると仮定し,Fawzi et al. (2018) の開問題を解く一般分類器の固有ロバスト性境界を証明した。 最先端条件付き生成モデルに基づいて,$\ell_2$ 摂動下での2つの共通画像ベンチマークの固有ロバスト性について検討し,本理論が示唆するロバスト性限界と,現在の最先端ロバストモデルが達成した逆ロバスト性との間に大きなギャップが存在することを示す。 すべての実験のコードはhttps://github.com/xiaozhanguva/Intrinsic-Rob.orgで公開されている。

Starting with Gilmer et al. (2018), several works have demonstrated the inevitability of adversarial examples based on different assumptions about the underlying input probability space. It remains unclear, however, whether these results apply to natural image distributions. In this work, we assume the underlying data distribution is captured by some conditional generative model, and prove intrinsic robustness bounds for a general class of classifiers, which solves an open problem in Fawzi et al. (2018). Building upon the state-of-the-art conditional generative models, we study the intrinsic robustness of two common image benchmarks under $\ell_2$ perturbations, and show the existence of a large gap between the robustness limits implied by our theory and the adversarial robustness achieved by current state-of-the-art robust models. Code for all our experiments is available at https://github.com/xiaozhanguva/Intrinsic-Rob.
翻訳日:2022-12-27 12:37:55 公開日:2020-03-01
# コンテンツに基づく360度VR映像のパーソナライズドビューポート予測のための深層学習

Deep Learning for Content-based Personalized Viewport Prediction of 360-Degree VR Videos ( http://arxiv.org/abs/2003.00429v1 )

ライセンス: Link先を確認
Xinwei Chen, Ali Taleb Zadeh Kasgari and Walid Saad(参考訳) 本稿では,仮想現実ビデオにおける頭部運動予測の問題について述べる。 検討したモデルでは、位置データとビデオフレームの内容を利用して将来の頭部の動きを予測する深層学習ネットワークが導入された。 このニューラルネットワークへのデータ入力を最適化するために、データサンプルレート、縮小データ、長期予測長も検討されている。 シミュレーションの結果,提案手法は位置データのみに依存するベースラインアプローチに比べて予測精度が16.1\%向上していることがわかった。

In this paper, the problem of head movement prediction for virtual reality videos is studied. In the considered model, a deep learning network is introduced to leverage position data as well as video frame content to predict future head movement. For optimizing data input into this neural network, data sample rate, reduced data, and long-period prediction length are also explored for this model. Simulation results show that the proposed approach yields 16.1\% improvement in terms of prediction accuracy compared to a baseline approach that relies only on the position data.
翻訳日:2022-12-27 12:37:17 公開日:2020-03-01
# 非剛性3次元人体モデルの形状検索

Shape retrieval of non-rigid 3d human models ( http://arxiv.org/abs/2003.08763v1 )

ライセンス: Link先を確認
David Pickup, Xianfang Sun, Paul L Rosin, Ralph R Martin, Z Cheng, Zhouhui Lian, Masaki Aono, A Ben Hamza, A Bronstein, M Bronstein, S Bu, Umberto Castellani, S Cheng, Valeria Garro, Andrea Giachetti, Afzal Godil, Luca Isaia, J Han, Henry Johan, L Lai, Bo Li, C Li, Haisheng Li, Roee Litman, X Liu, Z Liu, Yijuan Lu, L Sun, G Tam, Atsushi Tatsuma, J Ye(参考訳) ヒトの3次元モデルはコンピュータグラフィックスや視覚において一般的に使用されるため、身体形状を識別する能力は重要な形状検索問題である。 本稿では,非剛性3次元形状検索アルゴリズムを3次元人体モデル上でテストするためのベンチマークを提供する。 このベンチマークは以前のシェープベンチマークよりもはるかに厳格な課題であった。 使用するトレーニングデータを標準化し、より公平な比較を提供するため、別個のトレーニングセットとして使用するための145の新しいモデルを追加しました。 また、ヒトスキャンのfaustデータセットの実験も行っています。 前回のベンチマーク調査の参加者はすべて、ここで報告された新しいテストに参加した。 また,さらに参加者も参加しており,検索結果のさらなる分析を行っている。 全部で25の異なる形状の検索方法がある。

3D models of humans are commonly used within computer graphics and vision, and so the ability to distinguish between body shapes is an important shape retrieval problem. We extend our recent paper which provided a benchmark for testing non-rigid 3D shape retrieval algorithms on 3D human models. This benchmark provided a far stricter challenge than previous shape benchmarks. We have added 145 new models for use as a separate training set, in order to standardise the training data used and provide a fairer comparison. We have also included experiments with the FAUST dataset of human scans. All participants of the previous benchmark study have taken part in the new tests reported here, many providing updated results using the new data. In addition, further participants have also taken part, and we provide extra analysis of the retrieval results. A total of 25 different shape retrieval methods.
翻訳日:2022-12-27 12:36:50 公開日:2020-03-01
# 対面自動翻訳に向けて

Towards Automatic Face-to-Face Translation ( http://arxiv.org/abs/2003.00418v1 )

ライセンス: Link先を確認
Prajwal K R, Rudrabha Mukhopadhyay, Jerin Philip, Abhishek Jha, Vinay Namboodiri, C.V. Jawahar(参考訳) 自動機械翻訳システムにおける最近の進歩を踏まえ、我々は「顔から顔への翻訳」と呼ぶ新しいアプローチを提案する。 今日のデジタルコミュニケーションがますます視覚的になるにつれて、言語Aで話す人のビデオをリアルな唇の同期を伴うターゲット言語Bに自動翻訳できるシステムの必要性が議論されている。 本研究では,この問題に対する自動パイプラインを作成し,その影響を実世界アプリケーションで実証する。 まず、既存の複数のモジュールを音声と言語から組み合わせ、音声から音声への翻訳システムを構築する。 次に,翻訳音声からリアルな発話顔を生成するための新しいビジュアルモジュールLipGANを組み込むことで,「顔から顔への翻訳」を目指す。 標準LRWテストセットにおけるLipGANの定量的評価は、すべての標準メトリクスで既存のアプローチよりも大幅に優れていることを示している。 また、対面の翻訳パイプラインを複数の人間による評価に適用し、言語間でのマルチモーダルコンテンツの消費と対話に関するユーザーエクスペリエンスを劇的に改善できることを示しました。 コード、モデル、デモビデオが公開されている。 デモビデオ: https://www.youtube.com/watch? v=aHG6Oei8jF0コードとモデル:https://github.com/Rudrabha/LipGAN

In light of the recent breakthroughs in automatic machine translation systems, we propose a novel approach that we term as "Face-to-Face Translation". As today's digital communication becomes increasingly visual, we argue that there is a need for systems that can automatically translate a video of a person speaking in language A into a target language B with realistic lip synchronization. In this work, we create an automatic pipeline for this problem and demonstrate its impact on multiple real-world applications. First, we build a working speech-to-speech translation system by bringing together multiple existing modules from speech and language. We then move towards "Face-to-Face Translation" by incorporating a novel visual module, LipGAN for generating realistic talking faces from the translated audio. Quantitative evaluation of LipGAN on the standard LRW test set shows that it significantly outperforms existing approaches across all standard metrics. We also subject our Face-to-Face Translation pipeline, to multiple human evaluations and show that it can significantly improve the overall user experience for consuming and interacting with multimodal content across languages. Code, models and demo video are made publicly available. Demo video: https://www.youtube.com/watch?v=aHG6Oei8jF0 Code and models: https://github.com/Rudrabha/LipGAN
翻訳日:2022-12-27 12:36:38 公開日:2020-03-01
# say as you wish: 抽象的なシーングラフによるキャプション生成のきめ細かい制御

Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs ( http://arxiv.org/abs/2003.00387v1 )

ライセンス: Link先を確認
Shizhe Chen, Qin Jin, Peng Wang, Qi Wu(参考訳) 人間は、望んだように細部まで詳細に画像の内容を記述することができる。 しかし、ほとんどの画像キャプションモデルは意図に依存しないため、異なるユーザの意図に応じて多様な記述を生成できない。 本研究では,ユーザ意図をきめ細かいレベルで表現し,生成した記述がどの程度詳細なものであるかを制御するための抽象シーングラフ(ASG)構造を提案する。 ASG は、3種類の \textbf{abstract node} (オブジェクト、属性、関係) からなる有向グラフであり、具体的な意味ラベルを持たない。 そのため、手動でも自動でも入手が容易である。 本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案し,グラフ構造に応じて所望のキャプションを生成する。 我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。 また、様々なASGを制御信号として自動的にサンプリングすることでキャプションの多様性を著しく改善する。

Humans are able to describe image contents with coarse to fine details as they wish. However, most image captioning models are intention-agnostic which can not generate diverse descriptions according to different user intentions initiatively. In this work, we propose the Abstract Scene Graph (ASG) structure to represent user intention in fine-grained level and control what and how detailed the generated description should be. The ASG is a directed graph consisting of three types of \textbf{abstract nodes} (object, attribute, relationship) grounded in the image without any concrete semantic labels. Thus it is easy to obtain either manually or automatically. From the ASG, we propose a novel ASG2Caption model, which is able to recognise user intentions and semantics in the graph, and therefore generate desired captions according to the graph structure. Our model achieves better controllability conditioning on ASGs than carefully designed baselines on both VisualGenome and MSCOCO datasets. It also significantly improves the caption diversity via automatically sampling diverse ASGs as control signals.
翻訳日:2022-12-27 12:36:18 公開日:2020-03-01
# 階層グラフ推論を用いた微細ビデオテキスト検索

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning ( http://arxiv.org/abs/2003.00392v1 )

ライセンス: Link先を確認
Shizhe Chen, Yida Zhao, Qin Jin, Qi Wu(参考訳) ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。 この問題に対する現在の支配的なアプローチは、クロスモーダル類似度を測定するための共同埋め込み空間を学ぶことである。 しかし、単純なジョイント埋め込みは、シーン、オブジェクト、アクション、それらの構成などの複雑な視覚およびテキストの詳細を表現するには不十分である。 微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論(HGR)モデルを提案する。 具体的に言うと、モデルはテキストを階層的なセマンティックグラフに切り離し、3つのレベルのイベント、アクション、エンティティ、レベル間の関係を含む。 注意に基づくグラフ推論を用いて階層的なテキスト埋め込みを生成し、多様な階層的なビデオ表現の学習を導く。 HGRモデルは、異なるビデオテキストレベルのマッチングを集約し、グローバルとローカルの両方の詳細をキャプチャする。 3つのビデオテキストデータセットにおける実験結果から,このモデルの利点が示された。 このような階層的な分解は、データセット間のより良い一般化を可能にし、きめ細かいセマンティックな違いを識別する能力を向上させる。

Cross-modal retrieval between videos and texts has attracted growing attentions due to the rapid emergence of videos on the web. The current dominant approach for this problem is to learn a joint embedding space to measure cross-modal similarities. However, simple joint embeddings are insufficient to represent complicated visual and textual details, such as scenes, objects, actions and their compositions. To improve fine-grained video-text retrieval, we propose a Hierarchical Graph Reasoning (HGR) model, which decomposes video-text matching into global-to-local levels. To be specific, the model disentangles texts into hierarchical semantic graph including three levels of events, actions, entities and relationships across levels. Attention-based graph reasoning is utilized to generate hierarchical textual embeddings, which can guide the learning of diverse and hierarchical video representations. The HGR model aggregates matchings from different video-text levels to capture both global and local details. Experimental results on three video-text datasets demonstrate the advantages of our model. Such hierarchical decomposition also enables better generalization across datasets and improves the ability to distinguish fine-grained semantic differences.
翻訳日:2022-12-27 12:36:03 公開日:2020-03-01