このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200717となっている論文です。

PDF登録状況(公開日: 20200717)

TitleAuthorsAbstract論文公表日・翻訳日
# 双対ユニタリと最大絡み合う量子進化のアンサンブルを作る

Creating ensembles of dual unitary and maximally entangling quantum evolutions ( http://arxiv.org/abs/1912.12021v3 )

ライセンス: Link先を確認
Suhail Ahmad Rather, S. Aravinda, Arul Lakshminarayan(参考訳) 最大絡み合った二部ユニタリ作用素やゲートは、量子情報から多体量子カオスの最小モデルの構築ブロックまでの様々な応用を見つけ、「二重ユニタリ」と呼ばれる。 積状態に作用する際の最大平均絡み合いを生成できる双対ユニタリ作用素は、追加の制約を満たす必要がある。 これらは「2-ユニタリ」と呼ばれ、完全テンソルの例であり、4つのパーティの絶対極大な絡み合う状態を構成するのに使用できる。 また、任意の局所次元において体系的な方法が存在しないため、そのようなユニタリ作用素の特別なクラスが形成される。 我々は、ユニタリ作用素の空間上の非線形写像である反復的プロトコルを概説し、構成員が任意に二重ユニタリであるアンサンブルを作成する。 さらに、絡み合った状態から生じる絡み合いの分布を通して、その絡み合う力と2つのユニタリにより双対ユニタリ作用素を特徴づける。

Maximally entangled bipartite unitary operators or gates find various applications from quantum information to being building blocks of minimal models of many-body quantum chaos, and have been referred to as "dual unitaries". Dual unitary operators that can create the maximum average entanglement when acting on product states have to satisfy additional constraints. These have been called "2-unitaries" and are examples of perfect tensors that can be used to construct absolutely maximally entangled states of four parties. Hitherto, no systematic method exists, in any local dimension, which result in the formation of such special classes of unitary operators. We outline an iterative protocol, a nonlinear map on the space of unitary operators, that creates ensembles whose members are arbitrarily close to being dual unitaries, while for qutrits and ququads we find that a slightly modified protocol yields a plethora of 2-unitaries. We further characterize the dual unitary operators via their entangling power and the 2-unitaries via the distribution of entanglement created from unentangled states.
翻訳日:2023-06-09 23:54:55 公開日:2020-07-17
# 薄棒の座屈不安定性の量子特性

The quantum character of buckling instabilities in thin rods ( http://arxiv.org/abs/2002.05772v2 )

ライセンス: Link先を確認
T. A. Engstrom(参考訳) ここでは、軸力による非伸縮性ロッドの座屈を1d、非相対論的、時間に依存しない量子力学にマッピングする。 2dに制限されたロッドのペタゴジカルケースに焦点をあてると、マッピングの単純で物理的に実現可能な3つの応用が詳細に与えられ、これらは箱の中の粒子、デルタ関数井戸内の粒子、三角形井戸内の粒子である。 第4の応用は、量子多体問題(ハートリー近似)の座屈問題を調べるものである。 第5の応用により、読者はロッド座屈問題に第2の横次元を加え、周期的境界条件を課すことによる驚くべき結果を探ることができる。

Here the buckling of inextensible rods due to axial body forces is mapped to 1d, nonrelativistic, time-independent quantum mechanics. Focusing on the pedagogical case of rods confined to 2d, three simple and physically realizable applications of the mapping are given in detail; the quantum counterparts of these are particle in a box, particle in a delta-function well, and particle in a triangular well. A fourth application examines the buckling counterpart of a quantum many-body problem (in the Hartree approximation). Through a fifth application, given in the form of an exercise, the reader can explore the surprising consequences of adding a second transverse dimension to the rod buckling problem and imposing periodic boundary conditions.
翻訳日:2023-06-03 19:00:49 公開日:2020-07-17
# 一般相対性理論の一般特異性と量子運命

Generic singularity of general relativity and its quantum fate ( http://arxiv.org/abs/2006.05242v2 )

ライセンス: Link先を確認
W{\l}odzimierz Piechocki(参考訳) Belinski-Khalatnikov-Lifshitz シナリオは一般相対性理論の一般特異点の存在を懸念する。 特異点において、すべての既知の物理学の法則が分解される。 しかし、このシナリオの量子化は、通常の量子進化につながる。 特異点は量子バウンスによって避けられる。 量子一般相対性理論が構成されるならば、特異点から解放される可能性は高い。 したがって、宇宙論やブラックホールの特異点の量子的運命のような問題に対処するために使用できる。

The Belinski-Khalatnikov-Lifshitz scenario concerns the existence of generic singularity of general relativity. At the singularity, there is a breakdown of all known laws of physics. Quantization of this scenario leads, however, to regular quantum evolution. The singularity is avoided by a quantum bounce. It is fairly probable that quantum general relativity, to be constructed, would be free from singularities. Thus, it could be used to address issues such as the quantum fates of cosmological and black holes singularities.
翻訳日:2023-05-16 04:57:08 公開日:2020-07-17
# Bose-Hubbardモデルに基づく原子ジャイロスコープの最適量子位相推定

Optimal quantum phase estimation in an atomic gyroscope based on Bose-Hubbard model ( http://arxiv.org/abs/2006.05794v2 )

ライセンス: Link先を確認
Lei Shao, Weiyao Li, Xiaoguang Wang(参考訳) 3-site bose-hubbardモデルに基づく原子ジャイロスコープの最適量子状態について検討する。 従来の研究では、位相の不確かさを推定するために、非相関状態、バット状態、正午状態などの様々な状態がプローブ状態として用いられる。 本稿では、任意の初期状態の量子フィッシャー情報を計算するために、エルミート作用素 $\mathcal{h}$ と等価なユニタリパラメトリゼーション変換を提案する。 この等価なユニタリパラメトリゼーション変換を利用して、損失のない状態と損失のある状態の両方について最大量子フィッシャー情報を与える最適状態を求めることができる。 その結果, エンタングルド圧縮状態(EESS)は, 適度な損失率の精度を著しく向上させることができることがわかった。

We investigate the optimal quantum state for an atomic gyroscope based on a three-site Bose-Hubbard model. In previous studies, various states such as the uncorrelated state, the BAT state and the NOON state are employed as the probe states to estimate the phase uncertainty. In this article, we present a Hermitian operator $\mathcal{H}$ and an equivalent unitary parametrization transformation to calculate the quantum Fisher information for any initial states. Exploiting this equivalent unitary parametrization transformation, we can seek the optimal state which gives the maximal quantum Fisher information on both lossless and lossy conditions. As a result, we find that the entangled even squeezed state (EESS) can significantly enhance the precision for moderate loss rates.
翻訳日:2023-05-16 02:48:42 公開日:2020-07-17
# 高齢者コミュニティ:aiによってより安全になる

Senior Living Communities: Made Safer by AI ( http://arxiv.org/abs/2007.05129v3 )

ライセンス: Link先を確認
Ashutosh Saxena and David R Cheriton(参考訳) 歴史的に前例のない高齢者への人口移動があり、今後10年間で大きな住宅開発が行われるだろう。 これは、不動産運用者がこの成長市場における需要を革新し、対処する大きな機会だ。 しかし、この分野への投資にはリスクが伴う。 高齢者は健康上の問題を抱えることが多いが、Covid-19は特に近くに住む高齢者の弱さを露呈している。 従来、高齢者のほとんどのサービスは「ハイタッチ」であり、訓練された介護者と密接な接触を必要としていた。 訓練された介護者が供給が不足しているだけでなく、パンデミックにより、高齢者医療に対する従来のハイタッチアプローチがコストが高くリスクが高いことが明らかになっている。 この新興人口層のニーズを満たす十分な介護者はなく、特に現在のパンデミックを考えると、高齢者施設で働くための追加の訓練やリスクを引き受けたい人はさらに少ない。 本稿では,自動化によるリスクとコストを軽減するため,高齢者施設の設計を再考する。 AI対応の普及型自動化では、緊急ではないとしても、リスクとコストを劇的に削減しつつ、ハイタッチから"ほとんどタッチ"に移行する機会がある、と私たちは主張しています。 私たちのビジョンは現在の現実を超えていますが、このアプローチの潜在的メリットを示すcaspar ai対応のシニアプロパティによる測定を引用します。

There is a historically unprecedented shift in demographics towards seniors, which will result in significant housing development over the coming decade. This is an enormous opportunity for real-estate operators to innovate and address the demand in this growing market. However, investments in this area are fraught with risk. Seniors often have more health issues, and Covid-19 has exposed just how vulnerable they are -- especially those living in close proximity. Conventionally, most services for seniors are "high-touch", requiring close physical contact with trained caregivers. Not only are trained caregivers short in supply, but the pandemic has made it evident that conventional high-touch approaches to senior care are high-cost and greater risk. There are not enough caregivers to meet the needs of this emerging demographic, and even fewer who want to undertake the additional training and risk of working in a senior facility, especially given the current pandemic. In this article, we rethink the design of senior living facilities to mitigate the risks and costs using automation. With AI-enabled pervasive automation, we claim there is an opportunity, if not an urgency, to go from high-touch to almost "no touch" while dramatically reducing risk and cost. Although our vision goes beyond the current reality, we cite measurements from Caspar AI-enabled senior properties that show the potential benefit of this approach.
翻訳日:2023-05-10 17:22:46 公開日:2020-07-17
# 医療システムにおけるエンタープライズアーキテクチャ: 体系的文献レビュー

Enterprise Architecture in Healthcare Systems: A systematic literature review ( http://arxiv.org/abs/2007.06767v2 )

ライセンス: Link先を確認
Silvano Herculano da Luz J\'unior, Francisco \'Icaro Cipriano Silva, Gustavo Sousa Galisa Albuquerque, Francisco Petr\^onio Alencar de Medeiros and Heremita Brasileiro Lira(参考訳) エンタープライズアーキテクチャ(EA)は1980年代から科学文献に存在しており、いくつかの研究分野に分かれている。 EAは、ビジネス目標を達成するためのポリシーやプロジェクトを調整するための推奨事項をビジネスとICTのリーダーに提示することで価値を提供する。 医療システムにはeaアプリケーションに関する多くの研究がありますが、このトピックに特に体系的なアプローチを提供する研究が不足しています。 本研究は、医療システムにおける現在のEA実践を実証する研究を選定するために、より深く幅広い体系的文献レビュー(SLR)を提示する。 研究者たちは、データセレクションの第1段階の後に280の初等研究を返却し、第2段階の後に46の記事を統合したSLRプロトコルを確立した。 彼らはコーエンのkappaを使ってチームの評価における不一致のレベルを評価した。 このslrは、最も使われている方法論やツール、ベストプラクティス、それらの選択のために考慮された基準など、医療システムにおける最先端のeaアプリケーションの本質的な側面を明らかにした。 また、実験的なアプローチに基づいて、著者が記述した主なポジティブな影響、課題、および重要な成功要因を分析した。 さらに、この研究は、主要な出版チャネルと、医療システムにおけるEAに関する最も影響力のある著者をもたらします。

Enterprise architecture (EA) has been present in scientific literature since the 1980s and has branched out into several research fields. EA delivers value by presenting business and ICT leaders with recommendations for adjusting policies and projects to achieve business goals. Although there are many works on the EA application in healthcare systems, the literature lacks studies that provide a systematic approach to this topic specifically. This work presents a deep and broad Systematic Literature Review (SLR) to select studies demonstrating current EA practices in healthcare systems. The researchers established an SLR protocol returning 280 primary studies after the first step of the Data Selection and a consolidated inclusion of 46 articles after the second step. They assessed the level of disagreement during the team's evaluations using Cohen's Kappa. This SLR revealed essential aspects of state-of-the-art EA application in healthcare systems, such as the most used methodologies and tools, best practices, and criteria considered for their choice. It also analyzed the main positive impacts, challenges, and critical success factors described by the studies' authors based on empirical approaches. Besides, this work brings the main publication channels and the most influential authors on the topic of EA in Healthcare systems.
翻訳日:2023-05-10 02:29:27 公開日:2020-07-17
# 一般化作用素支配条件に基づく双フィールド量子鍵分布の有限鍵解析

Finite-key analysis for twin-field quantum key distribution based on generalized operator dominance condition ( http://arxiv.org/abs/2007.08861v1 )

ライセンス: Link先を確認
Rui-Qiang Wang, Zhen-Qiang Yin, Feng-Yu Lu, Rong Wang, Shuang Wang, Wei Chen, Wei Huang, Bing-Jie Xu, Guang-Can Guo and Zheng-Fu Han(参考訳) 量子鍵分布(QKD)は、物理学の法則によって保証される秘密鍵ビットを共有するのに役立つ。 実際には、QKDプロトコルの秘密鍵レートは、チャンネル距離の増加によって常に低下し、QKDの適用を著しく制限する。 近年, ツインフィールド (TF) QKD が提案され, 比抵抗限界に打ち勝つことができ, 達成可能な QKD の距離を大幅に増加させることができる。 K. Maeda et。 演算子支配条件に基づくTF-QKDの単純な有限鍵解析を提案した。 彼らは、それらの方法が速度距離限界を超えるには十分であることを示したが、その演算子支配条件は一般的ではない、すなわち、3つのデコイ状態シナリオにのみ適用できる、つまり、より多くのデコイ状態を導入することで鍵レートを増加させることは不可能であり、無限デコイ状態と光パルスを準備しても漸近境界に達することができないことを意味する。 本稿では,このギャップを埋めるために,新たな演算子支配条件を考案し,tf-qkdの有限鍵解析を改善することを提案する。 我々は,デコイ数を増加させることで,秘密鍵率をさらに向上させ,漸近境界に接近できることを示す。 我々の理論はTF-QKD実験で直接的に利用でき、高い秘密鍵レートが得られる。 我々の結果は、高いキーレートを得るために実験で直接使用できる。

Quantum key distribution (QKD) can help two distant peers to share secret key bits, whose security is guaranteed by the law of physics. In practice, the secret key rate of a QKD protocol is always lowered with the increasing of channel distance, which severely limits the applications of QKD. Recently, twin-field (TF) QKD has been proposed and intensively studied, since it can beat the rate-distance limit and greatly increase the achievable distance of QKD. Remarkalebly, K. Maeda et. al. proposed a simple finite-key analysis for TF-QKD based on operator dominance condition. Although they showed that their method is sufficient to beat the rate-distance limit, their operator dominance condition is not general, i.e. it can be only applied in three decoy states scenarios, which implies that its key rate cannot be increased by introducing more decoy states, and also cannot reach the asymptotic bound even in case of preparing infinite decoy states and optical pulses. Here, to bridge this gap, we propose an improved finite-key analysis of TF-QKD through devising new operator dominance condition. We show that by adding the number of decoy states, the secret key rate can be furtherly improved and approach the asymptotic bound. Our theory can be directly used in TF-QKD experiment to obtain higher secret key rate. Our results can be directly used in experiments to obtain higher key rates.
翻訳日:2023-05-09 05:09:22 公開日:2020-07-17
# データ分析ワークフローの原則

Principles for data analysis workflows ( http://arxiv.org/abs/2007.08708v1 )

ライセンス: Link先を確認
Sara Stoudt, Valeri N. Vasquez, Ciera C. Martinez(参考訳) 従来のデータサイエンス教育は、しばしば研究ワークフローのトレーニングを省略する: 科学的調査を生データからコヒーレントな研究問題へ移行し、洞察に富んだ貢献へと移すプロセス。 本稿では,探索,精錬,研磨という3つの段階を定義し,再現可能なデータ分析ワークフローの基本原理を詳述する。 それぞれのワークフローフェーズは、調査決定、方法論、結果がすぐに伝えられるオーディエンスを中心としています。 重要なことに、各フェーズは従来の学術出版物を超えて多くの研究製品を生み出すことができる。 関係するところは、データ集約型研究ワークフローの原則とソフトウェア開発の確立した実践の類似性です。 ここで提供されるガイダンスは厳格なルールブックではなく、再現性のあるデータ集約分析を進めるためのプラクティスやツールの提案は、学生と現在の専門家の両方に支援を提供するかもしれない。

Traditional data science education often omits training on research workflows: the process that moves a scientific investigation from raw data to coherent research question to insightful contribution. In this paper, we elaborate basic principles of a reproducible data analysis workflow by defining three phases: the Exploratory, Refinement, and Polishing Phases. Each workflow phase is roughly centered around the audience to whom research decisions, methodologies, and results are being immediately communicated. Importantly, each phase can also give rise to a number of research products beyond traditional academic publications. Where relevant, we draw analogies between principles for data-intensive research workflows and established practice in software development. The guidance provided here is not intended to be a strict rulebook; rather, the suggestions for practices and tools to advance reproducible, sound data-intensive analysis may furnish support for both students and current professionals.
翻訳日:2023-05-09 05:08:19 公開日:2020-07-17
# ロバスト位相推定を用いた量子コンピュータのエネルギー差評価

Evaluating energy differences on a quantum computer with robust phase estimation ( http://arxiv.org/abs/2007.08697v1 )

ライセンス: Link先を確認
A.E. Russo and K.M. Rudinger and B.C.A. Morrison and A.D. Baczewski(参考訳) 量子コンピュータを用いた2つの固有状態間のエネルギー差の評価にロバスト位相推定アルゴリズムを適用した。 このアプローチでは、補助レジスタとシステムレジスタの間の制御されたユニタリや、1つの補助キュービットさえ必要としない。 概念実証として、クラウド量子コンピュータを用いて、基底状態のエネルギーと水素分子の低い電子励起を最小限に計算する。 この手法の頑健性は、状態の準備と測定における一貫性のあるエラーに対する高い耐性の観点から定量化される。 概念的には、全ての量子位相推定アルゴリズムは最終的に固有値差を評価する。

We adapt the robust phase estimation algorithm to the evaluation of energy differences between two eigenstates using a quantum computer. This approach does not require controlled unitaries between auxiliary and system registers or even a single auxiliary qubit. As a proof of concept, we calculate the energies of the ground state and low-lying electronic excitations of a hydrogen molecule in a minimal basis on a cloud quantum computer. The denominative robustness of our approach is then quantified in terms of a high tolerance to coherent errors in the state preparation and measurement. Conceptually, we note that all quantum phase estimation algorithms ultimately evaluate eigenvalue differences.
翻訳日:2023-05-09 05:08:04 公開日:2020-07-17
# 弱系-環境結合を超える駆動二段系の動的定常状態に対するフルポーラロンマスター方程式のアプローチ

Full-polaron master equation approach to dynamical steady states of a driven two-level system beyond the weak system-environment coupling ( http://arxiv.org/abs/2007.09122v1 )

ライセンス: Link先を確認
Chien-Chang Chen, Thomas M. Stace and Hsi-Sheng Goan(参考訳) 二重量子ドット(DQD)間を電子コヒーレントにトンネルする2段階駆動系の定常時間平均特性を記述するために,フルポーラロンマスター方程式と弱結合型非マルコフマスター方程式を適用し,ボソニックフォノン浴と相互作用する。 これら2つの主方程式と最近のDQD実験の結果とそれに対応する弱結合理論法との比較により,実験および理論法で用いられる元のパラメータセットが弱結合パラメータ体系にはないことがわかった。 実験パラメータ集合におけるインタードット分離の値のみをわずかに調整したフルポラロンマスター方程式を用いることで、実験により測定された時間平均定常状態データに適合できることを示す。 調整されたインタードット分離は、実験においてDQDを定義する表面ゲートの幾何学によって許される可能な値の範囲内にある。 フルポーラロン方程式のアプローチでは, 弱結合理論法で用いられる特殊再正規化スキームは必要とせず, 運転によって誘導されるフォノンのステップ状肩の挙動の実験結果も記述できる。 このことは、フルポーラロンマスター方程式アプローチが、強い系-環境結合の場合の駆動スピン-ボソンモデルの定常特性を記述するための正確かつ効率的なツールであることを証明している。

We apply a full-polaron master equation and a weak-coupling non-Markovian master equation to describe the steady-state time-averaged properties of a driven two-level system, an electron coherently tunneling between double quantum dots (DQDs), interacting with a bosonic phonon bath. Comparing the results obtained using these two master equations with those from a recent DQD experiment and its corresponding weak-coupling theoretical method, we find that the original parameter set used in the experiment and theoretical method is not in the weak-coupling parameter regime. By using the full-polaron master equation with a slight adjustment on only the value of the interdot separation in the original experimental parameter set, we find that a reasonable fit to the experimentally measured time-averaged steady-state population data can be achieved. The adjusted interdot separation is within the possible values allowed by the geometry of the surface gates that define the DQD in the experiment. Our full-polaron equation approach does not require the special renormalization scheme employed in their weak-coupling theoretical method, and can still describe the experimental results of driving-induced phonon-enhanced steplike shoulder behaviors in the experiment. This demonstrates that the full-polaron master equation approach is a correct and efficient tool to describe the steady-state properties of a driven spin-boson model in the case of strong system-environment coupling.
翻訳日:2023-05-09 05:04:09 公開日:2020-07-17
# 最適結合を用いたボソニックジョセフソン接合における動的遮断

Dynamical blockade in a bosonic Josephson junction using optimal coupling ( http://arxiv.org/abs/2007.09111v1 )

ライセンス: Link先を確認
Dionisis Stefanatos and Emmanuel Paspalakis(参考訳) 本稿では、時間依存的ジョゼフソン結合を用いて、2つの結合された非線形ボソニックモードの系において、最初は弱濃度のコヒーレントな状態で負荷されるので、進化は最大2つの場量子の多様体に制限される。 数値最適制御を用いることで、一方のモードの2光子占有を最小限に抑えつつ、他方のモードに実際に転送される2光子占有を最小化する最適結合を求める。 さらに、分離されたモード間の移動の後、連続的なカップリングは消滅し、そのうちの1つが崩壊時に観測できる1光子集団にのみ残される。 我々は,より大きい1光子個体群と長い時間窓を持つ2次相関関数のより早い時間に得られた値を数値的に求めることにより,高い放射効率とより簡単な検出が可能となる。 提案手法は研究中のシステムに限定されるのではなく、他の関連するフレームワークに転送することで、これらのシステムからの単一光子放出統計を改善する最適な駆動場を見つけることができる。

In this article we use time-dependent Josephson coupling to enhance unconventional photon blockade in a system of two coupled nonlinear bosonic modes which are initially loaded with weakly populated coherent states, so the evolution is restricted to the manifold of up to two field quanta. Using numerical optimal control, we find the optimal coupling which minimizes the two-photon occupation of one mode, which is actually transferred to the other, while maintains a non-zero one-photon occupation in the same mode. Moreover, we choose the continuous coupling to vanish after the transfer between the modes such that they are decoupled and one of them is left only with some one-photon population which can be observed upon its decay. We numerically find lower values of the second-order correlation function obtained at earlier times than with constant coupling, with larger one-photon populations and for longer time windows, corresponding thus to higher emission efficiency and easier detection. The presented methodology is not restricted to the system under study, but it can also be transferred to other related frameworks, to find the optimal driving fields which can improve the single-photon emission statistics from these systems.
翻訳日:2023-05-09 05:03:31 公開日:2020-07-17
# 低温原子と捕捉イオンによる精密測定

Precision measurements with cold atoms and trapped ions ( http://arxiv.org/abs/2007.09064v1 )

ライセンス: Link先を確認
Qiuxin Zhang, Yirong Wang, Chenhao Zhu, Yuxin Wang, Xiang Zhang, Kuiyi Gao, and Wei Zhang(参考訳) 低温原子と閉じ込められたイオンの量子制御に関する最近の進歩は、科学と技術の両方の面において、精密測定の応用を大いに前進させた。 これらの巨大量子系の異常な制御性と汎用性のおかげで、時計、磁力計、寒冷原子とイオンに基づく干渉計では前例のない感度が達成されている。 さらに、これらのシステムには様々なシナリオでアプリケーションを容易にするための多くの特徴がある。 本稿では, 時間, 磁場, 慣性力の精密測定に用いる光時計, 冷間原子磁気センサ, 原子干渉計の原理を概説する。 主な内容は、この3つのアプリケーションにおける最近の実験的および理論的進歩を要約することであり、新しいデザインとより良いパフォーマンスへの可能性に特に注意を払っている。 このレビューの目的は、この急速な発展分野におけるすべての重要な作品の完全な概要を示すことではなく、フロンティアに関する大まかなスケッチを描き、今後の魅力的な未来を示すことである。

Recent progresses on quantum control of cold atoms and trapped ions in both the scientific and technological aspects greatly advance the applications in precision measurement. Thanks to the exceptional controllability and versatility of these massive quantum systems, unprecedented sensitivity has been achieved in clocks, magnetometers and interferometers based on cold atoms and ions. Besides, these systems also feature many characteristics that can be employed to facilitate the applications in different scenarios. In this review, we briefly introduce the principles of optical clocks, cold atom magnetometers and atom interferometers used for precision measurement of time, magnetic field, and inertial forces. The main content is then devoted to summarize some recent experimental and theoretical progresses in these three applications, with special attention being paid to the new designs and possibilities towards better performance. The purpose of this review is by no means to give a complete overview of all important works in this fast developing field, but to draw a rough sketch about the frontiers and show the fascinating future lying ahead.
翻訳日:2023-05-09 05:02:51 公開日:2020-07-17
# 漏洩抑制エンタングリング配列の局所勾配最適化

Local gradient optimization of leakage-suppressing entangling sequences ( http://arxiv.org/abs/2007.09019v1 )

ライセンス: Link先を確認
Arman A. Setser, Jason P. Kestner(参考訳) 我々は、勾配に基づく最適化手法を用いて、2量子ゲートにおける任意の論理的およびリーク的誤りを抑制するために、ノイズの多い論理的2量子エンタングゲートの時間ステップ間でシングルキュービット回転を織り込む。 本稿では,単一量子ビット演算における不完全性や,論理的・漏洩的ノイズの様々な相対的強みにシーケンス忠実性がどう影響するかを示す。 提案手法は完全に汎用的でシステムに依存しないため,実験的な実装の詳細に関わらず,任意の2ビットシステムに適用することができる。

We use a gradient-based optimization scheme to find single-qubit rotations to be interwoven between timesteps of a noisy logical two-qubit entangling gate in order to suppress arbitrary logical and leakage errors in the two-qubit gate. We show how the sequence fidelity is affected by imperfections in the single-qubit operations, as well as by various relative strengths of the logical and leakage noise. Our approach is completely general and system-independent, allowing for application to any two-qubit system regardless of the experimental implementation details.
翻訳日:2023-05-09 05:02:34 公開日:2020-07-17
# 一般化Kadanoff-Baym Ansatzにおける相関量子線とカーボンナノチューブのスペクトル特性

Spectral properties of correlated quantum wires and carbon nanotubes within the Generalized Kadanoff-Baym Ansatz ( http://arxiv.org/abs/2007.08901v1 )

ライセンス: Link先を確認
F. Cosco, N. W. Talarico, R. Tuovinen, N. Lo Gullo(参考訳) 単一粒子密度行列に対する一般化Kadanoff-Baym Ansatz(GKBA)マスター方程式を解くことにより、オープン相互作用系のスペクトル特性を解明する。 その妥当性を評価するために、gkba内で得られる解とダイソン方程式の解(カダノフ・ベイム方程式と同等)を比較した。 どちらの手法も、自己整合2階ボルン近似の相互作用を扱うが、GKBAはハートリー・フォックレベルで計算された遅延プロパゲータを保持する。 粒子が相互作用できる中心相関領域を介して接続された2つの導体の場合をシステムのスペクトル特性のプローブとして、接合部の境界における定常粒子電流を利用する。 この研究は、例えば、中心領域を1次元の量子ワイヤと2次元のカーボンナノチューブとみなし、GKBAマスター方程式の解がスペクトルの特徴をうまく捉えていることを示す。 この結果から, プロパゲータがHartree-Fockレベルである場合でも, GBKA溶液は使用する自己エネルギーの主なスペクトル特性を保っていることが明らかとなった。

We investigate the spectral properties of an open interacting system by solving the Generalized Kadanoff-Baym Ansatz (GKBA) master equation for the single-particle density matrix, namely the time-diagonal lesser Green's function. To benchmark its validity, we compare the solution obtained within the GKBA with the solution of the Dyson equation (equivalently the full Kadanoff-Baym equations). In both approaches, we treat the interaction within the self-consistent second-order Born approximation, whereas the GKBA still retains the retarded propagator calculated at the Hartree-Fock level. We consider the case of two leads connected through a central correlated region where particles can interact and exploit the stationary particle current at the boundary of the junction as a probe of the spectral features of the system. In this work, as an example, we take the central region to be a one-dimensional quantum wire and a two-dimensional carbon nanotube and show that the solution of the GKBA master equation well captures their spectral features. Our result demonstrates that, even when the propagator used is at the Hartree-Fock level, the GBKA solution retains the main spectral features of the self-energy used.
翻訳日:2023-05-09 05:01:51 公開日:2020-07-17
# 芸術は数学、数学は芸術を語る

Art Speaks Maths, Maths Speaks Art ( http://arxiv.org/abs/2007.08886v1 )

ライセンス: Link先を確認
Ninetta Leone, Simone Parisotto, Kasia Targonska-Hadzibabic, Spike Bucklow, Alessandro Launaro, Suzanne Reynolds, Carola-Bibiane Sch\"onlieb(参考訳) 文化遺産における応用数学(MACH)は,芸術と人文科学の利益のために数学研究を活用することを目的としている。 究極のゴールは、アーティスト、美術院、考古学者のためのユーザーフレンドリーなソフトウェアツールキットを作ることです。 エンドユーザーのニーズに応じて基礎となる数学的エンジンと機能を最適化するために、我々は、数学者とチームの文化継承メンバーとの継続的なコミュニケーションに基づいて反復的なアプローチを追求する。 我々の論文は、数学がいかに芸術を話せるかを説明しているが、最初の芸術が数学を話せる場合のみである。

Our interdisciplinary team Mathematics for Applications in Cultural Heritage (MACH) aims to use mathematical research for the benefit of the arts and humanities. Our ultimate goal is to create user-friendly software toolkits for artists, art conservators and archaeologists. In order for their underlying mathematical engines and functionality to be optimised for the needs of the end users, we pursue an iterative approach based on a continuous communication between the mathematicians and the cultural-heritage members of our team. Our paper illustrates how maths can speak art, but only if first art speaks maths.
翻訳日:2023-05-09 05:01:28 公開日:2020-07-17
# Einstein-Podolsky-Rosen Paradox with Position-Momentum Entangled Macroscopic Twin Beams

Einstein-Podolsky-Rosen Paradox with Position-Momentum Entangled Macroscopic Twin Beams ( http://arxiv.org/abs/2007.09259v1 )

ライセンス: Link先を確認
Ashok Kumar, Gaurav Nirala, and Alberto M. Marino(参考訳) 空間的絡み合いは、量子強化イメージングアプリケーションと高次元量子情報プロトコルの中心である。 特に、イメージングおよびセンシング用途では、古典的な最先端技術に対して真の優位性を提供するために、マクロな数の光子を持つ量子状態が必要である。 アインシュタイン・ポドルスキー・ローゼン(EPR)パラドックスの原位置と運動量に、EPR空間(位置モメンタム)の絡み合いの存在を示すことにより、明るい双対光線で示す。 電子増倍型電荷カップリングデバイスカメラを用いて、近距離界と遠距離界の明るいツインビームの画像を記録し、大きさ以上の不確実性原理の明らかな違反を実現する。 さらに、空間的および時間的自由度における量子相関の存在は、近距離場および遠距離場の明るいツインビームの空間的ゆらぎの間に空間的ゆらぎをもたらすことを示した。 これは空間的絡み合いの別の検証を提供し、明るい双対ビームにおける超絡みの存在を示す。

Spatial entanglement is at the heart of quantum enhanced imaging applications and high-dimensional quantum information protocols. In particular, for imaging and sensing applications, quantum states with a macroscopic number of photons are needed to provide a real advantage over the classical state-of-the-art. We demonstrate the Einstein-Podolsky-Rosen (EPR) paradox in its original position and momentum form with bright twin beams of light by showing the presence of EPR spatial (position-momentum) entanglement. An electron-multiplying charge-coupled-device camera is used to record images of the bright twin beams in the near and far field regimes to achieve an apparent violation of the uncertainty principle by more than an order of magnitude. We further show that the presence of quantum correlations in the spatial and temporal degrees of freedom leads to spatial squeezing between the spatial fluctuations of the bright twin beams in both the near and far fields. This provides another verification of the spatial entanglement and points to the presence of hyperentanglement in the bright twin beams.
翻訳日:2023-05-09 04:54:03 公開日:2020-07-17
# パルス励起リンドープファイバラマン増幅器の量子非線形光学への応用

Pulsed-pump phosphorus-doped fiber Raman amplifier around 1260 nm for applications in quantum non-linear optics ( http://arxiv.org/abs/2007.09190v1 )

ライセンス: Link先を確認
Eilon Poem, Artem Golenchenko, Omri Davidson, Or Arenfrid, Ran Finkelstein, and Ofer Firstenberg(参考訳) 1260nmのナノ秒パルスとサブナノ秒パルスのファイバラマン増幅器について述べる。 増幅は4.5mの分極保持型リンドープファイバ内で行われ、200kHzの繰り返し速度と最大1.75kWのピークパワーで1080nmの3ns長パルスで励起される。 入力されたシードパルスは、サブmWピークパワーと0.25 nsの最小持続時間であり、サブMHzライン幅の連続波レーザーから彫られる。 最大1.4kWのピーク電力を持つ線形偏極出力パルスは80%以上のピーク電力変換効率に対応する。 90dBの超高信号利得を実現し、飽和電力以下の信号対雑音比3dBを20dB以上とする。 出力パルス最大400Wのピークパワーに対して時間的およびスペクトル的な顕著な拡張は見られず、シードパルスの位相変調により高出力での膨張を低減できる。 これによりピーク電力を最大1kWに制限したほぼ変態パルスが得られる。 最後に、制御可能な周波数チャープを持つパルス、可変幅のパルス、ダブルパルスの発生を実演する。 したがって、この増幅器は狭い原子共鳴のコヒーレント制御、特にルビジウム原子のリドベルク状態への高速でコヒーレントな励起に適している。 これらの能力は、量子非線形光学におけるいくつかの重要な応用への道を開く。

We describe a fiber Raman amplifier for nanosecond and sub-nanosecond pulses centered around 1260 nm. The amplification takes place inside a 4.5-m-long polarization-maintaining phosphorus-doped fiber, pumped at 1080 nm by 3-ns-long pulses with a repetition rate of 200 kHz and up to 1.75 kW peak power. The input seed pulses are of sub-mW peak-power and minimal duration of 0.25 ns, carved off a continuous-wave laser with sub-MHz linewidth. We obtain linearly-polarized output pulses with peak-powers of up to 1.4 kW, corresponding to peak-power conversion efficiency of over 80%. An ultrahigh small-signal-gain of 90 dB is achieved, and the signal-to-noise ratio 3 dB below the saturation power is above 20 dB. No significant temporal and spectral broadening is observed for output pulses up to 400 W peak power, and broadening at higher powers can be reduced by phase modulation of the seed pulse. Thus nearly-transform-limited pulses with peak power up to 1 kW are obtained. Finally, we demonstrate the generation of pulses with controllable frequency chirp, pulses with variable width, and double pulses. This amplifier is thus suitable for coherent control of narrow atomic resonances and especially for the fast and coherent excitation of rubidium atoms to Rydberg states. These abilities open the way towards several important applications in quantum non-linear optics.
翻訳日:2023-05-09 04:53:11 公開日:2020-07-17
# 流体力学の量子計算

Quantum Computation of Fluid Dynamics ( http://arxiv.org/abs/2007.09147v1 )

ライセンス: Link先を確認
Sachin S. Bharadwaj and Katepalli R. Sreenivasan(参考訳) 乱流のような強非線形力学系の研究は、優れた計算能力を求める。 量子コンピューティングの出現により、多くの量子アルゴリズムが、理論的にも実験的にも、古典的アルゴリズムよりも強力な計算可能性を示している。 量子コンピューティングの簡単な紹介から始め、利用可能な膨大な手法からいくつかの重要なツールとアルゴリズムを抽出し、流体力学における量子コンピューティングの可能なアプローチを評価する。

Studies of strongly nonlinear dynamical systems such as turbulent flows call for superior computational prowess. With the advent of quantum computing, a plethora of quantum algorithms have demonstrated, both theoretically and experimentally, more powerful computational possibilities than their classical counterparts. Starting with a brief introduction to quantum computing, we will distill a few key tools and algorithms from the huge spectrum of methods available, and evaluate possible approaches of quantum computing in fluid dynamics.
翻訳日:2023-05-09 04:51:49 公開日:2020-07-17
# 医療における知識管理のための自然言語処理の体系的検討

A Systematic Review of Natural Language Processing for Knowledge Management in Healthcare ( http://arxiv.org/abs/2007.09134v1 )

ライセンス: Link先を確認
Ganga Prasad Basyal, Bhaskar P. Rimal, and David Zeng(参考訳) 近年、データサイエンスのビジョンによって、自然言語処理(NLP)のパラダイムシフトが見られた。 nlpはテキスト処理のマイルストーンを設定し、医療分野の研究者にとって望ましい選択であると証明した。 本研究の目的は,NLPの可能性,特にNLPが医療領域における知識管理プロセスをサポートするためにどのように利用されているかを明らかにすることである。 本稿では, 医療領域における知識の創造, 獲得, 共有, 適用の方法について, 最先端のnlp研究の包括的調査を行う。 まず,医療における知識管理抽出と知識獲得プロセスを支援するNLP技術について考察した。 次に,NLPを用いた知識抽出プロセスの概念モデルを提案する。 最後に,課題の集合,課題,今後の研究分野について論じる。

Driven by the visions of Data Science, recent years have seen a paradigm shift in Natural Language Processing (NLP). NLP has set the milestone in text processing and proved to be the preferred choice for researchers in the healthcare domain. The objective of this paper is to identify the potential of NLP, especially, how NLP is used to support the knowledge management process in the healthcare domain, making data a critical and trusted component in improving the health outcomes. This paper provides a comprehensive survey of the state-of-the-art NLP research with a particular focus on how knowledge is created, captured, shared, and applied in the healthcare domain. Our findings suggest, first, the techniques of NLP those supporting knowledge management extraction and knowledge capture processes in healthcare. Second, we propose a conceptual model for the knowledge extraction process through NLP. Finally, we discuss a set of issues, challenges, and proposed future research areas.
翻訳日:2023-05-09 04:51:07 公開日:2020-07-17
# ポラリメトリック誘導非局所平均共分散行列による脱葉写像の推定

Polarimetric Guided Nonlocal Means Covariance Matrix Estimation for Defoliation Mapping ( http://arxiv.org/abs/2001.08976v2 )

ライセンス: Link先を確認
J{\o}rgen A. Agersborg, Stian Normann Anfinsen and Jane Uhd Jepsen(参考訳) 本研究では合成開口レーダ(SAR)データを用いてツンドラ-フォレストエコトンにおける樹木の高分解能剥離と再成長マッピングを行う可能性について検討した。 航空写真を用いて、生きた森林を持つ4つの地域と枯木を持つ4つの地域を同定した。 RADARSAT-2からの4次偏光SARデータを同じ領域から収集し, ガイド付き非局所平均スペックルフィルタの新たな拡張を用いて複素多視点偏光共分散行列を算出した。 非局所的手法により,研究領域に散在する散在樹の正確なマッピングに欠かせない,単一視点複素データの高空間分解能を維持できる。 標準的なランダム森林分類アルゴリズムを用いて,分類精度99.7 %以上,従来のスペックルフィルタリング法よりも高く,光学データに基づく分類精度に匹敵する結果を得た。

In this study we investigate the potential for using synthetic aperture radar (SAR) data to provide high resolution defoliation and regrowth mapping of trees in the tundra-forest ecotone. Using aerial photographs, four areas with live forest and four areas with dead trees were identified. Quad-polarimetric SAR data from RADARSAT-2 was collected from the same area, and the complex multilook polarimetric covariance matrix was calculated using a novel extension of guided nonlocal means speckle filtering. The nonlocal approach allows us to preserve the high spatial resolution of single-look complex data, which is essential for accurate mapping of the sparsely scattered trees in the study area. Using a standard random forest classification algorithm, our filtering results in over $99.7 \%$ classification accuracy, higher than traditional speckle filtering methods, and on par with the classification accuracy based on optical data.
翻訳日:2023-01-07 05:25:30 公開日:2020-07-17
# 機械学習におけるリチャードソン補間の有効性について

On the Effectiveness of Richardson Extrapolation in Machine Learning ( http://arxiv.org/abs/2002.02835v3 )

ライセンス: Link先を確認
Francis Bach (LIENS, SIERRA)(参考訳) リチャードソン外挿法(Richardson extrapolation)は、推定法の内部構造を詳細に知ることなく、その1つのハイパーパラメータの異なる値から得られる複数の推定値を線形に組み合わせることで、推定法の近似誤差を改善することができる古典的な解析手法である。 この論文の主な目標は、リチャードソン外挿が、確率的勾配降下におけるステップサイズ適応への既存の応用を超えて、機械学習内でいつ使用できるかを研究することである。 We identify two situations where Richardson interpolation can be useful: (1) when the hyperparameter is the number of iterations of an existing iterative optimization algorithm, with applications to averaged gradient descent and Frank-Wolfe algorithms (where we obtain asymptotically rates of $O(1/k^2)$ on polytopes, where $k$ is the number of iterations), and (2) when it is a regularization parameter, with applications to Nesterov smoothing techniques for minimizing non-smooth functions (where we obtain asymptotically rates close to $O(1/k^2)$ for non-smooth functions), and ridge regression. これらすべてのケースにおいて、外挿技術は性能に有意な損失を伴わないが、時には強い利得を伴い、そのような利得に対する漸近的発展に基づく理論的正当化と、機械学習による古典的問題に関する実証的な図示を提供する。

Richardson extrapolation is a classical technique from numerical analysis that can improve the approximation error of an estimation method by combining linearly several estimates obtained from different values of one of its hyperparameters, without the need to know in details the inner structure of the original estimation method. The main goal of this paper is to study when Richardson extrapolation can be used within machine learning, beyond the existing applications to step-size adaptations in stochastic gradient descent. We identify two situations where Richardson interpolation can be useful: (1) when the hyperparameter is the number of iterations of an existing iterative optimization algorithm, with applications to averaged gradient descent and Frank-Wolfe algorithms (where we obtain asymptotically rates of $O(1/k^2)$ on polytopes, where $k$ is the number of iterations), and (2) when it is a regularization parameter, with applications to Nesterov smoothing techniques for minimizing non-smooth functions (where we obtain asymptotically rates close to $O(1/k^2)$ for non-smooth functions), and ridge regression. In all these cases, we show that extrapolation techniques come with no significant loss in performance, but with sometimes strong gains, and we provide theoretical justifications based on asymptotic developments for such gains, as well as empirical illustrations on classical problems from machine learning.
翻訳日:2023-01-03 05:20:30 公開日:2020-07-17
# SideInfNet:サイド情報付き半自動セマンティックセマンティックセグメンテーションのためのディープニューラルネットワーク

SideInfNet: A Deep Neural Network for Semi-Automatic Semantic Segmentation with Side Information ( http://arxiv.org/abs/2002.02634v4 )

ライセンス: Link先を確認
Jing Yu Koh, Duc Thanh Nguyen, Quang-Trung Truong, Sai-Kit Yeung, Alexander Binder(参考訳) 完全な自動実行は、多くのコンピュータビジョンアプリケーションの最終的な目標である。 しかし、この目的は医学的応用のような高い障害コストに関連するタスクにおいて常に現実的ではない。 これらのタスクでは、ユーザがコンピュータアルゴリズムをガイドする作業を最小限に抑える半自動手法が望ましい精度と性能のために好まれる。 本稿では,半自動アプローチの実用性と適用性に着想を得て,画像から学習した特徴をユーザアノテーションから抽出した側面情報と効果的に統合する,新しいディープニューラルネットワークアーキテクチャを提案する。 提案手法を評価するために,提案ネットワークを3つの意味セグメンテーションタスクに適用し,ベンチマークデータセットについて広範な実験を行った。 実験結果と先行研究との比較により,半自動的意味セグメンテーションにおけるモデルの汎用性と有効性が示唆された。

Fully-automatic execution is the ultimate goal for many Computer Vision applications. However, this objective is not always realistic in tasks associated with high failure costs, such as medical applications. For these tasks, semi-automatic methods allowing minimal effort from users to guide computer algorithms are often preferred due to desirable accuracy and performance. Inspired by the practicality and applicability of the semi-automatic approach, this paper proposes a novel deep neural network architecture, namely SideInfNet that effectively integrates features learnt from images with side information extracted from user annotations. To evaluate our method, we applied the proposed network to three semantic segmentation tasks and conducted extensive experiments on benchmark datasets. Experimental results and comparison with prior work have verified the superiority of our model, suggesting the generality and effectiveness of the model in semi-automatic semantic segmentation.
翻訳日:2023-01-03 04:54:11 公開日:2020-07-17
# 反復ラベル改善:信頼に基づくフィルタリングとデータセット分割によるロバストトレーニング

Iterative Label Improvement: Robust Training by Confidence Based Filtering and Dataset Partitioning ( http://arxiv.org/abs/2002.02705v3 )

ライセンス: Link先を確認
Christian Haase-Sch\"utz, Rainer Stal, Heinz Hertlein and Bernhard Sick(参考訳) 最先端の、高容量のディープニューラルネットワークは、大量のラベル付きトレーニングデータを必要とするだけでなく、このデータにラベルエラーの影響を受けやすいため、一般的に大きな労力とコストがかかり、ディープラーニングの適用性が制限される。 この問題を軽減するために,深層ニューラルネットワークの一般化力を生かして,安価な非競合データを利用することのできる,新しいメタトレーニングとラベリング手法を提案する。 1つのネットワークアーキテクチャと提案する反復トレーニングと予測ステップのみに依存することで,ラベル品質とモデルの精度が大幅に向上することを示す。 提案手法はアーキテクチャ非依存であり,従って広く適用可能である。 間違ったラベルを扱う他の方法と比較して、我々のアプローチは別のネットワークをトレーニングする必要はなく、必ずしも追加の高精度な参照ラベルセットを必要としない。 ラベル付き集合からサンプルを除去する代わりに、手動ラベリングを必要とせずに追加のセンサーデータを使用する。 さらに,本手法は半教師付き学習にも応用できる。

State-of-the-art, high capacity deep neural networks not only require large amounts of labelled training data, they are also highly susceptible to label errors in this data, typically resulting in large efforts and costs and therefore limiting the applicability of deep learning. To alleviate this issue, we propose a novel meta training and labelling scheme that is able to use inexpensive unlabelled data by taking advantage of the generalization power of deep neural networks. We show experimentally that by solely relying on one network architecture and our proposed scheme of iterative training and prediction steps, both label quality and resulting model accuracy can be improved significantly. Our method achieves state-of-the-art results, while being architecture agnostic and therefore broadly applicable. Compared to other methods dealing with erroneous labels, our approach does neither require another network to be trained, nor does it necessarily need an additional, highly accurate reference label set. Instead of removing samples from a labelled set, our technique uses additional sensor data without the need for manual labelling. Furthermore, our approach can be used for semi-supervised learning.
翻訳日:2023-01-03 03:23:20 公開日:2020-07-17
# 不均一密度ネットワークのための潜在ポアソンモデル

Latent Poisson models for networks with heterogeneous density ( http://arxiv.org/abs/2002.07803v4 )

ライセンス: Link先を確認
Tiago P. Peixoto(参考訳) 経験的ネットワークは、ネットワークの総サイズと比較すると、ノード当たりの平均接続数が少ないため、グローバルに疎結合であることが多い。 しかし、この空間性は均質ではない傾向があり、ネットワークが局所的に密集している場合もあり、例えば、ネットワークの残りの部分の大部分に接続するノードや、ネットワーク間の接続の確率が大きいノードの小さなグループがある。 ここでは,隠れマルチグラフを生成する潜在ポアソンモデルが,単純なグラフを直接モデル化する他の方法よりも数学的に扱いやすい一方で,この密度の不均一性を捉える上で有効であることを示す。 これらの潜在マルチグラフが,単純なグラフ上のデータからどのように再構成できるか,また,与えられた次数列の制約から不規則な次数相関を解消し,経験的に関連するシナリオにおけるコミュニティ構造の同定を改善することができるかを示す。

Empirical networks are often globally sparse, with a small average number of connections per node, when compared to the total size of the network. However, this sparsity tends not to be homogeneous, and networks can also be locally dense, for example with a few nodes connecting to a large fraction of the rest of the network, or with small groups of nodes with a large probability of connections between them. Here we show how latent Poisson models which generate hidden multigraphs can be effective at capturing this density heterogeneity, while being more tractable mathematically than some of the alternatives that model simple graphs directly. We show how these latent multigraphs can be reconstructed from data on simple graphs, and how this allows us to disentangle disassortative degree-degree correlations from the constraints of imposed degree sequences, and to improve the identification of community structure in empirically relevant scenarios.
翻訳日:2022-12-30 19:59:48 公開日:2020-07-17
# ほんの少しでもベイジアンであることは、ReLUネットワークの過信を和らげる

Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks ( http://arxiv.org/abs/2002.10118v2 )

ライセンス: Link先を確認
Agustinus Kristiadi, Matthias Hein, Philipp Hennig(参考訳) relu分類ネットワーク(最も広く使われているニューラルネットワークアーキテクチャ)のポイント推定は、トレーニングデータから任意に高い信頼性をもたらすことが示されている。 このアーキテクチャは、最大後方推定スキームと相まって、校正もロバストもされていない。 近似ベイズ推定はニューラルネットワークの予測の不確実性を改善するために実証的に証明されているが、ベイズ近似の理論解析は限られている。 reluネットワークの重みに関する近似ガウス分布を理論的に解析し,過信頼問題を解くことを証明した。 さらに,単純で安価で安価なベイズ近似でさえ,これらの問題を修正できることを示した。 これは、reluネットワーク上の不確かさを校正するのに十分な条件が「少しベイズ的」であることを示している。 これらの理論的な結果は最終層ベイズ近似の使用を検証し、忠実度-コストのトレードオフの範囲を動機付ける。 さらに, 深層reluネットワークとラプラス近似を用いて, 各種標準実験を行い, 実験結果の検証を行った。

The point estimates of ReLU classification networks---arguably the most widely used neural network architecture---have been shown to yield arbitrarily high confidence far away from the training data. This architecture, in conjunction with a maximum a posteriori estimation scheme, is thus not calibrated nor robust. Approximate Bayesian inference has been empirically demonstrated to improve predictive uncertainty in neural networks, although the theoretical analysis of such Bayesian approximations is limited. We theoretically analyze approximate Gaussian distributions on the weights of ReLU networks and show that they fix the overconfidence problem. Furthermore, we show that even a simplistic, thus cheap, Bayesian approximation, also fixes these issues. This indicates that a sufficient condition for a calibrated uncertainty on a ReLU network is "to be a bit Bayesian". These theoretical results validate the usage of last-layer Bayesian approximation and motivate a range of a fidelity-cost trade-off. We further validate these findings empirically via various standard experiments using common deep ReLU networks and Laplace approximations.
翻訳日:2022-12-29 03:02:58 公開日:2020-07-17
# フレームごとの推論による効率的なセマンティックビデオセグメンテーション

Efficient Semantic Video Segmentation with Per-frame Inference ( http://arxiv.org/abs/2002.11433v2 )

ライセンス: Link先を確認
Yifan Liu, Chunhua Shen, Changqian Yu, Jingdong Wang(参考訳) セマンティックセグメンテーションでは、各フレームで個別に訓練された既存のリアルタイムディープモデルのほとんどは、ビデオシーケンスに対して一貫性のない結果を生成することができる。 高度な手法は、例えば、結果を光学フローを用いて隣のフレームに伝播したり、他のフレームでフレーム表現を抽出することで、ビデオシーケンスの相関を考慮に入れ、不正確な結果や不均衡な遅延につながる可能性がある。 本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。 従来のフレーム単位のモデルとは異なり、フレーム間の時間的一貫性はトレーニングプロセス中に余分な制約として考慮し、時間的一貫性をセグメンテーションネットワークに埋め込む。 したがって、推論プロセスでは、各フレームをレイテンシなしで独立に処理し、余分な計算コストや後処理を伴わずに時間的一貫性を向上させることができる。 リアルタイム実行にはコンパクトモデルを使用します。 コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるため,新しい知識蒸留法が設計されている。 この結果は,CityscapesやCamvidなど,一般的なベンチマークの精度と推論速度のトレードオフを向上して,従来のキーフレームベースの手法よりも優れています。 また、各フレームで独立にトレーニングされる対応するベースラインと比較して、時間的一貫性も向上する。 コードは、https://tinyurl.com/segment-videoで入手できる。

For semantic segmentation, most existing real-time deep models trained with each frame independently may produce inconsistent results for a video sequence. Advanced methods take into considerations the correlations in the video sequence, e.g., by propagating the results to the neighboring frames using optical flow, or extracting the frame representations with other frames, which may lead to inaccurate results or unbalanced latency. In this work, we process efficient semantic video segmentation in a per-frame fashion during the inference process. Different from previous per-frame models, we explicitly consider the temporal consistency among frames as extra constraints during the training process and embed the temporal consistency into the segmentation network. Therefore, in the inference process, we can process each frame independently with no latency, and improve the temporal consistency with no extra computational cost and post-processing. We employ compact models for real-time execution. To narrow the performance gap between compact models and large models, new knowledge distillation methods are designed. Our results outperform previous keyframe based methods with a better trade-off between the accuracy and the inference speed on popular benchmarks, including the Cityscapes and Camvid. The temporal consistency is also improved compared with corresponding baselines which are trained with each frame independently. Code is available at: https://tinyurl.com/segment-video
翻訳日:2022-12-28 15:18:46 公開日:2020-07-17
# VAEを用いた小型データレジームにおける半教師付き学習の性能解析

Performance Analysis of Semi-supervised Learning in the Small-data Regime using VAEs ( http://arxiv.org/abs/2002.12164v2 )

ライセンス: Link先を確認
Varun Mannam, Arman Kazemi(参考訳) 生物試料から大量のデータを抽出することは放射線の問題から実現不可能であり、少ない量のデータを扱う場合、小規模データ領域での画像処理は重要な課題の1つである。 本研究では,変動自動エンコーダ (VAE) と呼ばれる既存のアルゴリズムを適用し,データ空間の潜在空間表現を事前学習し,小データ入力の低次元の特徴を抽出する。 微調整された潜在空間は、分類に有用な定数重みを与える。 本稿では,CIFAR-10データセットを用いた半教師付き学習において,VAEアルゴリズムの性能解析を行った。

Extracting large amounts of data from biological samples is not feasible due to radiation issues, and image processing in the small-data regime is one of the critical challenges when working with a limited amount of data. In this work, we applied an existing algorithm named Variational Auto Encoder (VAE) that pre-trains a latent space representation of the data to capture the features in a lower-dimension for the small-data regime input. The fine-tuned latent space provides constant weights that are useful for classification. Here we will present the performance analysis of the VAE algorithm with different latent space sizes in the semi-supervised learning using the CIFAR-10 dataset.
翻訳日:2022-12-28 14:52:02 公開日:2020-07-17
# 低リソース分子特性予測のためのメタラーニングGNN初期化

Meta-Learning GNN Initializations for Low-Resource Molecular Property Prediction ( http://arxiv.org/abs/2003.05996v2 )

ライセンス: Link先を確認
Cuong Q. Nguyen, Constantine Kreatsoulas, and Kim M. Branson(参考訳) 化学特性と活性を予測するシリコモデルの構築は、薬物発見の重要なステップである。 しかし、ラベル付きデータの制限は、この環境でのディープラーニングの適用を妨げることが多い。 一方、メタラーニングの進歩は、少数の学習ベンチマークで最先端のパフォーマンスを実現し、自然に疑問を提起している: ローリソースの薬物発見プロジェクトでは、メタラーニングはディープラーニングのパフォーマンスを改善することができるか? 本研究では, モデル非依存メタラーニング (MAML) アルゴリズムとその変種FO-MAMLとANILにより学習したグラフニューラルネットワークの初期化の, 化学的特性および活動タスクに対する伝達性を評価する。 chembl20データセットを使用して低リソース設定をエミュレートするベンチマークでは、メタ初期化は、20の分散タスクのうち16のベースラインとすべての分散タスクで比較可能または比較可能であり、それぞれ11.2%と26.9%のauprcで平均改善が得られた。 最後に、メタ初期化は一貫して、$k \in \{16, 32, 64, 128, 256\}$インスタンスの微調整セットをまたいで最高のパフォーマンスモデルとなることを観察する。

Building in silico models to predict chemical properties and activities is a crucial step in drug discovery. However, limited labeled data often hinders the application of deep learning in this setting. Meanwhile advances in meta-learning have enabled state-of-the-art performances in few-shot learning benchmarks, naturally prompting the question: Can meta-learning improve deep learning performance in low-resource drug discovery projects? In this work, we assess the transferability of graph neural networks initializations learned by the Model-Agnostic Meta-Learning (MAML) algorithm - and its variants FO-MAML and ANIL - for chemical properties and activities tasks. Using the ChEMBL20 dataset to emulate low-resource settings, our benchmark shows that meta-initializations perform comparably to or outperform multi-task pre-training baselines on 16 out of 20 in-distribution tasks and on all out-of-distribution tasks, providing an average improvement in AUPRC of 11.2% and 26.9% respectively. Finally, we observe that meta-initializations consistently result in the best performing models across fine-tuning sets with $k \in \{16, 32, 64, 128, 256\}$ instances.
翻訳日:2022-12-24 14:12:22 公開日:2020-07-17
# 映像シーン理解のための確率論的未来予測

Probabilistic Future Prediction for Video Scene Understanding ( http://arxiv.org/abs/2003.06409v2 )

ライセンス: Link先を確認
Anthony Hu, Fergal Cotter, Nikhil Mohan, Corina Gurau, Alex Kendall(参考訳) 本稿では,ビデオからの確率的未来予測のための新しいディープラーニングアーキテクチャを提案する。 我々は、複雑な現実世界の都市シーンの将来の意味、幾何学、動きを予測し、この表現を用いて自動運転車を制御する。 この研究は、エゴモーション、静的シーン、および動的エージェントの運動を確率論的に共同で予測し、コンパクトな潜在空間から一貫した非常に予測可能な未来をサンプリングすることを可能にする。 我々のモデルは時空間畳み込みモジュールを用いてRGBビデオから表現を学習する。 学習された表現は、学習駆動ポリシーへの入力であることに加えて、将来の意味セグメンテーション、深さ、光フローに明示的に復号することができる。 将来の確率性をモデル化するために,現在の分布(私たちが見たことを考えると何が起こるか)と将来の分布(実際に観測されたこと)との相違を最小限に抑える条件付き変分アプローチを導入する。 推論中、現在の分布からのサンプリングによって様々な未来が生成される。

We present a novel deep learning architecture for probabilistic future prediction from video. We predict the future semantics, geometry and motion of complex real-world urban scenes and use this representation to control an autonomous vehicle. This work is the first to jointly predict ego-motion, static scene, and the motion of dynamic agents in a probabilistic manner, which allows sampling consistent, highly probable futures from a compact latent space. Our model learns a representation from RGB video with a spatio-temporal convolutional module. The learned representation can be explicitly decoded to future semantic segmentation, depth, and optical flow, in addition to being an input to a learnt driving policy. To model the stochasticity of the future, we introduce a conditional variational approach which minimises the divergence between the present distribution (what could happen given what we have seen) and the future distribution (what we observe actually happens). During inference, diverse futures are generated by sampling from the present distribution.
翻訳日:2022-12-24 01:41:38 公開日:2020-07-17
# G-LBM:映像系列からの低次元背景モデルの生成

G-LBM:Generative Low-dimensional Background Model Estimation from Video Sequences ( http://arxiv.org/abs/2003.07335v2 )

ライセンス: Link先を確認
Behnaz Rezaei, Amirreza Farnoosh, and Sarah Ostadabbas(参考訳) 本稿では,雑音や疎外値の存在下で実世界のデータを表現するための,計算可能で理論的に支持された非線形低次元生成モデルを提案する。 データの非線形な低次元多様体発見は、観測上の関節分布とその低次元表現(つまり多様体座標)を記述することによって行われる。 我々のモデルは生成的低次元背景モデル (G-LBM) と呼ばれ、多様体座標の分布の変動的演算を許容し、データを与えられた潜在多様体の低ランク構造を同時に生成する。 したがって、確率論的モデルは確率的でない低次元多様体学習の直観を含む。 g-lbmは観測のアンダーリング多様体の固有次元を選択し、その確率的性質は観測データのノイズをモデル化する。 G-LBMは動画の背景シーンモデル推定に直接適用されており、SBMnet-2016およびBMC2012データセットでその性能を評価し、ビデオの背景シーンに非依存でありながら、他の最先端手法に匹敵するパフォーマンスを達成した。 さらに、カメラジッタや背景動きなどの課題において、G-LBMはこれらのシナリオにおけるビデオ観察の不確実性を効果的にモデル化することにより、背景をしっかりと推定することができる。

In this paper, we propose a computationally tractable and theoretically supported non-linear low-dimensional generative model to represent real-world data in the presence of noise and sparse outliers. The non-linear low-dimensional manifold discovery of data is done through describing a joint distribution over observations, and their low-dimensional representations (i.e. manifold coordinates). Our model, called generative low-dimensional background model (G-LBM) admits variational operations on the distribution of the manifold coordinates and simultaneously generates a low-rank structure of the latent manifold given the data. Therefore, our probabilistic model contains the intuition of the non-probabilistic low-dimensional manifold learning. G-LBM selects the intrinsic dimensionality of the underling manifold of the observations, and its probabilistic nature models the noise in the observation data. G-LBM has direct application in the background scenes model estimation from video sequences and we have evaluated its performance on SBMnet-2016 and BMC2012 datasets, where it achieved a performance higher or comparable to other state-of-the-art methods while being agnostic to the background scenes in videos. Besides, in challenges such as camera jitter and background motion, G-LBM is able to robustly estimate the background by effectively modeling the uncertainties in video observations in these scenarios.
翻訳日:2022-12-23 04:00:49 公開日:2020-07-17
# 実世界データを用いたフェデレーションビジュアル分類

Federated Visual Classification with Real-World Data Distribution ( http://arxiv.org/abs/2003.08082v3 )

ライセンス: Link先を確認
Tzu-Ming Harry Hsu, Hang Qi, and Matthew Brown(参考訳) フェデレートラーニング(Federated Learning)は、デバイス上でのビジュアルモデルトレーニングを可能にし、ユーザのプライバシ(データがデバイスを離れる必要はない)にメリットをもたらすが、データの多様性と品質の面では課題がある。 データセンターの典型的なモデルは、独立で同一の分散データ(IID)を使って訓練されているが、ソースのデータは通常、IDから遠く離れている。 さらに、異なる量のデータは通常、各デバイスで利用可能である(不均衡)。 本研究では,これらの実世界のデータ分布が分散学習に与える影響を,FedAvg(Federated Averaging)アルゴリズムのベンチマークとして評価する。 そのために、種別とランドマーク分類のための2つの新しい大規模データセットを導入し、実際のエッジ学習シナリオをシミュレートするユーザ毎のデータ分割を現実的に実施した。 また、クライアントプール上でインテリジェントにサンプルと重み付けを行い、精度とトレーニングの安定性を大幅に向上させる2つの新しいアルゴリズム(fedvc、feder)も開発した。 データセットはオンラインで利用可能だ。

Federated Learning enables visual models to be trained on-device, bringing advantages for user privacy (data need never leave the device), but challenges in terms of data diversity and quality. Whilst typical models in the datacenter are trained using data that are independent and identically distributed (IID), data at source are typically far from IID. Furthermore, differing quantities of data are typically available at each device (imbalance). In this work, we characterize the effect these real-world data distributions have on distributed learning, using as a benchmark the standard Federated Averaging (FedAvg) algorithm. To do so, we introduce two new large-scale datasets for species and landmark classification, with realistic per-user data splits that simulate real-world edge learning scenarios. We also develop two new algorithms (FedVC, FedIR) that intelligently resample and reweight over the client pool, bringing large improvements in accuracy and stability in training. The datasets are made available online.
翻訳日:2022-12-22 09:23:06 公開日:2020-07-17
# イベントベース非同期スパース畳み込みネットワーク

Event-based Asynchronous Sparse Convolutional Networks ( http://arxiv.org/abs/2003.09148v2 )

ライセンス: Link先を確認
Nico Messikommer, Daniel Gehrig, Antonio Loquercio, Davide Scaramuzza(参考訳) イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな"イベント"という形で画素ごとの明るさ変化に反応する。 近年,学習に基づく手法などのパターン認識アルゴリズムは,イベントを同期的な高密度画像表現に変換し,標準カメラ用に開発された従来の機械学習手法を適用することで,イベントカメラに大きな進歩を遂げている。 しかしながら、これらのアプローチは、計算の複雑さとレイテンシのコストを犠牲にして、イベントデータに固有の空間的および時間的スパーシティを破棄する。 本研究では,同期画像のようなイベント表現で訓練されたモデルを,同一出力の非同期モデルに変換するための一般的なフレームワークを提案する。 理論上,実験上,高容量同期ニューラルネットワークの計算複雑性とレイテンシが,精度を犠牲にすることなく劇的に低減することを示す。 さらに、我々のフレームワークにはいくつかの望ましい特徴がある。 (i)イベントの時空間空間を明示的に利用します。 (ii)イベント表現、ネットワークアーキテクチャ、タスクとは無関係であり、 (iii)標準のニューラルネットワークのトレーニングプロセスと互換性があるため、列車の時間変更は一切必要としない。 提案手法を2つのコンピュータビジョンタスク(物体検出と物体認識)で徹底的に検証した。 これらのタスクでは、高速ニューラルネットワークに関して計算の複雑さを最大20倍削減する。 同時に、最先端の非同期アプローチを24%の予測精度で上回っています。

Event cameras are bio-inspired sensors that respond to per-pixel brightness changes in the form of asynchronous and sparse "events". Recently, pattern recognition algorithms, such as learning-based methods, have made significant progress with event cameras by converting events into synchronous dense, image-like representations and applying traditional machine learning methods developed for standard cameras. However, these approaches discard the spatial and temporal sparsity inherent in event data at the cost of higher computational complexity and latency. In this work, we present a general framework for converting models trained on synchronous image-like event representations into asynchronous models with identical output, thus directly leveraging the intrinsic asynchronous and sparse nature of the event data. We show both theoretically and experimentally that this drastically reduces the computational complexity and latency of high-capacity, synchronous neural networks without sacrificing accuracy. In addition, our framework has several desirable characteristics: (i) it exploits spatio-temporal sparsity of events explicitly, (ii) it is agnostic to the event representation, network architecture, and task, and (iii) it does not require any train-time change, since it is compatible with the standard neural networks' training process. We thoroughly validate the proposed framework on two computer vision tasks: object detection and object recognition. In these tasks, we reduce the computational complexity up to 20 times with respect to high-latency neural networks. At the same time, we outperform state-of-the-art asynchronous approaches up to 24% in prediction accuracy.
翻訳日:2022-12-21 22:26:05 公開日:2020-07-17
# BigNAS: 大きな単一ステージモデルによるニューラルネットワーク検索のスケールアップ

BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models ( http://arxiv.org/abs/2003.11142v3 )

ライセンス: Link先を確認
Jiahui Yu, Pengchong Jin, Hanxiao Liu, Gabriel Bender, Pieter-Jan Kindermans, Mingxing Tan, Thomas Huang, Xiaodan Song, Ruoming Pang, Quoc Le(参考訳) neural architecture search (nas)は、正確かつ高速なモデルを発見する有望な結果を示している。 NASにとって、ワンショットモデルのトレーニングは、単一の共有重みセットを使用して異なるアーキテクチャ(児童モデル)の相対的な品質をランク付けする一般的な戦略となっている。 しかしながら、ワンショットモデルウェイトは、異なるネットワークアーキテクチャを効果的にランク付けすることができるが、これらの共有ウェイトからの絶対精度は、スタンドアローントレーニングから得られるものよりもはるかに低い。 補うために、既存の手法では、重み付けは、検索が完了した後に再訓練、微調整、または後処理されなければならないと仮定している。 これらのステップは、アーキテクチャ検索とモデル展開の計算要求と複雑さを著しく増加させます。 本研究では,重みの事後処理が適切な予測精度を得るために必要である,従来の知恵に挑戦するアプローチであるBigNASを提案する。 余分なリトレーニングや後処理のステップがなければ、imagenet上で単一の共有重みをトレーニングし、これらの重みを使って200から1000mflopsの子供モデルを得ることができます。 発見されたモデルファミリであるBigNASModelsは76.5%から80.9%の範囲でトップ1のアキュラティを達成し、EfficientNets や Once-for-All ネットワークなど最先端のモデルを上回った。 提案するBigNASModelの理解を深めるために,Ablative study and analysisを提案する。

Neural architecture search (NAS) has shown promising results discovering models that are both accurate and fast. For NAS, training a one-shot model has become a popular strategy to rank the relative quality of different architectures (child models) using a single set of shared weights. However, while one-shot model weights can effectively rank different network architectures, the absolute accuracies from these shared weights are typically far below those obtained from stand-alone training. To compensate, existing methods assume that the weights must be retrained, finetuned, or otherwise post-processed after the search is completed. These steps significantly increase the compute requirements and complexity of the architecture search and model deployment. In this work, we propose BigNAS, an approach that challenges the conventional wisdom that post-processing of the weights is necessary to get good prediction accuracies. Without extra retraining or post-processing steps, we are able to train a single set of shared weights on ImageNet and use these weights to obtain child models whose sizes range from 200 to 1000 MFLOPs. Our discovered model family, BigNASModels, achieve top-1 accuracies ranging from 76.5% to 80.9%, surpassing state-of-the-art models in this range including EfficientNets and Once-for-All networks without extra retraining or post-processing. We present ablative study and analysis to further understand the proposed BigNASModels.
翻訳日:2022-12-20 09:27:02 公開日:2020-07-17
# PointAR:モバイル拡張現実のための効率的な照明推定

PointAR: Efficient Lighting Estimation for Mobile Augmented Reality ( http://arxiv.org/abs/2004.00006v4 )

ライセンス: Link先を確認
Yiqin Zhao, Tian Guo(参考訳) 本稿では,現在のモバイルディープラーニングモデルに匹敵する資源量を持つ,現代のモバイルデバイスで動作するのに適した効率的な照明推定パイプラインを提案する。 私たちのパイプラインであるpointarは、モバイルカメラから撮影された単一のrgb-dイメージと、その画像中の2dロケーションを取り込み、球面高調波係数を推定します。 この推定球面調和係数は、拡張現実の文脈で空間的に変化する屋内照明をサポートするレンダリングエンジンによって直接利用できる。 私たちの重要な洞察は、点雲から直接点クラウドベースの学習問題として照明推定を定式化することです。 既存の手法では複雑な深層学習パイプラインを用いて照明情報を推定するが,本手法は計算複雑性の低減に重点を置いている。 定量的および定性的な実験により、PointARは最先端手法と比較して照明推定誤差が低いことを示す。 さらに,本手法では,モバイル特化DNNに匹敵する,桁違いのリソースを必要とする。

We propose an efficient lighting estimation pipeline that is suitable to run on modern mobile devices, with comparable resource complexities to state-of-the-art mobile deep learning models. Our pipeline, PointAR, takes a single RGB-D image captured from the mobile camera and a 2D location in that image, and estimates 2nd order spherical harmonics coefficients. This estimated spherical harmonics coefficients can be directly utilized by rendering engines for supporting spatially variant indoor lighting, in the context of augmented reality. Our key insight is to formulate the lighting estimation as a point cloud-based learning problem directly from point clouds, which is in part inspired by the Monte Carlo integration leveraged by real-time spherical harmonics lighting. While existing approaches estimate lighting information with complex deep learning pipelines, our method focuses on reducing the computational complexity. Through both quantitative and qualitative experiments, we demonstrate that PointAR achieves lower lighting estimation errors compared to state-of-the-art methods. Further, our method requires an order of magnitude lower resource, comparable to that of mobile-specific DNNs.
翻訳日:2022-12-18 08:41:07 公開日:2020-07-17
# 大規模スナップショット圧縮イメージングのためのプラグアンドプレイアルゴリズム

Plug-and-Play Algorithms for Large-scale Snapshot Compressive Imaging ( http://arxiv.org/abs/2003.13654v2 )

ライセンス: Link先を確認
Xin Yuan, Yang Liu, Jinli Suo and Qionghai Dai(参考訳) スナップショット圧縮イメージング(SCI)は、高次元(通常3次元)画像を1枚のスナップショットで2Dセンサー(検出器)でキャプチャすることを目的としている。 低帯域幅、低消費電力、低コストの利点を享受しながらも、私たちの日常生活における大規模な問題(HDやUHDビデオ)にSCIを適用することは依然として困難である。 ボトルネックは再構成アルゴリズムにある。それらは遅すぎる(反復最適化アルゴリズム)か、エンコーディングプロセス(ディープラーニングベースのエンドツーエンドネットワーク)に柔軟ではない。 本稿では,プラグイン・アンド・プレイ(PnP)フレームワークに基づく高速かつ柔軟なSCIアルゴリズムを開発する。 広く使われているPnP-ADMM法に加えて,計算負荷の少ないPnP-GAPアルゴリズムを提案し,SCIハードウェア制約下でのPnP-GAPの収束性を証明する。 PnP が UHD カラービデオ (3840\times 1644\times 48$ with PNSR above 30dB) をスナップショット2D 測定から復元できることを初めて示す。 シミュレーションと実データの両方の広範な結果から,提案アルゴリズムの優越性が検証された。 コードはhttps://github.com/liuyang12/pnp-sciで入手できる。

Snapshot compressive imaging (SCI) aims to capture the high-dimensional (usually 3D) images using a 2D sensor (detector) in a single snapshot. Though enjoying the advantages of low-bandwidth, low-power and low-cost, applying SCI to large-scale problems (HD or UHD videos) in our daily life is still challenging. The bottleneck lies in the reconstruction algorithms; they are either too slow (iterative optimization algorithms) or not flexible to the encoding process (deep learning based end-to-end networks). In this paper, we develop fast and flexible algorithms for SCI based on the plug-and-play (PnP) framework. In addition to the widely used PnP-ADMM method, we further propose the PnP-GAP (generalized alternating projection) algorithm with a lower computational workload and prove the convergence of PnP-GAP under the SCI hardware constraints. By employing deep denoising priors, we first time show that PnP can recover a UHD color video ($3840\times 1644\times 48$ with PNSR above 30dB) from a snapshot 2D measurement. Extensive results on both simulation and real datasets verify the superiority of our proposed algorithm. The code is available at https://github.com/liuyang12/PnP-SCI.
翻訳日:2022-12-18 08:30:45 公開日:2020-07-17
# 医療用放電報告におけるZipf法則、電力法則、および対数正規分布の実証分析

Empirical Analysis of Zipf's Law, Power Law, and Lognormal Distributions in Medical Discharge Reports ( http://arxiv.org/abs/2003.13352v3 )

ライセンス: Link先を確認
Juan C Quiroz, Liliana Laranjo, Catalin Tufanaru, Ahmet Baki Kocaballi, Dana Rezazadegan, Shlomo Berkovsky, Enrico Coiera(参考訳) ベイズ的モデリングと統計テキスト解析は、良い解を奨励するために情報的確率先に依存する。 本稿では, 単語頻度が離散的な電力法分布に従う言語において, Zipfの法則に従うか否かを実験的に分析する。 MIMIC-IIIデータセットによる2万件の退院報告について検討した。 排出報告をトークンに分割し、トークンの頻度をカウントし、データに電力法則の分布を適合させ、代替の分布(正規分布、指数関数、伸張指数、および切り離された電力法)がデータに適合するかどうかをテストする。 その結果, 排出報告は停電電力法則や対数正規分布に最も適していることがわかった。 以上の結果から, 退避報告文のベイジアンモデルと統計的テキスト解析は, 停留電力法と対数正規確率前処理の利点が示唆された。

Bayesian modelling and statistical text analysis rely on informed probability priors to encourage good solutions. This paper empirically analyses whether text in medical discharge reports follow Zipf's law, a commonly assumed statistical property of language where word frequency follows a discrete power law distribution. We examined 20,000 medical discharge reports from the MIMIC-III dataset. Methods included splitting the discharge reports into tokens, counting token frequency, fitting power law distributions to the data, and testing whether alternative distributions--lognormal, exponential, stretched exponential, and truncated power law--provided superior fits to the data. Results show that discharge reports are best fit by the truncated power law and lognormal distributions. Our findings suggest that Bayesian modelling and statistical text analysis of discharge report text would benefit from using truncated power law and lognormal probability priors.
翻訳日:2022-12-18 07:37:18 公開日:2020-07-17
# RANSAC-Flow:一般的な2段階画像アライメント

RANSAC-Flow: generic two-stage image alignment ( http://arxiv.org/abs/2004.01526v2 )

ライセンス: Link先を確認
Xi Shen, Fran\c{c}ois Darmon, Alexei A. Efros, Mathieu Aubry(参考訳) 本稿では,映像の2つのフレーム,シーンの2つの広く異なるビュー,類似した内容を描いた2つの絵画など,2つの画像間の密接なアライメントの一般的な問題について考察する。 これらのタスクは一般的にドメイン固有のソリューションで処理されるが、単純な教師なしのアプローチは様々なタスクで驚くほどうまく機能する。 パラメトリックアライメント法と非パラメトリックアライメント法には相補的な強みがある。 まず, 1 つ以上のホモグラフを用いた特徴量に基づくパラメトリック粗いアライメントと,非パラメトリックな精細な画素方向アライメントの2段階プロセスを提案する。 既設の深部特徴に対してransacを用いて粗いアライメントを行う。 微細なアライメントは、2つの画像間の標準構造類似度メトリック(ssim)とサイクル一貫性を最適化するディープネットワークによって教師なしの方法で学習される。 その単純さにもかかわらず、KITTI上の教師なし光学フロー、Hpatches上の高密度対応、YFCC100M上の2ビュー幾何推定、Aachen Day-Nightのローカライゼーション、Brughelデータセット上のアートワークの微調整など、さまざまなタスクやデータセットの競合結果を示す。 私たちのコードとデータはhttp://imagine.enpc.fr/~shenx/RANSAC-Flow/で利用可能です。

This paper considers the generic problem of dense alignment between two images, whether they be two frames of a video, two widely different views of a scene, two paintings depicting similar content, etc. Whereas each such task is typically addressed with a domain-specific solution, we show that a simple unsupervised approach performs surprisingly well across a range of tasks. Our main insight is that parametric and non-parametric alignment methods have complementary strengths. We propose a two-stage process: first, a feature-based parametric coarse alignment using one or more homographies, followed by non-parametric fine pixel-wise alignment. Coarse alignment is performed using RANSAC on off-the-shelf deep features. Fine alignment is learned in an unsupervised way by a deep network which optimizes a standard structural similarity metric (SSIM) between the two images, plus cycle-consistency. Despite its simplicity, our method shows competitive results on a range of tasks and datasets, including unsupervised optical flow on KITTI, dense correspondences on Hpatches, two-view geometry estimation on YFCC100M, localization on Aachen Day-Night, and, for the first time, fine alignment of artworks on the Brughel dataset. Our code and data are available at http://imagine.enpc.fr/~shenx/RANSAC-Flow/
翻訳日:2022-12-17 04:47:57 公開日:2020-07-17
# SimAug: 軌道予測のためのシミュレーションからロバスト表現を学ぶ

SimAug: Learning Robust Representations from Simulation for Trajectory Prediction ( http://arxiv.org/abs/2004.02022v3 )

ライセンス: Link先を確認
Junwei Liang, Lu Jiang, Alexander Hauptmann(参考訳) 本稿では,新しいシナリオと視点の未知のカメラにおける人々の将来の軌道予測問題について考察する。 モデルが3dシミュレーションデータのみに基づいてトレーニングされ、さまざまなリアルカメラにアウト・オブ・ザ・ボックスを適用する実データフリー設定によって、この問題にアプローチする。 そこで本研究では,シミュレーショントレーニングデータを拡張することで,実世界のテストデータに対する表現の一般化を図り,ロバストな表現を学習する手法を提案する。 鍵となるアイデアは、最も難しいカメラビューと、元のビューの対角的な特徴を混ぜることだ。 本手法をSimAugと呼ぶ。 そこで本研究では,Stanford DroneとVIRAT/ActEVデータセットを用いたドメイン内トレーニングデータを用いた場合,実世界の3つのベンチマークで有望な結果が得られることを示す。

This paper studies the problem of predicting future trajectories of people in unseen cameras of novel scenarios and views. We approach this problem through the real-data-free setting in which the model is trained only on 3D simulation data and applied out-of-the-box to a wide variety of real cameras. We propose a novel approach to learn robust representation through augmenting the simulation training data such that the representation can better generalize to unseen real-world test data. The key idea is to mix the feature of the hardest camera view with the adversarial feature of the original view. We refer to our method as SimAug. We show that SimAug achieves promising results on three real-world benchmarks using zero real training data, and state-of-the-art performance in the Stanford Drone and the VIRAT/ActEV dataset when using in-domain training data.
翻訳日:2022-12-16 23:18:54 公開日:2020-07-17
# 正常化活性化層の進化

Evolving Normalization-Activation Layers ( http://arxiv.org/abs/2004.02967v5 )

ライセンス: Link先を確認
Hanxiao Liu, Andrew Brock, Karen Simonyan, Quoc V. Le(参考訳) 正規化層とアクティベーション関数はディープネットワークの基本コンポーネントであり、通常は互いに同じ位置にある。 ここでは,自動アプローチによる設計を提案する。 それらを個別に設計する代わりに、1つのテンソル・ツー・テンソル計算グラフに統一し、基本数学的関数からその構造を進化させる。 そのような数学的関数の例として、加法、乗法、統計モーメントがある。 低レベルな数学的関数の使用は、主流のNASにおける高レベルモジュールの使用とは対照的に、検索方法の難易度が高い、広い検索空間につながる。 この課題に対処するため、我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。 また、オーバーフィットを防ぐために、複数のアーキテクチャで各レイヤのパフォーマンスを最適化するために、多目的進化も使用しています。 EvoNormsは、新しい正規化活性化レイヤーのセットであり、時には既存のデザインパターンを超える驚くべき構造である。 例えば、一部のEvoNormでは、正規化とアクティベーション関数は順次適用されるべきではなく、フィーチャーマップを中心にする必要もなく、明示的なアクティベーション関数も必要としない。 実験の結果,EvoNormはResNets,MobileNets,EfficientNetsなどの画像分類モデルでよく機能するが,インスタンスセグメンテーションではFPN/SpineNetでMask R-CNNに,画像合成ではBigGANに,多くの場合,BatchNormやGroupNormをベースとしたレイヤよりも優れていることがわかった。

Normalization layers and activation functions are fundamental components in deep networks and typically co-locate with each other. Here we propose to design them using an automated approach. Instead of designing them separately, we unify them into a single tensor-to-tensor computation graph, and evolve its structure starting from basic mathematical functions. Examples of such mathematical functions are addition, multiplication and statistical moments. The use of low-level mathematical functions, in contrast to the use of high-level modules in mainstream NAS, leads to a highly sparse and large search space which can be challenging for search methods. To address the challenge, we develop efficient rejection protocols to quickly filter out candidate layers that do not work well. We also use multi-objective evolution to optimize each layer's performance across many architectures to prevent overfitting. Our method leads to the discovery of EvoNorms, a set of new normalization-activation layers with novel, and sometimes surprising structures that go beyond existing design patterns. For example, some EvoNorms do not assume that normalization and activation functions must be applied sequentially, nor need to center the feature maps, nor require explicit activation functions. Our experiments show that EvoNorms work well on image classification models including ResNets, MobileNets and EfficientNets but also transfer well to Mask R-CNN with FPN/SpineNet for instance segmentation and to BigGAN for image synthesis, outperforming BatchNorm and GroupNorm based layers in many cases.
翻訳日:2022-12-16 05:17:43 公開日:2020-07-17
# 悪魔は細部にある:車両の再識別に対する自己監督的注意

The Devil is in the Details: Self-Supervised Attention for Vehicle Re-Identification ( http://arxiv.org/abs/2004.06271v3 )

ライセンス: Link先を確認
Pirazh Khorramshahi, Neehar Peri, Jun-cheng Chen, Rama Chellappa(参考訳) 近年、研究コミュニティは、特に識別情報を含む車両の領域に焦点を当てた注意モデルによる車両再識別(re-id)の問題にアプローチしている。 これらの再idメソッドは高価なキーポイントラベル、部分アノテーション、車両メーク、モデル、カラーなどの追加属性に依存する。 さまざまなレベルのアノテーションを持つ多数の車両再識別子データセットを考えると、強い教師付きメソッドは異なるドメインにわたってスケールできない。 本稿では,車種別識別特徴を効果的に学習する新しい手法として,車両再識別のための自己監督的注意(SAVER)を提案する。 広範な実験を通じて,veri, vehicleid, vehicle-1m および veri-wild データセットに挑戦する上で,saver の最先端性が向上することを示す。

In recent years, the research community has approached the problem of vehicle re-identification (re-id) with attention-based models, specifically focusing on regions of a vehicle containing discriminative information. These re-id methods rely on expensive key-point labels, part annotations, and additional attributes including vehicle make, model, and color. Given the large number of vehicle re-id datasets with various levels of annotations, strongly-supervised methods are unable to scale across different domains. In this paper, we present Self-supervised Attention for Vehicle Re-identification (SAVER), a novel approach to effectively learn vehicle-specific discriminative features. Through extensive experimentation, we show that SAVER improves upon the state-of-the-art on challenging VeRi, VehicleID, Vehicle-1M and VERI-Wild datasets.
翻訳日:2022-12-13 09:39:44 公開日:2020-07-17
# StRDAN: 車両再識別のための合成からリアルタイムドメイン適応ネットワーク

StRDAN: Synthetic-to-Real Domain Adaptation Network for Vehicle Re-Identification ( http://arxiv.org/abs/2004.12032v2 )

ライセンス: Link先を確認
Sangrok Lee, Eunsoo Park, Hongsuk Yi, Sang Hun Lee(参考訳) 車両再識別は、車両画像から同じ車両を取得することを目的としている。 これは困難だが、市内の交通の流れを分析し予測するのに必須である。 ディープラーニングの手法はこのタスクで大きな進歩を遂げているが、その大きなデータ要件は重大な欠点である。 そこで本研究では,より安価な大規模合成・実データを用いて学習し,性能を向上させる合成・実領域適応ネットワーク(StRDAN)を提案する。 StRDANトレーニング方法は、ドメイン適応と半教師付き学習と関連する損失を組み合わせたものである。 StRDANは、VeRiとCityFlow-ReIDデータセットに対して、実際のデータのみを使用してトレーニングできるベースラインモデルよりも大幅に改善され、平均平均精度が3.1%と12.9%向上した。

Vehicle re-identification aims to obtain the same vehicles from vehicle images. This is challenging but essential for analyzing and predicting traffic flow in the city. Although deep learning methods have achieved enormous progress for this task, their large data requirement is a critical shortcoming. Therefore, we propose a synthetic-to-real domain adaptation network (StRDAN) framework, which can be trained with inexpensive large-scale synthetic and real data to improve performance. The StRDAN training method combines domain adaptation and semi-supervised learning methods and their associated losses. StRDAN offers significant improvement over the baseline model, which can only be trained using real data, for VeRi and CityFlow-ReID datasets, achieving 3.1% and 12.9% improved mean average precision, respectively.
翻訳日:2022-12-09 21:45:22 公開日:2020-07-17
# VisualEchoes:エコーロケーションによる空間画像表現学習

VisualEchoes: Spatial Image Representation Learning through Echolocation ( http://arxiv.org/abs/2005.01616v2 )

ライセンス: Link先を確認
Ruohan Gao, Changan Chen, Ziad Al-Halah, Carl Schissler, Kristen Grauman(参考訳) いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害のある人間でさえ、エコーロケーションを行う驚くべき能力を持っている。 我々は、エコーに含まれる空間的手がかりと、空間的推論を必要とする視覚タスクの利点を探求する。 まず,フォトリアリスティックな室内3dシーン環境におけるエコー応答をキャプチャする。 次に,エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。 学習した画像特徴は,空間的推論を必要とする複数の下流視覚課題 - 単眼深度推定,表面正規推定,視覚ナビゲーション - に有用であり,教師あり事前学習と同等かそれ以上に優れている。 我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。

Several animal species (e.g., bats, dolphins, and whales) and even visually impaired humans have the remarkable ability to perform echolocation: a biological sonar used to perceive spatial layout and locate objects in the world. We explore the spatial cues contained in echoes and how they can benefit vision tasks that require spatial reasoning. First we capture echo responses in photo-realistic 3D indoor scene environments. Then we propose a novel interaction-based representation learning framework that learns useful visual features via echolocation. We show that the learned image features are useful for multiple downstream vision tasks requiring spatial reasoning---monocular depth estimation, surface normal estimation, and visual navigation---with results comparable or even better than heavily supervised pre-training. Our work opens a new path for representation learning for embodied agents, where supervision comes from interacting with the physical world.
翻訳日:2022-12-07 01:41:45 公開日:2020-07-17
# Geoopt: PyTorchのリーマン最適化

Geoopt: Riemannian Optimization in PyTorch ( http://arxiv.org/abs/2005.02819v5 )

ライセンス: Link先を確認
Max Kochurov, Rasul Karimov, Serge Kozlukov(参考訳) GeooptはPyTorchのRiemannian Optimizationのための研究指向のオープンソースパッケージである。 Geooptのコアは、最適化アルゴリズムの汎用実装を可能にする標準のManifoldインターフェースである。 Geooptは基本的なリーマンSGDと適応最適化アルゴリズムをサポートしている。 geooptはまた、サポートされている多様体に対していくつかのアルゴリズムと算術法を提供しており、既存のモデルと統合できる幾何対応ニューラルネットワーク層を構成できる。

Geoopt is a research-oriented modular open-source package for Riemannian Optimization in PyTorch. The core of Geoopt is a standard Manifold interface that allows for the generic implementation of optimization algorithms. Geoopt supports basic Riemannian SGD as well as adaptive optimization algorithms. Geoopt also provides several algorithms and arithmetic methods for supported manifolds, which allow composing geometry-aware neural network layers that can be integrated with existing models.
翻訳日:2022-12-06 06:16:18 公開日:2020-07-17
# SemEval-2020 Task 12におけるLIIR:多言語攻撃言語識別のための言語間拡張アプローチ

LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for Multilingual Offensive Language Identification ( http://arxiv.org/abs/2005.03695v2 )

ライセンス: Link先を確認
Erfan Ghadery, Marie-Francine Moens(参考訳) 本稿では,SemEval-2020 Task 12 for Multilingual Offensive Language Identification in Social Media (OffensEval 2)を提案する。 私たちは、英語、デンマーク語、ギリシャ語、アラビア語、トルコ語のサブタスクAに参加しました。 我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。 英語では2つの細調整されたBERTモデルの組み合わせを使用します。 他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。 ギリシャ語、トルコ語、英語、アラビア語、デンマーク語で14/38、18/47、24/86、24/54、25/40の成績を残した。

This paper presents our system entitled `LIIR' for SemEval-2020 Task 12 on Multilingual Offensive Language Identification in Social Media (OffensEval 2). We have participated in sub-task A for English, Danish, Greek, Arabic, and Turkish languages. We adapt and fine-tune the BERT and Multilingual Bert models made available by Google AI for English and non-English languages respectively. For the English language, we use a combination of two fine-tuned BERT models. For other languages we propose a cross-lingual augmentation approach in order to enrich training data and we use Multilingual BERT to obtain sentence representations. LIIR achieved rank 14/38, 18/47, 24/86, 24/54, and 25/40 in Greek, Turkish, English, Arabic, and Danish languages, respectively.
翻訳日:2022-12-05 23:25:32 公開日:2020-07-17
# DL-Liteナレッジベース上のクエリアンサーのカウント(拡張バージョン)

Counting Query Answers over a DL-Lite Knowledge Base (extended version) ( http://arxiv.org/abs/2005.05886v3 )

ライセンス: Link先を確認
Diego Calvanese and Julien Corman and Davide Lanti and Simon Razniewski(参考訳) クエリに対する回答のカウントは、事実上すべてのデータベース管理システムでサポートされている操作である。 本稿では,知識ベース(KB)上での回答の数え方に着目し,検討中のドメインの背景知識に富んだデータベースとみなす。 特に、オントロジーに使用される言語はDL-Liteファミリーのメンバーであり、データは(通常仮想)アサーションのセットであるOMQA/OBDA(Ontology-Mediated Query Answering/Ontology-based Data Access)のコンテキストに置きます。 本研究では,クエリ応答の複雑さ,数制限を含むdl-liteファミリーの異なるメンバ,およびそれらの形状(連結,分岐,根付き)に関して異なるカウントを持つ結合クエリの変種について検討する。 我々はPTIMEとcoNPの下位境界と、PTIMEとLOGSPACEの上位境界を提供することで既存の結果を改善する。 後者の場合、新しいクエリ書き換え手法をカウント付き一階述語論理に定義する。

Counting answers to a query is an operation supported by virtually all database management systems. In this paper we focus on counting answers over a Knowledge Base (KB), which may be viewed as a database enriched with background knowledge about the domain under consideration. In particular, we place our work in the context of Ontology-Mediated Query Answering/Ontology-based Data Access (OMQA/OBDA), where the language used for the ontology is a member of the DL-Lite family and the data is a (usually virtual) set of assertions. We study the data complexity of query answering, for different members of the DL-Lite family that include number restrictions, and for variants of conjunctive queries with counting that differ with respect to their shape (connected, branching, rooted). We improve upon existing results by providing a PTIME and coNP lower bounds, and upper bounds in PTIME and LOGSPACE. For the latter case, we define a novel query rewriting technique into first-order logic with counting.
翻訳日:2022-12-03 19:37:09 公開日:2020-07-17
# jssr : 大規模病理ct画像の3次元マルチモーダル画像アライメントのための統合合成・セグメント化・登録システム

JSSR: A Joint Synthesis, Segmentation, and Registration System for 3D Multi-Modal Image Alignment of Large-scale Pathological CT Scans ( http://arxiv.org/abs/2005.12209v3 )

ライセンス: Link先を確認
Fengze Liu and Jinzheng Cai and Yuankai Huo and Chi-Tung Cheng and Ashwin Raju and Dakai Jin and Jing Xiao and Alan Yuille and Le Lu and ChienHung Liao and Adam P Harrison(参考訳) マルチモーダル画像登録は、多くの実際のアプリケーションやシナリオにおいて重要な臨床課題である困難な問題である。 解析の第一歩として、相補的な視覚情報を提供するために、異なる画像モダリティ間の変形可能な登録がしばしば必要となる。 登録中、意味情報は相同点と画素にマッチする鍵となる。 それでも、多くの従来の登録方法は、高いレベルの解剖学的密度の対応を捉えることができない。 本研究では,ジェネレータ,登録,セグメンテーションコンポーネントから構成されるエンドツーエンドの3次元畳み込みニューラルネットワークに基づく,新しいマルチタスク学習システムJSSRを提案する。 システムは、教師なしの方法で異なるタスク間の暗黙の制約を満たすように最適化されている。 まず、ソースドメインイメージをターゲットドメインに合成し、その後、合成された画像とターゲットイメージにモーダル内登録を適用する。 次に、セグメンテーションモジュールを合成およびターゲット画像に適用し、意味的対応に基づく追加の手がかりを提供する。 別の完全に注釈付けされたデータセットからの監視は、セグメンテーションの規則化に使用される。 JSSRは,4つのコントラスト位相(5,940個の3次元CTスキャン)の1,485人の患者CT画像を含む大規模医用画像データセットを用いて,登録,セグメンテーション,合成作業について広範囲に評価した。 高い競争力と正確なディープラーニングベースラインと比較して,登録タスクとセグメンテーションタスクの合同トレーニングを0.9%,1.9%改善した。 この登録は、従来の最先端のマルチモーダル登録方法よりも一貫して優れている。

Multi-modal image registration is a challenging problem that is also an important clinical task for many real applications and scenarios. As a first step in analysis, deformable registration among different image modalities is often required in order to provide complementary visual information. During registration, semantic information is key to match homologous points and pixels. Nevertheless, many conventional registration methods are incapable in capturing high-level semantic anatomical dense correspondences. In this work, we propose a novel multi-task learning system, JSSR, based on an end-to-end 3D convolutional neural network that is composed of a generator, a registration and a segmentation component. The system is optimized to satisfy the implicit constraints between different tasks in an unsupervised manner. It first synthesizes the source domain images into the target domain, then an intra-modal registration is applied on the synthesized images and target images. The segmentation module are then applied on the synthesized and target images, providing additional cues based on semantic correspondences. The supervision from another fully-annotated dataset is used to regularize the segmentation. We extensively evaluate JSSR on a large-scale medical image dataset containing 1,485 patient CT imaging studies of four different contrast phases (i.e., 5,940 3D CT scans with pathological livers) on the registration, segmentation and synthesis tasks. The performance is improved after joint training on the registration and segmentation tasks by 0.9% and 1.9% respectively compared to a highly competitive and accurate deep learning baseline. The registration also consistently outperforms conventional state-of-the-art multi-modal registration methods.
翻訳日:2022-11-29 06:33:23 公開日:2020-07-17
# 確率的プログラミングによる信号経路の推定

Inferring Signaling Pathways with Probabilistic Programming ( http://arxiv.org/abs/2005.14062v2 )

ライセンス: Link先を確認
David Merrell, Anthony Gitter(参考訳) 細胞はシグナル伝達経路と呼ばれる複雑な生化学的プロセスを通じて自己を調節する。 これらは通常ネットワークとして描かれ、ノードはタンパク質を表し、エッジは互いに影響を示す。 細胞レベルでの疾患や治療法を理解するためには、作業中のシグナル伝達経路を正確に理解することが不可欠である。 シグナル伝達経路は病気によって改変できるため、状態や患者固有のデータからシグナル伝達経路を推測する能力は非常に貴重である。 シグナル伝達経路を推測するための様々な技術が存在する。 我々は,フォスフォロピオミクス時間経過データに基づく動的ベイズネットワーク構造推定問題としてシグナル伝達経路推定を定式化した過去の研究に基づいて構築する。 我々は,マルコフ連鎖モンテカルロを用いて動的ベイズネットワーク構造上の後方分布を推定するベイズ的手法を提案する。 私たちの主な貢献は (i)スパースグラフを効率的にサンプリングする新しい提案分布 (ii)共通の制約的モデリングの仮定の緩和。 本手法は,gen probabilistic language を用いて sparse signaling pathway sampling という手法をjulia に実装した。 確率的プログラミングは統計モデルを構築するための強力な方法論である。 生成されたコードはモジュール化され、拡張可能で、レグレッシブです。 特にgen言語は、生物学的グラフの推論手順をカスタマイズし、効率的なサンプリングを可能にします。 シミュレーションデータとhpn-dream pathway reconstruction challengeのアルゴリズムを評価し,様々なベースライン法との比較を行った。 本研究は,生物ネットワーク推論における確率的プログラミングの可能性を示すものである。 完全なコードベースはhttps://github.com/gitter-lab/sspsにある。

Cells regulate themselves via dizzyingly complex biochemical processes called signaling pathways. These are usually depicted as a network, where nodes represent proteins and edges indicate their influence on each other. In order to understand diseases and therapies at the cellular level, it is crucial to have an accurate understanding of the signaling pathways at work. Since signaling pathways can be modified by disease, the ability to infer signaling pathways from condition- or patient-specific data is highly valuable. A variety of techniques exist for inferring signaling pathways. We build on past works that formulate signaling pathway inference as a Dynamic Bayesian Network structure estimation problem on phosphoproteomic time course data. We take a Bayesian approach, using Markov Chain Monte Carlo to estimate a posterior distribution over possible Dynamic Bayesian Network structures. Our primary contributions are (i) a novel proposal distribution that efficiently samples sparse graphs and (ii) the relaxation of common restrictive modeling assumptions. We implement our method, named Sparse Signaling Pathway Sampling, in Julia using the Gen probabilistic programming language. Probabilistic programming is a powerful methodology for building statistical models. The resulting code is modular, extensible, and legible. The Gen language, in particular, allows us to customize our inference procedure for biological graphs and ensure efficient sampling. We evaluate our algorithm on simulated data and the HPN-DREAM pathway reconstruction challenge, comparing our performance against a variety of baseline methods. Our results demonstrate the vast potential for probabilistic programming, and Gen specifically, for biological network inference. Find the full codebase at https://github.com/gitter-lab/ssps
翻訳日:2022-11-27 04:52:54 公開日:2020-07-17
# 物質特性を外挿した原子系のウェーブレット散乱ネットワーク

Wavelet Scattering Networks for Atomistic Systems with Extrapolation of Material Properties ( http://arxiv.org/abs/2006.01247v2 )

ライセンス: Link先を確認
Paul Sinz and Michael W. Swift and Xavier Brumwell and Jialin Liu and Kwang Jin Kim and Yue Qi and Matthew Hirn(参考訳) 材料科学における機械学習の夢は、モデルが原子システムの基礎となる物理学を学習することであり、トレーニングセットの補間を超えて、元のトレーニングデータに存在しない特性の予測に移行することができる。 機械学習アーキテクチャとトレーニング技術の進歩に加えて、この野心的な目標を達成するには、3D原子システムを回転対称性と翻訳対称性、小さな摂動下での滑らかさ、再順序下での不変性を保存する特徴表現に変換する方法が必要である。 原子軌道ウェーブレット散乱変換は、これらの対称性を構築によって保存し、機械学習エネルギー予測の成果化手法として大きな成功を収めた。 小さな分子とバルクアモルファスな$\text{li}_{\alpha}\text{si}$システムの両方において、ウェーブレット散乱係数を特徴とする機械学習モデルは、計算コストのごく一部で密度汎関数理論に匹敵する精度を示している。 本研究では、弾性定数やマイグレーション障壁など、トレーニングセットに含まれていないプロパティに対して、$\text{li}_{\alpha}\text{si}$ energy predictorの一般化可能性をテストする。 統計的特徴選択手法が過剰フィッティングを減少させ,これらの外挿作業において顕著な精度をもたらすことを実証する。

The dream of machine learning in materials science is for a model to learn the underlying physics of an atomic system, allowing it to move beyond interpolation of the training set to the prediction of properties that were not present in the original training data. In addition to advances in machine learning architectures and training techniques, achieving this ambitious goal requires a method to convert a 3D atomic system into a feature representation that preserves rotational and translational symmetry, smoothness under small perturbations, and invariance under re-ordering. The atomic orbital wavelet scattering transform preserves these symmetries by construction, and has achieved great success as a featurization method for machine learning energy prediction. Both in small molecules and in the bulk amorphous $\text{Li}_{\alpha}\text{Si}$ system, machine learning models using wavelet scattering coefficients as features have demonstrated a comparable accuracy to Density Functional Theory at a small fraction of the computational cost. In this work, we test the generalizability of our $\text{Li}_{\alpha}\text{Si}$ energy predictor to properties that were not included in the training set, such as elastic constants and migration barriers. We demonstrate that statistical feature selection methods can reduce over-fitting and lead to remarkable accuracy in these extrapolation tasks.
翻訳日:2022-11-26 06:57:49 公開日:2020-07-17
# 順序ベルヌーイ変量体の観測値と予測値の累積差のプロット

Plots of the cumulative differences between observed and expected values of ordered Bernoulli variates ( http://arxiv.org/abs/2006.02504v3 )

ライセンス: Link先を確認
Mark Tygert(参考訳) 例えば、明日の降水は予測できるが、30%の確率で予測できる。 予測と実際の結果の両方を考えると、「信頼度図」("reliability diagram")は、予測と結果の間の統計的に有意な相違を検出し、診断するのに役立ちます。 標準信頼性図は予測の観測値と期待値のヒストグラムに基づいており、標準信頼性図のいくつかの変種は、ビンの幅に類似した幅の滑らかな畳み込み核を用いて、ハードヒストグラムをソフトカーネル密度推定に置き換えることを提案している。 どの場合も、どの幅が一番良いか(または、異なる幅の複数のプロットの方が良いのか? この問いに答える代わりに、観察値と期待値の累積差のプロットは、グラフの分離線の傾きとして直接ミスキャリブレーションを表示することによって、質問をほとんど避けている。 スロープは、セカントラインの一定オフセットが無関係であっても、定量的な精度で容易に認識できる。 何らかの任意のカーネルで、バイナリやカーネル密度推定を行う必要はない。

Many predictions are probabilistic in nature; for example, a prediction could be for precipitation tomorrow, but with only a 30 percent chance. Given both the predictions and the actual outcomes, "reliability diagrams" (also known as "calibration plots") help detect and diagnose statistically significant discrepancies between the predictions and the outcomes. The canonical reliability diagrams are based on histogramming the observed and expected values of the predictions; several variants of the standard reliability diagrams propose to replace the hard histogram binning with soft kernel density estimation using smooth convolutional kernels of widths similar to the widths of the bins. In all cases, an important question naturally arises: which widths are best (or are multiple plots with different widths better)? Rather than answering this question, plots of the cumulative differences between the observed and expected values largely avoid the question, by displaying miscalibration directly as the slopes of secant lines for the graphs. Slope is easy to perceive with quantitative precision even when the constant offsets of the secant lines are irrelevant. There is no need to bin or perform kernel density estimation with a somewhat arbitrary kernel.
翻訳日:2022-11-25 17:45:04 公開日:2020-07-17
# 連合学習への攻撃: ユーザの勾配からトレーニングデータを復元するレスポンシブwebユーザインタフェース

Attacks to Federated Learning: Responsive Web User Interface to Recover Training Data from User Gradients ( http://arxiv.org/abs/2006.04695v2 )

ライセンス: Link先を確認
Hans Albert Lianto, Yang Zhao, Jun Zhao(参考訳) ローカルディファレンシャルプライバシ(LDP)は、個々のユーザーデータを保護するための新たなプライバシ標準である。 LDPが適用可能なシナリオの1つはフェデレーション学習であり、各ユーザが自身のユーザ勾配をアグリゲータに送信し、これらの勾配を使用して確率勾配降下を行う。 アグリゲータが信頼されず、各ユーザ勾配にLDPを適用しない場合、アグリゲータはこれらの勾配からセンシティブなユーザデータを復元することができる。 本稿では,ローカルディファレンシャルプライバシを用いたフェデレーション学習を可視化することで,ローカルディファレンシャルプライバシのパワーを示す新しいインタラクティブwebデモを提案する。 さらに、ライブデモでは、信頼できないアグリゲータがセンシティブなトレーニングデータを回復することを防ぐ方法が示されている。 exp-hamming recoveryと呼ばれる指標も作成され、アグリゲータがどれだけのデータを復元できるかを示す。

Local differential privacy (LDP) is an emerging privacy standard to protect individual user data. One scenario where LDP can be applied is federated learning, where each user sends in his/her user gradients to an aggregator who uses these gradients to perform stochastic gradient descent. In a case where the aggregator is untrusted and LDP is not applied to each user gradient, the aggregator can recover sensitive user data from these gradients. In this paper, we present a new interactive web demo showcasing the power of local differential privacy by visualizing federated learning with local differential privacy. Moreover, the live demo shows how LDP can prevent untrusted aggregators from recovering sensitive training data. A measure called the exp-hamming recovery is also created to show the extent of how much data the aggregator can recover.
翻訳日:2022-11-24 02:45:02 公開日:2020-07-17
# 時空間ユーザ行動の時間構造モデリングのためのカレンダーグラフニューラルネットワーク

Calendar Graph Neural Networks for Modeling Time Structures in Spatiotemporal User Behaviors ( http://arxiv.org/abs/2006.06820v2 )

ライセンス: Link先を確認
Daheng Wang, Meng Jiang, Munira Syed, Oliver Conway, Vishal Juneja, Sriram Subramanian, Nitesh V. Chawla(参考訳) ユーザ行動モデリングは、人口属性予測、コンテンツ推薦、ターゲット広告などの産業アプリケーションにとって重要である。 既存手法は, 行動ログを採用項目のシーケンスとして表現し, 順次パターンを見つけるが, 動的かつ周期的なパターンを反映した行動ログの具体的な位置と時間情報は, ユーザをモデル化し, その特性を予測するのに有用である。 本研究では,時空間行動データからユーザ表現を学習するためのグラフニューラルネットワークに基づく新しいモデルを提案する。 行動ログは、セッションのシーケンスを含み、セッションは、場所、開始時間、終了時間、および、採択されたアイテムのシーケンスを有する。 モデルアーキテクチャには2つのネットワーク構造が組み込まれている。 1つはアイテム、セッション、ロケーションの3部構成のネットワークである。 もう一つは、時間、週、平日のノードからなる階層的なカレンダーネットワークである。 まず、位置とアイテムの埋め込みをtripartiteネットワークを介してセッション埋め込みに集約し、その後、カレンダ構造を介してセッション埋め込みからユーザ埋め込みを生成する。 ユーザー埋め込みは、様々な周期性の空間パターンと時間パターン(例えば、時間パターン、週パターン、平日パターン)を保存する。 ユーザ行動における複数のパターン間の複雑な相互作用をモデル化するための注意機構を採用する。 実際のデータセット(例えばモバイルアプリでニュース記事をクリックする)の実験は、我々のアプローチが欠落する人口統計特性を予測するための強力なベースラインを上回っていることを示している。

User behavior modeling is important for industrial applications such as demographic attribute prediction, content recommendation, and target advertising. Existing methods represent behavior log as a sequence of adopted items and find sequential patterns; however, concrete location and time information in the behavior log, reflecting dynamic and periodic patterns, joint with the spatial dimension, can be useful for modeling users and predicting their characteristics. In this work, we propose a novel model based on graph neural networks for learning user representations from spatiotemporal behavior data. A behavior log comprises a sequence of sessions; and a session has a location, start time, end time, and a sequence of adopted items. Our model's architecture incorporates two networked structures. One is a tripartite network of items, sessions, and locations. The other is a hierarchical calendar network of hour, week, and weekday nodes. It first aggregates embeddings of location and items into session embeddings via the tripartite network, and then generates user embeddings from the session embeddings via the calendar structure. The user embeddings preserve spatial patterns and temporal patterns of a variety of periodicity (e.g., hourly, weekly, and weekday patterns). It adopts the attention mechanism to model complex interactions among the multiple patterns in user behaviors. Experiments on real datasets (i.e., clicks on news articles in a mobile app) show our approach outperforms strong baselines for predicting missing demographic attributes.
翻訳日:2022-11-22 12:36:55 公開日:2020-07-17
# 文脈マルコフ決定過程の模倣とモデルベースバッチ学習のためのPAC境界

PAC Bounds for Imitation and Model-based Batch Learning of Contextual Markov Decision Processes ( http://arxiv.org/abs/2006.06352v2 )

ライセンス: Link先を確認
Yash Nair and Finale Doshi-Velez(参考訳) 本稿では,観察された文脈記述子を用いたバッチ型マルチタスク強化学習の問題点について考察する。 特に、直接ポリシー学習(DPL)、専門家軌道から学習する模倣学習に基づくアプローチ、モデルベース学習の2つの一般的な学習アルゴリズムについて研究する。 まず、dplのサンプル複雑性境界を導出し、エキスパートアクションからモデルベースの学習は、有限のモデルクラスであっても不可能であることを示す。 状態-作用空間のカバレッジを高めることによってモデルベースアプローチが学習されるであろう条件を緩和した後、有限モデルクラスによるモデルベース学習のサンプル複雑性境界を提供し、その複雑性が指数関数的なモデルクラスが存在することを示した。 次に,データ分布の集中度を指標として,モデルベース学習のためのサンプル複雑性上限を導出する。 本研究は,モデルベース学習よりも模倣学習の形式的正当性を示す。

We consider the problem of batch multi-task reinforcement learning with observed context descriptors, motivated by its application to personalized medical treatment. In particular, we study two general classes of learning algorithms: direct policy learning (DPL), an imitation-learning based approach which learns from expert trajectories, and model-based learning. First, we derive sample complexity bounds for DPL, and then show that model-based learning from expert actions can, even with a finite model class, be impossible. After relaxing the conditions under which the model-based approach is expected to learn by allowing for greater coverage of state-action space, we provide sample complexity bounds for model-based learning with finite model classes, showing that there exist model classes with sample complexity exponential in their statistical complexity. We then derive a sample complexity upper bound for model-based learning based on a measure of concentration of the data distribution. Our results give formal justification for imitation learning over model-based learning in this setting.
翻訳日:2022-11-22 09:53:42 公開日:2020-07-17
# 生成潜在探索によるNIR画像のセマンティックセグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation of NIR Images through Generative Latent Search ( http://arxiv.org/abs/2006.08696v2 )

ライセンス: Link先を確認
Prashant Pandey, Aayush Kumar Tyagi, Sameer Ambekar, and Prathosh AP(参考訳) ヒトの皮膚に対応するピクセルのセグメンテーションは、監視からリモートフォトプレチモグラフィによる心拍推定まで、様々な応用において重要な第一歩である。 しかし、既存の文献では、アプリケーションの臨界値が高い光環境において、その実用性を制限しているEMスペクトルの可視範囲でのみこの問題を考察している。 この問題を軽減するため,近赤外画像からの皮膚分割の問題を考える。 しかし、ディープラーニングに基づく最先端セグメンテーション技術は、現在の問題では利用できない大量のラベル付きデータを必要とする。 そこで我々は, 対象非依存の非教師付きドメイン適応 (UDA) の皮膚分画問題を, 可視領域の赤チャネルのデータを用いてNIR画像上の皮膚分画アルゴリズムを開発した。 本稿では,ソースドメイン内でのみトレーニングされたセグメンテーションネットワークにおいて,対象画像の'nearest-clone'を検索し,プロキシとして使用するターゲット非依存セグメンテーション手法を提案する。 本稿では,'nearest-clone'の存在を証明し,変分推論に基づく深部生成モデルの潜在空間上の最適化アルゴリズムを用いてそれを求める手法を提案する。 対象のNIRデータにアクセスできないにもかかわらず,NIR領域に新たに作成した2つの皮膚分画データセットに対して,最先端のUDA分画法に対して提案手法の有効性を実証した。 さらに,SynthiaからCityscapesへの適応に関する最先端の成果を報告し,セマンティックセグメンテーションのためのUnsupervised Domain Adaptationの一般的な設定である。 コードとデータセットはhttps://github.com/ambekarsameer96/glssで入手できる。

Segmentation of the pixels corresponding to human skin is an essential first step in multiple applications ranging from surveillance to heart-rate estimation from remote-photoplethysmography. However, the existing literature considers the problem only in the visible-range of the EM-spectrum which limits their utility in low or no light settings where the criticality of the application is higher. To alleviate this problem, we consider the problem of skin segmentation from the Near-infrared images. However, Deep learning based state-of-the-art segmentation techniques demands large amounts of labelled data that is unavailable for the current problem. Therefore we cast the skin segmentation problem as that of target-independent Unsupervised Domain Adaptation (UDA) where we use the data from the Red-channel of the visible-range to develop skin segmentation algorithm on NIR images. We propose a method for target-independent segmentation where the 'nearest-clone' of a target image in the source domain is searched and used as a proxy in the segmentation network trained only on the source domain. We prove the existence of 'nearest-clone' and propose a method to find it through an optimization algorithm over the latent space of a Deep generative model based on variational inference. We demonstrate the efficacy of the proposed method for NIR skin segmentation over the state-of-the-art UDA segmentation methods on the two newly created skin segmentation datasets in NIR domain despite not having access to the target NIR data. Additionally, we report state-of-the-art results for adaption from Synthia to Cityscapes which is a popular setting in Unsupervised Domain Adaptation for semantic segmentation. The code and datasets are available at https://github.com/ambekarsameer96/GLSS.
翻訳日:2022-11-21 04:34:57 公開日:2020-07-17
# 説明に基づくグラフネットワークとの視覚関係の弱教師付き学習

Explanation-based Weakly-supervised Learning of Visual Relations with Graph Networks ( http://arxiv.org/abs/2006.09562v2 )

ライセンス: Link先を確認
Federico Baldassarre, Kevin Smith, Josephine Sullivan, Hossein Azizpour(参考訳) 視覚的関係検出は全体像理解の基礎となる。 しかしながら、(対象、述語、対象)三重項の局所化と分類は、考えられる関係の組合せ的な爆発、自然画像における長い尾の分布、そして高価なアノテーションプロセスにより、依然として困難な課題である。 本稿では,最小画像レベルの述語ラベルに依存した視覚的関係検出手法を提案する。 グラフニューラルネットワークは、検出されたオブジェクトのグラフ表現から画像中の述語を分類するように訓練され、ペア関係の帰納バイアスを暗黙的に符号化する。 このような述語分類器の説明として関係検出をフレーム化し、予測述語の対象と対象を回収することで完全関係を得る。 本研究では,人間-オブジェクト間インタラクションのためのhco-det,汎用オブジェクト-オブジェクト間関係の視覚的関係検出,異常な三重項に対するunrel,非理解的アノテーションに対する頑健性および良好な限定的一般化という,最近の完全かつ弱い教師付き手法に匹敵する結果を示す。

Visual relationship detection is fundamental for holistic image understanding. However, the localization and classification of (subject, predicate, object) triplets remain challenging tasks, due to the combinatorial explosion of possible relationships, their long-tailed distribution in natural images, and an expensive annotation process. This paper introduces a novel weakly-supervised method for visual relationship detection that relies on minimal image-level predicate labels. A graph neural network is trained to classify predicates in images from a graph representation of detected objects, implicitly encoding an inductive bias for pairwise relations. We then frame relationship detection as the explanation of such a predicate classifier, i.e. we obtain a complete relation by recovering the subject and object of a predicted predicate. We present results comparable to recent fully- and weakly-supervised methods on three diverse and challenging datasets: HICO-DET for human-object interaction, Visual Relationship Detection for generic object-to-object relations, and UnRel for unusual triplets; demonstrating robustness to non-comprehensive annotations and good few-shot generalization.
翻訳日:2022-11-20 21:15:06 公開日:2020-07-17
# バッハかモックか? J.S.バッハスタイルにおける合唱曲のグラディング機能

Bach or Mock? A Grading Function for Chorales in the Style of J.S. Bach ( http://arxiv.org/abs/2006.13329v3 )

ライセンス: Link先を確認
Alexander Fang, Alisa Liu, Prem Seetharaman, Bryan Pardo(参考訳) 既存の音楽のコーパスから確率モデルを学ぶ深層生成システムは、伝統的な規則に基づくシステムと比較して、音楽スタイルの知識を明示的にエンコードしていない。 したがって、深いモデルが専門家の評価なしにスタイリスト的に正しい出力を生成するかどうかを判断することは困難であるが、これは高価で時間がかかる。 そのため、自動的、解釈可能で、音楽的に動機づけられた音楽評価手段が必要となる。 本稿では,j.s.バッハの4部コラを重要な音楽的特徴に合わせて評価する階調関数を提案する。 変圧器モデルの出力を評価するために階調関数を用い,モデル生成とバッハ振付を区別する上で,その関数が人間の専門家よりも解釈可能かつ優れたものであることを示す。

Deep generative systems that learn probabilistic models from a corpus of existing music do not explicitly encode knowledge of a musical style, compared to traditional rule-based systems. Thus, it can be difficult to determine whether deep models generate stylistically correct output without expert evaluation, but this is expensive and time-consuming. Therefore, there is a need for automatic, interpretable, and musically-motivated evaluation measures of generated music. In this paper, we introduce a grading function that evaluates four-part chorales in the style of J.S. Bach along important musical features. We use the grading function to evaluate the output of a Transformer model, and show that the function is both interpretable and outperforms human experts at discriminating Bach chorales from model-generated ones.
翻訳日:2022-11-17 22:43:39 公開日:2020-07-17
# ファルシフィケーションに基づくロバスト対応強化学習

Falsification-Based Robust Adversarial Reinforcement Learning ( http://arxiv.org/abs/2007.00691v2 )

ライセンス: Link先を確認
Xiao Wang, Saasha Nair, and Matthias Althoff(参考訳) 強化学習(rl)は、ロボット工学における制御タスクなど、様々な逐次的な意思決定問題を解決する上で大きな進歩を遂げた。 しかし、ポリシーがトレーニング環境に過度に適合するため、rlメソッドは安全クリティカルなシナリオに一般化できないことが多い。 従来、システムに障害を適用し、テストシナリオの堅牢性を向上する敵ネットワークをトレーニングするために、堅牢な敵強化学習(RARL)が提案されていた。 ニューラルネットワークベースの敵の欠点は、高度な報酬信号を手作りせずにシステム要件を統合することが難しいことである。 安全性の改ざん手法は、システムが時相論理で定式化された所定のプロパティに違反するように、入力シーケンスと同様に一連の初期条件を見つけることができる。 本稿では,敵意学習における時間的論理的改ざんを統合する最初の汎用フレームワークである改ざんベースrarl(frarl)を提案する。 falsificationメソッドでは、敵に対して追加の報酬関数を構築する必要はありません。 我々は,自律走行車両のブレーキアシストシステムと適応クルーズ制御システムに対するアプローチを評価した。 実験により、偽造ベースの敵意で訓練されたポリシーは、敵意のない、あるいは敵意のあるネットワークで訓練されたポリシーよりも、テストシナリオにおける安全性仕様の違反が少ないことが示されている。

Reinforcement learning (RL) has achieved tremendous progress in solving various sequential decision-making problems, e.g., control tasks in robotics. However, RL methods often fail to generalize to safety-critical scenarios since policies are overfitted to training environments. Previously, robust adversarial reinforcement learning (RARL) was proposed to train an adversarial network that applies disturbances to a system, which improves robustness in test scenarios. A drawback of neural-network-based adversaries is that integrating system requirements without handcrafting sophisticated reward signals is difficult. Safety falsification methods allow one to find a set of initial conditions as well as an input sequence, such that the system violates a given property formulated in temporal logic. In this paper, we propose falsification-based RARL (FRARL), the first generic framework for integrating temporal-logic falsification in adversarial learning to improve policy robustness. With falsification method, we do not need to construct an extra reward function for the adversary. We evaluate our approach on a braking assistance system and an adaptive cruise control system of autonomous vehicles. Experiments show that policies trained with a falsification-based adversary generalize better and show less violation of the safety specification in test scenarios than the ones trained without an adversary or with an adversarial network.
翻訳日:2022-11-15 00:02:27 公開日:2020-07-17
# 深層埋め込みによる学習サーロゲート

Learning Surrogates via Deep Embedding ( http://arxiv.org/abs/2007.00799v2 )

ライセンス: Link先を確認
Yash Patel, Tomas Hodan, Jiri Matas(参考訳) 本稿では,ターゲット評価指標に近似するサーロゲート損失を最小化することでニューラルネットワークを訓練する手法を提案する。 シュロゲートは、予測と基底真実の間のユークリッド距離が評価指標の値に対応するような深い埋め込みを通して学習される。 提案手法の有効性は、学習したサロゲートを用いて訓練されたモデルを調整した後設定で示される。 重要な計算オーバーヘッドやベルやホイッスルがなければ、シーンテキスト認識と検出の挑戦的で実用的なタスクで改善が実証される。 認識タスクでは、編集距離メトリックを近似するサロゲートを用いてモデルをチューニングし、編集距離の総和で最大39セントの相対的改善を達成する。 検出タスクでは、サロゲートは回転した有界箱のユニオン計量の交叉を近似し、F_{1}$スコアにおいて最大4.25\%の相対的な改善をもたらす。

This paper proposes a technique for training a neural network by minimizing a surrogate loss that approximates the target evaluation metric, which may be non-differentiable. The surrogate is learned via a deep embedding where the Euclidean distance between the prediction and the ground truth corresponds to the value of the evaluation metric. The effectiveness of the proposed technique is demonstrated in a post-tuning setup, where a trained model is tuned using the learned surrogate. Without a significant computational overhead and any bells and whistles, improvements are demonstrated on challenging and practical tasks of scene-text recognition and detection. In the recognition task, the model is tuned using a surrogate approximating the edit distance metric and achieves up to $39\%$ relative improvement in the total edit distance. In the detection task, the surrogate approximates the intersection over union metric for rotated bounding boxes and yields up to $4.25\%$ relative improvement in the $F_{1}$ score.
翻訳日:2022-11-14 23:19:16 公開日:2020-07-17
# 構造モニタリングデータ計算と応答予測のための増分ベイズテンソル学習

Incremental Bayesian tensor learning for structural monitoring data imputation and response forecasting ( http://arxiv.org/abs/2007.00790v3 )

ライセンス: Link先を確認
Pu Ren and Xinyu Chen and Lijun Sun and Hao Sun(参考訳) センサの故障による不連続な感覚による構造的健康モニタリング(SHM)の分野では,センサデータ計算の欠如に対する関心が高まっている。 本稿では,SHMにおける時空間欠落データの再構成と構造的応答の予測を行うための漸進的ベイズテンソル学習法を提案する。 特に時空間テンソルはまずベイズテンソル因子分解(英語版)によって構成され、データインプテーションの欠如に対して潜在特徴を抽出する。 不完全なセンシングデータに基づく構造応答予測を可能にするため、インクリメンタル学習方式において、テンソル分解をベクトル自己回帰とさらに統合する。 提案手法の性能は, ひずみ時間履歴が温度記録と高い相関関係にあるという仮定に基づいて, コンクリート橋の連続フィールドセンシングデータ(ひずみおよび温度記録を含む)に基づいて検証した。 その結果, 確率的テンソル学習手法は, ランダム欠落, 構造化欠落, 組み合わせの有無に関わらず, 正確かつ堅牢であることが示唆された。 ランク選択がインプテーションと予測性能に及ぼす影響についても検討した。 その結果,構造的欠落では低い階数に対して,ランダム欠落では高い階数でより良い推定精度が得られることがわかった。

There has been increased interest in missing sensor data imputation, which is ubiquitous in the field of structural health monitoring (SHM) due to discontinuous sensing caused by sensor malfunction. To address this fundamental issue, this paper presents an incremental Bayesian tensor learning method for reconstruction of spatiotemporal missing data in SHM and forecasting of structural response. In particular, a spatiotemporal tensor is first constructed followed by Bayesian tensor factorization that extracts latent features for missing data imputation. To enable structural response forecasting based on incomplete sensing data, the tensor decomposition is further integrated with vector autoregression in an incremental learning scheme. The performance of the proposed approach is validated on continuous field-sensing data (including strain and temperature records) of a concrete bridge, based on the assumption that strain time histories are highly correlated to temperature recordings. The results indicate that the proposed probabilistic tensor learning approach is accurate and robust even in the presence of large rates of random missing, structured missing and their combination. The effect of rank selection on the imputation and prediction performance is also investigated. The results show that a better estimation accuracy can be achieved with a higher rank for random missing whereas a lower rank for structured missing.
翻訳日:2022-11-14 23:02:11 公開日:2020-07-17
# ネットワークレベルトラヒック信号制御のための分散深層強化学習

Decentralized Deep Reinforcement Learning for Network Level Traffic Signal Control ( http://arxiv.org/abs/2007.03433v2 )

ライセンス: Link先を確認
Jin Guo(参考訳) 本稿では,ネットワークレベルのトラヒック信号制御において高いリアルタイム性能を実現するために,完全分散型深層マルチエージェント強化学習(marl)アルゴリズムを提案する。 このアプローチでは,各交差点は,非方向グラフとしてモデル化された信号ネットワーク内の他の交差点ノードに対してマルコフゲームを行うエージェントとしてモデル化され,遅延の最適低減にアプローチする。 部分観測可能なマルコフ決定プロセス(POMDP)に続いて、隣接する学習エージェントの間には、独立深度Q-leaning(IDQL)、共有状態強化学習(S2RL)、共有状態と報酬バージョン(S2RL-S2R2L)の3つのレベルのコミュニケーションスキームが存在する。 これら3つの分散MARLスキームでは、個々のエージェントがローカル深度Qネットワーク(DQN)を個別に訓練し、ダブルDQN、優先された体験リプレイ、マルチステップブートストラップといった収束保証技術によって強化される。 提案する3つのmarlアルゴリズムの性能をテストするために,実世界の交通変動を再現する相撲型シミュレーションプラットフォームを開発した。 許可されたODペア間のランダムな交通需要により、4x4マンハッタンスタイルのグリッドネットワークがテストベッドとして設定され、モデルトレーニングとテストのために2つの異なる車両到着率が生成される。 実験の結果,s2r2lはidqlやs2rlよりも高速に収束し,収束性能が向上した。 さらに、3つのMARLスキームは全て例外的な一般化能力を示している。 テスト結果は,平均車両遅延,ネットワークレベル待ち行列長,燃料消費率の基準の下で,ベンチマーク最大圧力(MP)アルゴリズムを上回る。 特に、S2R2Lは、MPと比較して34.55%の遅延を減らし、10.91%のキュー長を散布するテスト性能が最高である。

In this thesis, I propose a family of fully decentralized deep multi-agent reinforcement learning (MARL) algorithms to achieve high, real-time performance in network-level traffic signal control. In this approach, each intersection is modeled as an agent that plays a Markovian Game against the other intersection nodes in a traffic signal network modeled as an undirected graph, to approach the optimal reduction in delay. Following Partially Observable Markov Decision Processes (POMDPs), there are 3 levels of communication schemes between adjacent learning agents: independent deep Q-leaning (IDQL), shared states reinforcement learning (S2RL) and a shared states & rewards version of S2RL--S2R2L. In these 3 variants of decentralized MARL schemes, individual agent trains its local deep Q network (DQN) separately, enhanced by convergence-guaranteed techniques like double DQN, prioritized experience replay, multi-step bootstrapping, etc. To test the performance of the proposed three MARL algorithms, a SUMO-based simulation platform is developed to mimic the traffic evolution of the real world. Fed with random traffic demand between permitted OD pairs, a 4x4 Manhattan-style grid network is set up as the testbed, two different vehicle arrival rates are generated for model training and testing. The experiment results show that S2R2L has a quicker convergence rate and better convergent performance than IDQL and S2RL in the training process. Moreover, three MARL schemes all reveal exceptional generalization abilities. Their testing results surpass the benchmark Max Pressure (MP) algorithm, under the criteria of average vehicle delay, network-level queue length and fuel consumption rate. Notably, S2R2L has the best testing performance of reducing 34.55% traffic delay and dissipating 10.91% queue length compared with MP.
翻訳日:2022-11-14 13:43:58 公開日:2020-07-17
# テキスト認識 -- 現実世界のデータとそれを見つける場所

Text Recognition -- Real World Data and Where to Find Them ( http://arxiv.org/abs/2007.03098v2 )

ライセンス: Link先を確認
Kl\'ara Janou\v{s}kov\'a, Jiri Matas, Lluis Gomez, Dimosthenis Karatzas(参考訳) 弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。 このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。 提案手法は,不正確な書き起こしを弱アノテーションにマッチングし,距離案内近傍探索を編集することを含む。 シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。 2つの弱い注釈付きデータセットに適用する。 抽出されたPGTによるトレーニングは、異なるベンチマークデータセット(画像領域)で平均3.7〜\%、弱い注釈付きデータセットで24.5〜\%のアート認識モデルの精度を一貫して改善する。

We present a method for exploiting weakly annotated images to improve text extraction pipelines. The approach uses an arbitrary end-to-end text recognition system to obtain text region proposals and their, possibly erroneous, transcriptions. The proposed method includes matching of imprecise transcription to weak annotations and edit distance guided neighbourhood search. It produces nearly error-free, localised instances of scene text, which we treat as "pseudo ground truth" (PGT). We apply the method to two weakly-annotated datasets. Training with the extracted PGT consistently improves the accuracy of a state of the art recognition model, by 3.7~\% on average, across different benchmark datasets (image domains) and 24.5~\% on one of the weakly annotated datasets.
翻訳日:2022-11-13 02:53:59 公開日:2020-07-17
# Placepedia: 多面アノテーションによる総合的な場所理解

Placepedia: Comprehensive Place Understanding with Multi-Faceted Annotations ( http://arxiv.org/abs/2007.03777v4 )

ライセンス: Link先を確認
Huaiyi Huang, Yuqi Zhang, Qingqiu Huang, Zhengkui Guo, Ziwei Liu, and Dahua Lin(参考訳) 場所は視覚理解の重要な要素である。 建物の写真が与えられると、人々はしばしばその機能、例えばレストランや店、その文化的スタイル、例えばアジアやヨーロッパ、そしてその経済タイプ、例えば産業指向や観光志向を語ることができる。 場所認識は以前の研究で広く研究されてきたが、総合的な場所理解にはまだまだ長い道のりが残っており、それは画像のある場所を分類する以上のものであり、複数の側面の情報を必要とする。 本研究では,240Kのユニークな場所から3500万枚以上の写真を集めた大規模な場所データセットであるPlacepediaをコントリビュートする。 写真以外にも、GDP、人口など、大量の多面的情報や、機能、都市、国など、複数のレベルのラベルが提供されている。 このデータセットは大量のデータと豊富なアノテーションを持ち、様々な研究を行うことができる。 特に私たちの研究では 1) 多レベル位置認識のための統一フレームワークplacenetおよび 2) 視覚的側面情報と多面的側面情報の両方をキャプチャする都市のためのベクトル表現を生成することができる都市埋め込みの方法。 このような研究は、場所の理解において重要な課題を明らかにするだけでなく、視覚的観察と基礎となる社会経済的・文化的含意との関係も明らかにしている。

Place is an important element in visual understanding. Given a photo of a building, people can often tell its functionality, e.g. a restaurant or a shop, its cultural style, e.g. Asian or European, as well as its economic type, e.g. industry oriented or tourism oriented. While place recognition has been widely studied in previous work, there remains a long way towards comprehensive place understanding, which is far beyond categorizing a place with an image and requires information of multiple aspects. In this work, we contribute Placepedia, a large-scale place dataset with more than 35M photos from 240K unique places. Besides the photos, each place also comes with massive multi-faceted information, e.g. GDP, population, etc., and labels at multiple levels, including function, city, country, etc.. This dataset, with its large amount of data and rich annotations, allows various studies to be conducted. Particularly, in our studies, we develop 1) PlaceNet, a unified framework for multi-level place recognition, and 2) a method for city embedding, which can produce a vector representation for a city that captures both visual and multi-faceted side information. Such studies not only reveal key challenges in place understanding, but also establish connections between visual observations and underlying socioeconomic/cultural implications.
翻訳日:2022-11-12 19:07:11 公開日:2020-07-17
# フェデレーションFスコアに基づく自動ルール抽出のためのアンサンブルモデル

A Federated F-score Based Ensemble Model for Automatic Rule Extraction ( http://arxiv.org/abs/2007.03533v3 )

ライセンス: Link先を確認
Kun Li, Fanglan Zheng, Jiang Tian and Xiaojia Xiang(参考訳) 本稿では,Fed-FEAREという自動ルール抽出のためのFスコアを用いたアンサンブルツリーモデルを提案する。 データプライバシ保護の前提の下で、feder-feareは複数の機関が垂直と水平の両方のルールを共同で取り出すことができる。 フェデレーション学習がなければ,モデルの性能評価の尺度が大幅に向上する。 現在、Fed-FEAREは中国全土の金融保有グループにおいて、反詐欺や精密マーケティングを含む複数のビジネスにすでに適用されている。

In this manuscript, we propose a federated F-score based ensemble tree model for automatic rule extraction, namely Fed-FEARE. Under the premise of data privacy protection, Fed-FEARE enables multiple agencies to jointly extract set of rules both vertically and horizontally. Compared with that without federated learning, measures in evaluating model performance are highly improved. At present, Fed-FEARE has already been applied to multiple business, including anti-fraud and precision marketing, in a China nation-wide financial holdings group.
翻訳日:2022-11-12 18:57:36 公開日:2020-07-17
# 状態空間ガウス過程モデルにおける高速変分学習

Fast Variational Learning in State-Space Gaussian Process Models ( http://arxiv.org/abs/2007.04731v2 )

ライセンス: Link先を確認
Paul E. Chang, William J. Wilkinson, Mohammad Emtiyaz Khan, Arno Solin(参考訳) 1次元入力を持つガウス過程(GP)回帰は確率微分方程式の定式化によって線形時間で行うことができる。 しかし、非ガウス的確率に対して、これは近似推論法の適用が必要であり、例えば、期待伝播は数値的に不安定であり、変分推論は計算的に非効率である。 本稿では,そのような困難を解消する新しい手法を提案する。 共役計算型変分推論と呼ばれる既存の手法に基づいて,数値不安定性や収束問題を避けつつカルマン再帰による線形時間推定を可能にする。 我々は,ジャスト・イン・タイムコンパイルを活用し,大規模forループによる高速自動微分を実現する効率的なjax実装を提供する。 全体として、我々のアプローチは、何百万ものデータポイントを持つ時系列にスケールできる状態空間GPモデルにおいて、高速かつ安定した変動推論をもたらす。

Gaussian process (GP) regression with 1D inputs can often be performed in linear time via a stochastic differential equation formulation. However, for non-Gaussian likelihoods, this requires application of approximate inference methods which can make the implementation difficult, e.g., expectation propagation can be numerically unstable and variational inference can be computationally inefficient. In this paper, we propose a new method that removes such difficulties. Building upon an existing method called conjugate-computation variational inference, our approach enables linear-time inference via Kalman recursions while avoiding numerical instabilities and convergence issues. We provide an efficient JAX implementation which exploits just-in-time compilation and allows for fast automatic differentiation through large for-loops. Overall, our approach leads to fast and stable variational inference in state-space GP models that can be scaled to time series with millions of data points.
翻訳日:2022-11-12 03:32:04 公開日:2020-07-17
# データセットのトレーニング:人間のポーズ推定のための分散認識と誤り補償座標復号

Train Your Data Processor: Distribution-Aware and Error-Compensation Coordinate Decoding for Human Pose Estimation ( http://arxiv.org/abs/2007.05887v4 )

ライセンス: Link先を確認
Feiyu Yang, Zhan Song, Zhenzhong Xiao, Yu Chen, Zhe Pan, Min Zhang, Min Xue, Yaoyang Mo, Yao Zhang, Guoxiong Guan, Beibei Qian(参考訳) 近年,人間のポーズ推定はヒートマップに基づく手法が主流となっている。 熱マップ処理の基本的な構成要素である一方、熱マップデコーディング(すなわち、熱マップを座標に変換する)は、我々の知る限り、限られた研究しか受け取らない。 本研究は, 熱マップ復号処理において, 予測過程を通じて導入された誤差に着目し, 差を埋めるものである。 熱マップに基づく手法の誤差は驚くほど大きく,それにもかかわらず従来は無視されていた。 そこで本研究では,従来広く用いられてきたヒートマップ復号法の本質的限界を明らかにするとともに,DAEC(Distributed-Aware and Error-Compensation Coordinate Decoding)を提案する。 daecはモデルに依存しないプラグインとして、トレーニングデータからデコード戦略を学び、不要な計算で様々な最先端の人間のポーズ推定モデルの性能を著しく改善する。 具体的には、DAEC、SimpleBaseline-ResNet152-256x192、HRNet-W48-256x192をそれぞれ2.6 APと2.9 APで改善し、COCOでは72.6 APと75.7 APを達成した。 さらに、HRNet-W32-256x256とResNet-152-256x256フレームワークは、PCKh0.1メトリックによるMPIIの8.4%と7.8%というより劇的なプロモーションを享受している。 これら2つのベンチマークで実施された大規模な実験は、DAECが競争相手をかなり上回り、新しいヒートマップデコーディングの合理性と一般性を裏付けていることを示している。 このプロジェクトはhttps://github.com/fyang235/DAECで入手できる。

Recently, the leading performance of human pose estimation is dominated by heatmap based methods. While being a fundamental component of heatmap processing, heatmap decoding (i.e. transforming heatmaps to coordinates) receives only limited investigations, to our best knowledge. This work fills the gap by studying the heatmap decoding processing with a particular focus on the errors introduced throughout the prediction process. We found that the errors of heatmap based methods are surprisingly significant, which nevertheless was universally ignored before. In view of the discovered importance, we further reveal the intrinsic limitations of the previous widely used heatmap decoding methods and thereout propose a Distribution-Aware and Error-Compensation Coordinate Decoding (DAEC). Serving as a model-agnostic plug-in, DAEC learns its decoding strategy from training data and remarkably improves the performance of a variety of state-of-the-art human pose estimation models with negligible extra computation. Specifically, equipped with DAEC, the SimpleBaseline-ResNet152-256x192 and HRNet-W48-256x192 are significantly improved by 2.6 AP and 2.9 AP achieving 72.6 AP and 75.7 AP on COCO, respectively. Moreover, the HRNet-W32-256x256 and ResNet-152-256x256 frameworks enjoy even more dramatic promotions of 8.4% and 7.8% on MPII with PCKh0.1 metric. Extensive experiments performed on these two common benchmarks, demonstrates that DAEC exceeds its competitors by considerable margins, backing up the rationality and generality of our novel heatmap decoding idea. The project is available at https://github.com/fyang235/DAEC.
翻訳日:2022-11-11 05:58:09 公開日:2020-07-17
# ウェーブレットを用いた画像復調のためのデュアルブランチネットワーク

Wavelet-Based Dual-Branch Network for Image Demoireing ( http://arxiv.org/abs/2007.07173v2 )

ライセンス: Link先を確認
Lin Liu, Jianzhuang Liu, Shanxin Yuan, Gregory Slabaugh, Ales Leonardis, Wengang Zhou, Qi Tian(参考訳) スマートフォンのカメラを使ってデジタルスクリーンの写真を撮ると、通常モアレのパターンは写真の品質を著しく低下させる。 本稿では,画像復調のための空間的注意機構を備えたウェーブレット型デュアルブランチネットワーク(wdnet)を設計する。 既存のRGB領域における画像復元手法では,モアレパターンとシーンテクスチャの区別が難しい。 これらの手法とは異なり、ネットワークはウェーブレット領域のモアレパターンを除去し、モアレパターンの周波数を画像コンテンツから分離する。 このネットワークは、高密度な畳み込みモジュールと大きな受容場をサポートする拡張畳み込みモジュールを組み合わせる。 さらに,本手法の有効性を実証し,WDNetが非スクリーン画像上のモアレアーティファクトの除去を一般化することを示した。 画像の復調のために設計されているが、wdnetはrain100hとraindrop800のデータセットで最先端の画像デライニングとderain-dropの2つの低レベルのタスクにそれぞれ適用されている。

When smartphone cameras are used to take photos of digital screens, usually moire patterns result, severely degrading photo quality. In this paper, we design a wavelet-based dual-branch network (WDNet) with a spatial attention mechanism for image demoireing. Existing image restoration methods working in the RGB domain have difficulty in distinguishing moire patterns from true scene texture. Unlike these methods, our network removes moire patterns in the wavelet domain to separate the frequencies of moire patterns from the image content. The network combines dense convolution modules and dilated convolution modules supporting large receptive fields. Extensive experiments demonstrate the effectiveness of our method, and we further show that WDNet generalizes to removing moire artifacts on non-screen images. Although designed for image demoireing, WDNet has been applied to two other low-levelvision tasks, outperforming state-of-the-art image deraining and derain-drop methods on the Rain100h and Raindrop800 data sets, respectively.
翻訳日:2022-11-10 14:59:37 公開日:2020-07-17
# 顔再構成とモーションリターゲティングの改善のためのパーソナライズされた顔モデリング

Personalized Face Modeling for Improved Face Reconstruction and Motion Retargeting ( http://arxiv.org/abs/2007.06759v2 )

ライセンス: Link先を確認
Bindita Chaudhuri, Noranart Vesdapunt, Linda Shapiro, Baoyuan Wang(参考訳) 画像ベースの3d顔再構成と顔の動き再ターゲティングの伝統的な方法は、3d morphable model(3dmm)を顔に適合させる。 混合形状補間のためのパーソナライズされた3DMMとしての変形伝達や多線形テンソルの使用は、表情が異なる人物の局所的および大域的な皮膚変形をもたらすという事実に対処しない。 さらに、既存手法では、表現特異的な皮膚反射率の変化を捉えるのに十分ではない、ユーザ毎の単一のアルベドを学習する。 本稿では,ユーザ毎のパーソナライズされた顔モデルとフレーム毎の顔の動きパラメータを,ユーザ表現の膨大なビデオコーパスから共同で学習するエンドツーエンドフレームワークを提案する。 具体的には,3dmm前後のパーソナライズされた補正を予測し,ユーザ固有表現ブレンド形状と動的(表現固有)アルベドマップを学習する。 補正されたブレンド形状が意味的意味を保ち、再構成された幾何学がアルベドから切り離されていることを保証するために、新しい制約を導入する。 実験の結果, 顔の微粒度を広範囲に把握し, 学習した顔モデルと顔の動きを効率的に分離し, 最新の手法と比較して, より正確な顔再構成と顔面運動再ターゲティングを実現することができた。

Traditional methods for image-based 3D face reconstruction and facial motion retargeting fit a 3D morphable model (3DMM) to the face, which has limited modeling capacity and fail to generalize well to in-the-wild data. Use of deformation transfer or multilinear tensor as a personalized 3DMM for blendshape interpolation does not address the fact that facial expressions result in different local and global skin deformations in different persons. Moreover, existing methods learn a single albedo per user which is not enough to capture the expression-specific skin reflectance variations. We propose an end-to-end framework that jointly learns a personalized face model per user and per-frame facial motion parameters from a large corpus of in-the-wild videos of user expressions. Specifically, we learn user-specific expression blendshapes and dynamic (expression-specific) albedo maps by predicting personalized corrections on top of a 3DMM prior. We introduce novel constraints to ensure that the corrected blendshapes retain their semantic meanings and the reconstructed geometry is disentangled from the albedo. Experimental results show that our personalization accurately captures fine-grained facial dynamics in a wide range of conditions and efficiently decouples the learned face model from facial motion, resulting in more accurate face reconstruction and facial motion retargeting compared to state-of-the-art methods.
翻訳日:2022-11-10 14:44:37 公開日:2020-07-17
# コンパクト3次元顔モデリングのためのジョイントベースニューラルリグ表現

JNR: Joint-based Neural Rig Representation for Compact 3D Face Modeling ( http://arxiv.org/abs/2007.06755v3 )

ライセンス: Link先を確認
Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu, Baoyuan Wang(参考訳) 本稿では,ジョイント・ベース・フェイスリグとニューラル・スキンニング・ネットワークを用いて3次元顔モデルを学ぶための新しいアプローチを提案する。 結合型表現のおかげで、我々のモデルは以前のブレンドシェープモデルよりもいくつかの大きな利点を享受できる。 第一に、我々は強力なモデリング能力を維持しながら、桁違いに小さくなるように非常にコンパクトである。 第二に、各関節に意味的な意味があるため、インタラクティブな顔形状編集がより簡単で直感的になる。 第三に、スキンニングにより、私たちのモデルは口の内装と目、アクセサリー(髪、眼鏡など)をよりシンプルで正確で原則化された方法で追加できる。 人間の顔は高度に構造化されており、トポロジ的に一貫性があるので、データから完全に学習する必要はありません。 その代わりに、人間が設計した3Dフェイスリグという形で事前知識を活用して、データの依存性を減らし、小さなデータセット(100個の3Dスキャン未満)からコンパクトで強力なフェイスモデルを学ぶことができます。 モデリング能力をさらに向上させるために, 逆学習によりスキンング重量発生器を訓練する。 高品質な3Dスキャン(中性・表現性の両方)、ノイズの多い深度画像、RGB画像の装着実験は、モデルが10倍から20倍小さいにもかかわらず、FLAMEやFacewarehouseのような最先端の顔モデルとモデリング能力が同等であることを示した。 これは、モバイルおよびエッジデバイス上のグラフィックスおよびビジョンアプリケーションの両方における幅広い価値を示唆する。

In this paper, we introduce a novel approach to learn a 3D face model using a joint-based face rig and a neural skinning network. Thanks to the joint-based representation, our model enjoys some significant advantages over prior blendshape-based models. First, it is very compact such that we are orders of magnitude smaller while still keeping strong modeling capacity. Second, because each joint has its semantic meaning, interactive facial geometry editing is made easier and more intuitive. Third, through skinning, our model supports adding mouth interior and eyes, as well as accessories (hair, eye glasses, etc.) in a simpler, more accurate and principled way. We argue that because the human face is highly structured and topologically consistent, it does not need to be learned entirely from data. Instead we can leverage prior knowledge in the form of a human-designed 3D face rig to reduce the data dependency, and learn a compact yet strong face model from only a small dataset (less than one hundred 3D scans). To further improve the modeling capacity, we train a skinning weight generator through adversarial learning. Experiments on fitting high-quality 3D scans (both neutral and expressive), noisy depth images, and RGB images demonstrate that its modeling capacity is on-par with state-of-the-art face models, such as FLAME and Facewarehouse, even though the model is 10 to 20 times smaller. This suggests broad value in both graphics and vision applications on mobile and edge devices.
翻訳日:2022-11-10 14:32:47 公開日:2020-07-17
# 生成モデルによる画像の非量子化

Image De-Quantization Using Generative Models as Priors ( http://arxiv.org/abs/2007.07923v2 )

ライセンス: Link先を確認
Kalliopi Basioti, George V. Moustakides(参考訳) 画像量子化は、画像中の利用可能な色数とサイズを減らすことを目的としたいくつかのアプリケーションで使われている。 De-quantizationは、量子化効果を反転させ、元のマルチクロマティックレベルのイメージを復元するタスクである。 既存の手法では,適切な制約を理想画像に課すことで非定量化を実現している。 本研究の目的は,古典的統計的推定理論に基づく厳密な数学的解析を通した脱量子化機構の開発である。 本研究では,理想像の生成モデリングを適切な事前情報として組み込む。 その結果得られた手法は単純で、重度の量子化効果のある画像の非量子化が可能となる。 興味深いことに、量子化プロセスが正確には分かっておらず、未知のパラメータを含む場合でも、画像の復元が可能である。

Image quantization is used in several applications aiming in reducing the number of available colors in an image and therefore its size. De-quantization is the task of reversing the quantization effect and recovering the original multi-chromatic level image. Existing techniques achieve de-quantization by imposing suitable constraints on the ideal image in order to make the recovery problem feasible since it is otherwise ill-posed. Our goal in this work is to develop a de-quantization mechanism through a rigorous mathematical analysis which is based on the classical statistical estimation theory. In this effort we incorporate generative modeling of the ideal image as a suitable prior information. The resulting technique is simple and capable of de-quantizing successfully images that have experienced severe quantization effects. Interestingly, our method can recover images even if the quantization process is not exactly known and contains unknown parameters.
翻訳日:2022-11-10 06:30:52 公開日:2020-07-17
# グラフに基づく社会関係推論

Graph-Based Social Relation Reasoning ( http://arxiv.org/abs/2007.07453v3 )

ライセンス: Link先を確認
Wanhua Li, Yueqi Duan, Jiwen Lu, Jianjiang Feng, Jie Zhou(参考訳) 人間は基本的に、他人との関係という観点から、社会生活を組織化するものです。 画像から社会的関係を理解することは、ソーシャルチャットボットやパーソナルアシスタントのようなインテリジェントなシステムにとって大きな可能性を秘めている。 本稿では,ソーシャル関係認識のためのよりシンプルで高速で正確なグラフ関係推論ネットワーク(gr2n)を提案する。 画像上のすべての社会的関係を独立に処理する既存の方法とは違い,社会関係グラフを構築することによって関係を共同で推論するパラダイムを考察する。 さらに,提案するgr2nは,様々な社会関係の強い論理制約を明示的に把握するために,複数の仮想関係グラフを構築している。 実験結果から,本手法は合理的で一貫した社会関係グラフを生成し,精度と効率の両面での性能向上を図っている。

Human beings are fundamentally sociable -- that we generally organize our social lives in terms of relations with other people. Understanding social relations from an image has great potential for intelligent systems such as social chatbots and personal assistants. In this paper, we propose a simpler, faster, and more accurate method named graph relational reasoning network (GR2N) for social relation recognition. Different from existing methods which process all social relations on an image independently, our method considers the paradigm of jointly inferring the relations by constructing a social relation graph. Furthermore, the proposed GR2N constructs several virtual relation graphs to explicitly grasp the strong logical constraints among different types of social relations. Experimental results illustrate that our method generates a reasonable and consistent social relation graph and improves the performance in both accuracy and efficiency.
翻訳日:2022-11-10 05:55:42 公開日:2020-07-17
# RobustScanner:ロバストテキスト認識のための動的位置補正

RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition ( http://arxiv.org/abs/2007.07542v2 )

ライセンス: Link先を確認
Xiaoyu Yue, Zhanghui Kuang, Chenhao Lin, Hongbin Sun, and Wayne Zhang(参考訳) 注目ベースのエンコーダ・デコーダフレームワークは近年,シーンテキスト認識において印象的な成果を上げており,認識品質の向上とともに多くの変種が出現している。 しかし、コンテキストレスのテキスト(例えばランダムな文字列)では性能が悪く、実際のアプリケーションシナリオのほとんどでは受け入れられない。 本稿ではまず,デコーダの復号化過程について深く検討する。 代表的な文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も活用している。 既存のアプローチが強く依存している文脈情報は、注意の漂流の問題を引き起こす。 このような副作用を抑制するために,新たな位置強調ブランチを提案し,その出力をシーンテキスト認識のためのデコーダアテンションモジュールと動的に融合する。 具体的には、エンコーダが自身の空間位置を符号化する特徴ベクトルを出力できる位置認識モジュールと、位置手がかり(すなわち、現在の復号時間ステップ)のみを用いてスリープを推定する注目モジュールとを含む。 ダイナミックフュージョンは、エレメントワイズゲート機構を介してよりロバストな機能のために実行される。 理論的には, 提案手法である \emph{robustscanner} は, 文脈と位置の手がかりの動的比で個々の文字をデコードし, 文脈の少ないデコードシーケンスにおいてより位置的文字を使用するため, 頑健かつ実用的である。 経験的には、一般的な正規および不規則なテキスト認識ベンチマークで新たな最先端結果が得られたが、コンテキストレスベンチマークではパフォーマンスが低下せず、コンテキストレスとコンテキストレスの両方のアプリケーションシナリオで堅牢性が検証された。

The attention-based encoder-decoder framework has recently achieved impressive results for scene text recognition, and many variants have emerged with improvements in recognition quality. However, it performs poorly on contextless texts (e.g., random character sequences) which is unacceptable in most of real application scenarios. In this paper, we first deeply investigate the decoding process of the decoder. We empirically find that a representative character-level sequence decoder utilizes not only context information but also positional information. Contextual information, which the existing approaches heavily rely on, causes the problem of attention drift. To suppress such side-effect, we propose a novel position enhancement branch, and dynamically fuse its outputs with those of the decoder attention module for scene text recognition. Specifically, it contains a position aware module to enable the encoder to output feature vectors encoding their own spatial positions, and an attention module to estimate glimpses using the positional clue (i.e., the current decoding time step) only. The dynamic fusion is conducted for more robust feature via an element-wise gate mechanism. Theoretically, our proposed method, dubbed \emph{RobustScanner}, decodes individual characters with dynamic ratio between context and positional clues, and utilizes more positional ones when the decoding sequences with scarce context, and thus is robust and practical. Empirically, it has achieved new state-of-the-art results on popular regular and irregular text recognition benchmarks while without much performance drop on contextless benchmarks, validating its robustness in both contextual and contextless application scenarios.
翻訳日:2022-11-10 05:53:35 公開日:2020-07-17
# ニューラルマシン翻訳の過去と未来

Dual Past and Future for Neural Machine Translation ( http://arxiv.org/abs/2007.07728v2 )

ライセンス: Link先を確認
Jianhao Yan, Fandong Meng, Jie Zhou(参考訳) 近年、ニューラルネットワーク翻訳(NMT)によって顕著な成功を収めているが、まだ不十分な翻訳問題に悩まされている。 先行研究では,文の過去と将来の内容を明示的にモデル化することが翻訳性能に有益であることが示された。 しかし、一般的に使われるヒューリスティックな目的が過去と未来を導くのに十分であるかどうかは定かではない。 本稿では、ソース・ツー・ターゲットとターゲット・トゥ・ソースのNMTモデルの両方を利用して、過去・未来のモジュールに対してより直接的かつ正確な監視信号を提供する新しいデュアルフレームワークを提案する。 実験の結果,提案手法はnmt予測の妥当性を大幅に改善し,2つのよく研究された翻訳タスクにおいて従来の手法を上回った。

Though remarkable successes have been achieved by Neural Machine Translation (NMT) in recent years, it still suffers from the inadequate-translation problem. Previous studies show that explicitly modeling the Past and Future contents of the source sentence is beneficial for translation performance. However, it is not clear whether the commonly used heuristic objective is good enough to guide the Past and Future. In this paper, we present a novel dual framework that leverages both source-to-target and target-to-source NMT models to provide a more direct and accurate supervision signal for the Past and Future modules. Experimental results demonstrate that our proposed method significantly improves the adequacy of NMT predictions and surpasses previous methods in two well-studied translation tasks.
翻訳日:2022-11-10 05:46:52 公開日:2020-07-17
# 医用画像の多分解能セグメンテーション改善のためのU-Netアーキテクチャ

U-Net Based Architecture for an Improved Multiresolution Segmentation in Medical Images ( http://arxiv.org/abs/2007.08238v2 )

ライセンス: Link先を確認
Simindokht Jahangard, Mohammad Hossein Zangooei, Maysam Shahedi(参考訳) 目的: 手動の医用画像分割は、高いオブザーバ間可変性とともに、枯渇し時間のかかるタスクである。 本研究の目的は,u-netアーキテクチャのマルチレゾリューション画像分割性能を向上させることである。 アプローチ: 多解像度フレームワークにおける画像分割のための完全畳み込みニューラルネットワークを提案する。 ベースアーキテクチャとしてU-Netを使用し、画像セグメンテーション性能を改善するために修正した。 提案アーキテクチャ(mru-net)では、入力画像とそのダウンサンプリングバージョンがネットワーク入力として使用された。 ダウンサンプル画像から直接機能を抽出するために、さらに畳み込みレイヤを追加しました。 我々は,皮膚病変画像,肺CT画像(LUNAデータセット),網膜画像(DRIVEデータセット),前立腺磁気共鳴画像(PROMISE12データセット)の4種類の医療データセットを用いてネットワークをトレーニングし,テストした。 同様のトレーニングおよびテスト条件下で,mrU-Netの性能をU-Netと比較した。 結果: 手動セグメンテーションラベルと比較すると, 平均Dice類似係数は70.6%, 97.9%, 73.6%, 77.9%, LUNA, DRIVE, PROMISE12セグメンテーションは77.9%であった。 皮膚病変、LUNA、DRIVEデータセットでは、mrU-NetはU-Netよりもはるかに高い精度で、PROMISE12データセットでは、どちらのネットワークも同様の精度を達成した。 さらに、mrU-Netを使用することで、U-Netと比較してLUNAとDRIVEデータセットのトレーニング速度が向上した。 結論:提案アーキテクチャの顕著な特徴は、U-Netと比較して画像から特徴を抽出する能力が高いことである。 mrU-Netは、U-Netと比較してトレーニング速度が速く、画像のセグメンテーションもわずかに正確だった。

Purpose: Manual medical image segmentation is an exhausting and time-consuming task along with high inter-observer variability. In this study, our objective is to improve the multi-resolution image segmentation performance of U-Net architecture. Approach: We have proposed a fully convolutional neural network for image segmentation in a multi-resolution framework. We used U-Net as the base architecture and modified that to improve its image segmentation performance. In the proposed architecture (mrU-Net), the input image and its down-sampled versions were used as the network inputs. We added more convolution layers to extract features directly from the down-sampled images. We trained and tested the network on four different medical datasets, including skin lesion photos, lung computed tomography (CT) images (LUNA dataset), retina images (DRIVE dataset), and prostate magnetic resonance (MR) images (PROMISE12 dataset). We compared the performance of mrU-Net to U-Net under similar training and testing conditions. Results: Comparing the results to manual segmentation labels, mrU-Net achieved average Dice similarity coefficients of 70.6%, 97.9%, 73.6%, and 77.9% for the skin lesion, LUNA, DRIVE, and PROMISE12 segmentation, respectively. For the skin lesion, LUNA, and DRIVE datasets, mrU-Net outperformed U-Net with significantly higher accuracy and for the PROMISE12 dataset, both networks achieved similar accuracy. Furthermore, using mrU-Net led to a faster training rate on LUNA and DRIVE datasets when compared to U-Net. Conclusions: The striking feature of the proposed architecture is its higher capability in extracting image-derived features compared to U-Net. mrU-Net illustrated a faster training rate and slightly more accurate image segmentation compared to U-Net.
翻訳日:2022-11-09 23:51:02 公開日:2020-07-17
# SegVAEによる制御可能な画像合成

Controllable Image Synthesis via SegVAE ( http://arxiv.org/abs/2007.08397v2 )

ライセンス: Link先を確認
Yen-Chi Cheng, Hsin-Ying Lee, Min Sun, Ming-Hsuan Yang(参考訳) フレキシブルなユーザコントロールは、コンテンツ作成と画像編集に望ましい。 セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。 生のRGBピクセルの操作と比較して、セマンティックマップはより簡単なユーザ修正を可能にする。 本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。 提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。 定量的および定性的な実験により,提案モデルが現実的で多様な意味マップを生成できることが実証された。 また,合成セマンティックマップの品質をよりよく理解するために,市販画像から画像への変換モデルを適用し,リアルなRGB画像を生成する。 さらに,オブジェクト除去,オブジェクト挿入,オブジェクト置換など,現実的な画像編集アプリケーションをいくつか紹介する。

Flexible user controls are desirable for content creation and image editing. A semantic map is commonly used intermediate representation for conditional image generation. Compared to the operation on raw RGB pixels, the semantic map enables simpler user modification. In this work, we specifically target at generating semantic maps given a label-set consisting of desired categories. The proposed framework, SegVAE, synthesizes semantic maps in an iterative manner using conditional variational autoencoder. Quantitative and qualitative experiments demonstrate that the proposed model can generate realistic and diverse semantic maps. We also apply an off-the-shelf image-to-image translation model to generate realistic RGB images to better understand the quality of the synthesized semantic maps. Furthermore, we showcase several real-world image-editing applications including object removal, object insertion, and object replacement.
翻訳日:2022-11-09 22:32:32 公開日:2020-07-17
# テキスト非依存話者検証のための深層マルチメトリック学習

Deep multi-metric learning for text-independent speaker verification ( http://arxiv.org/abs/2007.10479v1 )

ライセンス: Link先を確認
Jiwei Xu and Xinggang Wang and Bin Feng and Wenyu Liu(参考訳) テキスト非依存話者検証は、刑事捜査、支払い認証、関心に基づく顧客サービスなど、幅広い応用分野を持つ重要な人工知能問題である。 テキスト非依存話者検証の目的は、与えられた2つの非制御発話が同一話者に由来するかどうかを判定することである。 ディープニューラルネットワークを用いた話者毎の音声特徴抽出は,探索に有望な方向であり,計量学習損失関数を用いて識別特徴抽出ネットワークを訓練する簡単な解法である。 しかし、単一損失関数はしばしば特定の制限を持つ。 そこで我々は,この問題に対する深いマルチメトリック学習を用い,三重項損失,n対損失,角損失という3つの異なる損失を導入した。 3つの損失関数は協調的に機能し、残差接続と押収注意を備えた特徴抽出ネットワークを訓練する。 我々は、6000ドルを超える話者からの100万以上の発話を含む大規模データセットである \texttt{voxceleb2} の実験を行い、提案するディープニューラルネットワークは3.48\%$の同等のエラー率を得る。これは非常に競争的な結果である。 トレーニングとテストの両方と事前トレーニングされたモデルのコードは、現在のシステムと同等のパフォーマンスを持つ大規模テキスト非依存の話者検証のための最初の公開コードリポジトリである \url{https://github.com/GreatJiweix/DmmlTiSV} で利用可能である。

Text-independent speaker verification is an important artificial intelligence problem that has a wide spectrum of applications, such as criminal investigation, payment certification, and interest-based customer services. The purpose of text-independent speaker verification is to determine whether two given uncontrolled utterances originate from the same speaker or not. Extracting speech features for each speaker using deep neural networks is a promising direction to explore and a straightforward solution is to train the discriminative feature extraction network by using a metric learning loss function. However, a single loss function often has certain limitations. Thus, we use deep multi-metric learning to address the problem and introduce three different losses for this problem, i.e., triplet loss, n-pair loss and angular loss. The three loss functions work in a cooperative way to train a feature extraction network equipped with Residual connections and squeeze-and-excitation attention. We conduct experiments on the large-scale \texttt{VoxCeleb2} dataset, which contains over a million utterances from over $6,000$ speakers, and the proposed deep neural network obtains an equal error rate of $3.48\%$, which is a very competitive result. Codes for both training and testing and pretrained models are available at \url{https://github.com/GreatJiweix/DmmlTiSV}, which is the first publicly available code repository for large-scale text-independent speaker verification with performance on par with the state-of-the-art systems.
翻訳日:2022-11-09 15:01:37 公開日:2020-07-17
# EZLDA:GPU上で効率よくスケーラブルなLDA

EZLDA: Efficient and Scalable LDA on GPUs ( http://arxiv.org/abs/2007.08725v1 )

ライセンス: Link先を確認
Shilong Wang (1), Hang Liu (2), Anil Gaihre (2), Hengyong Yu (1) ((1) University of Massachusetts Lowell, (2) Stevens Institute of Technology)(参考訳) ldaは幅広いアプリケーションを用いたトピックモデリングのための統計的アプローチである。 しかし、例外的な計算能力とメモリスループットを備えたGPU上でLDAを高速化する試みはほとんどない。 まず,様々なトークンの収束の不均一性を利用して冗長なサンプリングタスクを削減し,gpu上での効率良くスケーラブルなldaトレーニングを実現するため,ezldaでは3つのブランチサンプリング手法を導入している。 第2に,gpu上でdとwの両方のスパルシリティ対応フォーマットを高速サンプリングと更新で実現するために,w用のハイブリッドフォーマットと対応するトークンパーティションをtと逆インデックス設計に導入する。 第3に,gpuとscaleezlda上の非常に歪んだワークロード不均衡問題に対処するために,階層的なワークロード分散ソリューションを設計した。 まとめると、EZLDAはメモリ消費を抑える最先端の試行よりも優れた性能を発揮する。

LDA is a statistical approach for topic modeling with a wide range of applications. However, there exist very few attempts to accelerate LDA on GPUs which come with exceptional computing and memory throughput capabilities. To this end, we introduce EZLDA which achieves efficient and scalable LDA training on GPUs with the following three contributions: First, EZLDA introduces three-branch sampling method which takes advantage of the convergence heterogeneity of various tokens to reduce the redundant sampling task. Second, to enable sparsity-aware format for both D and W on GPUs with fast sampling and updating, we introduce hybrid format for W along with corresponding token partition to T and inverted index designs. Third, we design a hierarchical workload balancing solution to address the extremely skewed workload imbalance problem on GPU and scaleEZLDA across multiple GPUs. Taken together, EZLDA achieves superior performance over the state-of-the-art attempts with lower memory consumption.
翻訳日:2022-11-09 15:01:09 公開日:2020-07-17
# 22nmIoTエンドノード上での攻撃的SRAM電圧スケーリングを有する674uW @ 4GOP/s誤差2元ニューラルネットワーク

Always-On 674uW @ 4GOP/s Error Resilient Binary Neural Networks with Aggressive SRAM Voltage Scaling on a 22nm IoT End-Node ( http://arxiv.org/abs/2007.08952v1 )

ライセンス: Link先を確認
Alfio Di Mauro, Francesco Conti, Pasquale Davide Schiavone, Davide Rossi, Luca Benini(参考訳) バイナリニューラルネットワーク(BNN)は、ランダムなビットレベルノイズに対して堅牢であることが示されており、論理とSRAMの両方の省電力技術として、積極的な電圧スケーリングが魅力的である。 本研究では,ソフトウェア定義のハードウェアアクセラレーションBNNを超低電圧で実行可能な,初の完全プログラム可能なIoTエンドノードシステム(SoC)を提案する。 socは,信頼性の高い標準セルメモリによってsramを補完するハイブリッドメモリスキームを活用し,攻撃的電圧スケーリング下でクリティカルデータを安全に保存する。 22nmFDX技術のプロトタイプでは、CIFAR-10データセットのために訓練されたBNNに対して、論理とSRAMの電圧を0.5Vまで下げることができ、エネルギー効率を2.2倍向上させることができる。 さらに, 供給電圧を0.42V (50%) まで下げることができ, 精度は99%以上(ビット誤り率~1/1000)であることを示す。 本実験では,超低消費電力スマートカメラ,長寿命環境センサ,昆虫サイズのピコドロンの常時オン動作を実現するために,最大出力封筒674uw内に保持しながら,最大13ビナリーops/mwを演算し,22.8推論/s/mwを達成することで,4gop/s(cifar-10データセット上で15.4inference/s)を行う。

Binary Neural Networks (BNNs) have been shown to be robust to random bit-level noise, making aggressive voltage scaling attractive as a power-saving technique for both logic and SRAMs. In this work, we introduce the first fully programmable IoT end-node system-on-chip (SoC) capable of executing software-defined, hardware-accelerated BNNs at ultra-low voltage. Our SoC exploits a hybrid memory scheme where error-vulnerable SRAMs are complemented by reliable standard-cell memories to safely store critical data under aggressive voltage scaling. On a prototype in 22nm FDX technology, we demonstrate that both the logic and SRAM voltage can be dropped to 0.5Vwithout any accuracy penalty on a BNN trained for the CIFAR-10 dataset, improving energy efficiency by 2.2X w.r.t. nominal conditions. Furthermore, we show that the supply voltage can be dropped to 0.42V (50% of nominal) while keeping more than99% of the nominal accuracy (with a bit error rate ~1/1000). In this operating point, our prototype performs 4Gop/s (15.4Inference/s on the CIFAR-10 dataset) by computing up to 13binary ops per pJ, achieving 22.8 Inference/s/mW while keeping within a peak power envelope of 674uW - low enough to enable always-on operation in ultra-low power smart cameras, long-lifetime environmental sensors, and insect-sized pico-drones.
翻訳日:2022-11-09 15:00:34 公開日:2020-07-17
# 世界幸福研究のためのネットワーク学習アプローチ

Network Learning Approaches to study World Happiness ( http://arxiv.org/abs/2007.09181v1 )

ライセンス: Link先を確認
Siddharth Dixit, Meghna Chaudhary, Niteesh Sahni(参考訳) 国連は2011年の決議で、幸福の追求を基本的人間の目標と宣言し、幸福を中心とした公共政策と経済政策を提案した。 本稿では,2種類の計算戦略vizを用いた。 予測モデリングとベイズネットワーク(BN)は、2012年以降に国連が発行した156カ国の歴史的幸福指数データをモデル化する。 我々は,一般回帰ニューラルネットワーク(GRNN)を用いた予測問題を攻撃し,他の予測モデルの実行状況を示す。 世界の幸福に重大な影響を与えることが証明された重要な特徴間の因果関係を理解するために,我々はまず,連続変数を3レベルビズに識別するために手動の離散化方式を用いた。 低位、中位、高位。 世界幸福BN構造は、ブートストラップを用いて10000の異なるBNを学習することで情報を集約した後、固定された。 最後に、このBN上で条件付き確率クエリによる正確な推論を用いて、政策立案に有用な幸福に影響を及ぼす重要な特徴間の興味深い関係を解明した。

The United Nations in its 2011 resolution declared the pursuit of happiness a fundamental human goal and proposed public and economic policies centered around happiness. In this paper we used 2 types of computational strategies viz. Predictive Modelling and Bayesian Networks (BNs) to model the processed historical happiness index data of 156 nations published by UN since 2012. We attacked the problem of prediction using General Regression Neural Networks (GRNNs) and show that it out performs other state of the art predictive models. To understand causal links amongst key features that have been proven to have a significant impact on world happiness, we first used a manual discretization scheme to discretize continuous variables into 3 levels viz. Low, Medium and High. A consensus World Happiness BN structure was then fixed after amalgamating information by learning 10000 different BNs using bootstrapping. Lastly, exact inference through conditional probability queries was used on this BN to unravel interesting relationships among the important features affecting happiness which would be useful in policy making.
翻訳日:2022-11-09 15:00:01 公開日:2020-07-17
# 機械学習を用いたACOPFの逐次線形計画解の初期化

Initializing Successive Linear Programming Solver for ACOPF using Machine Learning ( http://arxiv.org/abs/2007.09210v1 )

ライセンス: Link先を確認
Sayed Abdullah Sadat, Mostafa Sahraei-Ardakani(参考訳) 逐次線形プログラミング(SLP)アプローチは、大規模非線形最適化問題の解決に好適なアプローチの1つである。 交流電流最適電力流(ACOPF)問題の解決は例外ではなく、特に全国の大規模な実世界の送電網を考えると例外である。 しかし、SLPアルゴリズムの計算性能を向上させることが不可欠である。 この目標を達成する1つの方法は、ほぼ最適解を用いたアルゴリズムの効率的な初期化である。 本稿では,SLP-ACOPFソルバを初期化するために,Scikit-Learnライブラリで利用可能な機械学習(ML)アルゴリズムについて検討する。 我々は,各機械学習アルゴリズムの品質評価を行い,電力流解に必要な変数を予測する。 この解はSLP-ACOPFアルゴリズムの初期化として用いられる。 このアプローチは、密集した3つのバスシステムでテストされる。 本研究では,SLP-ACOPF解法の初期化のためのDCOPF法の結果と比較した。

A Successive linear programming (SLP) approach is one of the favorable approaches for solving large scale nonlinear optimization problems. Solving an alternating current optimal power flow (ACOPF) problem is no exception, particularly considering the large real-world transmission networks across the country. It is, however, essential to improve the computational performance of the SLP algorithm. One way to achieve this goal is through the efficient initialization of the algorithm with a near-optimal solution. This paper examines various machine learning (ML) algorithms available in the Scikit-Learn library to initialize an SLP-ACOPF solver, including examining linear and nonlinear ML algorithms. We evaluate the quality of each of these machine learning algorithms for predicting variables needed for a power flow solution. The solution is then used as an initialization for an SLP-ACOPF algorithm. The approach is tested on a congested and non-congested 3 bus systems. The results obtained from the best-performed ML algorithm in this work are compared with the results of a DCOPF solution for the initialization of an SLP-ACOPF solver.
翻訳日:2022-11-09 14:59:44 公開日:2020-07-17
# fMRIデータを用いたDyslexiaの脳基盤同定のための視覚的説明

Visual Explanation for Identification of the Brain Bases for Dyslexia on fMRI Data ( http://arxiv.org/abs/2007.09260v1 )

ライセンス: Link先を確認
Laura Tomaz Da Silva and Nathalia Bianchini Esper and Duncan D. Ruiz and Felipe Meneguzzi and Augusto Buchweitz(参考訳) メンタルヘルス、神経発達障害、学習障害の脳イメージングは、機械学習と組み合わせて、脳の活性化のみに基づいて患者を識別し、最終的に小さなデータサンプルからより大きなデータへと一般化する特徴を識別する。 しかし、神経機能データに対する機械学習分類アルゴリズムの成功は、数十人の参加者のより均質なデータセットに限られている。 近年、より大きな脳イメージングデータセットは、神経機能的特徴のみから脳の状態と臨床グループを分類する深層学習技術の応用を可能にしている。 ディープラーニング技術は、構造的な3D脳画像の分類を含む、医療応用の分類に有用なツールを提供する。 最近のアプローチでは、より大きな機能的脳画像データセットの分類性能が向上したが、基礎となる条件に関する診断的洞察の提供や、分類を知らせる神経学的特徴の説明は得られなかった。 我々は,高レベル特徴の学習に責任を負う畳み込みニューラルネットワーク層において,このような手法を用いることで,分類条件に対する専門家支援の洞察に有意義なイメージを提供できることを示すために,ネットワーク可視化技術を活用することで,この課題に対処した。 以上の結果から,脳画像のみによる発達障害の正確な分類だけでなく,現代の神経科学的知識と一致する特徴を自動で可視化し,視覚的説明が疾患の神経学的基盤を明らかにするのに役立つことが示唆された。

Brain imaging of mental health, neurodevelopmental and learning disorders has coupled with machine learning to identify patients based only on their brain activation, and ultimately identify features that generalize from smaller samples of data to larger ones. However, the success of machine learning classification algorithms on neurofunctional data has been limited to more homogeneous data sets of dozens of participants. More recently, larger brain imaging data sets have allowed for the application of deep learning techniques to classify brain states and clinical groups solely from neurofunctional features. Deep learning techniques provide helpful tools for classification in healthcare applications, including classification of structural 3D brain images. Recent approaches improved classification performance of larger functional brain imaging data sets, but they fail to provide diagnostic insights about the underlying conditions or provide an explanation from the neural features that informed the classification. We address this challenge by leveraging a number of network visualization techniques to show that, using such techniques in convolutional neural network layers responsible for learning high-level features, we are able to provide meaningful images for expert-backed insights into the condition being classified. Our results show not only accurate classification of developmental dyslexia from the brain imaging alone, but also provide automatic visualizations of the features involved that match contemporary neuroscientific knowledge, indicating that the visual explanations do help in unveiling the neurological bases of the disorder being classified.
翻訳日:2022-11-09 14:59:31 公開日:2020-07-17
# マルチモーダルデータと対向防御を用いた教師なし監視設定における異常検出

Anomaly Detection in Unsupervised Surveillance Setting Using Ensemble of Multimodal Data with Adversarial Defense ( http://arxiv.org/abs/2007.10812v1 )

ライセンス: Link先を確認
Sayeed Shafayet Chowdhury, Kaji Mejbaul Islam and Rouhan Noor(参考訳) ドローンフィードを使った自律的な空中監視は興味深い研究分野だ。 保護されているゾーンに脅威を及ぼす侵入者や潜在的な物体の安全性を確保するためには、通常状態と異常状態をリアルタイムで区別することが重要である。 さらに、機器の故障も考慮する必要があります。 しかし, タイプや異常レベルに内在する本質的な不確実性は, 敵が侵入に対して特異な異常を生じさせる可能性があるため, 監視手法の適合性を低下させる。 その結果、予測不能な攻撃の性質を考慮した異常検出方法が好ましい。 私たちの場合も、自律ドローンは画像やその他のアナログまたはデジタルセンサーデータからなる異種データストリームを提供し、それらすべてが、相乗的に組み合わされた場合の異常検出に重要な役割を果たします。 そこで本研究では、リアルタイム画像とIMUセンサデータを教師なしで解析する異常度を推定するアンサンブル検出機構を提案する。 まず、参照画像と現在のテスト画像の間の角度を推定するために、AngleNetという、畳み込みニューラルネットワーク(CNN)回帰ブロックを実装した。 さらに、IMUデータはオートエンコーダで異常を予測するために使用される。 最後に、これら2つのパイプラインの結果をアンサンブルして、最終異常度を推定する。 さらに,提案手法の堅牢性と安全性と統合防御機構の検証に敵攻撃を適用した。 提案手法は,IEEE SP Cup-2020データセットで97.8%の精度で良好に動作する。 さらに、このアプローチを社内データセットでテストして、堅牢性を確認しました。

Autonomous aerial surveillance using drone feed is an interesting and challenging research domain. To ensure safety from intruders and potential objects posing threats to the zone being protected, it is crucial to be able to distinguish between normal and abnormal states in real-time. Additionally, we also need to consider any device malfunction. However, the inherent uncertainty embedded within the type and level of abnormality makes supervised techniques less suitable since the adversary may present a unique anomaly for intrusion. As a result, an unsupervised method for anomaly detection is preferable taking the unpredictable nature of attacks into account. Again in our case, the autonomous drone provides heterogeneous data streams consisting of images and other analog or digital sensor data, all of which can play a role in anomaly detection if they are ensembled synergistically. To that end, an ensemble detection mechanism is proposed here which estimates the degree of abnormality of analyzing the real-time image and IMU (Inertial Measurement Unit) sensor data in an unsupervised manner. First, we have implemented a Convolutional Neural Network (CNN) regression block, named AngleNet to estimate the angle between a reference image and current test image, which provides us with a measure of the anomaly of the device. Moreover, the IMU data are used in autoencoders to predict abnormality. Finally, the results from these two pipelines are ensembled to estimate the final degree of abnormality. Furthermore, we have applied adversarial attack to test the robustness and security of the proposed approach and integrated defense mechanism. The proposed method performs satisfactorily on the IEEE SP Cup-2020 dataset with an accuracy of 97.8%. Additionally, we have also tested this approach on an in-house dataset to validate its robustness.
翻訳日:2022-11-09 14:51:42 公開日:2020-07-17
# 深層学習技術を用いたリモートセンシング地雷画像の空間分解能向上

Spatial Resolution Enhancement of Remote Sensing Mine Images using Deep Learning Techniques ( http://arxiv.org/abs/2007.08791v1 )

ライセンス: Link先を確認
E. Zioga, A. Panagiotopoulou, M. Stefouli, E. Charou, L. Grammatikopoulos, E. Bratsolis, N. Madamopoulos(参考訳) 深層学習技術は、ギリシャのプトレマイダにあるアミルンテ鉱山を描写したセンチネル2衛星画像の空間分解能を高めるために応用される。 Very-Deep SuperResolution (VDSR) と DSen2 を用いた2因子と6因子による分解能増強は, Amynteo Lignite の地雷画像に対して良好な結果をもたらす。

Deep learning techniques are applied so as to increase the spatial resolution of Sentinel2 satellite imagery, depicting the Amynteo lignite mine in Ptolemaida, Greece. Resolution enhancement by factors 2 and 4 as well as by factors 2 and 6 using Very-Deep SuperResolution (VDSR) and DSen2 networks, respectively, provides fairly well results on Amynteo lignite mine images.
翻訳日:2022-11-09 14:50:33 公開日:2020-07-17
# min-maxおよびmin-min問題に対するH\"olderian backtracking法

A H\"olderian backtracking method for min-max and min-min problems ( http://arxiv.org/abs/2007.08810v1 )

ライセンス: Link先を確認
J\'er\^ome Bolte (UT1), Lilian Glaudin, Edouard Pauwels (UT3), Mathieu Serrurier (IRIT-ADRIA)(参考訳) 本稿では,min-maxあるいはmin-min問題を凸世界から解く新しいアルゴリズムを提案する。 我々は、学習においてユビキタスな剛性を仮定し、この手法を多くの最適化問題に適用する。 提案手法は隠された正則性特性を利用し、リッジ型の単純なアルゴリズムを考案することができる。 本手法の本来の特徴は,従来の過度に慎重なバックトラック手法から逸脱したステップサイズ自動適応を行うことである。 一般的な枠組みでは、収束理論の保証とレートを提供する。 本研究は,有望な数値結果を得るための単純なGAN問題に適用する。

We present a new algorithm to solve min-max or min-min problems out of the convex world. We use rigidity assumptions, ubiquitous in learning, making our method applicable to many optimization problems. Our approach takes advantage of hidden regularity properties and allows us to devise a simple algorithm of ridge type. An original feature of our method is to come with automatic step size adaptation which departs from the usual overly cautious backtracking methods. In a general framework, we provide convergence theoretical guarantees and rates. We apply our findings on simple GAN problems obtaining promising numerical results.
翻訳日:2022-11-09 14:50:24 公開日:2020-07-17
# メキシコにおけるcovid-19感染者の推計と繁殖数

Estimating COVID-19 cases and reproduction number in Mexico ( http://arxiv.org/abs/2007.09117v1 )

ライセンス: Link先を確認
Michelle Anzarut, Luis Felipe Gonz\'alez, Sonia Mendiz\'abal and Mar\'ia Teresa Ortiz(参考訳) 本報告では,メキシコのCOVID-19流行を説明するため,半機械的ベイズ階層モデルに適合する。 我々は感染数と繁殖数という2つの疫学的指標を得た。 推定は死亡データに基づいている。 したがって, 報告された症例数から推定した攻撃率よりも, 推定値の正確さが期待できる。

In this report we fit a semi-mechanistic Bayesian hierarchical model to describe the Mexican COVID-19 epidemic. We obtain two epidemiological measures: the number of infections and the reproduction number. Estimations are based on death data. Hence, we expect our estimates to be more accurate than the attack rates estimated from the reported number of cases.
翻訳日:2022-11-09 14:49:52 公開日:2020-07-17
# deepnetqoe:ディープネットワークの自己適応qoe最適化フレームワーク

DeepNetQoE: Self-adaptive QoE Optimization Framework of Deep Networks ( http://arxiv.org/abs/2007.10878v1 )

ライセンス: Link先を確認
Rui Wang, Min Chen, Nadra Guizani, Yong Li, Hamid Gharavi, Kai Hwang(参考訳) ディープラーニングの今後の進歩と、あらゆる分野における人工知能(AI)の発展への影響は、データサイズと計算能力に大きく依存する。 ネットワークモデルの精度向上と引き換えに大量の計算資源を節約することは、多くの研究者によって認められている。 計算資源が限られている場合、必ずしも満足できる結果が期待されない。 したがって、満足な結果を得るためには、リソースとモデル性能のバランスを見つける必要がある。 本稿では,ディープネットワークのトレーニングを指導するために,自己適応型qoeフレームワークであるdeepnetqoeを提案する。 モデルの正確さとトレーニングに必要な計算リソースを関連付ける自己適応qoeモデルが設定され、モデルの体験価値が改善される。 コンピュータ資源が限られている場合の体験価値を最大化するためには、リソース割り当てモデルとソリューションを確立する必要がある。 さらに,4つのネットワークモデルに基づく実験を行い,観衆数に関する経験値の分析を行った。 実験結果から,提案したDeepNetQoEは,ユーザのニーズに応じて高い経験値を得ることができ,ネットワークモデルに割り当てられた計算資源をユーザが決定できるようにする。

Future advances in deep learning and its impact on the development of artificial intelligence (AI) in all fields depends heavily on data size and computational power. Sacrificing massive computing resources in exchange for better precision rates of the network model is recognized by many researchers. This leads to huge computing consumption and satisfactory results are not always expected when computing resources are limited. Therefore, it is necessary to find a balance between resources and model performance to achieve satisfactory results. This article proposes a self-adaptive quality of experience (QoE) framework, DeepNetQoE, to guide the training of deep networks. A self-adaptive QoE model is set up that relates the model's accuracy with the computing resources required for training which will allow the experience value of the model to improve. To maximize the experience value when computer resources are limited, a resource allocation model and solutions need to be established. In addition, we carry out experiments based on four network models to analyze the experience values with respect to the crowd counting example. Experimental results show that the proposed DeepNetQoE is capable of adaptively obtaining a high experience value according to user needs and therefore guiding users to determine the computational resources allocated to the network models.
翻訳日:2022-11-09 14:49:24 公開日:2020-07-17
# Mumford-Shah関数に基づく画像分割のための異方性メッシュ適応

Anisotropic Mesh Adaptation for Image Segmentation Based on Mumford-Shah Functional ( http://arxiv.org/abs/2007.08696v1 )

ライセンス: Link先を確認
Karrar Abbas and Xianping Li(参考訳) デジタル画像の解像度が大幅に向上するにつれて、精度と効率の点で画像の処理がより困難になる。 本稿では,マンフォード・シャー関数に基づく偏微分方程式(PDE)モデルによる画像分割について考察する。 画像表現のための異方性メッシュ適応とPDEモデルを解く有限要素法を組み合わせた新しいアルゴリズムを開発した。 有限差分法で解いた従来のアルゴリズムと比較して, 画像の画質を下げることなく, より高速かつ優れた結果が得られる。 また,複数の領域の画像を分割するアルゴリズムも拡張した。

As the resolution of digital images increase significantly, the processing of images becomes more challenging in terms of accuracy and efficiency. In this paper, we consider image segmentation by solving a partial differentiation equation (PDE) model based on the Mumford-Shah functional. We develop a new algorithm by combining anisotropic mesh adaptation for image representation and finite element method for solving the PDE model. Comparing to traditional algorithms solved by finite difference method, our algorithm provides faster and better results without the need to resizing the images to lower quality. We also extend the algorithm to segment images with multiple regions.
翻訳日:2022-11-09 14:49:04 公開日:2020-07-17
# 制約に基づくソフトウェア多様化によるコード再利用攻撃の効率化

Constraint-Based Software Diversification for Efficient Mitigation of Code-Reuse Attacks ( http://arxiv.org/abs/2007.08955v1 )

ライセンス: Link先を確認
Rodothea Myrsini Tsoupidi, Roberto Casta\~neda Lozano and Benoit Baudry(参考訳) 現代のソフトウェアデプロイメントプロセスは、均一で、それゆえ大規模なコード再利用攻撃に弱いソフトウェアを生成する。 コンパイラベースの多様化は、あるプログラムの異なるアセンブリコードバージョンを自動的に生成することにより、ソフトウェアシステムのレジリエンスとセキュリティを改善する。 既存のテクニックは効率的だが、生成されたコード亜種の品質を正確に制御できない。 本稿では,ソフトウェア多様化のための制約ベースのコンパイラアプローチであるdiversity by construction (divcon)を提案する。 従来のアプローチとは異なり、DivConでは、多様性とコード品質の相反する目標を制御および調整することができる。 重要なイネーブルは、Large Neighborhood Search (LNS)を使用して、高度に多様なアセンブリコードを生成することである。 2つの人気のあるコンパイラベンチマークスイートを使った実験では、各アセンブリコードバージョンの品質とバージョンプール全体の多様性との間にトレードオフがあることが確認されている。 以上の結果から,divconでは,さまざまな品質境界に対して多様なアセンブリコードを生成することで,これらの2つのプロパティ間のトレードオフが可能になる。 特に、DivConは、ほぼ最適のコード(10%の最適性ギャップ)を提供しながら、コード再利用攻撃を効果的に軽減できることを示した。 制約プログラミングの研究者や実践者にとって,LSNは多様な解を見つける上で貴重な手法であることを示す。 セキュリティ研究者やソフトウェアエンジニアにとって、DivConは、コンパイラベースの多様化の範囲をパフォーマンスクリティカルでリソース制約のあるアプリケーションにまで広げている。

Modern software deployment process produces software that is uniform, and hence vulnerable to large-scale code-reuse attacks. Compiler-based diversification improves the resilience and security of software systems by automatically generating different assembly code versions of a given program. Existing techniques are efficient but do not have a precise control over the quality of the generated code variants. This paper introduces Diversity by Construction (DivCon), a constraint-based compiler approach to software diversification. Unlike previous approaches, DivCon allows users to control and adjust the conflicting goals of diversity and code quality. A key enabler is the use of Large Neighborhood Search (LNS) to generate highly diverse assembly code efficiently. Experiments using two popular compiler benchmark suites confirm that there is a trade-off between quality of each assembly code version and diversity of the entire pool of versions. Our results show that DivCon allows users to trade between these two properties by generating diverse assembly code for a range of quality bounds. In particular, the experiments show that DivCon is able to mitigate code-reuse attacks effectively while delivering near-optimal code (< 10% optimality gap). For constraint programming researchers and practitioners, this paper demonstrates that LNS is a valuable technique for finding diverse solutions. For security researchers and software engineers, DivCon extends the scope of compiler-based diversification to performance-critical and resource-constrained applications.
翻訳日:2022-11-09 14:42:39 公開日:2020-07-17
# 3D-CNNと2D-CNN光フロー誘導動作テンプレートを用いた動的手指認識のための2ストリーム融合モデル

Two-stream Fusion Model for Dynamic Hand Gesture Recognition using 3D-CNN and 2D-CNN Optical Flow guided Motion Template ( http://arxiv.org/abs/2007.08847v1 )

ライセンス: Link先を確認
Debajit Sarma, V. Kavyasree and M.K. Bhuyan(参考訳) ハンドジェスチャの使用は、人間とコンピュータの相互作用コミュニティにおける多くのアプリケーションにとって有用なツールである。 広い範囲において手のジェスチャー技術は特に手話認識やロボット手術などに応用できる。 手のジェスチャー認識の過程では,手の形状や大きさの異なるため,動作中の手の適切な検出と追跡が困難になる。 ここでの目的は、手の形状、大きさ、色に関係なく手の動きを追跡することである。 そこで,光学的流れ (OFMT) によって導かれる動作テンプレートを提案する。 OFMTは、単一の画像に符号化されたジェスチャーの動作情報のコンパクトな表現である。 実験では, 手のひらを開放したベアハンドを用いたデータセットと, グリーングローブを装着した折りたたみ型パームを用い, いずれの場合においても, 同一精度でofmt画像を生成することができた。 近年,従来の手作り機能ベース技術と比較して,ディープネットワークベースの技術は印象的な改善を遂げている。 さらに,本論文では,情報入力データを用いた異なるストリームの利用により,認識精度の向上が期待できる。 本研究は,手動認識のための2ストリーム融合モデルと,光学的フローに基づくコンパクトで効率的な動作テンプレートを提案する。 具体的には、2ストリームネットワークは2つのレイヤで構成されている。3D畳み込みニューラルネットワーク(C3D)はジェスチャービデオを入力として取り、OFMT画像を入力として取り込む2D-CNNである。 C3Dは、ビデオの時空間情報をキャプチャする効率を示した。 OFMTは、追加の動作情報を提供する無関係なジェスチャーを排除するのに役立つ。 各ストリームは独立して動作するが、認識結果を向上するための融合スキームと組み合わせられる。 2つのデータベース上で提案する2ストリームネットワークの効率性を示した。

The use of hand gestures can be a useful tool for many applications in the human-computer interaction community. In a broad range of areas hand gesture techniques can be applied specifically in sign language recognition, robotic surgery, etc. In the process of hand gesture recognition, proper detection, and tracking of the moving hand become challenging due to the varied shape and size of the hand. Here the objective is to track the movement of the hand irrespective of the shape, size, and color of the hand. And, for this, a motion template guided by optical flow (OFMT) is proposed. OFMT is a compact representation of the motion information of a gesture encoded into a single image. In the experimentation, different datasets using bare hand with an open palm, and folded palm wearing green-glove are used, and in both cases, we could generate the OFMT images with equal precision. Recently, deep network-based techniques have shown impressive improvements as compared to conventional hand-crafted feature-based techniques. Moreover, in the literature, it is seen that the use of different streams with informative input data helps to increase the performance in the recognition accuracy. This work basically proposes a two-stream fusion model for hand gesture recognition and a compact yet efficient motion template based on optical flow. Specifically, the two-stream network consists of two layers: a 3D convolutional neural network (C3D) that takes gesture videos as input and a 2D-CNN that takes OFMT images as input. C3D has shown its efficiency in capturing spatio-temporal information of a video. Whereas OFMT helps to eliminate irrelevant gestures providing additional motion information. Though each stream can work independently, they are combined with a fusion scheme to boost the recognition results. We have shown the efficiency of the proposed two-stream network on two databases.
翻訳日:2022-11-09 14:41:53 公開日:2020-07-17
# Attention2AngioGAN:Generative Adversarial Networksを用いた網膜基底画像からのフルオレセイン血管造影の合成

Attention2AngioGAN: Synthesizing Fluorescein Angiography from Retinal Fundus Images using Generative Adversarial Networks ( http://arxiv.org/abs/2007.09191v1 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod(参考訳) フルオレセイン血管造影(fluorescein angiography, fa)は、励起とバリアフィルターを組み込んだ眼底撮影用カメラである。 FAはまた、静脈注射されるフルオレセイン色素を必要としており、吐き気、吐き気、さらに致命的なアナフィラキシーに悪影響を及ぼす可能性がある。 現在、Fundus写真と結合することなくFAを生成する高速で非侵襲的な技術は存在しない。 侵襲的fa抽出法の必要性を解消するために,眼底画像から蛍光血管造影を合成できる注意に基づく生成ネットワークを提案する。 提案したガンは、複数の注意に基づくスキップ接続をジェネレータに組み込み、ジェネレータと識別器の両方に新しい残留ブロックを含む。 レコンストラクション、特徴マッチング、知覚喪失、および敵対的な訓練を駆使して、専門家が実際のものと区別しにくい現実的な血管造影図を生成する。 本実験により,提案手法は, ダウス・アンド・アンジオ翻訳タスクの最先端な生成ネットワークを超越していることを確認した。

Fluorescein Angiography (FA) is a technique that employs the designated camera for Fundus photography incorporating excitation and barrier filters. FA also requires fluorescein dye that is injected intravenously, which might cause adverse effects ranging from nausea, vomiting to even fatal anaphylaxis. Currently, no other fast and non-invasive technique exists that can generate FA without coupling with Fundus photography. To eradicate the need for an invasive FA extraction procedure, we introduce an Attention-based Generative network that can synthesize Fluorescein Angiography from Fundus images. The proposed gan incorporates multiple attention based skip connections in generators and comprises novel residual blocks for both generators and discriminators. It utilizes reconstruction, feature-matching, and perceptual loss along with adversarial training to produces realistic Angiograms that is hard for experts to distinguish from real ones. Our experiments confirm that the proposed architecture surpasses recent state-of-the-art generative networks for fundus-to-angio translation task.
翻訳日:2022-11-09 14:41:25 公開日:2020-07-17
# 一時判別器を用いた分散GANの学習

Learn distributed GAN with Temporary Discriminators ( http://arxiv.org/abs/2007.09221v1 )

ライセンス: Link先を確認
Hui Qu, Yikai Zhang, Qi Chang, Zhennan Yan, Chao Chen, Dimitris Metaxas(参考訳) 本研究では, 逐次的一時判別器を用いた分散GANの訓練手法を提案する。 提案手法は,連合学習におけるGAN学習の課題に対処する: 一時判別器のフローで発電機を更新する方法? 提案手法は,複数のデータセンターから複数の局所判別器を用いて自己適応型生成器を学習する。 損失関数の設計は、証明可能な保証で正しい分布を実際に学習する。 実験により,本手法は,セグメンテーションモデルの訓練など現実の応用に有効な合成データを生成することができることを示した。

In this work, we propose a method for training distributed GAN with sequential temporary discriminators. Our proposed method tackles the challenge of training GAN in the federated learning manner: How to update the generator with a flow of temporary discriminators? We apply our proposed method to learn a self-adaptive generator with a series of local discriminators from multiple data centers. We show our design of loss function indeed learns the correct distribution with provable guarantees. The empirical experiments show that our approach is capable of generating synthetic data which is practical for real-world applications such as training a segmentation model.
翻訳日:2022-11-09 14:41:05 公開日:2020-07-17
# 変数隠れによる安定な結果型最小解法

Computing stable resultant-based minimal solvers by hiding a variable ( http://arxiv.org/abs/2007.10100v1 )

ライセンス: Link先を確認
Snehal Bhayani, Zuzana Kukelova and Janne Heikkil\"a(参考訳) 多くのコンピュータビジョンアプリケーションは、カメラ幾何学の堅牢で効率的な推定を必要とする。 堅牢な推定は通常、RANSACスタイルのフレームワークで最小限の入力データ測定、すなわち最小限の問題を解決することからカメラ幾何学の問題を解決することに基づいている。 最小問題はしばしば多項式方程式の複雑な系をもたらす。 このようなシステムを解くための既存の最先端手法は、近年広く研究され最適化されているGr\オブナーベースとアクションマトリックス法、あるいは、余分な変数を用いたスパース計算に基づく最近提案されたアプローチのいずれかである。 本稿では,ある変数を隠蔽して多項式方程式のスパース系を解くための,興味深い代替スパース法について検討する。 このアプローチは、アクション行列や余分な変数スパース結果に基づく手法よりも大きな固有値問題をもたらすが、数値的に不安定な大きな行列の逆あるいは除去を計算する必要はない。 提案手法は,いくつかの興味深いコンピュータビジョン問題に対して,隠れた変数結果型ソルバの効率と安定性を大幅に向上させる標準スパース結果型アルゴリズムの改良を含む。 そこで,本研究では,本手法による解法が,最先端のgr\"obnerベースベースソルバや既存のスパースベースソルバ,特にクリティカルな構成に近い解法よりも,より安定した解法をもたらすことを示す。 新しい手法は完全に自動化でき、効率的な最小解の自動生成のために既存のツールに組み込むことができます。

Many computer vision applications require robust and efficient estimation of camera geometry. The robust estimation is usually based on solving camera geometry problems from a minimal number of input data measurements, i.e., solving minimal problems, in a RANSAC-style framework. Minimal problems often result in complex systems of polynomial equations. The existing state-of-the-art methods for solving such systems are either based on Gr\"obner bases and the action matrix method, which have been extensively studied and optimized in the recent years or recently proposed approach based on a sparse resultant computation using an extra variable. In this paper, we study an interesting alternative sparse resultant-based method for solving sparse systems of polynomial equations by hiding one variable. This approach results in a larger eigenvalue problem than the action matrix and extra variable sparse resultant-based methods; however, it does not need to compute an inverse or elimination of large matrices that may be numerically unstable. The proposed approach includes several improvements to the standard sparse resultant algorithms, which significantly improves the efficiency and stability of the hidden variable resultant-based solvers as we demonstrate on several interesting computer vision problems. We show that for the studied problems, our sparse resultant based approach leads to more stable solvers than the state-of-the-art Gr\"obner bases-based solvers as well as existing sparse resultant-based solvers, especially in close to critical configurations. Our new method can be fully automated and incorporated into existing tools for the automatic generation of efficient minimal solvers.
翻訳日:2022-11-09 14:40:36 公開日:2020-07-17
# Untrackable の追跡

Tracking the Untrackable ( http://arxiv.org/abs/2007.10148v1 )

ライセンス: Link先を確認
Fangyi Zhang(参考訳) 短期的完全閉塞は視覚物体追跡では稀だが、ほとんどのトラッカーはこのような状況下では失敗する。 しかし、目標が見えない場合でも、目標の軌道を予測して目標をキャッチアップすることができる。 近年の心理学では、人類が未来の精神像を造ることも示されている。 そこで我々は,将来的なフレームの視覚的特徴の埋め込みを予測可能なhaftモデル追跡のための幻覚的機能を提案する。 予測される将来のフレームは、ターゲットの閉ざされた部分を幻覚しながら、ターゲットの動きに焦点を当てる。 幻覚特徴と実際の特徴の同時追跡は、目標が高度に隠蔽されている場合でも、トラッカーの堅牢性を向上させる。 実験により, otb100, vot2018, lasot, trackingnet, uav123など複数のデータセットで有望な結果を得た。

Although short-term fully occlusion happens rare in visual object tracking, most trackers will fail under these circumstances. However, humans can still catch up the target by anticipating the trajectory of the target even the target is invisible. Recent psychology also has shown that humans build the mental image of the future. Inspired by that, we present a HAllucinating Features to Track (HAFT) model that enables to forecast the visual feature embedding of future frames. The anticipated future frames focus on the movement of the target while hallucinating the occluded part of the target. Jointly tracking on the hallucinated features and the real features improves the robustness of the tracker even when the target is highly occluded. Through extensive experimental evaluations, we achieve promising results on multiple datasets: OTB100, VOT2018, LaSOT, TrackingNet, and UAV123.
翻訳日:2022-11-09 14:40:08 公開日:2020-07-17
# 偏光画像からの3次元人物形状復元

3D Human Shape Reconstruction from a Polarization Image ( http://arxiv.org/abs/2007.09268v1 )

ライセンス: Link先を確認
Shihao Zou, Xinxin Zuo, Yiming Qian, Sen Wang, Chi Xu, Minglun Gong, Li Cheng(参考訳) 本稿では, 単偏光2次元画像,すなわち偏光画像から, 布地人の3次元体形を推定する問題に取り組む。 偏光画像は、物体のリッチな幾何学的手がかりを保存する偏光反射光を捉えることができることが知られている。 本稿では,単色画像からの人体形状推定の最近の進歩に触発されて,単一偏光画像からの幾何学的手がかりを利用して人体形状の推定を試みる。 2段階の深層学習手法であるSfPが提案され、偏光画像が与えられた場合、第1段階は細かな物体表面を正常に推定することを目的としており、第2段階は衣服の3次元体形を再構築する。 人工データセット(SURREAL)と実世界のデータセット(PHSPD)の実証評価は,人間のポーズや形状を推定するためのアプローチの質的,定量的な性能を示す。 これは、偏光カメラが人間の形状推定のための従来の色や深度イメージングの代替として有望であることを示している。 さらに,偏光画像から推定される正常地図は,衣服の身体形状を正確に復元する上で重要な役割を担っている。

This paper tackles the problem of estimating 3D body shape of clothed humans from single polarized 2D images, i.e. polarization images. Polarization images are known to be able to capture polarized reflected lights that preserve rich geometric cues of an object, which has motivated its recent applications in reconstructing surface normal of the objects of interest. Inspired by the recent advances in human shape estimation from single color images, in this paper, we attempt at estimating human body shapes by leveraging the geometric cues from single polarization images. A dedicated two-stage deep learning approach, SfP, is proposed: given a polarization image, stage one aims at inferring the fined-detailed body surface normal; stage two gears to reconstruct the 3D body shape of clothing details. Empirical evaluations on a synthetic dataset (SURREAL) as well as a real-world dataset (PHSPD) demonstrate the qualitative and quantitative performance of our approach in estimating human poses and shapes. This indicates polarization camera is a promising alternative to the more conventional color or depth imaging for human shape estimation. Further, normal maps inferred from polarization imaging play a significant role in accurately recovering the body shapes of clothed people.
翻訳日:2022-11-09 14:33:57 公開日:2020-07-17
# スプーフィング防止のためのスプーフィング・スプーフィング・トレースについて

On Disentangling Spoof Trace for Generic Face Anti-Spoofing ( http://arxiv.org/abs/2007.09273v1 )

ライセンス: Link先を確認
Yaojie Liu, Joel Stehouwer, Xiaoming Liu(参考訳) 以前の研究では、スプーフ防止の鍵は「スプーフトレース」と呼ばれる微妙な画像パターン、例えば色歪、3dマスクエッジ、モワールパターンなどにあることが示されている。 これらのspoofトレースを推定するための汎用的なアンチスプーフィングモデルの設計は、spoof検出の一般化だけでなく、モデルの決定の解釈可能性も改善することができる。 しかし、これはspoof型の多様性とspoofトレースにおける基底的真理の欠如のため、難しい課題である。 本研究は,複数スケールのパターンの階層的な組み合わせとして,入力面からスプーフトレースをアンタングルする,新たな逆学習フレームワークを設計する。 歪んだスプーフ跡から、元のスプーフの生顔を明らかにし、適切な幾何補正後の現実的な新しいスプーフの顔をさらに合成する。 本手法は,spoofトレースの視覚的に説得力のある推定を行いつつ,spoof検出性能の向上を示す。 コードはhttps://github.com/yaojieliu/ECCV20-STDNで入手できる。

Prior studies show that the key to face anti-spoofing lies in the subtle image pattern, termed "spoof trace", e.g., color distortion, 3D mask edge, Moire pattern, and many others. Designing a generic anti-spoofing model to estimate those spoof traces can improve not only the generalization of the spoof detection, but also the interpretability of the model's decision. Yet, this is a challenging task due to the diversity of spoof types and the lack of ground truth in spoof traces. This work designs a novel adversarial learning framework to disentangle the spoof traces from input faces as a hierarchical combination of patterns at multiple scales. With the disentangled spoof traces, we unveil the live counterpart of the original spoof face, and further synthesize realistic new spoof faces after a proper geometric correction. Our method demonstrates superior spoof detection performance on both seen and unseen spoof scenarios while providing visually convincing estimation of spoof traces. Code is available at https://github.com/yaojieliu/ECCV20-STDN.
翻訳日:2022-11-09 14:33:19 公開日:2020-07-17
# occluded object recognitionにおけるトップダウン注意の効果

The Effect of Top-Down Attention in Occluded Object Recognition ( http://arxiv.org/abs/2007.10232v1 )

ライセンス: Link先を確認
Zahra Sadeghi(参考訳) 本研究は,物体認識のタスクにおけるトップダウン視覚処理の利点について考察する。 この目的のために、文脈情報の一貫性が部分的に隠蔽された物体の認識に与える影響を調査する心理物理学実験を設計・実施する。 その結果, コンテクスト手がかりが咬合の有無における物体認識課題に与える影響が示唆された。

This study is concerned with the top-down visual processing benefit in the task of occluded object recognition. To this end, a psychophysical experiment is designed and carried out which aimed at investigating the effect of consistency of contextual information on the recognition of objects which are partially occluded. The results demonstrate the facilitative impact of consistent contextual clues on the task of object recognition in presence of occlusion.
翻訳日:2022-11-09 14:32:59 公開日:2020-07-17
# BMBC:ビデオ補間のためのバイラテラルコストボリュームを用いたバイラテラルモーション推定

BMBC:Bilateral Motion Estimation with Bilateral Cost Volume for Video Interpolation ( http://arxiv.org/abs/2007.12622v1 )

ライセンス: Link先を確認
Junheum Park, Keunsoo Ko, Chul Lee, Chang-Su Kim(参考訳) ビデオ補間は、2つの連続するフレーム間で中間フレームを合成することにより、ビデオシーケンスの時間分解能を高める。 両動推定に基づく深層学習に基づくビデオ補間アルゴリズムを提案する。 まず, 両側の動作量を推定するために, 両側のコストボリュームを持つバイラテラル・モーション・ネットワークを開発する。 次に,二方向運動を近似し,異なる二方向運動を予測した。 次に、2つの入力フレームを推定された両側運動を用いてワープする。 次に,動的ブレンディングフィルタを生成する動的フィルタ生成ネットワークを開発した。 最後に、動的ブレンディングフィルタを用いて歪んだフレームを組み合わせて中間フレームを生成する。 実験結果から,提案アルゴリズムは複数のベンチマークデータセット上で,最先端のビデオ補間アルゴリズムよりも優れていた。

Video interpolation increases the temporal resolution of a video sequence by synthesizing intermediate frames between two consecutive frames. We propose a novel deep-learning-based video interpolation algorithm based on bilateral motion estimation. First, we develop the bilateral motion network with the bilateral cost volume to estimate bilateral motions accurately. Then, we approximate bi-directional motions to predict a different kind of bilateral motions. We then warp the two input frames using the estimated bilateral motions. Next, we develop the dynamic filter generation network to yield dynamic blending filters. Finally, we combine the warped frames using the dynamic blending filters to generate intermediate frames. Experimental results show that the proposed algorithm outperforms the state-of-the-art video interpolation algorithms on several benchmark datasets.
翻訳日:2022-11-09 14:32:53 公開日:2020-07-17
# CASNet:イメージインスタンスとパン光学セグメンテーションのための共通属性サポートネットワーク

CASNet: Common Attribute Support Network for image instance and panoptic segmentation ( http://arxiv.org/abs/2008.00810v1 )

ライセンス: Link先を確認
Xiaolong Liu, Yuqing Hou, Anbang Yao, Yurong Chen, Keqiang Li(参考訳) インスタンスのセグメンテーションとパン光学セグメンテーションは近年ますます注目されている。 バウンディングボックスベースのオブジェクト検出とセマンティクスセグメンテーションと比較すると、インスタンスセグメンテーションはピクセルレベルでより分析的な結果を提供できる。 ひとつのインスタンスに属するピクセルが現在のインスタンスの1つ以上の共通属性を持っているという洞察から、共通属性の予測とクラスタリングによってインスタンスのセグメンテーションを実現する、common attribute support network(casnet)という1段階のインスタンスセグメンテーションネットワークが生まれます。 CASNetは完全な畳み込み方式で設計されており、エンドツーエンドのトレーニングと推論を実装することができる。 そしてCASNetは、重複や穴なしにインスタンスを予測し、現在のインスタンスセグメンテーションアルゴリズムのほとんどに問題がある。 さらに、計算オーバーヘッドの少ない小さな変更によって、簡単にパンオプティカルセグメンテーションに拡張できる。 casnetは、pixelクラスidの検索から共通属性の操作によるクラスとインスタンスidの取得まで、セマンティックとインスタンスセグメンテーションの橋渡しを構築する。 例えば実験とpanopticセグメンテーションを通じてcasnetは、共同トレーニングによるcityscapes validationデータセットのmap 32.8%とpq 59.0%、分離トレーニングモードでmap 36.3%とpq 66.1%を得る。 panopticのセグメンテーションでは、casnetはcityscapes validationデータセットで最先端のパフォーマンスを得る。

Instance segmentation and panoptic segmentation is being paid more and more attention in recent years. In comparison with bounding box based object detection and semantic segmentation, instance segmentation can provide more analytical results at pixel level. Given the insight that pixels belonging to one instance have one or more common attributes of current instance, we bring up an one-stage instance segmentation network named Common Attribute Support Network (CASNet), which realizes instance segmentation by predicting and clustering common attributes. CASNet is designed in the manner of fully convolutional and can implement training and inference from end to end. And CASNet manages predicting the instance without overlaps and holes, which problem exists in most of current instance segmentation algorithms. Furthermore, it can be easily extended to panoptic segmentation through minor modifications with little computation overhead. CASNet builds a bridge between semantic and instance segmentation from finding pixel class ID to obtaining class and instance ID by operations on common attribute. Through experiment for instance and panoptic segmentation, CASNet gets mAP 32.8% and PQ 59.0% on Cityscapes validation dataset by joint training, and mAP 36.3% and PQ 66.1% by separated training mode. For panoptic segmentation, CASNet gets state-of-the-art performance on the Cityscapes validation dataset.
翻訳日:2022-11-09 14:32:43 公開日:2020-07-17
# 生物医学領域におけるマルチパースペクティブな意味情報検索

Multi-Perspective Semantic Information Retrieval in the Biomedical Domain ( http://arxiv.org/abs/2008.01526v1 )

ライセンス: Link先を確認
Samarth Rawal(参考訳) 情報検索 (Information Retrieval, IR) は、特定のクエリに関連する、あるいは大量の情報リポジトリから必要なデータ(ドキュメントなど)を取得するタスクである。 IRは、いくつかの下流自然言語処理(NLP)タスクの貴重なコンポーネントである。 実際、IRは検索エンジンのような広く使われているテクノロジーの中心にある。 オカピ BM25 関数のような確率的ランク関数は1970年代からIRシステムで利用されてきたが、現代のニューラルアプローチは古典的手法に比べて一定の利点がある。 特にBERT(Bidirectional Encoder Representations from Transformers)のリリースは,大規模なデータコーパスでトレーニングされたマスケッド言語モデルを使用することによって,文分類や文の再ランク付けなど,下流のNLPタスクを改善できることを実証することによって,NLPコミュニティに大きな影響を与えている。 IRシステムは、バイオメディカルドメインや臨床ドメインでも重要である。 医学分野全体にわたる科学文献の増大を考えると、何百万もの論文のリポジトリから特定の臨床質問に対する回答を見つけることは、医療専門家にとって実用的な価値がある。 さらに,問合せと文の関連性を決定する際に,臨床用語を扱うこと,様々な症状の類似性や関連性を評価することなど,ドメイン固有の課題が存在する。 この研究は、バイオメディカルセマンティック情報検索ドメインのいくつかの側面に貢献する。 まず、BERTをベースとした新しい手法であるMulti-Perspective Sentence Relevanceを導入する。 このシステムはBioASQ Biomedical IR Challengeを用いて評価される。 最後に、医療従事者の生活irシステムとしての実際的な貢献と、生活体系レビュー臨床課題に関する提案課題を提供する。

Information Retrieval (IR) is the task of obtaining pieces of data (such as documents) that are relevant to a particular query or need from a large repository of information. IR is a valuable component of several downstream Natural Language Processing (NLP) tasks. Practically, IR is at the heart of many widely-used technologies like search engines. While probabilistic ranking functions like the Okapi BM25 function have been utilized in IR systems since the 1970's, modern neural approaches pose certain advantages compared to their classical counterparts. In particular, the release of BERT (Bidirectional Encoder Representations from Transformers) has had a significant impact in the NLP community by demonstrating how the use of a Masked Language Model trained on a large corpus of data can improve a variety of downstream NLP tasks, including sentence classification and passage re-ranking. IR Systems are also important in the biomedical and clinical domains. Given the increasing amount of scientific literature across biomedical domain, the ability find answers to specific clinical queries from a repository of millions of articles is a matter of practical value to medical professionals. Moreover, there are domain-specific challenges present, including handling clinical jargon and evaluating the similarity or relatedness of various medical symptoms when determining the relevance between a query and a sentence. This work presents contributions to several aspects of the Biomedical Semantic Information Retrieval domain. First, it introduces Multi-Perspective Sentence Relevance, a novel methodology of utilizing BERT-based models for contextual IR. The system is evaluated using the BioASQ Biomedical IR Challenge. Finally, practical contributions in the form of a live IR system for medics and a proposed challenge on the Living Systematic Review clinical task are provided.
翻訳日:2022-11-09 14:32:04 公開日:2020-07-17
# 多成分多段階進化予測システムにおけるメタレベルの学習の展望

A Review of Meta-level Learning in the Context of Multi-component, Multi-level Evolving Prediction Systems ( http://arxiv.org/abs/2007.10818v1 )

ライセンス: Link先を確認
Abbas Raza Ali, Marcin Budka and Bogdan Gabrys(参考訳) データのボリューム、バラエティ、速度の指数関数的な増加は、データから有用なパターンを抽出する自動的あるいは半自動的な方法の調査の必要性を高めている。 与えられた問題に対する学習方法の最も適切なマッピングを見つけるには、深い専門知識と広範な計算資源が必要である。 大量のデータに対する学習アルゴリズムの多種多様な構成の存在において、これは課題となる。 そのため、データセットにとって最適な学習アルゴリズムは何であるかをアドバイスできるインテリジェントなレコメンデーションエンジンが必要である。 専門家が一般的に使用するテクニックは、試行錯誤アプローチに基づいて、さまざまな可能なソリューションを相互に評価、比較し、特定のドメインでの以前の経験などを使用する。 試行錯誤法と専門家の事前の知識を組み合わせると、計算的かつ時間的費用がかかるが、通常、処理がオフラインで行われるような定常的な問題に対処することがしばしば示されている。 しかし、このアプローチは通常、データのストリームが継続的に到着する非定常的な問題に適用できないだろう。 さらに、非定常環境では、基礎となるデータ分布の変化がいつでも、データの手動分析と様々なメソッドのテストは、非常に困難か、あるいは単に不可能である。 このシナリオでは、オンライン予測システム内で、メタラーニングを使用して最適なレコメンデーションを効果的に促進できるタスクがいくつかあります。 1)前処理ステップ 2)学習アルゴリズム又はそれらの組み合わせ 3)適応性機構とそのパラメータ 4)反復的な概念抽出,及び 5)コンセプトドリフト検出。

The exponential growth of volume, variety and velocity of data is raising the need for investigations of automated or semi-automated ways to extract useful patterns from the data. It requires deep expert knowledge and extensive computational resources to find the most appropriate mapping of learning methods for a given problem. It becomes a challenge in the presence of numerous configurations of learning algorithms on massive amounts of data. So there is a need for an intelligent recommendation engine that can advise what is the best learning algorithm for a dataset. The techniques that are commonly used by experts are based on a trial and error approach evaluating and comparing a number of possible solutions against each other, using their prior experience on a specific domain, etc. The trial and error approach combined with the expert's prior knowledge, though computationally and time expensive, have been often shown to work for stationary problems where the processing is usually performed off-line. However, this approach would not normally be feasible to apply to non-stationary problems where streams of data are continuously arriving. Furthermore, in a non-stationary environment, the manual analysis of data and testing of various methods whenever there is a change in the underlying data distribution would be very difficult or simply infeasible. In that scenario and within an on-line predictive system, there are several tasks where Meta-learning can be used to effectively facilitate best recommendations including 1) pre-processing steps, 2) learning algorithms or their combination, 3) adaptivity mechanisms and their parameters, 4) recurring concept extraction, and 5) concept drift detection.
翻訳日:2022-11-09 14:31:35 公開日:2020-07-17
# TopoAL: トポロジーを考慮した道路セグメンテーションのための逆学習手法

TopoAL: An Adversarial Learning Approach for Topology-Aware Road Segmentation ( http://arxiv.org/abs/2007.09084v1 )

ライセンス: Link先を確認
Subeesh Vasu, Mateusz Kozinski, Leonardo Citraro, and Pascal Fua(参考訳) 航空画像から道路を抽出する最先端のアプローチは、道路画素を前景として、画像の残りを背景としてラベル付けするよう訓練されたCNNに依存している。 CNNは通常、ピクセル単位での損失を最小限に抑え、道路ネットワークのグローバルな接続性を維持するバイナリマスクを作成するのに理想的ではない。 この問題に対処するために,我々は,我々の目的に合わせたAL戦略を導入する。 ナイーブなネットワークは、セグメンテーションネットワークをジェネレータとして扱い、その出力と地対地セグメンテーションを判別器に供給する。 その後、発電機と判別器を共同で訓練する。 ほとんどのエラーがローカルであり、そのような処理が必要なという事実を捉えていないので、これは十分ではないことを示す。 代わりに、より洗練された判別器を使用して、いくつかの異なるスケールで、道路網のどの部分が正しいかを示すラベルピラミッドを返します。 この識別器と、それが返す構造化ラベルは、私たちのアプローチのエッジであり、挑戦的なRoadTracerデータセットで最先端のラベルよりも優れていることを示す。

Most state-of-the-art approaches to road extraction from aerial images rely on a CNN trained to label road pixels as foreground and remainder of the image as background. The CNN is usually trained by minimizing pixel-wise losses, which is less than ideal to produce binary masks that preserve the road network's global connectivity. To address this issue, we introduce an Adversarial Learning (AL) strategy tailored for our purposes. A naive one would treat the segmentation network as a generator and would feed its output along with ground-truth segmentations to a discriminator. It would then train the generator and discriminator jointly. We will show that this is not enough because it does not capture the fact that most errors are local and need to be treated as such. Instead, we use a more sophisticated discriminator that returns a label pyramid describing what portions of the road network are correct at several different scales. This discriminator and the structured labels it returns are what gives our approach its edge and we will show that it outperforms state-of-the-art ones on the challenging RoadTracer dataset.
翻訳日:2022-11-09 14:25:44 公開日:2020-07-17
# AutoCount: フィールドイメージ内の臓器の教師なしセグメンテーションとカウント

AutoCount: Unsupervised Segmentation and Counting of Organs in Field Images ( http://arxiv.org/abs/2007.09178v1 )

ライセンス: Link先を確認
Jordan Ubbens, Tewodros Ayalew, Steve Shirtliffe, Anique Josuttes, Curtis Pozniak, Ian Stavness(参考訳) 屋外画像から頭や房などの植物器官を数えることは、植物表現型付けにおける一般的なベンチマークコンピュータビジョンタスクであり、これまでは最先端の教師付きディープラーニング技術を用いて研究されてきた。 しかし、フィールド画像中の臓器のアノテーションは時間がかかり、エラーを起こしやすい。 本稿では,植物器官などの密集した物体を計数するための教師なし手法を提案する。 畳み込みネットワークに基づく非教師なしセグメンテーション法と2つのポストホック最適化ステップを用いる。 提案手法は,ソルガム (S. bicolor) とコムギ (T. aestivum) の臓器計数作業において,データセット依存のチューニングや修正を伴わない競争的カウント性能を提供する。

Counting plant organs such as heads or tassels from outdoor imagery is a popular benchmark computer vision task in plant phenotyping, which has been previously investigated in the literature using state-of-the-art supervised deep learning techniques. However, the annotation of organs in field images is time-consuming and prone to errors. In this paper, we propose a fully unsupervised technique for counting dense objects such as plant organs. We use a convolutional network-based unsupervised segmentation method followed by two post-hoc optimization steps. The proposed technique is shown to provide competitive counting performance on a range of organ counting tasks in sorghum (S. bicolor) and wheat (T. aestivum) with no dataset-dependent tuning or modifications.
翻訳日:2022-11-09 14:24:52 公開日:2020-07-17
# 効率的かつ効果的なGANアーキテクチャ探索のためのオフポリティ強化学習

Off-Policy Reinforcement Learning for Efficient and Effective GAN Architecture Search ( http://arxiv.org/abs/2007.09180v1 )

ライセンス: Link先を確認
Yuan Tian, Qin Wang, Zhiwu Huang, Wen Li, Dengxin Dai, Minghao Yang, Jun Wang, Olga Fink(参考訳) 本稿では,新しい強化学習(RL)に基づくニューラルアーキテクチャサーチ(NAS)手法を導入し,GANアーキテクチャサーチを効果的かつ効率的に行う。 鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)としてGANアーキテクチャ探索問題を定式化することである。 効率を向上させるために,前回のポリシーで生成されたサンプルを効率的に利用するオフポリシーganアーキテクチャ探索アルゴリズムを利用する。 2つの標準ベンチマークデータセット(cifar-10とstl-10)の評価は、提案手法が、計算負荷を大幅に削減し、一般的に優れた画像生成結果のための高い競合アーキテクチャを発見できることを示している。 私たちのコードはhttps://github.com/Yuantian013/E2GANで利用可能です。

In this paper, we introduce a new reinforcement learning (RL) based neural architecture search (NAS) methodology for effective and efficient generative adversarial network (GAN) architecture search. The key idea is to formulate the GAN architecture search problem as a Markov decision process (MDP) for smoother architecture sampling, which enables a more effective RL-based search algorithm by targeting the potential global optimal architecture. To improve efficiency, we exploit an off-policy GAN architecture search algorithm that makes efficient use of the samples generated by previous policies. Evaluation on two standard benchmark datasets (i.e., CIFAR-10 and STL-10) demonstrates that the proposed method is able to discover highly competitive architectures for generally better image generation results with a considerably reduced computational burden: 7 GPU hours. Our code is available at https://github.com/Yuantian013/E2GAN.
翻訳日:2022-11-09 14:24:37 公開日:2020-07-17
# rgb-dセマンティクスセグメンテーションのための分離・集約ゲートを用いた双方向クロスモダリティ特徴伝搬

Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation ( http://arxiv.org/abs/2007.09183v1 )

ライセンス: Link先を確認
Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, Gang Zeng(参考訳) 深度情報はRGB-D画像のセマンティックセグメンテーションに有用であることが証明されている。 既存の作品の多くは、深さ測定が正確でrgbピクセルとよく一致していると仮定し、問題をクロスモーダル特徴融合としてモデル化し、より正確なセグメンテーションを達成するための優れた特徴表現を得る。 しかし、実際の深度データは一般にノイズが多く、ネットワークが深くなるにつれて精度が悪化するので、この結果が満足のいく結果に繋がることはないかもしれない。 本稿では,RGB特徴量応答を効果的に再検討すると同時に,複数の段階を通して正確な深度情報を抽出し,代わりに2つの再分類表現を集約する,統一的で効率的なクロスモダリティガイド型エンコーダを提案する。 提案されたアーキテクチャの鍵は、クロスモダリティアグリゲーションの前に両方の表現をフィルターし再調整する新しい分離・集約ゲーティング操作である。 一方,双方向多段伝播戦略を導入することで,2つのモダリティ間の情報を伝播・融合させ,その一方で,長期伝播過程における特異性を維持することができる。 また,提案するエンコーダは,従来のエンコーダ・デコーダ構造に容易に注入でき,rgb-dセマンティクスセグメンテーションの性能を高めることができる。 我々のモデルは、屋内と屋外の両方の挑戦的なデータセットで、常に最先端のデータをパフォーマンスします。 この作業のコードはhttps://charlescxk.github.io/で入手できる。

Depth information has proven to be a useful cue in the semantic segmentation of RGB-D images for providing a geometric counterpart to the RGB representation. Most existing works simply assume that depth measurements are accurate and well-aligned with the RGB pixels and models the problem as a cross-modal feature fusion to obtain better feature representations to achieve more accurate segmentation. This, however, may not lead to satisfactory results as actual depth data are generally noisy, which might worsen the accuracy as the networks go deeper. In this paper, we propose a unified and efficient Cross-modality Guided Encoder to not only effectively recalibrate RGB feature responses, but also to distill accurate depth information via multiple stages and aggregate the two recalibrated representations alternatively. The key of the proposed architecture is a novel Separation-and-Aggregation Gating operation that jointly filters and recalibrates both representations before cross-modality aggregation. Meanwhile, a Bi-direction Multi-step Propagation strategy is introduced, on the one hand, to help to propagate and fuse information between the two modalities, and on the other hand, to preserve their specificity along the long-term propagation process. Besides, our proposed encoder can be easily injected into the previous encoder-decoder structures to boost their performance on RGB-D semantic segmentation. Our model outperforms state-of-the-arts consistently on both in-door and out-door challenging datasets. Code of this work is available at https://charlescxk.github.io/
翻訳日:2022-11-09 14:24:24 公開日:2020-07-17
# シーンプローブとしての人々

People as Scene Probes ( http://arxiv.org/abs/2007.09209v1 )

ライセンス: Link先を確認
Yifan Wang, Brian Curless, Steve Seitz(参考訳) シーン内の人物や物体の動きを解析することにより、一つのカメラ視点から撮影した映像から深度、咬合、照明、シャドー情報を推測する方法を示す。 この情報は、新しいオブジェクトを同じシーンに高レベルの自動化とリアリズムで合成するために使用されます。 特に、ユーザが画像に新しいオブジェクト(2dカットアウト)を配置すると、自動的にリスケールされ、リライトされ、適切にオクルードされ、太陽に対して正しい方向にリアルな影が配置され、シーン形状に適合する。 我々は,様々な場面で結果(補足映像で見る)を実証し,奥行き推定や影合成の代替手法と比較した。

By analyzing the motion of people and other objects in a scene, we demonstrate how to infer depth, occlusion, lighting, and shadow information from video taken from a single camera viewpoint. This information is then used to composite new objects into the same scene with a high degree of automation and realism. In particular, when a user places a new object (2D cut-out) in the image, it is automatically rescaled, relit, occluded properly, and casts realistic shadows in the correct direction relative to the sun, and which conform properly to scene geometry. We demonstrate results (best viewed in supplementary video) on a range of scenes and compare to alternative methods for depth estimation and shadow compositing.
翻訳日:2022-11-09 14:23:56 公開日:2020-07-17
# DH3D:ロバストな大規模6DoF再局在のための階層型3D記述子

DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF Relocalization ( http://arxiv.org/abs/2007.09217v1 )

ライセンス: Link先を確認
Juan Du, Rui Wang, Daniel Cremers(参考訳) 大規模クラウドにおける再ローカライズのために,グローバルな位置認識と6DoFの局所化を両立させるアプローチを提案する。 そこで我々は,生の3次元点から直接3次元特徴の検出と記述を共同で学習するSiameseネットワークを設計した。 FlexConvとSqueeze-and-Excitation (SE)を統合し、学習したローカルディスクリプタがマルチレベル幾何学情報とチャネルワイド関係をキャプチャすることを保証する。 3次元キーポイントの検出には,局所ディスクリプタの識別性を教師なしで予測する。 学習したローカル記述子を直接アグリゲートすることで,グローバル記述子を生成する。 このように、ローカルおよびグローバルな3Dディスクリプタは、1つのフォワードパスで推論される。 各種ベンチマーク実験により,本手法は,最先端のアプローチと比較して,グローバルポイントクラウド検索とローカルポイントクラウド登録の両面での競合的な結果が得られることを示した。 3Dキーポイントの一般化性とロバスト性を検証するため,視覚的SLAMシステムにより生成された点雲の登録を微調整することなく,本手法が良好に動作することを示した。 コードと関連する資料はhttps://vision.in.tum.de/research/vslam/dh3dで入手できる。

For relocalization in large-scale point clouds, we propose the first approach that unifies global place recognition and local 6DoF pose refinement. To this end, we design a Siamese network that jointly learns 3D local feature detection and description directly from raw 3D points. It integrates FlexConv and Squeeze-and-Excitation (SE) to assure that the learned local descriptor captures multi-level geometric information and channel-wise relations. For detecting 3D keypoints we predict the discriminativeness of the local descriptors in an unsupervised manner. We generate the global descriptor by directly aggregating the learned local descriptors with an effective attention mechanism. In this way, local and global 3D descriptors are inferred in one single forward pass. Experiments on various benchmarks demonstrate that our method achieves competitive results for both global point cloud retrieval and local point cloud registration in comparison to state-of-the-art approaches. To validate the generalizability and robustness of our 3D keypoints, we demonstrate that our method also performs favorably without fine-tuning on the registration of point clouds that were generated by a visual SLAM system. Code and related materials are available at https://vision.in.tum.de/research/vslam/dh3d.
翻訳日:2022-11-09 14:23:42 公開日:2020-07-17
# クラスが重要: クロスドメインセマンティックセマンティックセグメンテーションへの細粒度対応アプローチ

Classes Matter: A Fine-grained Adversarial Approach to Cross-domain Semantic Segmentation ( http://arxiv.org/abs/2007.09222v1 )

ライセンス: Link先を確認
Haoran Wang, Tong Shen, Wei Zhang, Lingyu Duan, Tao Mei(参考訳) 教師付きセマンティックセグメンテーションの大幅な進歩にもかかわらず、モデルが野生にデプロイされる際には通常大きなパフォーマンス低下が観察される。 ドメイン適応メソッドは、ソースドメインとターゲットドメインを整合させることで問題に取り組む。 しかし、既存のほとんどのメソッドは、対象ドメインの下位クラスレベルのデータ構造を無視して、全体論的視点からアライメントを実行しようとする。 そこで本研究では,ドメイン間のセマンティクスの内部構造を保ちながら,クラスレベルの特徴アライメントのための詳細な逆学習戦略を提案する。 ドメイン区別器として機能するだけでなく、クラスレベルでドメインを区別する、きめ細かいドメイン識別器を採用しています。 従来のバイナリドメインラベルは、きめ細かい特徴アライメントを誘導する監視信号として、ドメインエンコーディングに一般化される。 CCD (Class Center Distance) を用いた解析により, 粒度の細かい対角戦略が, 他の最先端手法よりも優れたクラスレベルのアライメントを実現することを確認した。 提案手法は実装が容易で,GTA5,Cityscapes,SynTHIA,Cityscapes,City-City-Cityの3つの古典的ドメイン適応タスクに対して有効性を評価する。 大きなパフォーマンス向上は、他のグローバル機能アライメントベースとクラスアライメントベースのアライメントよりも優れています。 コードはhttps://github.com/JDAI-CV/FADAで公開されている。

Despite great progress in supervised semantic segmentation,a large performance drop is usually observed when deploying the model in the wild. Domain adaptation methods tackle the issue by aligning the source domain and the target domain. However, most existing methods attempt to perform the alignment from a holistic view, ignoring the underlying class-level data structure in the target domain. To fully exploit the supervision in the source domain, we propose a fine-grained adversarial learning strategy for class-level feature alignment while preserving the internal structure of semantics across domains. We adopt a fine-grained domain discriminator that not only plays as a domain distinguisher, but also differentiates domains at class level. The traditional binary domain labels are also generalized to domain encodings as the supervision signal to guide the fine-grained feature alignment. An analysis with Class Center Distance (CCD) validates that our fine-grained adversarial strategy achieves better class-level alignment compared to other state-of-the-art methods. Our method is easy to implement and its effectiveness is evaluated on three classical domain adaptation tasks, i.e., GTA5 to Cityscapes, SYNTHIA to Cityscapes and Cityscapes to Cross-City. Large performance gains show that our method outperforms other global feature alignment based and class-wise alignment based counterparts. The code is publicly available at https://github.com/JDAI-CV/FADA.
翻訳日:2022-11-09 14:23:19 公開日:2020-07-17
# domain2vec: 教師なしドメイン適応のためのドメイン埋め込み

Domain2Vec: Domain Embedding for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2007.09257v1 )

ライセンス: Link先を確認
Xingchao Peng, Yichen Li, Kate Saenko(参考訳) 従来の教師なしドメイン適応(UDA)は、限られた数のドメイン間の知識伝達を研究する。 これは、データが現実世界の多くの異なるドメインに分散される、より実践的なシナリオを無視します。 これらのドメイン間のドメイン類似性はドメイン適応性能にとって重要である。 異なる領域間の関係を記述・学習するために,特徴分節とグラム行列の合同学習に基づく視覚領域のベクトル表現を提供する新しいドメイン2vecモデルを提案する。 Domain2Vecモデルの有効性を評価するため、大規模なクロスドメインベンチマークを2つ作成する。 ひとつはTinyDAで、54のドメインと約100万のMNISTスタイルの画像を含んでいる。 第2のベンチマークはdomainbankで、56の既存のvisionデータセットから収集される。 我々の埋め込みは、異なるドメイン間の視覚的関係に関する直感と一致するドメイン類似性を予測できることを示した。 最先端のマルチソースドメイン適応手法のベンチマークにおける新しいデータセットのパワーと提案モデルの利点を実証するために,大規模な実験を行った。

Conventional unsupervised domain adaptation (UDA) studies the knowledge transfer between a limited number of domains. This neglects the more practical scenario where data are distributed in numerous different domains in the real world. The domain similarity between those domains is critical for domain adaptation performance. To describe and learn relations between different domains, we propose a novel Domain2Vec model to provide vectorial representations of visual domains based on joint learning of feature disentanglement and Gram matrix. To evaluate the effectiveness of our Domain2Vec model, we create two large-scale cross-domain benchmarks. The first one is TinyDA, which contains 54 domains and about one million MNIST-style images. The second benchmark is DomainBank, which is collected from 56 existing vision datasets. We demonstrate that our embedding is capable of predicting domain similarities that match our intuition about visual relations between different domains. Extensive experiments are conducted to demonstrate the power of our new datasets in benchmarking state-of-the-art multi-source domain adaptation methods, as well as the advantage of our proposed model.
翻訳日:2022-11-09 14:22:44 公開日:2020-07-17
# 境界保存マスクR-CNN

Boundary-preserving Mask R-CNN ( http://arxiv.org/abs/2007.08921v1 )

ライセンス: Link先を確認
Tianheng Cheng and Xinggang Wang and Lichao Huang and Wenyu Liu(参考訳) 例のセグメンテーションにおいてマスクのローカライズ精度を向上させるための多大な努力がなされている。 完全な畳み込みネットワークに依存する現代的なインスタンスセグメンテーション手法は、オブジェクトの境界や形状を無視するピクセル単位の分類を実行し、粗いマスク予測結果と不明瞭なローカライゼーションを導く。 これらの問題を解決するため,マスクの局所化精度を向上させるためにオブジェクト境界情報を活用するため,概念的にシンプルで効果的なMask R-CNN(BMask R-CNN)を提案する。 BMask R-CNNは、オブジェクト境界とマスクが特徴融合ブロックを介して相互に学習される境界保存マスクヘッドを含む。 その結果、予測されたマスクはオブジェクト境界に合致する。 ベルとホイッスルがなければ、BMask R-CNNはCOCOデータセットのかなりのマージンでMask R-CNNを上回っ、Cityscapesデータセットでは、より正確な境界基盤が利用できるため、BMask R-CNNはMask R-CNNよりも顕著に改善されている。 さらに、BMask R-CNNが、図1に示すように、評価基準がより良いローカライゼーション(AP$_{75}$)を必要とする場合、より明らかな改善が得られることは、驚くにあたらない。 コードとモデルは \url{https://github.com/hustvl/BMaskR-CNN} で公開されている。

Tremendous efforts have been made to improve mask localization accuracy in instance segmentation. Modern instance segmentation methods relying on fully convolutional networks perform pixel-wise classification, which ignores object boundaries and shapes, leading coarse and indistinct mask prediction results and imprecise localization. To remedy these problems, we propose a conceptually simple yet effective Boundary-preserving Mask R-CNN (BMask R-CNN) to leverage object boundary information to improve mask localization accuracy. BMask R-CNN contains a boundary-preserving mask head in which object boundary and mask are mutually learned via feature fusion blocks. As a result, the predicted masks are better aligned with object boundaries. Without bells and whistles, BMask R-CNN outperforms Mask R-CNN by a considerable margin on the COCO dataset; in the Cityscapes dataset, there are more accurate boundary groundtruths available, so that BMask R-CNN obtains remarkable improvements over Mask R-CNN. Besides, it is not surprising to observe that BMask R-CNN obtains more obvious improvement when the evaluation criterion requires better localization (e.g., AP$_{75}$) as shown in Fig.1. Code and models are available at \url{https://github.com/hustvl/BMaskR-CNN}.
翻訳日:2022-11-09 14:16:33 公開日:2020-07-17
# 幾何学的対応場:野生における3次元ポスリファインメントの学習可能なレンダリング

Geometric Correspondence Fields: Learned Differentiable Rendering for 3D Pose Refinement in the Wild ( http://arxiv.org/abs/2007.08939v1 )

ライセンス: Link先を確認
Alexander Grabner, Yaming Wang, Peizhao Zhang, Peihong Guo, Tong Xiao, Peter Vajda, Peter M. Roth, Vincent Lepetit(参考訳) 野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。 従来の手法とは対照的に、我々は2つの主な貢献をしている: まず、RGBやマスク空間における実世界の画像と合成レンダリングを比較する代わりに、3Dポーズの精細化に最適化された特徴空間でそれらを比較する。 次に,手作りアルゴリズムに頼るのではなく,データからのラスタ化の後方通過を近似する新しい微分可能レンダラを提案する。 そこで本研究では, rgb画像と3次元モデルレンダリング間の深いクロスドメイン対応を幾何対応場と呼ぶ形で予測する。 これらの対応フィールドはピクセルレベルの勾配として機能し、3Dポーズに直接勾配に基づく最適化を行う。 このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。 我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。

We present a novel 3D pose refinement approach based on differentiable rendering for objects of arbitrary categories in the wild. In contrast to previous methods, we make two main contributions: First, instead of comparing real-world images and synthetic renderings in the RGB or mask space, we compare them in a feature space optimized for 3D pose refinement. Second, we introduce a novel differentiable renderer that learns to approximate the rasterization backward pass from data instead of relying on a hand-crafted algorithm. For this purpose, we predict deep cross-domain correspondences between RGB images and 3D model renderings in the form of what we call geometric correspondence fields. These correspondence fields serve as pixel-level gradients which are analytically propagated backward through the rendering pipeline to perform a gradient-based optimization directly on the 3D pose. In this way, we precisely align 3D models to objects in RGB images which results in significantly improved 3D pose estimates. We evaluate our approach on the challenging Pix3D dataset and achieve up to 55% relative improvement compared to state-of-the-art refinement methods in multiple metrics.
翻訳日:2022-11-09 14:16:06 公開日:2020-07-17
# HDNet:マルチパーソンカメラ空間ローカライゼーションのための人間の深度推定

HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization ( http://arxiv.org/abs/2007.08943v1 )

ライセンス: Link先を確認
Jiahao Lin, Gim Hee Lee(参考訳) マルチパーソン3次元ポーズ推定に関する現在の研究は、主にルートジョイントに対する3次元関節位置の推定に焦点を当て、各ポーズの絶対位置を無視している。 本稿では,カメラ座標空間における絶対的根結合位置推定のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。 HDNetはまず、関節のヒートマップで2次元の人間のポーズを推定します。 これらの推定熱マップは、対象人物に対応する画像領域から特徴をプールするための注意マスクとして機能する。 関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。 対象深度回帰を,hdnetの分類出力からソフトargmax演算で変換可能なbin指数推定問題として定式化する。 2つのベンチマークデータセット、すなわちhuman3.6mとmupots-3dを用いて、歯根関節位置と歯根関係3dポーズ推定タスクにおけるhdnetを評価した。 実験の結果,複数の評価基準において,先行研究の成果を一貫して上回っていることがわかった。 ソースコードはhttps://github.com/jiahaoljh/humandepth.com/で入手できます。

Current works on multi-person 3D pose estimation mainly focus on the estimation of the 3D joint locations relative to the root joint and ignore the absolute locations of each pose. In this paper, we propose the Human Depth Estimation Network (HDNet), an end-to-end framework for absolute root joint localization in the camera coordinate space. Our HDNet first estimates the 2D human pose with heatmaps of the joints. These estimated heatmaps serve as attention masks for pooling features from image regions corresponding to the target person. A skeleton-based Graph Neural Network (GNN) is utilized to propagate features among joints. We formulate the target depth regression as a bin index estimation problem, which can be transformed with a soft-argmax operation from the classification output of our HDNet. We evaluate our HDNet on the root joint localization and root-relative 3D pose estimation tasks with two benchmark datasets, i.e., Human3.6M and MuPoTS-3D. The experimental results show that we outperform the previous state-of-the-art consistently under multiple evaluation metrics. Our source code is available at: https://github.com/jiahaoLjh/HumanDepth.
翻訳日:2022-11-09 14:15:50 公開日:2020-07-17
# LEED: アンタングルによるラベルなし表現編集

LEED: Label-Free Expression Editing via Disentanglement ( http://arxiv.org/abs/2007.08971v1 )

ライセンス: Link先を確認
Rongliang Wu, Shijian Lu(参考訳) 表情編集の最近の研究は、非常に有望な進歩をもたらした。 一方で、既存のメソッドは、しばしば高価で収集に時間がかかる、大量の式ラベルを必要とするという制約に直面している。 本稿では,表現ラベルを必要とせず,前頭顔画像とプロファイル顔画像の両方の表現を編集できる,アンタングルメント(LEED)フレームワークによるラベルフリーな表現編集を提案する。 表現多様体において、中性顔がアイデンティティ属性を捉え、中性画像と表現的画像との間の変位が表現属性を捉える。 純表現関連特徴を抽出することを目的とした相互表現情報損失と、合成画像と参照画像との表現類似性を高めることを目的としたシアーム損失とを含む、2つの新たな損失を最適な表現不等角化と一貫した合成のために設計する。 2つの公的な表情データセットに関する広範囲な実験により、leedは質的かつ定量的に優れた表情編集を達成できることが示されている。

Recent studies on facial expression editing have obtained very promising progress. On the other hand, existing methods face the constraint of requiring a large amount of expression labels which are often expensive and time-consuming to collect. This paper presents an innovative label-free expression editing via disentanglement (LEED) framework that is capable of editing the expression of both frontal and profile facial images without requiring any expression label. The idea is to disentangle the identity and expression of a facial image in the expression manifold, where the neutral face captures the identity attribute and the displacement between the neutral image and the expressive image captures the expression attribute. Two novel losses are designed for optimal expression disentanglement and consistent synthesis, including a mutual expression information loss that aims to extract pure expression-related features and a siamese loss that aims to enhance the expression similarity between the synthesized image and the reference image. Extensive experiments over two public facial expression datasets show that LEED achieves superior facial expression editing qualitatively and quantitatively.
翻訳日:2022-11-09 14:15:12 公開日:2020-07-17
# ビデオキャプションのための推論モジュールネットワークを離散的に構成する学習

Learning to Discretely Compose Reasoning Module Networks for Video Captioning ( http://arxiv.org/abs/2007.09049v1 )

ライセンス: Link先を確認
Ganchao Tan, Daqing Liu, Meng Wang, Zheng-Jun Zha(参考訳) ビデオの自然言語記述、すなわちビデオキャプションを生成するには、生成プロセスに沿ってステップバイステップの推論が必要である。 例えば、"a man is shooting a basketball"という文を生成するには、まず主題"man"を見つけて説明し、次に男が"shooting"である理由を説明し、次にシューティングの"basketball"オブジェクトを記述する必要がある。 しかし,視覚質問応答のための既存の視覚的推論手法は,映像キャプションには適していない。空間的,時間的,動的モジュール構成の双方において,映像上でより複雑な視覚的推論が必要となる。 本稿では,既存のエンコーダ・デコーダフレームワークに上記の推論能力を持たせるために,rmn(reasoning module networks)というビデオキャプションのための新しいビジュアル推論手法を提案する。 特に RMN は 1) 3つの洗練された時空間推論モジュール,及び 2) ガムベル近似による言語的損失によって訓練された動的かつ離散的なモジュールセレクタ。 MSVDとMSR-VTTデータセットの大規模な実験により、提案されたRMNは、明示的で説明可能な生成プロセスを提供しながら、最先端の手法よりも優れていることを示した。 私たちのコードはhttps://github.com/tgc1997/rmnで利用可能です。

Generating natural language descriptions for videos, i.e., video captioning, essentially requires step-by-step reasoning along the generation process. For example, to generate the sentence "a man is shooting a basketball", we need to first locate and describe the subject "man", next reason out the man is "shooting", then describe the object "basketball" of shooting. However, existing visual reasoning methods designed for visual question answering are not appropriate to video captioning, for it requires more complex visual reasoning on videos over both space and time, and dynamic module composition along the generation process. In this paper, we propose a novel visual reasoning approach for video captioning, named Reasoning Module Networks (RMN), to equip the existing encoder-decoder framework with the above reasoning capacity. Specifically, our RMN employs 1) three sophisticated spatio-temporal reasoning modules, and 2) a dynamic and discrete module selector trained by a linguistic loss with a Gumbel approximation. Extensive experiments on MSVD and MSR-VTT datasets demonstrate the proposed RMN outperforms the state-of-the-art methods while providing an explicit and explainable generation process. Our code is available at https://github.com/tgc1997/RMN.
翻訳日:2022-11-09 14:13:59 公開日:2020-07-17
# サルエント物体検出のためのマルチスケールインタラクティブネットワーク

Multi-scale Interactive Network for Salient Object Detection ( http://arxiv.org/abs/2007.09062v1 )

ライセンス: Link先を確認
Youwei Pang, Xiaoqi Zhao, Lihe Zhang, Huchuan Lu(参考訳) 深層学習に基づく有能な物体検出法は非常に進歩している。 しかし、変数スケールと正当性オブジェクトの未知のカテゴリは、常に大きな課題である。 これらはマルチレベルとマルチスケールの機能の利用と密接に関連している。 本稿では,小型のアップ/ダウンサンプリングレートのみを使用するため,ノイズの少ない隣接レベルからの特徴を統合するための集合的相互作用モジュールを提案する。 統合機能からより効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを組み込む。 さらに, スケール変動によるクラス不均衡問題により, 2次交叉エントロピー損失の影響が弱まり, 予測の空間的不整合が生じる。 そこで我々は,クラス内の一貫性を保ちつつ,フォア/バックグラウンドの違いを強調するために,一貫性に富んだ損失を利用する。 5つのベンチマークデータセットにおける実験結果から,後処理を行わない提案手法は,23の最先端アプローチに対して好適に動作することが示された。 ソースコードはhttps://github.com/lartpang/MINet.comで公開されている。

Deep-learning based salient object detection methods achieve great progress. However, the variable scale and unknown category of salient objects are great challenges all the time. These are closely related to the utilization of multi-level and multi-scale features. In this paper, we propose the aggregate interaction modules to integrate the features from adjacent levels, in which less noise is introduced because of only using small up-/down-sampling rates. To obtain more efficient multi-scale features from the integrated features, the self-interaction modules are embedded in each decoder unit. Besides, the class imbalance issue caused by the scale variation weakens the effect of the binary cross entropy loss and results in the spatial inconsistency of the predictions. Therefore, we exploit the consistency-enhanced loss to highlight the fore-/back-ground difference and preserve the intra-class consistency. Experimental results on five benchmark datasets demonstrate that the proposed method without any post-processing performs favorably against 23 state-of-the-art approaches. The source code will be publicly available at https://github.com/lartpang/MINet.
翻訳日:2022-11-09 14:13:39 公開日:2020-07-17
# ノイズアフィニティグラフの信頼性向上を学ぶ

Learn to Propagate Reliably on Noisy Affinity Graphs ( http://arxiv.org/abs/2007.08802v1 )

ライセンス: Link先を確認
Lei Yang, Qingqiu Huang, Huaiyi Huang, Linning Xu, Dahua Lin(参考訳) 近年の研究では,ラベルの伝搬によるラベル付きデータの利用によりラベル作成コストが大幅に削減されることが示されている。 しかし、ラベルを確実に伝達する方法、特に未知の異常値を持つデータセットについては、まだ疑問の余地がある。 線形拡散のような従来の方法は複雑なグラフ構造を扱う能力に欠けており、種子がばらばらである場合、性能が低下することがある。 グラフニューラルネットワークに基づく最新の手法は、ノイズの多いグラフにスケールアウトする際、パフォーマンス低下の困難に直面するだろう。 これらの課題を克服するために,大規模実世界のデータに対してラベルを確実に伝達できる新しいフレームワークを提案する。 本フレームワークは,(1)高スケーラビリティを維持しつつ,様々な局所構造を正確に予測する局所グラフニューラルネットワークと,(2)アウトレーヤを識別し,適切な方法で伝播フロンティアを前進させる信頼に基づく経路スケジューラを備える。 ImageNet と Ms-Celeb-1M の両実験から,特にグラフが騒々しい場合,我々の信頼性向上フレームワークは,プロパゲートラベルの全体的な精度を著しく向上させることができることが示された。

Recent works have shown that exploiting unlabeled data through label propagation can substantially reduce the labeling cost, which has been a critical issue in developing visual recognition models. Yet, how to propagate labels reliably, especially on a dataset with unknown outliers, remains an open question. Conventional methods such as linear diffusion lack the capability of handling complex graph structures and may perform poorly when the seeds are sparse. Latest methods based on graph neural networks would face difficulties on performance drop as they scale out to noisy graphs. To overcome these difficulties, we propose a new framework that allows labels to be propagated reliably on large-scale real-world data. This framework incorporates (1) a local graph neural network to predict accurately on varying local structures while maintaining high scalability, and (2) a confidence-based path scheduler that identifies outliers and moves forward the propagation frontier in a prudent way. Experiments on both ImageNet and Ms-Celeb-1M show that our confidence guided framework can significantly improve the overall accuracies of the propagated labels, especially when the graph is very noisy.
翻訳日:2022-11-09 14:07:35 公開日:2020-07-17
# SumGraph: 再帰グラフモデリングによるビデオ要約

SumGraph: Video Summarization via Recursive Graph Modeling ( http://arxiv.org/abs/2007.08809v1 )

ライセンス: Link先を確認
Jungin Park, Jiyoung Lee, Ig-Jae Kim, and Kwanghoon Sohn(参考訳) ビデオ要約の目標は、視覚的に多様なキーフレームを選択し、入力ビデオの全ストーリーを表現することである。 映像要約における最先端のアプローチは、このタスクを全フレームを等重量で集約することで、フレーム単位のキーフレーム選択問題と見なしている。 しかし,映像の情報的部分を見つけるためには,映像のフレームが相互にどのように関連しているかを考える必要がある。 そこで我々は,映像要約をグラフモデリング問題として検討した。 本稿では,ビデオ要約のための再帰的グラフモデリングネットワークであるsumgraphを提案し,フレームをノードとして,ノードをフレーム間の意味的関係で接続する関係グラフを表現する。 我々のネットワークは、グラフ畳み込みネットワークを介してグラフ表現を推論することにより、各ノードをキーフレームとして正しく分類するために、初期推定グラフを洗練するための再帰的アプローチによってこれを達成する。 SumGraphをより実践的な環境で活用するために、教師なしの方法でグラフモデリングを適用する方法も提示する。 sumgraphでは,教師なしと教師なしの両方の方法で,ビデオ要約のためのベンチマークで最先端のパフォーマンスを達成しました。

The goal of video summarization is to select keyframes that are visually diverse and can represent a whole story of an input video. State-of-the-art approaches for video summarization have mostly regarded the task as a frame-wise keyframe selection problem by aggregating all frames with equal weight. However, to find informative parts of the video, it is necessary to consider how all the frames of the video are related to each other. To this end, we cast video summarization as a graph modeling problem. We propose recursive graph modeling networks for video summarization, termed SumGraph, to represent a relation graph, where frames are regarded as nodes and nodes are connected by semantic relationships among frames. Our networks accomplish this through a recursive approach to refine an initially estimated graph to correctly classify each node as a keyframe by reasoning the graph representation via graph convolutional networks. To leverage SumGraph in a more practical environment, we also present a way to adapt our graph modeling in an unsupervised fashion. With SumGraph, we achieved state-of-the-art performance on several benchmarks for video summarization in both supervised and unsupervised manners.
翻訳日:2022-11-09 14:07:13 公開日:2020-07-17
# ポラリメトリック多視点逆レンダリング

Polarimetric Multi-View Inverse Rendering ( http://arxiv.org/abs/2007.08830v1 )

ライセンス: Link先を確認
Jinyu Zhao, Yusuke Monno, Masatoshi Okutomi(参考訳) 偏光カメラは、反射光の偏光角(aop)が物体の表面正常と関係しているため、3次元再構成に大きな可能性がある。 本稿では、入力された多視点カラー偏光画像から抽出した幾何、測光、偏光の手がかりを効果的に活用する、Polarimetric Multi-View Inverse Rendering (Polarimetric MVIR)と呼ばれる新しい3次元再構成手法を提案する。 カメラのポーズと初期3次元モデルとを,標準構造と多視点ステレオパイプラインを用いて幾何学的再構成により推定する。 そこで本研究では,多視点rgbおよびaop画像を用いた光計測とポラリメトリックレンダリングの誤差を最適化し,aop測定から得られた4つの曖昧な方位角を考慮しつつ,各推定面頂点の正常値を効果的に制約できる新しいポラリメトリックレンダリングコスト関数を提案する。 合成データと実データの両方を用いて実験した結果, 偏光式mvirは材料による偏光反射を仮定することなく, 詳細な3次元形状を再現できることがわかった。

A polarization camera has great potential for 3D reconstruction since the angle of polarization (AoP) of reflected light is related to an object's surface normal. In this paper, we propose a novel 3D reconstruction method called Polarimetric Multi-View Inverse Rendering (Polarimetric MVIR) that effectively exploits geometric, photometric, and polarimetric cues extracted from input multi-view color polarization images. We first estimate camera poses and an initial 3D model by geometric reconstruction with a standard structure-from-motion and multi-view stereo pipeline. We then refine the initial model by optimizing photometric and polarimetric rendering errors using multi-view RGB and AoP images, where we propose a novel polarimetric rendering cost function that enables us to effectively constrain each estimated surface vertex's normal while considering four possible ambiguous azimuth angles revealed from the AoP measurement. Experimental results using both synthetic and real data demonstrate that our Polarimetric MVIR can reconstruct a detailed 3D shape without assuming a specific polarized reflection depending on the material.
翻訳日:2022-11-09 14:06:33 公開日:2020-07-17
# ECCV 2020 VIPriorsオブジェクト検出問題に対する第2位ソリューション

2nd Place Solution to ECCV 2020 VIPriors Object Detection Challenge ( http://arxiv.org/abs/2007.08849v1 )

ライセンス: Link先を確認
Yinzheng Gu, Yihan Pan, Shizhe Chen(参考訳) 本稿では,2020年3月から7月にかけて開催されたECCV 2020 VIPriors Object Detection Challengeへのアプローチについて述べる。 最新のデータ拡張戦略,モデル設計,処理後のアンサンブル手法を用いることで,データ不足の難しさを克服し,競争的な結果を得ることができることを示す。 特に,coco 2017の検証セットでは,事前トレーニングや転校の重み付けを行わずに10kのトレーニング画像しか使用せず,36.6$\%$ apを達成した。

In this report, we descibe our approach to the ECCV 2020 VIPriors Object Detection Challenge which took place from March to July in 2020. We show that by using state-of-the-art data augmentation strategies, model designs, and post-processing ensemble methods, it is possible to overcome the difficulty of data shortage and obtain competitive results. Notably, our overall detection system achieves 36.6$\%$ AP on the COCO 2017 validation set using only 10K training images without any pre-training or transfer learning weights ranking us 2nd place in the challenge.
翻訳日:2022-11-09 14:06:11 公開日:2020-07-17
# EPNet:3Dオブジェクト検出のためのイメージセマンティクスによるポイント機能強化

EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection ( http://arxiv.org/abs/2007.08856v1 )

ライセンス: Link先を確認
Tengteng Huang, Zhe Liu, Xiwu Chen and Xiang Bai(参考訳) 本稿では,複数のセンサ(LiDAR点雲とカメラ画像)の活用や,局所化と分類信頼性の整合性など,3次元検出タスクにおける2つの重要な課題に対処することを目的とする。 そこで本稿では,画像アノテーションを使わずに,意味的特徴を伴う点特徴をポイントワイズで拡張する新たな融合モジュールを提案する。 さらに、局所化と分類の信頼性の両方の一貫性を明示的に奨励するために、損失を強制する一貫性が用いられる。 これら2つのコンポーネントを統合するために,EPNetというエンドツーエンドで学習可能なフレームワークを設計する。 KITTIとSUN-RGBDデータセットの大規模な実験は、最先端の手法よりもEPNetの方が優れていることを示している。 コードとモデルは \url{https://github.com/happinesslz/epnet} で利用可能である。

In this paper, we aim at addressing two critical issues in the 3D detection task, including the exploitation of multiple sensors~(namely LiDAR point cloud and camera image), as well as the inconsistency between the localization and classification confidence. To this end, we propose a novel fusion module to enhance the point features with semantic image features in a point-wise manner without any image annotations. Besides, a consistency enforcing loss is employed to explicitly encourage the consistency of both the localization and classification confidence. We design an end-to-end learnable framework named EPNet to integrate these two components. Extensive experiments on the KITTI and SUN-RGBD datasets demonstrate the superiority of EPNet over the state-of-the-art methods. Codes and models are available at: \url{https://github.com/happinesslz/EPNet}.
翻訳日:2022-11-09 14:06:02 公開日:2020-07-17
# 画像分類におけるベースデータセット設計の影響

Impact of base dataset design on few-shot image classification ( http://arxiv.org/abs/2007.08872v1 )

ライセンス: Link先を確認
Othman Sbai, Camille Couprie and Mathieu Aubry(参考訳) 深層画像の特徴の品質と一般性は、彼らがトレーニングしたデータによって決定的に決定されるが、この効果についてはあまり知られていない。 そこで本研究では, 異なる画像集合で訓練された深部特徴を評価し, 訓練データの変化の影響を系統的に検討する。 私たちが定義する実験プロトコルは、重要な実用的疑問を探求することができる。 ベースクラスとテストクラスの類似性の影響はどのようなものか? 固定されたアノテーション予算が与えられた場合、クラス毎の画像数とクラス数との最適なトレードオフは何ですか? 固定データセットが与えられた場合、異なるクラスを分割または組み合わせることで、機能を改善することができるか? シンプルなクラスや多様なクラスに注釈を付けるべきか? 幅広い実験において、ミニイメージネット、イメージネット、CUB-200ベンチマークでこれらの疑問に対する明確な答えを提供する。 また,基本データセットの設計は,単純なベースラインを最先端のartアルゴリズムに置き換えるよりも,少数ショット分類のパフォーマンスを劇的に改善できることを示す。

The quality and generality of deep image features is crucially determined by the data they have been trained on, but little is known about this often overlooked effect. In this paper, we systematically study the effect of variations in the training data by evaluating deep features trained on different image sets in a few-shot classification setting. The experimental protocol we define allows to explore key practical questions. What is the influence of the similarity between base and test classes? Given a fixed annotation budget, what is the optimal trade-off between the number of images per class and the number of classes? Given a fixed dataset, can features be improved by splitting or combining different classes? Should simple or diverse classes be annotated? In a wide range of experiments, we provide clear answers to these questions on the miniImageNet, ImageNet and CUB-200 benchmarks. We also show how the base dataset design can improve performance in few-shot classification more drastically than replacing a simple baseline by an advanced state of the art algorithm.
翻訳日:2022-11-09 14:05:49 公開日:2020-07-17
# 医用画像分割のためのスーパーピクセル誘導ラベル軟化

Superpixel-Guided Label Softening for Medical Image Segmentation ( http://arxiv.org/abs/2007.08897v1 )

ライセンス: Link先を確認
Hang Li, Dong Wei, Shilei Cao, Kai Ma, Liansheng Wang, and Yefeng Zheng(参考訳) 興味の対象のセグメンテーションは、定量的分析に欠かせない医療画像解析における中心的な課題の1つである。 自動セグメンテーションのための機械学習ベースの手法を開発する場合、手動アノテーションは通常モデルが模倣することを学ぶ基礎的真実として使用される。 セグメンテーションターゲットのバルク部分のラベル付けは比較的容易であるが、周辺領域は曖昧な境界や部分体積効果などのために扱いにくいことが多く、不確実性でラベル付けされる可能性がある。 このラベル付けの不確実性は、訓練されたモデルの不満足な性能をもたらす可能性がある。 本稿では,上述の問題に対処するために,スーパーピクセルベースのラベル軟化を提案する。 教師なしのオーバーセグメンテーションによって生成される、各スーパーピクセルは局所的に均質な領域を表すことが期待される。 超画素がアノテーション境界と交わる場合、この領域における不確定なラベル付けの確率が高いと考えられる。 この直感によって、この領域のラベルはアノテーション境界への符号付き距離に基づいて軟化され、[0, 1] 内の確率値は 0 または 1 の元の「ハード」バイナリラベルと比較される。 軟化ラベルは、ハードラベルと共にセグメンテーションモデルを訓練するために使用される。 脳MRIデータセットと光コヒーレンストモグラフィーデータセットの実験結果から、この概念的にシンプルで実装的にも容易な手法は、ベースラインと2次元の医用画像の総合的に優れたセグメンテーション性能を実現する。

Segmentation of objects of interest is one of the central tasks in medical image analysis, which is indispensable for quantitative analysis. When developing machine-learning based methods for automated segmentation, manual annotations are usually used as the ground truth toward which the models learn to mimic. While the bulky parts of the segmentation targets are relatively easy to label, the peripheral areas are often difficult to handle due to ambiguous boundaries and the partial volume effect, etc., and are likely to be labeled with uncertainty. This uncertainty in labeling may, in turn, result in unsatisfactory performance of the trained models. In this paper, we propose superpixel-based label softening to tackle the above issue. Generated by unsupervised over-segmentation, each superpixel is expected to represent a locally homogeneous area. If a superpixel intersects with the annotation boundary, we consider a high probability of uncertain labeling within this area. Driven by this intuition, we soften labels in this area based on signed distances to the annotation boundary and assign probability values within [0, 1] to them, in comparison with the original "hard", binary labels of either 0 or 1. The softened labels are then used to train the segmentation models together with the hard labels. Experimental results on a brain MRI dataset and an optical coherence tomography dataset demonstrate that this conceptually simple and implementation-wise easy method achieves overall superior segmentation performances to baseline and comparison methods for both 3D and 2D medical images.
翻訳日:2022-11-09 14:05:10 公開日:2020-07-17
# VIPriors Challengeのためのエッジ保存ガイドセマンティックセマンティックセグメンテーション

Edge-Preserving Guided Semantic Segmentation for VIPriors Challenge ( http://arxiv.org/abs/2007.08919v1 )

ライセンス: Link先を確認
Chih-Chung Hsu and Hsin-Ti Ma(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおける最も魅力的な研究分野の1つである。 VIPriorsチャレンジでは、限られた数のトレーニングサンプルしか許されず、現在の最先端およびディープラーニングベースのセマンティックセマンティックセグメンテーション技術は、うまくトレーニングすることが難しい。 そこで我々は,この欠点を克服するために,大規模トレーニングデータセットの過度な適合を回避するために,事前情報を取得するためのエッジ保存ガイダンスを提案する。 まず、従来のセマンティックセグメンテーションネットワークの最後の層に、2チャンネルの畳み込み層を連結する。 そして、ソベル演算により、接地真理からエッジマップを算出し、その後、ハードスレッディング操作を連結して、画素がエッジであるか否かを示す。 次に、予測されたエッジマップとその基底真理の間の損失を計算するため、2次元のクロスエントロピー損失をエッジ保存損失と呼ぶ。 このようにして、異なるインスタンス間の境界の連続性は、提案されたエッジ保存損失によって強制される。 提案手法は,最先端のセマンティクスセグメンテーション手法と比較して,小規模トレーニングセットで優れた性能が得られることを示す。

Semantic segmentation is one of the most attractive research fields in computer vision. In the VIPriors challenge, only very limited numbers of training samples are allowed, leading to that the current state-of-the-art and deep learning-based semantic segmentation techniques are hard to train well. To overcome this shortcoming, therefore, we propose edge-preserving guidance to obtain the extra prior information, to avoid the overfitting under small-scale training dataset. First, a two-channeled convolutional layer is concatenated to the last layer of the conventional semantic segmentation network. Then, an edge map is calculated from the ground truth by Sobel operation and followed by concatenating a hard-thresholding operation to indicate whether the pixel is the edge or not. Then, the two-dimensional cross-entropy loss is adopted to calculate the loss between the predicted edge map and its ground truth, termed as an edge-preserving loss. In this way, the continuity of boundaries between different instances can be forced by the proposed edge-preserving loss. Experiments demonstrate that the proposed method can achieve excellent performance under small-scale training set, compared to state-of-the-art semantic segmentation techniques.
翻訳日:2022-11-09 14:04:46 公開日:2020-07-17
# エンド・ツー・エンドのDeep PrototypeおよびExemplar Modelによる人間の行動予測

End-to-end Deep Prototype and Exemplar Models for Predicting Human Behavior ( http://arxiv.org/abs/2007.08723v1 )

ライセンス: Link先を確認
Pulkit Singh, Joshua C. Peterson, Ruairidh M. Battleday, Thomas L. Griffiths(参考訳) 心理学におけるカテゴリー学習の伝統的なモデルは、刺激レベルとは対照的にカテゴリーレベルでの表現に焦点を当てている。 このようなモデルで使用される刺激表現は、実験者によって手作業で設計され、人間の判断から回路的に推論されるか、あるいはカテゴリ学習の競合モデルである事前訓練されたディープニューラルネットワークから借用される。 本研究では,古典的プロトタイプと模範モデルを拡張し,刺激とカテゴリー表現を生入力から併用して学習する。 この新しいモデルのクラスは、ディープニューラルネットワーク(DNN)とトレーニングされたエンドツーエンドによってパラメータ化できる。 それらの名前に倣って、Deep Prototype Models、Deep Exemplar Models、Deep Gaussian Mixture Modelsと呼ぶ。 典型的なDNNと比較して、認知にインスパイアされた両者が、人間の行動により良い本質的な適応と、地道的分類の改善をもたらすことがわかった。

Traditional models of category learning in psychology focus on representation at the category level as opposed to the stimulus level, even though the two are likely to interact. The stimulus representations employed in such models are either hand-designed by the experimenter, inferred circuitously from human judgments, or borrowed from pretrained deep neural networks that are themselves competing models of category learning. In this work, we extend classic prototype and exemplar models to learn both stimulus and category representations jointly from raw input. This new class of models can be parameterized by deep neural networks (DNN) and trained end-to-end. Following their namesakes, we refer to them as Deep Prototype Models, Deep Exemplar Models, and Deep Gaussian Mixture Models. Compared to typical DNNs, we find that their cognitively inspired counterparts both provide better intrinsic fit to human behavior and improve ground-truth classification.
翻訳日:2022-11-09 13:59:35 公開日:2020-07-17
# 神経画像における病変特徴と手続きバイアスの活用:逆スケール空間のデュアルタスクスプリットダイナミクス

Leveraging both Lesion Features and Procedural Bias in Neuroimaging: An Dual-Task Split dynamics of inverse scale space ( http://arxiv.org/abs/2007.08740v1 )

ライセンス: Link先を確認
Xinwei Sun, Wenjing Han, Lingjing Hu, Yuan Yao, Yizhou Wang(参考訳) voxelに基づく神経画像解析において,病変の予測と選択は2つの重要な課題である。 既存の多変量学習モデルは2つのタスクを同等に、同時に最適化する。 しかし,病変の特徴に加えて,前処理の手順中に一般的に導入される他のタイプの特徴も観察され,予測結果の改善が期待できる。 このような特徴を手続きバイアスと呼んでいます。 そこで本稿では,神経画像データの特徴/ボクセルを,病変,手続きバイアス,ヌル特徴の3つの直交部から構成する。 病変の特徴を安定的に選択し,手続きバイアスを予測に活用するために,変数分割スキームと線形化ブレグマン反復(lbi)を組み合わせた逆スケール空間の微分包含の離散化として,反復アルゴリズム(gsplit lbi)を提案する。 具体的には、変数分割項では、2つの推定器が導入されて分割される。1つは特徴選択(スパース推定器)、もう1つは予測(高密度推定器)である。 リニアライズド・ブレグマン・イテレーション(LBI)を用いて、両方の推定器の解経路をスパース推定器に異なる間隔で戻すことで、病変の特徴の選定を行うことができる。 さらに、密集した推定器は手続きバイアスを付加して予測結果をさらに改善することができる。 本手法の有効性を検証するために、シミュレーション研究とアルツハイマー病神経画像イニシアチブ(ADNI)データベースの実験を行った。 本モデルの有効性と有用性は,予測結果の改善と,手続きバイアスの可視化と病変の特徴の解釈によって示される。

The prediction and selection of lesion features are two important tasks in voxel-based neuroimage analysis. Existing multivariate learning models take two tasks equivalently and optimize simultaneously. However, in addition to lesion features, we observe that there is another type of feature, which is commonly introduced during the procedure of preprocessing steps, which can improve the prediction result. We call such a type of feature as procedural bias. Therefore, in this paper, we propose that the features/voxels in neuroimage data are consist of three orthogonal parts: lesion features, procedural bias, and null features. To stably select lesion features and leverage procedural bias into prediction, we propose an iterative algorithm (termed GSplit LBI) as a discretization of differential inclusion of inverse scale space, which is the combination of Variable Splitting scheme and Linearized Bregman Iteration (LBI). Specifically, with a variable the splitting term, two estimators are introduced and split apart, i.e. one is for feature selection (the sparse estimator) and the other is for prediction (the dense estimator). Implemented with Linearized Bregman Iteration (LBI), the solution path of both estimators can be returned with different sparsity levels on the sparse estimator for the selection of lesion features. Besides, the dense the estimator can additionally leverage procedural bias to further improve prediction results. To test the efficacy of our method, we conduct experiments on the simulated study and Alzheimer's Disease Neuroimaging Initiative (ADNI) database. The validity and the benefit of our model can be shown by the improvement of prediction results and the interpretability of visualized procedural bias and lesion features.
翻訳日:2022-11-09 13:59:17 公開日:2020-07-17
# Sketching Image Gist: 人間のミメティックな階層的なシーングラフ生成

Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation ( http://arxiv.org/abs/2007.08760v1 )

ライセンス: Link先を確認
Wenbin Wang, Ruiping Wang, Shiguang Shan, Xilin Chen(参考訳) scene graphは、画像コンテンツに対する人間の認識を忠実に明らかにすることを目的としている。 人間がシーンを分析するとき、彼らは通常、まず画像ジェスト、すなわち主要なオブジェクトとシーングラフの重要な関係を記述することを好む。 この人間固有の知覚的習慣は、シーン解析中に人間の嗜好に関する階層構造が存在することを意味する。 そこで我々は,望ましいシーングラフを階層的に構築し,シーングラフをモデル化するための新しい手法を提案する。 具体的には、シーンは一連の画像領域からなる人間模倣階層エンティティツリー(het)によって表現される。 HETに基づくシーングラフを生成するために,HETに埋め込まれた構造化情報を取得するために,階層構造と兄弟関係を具体的に符号化したHETをHybrid-LSTM(Hybrid-LSTM)で解析する。 シーングラフの重要関係を更に優先順位付けするために,関係ランキングモジュール(rrm)を考案し,人間の主観的知覚習慣を客観的なエンティティ・サリエンシーとサイズから捉えることにより,そのランキングを動的に調整する。 実験により,提案手法はシーングラフ生成の最先端性能を実現するだけでなく,下流タスクに重要な役割を果たす画像固有関係を抽出できることを示す。

Scene graph aims to faithfully reveal humans' perception of image content. When humans analyze a scene, they usually prefer to describe image gist first, namely major objects and key relations in a scene graph. This humans' inherent perceptive habit implies that there exists a hierarchical structure about humans' preference during the scene parsing procedure. Therefore, we argue that a desirable scene graph should be also hierarchically constructed, and introduce a new scheme for modeling scene graph. Concretely, a scene is represented by a human-mimetic Hierarchical Entity Tree (HET) consisting of a series of image regions. To generate a scene graph based on HET, we parse HET with a Hybrid Long Short-Term Memory (Hybrid-LSTM) which specifically encodes hierarchy and siblings context to capture the structured information embedded in HET. To further prioritize key relations in the scene graph, we devise a Relation Ranking Module (RRM) to dynamically adjust their rankings by learning to capture humans' subjective perceptive habits from objective entity saliency and size. Experiments indicate that our method not only achieves state-of-the-art performances for scene graph generation, but also is expert in mining image-specific relations which play a great role in serving downstream tasks.
翻訳日:2022-11-09 13:58:38 公開日:2020-07-17
# AE-Net:人間の認知メカニズムに触発された自律的進化画像融合法

AE-Net: Autonomous Evolution Image Fusion Method Inspired by Human Cognitive Mechanism ( http://arxiv.org/abs/2007.08763v1 )

ライセンス: Link先を確認
Aiqing Fang, Xinbo Zhao, Jiaqi Yang, Shihao Cao, Yanning Zhang(参考訳) 人間の脳認知機構に触発された画像融合タスクの堅牢性と一般性問題を解決するために,自律的な進化能力を持つ頑健で汎用的な画像融合手法を提案し,AE-Netで表現する。 人間の脳の認知過程をシミュレートする複数の画像融合法の協調的最適化により、非教師あり学習画像融合タスクを半教師あり画像融合タスクまたは教師あり画像融合タスクに変換し、ネットワークモデル重みの進化能力を促進することができる。 まず、人間の脳認知機構と画像融合タスクの関係を分析し、人間の脳認知機構をシミュレートする物理モデルを構築した。 次に,既存の画像融合法と画像融合損失関数を分析し,相補的な特徴を持つ画像融合法を選択し,アルゴリズムモジュールを構築し,マルチロス共同評価関数を確立し,アルゴリズムモジュールの最適解を得る。 各画像の最適解は、ネットワークモデルの重量トレーニングを導くために使用される。 画像融合法は, 画像融合タスクと画像融合タスクを効果的に統合し, 異なるデータセット間のデータ分布の違いを効果的に克服することができる。 最後に,マルチフォーカスデータセット,赤外線およびビシブルデータセット,医用画像データセット,マルチエクスプロイアデータセットなど,様々な画像融合データセットにおいて,本手法の有効性と優位性を検証する。 総合実験により, 画像融合法が強靭性と汎用性に優れていることを示す。 さらに、実験結果は、画像融合の堅牢性と汎用性を改善するための人間の脳認知メカニズムの有効性を実証する。

In order to solve the robustness and generality problems of the image fusion task,inspired by the human brain cognitive mechanism, we propose a robust and general image fusion method with autonomous evolution ability, and is therefore denoted with AE-Net. Through the collaborative optimization of multiple image fusion methods to simulate the cognitive process of human brain, unsupervised learning image fusion task can be transformed into semi-supervised image fusion task or supervised image fusion task, thus promoting the evolutionary ability of network model weight. Firstly, the relationship between human brain cognitive mechanism and image fusion task is analyzed and a physical model is established to simulate human brain cognitive mechanism. Secondly, we analyze existing image fusion methods and image fusion loss functions, select the image fusion method with complementary features to construct the algorithm module, establish the multi-loss joint evaluation function to obtain the optimal solution of algorithm module. The optimal solution of each image is used to guide the weight training of network model. Our image fusion method can effectively unify the cross-modal image fusion task and the same modal image fusion task, and effectively overcome the difference of data distribution between different datasets. Finally, extensive numerical results verify the effectiveness and superiority of our method on a variety of image fusion datasets, including multi-focus dataset, infrared and visi-ble dataset, medical image dataset and multi-exposure dataset. Comprehensive experiments demonstrate the superiority of our image fusion method in robustness and generality. In addition, experimental results also demonstate the effectiveness of human brain cognitive mechanism to improve the robustness and generality of image fusion.
翻訳日:2022-11-09 13:58:03 公開日:2020-07-17
# ハイパースペクトルデータの空間スペクトルマニフォールド埋め込み

Spatial-Spectral Manifold Embedding of Hyperspectral Data ( http://arxiv.org/abs/2007.08767v1 )

ライセンス: Link先を確認
Danfeng Hong and Jing Yao and Xin Wu and Jocelyn Chanussot and Xiao Xiang Zhu(参考訳) 近年、イメージングスペクトロスコピーとしても知られる超スペクトルイメージングは、地球科学とリモートセンシングコミュニティの関心が高まっている。 ハイパースペクトル画像は、非常に豊富なスペクトル情報によって特徴付けられるため、地球表面にある興味のある物質をより容易に認識することができる。 しかし、高いスペクトル次元は必然的に、高価なデータストレージや送信、情報冗長性などいくつかの欠点をもたらすことを認めなければならない。 そこで本稿では,スペクトル次元を効果的に低減し,より差別的なスペクトルの低次元埋め込みを学習するために,空間的およびスペクトル的情報を同時に考慮した新しいハイパースペクトル埋め込み手法を提案する。 画素単位のスペクトル埋め込みアプローチの他に、SSMEはパッチベースの方法で空間情報とスペクトル情報を共同でモデル化する。 SSMEは、スペクトルシグネチャ間の類似度測定によって得られた隣接行列を用いてスペクトル埋め込みを学習するだけでなく、埋め込みを学ぶ過程で同じ重み(またはエッジ)を共有することにより、ハイパースペクトルシーンにおける対象画素の空間近傍をモデル化する。 分類は,学習した埋め込み表現の性能を定量的に評価するための潜在的戦略として検討される。 分類はこれらのハイパースペクトル埋め込みアルゴリズムの性能を定量的に評価するための潜在的応用として検討されている。 広範に使用されているハイパースペクトルデータセットに対して行われた大規模な実験は、いくつかの最先端の埋め込み手法と比較して提案されたSSMEの優位性と有効性を示した。

In recent years, hyperspectral imaging, also known as imaging spectroscopy, has been paid an increasing interest in geoscience and remote sensing community. Hyperspectral imagery is characterized by very rich spectral information, which enables us to recognize the materials of interest lying on the surface of the Earth more easier. We have to admit, however, that high spectral dimension inevitably brings some drawbacks, such as expensive data storage and transmission, information redundancy, etc. Therefore, to reduce the spectral dimensionality effectively and learn more discriminative spectral low-dimensional embedding, in this paper we propose a novel hyperspectral embedding approach by simultaneously considering spatial and spectral information, called spatial-spectral manifold embedding (SSME). Beyond the pixel-wise spectral embedding approaches, SSME models the spatial and spectral information jointly in a patch-based fashion. SSME not only learns the spectral embedding by using the adjacency matrix obtained by similarity measurement between spectral signatures, but also models the spatial neighbours of a target pixel in hyperspectral scene by sharing the same weights (or edges) in the process of learning embedding. Classification is explored as a potential strategy to quantitatively evaluate the performance of learned embedding representations. Classification is explored as a potential application for quantitatively evaluating the performance of these hyperspectral embedding algorithms. Extensive experiments conducted on the widely-used hyperspectral datasets demonstrate the superiority and effectiveness of the proposed SSME as compared to several state-of-the-art embedding methods.
翻訳日:2022-11-09 13:57:35 公開日:2020-07-17
# 行方不明・不審な車検出のための深層学習に基づく交通監視システム

Deep Learning Based Traffic Surveillance System For Missing and Suspicious Car Detection ( http://arxiv.org/abs/2007.08783v1 )

ライセンス: Link先を確認
K.V. Kadambari, Vishnu Vardhan Nimmalapudi(参考訳) 自動車盗難は、インドで最も急成長している犯罪の1つだ。 都市部の一部では、車両盗難事件は1日あたり約100件とされている。 このような不安定なシナリオでは、手動チェックやrfid(radio frequency identification)ベースの技術を用いた盗難車両の識別は不可能である。 本稿では,cctvカメラ映像から盗難車や盗車を検出するための,ディープラーニングを用いた自動交通監視システムを提案する。 Select-Detector, Image Quality Enhancer, Image Transformer, Smart Recognizerの4つの部分で構成されている。 Select-Detectorは、車両を含むフレームを抽出し、最小時間複雑さでライセンスプレートをはるかに効率的に検出するために使用される。 ライセンスプレートの品質は、低光や影などの時間的変化の影響を受けやすいライセンスプレートを強化するために、ピクセル生成逆数ネットワーク(GAN)を使用する画像品質エンハンサーを用いて向上される。 画像トランスフォーマは、ライセンスプレートを異なる回転や切り込みのレベルに変換することで、水平(角度)でないナンバープレートの非効率な認識問題に対処するために使用される。 Smart RecognizerはTesseract光文字認識(OCR)を用いてライセンスプレート番号を認識し、エラー検出器を用いて誤認識文字を補正する。 提案手法の有効性は、政府のCCTVカメラの映像で検証され、盗難・盗難車両を87%の精度で識別する結果となった。

Vehicle theft is arguably one of the fastest-growing types of crime in India. In some of the urban areas, vehicle theft cases are believed to be around 100 each day. Identification of stolen vehicles in such precarious scenarios is not possible using traditional methods like manual checking and radio frequency identification(RFID) based technologies. This paper presents a deep learning based automatic traffic surveillance system for the detection of stolen/suspicious cars from the closed circuit television(CCTV) camera footage. It mainly comprises of four parts: Select-Detector, Image Quality Enhancer, Image Transformer, and Smart Recognizer. The Select-Detector is used for extracting the frames containing vehicles and to detect the license plates much efficiently with minimum time complexity. The quality of the license plates is then enhanced using Image Quality Enhancer which uses pix2pix generative adversarial network(GAN) for enhancing the license plates that are affected by temporal changes like low light, shadow, etc. Image Transformer is used to tackle the problem of inefficient recognition of license plates which are not horizontal(which are at an angle) by transforming the license plate to different levels of rotation and cropping. Smart Recognizer recognizes the license plate number using Tesseract optical character recognition(OCR) and corrects the wrongly recognized characters using Error-Detector. The effectiveness of the proposed approach is tested on the government's CCTV camera footage, which resulted in identifying the stolen/suspicious cars with an accuracy of 87%.
翻訳日:2022-11-09 13:56:53 公開日:2020-07-17
# 人物再同定における不確実性モデリングの学習と学習

Learning Posterior and Prior for Uncertainty Modeling in Person Re-Identification ( http://arxiv.org/abs/2007.08785v1 )

ライセンス: Link先を確認
Yan Zhang, Zhilin Zheng, Binyu He, Li Sun(参考訳) 実用上のreidにおけるデータ不確実性はユビキタスであるため、識別的特徴の学習だけでなく、入力に基づく不確実性をモデル化する必要がある。 本稿では, サンプル後部分布とクラス先行分布を潜在空間で学習し, 代表的特徴だけでなく, モデルによって不確実性を構築することを提案する。 前者は、同じクラスのすべてのデータの分布を反映しており、トレーニング可能なモデルパラメータである。 後方が単一のサンプルの確率密度であるのに対して、実際には入力で定義される特徴である。 どちらもガウス形式であると仮定する。 これらを同時にモデル化するため,我々はKLの後方から後方への分岐を教師あり学習の方法で測定する分布損失を提示した。 加えて、本質的に不確実性である後方分散が二階特性を持つものと仮定する。 したがって、$\Sigma-$netは入力から高次表現によって計算するために提案される。 Market1501、DukeMTMC、MARS、ノイズデータセットでも大規模な実験が行われた。

Data uncertainty in practical person reID is ubiquitous, hence it requires not only learning the discriminative features, but also modeling the uncertainty based on the input. This paper proposes to learn the sample posterior and the class prior distribution in the latent space, so that not only representative features but also the uncertainty can be built by the model. The prior reflects the distribution of all data in the same class, and it is the trainable model parameters. While the posterior is the probability density of a single sample, so it is actually the feature defined on the input. We assume that both of them are in Gaussian form. To simultaneously model them, we put forward a distribution loss, which measures the KL divergence from the posterior to the priors in the manner of supervised learning. In addition, we assume that the posterior variance, which is essentially the uncertainty, is supposed to have the second-order characteristic. Therefore, a $\Sigma-$net is proposed to compute it by the high order representation from its input. Extensive experiments have been carried out on Market1501, DukeMTMC, MARS and noisy dataset as well.
翻訳日:2022-11-09 13:56:29 公開日:2020-07-17
# Pose-Attentive Video Reassemblingによる任意物体のクロスアイデンティティ移動

Cross-Identity Motion Transfer for Arbitrary Objects through Pose-Attentive Video Reassembling ( http://arxiv.org/abs/2007.08786v1 )

ライセンス: Link先を確認
Subin Jeon, Seonghyeon Nam, Seoung Wug Oh, Seon Joo Kim(参考訳) 任意の物体間の動きを伝達するための注意に基づくネットワークを提案する。 ソース画像とドライビングビデオが与えられた場合、このネットワークは、ドライビングビデオの動作に応じて、ソース画像中の被写体をアニメーション化する。 注意機構では、ソース画像から出現情報を取得するために、ソース内の学習されたキーポイントと駆動画像との密接な類似度を算出する。 十分に研究されたワーピングベースのモデルとは異なるアプローチをとると、注意に基づくモデルにはいくつかの利点があります。 ソースコンテンツから非局所的に探索された部分を再組み立てすることで、よりリアルな出力が得られる。 さらに,本システムでは,音源の外観(顔の前面や側面など)を複数観測することで,より正確な結果が得られる。 自己教師型学習の訓練試験誤差を低減するため、新しいクロスアイデンティティトレーニングスキームが導入された。 トレーニング計画では、実際のテストシナリオのように、ネットワークは異なる被験者間で動きを伝達するように訓練されます。 実験により,本手法は様々な対象領域において視覚的に満足な結果をもたらすことが確認された。

We propose an attention-based networks for transferring motions between arbitrary objects. Given a source image(s) and a driving video, our networks animate the subject in the source images according to the motion in the driving video. In our attention mechanism, dense similarities between the learned keypoints in the source and the driving images are computed in order to retrieve the appearance information from the source images. Taking a different approach from the well-studied warping based models, our attention-based model has several advantages. By reassembling non-locally searched pieces from the source contents, our approach can produce more realistic outputs. Furthermore, our system can make use of multiple observations of the source appearance (e.g. front and sides of faces) to make the results more accurate. To reduce the training-testing discrepancy of the self-supervised learning, a novel cross-identity training scheme is additionally introduced. With the training scheme, our networks is trained to transfer motions between different subjects, as in the real testing scenario. Experimental results validate that our method produces visually pleasing results in various object domains, showing better performances compared to previous works.
翻訳日:2022-11-09 13:56:12 公開日:2020-07-17
# 学習画像圧縮のためのチャネルワイド自己回帰エントロピーモデル

Channel-wise Autoregressive Entropy Models for Learned Image Compression ( http://arxiv.org/abs/2007.08739v1 )

ライセンス: Link先を確認
David Minnen and Saurabh Singh(参考訳) 画像圧縮の学習に基づくアプローチでは、レートゆがみ目標を最小化するために計算モデルを最適化することでコーデックが開発されている。 現在、最も効果的に学習された画像コーデックはエントロピー制約付きオートエンコーダであり、前方と後方の両方の適応を用いたエントロピーモデルである。 フォワード適応はサイド情報を利用し、ディープニューラルネットワークに効率的に統合することができる。 対照的に、後方適応は通常各シンボルの因果関係に基づいて予測を行い、効率的なgpu/tpu使用を防止するシリアル処理を必要とする。 本稿では、チャネル条件と遅延残差予測という2つの拡張を導入し、シリアル処理を最小化しつつ、既存のコンテキスト適応モデルよりも高いレート歪み性能を持つネットワークアーキテクチャを提案する。 経験的に、コダック画像セットの平均レート節約率は6.7%、テクニック画像セットでは11.4%である。 改善がもっとも効果的である低ビットレートでは、私たちのモデルはベースラインを最大18%節約し、BPGのような手書きコーデックを最大25%上回ります。

In learning-based approaches to image compression, codecs are developed by optimizing a computational model to minimize a rate-distortion objective. Currently, the most effective learned image codecs take the form of an entropy-constrained autoencoder with an entropy model that uses both forward and backward adaptation. Forward adaptation makes use of side information and can be efficiently integrated into a deep neural network. In contrast, backward adaptation typically makes predictions based on the causal context of each symbol, which requires serial processing that prevents efficient GPU / TPU utilization. We introduce two enhancements, channel-conditioning and latent residual prediction, that lead to network architectures with better rate-distortion performance than existing context-adaptive models while minimizing serial processing. Empirically, we see an average rate savings of 6.7% on the Kodak image set and 11.4% on the Tecnick image set compared to a context-adaptive baseline model. At low bit rates, where the improvements are most effective, our model saves up to 18% over the baseline and outperforms hand-engineered codecs like BPG by up to 25%.
翻訳日:2022-11-09 13:49:22 公開日:2020-07-17
# アナログドメインにおけるプライバシー保護型分散学習

Privacy-Preserving Distributed Learning in the Analog Domain ( http://arxiv.org/abs/2007.08803v1 )

ライセンス: Link先を確認
Mahdi Soleymani, Hessam Mahdavifar, A. Salman Avestimehr(参考訳) 計算サーバからプライベートに保ちながら,データによる分散学習の重要課題を考える。 この問題に対する最先端のアプローチは、データを有限フィールドに定量化することに依存するため、セキュアなマルチパーティコンピューティングのための暗号的アプローチを採用することができる。 しかし、これらの手法はデータの固定点表現と計算オーバーフローによる精度の低下をもたらす可能性がある。 これらの問題に対処するために,データ領域がアナログ領域である場合,例えば実/複素数体である場合の問題を解く新しいアルゴリズムを提案する。 アナログ領域における2つの概念の関連性を確立しつつ、情報理論と暗号の両方の観点からデータのプライバシーを特徴付ける。 より具体的には、区別セキュリティ(DS)と相互情報セキュリティ(MIS)メトリクスとのよく知られた接続は、離散ドメインから連続ドメインへと拡張される。 次に、DSメトリックの観点から、この手法を用いて、相関ノイズのあるシングルインプットマルチアウトプット(SIMO)チャネルのキャパシティに関するよく知られた結果を用いて、プロトコル内のサーバにリークしたデータに関する情報をバインドする。 浮動小数点数を用いてデータを表現する場合,提案フレームワークを用いて計算処理を行う方法を示す。 そして、これがデータのプライバシーレベルと結果の正確性の間に根本的なトレードオフをもたらすことを示す。 アプリケーションとして、トレーニングされたモデルと同様にデータをプライベートに保ちながら、機械学習モデルをトレーニングする方法を示す。 次に、MNISTデータセットの実験結果を示す。 さらに、有限体上の不動点実装と比較して実験的な利点が示される。

We consider the critical problem of distributed learning over data while keeping it private from the computational servers. The state-of-the-art approaches to this problem rely on quantizing the data into a finite field, so that the cryptographic approaches for secure multiparty computing can then be employed. These approaches, however, can result in substantial accuracy losses due to fixed-point representation of the data and computation overflows. To address these critical issues, we propose a novel algorithm to solve the problem when data is in the analog domain, e.g., the field of real/complex numbers. We characterize the privacy of the data from both information-theoretic and cryptographic perspectives, while establishing a connection between the two notions in the analog domain. More specifically, the well-known connection between the distinguishing security (DS) and the mutual information security (MIS) metrics is extended from the discrete domain to the continues domain. This is then utilized to bound the amount of information about the data leaked to the servers in our protocol, in terms of the DS metric, using well-known results on the capacity of single-input multiple-output (SIMO) channel with correlated noise. It is shown how the proposed framework can be adopted to do computation tasks when data is represented using floating-point numbers. We then show that this leads to a fundamental trade-off between the privacy level of data and accuracy of the result. As an application, we also show how to train a machine learning model while keeping the data as well as the trained model private. Then numerical results are shown for experiments on the MNIST dataset. Furthermore, experimental advantages are shown comparing to fixed-point implementations over finite fields.
翻訳日:2022-11-09 13:48:47 公開日:2020-07-17
# ニューラルマシン翻訳のためのグラフベース多モード融合エンコーダ

A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation ( http://arxiv.org/abs/2007.08742v1 )

ライセンス: Link先を確認
Yongjing Yin, Fandong Meng, Jinsong Su, Chulun Zhou, Zhengyuan Yang, Jie Zhou, Jiebo Luo(参考訳) マルチモーダルニューラルネットワーク翻訳(NMT)は、原文を画像と組み合わせたターゲット言語に翻訳することを目的としている。 しかし、支配的なマルチモーダルNMTモデルは、多モーダル表現学習を洗練させる可能性がある異なるモーダルのセマンティックユニット間の微細な意味対応を完全に活用していない。 本稿では,NMTのための新しいグラフベースのマルチモーダルフュージョンエンコーダを提案する。 具体的には,複数モーダル意味単位(単語と視覚オブジェクト)間の様々な意味関係を捉えた統合マルチモーダルグラフを用いて,まず入力文と画像を表現する。 次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。 最後に、これらの表現はデコーダの注意に基づくコンテキストベクトルを提供する。 提案するエンコーダをマルチ30kデータセット上で評価する。 実験結果と深度解析により,マルチモーダルNMTモデルの優位性を示した。

Multi-modal neural machine translation (NMT) aims to translate source sentences into a target language paired with images. However, dominant multi-modal NMT models do not fully exploit fine-grained semantic correspondences between semantic units of different modalities, which have potential to refine multi-modal representation learning. To deal with this issue, in this paper, we propose a novel graph-based multi-modal fusion encoder for NMT. Specifically, we first represent the input sentence and image using a unified multi-modal graph, which captures various semantic relationships between multi-modal semantic units (words and visual objects). We then stack multiple graph-based multi-modal fusion layers that iteratively perform semantic interactions to learn node representations. Finally, these representations provide an attention-based context vector for the decoder. We evaluate our proposed encoder on the Multi30K datasets. Experimental results and in-depth analysis show the superiority of our multi-modal NMT model.
翻訳日:2022-11-09 13:48:06 公開日:2020-07-17
# 語彙化クロス言語転写パターンを用いたインド・ヨーロッパ10言語の家系図の構築

Constructing a Family Tree of Ten Indo-European Languages with Delexicalized Cross-linguistic Transfer Patterns ( http://arxiv.org/abs/2007.09076v1 )

ライセンス: Link先を確認
Yuanyuan Zhao, Weiwei Sun and Xiaojun Wan(参考訳) 歴史的言語学者やタイポロジーが定式化した発散パターンは人間の言語に対する制約を反映しており、従ってある種の方法で第二言語習得(SLA)と整合しているという仮説は妥当である。 本稿では,インド・ヨーロッパ語10言語について,この仮説を検証する。 本稿では,構文解析と文法インダクション技術を適用し,webデータから自動的に誘導されるツリー・トゥ・ストリングパターンおよびツリー・トゥ・ツリーパターンとして語彙化変換を定式化する。 これにより、言語間移動を定量的に探索し、SLAの問い合わせを拡張することができる。 混合特徴を利用した既存の作品を拡張し, 歴史的比較パラダイムによる系統構造と, 言語間移動の両立を支援する。

It is reasonable to hypothesize that the divergence patterns formulated by historical linguists and typologists reflect constraints on human languages, and are thus consistent with Second Language Acquisition (SLA) in a certain way. In this paper, we validate this hypothesis on ten Indo-European languages. We formalize the delexicalized transfer as interpretable tree-to-string and tree-to-tree patterns which can be automatically induced from web data by applying neural syntactic parsing and grammar induction technologies. This allows us to quantitatively probe cross-linguistic transfer and extend inquiries of SLA. We extend existing works which utilize mixed features and support the agreement between delexicalized cross-linguistic transfer and the phylogenetic structure resulting from the historical-comparative paradigm.
翻訳日:2022-11-09 13:47:50 公開日:2020-07-17
# OBA: 知識グラフのためのREST APIを作成するためのオントロジーベースのフレームワーク

OBA: An Ontology-Based Framework for Creating REST APIs for Knowledge Graphs ( http://arxiv.org/abs/2007.09206v1 )

ライセンス: Link先を確認
Daniel Garijo and Maximiliano Osorio(参考訳) 近年、セマンティックウェブ技術は、研究者、産業、公共機関によってウェブ上のデータを記述しリンクし、ウェブアノテーションを作成し、WikidataやDBPediaのような巨大な知識グラフを消費するために採用されてきている。 しかし、知識グラフを設計、作成するオントロジーエンジニアと、これらの知識グラフを理解し、アクセスし、クエリする必要があるが、オントロジーやRDF、SPARQLに精通していないWeb開発者との間には、依然として知識ギャップがある。 本稿では、RESTful APIのベストプラクティスに従いながら、オントロジーからREST APIを自動的に作成するアプローチである、オントロジーベースのAPIフレームワーク(OBA)について述べる。 オントロジー(あるいはオントロジーネットワーク)が与えられた場合、OBAはWeb開発者(OpenAPI仕様、JSON)に慣れ親しんだ標準技術を使用して、W3C標準(OWL、JSON-LDフレーム、SPARQL)と組み合わせて、ドキュメント、ユニットテスト、リソースとクライアント(Python、Javascriptなど)の自動検証による、ターゲットとする知識グラフの内容へのアクセスを可能にする。 OBAには、異なるオントロジーのためのフレームワークの機能を示す3つの例があります。

In recent years, Semantic Web technologies have been increasingly adopted by researchers, industry and public institutions to describe and link data on the Web, create web annotations and consume large knowledge graphs like Wikidata and DBPedia. However, there is still a knowledge gap between ontology engineers, who design, populate and create knowledge graphs; and web developers, who need to understand, access and query these knowledge graphs but are not familiar with ontologies, RDF or SPARQL. In this paper we describe the Ontology-Based APIs framework (OBA), our approach to automatically create REST APIs from ontologies while following RESTful API best practices. Given an ontology (or ontology network) OBA uses standard technologies familiar to web developers (OpenAPI Specification, JSON) and combines them with W3C standards (OWL, JSON-LD frames and SPARQL) to create maintainable APIs with documentation, units tests, automated validation of resources and clients (in Python, Javascript, etc.) for non Semantic Web experts to access the contents of a target knowledge graph. We showcase OBA with three examples that illustrate the capabilities of the framework for different ontologies.
翻訳日:2022-11-09 13:47:37 公開日:2020-07-17
# VIPriors Image Classification Challenge の報告

A Technical Report for VIPriors Image Classification Challenge ( http://arxiv.org/abs/2007.08722v1 )

ライセンス: Link先を確認
Zhipeng Luo, Ge Li, Zhiguang Zhang(参考訳) 画像の分類は常にホットで難しい作業だった。 本稿は,vipriors image classification challengeへの提案に対する簡単な報告である。 この課題では、事前訓練された重量なしでモデルをスクラッチからトレーニングする方法が難しい。 提案手法では,複数の強いバックボーンと多重損失関数を用いて,より代表的な特徴を学習する。 モデルの一般化とロバスト性を改善するために、autoaugmentやcutmixのような効率的な画像拡張戦略が利用される。 最後に、アンサンブル学習を用いてモデルの性能を向上させる。 DeepBlueAIの最終的なトップ1の精度は0.7015で、リーダーボードで2位です。

Image classification has always been a hot and challenging task. This paper is a brief report to our submission to the VIPriors Image Classification Challenge. In this challenge, the difficulty is how to train the model from scratch without any pretrained weight. In our method, several strong backbones and multiple loss functions are used to learn more representative features. To improve the models' generalization and robustness, efficient image augmentation strategies are utilized, like autoaugment and cutmix. Finally, ensemble learning is used to increase the performance of the models. The final Top-1 accuracy of our team DeepBlueAI is 0.7015, ranking second in the leaderboard.
翻訳日:2022-11-09 13:46:52 公開日:2020-07-17
# 1次元データ系列の高速かつ正確な異常局在と分類を用いたアクティブネットワークのメンテナンス

Proactive Network Maintenance using Fast, Accurate Anomaly Localization and Classification on 1-D Data Series ( http://arxiv.org/abs/2007.08752v1 )

ライセンス: Link先を確認
Jingjie Zhu, Karthik Sundaresan, Jason Rupe(参考訳) PNM(Proactive Network maintenance)は、ネットワークからのデータを使用してネットワークの障害を特定し、特定する概念である。 ネットワーク障害とサービス障害の分離は、ネットワーク内の問題早期検出を可能にし、pnmの発生を可能にする。 したがって、PNMは予後と健康管理(PHM)の一形態である。 1次元データ系列上の異常のローカライズと分類の問題は、長年研究されてきた。 我々は、Deep Convolutional Neural Networksを利用して、データ系列上の異常や事象を効率的かつ正確に検出するアルゴリズムを導入し、評価において平均平均精度(mAP)が97.82%に達した。

Proactive network maintenance (PNM) is the concept of using data from a network to identify and locate network faults, many or all of which could worsen to become service failures. The separation between the network fault and the service failure affords early detection of problems in the network to allow PNM to take place. Consequently, PNM is a form of prognostics and health management (PHM). The problem of localizing and classifying anomalies on 1-dimensional data series has been under research for years. We introduce a new algorithm that leverages Deep Convolutional Neural Networks to efficiently and accurately detect anomalies and events on data series, and it reaches 97.82% mean average precision (mAP) in our evaluation.
翻訳日:2022-11-09 13:40:59 公開日:2020-07-17
# rubikのキューブの再検討:3次元医用画像分割のためのボリューム変換による自己教師あり学習

Revisiting Rubik's Cube: Self-supervised Learning with Volume-wise Transformation for 3D Medical Image Segmentation ( http://arxiv.org/abs/2007.08826v1 )

ライセンス: Link先を確認
Xing Tao, Yuexiang Li, Wenhui Zhou, Kai Ma, Yefeng Zheng(参考訳) 深層学習は注釈付きデータの量に大きく依存する。 しかし、3dボリューム医療データの注釈は、経験豊富な医師が調査に何時間、あるいは何日も費やす必要がある。 自己教師付き学習は、生のデータ情報を深く活用することで、データトレーニングの強い要件を取り除く潜在的な解決策である。 本稿では,ボリューム医療画像のための自己教師型学習フレームワークを提案する。 具体的には、3dニューラルネットワークを事前学習するためのコンテキスト復元タスク、すなわちrubikのcube++を提案する。 既存の文脈復元に基づくアプローチとは異なり、我々は文脈置換にボリュームワイドな変換を導入し、臓器の固有の3D解剖学的情報をよりよく活用するようネットワークに促す。 スクラッチからトレーニングする戦略と比較して、Rubikの立方体++の事前訓練重量の微調整は膵の分節や脳組織分節といった様々なタスクでより良いパフォーマンスを達成することができる。 実験結果から,本手法は,余分なデータを用いずにボリューム型医療データセット上での3次元深層学習ネットワークの精度を大幅に向上できることがわかった。

Deep learning highly relies on the quantity of annotated data. However, the annotations for 3D volumetric medical data require experienced physicians to spend hours or even days for investigation. Self-supervised learning is a potential solution to get rid of the strong requirement of training data by deeply exploiting raw data information. In this paper, we propose a novel self-supervised learning framework for volumetric medical images. Specifically, we propose a context restoration task, i.e., Rubik's cube++, to pre-train 3D neural networks. Different from the existing context-restoration-based approaches, we adopt a volume-wise transformation for context permutation, which encourages network to better exploit the inherent 3D anatomical information of organs. Compared to the strategy of training from scratch, fine-tuning from the Rubik's cube++ pre-trained weight can achieve better performance in various tasks such as pancreas segmentation and brain tissue segmentation. The experimental results show that our self-supervised learning method can significantly improve the accuracy of 3D deep learning networks on volumetric medical datasets without the use of extra data.
翻訳日:2022-11-09 13:40:46 公開日:2020-07-17
# 航空写真と深層学習に基づく日本の森林における樹木種の同定

Identification of Tree Species in Japanese Forests based on Aerial Photography and Deep Learning ( http://arxiv.org/abs/2007.08907v1 )

ライセンス: Link先を確認
Sarah Kentsch, Savvas Karatsiolis, Andreas Kamilaris, Luca Tomhave and Maximo Larry Lopez Caceres(参考訳) 自然林は複雑な生態系であり、樹種分布とその生態系機能はまだよく分かっていない。 これらの森林の持続可能な管理は、気候規制、生物多様性、土壌浸食、その他の多くの生態系サービスにおいて重要な役割を担っているため、非常に重要である。 特に日本では、自然林は主に急な山間部にあり、コンピュータビジョンと組み合わされた空中画像の利用は、森林研究に応用できる重要な近代的道具である。 そこで本研究では,UAV画像を用いた日本の混交林における樹木種の分類と,黒松(Pinus thunbergii)-黒葉樹(Robinia pseudoacacia)とラッカ(Larix kaempferi)-オーク(Quercus mongolica)混交林(Quercus mongolica)の2種類の混交林の深層学習を目的とした予備的研究を行った。 以上の結果から,62.6 %true positive (tp) と98.1% true negatives (tn) の黒ロカスト木を同定できたが,larch tree (37.4% tp と 97.7% tn) の精度は低かった。

Natural forests are complex ecosystems whose tree species distribution and their ecosystem functions are still not well understood. Sustainable management of these forests is of high importance because of their significant role in climate regulation, biodiversity, soil erosion and disaster prevention among many other ecosystem services they provide. In Japan particularly, natural forests are mainly located in steep mountains, hence the use of aerial imagery in combination with computer vision are important modern tools that can be applied to forest research. Thus, this study constitutes a preliminary research in this field, aiming at classifying tree species in Japanese mixed forests using UAV images and deep learning in two different mixed forest types: a black pine (Pinus thunbergii)-black locust (Robinia pseudoacacia) and a larch (Larix kaempferi)-oak (Quercus mongolica) mixed forest. Our results indicate that it is possible to identify black locust trees with 62.6 % True Positives (TP) and 98.1% True Negatives (TN), while lower precision was reached for larch trees (37.4% TP and 97.7% TN).
翻訳日:2022-11-09 13:40:29 公開日:2020-07-17
# パーキンソン病重症度評価のためのMDS-UPDRS歩行スコアの視覚的評価

Vision-based Estimation of MDS-UPDRS Gait Scores for Assessing Parkinson's Disease Motor Severity ( http://arxiv.org/abs/2007.08920v1 )

ライセンス: Link先を確認
Mandy Lu, Kathleen Poston, Adolf Pfefferbaum, Edith V. Sullivan, Li Fei-Fei, Kilian M. Pohl, Juan Carlos Niebles and Ehsan Adeli(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、主に運動機能に影響を及ぼす進行性神経疾患である。 PD障害の重症度は、広く用いられている臨床評価尺度である運動障害学会統一パーキンソン病評価尺度(MDS-UPDRS)によって定量化することができる。 疾患進行の正確かつ定量的な評価は、疾患のさらなる進行を遅らせる治療を開発する上で重要である。 これまでの研究は主に、診断のためのドーパミン輸送ニューロイメージングや、運動障害を評価する高価な侵入型ウェアラブルに焦点を当ててきた。 そこで,本研究では,個人の非インタラクティブ映像を観察し,3d体骨格を抽出し,時間を通して追跡し,mds-updrsの歩行スコアに応じて動作を分類するコンピュータビジョンモデルを提案する。 実験の結果, 提案手法は, f1-score 0.83 と平衡精度 81% の競合手法に比べて有意に優れた性能を示した。 これはMDS-UPDRS歩行重症度に基づくPD患者の分類のための最初のベンチマークであり、疾患重症度に対する客観的なバイオマーカーとなる可能性がある。 本研究は,非インタラクティブに患者とその運動障害をモニターするためにコンピュータ支援技術をどのように利用できるかを示す。 コードはhttps://github.com/mlu355/PD-Motor-Severity-Estimationで公開されている。

Parkinson's disease (PD) is a progressive neurological disorder primarily affecting motor function resulting in tremor at rest, rigidity, bradykinesia, and postural instability. The physical severity of PD impairments can be quantified through the Movement Disorder Society Unified Parkinson's Disease Rating Scale (MDS-UPDRS), a widely used clinical rating scale. Accurate and quantitative assessment of disease progression is critical to developing a treatment that slows or stops further advancement of the disease. Prior work has mainly focused on dopamine transport neuroimaging for diagnosis or costly and intrusive wearables evaluating motor impairments. For the first time, we propose a computer vision-based model that observes non-intrusive video recordings of individuals, extracts their 3D body skeletons, tracks them through time, and classifies the movements according to the MDS-UPDRS gait scores. Experimental results show that our proposed method performs significantly better than chance and competing methods with an F1-score of 0.83 and a balanced accuracy of 81%. This is the first benchmark for classifying PD patients based on MDS-UPDRS gait severity and could be an objective biomarker for disease severity. Our work demonstrates how computer-assisted technologies can be used to non-intrusively monitor patients and their motor impairments. The code is available at https://github.com/mlu355/PD-Motor-Severity-Estimation.
翻訳日:2022-11-09 13:40:04 公開日:2020-07-17
# 学習フレーム予測はビデオ符号化のブロックモーション補償と競合するか?

Can Learned Frame-Prediction Compete with Block-Motion Compensation for Video Coding? ( http://arxiv.org/abs/2007.08922v1 )

ライセンス: Link先を確認
Serkan Sulun, A. Murat Tekalp(参考訳) 近年の学習ビデオ予測の進歩を踏まえて,前もって符号化/復号化されたフレームをベースとした事前学習深度モデルを用いた簡単なビデオコーデックが,ブロックモーション補償に基づく標準的なビデオコーデックと競合するかどうかを検討する。 学習されたフレーム予測のフレーム差は、標準静止画像(intra)コーデックによって符号化される。 実験結果から, 対称複雑度を有する単純コーデックの速度歪み性能は, 10MPEGテストビデオのx264コーデックよりも平均的に優れているが, x265コーデックのレベルには達していないことがわかった。 この結果は、学習フレーム予測(LFP)のパワーを示すが、動き補正とは異なり、LFPは現在の画像からの情報を使用しない。 予測性能と圧縮効率に及ぼすL1,L2,または複合L2による学習の影響を解析した。

Given recent advances in learned video prediction, we investigate whether a simple video codec using a pre-trained deep model for next frame prediction based on previously encoded/decoded frames without sending any motion side information can compete with standard video codecs based on block-motion compensation. Frame differences given learned frame predictions are encoded by a standard still-image (intra) codec. Experimental results show that the rate-distortion performance of the simple codec with symmetric complexity is on average better than that of x264 codec on 10 MPEG test videos, but does not yet reach the level of x265 codec. This result demonstrates the power of learned frame prediction (LFP), since unlike motion compensation, LFP does not use information from the current picture. The implications of training with L1, L2, or combined L2 and adversarial loss on prediction performance and compression efficiency are analyzed.
翻訳日:2022-11-09 13:39:38 公開日:2020-07-17
# GMNet:野生における大規模部分セマンティックセグメンテーションのためのグラフマッチングネットワーク

GMNet: Graph Matching Network for Large Scale Part Semantic Segmentation in the Wild ( http://arxiv.org/abs/2007.09073v1 )

ライセンス: Link先を確認
Umberto Michieli, Edoardo Borsato, Luca Rossi, Pietro Zanuttigh(参考訳) 野生のオブジェクトの部分のセマンティクスセグメンテーションは、複数のオブジェクトのインスタンスとそれらのオブジェクト内の複数のパーツがシーン内で検出されなければならない困難なタスクである。 この問題は、詳細オブジェクトの理解に根本的な重要性があるにもかかわらず、現在でも非常に精査されている。 本研究では,課題に対処するための高次オブジェクトレベルコンテキスト条件と部分レベル空間関係を組み合わせた新しいフレームワークを提案する。 オブジェクトレベルの曖昧さに対処するために、クラス条件モジュールが導入された。 このように、中間レベルの機能は、デコーディングのステージの前に、この情報も持っています。 部分レベルの曖昧性と局所性に取り組むために,基底真理と予測部分との相対的な空間的関係をマッチングする新しい隣接グラフベースモジュールを提案する。 pascal-partデータセットの実験的評価により,本課題の最先端の結果が得られた。

The semantic segmentation of parts of objects in the wild is a challenging task in which multiple instances of objects and multiple parts within those objects must be detected in the scene. This problem remains nowadays very marginally explored, despite its fundamental importance towards detailed object understanding. In this work, we propose a novel framework combining higher object-level context conditioning and part-level spatial relationships to address the task. To tackle object-level ambiguity, a class-conditioning module is introduced to retain class-level semantics when learning parts-level semantics. In this way, mid-level features carry also this information prior to the decoding stage. To tackle part-level ambiguity and localization we propose a novel adjacency graph-based module that aims at matching the relative spatial relationships between ground truth and predicted parts. The experimental evaluation on the Pascal-Part dataset shows that we achieve state-of-the-art results on this task.
翻訳日:2022-11-09 13:39:25 公開日:2020-07-17
# 外観認識型ポススタイライザによる人物画像の生成

Generating Person Images with Appearance-aware Pose Stylizer ( http://arxiv.org/abs/2007.09077v1 )

ライセンス: Link先を確認
Siyu Huang, Haoyi Xiong, Zhi-Qi Cheng, Qingzhong Wang, Xingran Zhou, Bihan Wen, Jun Huan, Dejing Dou(参考訳) 例えば、外観、ポーズ、前景、背景、ローカル詳細、グローバル構造など、画像要素間の高度な絡み合いがあるため、高品質な人物画像の生成は困難である。 本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。 対象のポーズと条件付き人物の出現を漸進的に結合して人間の画像を生成する,exe-aware pose stylizer (aps) と呼ばれる新しい生成器である。 このフレームワークは、符号化フェーズで様々な複雑な人物画像要素を効果的に分離し、復号フェーズでそれらを再結合することにより、柔軟で制御可能である。 さらに,適応パッチ正規化(Adaptive patch normalization)と呼ばれる新しい正規化手法を提案する。 2つのベンチマークデータセットにおける実験により、任意の画像とポーズ入力を用いて視覚的に魅力的なリアルな結果を生成することができることを示した。

Generation of high-quality person images is challenging, due to the sophisticated entanglements among image factors, e.g., appearance, pose, foreground, background, local details, global structures, etc. In this paper, we present a novel end-to-end framework to generate realistic person images based on given person poses and appearances. The core of our framework is a novel generator called Appearance-aware Pose Stylizer (APS) which generates human images by coupling the target pose with the conditioned person appearance progressively. The framework is highly flexible and controllable by effectively decoupling various complex person image factors in the encoding phase, followed by re-coupling them in the decoding phase. In addition, we present a new normalization method named adaptive patch normalization, which enables region-specific normalization and shows a good performance when adopted in person image generation model. Experiments on two benchmark datasets show that our method is capable of generating visually appealing and realistic-looking results using arbitrary image and pose inputs.
翻訳日:2022-11-09 13:39:08 公開日:2020-07-17
# 人物画像生成のためのXingGAN

XingGAN for Person Image Generation ( http://arxiv.org/abs/2007.09278v1 )

ライセンス: Link先を確認
Hao Tang, Song Bai, Li Zhang, Philip H.S. Torr, Nicu Sebe(参考訳) 本稿では,人物画像生成タスク,すなわち所望の人物のポーズを所望の人物に翻訳するための,新たな生成支援ネットワーク(XingGAN,CrossingGAN)を提案する。 提案するxing生成器は,人物の外観と形状情報をモデル化する2世代分枝からなる。 さらに,既存のGANベースの画像生成作業では考慮されていないような相互改善のために,人物の形状や外観の埋め込みを横断的に効果的に転送・更新する2つの新しいブロックを提案する。 Market-1501とDeepFashionの2つの挑戦的データセットに関する大規模な実験は、提案されたXingGANが客観的な定量的スコアと主観的な視覚的現実の両方において最先端のパフォーマンスを向上することを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/Ha0Tang/XingGAN.comで入手できる。

We propose a novel Generative Adversarial Network (XingGAN or CrossingGAN) for person image generation tasks, i.e., translating the pose of a given person to a desired one. The proposed Xing generator consists of two generation branches that model the person's appearance and shape information, respectively. Moreover, we propose two novel blocks to effectively transfer and update the person's shape and appearance embeddings in a crossing way to mutually improve each other, which has not been considered by any other existing GAN-based image generation work. Extensive experiments on two challenging datasets, i.e., Market-1501 and DeepFashion, demonstrate that the proposed XingGAN advances the state-of-the-art performance both in terms of objective quantitative scores and subjective visual realness. The source code and trained models are available at https://github.com/Ha0Tang/XingGAN.
翻訳日:2022-11-09 13:38:07 公開日:2020-07-17
# 原因・メカニズムの独立性に基づく因果推論における先行要因としての潜在機器変数

Latent Instrumental Variables as Priors in Causal Inference based on Independence of Cause and Mechanism ( http://arxiv.org/abs/2007.08812v1 )

ライセンス: Link先を確認
Nataliya Sokolovska (SU), Pierre-Henri Wuillemin(参考訳) 条件独立性に基づく因果推論法はマルコフ同値グラフを構成し、二変量体には適用できない。 原因と機構状態の独立に基づくアプローチとは対照的に、因果発見は2つの観測のために推測可能である。 我々はこの2つの研究方向の和解に挑戦する。 本研究では, 潜在変数や隠れた共通要因といった潜在変数の役割を, 因果的グラフィカル構造において検討する。 本研究では,原因とメカニズムの独立性に基づく手法が,隠れた楽器変数の存在の痕跡を間接的に含んでいることを示す。 2つの変数間の因果関係を推定する新しいアルゴリズムを導出し,提案手法をシミュレーションデータと因果効果ペアのベンチマークで検証した。 実験により,提案手法は,最先端手法と比較して,経験的精度の点で単純かつ極めて競合的であることを示す。

Causal inference methods based on conditional independence construct Markov equivalent graphs, and cannot be applied to bivariate cases. The approaches based on independence of cause and mechanism state, on the contrary, that causal discovery can be inferred for two observations. In our contribution, we challenge to reconcile these two research directions. We study the role of latent variables such as latent instrumental variables and hidden common causes in the causal graphical structures. We show that the methods based on the independence of cause and mechanism, indirectly contain traces of the existence of the hidden instrumental variables. We derive a novel algorithm to infer causal relationships between two variables, and we validate the proposed method on simulated data and on a benchmark of cause-effect pairs. We illustrate by our experiments that the proposed approach is simple and extremely competitive in terms of empirical accuracy compared to the state-of-the-art methods.
翻訳日:2022-11-09 13:31:37 公開日:2020-07-17
# 残差ネットワーク学習のための差分ゲーム理論ニューラルオプティマイザ

A Differential Game Theoretic Neural Optimizer for Training Residual Networks ( http://arxiv.org/abs/2007.08880v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen and Evangelos A. Theodorou(参考訳) ディープニューラルネットワーク(DNN)トレーニングと最適制御理論の結びつきは,アルゴリズム設計の原則的ツールとして注目されている。 微分動的プログラミング(DDP)ニューラルオプティマイザはこの線に沿って最近提案された手法である。 実証的な成功にもかかわらず、適用性はフィードフォワードネットワークに限られており、そのような軌道最適化にインスパイアされたフレームワークが現代のアーキテクチャに拡張できるかどうかは不明のままである。 本研究では、残差接続と畳み込み層の両方を受け入れる一般化DDPオプティマイザを導出する。 結果として得られる最適制御表現は、訓練残差ネットワークを状態誘導力学系における協調軌道最適化として解釈できるゲーム理論的な視点を持つ。 このゲーム理論DDP(GT-DDP)オプティマイザは、以前の作業で同じ理論接続を享受するが、ネットワークの伝搬中に利用可能な情報を活用するためのより複雑な更新ルールを生成する。 画像分類データセット(mnistやcifar100など)の評価は、既存の方法に対するトレーニング収束と分散低減の改善を示している。 我々のアプローチはアーキテクチャ・アウェア最適化の利点を強調している。

Connections between Deep Neural Networks (DNNs) training and optimal control theory has attracted considerable attention as a principled tool of algorithmic design. Differential Dynamic Programming (DDP) neural optimizer is a recently proposed method along this line. Despite its empirical success, the applicability has been limited to feedforward networks and whether such a trajectory-optimization inspired framework can be extended to modern architectures remains unclear. In this work, we derive a generalized DDP optimizer that accepts both residual connections and convolution layers. The resulting optimal control representation admits a game theoretic perspective, in which training residual networks can be interpreted as cooperative trajectory optimization on state-augmented dynamical systems. This Game Theoretic DDP (GT-DDP) optimizer enjoys the same theoretic connection in previous work, yet generates a much complex update rule that better leverages available information during network propagation. Evaluation on image classification datasets (e.g. MNIST and CIFAR100) shows an improvement in training convergence and variance reduction over existing methods. Our approach highlights the benefit gained from architecture-aware optimization.
翻訳日:2022-11-09 13:31:09 公開日:2020-07-17
# 低集積ガウス雑音によるラウンド数削減と差分プライバシによる非同期フェデレーション学習

Asynchronous Federated Learning with Reduced Number of Rounds and with Differential Privacy from Less Aggregated Gaussian Noise ( http://arxiv.org/abs/2007.09208v1 )

ライセンス: Link先を確認
Marten van Dijk, Nhuong V. Nguyen, Toan N. Nguyen, Lam M. Nguyen, Quoc Tran-Dinh, Phuong Ha Nguyen(参考訳) フェデレーション学習の可能性は、ネットワーク通信の観点でサーバ・クライアント・インフラストラクチャーによって厳しく制約されている。 最新のスマートフォンやiotデバイスの多くは、強力なaiモデルを実行するためのgpuや十分な計算ハードウェアを備えている。 しかし,従来の同期フェデレーション学習の場合,クライアントデバイスは待ち時間に悩まされ,クライアントとサーバ間の定期的な通信が要求される。 これは、ローカルモデルのトレーニング時間に対する感度が向上し、不規則または不規則な更新や更新が遅れていることを意味するため、多数のクライアントに対するスケーラビリティが低く、あるいは制限されているため、リアルタイムに測定される収束率が低下する。 本研究では,待ち時間を排除し,ネットワーク全体の通信量を削減する非同期連帯学習のための新しいアルゴリズムを提案し,強凸目的関数に対する厳密な理論解析とシミュレーション結果を提供する。 ガウス雑音を追加することによって、我々のアルゴリズムを微分プライベートにする方法を示す - 新しい定理は、集約されたガウス雑音が大幅に減少することを示す。

The feasibility of federated learning is highly constrained by the server-clients infrastructure in terms of network communication. Most newly launched smartphones and IoT devices are equipped with GPUs or sufficient computing hardware to run powerful AI models. However, in case of the original synchronous federated learning, client devices suffer waiting times and regular communication between clients and server is required. This implies more sensitivity to local model training times and irregular or missed updates, hence, less or limited scalability to large numbers of clients and convergence rates measured in real time will suffer. We propose a new algorithm for asynchronous federated learning which eliminates waiting times and reduces overall network communication - we provide rigorous theoretical analysis for strongly convex objective functions and provide simulation results. By adding Gaussian noise we show how our algorithm can be made differentially private -- new theorems show how the aggregated added Gaussian noise is significantly reduced.
翻訳日:2022-11-09 13:30:16 公開日:2020-07-17
# 階層型深層強化学習によるキューサイズ可変多目的スケジューリング

Hierarchical Deep Reinforcement Learning Approach for Multi-Objective Scheduling With Varying Queue Sizes ( http://arxiv.org/abs/2007.09256v1 )

ライセンス: Link先を確認
Yoni Birman, Ziv Ido, Gilad Katz and Asaf Shabtai(参考訳) マルチ目的タスクスケジューリング(multi-objective task scheduling、mots)は、複数の制約を最適化しながらタスクスケジューリングである。 この問題の挑戦的な拡張は、各タスクがそれ自体が多目的最適化問題であるときに発生する。 深部強化学習(DRL)は複雑な逐次問題にうまく適用されているが、MOTS領域への応用は2つの課題に悩まされている。 第1の課題は、DRLアルゴリズムがキュー内の位置に関わらず、すべてのアイテムが同一に処理されることを保証することができないことである。 第2の課題は、大規模なキューを管理する必要があることだ。 本研究では、多目的タスクスケジューリングのための頑健でモジュラーでほぼ最適なDRLベースのアプローチであるMERLINを提案する。 merlinはmots問題に階層的アプローチを適用し、個々のタスクの処理とキュー全体のスケジューリングのためのニューラルネットワークを作成する。 より小さく、トレーニング時間の短縮に加えて、結果として得られるアーキテクチャは、アイテムがキュー内の位置に関わらず、同じ方法で処理されることを保証する。 さらに、DRLベースのソリューションを非常に大きなキューに効率的に適用するための新しいアプローチを提案し、MERLINをいかに効果的にスケールして、トレーニングされたキューよりも桁違いに大きいキューサイズを処理するかを示す。 複数のキューサイズに対する大規模な評価は、MERLINが複数の有名なベースラインを大きなマージン(22%)で上回ることを示している。

Multi-objective task scheduling (MOTS) is the task scheduling while optimizing multiple and possibly contradicting constraints. A challenging extension of this problem occurs when every individual task is a multi-objective optimization problem by itself. While deep reinforcement learning (DRL) has been successfully applied to complex sequential problems, its application to the MOTS domain has been stymied by two challenges. The first challenge is the inability of the DRL algorithm to ensure that every item is processed identically regardless of its position in the queue. The second challenge is the need to manage large queues, which results in large neural architectures and long training times. In this study we present MERLIN, a robust, modular and near-optimal DRL-based approach for multi-objective task scheduling. MERLIN applies a hierarchical approach to the MOTS problem by creating one neural network for the processing of individual tasks and another for the scheduling of the overall queue. In addition to being smaller and with shorted training times, the resulting architecture ensures that an item is processed in the same manner regardless of its position in the queue. Additionally, we present a novel approach for efficiently applying DRL-based solutions on very large queues, and demonstrate how we effectively scale MERLIN to process queue sizes that are larger by orders of magnitude than those on which it was trained. Extensive evaluation on multiple queue sizes show that MERLIN outperforms multiple well-known baselines by a large margin (>22%).
翻訳日:2022-11-09 13:30:00 公開日:2020-07-17
# 確率的微視的交通挙動のモデリング:物理正規化ガウス過程アプローチ

Modeling Stochastic Microscopic Traffic Behaviors: a Physics Regularized Gaussian Process Approach ( http://arxiv.org/abs/2007.10109v1 )

ライセンス: Link先を確認
Yun Yuan, Qinzheng Wang, Xianfeng Terry Yang(参考訳) 自動車追従や車線変更といった微視的なレベルでの確率的交通行動のモデル化は、交通の流れにおける個々の車両間の相互作用を理解する上で重要なタスクである。 物理正規化ガウス過程(PRGP)と呼ばれる最近開発された理論を応用し、確率的微視的トラフィックモデルを示し、実世界のランダム性を捉え、誤差を測定する。 従来の自動車追従モデルからの物理知識は、モデリング精度を向上させるための多変量PRGPの影ガウス過程(GP)の形で物理正則化器として変換される。 より具体的には、GPの平均と核を推定するためにベイズ推定アルゴリズムが開発され、物理的知識を確率過程にエンコードする拡張潜在力モデルが定式化されている。 また, 後続正則化推論の枠組みに基づいて, 確率的最適化アルゴリズムを開発し, システムの可能性の低いエビデンスを最大化する。 提案モデルの性能を評価するため,NGSIMデータセットを用いた実世界の車両軌道に関する実証的研究を行った。 提案フレームワークのユニークな特徴は,車追従行動と車線変更行動の両方を1つのモデルで捉える能力である。 その結果,提案手法は従来の推定精度の方法よりも優れていることがわかった。

Modeling stochastic traffic behaviors at the microscopic level, such as car-following and lane-changing, is a crucial task to understand the interactions between individual vehicles in traffic streams. Leveraging a recently developed theory named physics regularized Gaussian process (PRGP), this study presents a stochastic microscopic traffic model that can capture the randomness and measure errors in the real world. Physical knowledge from classical car-following models is converted as physics regularizers, in the form of shadow Gaussian process (GP), of a multivariate PRGP for improving the modeling accuracy. More specifically, a Bayesian inference algorithm is developed to estimate the mean and kernel of GPs, and an enhanced latent force model is formulated to encode physical knowledge into stochastic processes. Also, based on the posterior regularization inference framework, an efficient stochastic optimization algorithm is developed to maximize the evidence lower-bound of the system likelihood. To evaluate the performance of the proposed models, this study conducts empirical studies on real-world vehicle trajectories from the NGSIM dataset. Since one unique feature of the proposed framework is the capability of capturing both car-following and lane-changing behaviors with one single model, numerical tests are carried out with two separated datasets, one contains lane-changing maneuvers and the other doesn't. The results show the proposed method outperforms the previous influential methods in estimation precision.
翻訳日:2022-11-09 13:29:35 公開日:2020-07-17
# 確率モデルにおけるパラメータ推定の新しい手法:最小確率フロー

A new method for parameter estimation in probabilistic models: Minimum probability flow ( http://arxiv.org/abs/2007.09240v1 )

ライセンス: Link先を確認
Jascha Sohl-Dickstein, Peter Battaglino, Michael R. DeWeese(参考訳) 分割関数の一般性のため、確率モデルをデータに適用することはしばしば困難である。 パラメトリックモデルに適用可能なパラメータフィッティング手法として,MPF(Minimum Probability Flow)を提案する。 連続状態空間モデルとイジングスピンガラスの2つのケースでMPFを用いたパラメータ推定を実証する。 後者の場合、回復した結合パラメータの誤差が低い収束時間において少なくとも1桁の等級で現在の技術を上回る。

Fitting probabilistic models to data is often difficult, due to the general intractability of the partition function. We propose a new parameter fitting method, Minimum Probability Flow (MPF), which is applicable to any parametric model. We demonstrate parameter estimation using MPF in two cases: a continuous state space model, and an Ising spin glass. In the latter case it outperforms current techniques by at least an order of magnitude in convergence time with lower error in the recovered coupling parameters.
翻訳日:2022-11-09 13:22:41 公開日:2020-07-17
# 敵攻撃時の脆弱性の理解と診断

Understanding and Diagnosing Vulnerability under Adversarial Attacks ( http://arxiv.org/abs/2007.08716v1 )

ライセンス: Link先を確認
Haizhong Zheng, Ziqi Zhang, Honglak Lee, Atul Prakash(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。 現在、わずかな摂動がこのような分類結果に大きな違いを引き起こし、より堅牢なモデルアーキテクチャをどのように設計するかについて、明確な知見がない。 本研究では,潜在変数の分類に使用される特徴を説明するための新しい解釈可能性法である interpretgan を提案する。 対数例の分類過程を解釈すると、対数摂動が層によって特徴層にどのように影響するか、また摂動によってどの特徴が修正されるかが明らかになる。 さらに、モデルアーキテクチャの脆弱な部分を特定するために、各レイヤがもたらす脆弱性を定量化する最初の診断手法を設計する。 その結果、より多くの情報損失をもたらす層は他の層よりも脆弱になりがちであることが示された。 この結果から,MNISTおよびCIFAR10データセットを用いた評価結果から,ネットワークアーキテクチャの最大プール層よりも,情報損失の少ない平均プール層の方がロバストであることが示唆された。

Deep Neural Networks (DNNs) are known to be vulnerable to adversarial attacks. Currently, there is no clear insight into how slight perturbations cause such a large difference in classification results and how we can design a more robust model architecture. In this work, we propose a novel interpretability method, InterpretGAN, to generate explanations for features used for classification in latent variables. Interpreting the classification process of adversarial examples exposes how adversarial perturbations influence features layer by layer as well as which features are modified by perturbations. Moreover, we design the first diagnostic method to quantify the vulnerability contributed by each layer, which can be used to identify vulnerable parts of model architectures. The diagnostic results show that the layers introducing more information loss tend to be more vulnerable than other layers. Based on the findings, our evaluation results on MNIST and CIFAR10 datasets suggest that average pooling layers, with lower information loss, are more robust than max pooling layers for the network architectures studied in this paper.
翻訳日:2022-11-09 13:22:32 公開日:2020-07-17
# メタラーニングのための適応的タスクサンプリング

Adaptive Task Sampling for Meta-Learning ( http://arxiv.org/abs/2007.08735v1 )

ライセンス: Link先を確認
Chenghao Liu and Zhihao Wang and Doyen Sahoo and Yuan Fang and Kun Zhang and Steven C.H. Hoi(参考訳) メタラーニング手法はコンピュータビジョン、特に数少ない分類タスクで広く研究され、応用されてきた。 メタトレーニングデータ中のクラスをランダムにサンプリングし、エピソード訓練のための少数ショットタスクを構築することで、テスト時に直面する少数のショット状況を模倣する。 タスク間でメタ知識を抽出する方法にのみ焦点をあてたリッチな作業ラインでは、情報的タスクを生成する方法において補完的な問題を利用する。 ランダムにサンプリングされたタスクは、準最適かつ非形式的(例えば、"dog" を"laptop" からメタリーナーに分類するタスクは、しばしば自明である)である。 本稿では,一般化性能を向上させるための適応的タスクサンプリング手法を提案する。 インスタンスベースのサンプリングとは異なり、タスクベースのサンプリングは各エピソードにおけるタスクの暗黙的な定義のため、はるかに難しい。 そこで本研究では,クラスペアのポテンシャルに応じて困難なタスクを選択する,グリーディなクラスペアベースサンプリング手法を提案する。 2つの数ショット分類ベンチマークで適応的タスクサンプリング法を評価し,様々な機能バックボーン,メタラーニングアルゴリズム,データセットに対して一貫した改善を実現する。

Meta-learning methods have been extensively studied and applied in computer vision, especially for few-shot classification tasks. The key idea of meta-learning for few-shot classification is to mimic the few-shot situations faced at test time by randomly sampling classes in meta-training data to construct few-shot tasks for episodic training. While a rich line of work focuses solely on how to extract meta-knowledge across tasks, we exploit the complementary problem on how to generate informative tasks. We argue that the randomly sampled tasks could be sub-optimal and uninformative (e.g., the task of classifying "dog" from "laptop" is often trivial) to the meta-learner. In this paper, we propose an adaptive task sampling method to improve the generalization performance. Unlike instance based sampling, task based sampling is much more challenging due to the implicit definition of the task in each episode. Therefore, we accordingly propose a greedy class-pair based sampling method, which selects difficult tasks according to class-pair potentials. We evaluate our adaptive task sampling method on two few-shot classification benchmarks, and it achieves consistent improvements across different feature backbones, meta-learning algorithms and datasets.
翻訳日:2022-11-09 13:21:59 公開日:2020-07-17
# ニューラルネットワークトレーニングを促進するための実データと合成データを混合する -- 最新のアプローチのレビュー

Mixing Real and Synthetic Data to Enhance Neural Network Training -- A Review of Current Approaches ( http://arxiv.org/abs/2007.08781v1 )

ライセンス: Link先を確認
Viktor Seib, Benjamin Lange and Stefan Wirtz(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクで非常に重要になっている。 しかし、彼らのパワーは、教師付きトレーニングに必要な大量の注釈付きデータのコストがかかっている。 本研究では,付加的な注釈付き実世界のデータを取得することなく,文献で利用可能なさまざまなテクニックをレビューし,比較する。 この目標は、アノテーションを保存する変換を既存のデータに適用するか、あるいはより多くのデータを合成することによって達成される。

Deep neural networks have gained tremendous importance in many computer vision tasks. However, their power comes at the cost of large amounts of annotated data required for supervised training. In this work we review and compare different techniques available in the literature to improve training results without acquiring additional annotated real-world data. This goal is mostly achieved by applying annotation-preserving transformations to existing data or by synthetically creating more data.
翻訳日:2022-11-09 13:21:38 公開日:2020-07-17
# 大規模深層ネットワークの適応的階層分解

Adaptive Hierarchical Decomposition of Large Deep Networks ( http://arxiv.org/abs/2008.00809v1 )

ライセンス: Link先を確認
Sumanth Chennupati, Sai Nooka, Shagan Sah, Raymond W Ptucha(参考訳) ディープラーニングは、最近、視覚オブジェクト認識で人間の脳に匹敵する能力を実証した。 データセットが大きくなるにつれて、既存のディープラーニングアーキテクチャを拡張して、一般的な人間が知覚可能な50以上のクラスを処理することができるのか、という自然な疑問が生まれます。 ほとんどのディープラーニングアーキテクチャは、さまざまなカテゴリの分割に重点を置いている。 本稿では,単一大規模ネットワークの代替として,より小さなディープネットワーク群を自動解析し,構成するフレームワークを提案する。 クラス類似性は、一大分類器よりも効率的に分類問題を解くファイン・クラシファイアへのコースからファイン・クラシファイアへの家族の生成を導く。 結果として、より小さなネットワークは、高度にスケーラブルで、並列であり、訓練しやすく、より高い分類精度を達成する。 本稿では,階層型分類器の構成を,全体およびサブ分類混乱行列からリンク統計を用いて適応的に選択する手法を提案する。 クラス数や問題の複雑さによっては、ディープラーニングモデルが選択され、複雑性が決定される。 ネットワーククラス、レイヤ、およびアーキテクチャ構成に関する多くの実験が結果を検証します。

Deep learning has recently demonstrated its ability to rival the human brain for visual object recognition. As datasets get larger, a natural question to ask is if existing deep learning architectures can be extended to handle the 50+K classes thought to be perceptible by a typical human. Most deep learning architectures concentrate on splitting diverse categories, while ignoring the similarities amongst them. This paper introduces a framework that automatically analyzes and configures a family of smaller deep networks as a replacement to a singular, larger network. Class similarities guide the creation of a family from course to fine classifiers which solve categorical problems more effectively than a single large classifier. The resulting smaller networks are highly scalable, parallel and more practical to train, and achieve higher classification accuracy. This paper also proposes a method to adaptively select the configuration of the hierarchical family of classifiers using linkage statistics from overall and sub-classification confusion matrices. Depending on the number of classes and the complexity of the problem, a deep learning model is selected and the complexity is determined. Numerous experiments on network classes, layers, and architecture configurations validate our results.
翻訳日:2022-11-09 13:21:09 公開日:2020-07-17
# dvi:自動運転のための奥行き案内ビデオインペインティング

DVI: Depth Guided Video Inpainting for Autonomous Driving ( http://arxiv.org/abs/2007.08854v1 )

ライセンス: Link先を確認
Miao Liao, Feixiang Lu, Dingfu Zhou, Sibo Zhang, Wei Li, Ruigang Yang(参考訳) 自動運転におけるストリートビューとフォトリアリスティックなシミュレーションを実現するために,ビデオからトラフィックエージェントを取り除き,深度/点クラウドのガイダンスで欠落領域を合成する自動ビデオインペインティングアルゴリズムを提案する。 縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは、この一般的な3Dマップを介して幾何学的に相関する。 フレーム内の目標塗装領域を埋めるためには、他のフレームから画素を正しいオクルージョンで現在のフレームに変換することが容易である。 さらに、3dポイントクラウド登録によって複数の動画を融合することができ、ターゲットビデオを複数のソースビデオに塗り込むことができる。 モチベーションは、閉鎖された領域がビデオ全体から一度も見えないという長年の閉塞問題を解決することである。 私たちの知る限りでは、私たちは最初に複数のビデオに絵を描き込む。 提案手法の有効性を検証するために,実都市の道路環境において,長時間閉塞などの課題シーンを含む画像とライダーデータを同期して,大規模に塗装したデータセットを構築した。 実験の結果,提案手法はすべての基準において最先端の手法よりも優れており,特にRMSE(Root Mean Squared Error)は約13%削減されている。

To get clear street-view and photo-realistic simulation in autonomous driving, we present an automatic video inpainting algorithm that can remove traffic agents from videos and synthesize missing regions with the guidance of depth/point cloud. By building a dense 3D map from stitched point clouds, frames within a video are geometrically correlated via this common 3D map. In order to fill a target inpainting area in a frame, it is straightforward to transform pixels from other frames into the current one with correct occlusion. Furthermore, we are able to fuse multiple videos through 3D point cloud registration, making it possible to inpaint a target video with multiple source videos. The motivation is to solve the long-time occlusion problem where an occluded area has never been visible in the entire video. To our knowledge, we are the first to fuse multiple videos for video inpainting. To verify the effectiveness of our approach, we build a large inpainting dataset in the real urban road environment with synchronized images and Lidar data including many challenge scenes, e.g., long time occlusion. The experimental results show that the proposed approach outperforms the state-of-the-art approaches for all the criteria, especially the RMSE (Root Mean Squared Error) has been reduced by about 13%.
翻訳日:2022-11-09 13:20:50 公開日:2020-07-17
# 半監督ハッシュのための自己監督ベルヌーイオートエンコーダ

Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing ( http://arxiv.org/abs/2007.08799v1 )

ライセンス: Link先を確認
Ricardo \~Nanculef, Francisco Mena, Antonio Macaluso, Stefano Lodi, Claudio Sartori(参考訳) セマンティックハッシュ(Semantic hashing)は、効率的な索引付けと探索に使用される類似性保存バイナリコードを用いて、高次元データを表現した大規模類似性検索の新興技術である。 ニューラルネットワークによってパラメータ化されたBernoulli潜在表現を持つ変分オートエンコーダは、教師付きおよび教師なしのシナリオでそのようなコードを学習し、アーキテクチャ的にバイナリ制約を処理する能力によって、より伝統的な方法を改善するために、うまくトレーニング可能であることが最近示されている。 しかし、ラベルが乏しいシナリオはまだ研究されていない。 本稿では,現在使用されている2つの半教師付きアプローチに着目し,変分オートエンコーダに基づくハッシュ手法のロバスト性について検討する。 1つ目は変分オートエンコーダのトレーニング目標を補強し、データとクラスラベルの分布を共同でモデル化する。 2つ目のアプローチはアノテーションを利用して、コード(ハミング)空間の類似性とラベル空間の類似性の間の一貫性を強制する、追加のペアワイズ損失を定義する。 実験の結果,両手法ともハッシュコードの品質を著しく向上できることがわかった。 ペアワイズアプローチは、ラベル付き点の数が大きい場合に有利を示すことができる。 しかし, ラベル付き試料が減少すると, この手法は急速に劣化し, 利点が失われることがわかった。 この問題を回避するため,本モデルではラベル分布予測を用いてペアワイズ目標を実現する新しい監督手法を提案する。 最高のベースラインと比較すると、この手順は、完全に教師付き設定で同様のパフォーマンスをもたらすが、ラベル付きデータが少ない場合の結果を大幅に改善する。 私たちのコードはhttps://github.com/amacaluso/ssb-vaeで公開されています。

Semantic hashing is an emerging technique for large-scale similarity search based on representing high-dimensional data using similarity-preserving binary codes used for efficient indexing and search. It has recently been shown that variational autoencoders, with Bernoulli latent representations parametrized by neural nets, can be successfully trained to learn such codes in supervised and unsupervised scenarios, improving on more traditional methods thanks to their ability to handle the binary constraints architecturally. However, the scenario where labels are scarce has not been studied yet. This paper investigates the robustness of hashing methods based on variational autoencoders to the lack of supervision, focusing on two semi-supervised approaches currently in use. The first augments the variational autoencoder's training objective to jointly model the distribution over the data and the class labels. The second approach exploits the annotations to define an additional pairwise loss that enforces consistency between the similarity in the code (Hamming) space and the similarity in the label space. Our experiments show that both methods can significantly increase the hash codes' quality. The pairwise approach can exhibit an advantage when the number of labelled points is large. However, we found that this method degrades quickly and loses its advantage when labelled samples decrease. To circumvent this problem, we propose a novel supervision method in which the model uses its label distribution predictions to implement the pairwise objective. Compared to the best baseline, this procedure yields similar performance in fully supervised settings but improves the results significantly when labelled data is scarce. Our code is made publicly available at https://github.com/amacaluso/SSB-VAE.
翻訳日:2022-11-09 13:14:02 公開日:2020-07-17
# 優先順位付きマルチクリテリアフェデレーション学習

Prioritized Multi-Criteria Federated Learning ( http://arxiv.org/abs/2007.08893v1 )

ライセンス: Link先を確認
Vito Walter Anelli, Yashar Deldjoo, Tommaso Di Noia, Antonio Ferrara(参考訳) マシンラーニングのシナリオでは、リコメンデータシステム、ロケーションベースのモバイルサービス、次の単語予測を提供する携帯電話テキストメッセージサービス、あるいは顔画像分類システムといった、サービスのユーザから来るプライベートデータでモデルをトレーニングする必要がある場合、プライバシは重要な懸念事項である。 主な問題は、データが収集され、転送され、サードパーティによって処理されることです。 これらの取引はGDPRのような新しい規制に違反している。 さらに、ユーザーは、訪問した場所、書いたテキストメッセージ、あるいは第三者と撮った写真など、通常プライベートなデータを共有したくない。 一方、ユーザは自分の行動や好みに基づいて動作するサービスに気付く。 これらの問題に対処するため、フェデレートラーニング(FL)は、データ漏洩を防止しつつ、多数のクライアントに分散されたプライベートデータセットに基づいたMLモデルを構築する手段として最近提案されている。 ユーザの連合は、プライベートデータ上で同じグローバルモデルをトレーニングするように要求され、中央コーディネートサーバは、クライアントによってローカルに計算された更新を受け取り、それらを集約することで、クライアントの実際のデータを使用することなく、より優れたグローバルモデルを得る。 本稿では,高品質グローバルモデルの構築に不可欠なflの集約段階において,最先端のアプローチを前進させることで,flアプローチを拡張する。 具体的には、サービスプロバイダが定義する基準の優先順位に基づいて、各クライアントにスコアを割り当てる基礎となる、クライアント固有の一連の基準を考慮に入れるアプローチを提案する。 2つの公開データセットに関する広範な実験は、標準のflベースラインと比較して提案手法のメリットを示している。

In Machine Learning scenarios, privacy is a crucial concern when models have to be trained with private data coming from users of a service, such as a recommender system, a location-based mobile service, a mobile phone text messaging service providing next word prediction, or a face image classification system. The main issue is that, often, data are collected, transferred, and processed by third parties. These transactions violate new regulations, such as GDPR. Furthermore, users usually are not willing to share private data such as their visited locations, the text messages they wrote, or the photo they took with a third party. On the other hand, users appreciate services that work based on their behaviors and preferences. In order to address these issues, Federated Learning (FL) has been recently proposed as a means to build ML models based on private datasets distributed over a large number of clients, while preventing data leakage. A federation of users is asked to train a same global model on their private data, while a central coordinating server receives locally computed updates by clients and aggregate them to obtain a better global model, without the need to use clients' actual data. In this work, we extend the FL approach by pushing forward the state-of-the-art approaches in the aggregation step of FL, which we deem crucial for building a high-quality global model. Specifically, we propose an approach that takes into account a suite of client-specific criteria that constitute the basis for assigning a score to each client based on a priority of criteria defined by the service provider. Extensive experiments on two publicly available datasets indicate the merits of the proposed approach compared to standard FL baseline.
翻訳日:2022-11-09 13:12:55 公開日:2020-07-17
# 円錐分別関数を用いた低次元解釈可能カーネルの分類

Low-dimensional Interpretable Kernels with Conic Discriminant Functions for Classification ( http://arxiv.org/abs/2007.08986v1 )

ライセンス: Link先を確認
Gurhan Ceylan and S. Ilker Birbil(参考訳) カーネルはしばしば、高次元の特徴空間表現のために印象的な予測力を示す暗黙のマッピング関数として開発され使用される。 本研究では,解釈可能な低次元カーネルの集合に繋がる一連の単純な特徴写像を徐々に構築する。 各ステップにおいて、元の特徴を保ち、入力データの次元の増大が極端に低く、その結果の識別関数が解釈可能であり、高速な訓練に有効であることを確認する。 解釈可能性の持続性にも拘わらず、奥行きのハイパーパラメータチューニングなしでも高精度な結果が得られる。 ベンチマークデータセット上のよく知られたカーネルと比較すると,提案したカーネルは予測精度で競合するが,トレーニング時間は最先端のカーネル実装で得られたカーネルに比べて有意に低い。

Kernels are often developed and used as implicit mapping functions that show impressive predictive power due to their high-dimensional feature space representations. In this study, we gradually construct a series of simple feature maps that lead to a collection of interpretable low-dimensional kernels. At each step, we keep the original features and make sure that the increase in the dimension of input data is extremely low, so that the resulting discriminant functions remain interpretable and amenable to fast training. Despite our persistence on interpretability, we obtain high accuracy results even without in-depth hyperparameter tuning. Comparison of our results against several well-known kernels on benchmark datasets show that the proposed kernels are competitive in terms of prediction accuracy, while the training times are significantly lower than those obtained with state-of-the-art kernel implementations.
翻訳日:2022-11-09 13:11:35 公開日:2020-07-17
# 深層学習における知識蒸留とその応用

Knowledge Distillation in Deep Learning and its Applications ( http://arxiv.org/abs/2007.09029v1 )

ライセンス: Link先を確認
Abdolmaged Alkhulaifi, Fahad Alsahli, Irfan Ahmad(参考訳) ディープラーニングベースのモデルは比較的大きく、そのようなモデルを携帯電話や組み込みデバイスといったリソース制限されたデバイスにデプロイすることは困難である。 1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)の情報を利用して訓練される。 本稿では,ディープラーニングモデルに適用した知識蒸留技術について調査する。 異なる技術の性能を比較するために,蒸留計量という新しい指標を提案する。 蒸留計量は、サイズと精度スコアに基づいて異なる知識蒸留アルゴリズムを比較する。 調査の結果から,本論文ではいくつかの興味深い結論が得られた。

Deep learning based models are relatively large, and it is hard to deploy such models on resource-limited devices such as mobile phones and embedded devices. One possible solution is knowledge distillation whereby a smaller model (student model) is trained by utilizing the information from a larger model (teacher model). In this paper, we present a survey of knowledge distillation techniques applied to deep learning models. To compare the performances of different techniques, we propose a new metric called distillation metric. Distillation metric compares different knowledge distillation algorithms based on sizes and accuracy scores. Based on the survey, some interesting conclusions are drawn and presented in this paper.
翻訳日:2022-11-09 13:11:21 公開日:2020-07-17
# 機械学習を用いたテレメトリックデータからトラック事故リスクを推定できるか?

Can we Estimate Truck Accident Risk from Telemetric Data using Machine Learning? ( http://arxiv.org/abs/2007.09167v1 )

ライセンス: Link先を確認
Antoine H\'ebert, Ian Marineau, Gilles Gervais, Tristan Glatard, Brigitte Jaumard(参考訳) 交通事故は社会的なコストが高く、機械学習によるリスク予測の改善によってコストを削減できる。 本研究では,長距離トラックで収集した遠隔計測データを用いて,運転者の事故リスクを予測できるかどうかを検討する。 1,141人のドライバーの運転データを含むトラック輸送会社が提供するデータセットを18ヶ月間使用します。 このタスクを実行するための2つの異なる機械学習アプローチを評価する。 第1のアプローチでは,フレッシュアルゴリズムを用いて時系列データから特徴を抽出し,ランダムフォレストを用いてリスクを推定する。 第2のアプローチでは,畳み込みニューラルネットワークを用いて,時系列データからリスクを直接推定する。 どちらの手法も、多くの方法論的試みにもかかわらず、このデータセット上で事故のリスクを見積もることはできない。 本稿では,この負の結果を説明できる事故リスクの推定に遠隔計測データを用いることの難しさについて論じる。

Road accidents have a high societal cost that could be reduced through improved risk predictions using machine learning. This study investigates whether telemetric data collected on long-distance trucks can be used to predict the risk of accidents associated with a driver. We use a dataset provided by a truck transportation company containing the driving data of 1,141 drivers for 18 months. We evaluate two different machine learning approaches to perform this task. In the first approach, features are extracted from the time series data using the FRESH algorithm and then used to estimate the risk using Random Forests. In the second approach, we use a convolutional neural network to directly estimate the risk from the time-series data. We find that neither approach is able to successfully estimate the risk of accidents on this dataset, in spite of many methodological attempts. We discuss the difficulties of using telemetric data for the estimation of the risk of accidents that could explain this negative result.
翻訳日:2022-11-09 13:11:12 公開日:2020-07-17
# 感性階層的自然言語生成に向けて

Toward Givenness Hierarchy Theoretic Natural Language Generation ( http://arxiv.org/abs/2007.16009v1 )

ライセンス: Link先を確認
Poulomi Pal and Tom Williams(参考訳) 人間との対話に参加する言語対応型対話型ロボットは、自然と効率的に環境内の実体についてコミュニケーションをとることができる。 このようなコミュニケーションの重要な側面は、照応言語の使用である。 GH(Givenness Hierarchy)の言語理論は、人間がアナフォラを相手の認知的地位に基づいて用いていることを示唆している。 これまでの研究で、研究者はロボットアナフォラ理解に対するGH理論のアプローチを提示した。 本稿では,ロボットのアナフォラ生成を促進するために,GHをまったく異なる方法で使用する必要があることを述べる。

Language-capable interactive robots participating in dialogues with human interlocutors must be able to naturally and efficiently communicate about the entities in their environment. A key aspect of such communication is the use of anaphoric language. The linguistic theory of the Givenness Hierarchy(GH) suggests that humans use anaphora based on the cognitive statuses their referents have in the minds of their interlocutors. In previous work, researchers presented GH-theoretic approaches to robot anaphora understanding. In this paper we describe how the GH might need to be used quite differently to facilitate robot anaphora generation.
翻訳日:2022-11-09 13:04:55 公開日:2020-07-17
# 教師なしシーン記述による知識に基づくビデオ質問応答

Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions ( http://arxiv.org/abs/2007.08751v1 )

ライセンス: Link先を確認
Noa Garcia and Yuta Nakashima(参考訳) 映画を理解するために、人間は特定のシーンで示される対話やアクションを常に推論し、既に見られる全体的なストーリーラインと関連付ける。 この行動にインスパイアされたROLLは,映像理解の3つの重要な側面(対話理解,シーン推論,ストーリーラインリコール)を活用する知識に基づくビデオストーリー質問応答モデルである。 ROLLでは、これらのタスクはリッチで多様な情報を抽出する役割を担っている。 1)シーン対話の処理、 2)教師なしのビデオシーン記述の作成、及び 3) 外部知識を弱教師付きで取得すること。 与えられた質問に正しく答えるために、各インスパイア認知タスクによって生成された情報はトランスフォーマーを介してエンコードされ、異なるソースからの情報をバランスさせるモダリティ重み付け機構を介して融合される。 その結果,VQA と TVQA+ という2つの課題のビデオ質問応答データセットに対して,新たな最先端技術が得られた。

To understand movies, humans constantly reason over the dialogues and actions shown in specific scenes and relate them to the overall storyline already seen. Inspired by this behaviour, we design ROLL, a model for knowledge-based video story question answering that leverages three crucial aspects of movie understanding: dialog comprehension, scene reasoning, and storyline recalling. In ROLL, each of these tasks is in charge of extracting rich and diverse information by 1) processing scene dialogues, 2) generating unsupervised video scene descriptions, and 3) obtaining external knowledge in a weakly supervised fashion. To answer a given question correctly, the information generated by each inspired-cognitive task is encoded via Transformers and fused through a modality weighting mechanism, which balances the information from the different sources. Exhaustive evaluation demonstrates the effectiveness of our approach, which yields a new state-of-the-art on two challenging video question answering datasets: KnowIT VQA and TVQA+.
翻訳日:2022-11-09 13:04:46 公開日:2020-07-17
# 非自律型ニューラルネットワーク翻訳のためのタスクレベルカリキュラム学習

Task-Level Curriculum Learning for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2007.08772v1 )

ライセンス: Link先を確認
Jinglin Liu, Yi Ren, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, Tie-Yan Liu(参考訳) 非自己回帰翻訳(NAT)は高速な推論速度を実現するが、自己回帰翻訳(AT)と比較して精度が悪くなる。 ATとNATはモデル構造を共有することができ、ATは従来のターゲット側のトークンへの明示的な依存のためNATよりも容易なタスクであるため、自然な考え方は、モデルのトレーニングをより簡単なATタスクからより難しいNATタスクに徐々にシフトさせることである。 本稿では,ATトレーニングからNATトレーニングへの移行を円滑にするために,半自己回帰翻訳(SAT)を中間課題として紹介する。 SAT はハイパーパラメータ k を含み、各 k 値は異なる並列性を持つSAT タスクを定義する。 特に、SATは特別な場合としてATとNATをカバーし、k = 1 のとき AT に、k = N のとき NAT に還元する(N はターゲット文の長さ)。 我々は、k を 1 から n に徐々にシフトするようにカリキュラムスケジュールを設計し、異なるペーシング関数とタスク数を同時に訓練する。 我々は,本手法をNAT(TCL-NAT)のタスクレベルカリキュラム学習と呼んでいる。 iwslt14 de-en, iwslt16 en-de, wmt14 en-deおよびde-enデータセットの実験では、tcl-natが以前のnatベースラインよりも大幅に精度が向上し、natとatモデルの性能ギャップが1-2 bleuポイントに低減され、提案手法の有効性が実証された。

Non-autoregressive translation (NAT) achieves faster inference speed but at the cost of worse accuracy compared with autoregressive translation (AT). Since AT and NAT can share model structure and AT is an easier task than NAT due to the explicit dependency on previous target-side tokens, a natural idea is to gradually shift the model training from the easier AT task to the harder NAT task. To smooth the shift from AT training to NAT training, in this paper, we introduce semi-autoregressive translation (SAT) as intermediate tasks. SAT contains a hyperparameter k, and each k value defines a SAT task with different degrees of parallelism. Specially, SAT covers AT and NAT as its special cases: it reduces to AT when k = 1 and to NAT when k = N (N is the length of target sentence). We design curriculum schedules to gradually shift k from 1 to N, with different pacing functions and number of tasks trained at the same time. We called our method as task-level curriculum learning for NAT (TCL-NAT). Experiments on IWSLT14 De-En, IWSLT16 En-De, WMT14 En-De and De-En datasets show that TCL-NAT achieves significant accuracy improvements over previous NAT baselines and reduces the performance gap between NAT and AT models to 1-2 BLEU points, demonstrating the effectiveness of our proposed method.
翻訳日:2022-11-09 13:04:11 公開日:2020-07-17
# BMO関数のためのバンド

Bandits for BMO Functions ( http://arxiv.org/abs/2007.08703v1 )

ライセンス: Link先を確認
Tianyu Wang and Cynthia Rudin(参考訳) 本稿では,BMO(Bunded Mean Oscillation)関数が期待される帯域幅問題について検討する。 BMO関数は不連続かつ非有界であり、do-mainの無限小を持つ信号のモデリングに有用である。 我々は,BMO盗賊のためのツールセットを開発し,ポリログ$\delta$-regretを達成できるアルゴリズムを提供する。

We study the bandit problem where the underlying expected reward is a Bounded Mean Oscillation (BMO) function. BMO functions are allowed to be discontinuous and unbounded, and are useful in modeling signals with infinities in the do-main. We develop a toolset for BMO bandits, and provide an algorithm that can achieve poly-log $\delta$-regret -- a regret measured against an arm that is optimal after removing a $\delta$-sized portion of the arm space.
翻訳日:2022-11-09 13:03:03 公開日:2020-07-17
# 変分オートエンコーダを用いた逐次セグメントベースレベル生成とブレンド

Sequential Segment-based Level Generation and Blending using Variational Autoencoders ( http://arxiv.org/abs/2007.08746v1 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) VAEやGANのような潜在変数モデルを用いた既存のレベル生成法はセグメントで行われ、これらを別々に生成したセグメントを縫合して最終レベルを生成する。 本稿では,先行セグメントから論理的に追従するセグメント生成の逐次モデルを学ぶために,vaesを訓練することで,これらの手法を構築する。 さらに、VAEと、生成されたセグメントを前のセグメントの上、下、左、右に配置するかを決定する分類器を組み合わせることにより、これらの4つの方向に進行する任意の長いレベルを任意に生成し、論理的に互いに従うセグメントからなるパイプラインを得る。 非固定長のコヒーレントなレベルを生成することに加えて、同じ方向を持たない別々のゲームからのレベルを暗黙的にブレンドすることも可能である。 我々はスーパーマリオブラザーズ、キッド・イカルス、メガマンのレベルを用いて、我々の手法が従来の潜伏変数ベースのアプローチよりも一貫性のあるレベルを生成し、ゲーム間でレベルをブレンドできることを示した。

Existing methods of level generation using latent variable models such as VAEs and GANs do so in segments and produce the final level by stitching these separately generated segments together. In this paper, we build on these methods by training VAEs to learn a sequential model of segment generation such that generated segments logically follow from prior segments. By further combining the VAE with a classifier that determines whether to place the generated segment to the top, bottom, left or right of the previous segment, we obtain a pipeline that enables the generation of arbitrarily long levels that progress in any of these four directions and are composed of segments that logically follow one another. In addition to generating more coherent levels of non-fixed length, this method also enables implicit blending of levels from separate games that do not have similar orientation. We demonstrate our approach using levels from Super Mario Bros., Kid Icarus and Mega Man, showing that our method produces levels that are more coherent than previous latent variable-based approaches and are capable of blending levels across games.
翻訳日:2022-11-09 13:02:54 公開日:2020-07-17
# 大規模・高次元データのクラスター構造の可視化

Visualizing the Finer Cluster Structure of Large-Scale and High-Dimensional Data ( http://arxiv.org/abs/2007.08711v1 )

ライセンス: Link先を確認
Yu Liang, Arin Chaudhuri, and Haoyu Wang(参考訳) データサイエンスにおける大規模データベースの急速な成長により,高次元データの次元化と可視化が重要な研究課題となっている。 本稿では,高次元空間と低次元空間の両方における距離類似性をモデル化するための一般化シグモイド関数を提案する。 特に、パラメータbを低次元空間における一般化されたsgmoid関数に導入することにより、bの値を変えて関数テールの重みを調整できる。 シミュレーションデータと実世界のデータの両方を用いて,提案手法は,高速実行速度,グローバル構造,大規模データセットへの拡張性を備えた,新たに開発された多様体学習手法であるuniform manifold approximation and projection (umap) に匹敵する可視化結果を生成することができることを示した。 また、研究の目的とデータ構造により、データのより細かいクラスタ構造を明らかにするか、あるいは埋め込みの近傍連続性を維持するために、bの値を減少または増加させることができる。 最後に、ドメイン知識を用いて、より微細なサブクラスタが b の小さな値で表されることは有意義であることを示す。

Dimension reduction and visualization of high-dimensional data have become very important research topics because of the rapid growth of large databases in data science. In this paper, we propose using a generalized sigmoid function to model the distance similarity in both high- and low-dimensional spaces. In particular, the parameter b is introduced to the generalized sigmoid function in low-dimensional space, so that we can adjust the heaviness of the function tail by changing the value of b. Using both simulated and real-world data sets, we show that our proposed method can generate visualization results comparable to those of uniform manifold approximation and projection (UMAP), which is a newly developed manifold learning technique with fast running speed, better global structure, and scalability to massive data sets. In addition, according to the purpose of the study and the data structure, we can decrease or increase the value of b to either reveal the finer cluster structure of the data or maintain the neighborhood continuity of the embedding for better visualization. Finally, we use domain knowledge to demonstrate that the finer subclusters revealed with small values of b are meaningful.
翻訳日:2022-11-09 12:56:06 公開日:2020-07-17
# 多段階影響関数

Multi-Stage Influence Function ( http://arxiv.org/abs/2007.09081v1 )

ライセンス: Link先を確認
Hongge Chen, Si Si, Yang Li, Ciprian Chelba, Sanjiv Kumar, Duane Boning, Cho-Jui Hsieh(参考訳) 大規模事前学習タスクから様々な微調整タスクへの多段階訓練と知識伝達は、自然言語処理とコンピュータビジョンに革命をもたらし、最先端のパフォーマンス向上をもたらした。 本稿では,事前学習データまで遡って,微調整モデルから予測をトラックする多段階影響関数スコアを開発する。 このスコアを用いて,事前学習タスクにおける事前学習の例を特定し,微調整タスクの予測に最も寄与する。 提案する多段階インフルエンサー関数は,単一モデル (koh & liang, 2017) における元のインフルエンサー関数を一般化し,事前学習モデルと微調整モデルの両方によるインフルエンサー計算を可能にする。 本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。 提案手法を様々な実験で検証し,その有効性と可能性を示す。

Multi-stage training and knowledge transfer, from a large-scale pretraining task to various finetuning tasks, have revolutionized natural language processing and computer vision resulting in state-of-the-art performance improvements. In this paper, we develop a multi-stage influence function score to track predictions from a finetuned model all the way back to the pretraining data. With this score, we can identify the pretraining examples in the pretraining task that contribute most to a prediction in the finetuning task. The proposed multi-stage influence function generalizes the original influence function for a single model in (Koh & Liang, 2017), thereby enabling influence computation through both pretrained and finetuned models. We study two different scenarios with the pretrained embeddings fixed or updated in the finetuning tasks. We test our proposed method in various experiments to show its effectiveness and potential applications.
翻訳日:2022-11-09 12:54:53 公開日:2020-07-17
# FSpiNN: メモリとエネルギー効率の良いスパイクニューラルネットワークのための最適化フレームワーク

FSpiNN: An Optimization Framework for Memory- and Energy-Efficient Spiking Neural Networks ( http://arxiv.org/abs/2007.08860v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) スパイキングニューラルネットワーク(SNN)は、ハードウェアプラットフォームで低消費電力/エネルギー計算を消費する可能性のあるイベント駆動処理による関心を集めている。 しかし、最先端のSNNは高い精度を達成するために大きなメモリフットプリントを必要とするため、例えばバッテリ駆動のモバイルデバイスやIoT Edgeノードなど、組み込みシステムへのデプロイが困難になる。 そこで本稿では,トレーニングと推論処理のためのメモリ効率とエネルギー効率のよいSNNを,精度を維持しつつ教師なし学習能力を備えた最適化フレームワークFSpiNNを提案する。 2)STDPに基づく学習の精度の向上,(3)固定点量子化によるSNNの圧縮,(4)メモリとエネルギーの要求を最適化プロセスに組み込むことにより,脳神経とSTDP操作の計算要求の低減を実現した。 FSpiNNは、ニューロン操作の数、STDPベースのシナプス重み更新、STDPの複雑さを減らし、計算要求を減らす。 学習の精度を向上させるため、FSpiNNはタイムステップベースのシナプス重み更新を採用し、STDP増強因子と効果的な抑制強度を適応的に決定する。 実験結果から,fspinnは最新技術と比較して7.5倍のメモリ節約を達成し,トレーニングで平均3.5倍,推論で平均1.8倍のエネルギー効率を向上し,4900の興奮ニューロンを有するネットワークの精度損失をなくし,エッジデバイス/組込みシステムにおいてエネルギー効率のよいsnsを実現する。

Spiking Neural Networks (SNNs) are gaining interest due to their event-driven processing which potentially consumes low power/energy computations in hardware platforms, while offering unsupervised learning capability due to the spike-timing-dependent plasticity (STDP) rule. However, state-of-the-art SNNs require a large memory footprint to achieve high accuracy, thereby making them difficult to be deployed on embedded systems, for instance on battery-powered mobile devices and IoT Edge nodes. Towards this, we propose FSpiNN, an optimization framework for obtaining memory- and energy-efficient SNNs for training and inference processing, with unsupervised learning capability while maintaining accuracy. It is achieved by (1) reducing the computational requirements of neuronal and STDP operations, (2) improving the accuracy of STDP-based learning, (3) compressing the SNN through a fixed-point quantization, and (4) incorporating the memory and energy requirements in the optimization process. FSpiNN reduces the computational requirements by reducing the number of neuronal operations, the STDP-based synaptic weight updates, and the STDP complexity. To improve the accuracy of learning, FSpiNN employs timestep-based synaptic weight updates, and adaptively determines the STDP potentiation factor and the effective inhibition strength. The experimental results show that, as compared to the state-of-the-art work, FSpiNN achieves 7.5x memory saving, and improves the energy-efficiency by 3.5x on average for training and by 1.8x on average for inference, across MNIST and Fashion MNIST datasets, with no accuracy loss for a network with 4900 excitatory neurons, thereby enabling energy-efficient SNNs for edge devices/embedded systems.
翻訳日:2022-11-09 12:53:33 公開日:2020-07-17
# 文脈化は勾配に基づくメタ学習を強化する

Contextualizing Enhances Gradient Based Meta Learning ( http://arxiv.org/abs/2007.10143v1 )

ライセンス: Link先を確認
Evan Vogelbaum and Rumen Dangovski and Li Jing and Marin Solja\v{c}i\'c(参考訳) メタ学習法は、少数のショット分類問題に適用した場合に成功し、少数のラベル付き例に迅速に適応する。 特定のクラスを表す原型表現は、ラベル付き例から学習した情報を伝えるためのコンパクトな形式を提供するので、この設定において特に重要である。 しかし、これらのプロトタイプはこの情報を表現する一つの方法であり、その範囲は狭く、見当たらない例を分類する能力がある。 本稿では,与えられた例に適応し,勾配モデルに対する分類においてより大きな役割を果たす一般化可能なプロトタイプである文脈化器の実装を提案する。 本稿では,メタラーニング手法を文脈解析器と組み合わせることで,いくつかのショットラーニングデータセットの性能を著しく向上させることができることを示す。 また,モデルがそれらをどのように利用するかの分析とともに,コンテクストライザの潜在的メリットを示すメリットの数値も提示する。 提案手法は,パラメータの過剰な更新が難しい低データ環境において特に適している。 実験を再現するための実装とインストラクションは、https://github.com/naveace/proto-contextで利用可能です。

Meta learning methods have found success when applied to few shot classification problems, in which they quickly adapt to a small number of labeled examples. Prototypical representations, each representing a particular class, have been of particular importance in this setting, as they provide a compact form to convey information learned from the labeled examples. However, these prototypes are just one method of representing this information, and they are narrow in their scope and ability to classify unseen examples. We propose the implementation of contextualizers, which are generalizable prototypes that adapt to given examples and play a larger role in classification for gradient-based models. We demonstrate how to equip meta learning methods with contextualizers and show that their use can significantly boost performance on a range of few shot learning datasets. We also present figures of merit demonstrating the potential benefits of contextualizers, along with analysis of how models make use of them. Our approach is particularly apt for low-data environments where it is difficult to update parameters without overfitting. Our implementation and instructions to reproduce the experiments are available at https://github.com/naveace/proto-context.
翻訳日:2022-11-09 12:46:47 公開日:2020-07-17
# 巨人の肩の上に立つ:ハードウェアとニューラルアーキテクチャをhot startと共同研究

Standing on the Shoulders of Giants: Hardware and Neural Architecture Co-Search with Hot Start ( http://arxiv.org/abs/2007.09087v1 )

ライセンス: Link先を確認
Weiwen Jiang, Lei Yang, Sakyasingha Dasgupta, Jingtong Hu, Yiyu Shi(参考訳) 特定のデータセットから人工知能(AI)ソリューションを自動的に生成するハードウェアとニューラルネットワークの共同研究は、AIの民主化を促進することを約束している。 これにより、コモディティハードウェアにおけるそのようなフレームワークの使用が阻害される。 既存のコリサーチフレームワークにおける低効率の根本原因は、それらが"コールド"状態(すなわち、ゼロから検索する)から始まるという事実である。 本稿では,既存の事前学習モデル(すなわちモデル動物園)のセットに基づく"ホット"状態から始まり,長い訓練時間を回避するための新しい枠組みであるhotnasを提案する。 そのため、検索時間は200GPU時間から3GPU時間未満に短縮できる。 hotnasでは、ハードウェア設計スペースとニューラルアーキテクチャ検索スペースに加えて、共同検索中にモデル圧縮を行うための圧縮スペースをさらに統合します。 重要な課題の1つは、上記のすべての検索空間が互いに結合していることだ。例えば、圧縮はハードウェア設計のサポートなしでは機能しないかもしれない。 この問題を解決するため、HotNASは、圧縮をサポートするハードウェアを設計するための一連のツールを構築している。 ImageNetデータセットとXilinx FPGAの実験によると、5msのタイミング制約の中で、HotNASによって生成されたニューラルネットワークは、既存のものと比較して最大5.79%のTop-1と3.97%のTop-5の精度向上を達成することができる。

Hardware and neural architecture co-search that automatically generates Artificial Intelligence (AI) solutions from a given dataset is promising to promote AI democratization; however, the amount of time that is required by current co-search frameworks is in the order of hundreds of GPU hours for one target hardware. This inhibits the use of such frameworks on commodity hardware. The root cause of the low efficiency in existing co-search frameworks is the fact that they start from a "cold" state (i.e., search from scratch). In this paper, we propose a novel framework, namely HotNAS, that starts from a "hot" state based on a set of existing pre-trained models (a.k.a. model zoo) to avoid lengthy training time. As such, the search time can be reduced from 200 GPU hours to less than 3 GPU hours. In HotNAS, in addition to hardware design space and neural architecture search space, we further integrate a compression space to conduct model compressing during the co-search, which creates new opportunities to reduce latency but also brings challenges. One of the key challenges is that all of the above search spaces are coupled with each other, e.g., compression may not work without hardware design support. To tackle this issue, HotNAS builds a chain of tools to design hardware to support compression, based on which a global optimizer is developed to automatically co-search all the involved search spaces. Experiments on ImageNet dataset and Xilinx FPGA show that, within the timing constraint of 5ms, neural architectures generated by HotNAS can achieve up to 5.79% Top-1 and 3.97% Top-5 accuracy gain, compared with the existing ones.
翻訳日:2022-11-09 12:46:29 公開日:2020-07-17
# 単一画像参照のための融合ネットワークを備えたウェーブレットチャネルアテンションモジュール

Wavelet Channel Attention Module with a Fusion Network for Single Image Deraining ( http://arxiv.org/abs/2007.09163v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang, Chao-Han Huck Yang, Yu-Chiang Frank Wang(参考訳) 雨は画像の可視性を著しく低下させ、屋外監視システムやインテリジェントな車両などのコンピュータビジョンタスクのパフォーマンスに影響を与えるため、単一画像のレーディングは重要な問題である。 本稿では,融合ネットワークを用いたウェーブレットチャネルアテンションモジュールと呼ばれる新しい畳み込みニューラルネットワーク(CNN)を提案する。 ウェーブレット変換と逆ウェーブレット変換は、ダウンサンプリングとアップサンプリングに代えて、ウェーブレット変換と畳み込みによる特徴写像は異なる周波数とスケールを含む。 さらに、特徴マップはチャネルアテンションによって統合される。 提案するネットワークは,原画像のウェーブレット変換から導出される4つのサブバンド画像の信頼度マップを学習する。 最後に、低周波部と高周波部のウェーブレット再構成および融合により、クリアイメージを良好に復元することができる。 合成画像と実画像のいくつかの実験結果から,提案アルゴリズムは最先端の手法よりも優れていることがわかった。

Single image deraining is a crucial problem because rain severely degenerates the visibility of images and affects the performance of computer vision tasks like outdoor surveillance systems and intelligent vehicles. In this paper, we propose the new convolutional neural network (CNN) called the wavelet channel attention module with a fusion network. Wavelet transform and the inverse wavelet transform are substituted for down-sampling and up-sampling so feature maps from the wavelet transform and convolutions contain different frequencies and scales. Furthermore, feature maps are integrated by channel attention. Our proposed network learns confidence maps of four sub-band images derived from the wavelet transform of the original images. Finally, the clear image can be well restored via the wavelet reconstruction and fusion of the low-frequency part and high-frequency parts. Several experimental results on synthetic and real images present that the proposed algorithm outperforms state-of-the-art methods.
翻訳日:2022-11-09 12:46:00 公開日:2020-07-17
# WordCraft: Commonsenseエージェントのベンチマーク環境

WordCraft: An Environment for Benchmarking Commonsense Agents ( http://arxiv.org/abs/2007.09185v1 )

ライセンス: Link先を確認
Minqi Jiang, Jelena Luketina, Nantas Nardelli, Pasquale Minervini, Philip H. S. Torr, Shimon Whiteson, Tim Rockt\"aschel(参考訳) 幅広い現実世界のタスクを迅速に解決する能力は、世界の常識的な理解を必要とする。 しかし、自然言語コーパスからそのような知識を抽出し、強化学習(RL)エージェントと統合する方法は未解決の課題である。 これは、実世界のセマンティクスを十分に反映し、RL環境における観察に基づく知識ソースを提供する軽量なシミュレーション環境が欠如していることによるものである。 常識知識を利用したエージェントの研究をより効果的にするために,Little Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。 この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。 本ベンチマークでは,複数の表現学習手法を評価し,知識グラフとrlエージェントを統合する新しい手法を提案する。

The ability to quickly solve a wide range of real-world tasks requires a commonsense understanding of the world. Yet, how to best extract such knowledge from natural language corpora and integrate it with reinforcement learning (RL) agents remains an open challenge. This is partly due to the lack of lightweight simulation environments that sufficiently reflect the semantics of the real world and provide knowledge sources grounded with respect to observations in an RL environment. To better enable research on agents making use of commonsense knowledge, we propose WordCraft, an RL environment based on Little Alchemy 2. This lightweight environment is fast to run and built upon entities and relations inspired by real-world semantics. We evaluate several representation learning methods on this new benchmark and propose a new method for integrating knowledge graphs with an RL agent.
翻訳日:2022-11-09 12:45:44 公開日:2020-07-17
# テキスト分類のためのサポートベクターマシンモデルの精度低減による学習

Training with reduced precision of a support vector machine model for text classification ( http://arxiv.org/abs/2007.08657v1 )

ライセンス: Link先を確認
Dominik \.Zurek and Marcin Pietro\'n(参考訳) 本稿では,サポートベクターマシン(svm)の学習過程におけるマルチクラステキスト分類の効率性に量子化が与える影響について述べる。 本研究は, 縮小精度を用いて訓練したSVMモデルの効率性と, 原型との比較に焦点を当てた。 量子化を使用する主な利点は、GPU(16ビット)やFPGA(ビット幅)のような低精度の計算をサポートする専用ハードウェアプラットフォームの計算時間とメモリフットプリントの削減である。 本稿では,SVM学習過程の高精度化がテキスト分類精度に及ぼす影響について述べる。 CPUの実装はOpenMPライブラリを使用して行われた。 さらに、倍精度、単精度、半精度を用いたGPUの実装結果を示す。

This paper presents the impact of using quantization on the efficiency of multi-class text classification in the training process of a support vector machine (SVM). This work is focused on comparing the efficiency of SVM model trained using reduced precision with its original form. The main advantage of using quantization is decrease in computation time and in memory footprint on the dedicated hardware platform which supports low precision computation like GPU (16-bit) or FPGA (any bit-width). The paper presents the impact of a precision reduction of the SVM training process on text classification accuracy. The implementation of the CPU was performed using the OpenMP library. Additionally, the results of the implementation of the GPU using double, single and half precision are presented.
翻訳日:2022-11-09 12:45:32 公開日:2020-07-17
# CovidCare:既存のEMRから新しいてんかんへの知識の移行

CovidCare: Transferring Knowledge from Existing EMR to Emerging Epidemic for Interpretable Prognosis ( http://arxiv.org/abs/2007.08848v1 )

ライセンス: Link先を確認
Liantao Ma, Xinyu Ma, Junyi Gao, Chaohe Zhang, Zhihao Yu, Xianfeng Jiao, Wenjie Ruan, Yasha Wang, Wen Tang, Jiangtao Wang(参考訳) 新型コロナウイルスの特徴により、この流行は急速に発展し、世界中の医療サービスシステムに圧倒される。 多くの患者は全身的な致命的な問題を抱えており、ICUで注意深く監視する必要がある。 このように、インテリジェントな予後は、医師が早期の介入をし、副作用を予防し、医療資源割り当てを最適化するために緊急に必要である。 しかし、流行の初期段階では、効果的な診断機構の欠如、ケースの希少性、プライバシー上の懸念などから、分析に利用できるデータは限られている。 本稿では,新興感染症患者の予後を高めるため,既存の電子カルテを活用した深層学習型アプローチであるCovidCareを提案する。 トランスファー・ラーニングを通じて既存の大量のemrデータに基づいて、新型コロナウイルス関連の医療機能を埋め込むことを学んでいる。 転送されたパラメータは、さらに、ソースデータセットにより包括的に健康状態を埋め込んだ知識蒸留に基づく教師モデルの表現行動を模倣するように訓練される。 実際のCOVID-19データセット上で、患者に対する滞在予測実験の期間を延ばす。 実験の結果,提案手法は比較ベースライン法よりも一貫して優れていた。 CovidCareもそれを明かしている。 1) hs-cTnI, hs-CRP, 血小板数は最も致命的なバイオマーカーであり, 異常値は通常, 緊急の副作用を示す。 2)ガンマGT,AP,eGFRの正常値は,健康の全体的な改善を示す。 コビッドケアが抽出した医学的な発見は、人間の専門家や医学文献によって実証的に確認されている。

Due to the characteristics of COVID-19, the epidemic develops rapidly and overwhelms health service systems worldwide. Many patients suffer from systemic life-threatening problems and need to be carefully monitored in ICUs. Thus the intelligent prognosis is in an urgent need to assist physicians to take an early intervention, prevent the adverse outcome, and optimize the medical resource allocation. However, in the early stage of the epidemic outbreak, the data available for analysis is limited due to the lack of effective diagnostic mechanisms, rarity of the cases, and privacy concerns. In this paper, we propose a deep-learning-based approach, CovidCare, which leverages the existing electronic medical records to enhance the prognosis for inpatients with emerging infectious diseases. It learns to embed the COVID-19-related medical features based on massive existing EMR data via transfer learning. The transferred parameters are further trained to imitate the teacher model's representation behavior based on knowledge distillation, which embeds the health status more comprehensively in the source dataset. We conduct the length of stay prediction experiments for patients on a real-world COVID-19 dataset. The experiment results indicate that our proposed model consistently outperforms the comparative baseline methods. CovidCare also reveals that, 1) hs-cTnI, hs-CRP and Platelet Counts are the most fatal biomarkers, whose abnormal values usually indicate emergency adverse outcome. 2) Normal values of gamma-GT, AP and eGFR indicate the overall improvement of health. The medical findings extracted by CovidCare are empirically confirmed by human experts and medical literatures.
翻訳日:2022-11-09 12:45:21 公開日:2020-07-17
# メンタルモデルに基づく政策の逐次的説明

Sequential Explanations with Mental Model-Based Policies ( http://arxiv.org/abs/2007.09028v1 )

ライセンス: Link先を確認
Arnold YS Yeung, Shalmali Joshi, Joseph Jay Williams, Frank Rudzicz(参考訳) 2つの当事者間で説明を行う行為はフィードバックループであり、1つは説明すべき情報を提供し、もう1つはこの情報に関連する説明を提供する。 我々は,この形式を模倣する強化学習フレームワークを適用し,説明者の現在の精神モデルに基づいた説明を提供する。 我々は,解釈可能性プロキシを最適化するために,参加者のメンタルモデルを観察するポリシーを用いて,様々な説明手法によって生成された説明を参加者に選択し提示する,新しいオンラインヒューマン実験を行う。 提案手法では,ランダム選択ベースラインと比較して,複数の逐次的説明に対する解釈性が向上する可能性が示唆された。 この研究は、ユーザに関連する情報を増やす説明を選択する方法と、解釈可能性を理解するために人間による実験を行う方法に関する洞察を提供する。

The act of explaining across two parties is a feedback loop, where one provides information on what needs to be explained and the other provides an explanation relevant to this information. We apply a reinforcement learning framework which emulates this format by providing explanations based on the explainee's current mental model. We conduct novel online human experiments where explanations generated by various explanation methods are selected and presented to participants, using policies which observe participants' mental models, in order to optimize an interpretability proxy. Our results suggest that mental model-based policies (anchored in our proposed state representation) may increase interpretability over multiple sequential explanations, when compared to a random selection baseline. This work provides insight into how to select explanations which increase relevant information for users, and into conducting human-grounded experimentation to understand interpretability.
翻訳日:2022-11-09 12:44:58 公開日:2020-07-17
# オフライン強化学習のためのハイパーパラメータ選択

Hyperparameter Selection for Offline Reinforcement Learning ( http://arxiv.org/abs/2007.09055v1 )

ライセンス: Link先を確認
Tom Le Paine, Cosmin Paduraru, Andrea Michi, Caglar Gulcehre, Konrad Zolna, Alexander Novikov, Ziyu Wang, Nando de Freitas(参考訳) オフライン強化学習(rl)は、現実のシナリオにrlテクニックをデプロイするための重要な手段である。 しかし、既存のオフラインRLにおけるハイパーパラメータ選択手法では、環境内の各ハイパーパラメータ設定に対応するポリシーを評価することにより、オフラインの仮定を破る。 このオンライン実行は多くの場合不可能であり、オフラインRLの主な目的を損なう。 そこで本研究では,ログデータのみを前提として,異なるハイパーパラメータを用いてトレーニングされた多数のポリシセットからベストポリシーを選択する方法として,‘textit{offline hyperparameter selection’に着目した。 大規模な実証的な評価を通じて 1) オフラインRLアルゴリズムはハイパーパラメータ選択に対して堅牢ではない。 2)オフラインrlアルゴリズムやq値推定手法などの要因は,ハイパーパラメータ選択に大きな影響を与える可能性がある。 3) これらの要因を慎重にコントロールすると, ハイパーパラメータの選択にまたがる政策を確実にランク付けし, 最良政策に近い政策を選択することができる。 総じて,画素観測,高次元動作空間,長地平線の課題においても,オフラインハイパーパラメータ選択が到達範囲内にあるという楽観的な見解を示す。

Offline reinforcement learning (RL purely from logged data) is an important avenue for deploying RL techniques in real-world scenarios. However, existing hyperparameter selection methods for offline RL break the offline assumption by evaluating policies corresponding to each hyperparameter setting in the environment. This online execution is often infeasible and hence undermines the main aim of offline RL. Therefore, in this work, we focus on \textit{offline hyperparameter selection}, i.e. methods for choosing the best policy from a set of many policies trained using different hyperparameters, given only logged data. Through large-scale empirical evaluation we show that: 1) offline RL algorithms are not robust to hyperparameter choices, 2) factors such as the offline RL algorithm and method for estimating Q values can have a big impact on hyperparameter selection, and 3) when we control those factors carefully, we can reliably rank policies across hyperparameter choices, and therefore choose policies which are close to the best policy in the set. Overall, our results present an optimistic view that offline hyperparameter selection is within reach, even in challenging tasks with pixel observations, high dimensional action spaces, and long horizon.
翻訳日:2022-11-09 12:44:43 公開日:2020-07-17
# ディリクレ・マルチノミカルログ類似関数の計算

Computing the Dirichlet-Multinomial Log-Likelihood Function ( http://arxiv.org/abs/2007.11967v1 )

ライセンス: Link先を確認
Djallel Bouneffouf(参考訳) Dirichlet-multinomial (DMN) 分布は、カウントデータの過分散をモデル化するために一般的に用いられる。 DMNログ類似関数の高精度かつ高速な数値計算は,この分布を用いて統計的推測を行う上で重要である。 これを解決するために、ガンマ関数の数学的性質を用いて、DMNログ様関数の閉形式式を導出する。 既存の手法と比較して、閉形式の計算は計算の複雑さが小さく、計算精度を比較せずにはるかに高速である。

Dirichlet-multinomial (DMN) distribution is commonly used to model over-dispersion in count data. Precise and fast numerical computation of the DMN log-likelihood function is important for performing statistical inference using this distribution, and remains a challenge. To address this, we use mathematical properties of the gamma function to derive a closed form expression for the DMN log-likelihood function. Compared to existing methods, calculation of the closed form has a lower computational complexity, hence is much faster without comprimising computational accuracy.
翻訳日:2022-11-09 12:44:24 公開日:2020-07-17