このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200313となっている論文です。

PDF登録状況(公開日: 20200313)

TitleAuthorsAbstract論文公表日・翻訳日
# ルビジウム原子の2光子非線形分光とシリコンフォトニクスの融合

Integrating two-photon nonlinear spectroscopy of rubidium atoms with silicon photonics ( http://arxiv.org/abs/2003.04753v2 )

ライセンス: Link先を確認
Artur Skljarow, Nico Gruhler, Wolfram Pernice, Harald K\"ubler, Tilman Pfau, Robert L\"ow, and Hadiseh Alaeian(参考訳) 我々は,いくつかのサブ波長リッジ導波路からなる集積シリコンフォトニックチップを,ルビジウム蒸気を用いたマイクロセルに浸漬した。 通信波長を含む2光子励起を用いて、光子モードがエバネッセントテールを介してルビジウム原子に結合されたときに導波路透過スペクトルが変化することを観測する。 導波路クラディングの強化された電場のため、原子転移は自由伝播ビームケースの約80倍の光子数で飽和することができる。 原子被覆si導波路の非線形性は、ドープsiフォトニクスの最大到達値よりも約4桁大きい。 測定されたスペクトルは、誘電体表面によるカシミール-ポルダーポテンシャルと、飛行原子とエバネッセント導波路モードとの過渡的相互作用を含む一般化された有効感受性モデルとよく相関する。 この研究は、CMOS技術と互換性のある小型で低消費電力で統合されたハイブリッド原子フォトニクスシステムへの道を開いた。

We study an integrated silicon photonic chip, composed of several sub-wavelength ridge waveguides, and immersed in a micro-cell with rubidium vapor. Employing two-photon excitation, including a telecom wavelength, we observe that the waveguide transmission spectrum gets modified when the photonic mode is coupled to rubidium atoms through its evanescent tail. Due to the enhanced electric field in the waveguide cladding, the atomic transition can be saturated at a photon number $\approx$ 80 times less than a free-propagating beam case. The non-linearity of the atom-clad Si-waveguide is about 4 orders of magnitude larger than maximum achievable value in doped Si photonics. The measured spectra corroborate well with a generalized effective susceptibility model that includes the Casimir-Polder potentials, due to the dielectric surface, and the transient interaction between flying atoms and the evanescent waveguide mode. This work paves the way towards a miniaturized, low-power, and integrated hybrid atomic-photonic system compatible with CMOS technologies.
翻訳日:2023-05-30 01:04:55 公開日:2020-03-13
# 光周波数コムの量子強化計測

Quantum Enhanced Measurement of an Optical Frequency Comb ( http://arxiv.org/abs/2003.05833v2 )

ライセンス: Link先を確認
Y. Cai, J. Roslund, V. Thiel, C. Fabre, and N. Treps(参考訳) 光周波数コムのスペクトル特性の測定は、精密計測の最も基本的なタスクである。 一般的な単一パラメータ計測方式とは対照的に、ここでは標準量子限界以下での単発マルチパラメータ推定を示す。 超高速パルスの平均エネルギーと中心周波数は、フォトニクスアーキテクチャを変更することなく、マルチピクセル分光分解(MPSR)装置で同時に決定される。 さらに,Hermite-Gaussianスペクトル/時間モードの複数の励起状態からなる量子周波数コムを用いて,平均エネルギーの信号-雑音比と中心周波数測定値は,それぞれ19%,15%を超える。 マルチピクセル検出方式と本質的なマルチモード量子資源を組み合わせることで、超高速量子メトロジーやマルチモード量子情報処理に応用できる。

Measuring the spectral properties of an optical frequency comb is among the most fundamental tasks of precision metrology. In contrast to general single-parameter measurement schemes, we demonstrate here single shot multiparameter estimation at and beyond the standard quantum limit. The mean energy and the central frequency of ultrafast pulses are simultaneously determined with a multi-pixel-spectrally-resolved (MPSR) apparatus, without changing the photonics architecture. Moreover, using a quantum frequency comb that consists of multiple squeezed states in a family of Hermite-Gaussian spectral/temporal modes, the signal-to-noise ratios of the mean energy and the central frequency measurements surpass the shot-noise limit by around 19% and 15%, respectively. Combining our multi-pixel detection scheme and the intrinsic multimode quantum resource could find applications in ultrafast quantum metrology and multimode quantum information processing.
翻訳日:2023-05-29 08:28:38 公開日:2020-03-13
# クラウドにおける量子: アプリケーションの可能性と研究機会

Quantum in the Cloud: Application Potentials and Research Opportunities ( http://arxiv.org/abs/2003.06256v1 )

ライセンス: Link先を確認
Frank Leymann, Johanna Barzen, Michael Falkenthal, Daniel Vietz, Benjamin Weder, Karoline Wild(参考訳) 量子コンピュータは現実になりつつあり、多くのアプリケーションドメインに大きな影響を与える可能性がある。 量子コンピュータのプログラミングの基礎をスケッチし、量子プログラムは典型的には古典的部分と量子的部分の混合からなるハイブリッドであることを示す。 クラウドにおける量子コンピュータの出現により、クラウドは量子プログラムを実行するための優れた環境である。 このようなプログラムを作成し実行するためのツールチェーンがスケッチされている。 例示的な問題として、ハードウェアに依存しない量子プログラムを実装する取り組みについて論じる。 機械学習のユースケースを概説する。 最後に,現在開発中の量子コンピュータによる問題解決のための協調プラットフォームを提案する。

Quantum computers are becoming real, and they have the inherent potential to significantly impact many application domains. We sketch the basics about programming quantum computers, showing that quantum programs are typically hybrid consisting of a mixture of classical parts and quantum parts. With the advent of quantum computers in the cloud, the cloud is a fine environment for performing quantum programs. The tool chain available for creating and running such programs is sketched. As an exemplary problem we discuss efforts to implement quantum programs that are hardware independent. A use case from machine learning is outlined. Finally, a collaborative platform for solving problems with quantum computers that is currently under construction is presented.
翻訳日:2023-05-29 06:26:57 公開日:2020-03-13
# 携帯電話による患者のplodの追跡:患者の位置情報による疫病リスクの軽減

Tracing patients' PLOD with mobile phones: Mitigation of epidemic risks through patients' locational open data ( http://arxiv.org/abs/2003.06199v1 )

ライセンス: Link先を確認
Ikki Ohmukai, Yasunori Yamamoto, Maori Ito, Takashi Okumura(参考訳) 公衆衛生当局が感染性疾患の患者を確認した場合、患者の位置や旅行情報に関する要約を公開する。 しかし、プライバシー上の懸念から、これらのリリースには詳細なデータが含まれておらず、通常、患者が使用する商用施設や公共交通機関に関する情報のみで構成されている。 我々はこの問題に対処し,プレスリリースに記載された情報の構造化形式で表現されたオープンデータとして患者位置データを公開することを提案した。 そのため、住民はこれらのデータを使用して、携帯電話に格納された位置情報と連絡先の潜在的なリスクを自動的に推定することができる。 本稿では、Resource Description Framework(RDF)に基づくオープンデータの設計を提案し、仕様の第1ドラフトの事前評価を行い、今後の方向性について議論する。

In the cases when public health authorities confirm a patient with highly contagious disease, they release the summaries about patient locations and travel information. However, due to privacy concerns, these releases do not include the detailed data and typically comprise the information only about commercial facilities and public transportation used by the patients. We addressed this problem and proposed to release the patient location data as open data represented in a structured form of the information described in press releases. Therefore, residents would be able to use these data for automated estimation of the potential risks of contacts combined with the location information stored in their mobile phones. This paper proposes the design of the open data based on Resource Description Framework (RDF), and performs a preliminary evaluation of the first draft of the specification followed by a discussion on possible future directions.
翻訳日:2023-05-29 06:26:02 公開日:2020-03-13
# 位相誘起スペクトル挙動:量子グラフの例

Topologically induced spectral behavior: the example of quantum graphs ( http://arxiv.org/abs/2003.06189v1 )

ライセンス: Link先を確認
Pavel Exner(参考訳) 本報告では,中国数学会第8回国際会議における講演内容について概説する。 計量グラフ上のSchr\"odinger作用素の例を用いて、構成空間の非自明な位相が様々なスペクトル型をもたらすことが示されている。 特に、スペクトルが純粋点型であるか、あるいはカントール構造を持つことが示されている。 また、開スペクトルギャップの数に関する問題にも対処し、非零かつ有限であることを示します。 最後に、異常ホール効果をモデル化する最近の試みに触発され、頂点次数パリティによって決定される高エネルギー挙動を示す頂点結合を解析した。

This review paper summarizes the contents of the talk given by the author at the 8th International Congress of Chinese Mathematicians. Using examples of Schr\"odinger operators on metric graphs, it is shown that a nontrivial topology of the configuration space can give rise to a rich variety of spectral types. In particular, it is shown that the spectrum may be of a pure point type or to have a Cantor structure. We also address the question about the number of open spectral gaps and show that it could be nonzero and finite. Finally, inspired by a recent attempt to model the anomalous Hall effect we analyze a vertex coupling which exhibits high-energy behavior determined by the vertex degree parity.
翻訳日:2023-05-29 06:25:50 公開日:2020-03-13
# 多チャンネル周波数ミキサーと単一光子検出器のためのモノリシックフォトニックチップ

Monolithic photonic chips for multi-channel frequency mixers and single photon detectors ( http://arxiv.org/abs/2003.06161v1 )

ライセンス: Link先を確認
Ming-Yang Zheng, Quan Yao, Bing Wang, Xiuping Xie, Qiang Zhang, and Jian-Wei Pan(参考訳) ニオブ酸リチウムフォトニックチップは、その優れた光学性能から恩恵を受ける様々な用途の様々な光学工学を実現することができる。 本稿では, 逆プロトン交換周期的なニオブ酸リチウム導波路に基づく多チャネル和周波数変換のためのモノリシックフォトニックチップについて, 均一かつ優れた変換効率を示す。 2つのファイバアレイを結合したファイバチップであるロバストデバイス及びアプリケーションに便利なインターフェースを提供する。 パッケージチップはその後、マルチチャネルアップ変換単一光子検出器のコアを形成する。 各チャネルでは、入力信号は1950nmの単一周波数ポンプレーザと相互作用し、合計周波数出力はシリコンアバランシェフォトダイオードによってスペクトルフィルタリングされ検出される。 23.2 %の平均検出効率(de)と557 counts per second(cps)のノイズカウント率(ncr)を達成し、標準偏差は30チャンネルで2.73 %と48 cpsであり、近接する71 db以上のチャネル間の光学的分離(oi)は、深宇宙レーザー通信、高速量子鍵分布、単一光子イメージングなどの分野におけるモノリシックフォトニックチップの広範な応用に優れている。

Lithium niobate photonic chip could realize diverse optical engineering for various applications benefiting from its excellent optical performances. In this letter, we demonstrate monolithic photonic chips for multi-channel sum-frequency conversion based on reverse-proton-exchange periodically poled lithium niobate waveguides, with the different channels showing uniform and excellent conversion efficiencies. To obtain a robust device and provide a convenient interface for applications, the integrated chip is fiber coupled with two fiber arrays. The packaged chip then forms the core of a multi-channel up conversion single photon detector. In each channel the input signal interacts with a 1950-nm single frequency pump laser and the sum frequency output is spectrally filtered and detected by a silicon avalanche photodiode. Average detection efficiency (DE) of 23.2 % and noise count rate (NCR) of 557 counts per second (cps) are achieved, with a standard deviation of 2.73 % and 48 cps over the 30 channels, as well as optical isolation (OI) between nearby channels of more than 71 dB, which are excellent for the extensive applications of monolithic photonic chips in fields including deep space laser communication, high-rate quantum key distribution and single-photon imaging.
翻訳日:2023-05-29 06:25:38 公開日:2020-03-13
# 光ナノファイバー上のコロイド単一量子ドットを用いた高効率光ファイバーインライン単一光子源

Efficient fiber in-line single photon source based on colloidal single quantum dots on an optical nanofiber ( http://arxiv.org/abs/2003.06117v1 )

ライセンス: Link先を確認
K. Muhammed Shafi, Kali P. Nayak, Akiharu Miyanaga and Kohzo Hakuta(参考訳) 光ナノファイバー上に堆積し、極低温(3.7k)まで冷却したコロイド単一量子ドットのハイブリッド系に基づく光ファイバーインライン単一光子源を実証する。 単一量子ドットの荷電状態(トリオン)は、高い量子効率、狭い線幅(3 mev fwhm)、高速な崩壊時間(10.0\pm0.5$ ns)を持つ単一光子の光安定放出を示す。 単一光子はナノファイバーの誘導モードに効率よく結合され、最終的には単一モード光ファイバに結合される。 単一光子源の輝度(効率)は16\pm2\%$と推定され、最大光子カウントレートは1.6\pm0.2$ MHz、高光子純度はg^2(0)=0.11\pm0.02$と推定される。 このデバイスは、量子ネットワークにおける潜在的な応用の道を開くファイバーネットワークに容易に統合できる。

We demonstrate a fiber in-line single photon source based on a hybrid system of colloidal single quantum dots deposited on an optical nanofiber and cooled down to cryogenic temperature (3.7 K). We show that a charged state (trion) of the single quantum dot exhibits a photo-stable emission of single photons with high quantum efficiency, narrow linewidth (3 meV FWHM) and fast decay time ($10.0\pm0.5$ ns). The single photons are efficiently coupled to the guided modes of the nanofiber and eventually to a single mode optical fiber. The brightness (efficiency) of the single photon source is estimated to be $16\pm2\%$ with a maximum photon count rate of $1.6\pm0.2$ MHz and a high single photon purity ($g^2(0)=0.11\pm0.02$). The device can be easily integrated to the fiber networks paving the way for potential applications in quantum networks.
翻訳日:2023-05-29 06:24:07 公開日:2020-03-13
# 局所操作による二成分混合状態の識別

Discriminating bipartite mixed states by local operations ( http://arxiv.org/abs/2003.06109v1 )

ライセンス: Link先を確認
Jin-Hua Zhang and Fu-Lin Zhang and Zhi-Xi Wang and Le-Min Lai and Shao-Ming Fei(参考訳) 局所的な操作と古典的コミュニケーション(LOCC)による2つの混合二部体状態の曖昧な状態判別を,グローバルな測定によって実現されたスキームの結果と比較した。 混合状態識別のためのグローバルスキームの成功確率は局所スキームによって完全に達成できることを示す。 さらに,この識別を純粋に絡み合った二成分状態を用いてシミュレートする。 このシミュレーションは、純粋な状態における絡み合いとグローバルコヒーレンスの存在により、グローバルなスキームよりも局所的に完璧である。 また,LOCCプロトコルと逐次状態識別(SSD)が統一された視点で解釈可能であることも証明した。 次に,従来の通信に依存する3つのプロトコル(SSD,再生,放送)でLOCCプロトコルをハイブリダイズする。 このようなハイブリダイゼーションは、グローバルなスキームとローカルなスキームの最適成功確率のギャップを広げ、他の2つのプロトコルよりもSSDでしか排除できない。

Unambiguous state discrimination of two mixed bipartite states via local operations and classical communications (LOCC) is studied and compared with the result of a scheme realized via global measurement. We show that the success probability of a global scheme for mixed-state discrimination can be achieved perfectly by the local scheme. In addition, we simulate this discrimination via a pair of pure entangled bipartite states. This simulation is perfect for local rather than global schemes due to the existence of entanglement and global coherence in the pure states. We also prove that LOCC protocol and the sequential state discrimination (SSD) can be interpreted in a unified view. We then hybridize the LOCC protocol with three protocols (SSD, reproducing and broadcasting) relying on classical communications. Such hybridizations extend the gaps between the optimal success probability of global and local schemes, which can be eliminated only for the SSD rather than the other two protocols.
翻訳日:2023-05-29 06:23:43 公開日:2020-03-13
# フレキシブルかつコンテキスト固有のai説明可能性: 多分野のアプローチ

Flexible and Context-Specific AI Explainability: A Multidisciplinary Approach ( http://arxiv.org/abs/2003.07703v1 )

ライセンス: Link先を確認
Val\'erie Beaudouin (SES), Isabelle Bloch (IMAGES), David Bounie (IP Paris, ECOGE, SES), St\'ephan Cl\'emen\c{c}on (LPMA), Florence d'Alch\'e-Buc, James Eagan (DIVA), Winston Maxwell, Pavlo Mozharovskyi (IRMAR), Jayneel Parekh(参考訳) 人工知能(AI)に対する最近の熱意は、主にディープラーニングの進歩に起因している。 ディープラーニングの手法は極めて正確だが、不透明で、安全クリティカルなアプリケーションでの利用を制限している。 信頼性と説明責任を達成するために、機械学習アルゴリズムの設計者とオペレータは、内部の動作、結果、アルゴリズムの失敗の原因をユーザ、規制当局、市民に説明できなければならない。 本論文の独創性は,説明可能性の技術的・法的・経済的側面を組み合わせて,ある文脈における説明可能性の「正しい」レベルを定義する枠組みを開発することである。 まず, 説明の参加者が誰であるか, 運用上の状況, システムによる害の程度, 法的・規制的枠組みなど, 主な文脈要因を定義する。 このステップは、説明のための運用および法的ニーズ、およびそれに対応する社会的利益を特徴づけるのに役立つ。 次に、ポストホックアプローチ(インプット摂動、サリエンシマップ...)やハイブリッドAIアプローチなど、利用可能な技術ツールを調べます。 第3に、最初の2つのステップの機能として、グローバルおよびローカルな説明出力の適切なレベルを選択し、関連するコストを考慮に入れます。 我々は7種類のコストを特定し,総社会利益がコストを超える場合にのみ説明が社会的に有用であることを強調する。

The recent enthusiasm for artificial intelligence (AI) is due principally to advances in deep learning. Deep learning methods are remarkably accurate, but also opaque, which limits their potential use in safety-critical applications. To achieve trust and accountability, designers and operators of machine learning algorithms must be able to explain the inner workings, the results and the causes of failures of algorithms to users, regulators, and citizens. The originality of this paper is to combine technical, legal and economic aspects of explainability to develop a framework for defining the "right" level of explain-ability in a given context. We propose three logical steps: First, define the main contextual factors, such as who the audience of the explanation is, the operational context, the level of harm that the system could cause, and the legal/regulatory framework. This step will help characterize the operational and legal needs for explanation, and the corresponding social benefits. Second, examine the technical tools available, including post hoc approaches (input perturbation, saliency maps...) and hybrid AI approaches. Third, as function of the first two steps, choose the right levels of global and local explanation outputs, taking into the account the costs involved. We identify seven kinds of costs and emphasize that explanations are socially useful only when total social benefits exceed costs.
翻訳日:2023-05-29 06:15:51 公開日:2020-03-13
# 多項式ポテンシャルと2次元および3次元の結合量子ドット

Polynomial potentials and coupled quantum dots in two and three dimensions ( http://arxiv.org/abs/2003.06501v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 非分離の$D-$D-$dimensional partial differential Schr\"{o}dinger equations は$D=2$ と $D=3$ とみなすことができ、等間隔局所ポテンシャル $V(x,y,\ldots)$ は次数 4 の多項式である(カスプカタストロフィはケースに似ている)。 その極端(すなわちミニマと極大)は発音され、カップリング定数の適切なアドホックパラメトリゼーションによって局所化される。 低有界状態 $\psi(x,y,\ldots)$] の非数値近似構成は、個々の最小値 $v(x,y,\ldots)$ を十分に分離した量子ドットの結合系をシミュレートする力学レジームで実現可能であり、そのポテンシャルは調和振動子井戸によって局所的に近似される。 測定可能な特性(特に位相的に保護された確率密度分布)は、再局在量子カタストロフィーと呼ばれる特定の進化シナリオで分岐する。

Non-separable $D-$dimensional partial differential Schr\"{o}dinger equations are considered at $D=2$ and $D=3$, with the even-parity local potentials $V(x,y,\ldots)$ which are polynomials of degree four (cusp catastrophe resembling case) and six (butterfly resembling case). Their extremes (i.e., minima and maxima) are assumed pronounced, localized via a suitable ad hoc parametrization of the coupling constants. A non-numerical approximate construction of the low lying bound states $\psi(x,y,\ldots)$] is then found feasible in the dynamical regime simulating a coupled system of quantum dots in which the individual minima of $V(x,y,\ldots)$ are well separated, with the potential being locally approximated by the harmonic oscillator wells. The measurable characteristics (and, in particular, the topologically protected probability-density distributions) are then found bifurcating in a specific evolution scenario called a relocalization quantum catastrophe.
翻訳日:2023-05-29 06:14:43 公開日:2020-03-13
# 非対角性障害における時間-周期場による異常とアンダーソン局在の推移

Transition between anomalous and Anderson localization in systems with non-diagonal disorder driven by time-periodic fields ( http://arxiv.org/abs/2003.06372v1 )

ライセンス: Link先を確認
Rafael A. Molina and Victor A. Gopar(参考訳) 外界やバンド中心が存在しないホッピング障害のモデルでは、電子は標準指数的なアンダーソン局在よりも空間内での局在が小さい。 この異常局在のサインは、アンダーソン局所化された系の線形長依存性とは対照的に、コンダクタンスの対数平均の正方根依存性である。 ホッピング障害を伴う量子ワイヤの導電率のスケーリングと分布における時間周期外界の影響について検討する。 低周波系では、外部場のパラメータの関数として異常な局在化とアンダーソン局在化の遷移を示す。 フロケモードは異なるエネルギー寄与とコンダクタンスの対数平均の標準長依存性を混合し、周波数を下げたり、外部磁場の振幅を上昇させたりすることで徐々に回復する。 高周波系では、系はいまだ異常な局所化を示すが、導電性は、鉛とのカップリングにおける干渉効果によって外部磁場のパラメータによっても再正規化される。 これにより、コンダクタンスの平均値の高い制御が可能となる。

In models of hopping disorder in the absence of external fields and at the band center, the electrons are less localized in space than the standard exponential Anderson localization. A signature of this anomalous localization is the square root dependence of the logarithmic average of the conductance on the system length, in contrast to the linear length dependence for Anderson localized systems. We study the effect of a time-periodic external field in the scaling and distribution of the conductance of a quantum wire with hopping disorder. In the low-frequency regime, we show a transition between anomalous localization and Anderson localization as a function of the parameters of the external field. The Floquet modes mix different energy contributions and standard length dependence of the logarithmic average of the conductance is gradually recovered as we lower the frequency or increase the amplitude of the external field. In the high-frequency regime, the system presents still anomalous localization but the conductance is also renormalized, depending on the parameters of the external field, by interference effects at the coupling to the leads. This allows for a high degree of control of the average of the conductance.
翻訳日:2023-05-29 06:13:29 公開日:2020-03-13
# 連続量子光学のための光子とフォノン分光関数

Photon and Phonon Spectral-Functions for Continuum Quantum Optomechanics ( http://arxiv.org/abs/2003.06355v1 )

ライセンス: Link先を確認
Hashem Zoubi(参考訳) ナノスケール導波路における多モード光子とフォノンがブリルアン散乱型ハミルトニアンを介して相互作用する多粒子現象について検討した。 光子とフォノンはグリーン関数を遅延させ、平均場理論の因子化近似を適用してスペクトル関数を抽出する。 自己エネルギーの真の部分は光子とフォノンの再正規化エネルギーシフトを提供する。 従来のリークに加えて、虚構部は多粒子現象によって誘導される有効光子およびフォノン減衰率を与える。 結果は量子光学の単純なスペクトル関数を連続量子光学へ拡張する。 熱フォノンが光子有効減衰率に及ぼす影響を考察し, 導波路内で励起される特定の光子場の場合を考察し, フォノン冷却シナリオにおいて重要であることを示した。

We study many-particle phenomena of propagating multi-mode photons and phonons interacting through Brillouin scattering-type Hamiltonian in nanoscale waveguides. We derive photon and phonon retarded Green's functions and extract their spectral functions in applying the factorization approximation of the mean-field theory. The real part of the self-energy provides renormalization energy shifts for the photons and the phonons. Besides the conventional leaks, the imaginary part gives effective photon and phonon damping rates induced due to many-particle phenomena. The results extend the simple spectral functions of quantum optomechanics into continuum quantum optomechanics. We present the influence of thermal phonons on the photon effective damping rates, and consider cases of specific photon fields to be excited within the waveguide and which are of importance for phonon cooling scenarios.
翻訳日:2023-05-29 06:13:11 公開日:2020-03-13
# エントロピー最小化改善による画像圧縮と品質向上のエンドツーエンド共同学習方式

An End-to-End Joint Learning Scheme of Image Compression and Quality Enhancement with Improved Entropy Minimization ( http://arxiv.org/abs/1912.12817v2 )

ライセンス: Link先を確認
Jooyoung Lee, Seunghyun Cho, Munchurl Kim(参考訳) 近年,学習画像圧縮法が盛んに研究されている。 その中でも、エントロピー最小化に基づくアプローチは、BPGやJPEG2000のような従来の画像コーデックよりも優れた結果を得た。 しかし、画質向上とレート最小化は画像圧縮の過程で相反的に結合される。 つまり、高画質の維持は圧縮を少なくし、その逆である。 しかし、画像圧縮と連動して別々に品質向上を訓練することで、符号化効率を向上させることができる。 本稿では,画像圧縮と品質向上のための新たなジョイントラーニング手法であるJointIQ-Netを提案する。 提案するJointIQ-Netには,画像圧縮サブネットワークと品質向上サブネットワークが組み合わさっていて,どちらもJointIQ-Net内でエンドツーエンドにトレーニングされている。 また、JointIQ-NetはGMM(Gussian Mixture Model)を新たに採用したエントロピー最小化の改善による恩恵を受け、グローバルコンテキストを利用して潜在表現の確率を推定する。 提案したJointIQ-Netの有効性を示すため,PSNRとMS-SSIMの両面で,従来の学習画像圧縮法やVVCイントラ(VTM 7.1),BPG,JPEG2000などのコーデックと比較して,JointIQ-Netは,符号化効率の顕著な向上を実現していることを示した。 我々の知る限り、PSNRとMS-SSIMの点で、VVC規格の最新リファレンスソフトウェアであるVTM 7.1(Intra)に勝る、エンドツーエンドの最適化画像圧縮手法としては、これが初めてのものである。

Recently, learned image compression methods have been actively studied. Among them, entropy-minimization based approaches have achieved superior results compared to conventional image codecs such as BPG and JPEG2000. However, the quality enhancement and rate-minimization are conflictively coupled in the process of image compression. That is, maintaining high image quality entails less compression and vice versa. However, by jointly training separate quality enhancement in conjunction with image compression, the coding efficiency can be improved. In this paper, we propose a novel joint learning scheme of image compression and quality enhancement, called JointIQ-Net, as well as entropy model improvement, thus achieving significantly improved coding efficiency against the previous methods. Our proposed JointIQ-Net combines an image compression sub-network and a quality enhancement sub-network in a cascade, both of which are end-to-end trained in a combined manner within the JointIQ-Net. Also the JointIQ-Net benefits from improved entropy-minimization that newly adopts a Gussian Mixture Model (GMM) and further exploits global context to estimate the probabilities of latent representations. In order to show the effectiveness of our proposed JointIQ-Net, extensive experiments have been performed, and showed that the JointIQ-Net achieves a remarkable performance improvement in coding efficiency in terms of both PSNR and MS-SSIM, compared to the previous learned image compression methods and the conventional codecs such as VVC Intra (VTM 7.1), BPG, and JPEG2000. To the best of our knowledge, this is the first end-to-end optimized image compression method that outperforms VTM 7.1 (Intra), the latest reference software of the VVC standard, in terms of the PSNR and MS-SSIM.
翻訳日:2023-01-17 03:02:27 公開日:2020-03-13
# スペクトル共有レーダの強化学習技術に関する実験的研究

Experimental Analysis of Reinforcement Learning Techniques for Spectrum Sharing Radar ( http://arxiv.org/abs/2001.01799v2 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone, Kelly D. Sherbondy(参考訳) 本研究ではまず,RL(Reinforcement Learning, 強化学習)制御を集中スペクトル環境で動作させるレーダーシステムに適用するためのフレームワークについて述べる。 次に,COTS(Commercial off-the-Shelf)ハードウェアで実施した実験の議論を通じて,複数のRLアルゴリズムの有用性を比較した。 各RL技術は, 集束スペクトル環境において達成された収束, レーダ検出性能, および100MHzスペクトルを非協調通信システムと共有する能力の観点から評価する。 本稿では, マルコフ決定過程(MDP)として表される環境を, 環境状態とレーダ波形の確率的マッピングを直接解き, かつQ-Learningの形式を用いて, レーダーが最適動作を選択するために使用するパラメータ化関数を近似するDeep RL手法について検討する。 Sense-and-Avoid(SAA)方式よりもRL手法が有効であることを示し、各手法が最も効果的である条件について議論する。

In this work, we first describe a framework for the application of Reinforcement Learning (RL) control to a radar system that operates in a congested spectral setting. We then compare the utility of several RL algorithms through a discussion of experiments performed on Commercial off-the-shelf (COTS) hardware. Each RL technique is evaluated in terms of convergence, radar detection performance achieved in a congested spectral environment, and the ability to share 100MHz spectrum with an uncooperative communications system. We examine policy iteration, which solves an environment posed as a Markov Decision Process (MDP) by directly solving for a stochastic mapping between environmental states and radar waveforms, as well as Deep RL techniques, which utilize a form of Q-Learning to approximate a parameterized function that is used by the radar to select optimal actions. We show that RL techniques are beneficial over a Sense-and-Avoid (SAA) scheme and discuss the conditions under which each approach is most effective.
翻訳日:2023-01-14 02:18:46 公開日:2020-03-13
# 準静音からアクティブに分離した駆動型電子スピン量子のコヒーレンス

Coherence of a driven electron spin qubit actively decoupled from quasi-static noise ( http://arxiv.org/abs/2001.02884v2 )

ライセンス: Link先を確認
Takashi Nakajima, Akito Noiri, Kento Kawasaki, Jun Yoneda, Peter Stano, Shinichi Amaha, Tomohiro Otsuka, Kenta Takeda, Matthieu R. Delbecq, Giles Allison, Arne Ludwig, Andreas D. Wieck, Daniel Loss and Seigo Tarucha(参考訳) 半導体量子ドットにおける電子スピン量子ビットのコヒーレンスは主に低周波ノイズに苦しむ。 この10年間、材料工学によってそのようなノイズを緩和する努力が注がれており、アイドリングキュービットのスピン減速時間を大幅に向上させた。 しかし、制御忠実度を決定するスピン操作における環境騒音の役割は理解されていない。 駆動進化におけるコヒーレンスが半導体デバイス固有の準静的ノイズではなく高周波電荷ノイズによって制限される電子スピン量子ビットを示す。 我々は後者を積極的に抑制するためにフィードバック制御手法を用い、ガリウムヒ素量子ドットにおいて99.04\pm 0.23\,\%$という高い値のゲート忠実度を示した。 アイソトピー的に精製されたシリコン量子ビットで観測される1/f$のノイズにスペクトルが似ているラビ周波数の長手雑音により、駆動進化コヒーレンスが制限されることを示す。

The coherence of electron spin qubits in semiconductor quantum dots suffers mostly from low-frequency noise. During the last decade, efforts have been devoted to mitigate such noise by material engineering, leading to substantial enhancement of the spin dephasing time for an idling qubit. However, the role of the environmental noise during spin manipulation, which determines the control fidelity, is less understood. We demonstrate an electron spin qubit whose coherence in the driven evolution is limited by high-frequency charge noise rather than the quasi-static noise inherent to any semiconductor device. We employed a feedback control technique to actively suppress the latter, demonstrating a $\pi$-flip gate fidelity as high as $99.04\pm 0.23\,\%$ in a gallium arsenide quantum dot. We show that the driven-evolution coherence is limited by the longitudinal noise at the Rabi frequency, whose spectrum resembles the $1/f$ noise observed in isotopically purified silicon qubits.
翻訳日:2023-01-13 05:23:17 公開日:2020-03-13
# 畳み込みニューラルネットワークにおける組立技術の性能改善の複合化

Compounding the Performance Improvements of Assembled Techniques in a Convolutional Neural Network ( http://arxiv.org/abs/2001.06268v2 )

ライセンス: Link先を確認
Jungkyu Lee, Taeryun Won, Tae Kwan Lee, Hyemin Lee, Geonmo Gu, Kiho Hong(参考訳) 画像分類における最近の研究は、畳み込みニューラルネットワーク(CNN)の性能向上のための様々な手法を実証している。 しかし、既存の技術を組み合わせて実用的なモデルを作る試みは、いまだにまれである。 本研究では,これらの手法を慎重に組み立て,基本的なCNNモデル(ResNetやMobileNetなど)に適用することで,スループットの損失を最小限に抑えながら,モデルの精度と堅牢性を向上できることを示す。 提案したResNet-50では,トップ1の精度が76.3\%から82.78\%,mCEが76.0\%から48.9\%,mFRが57.7\%から32.3\%に向上した。 これらの改善により、推論のスループットは536から312に低下する。 転送学習の性能向上を検証するため,複数の公開データセット上できめ細かい分類と画像検索タスクをテストし,バックボーンネットワーク性能の改善により転送学習性能が著しく向上したことを示した。 我々のアプローチはCVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得し、ソースコードとトレーニングされたモデルはhttps://github.com/clovaai/assembled-cnnで入手できる。

Recent studies in image classification have demonstrated a variety of techniques for improving the performance of Convolutional Neural Networks (CNNs). However, attempts to combine existing techniques to create a practical model are still uncommon. In this study, we carry out extensive experiments to validate that carefully assembling these techniques and applying them to basic CNN models (e.g. ResNet and MobileNet) can improve the accuracy and robustness of the models while minimizing the loss of throughput. Our proposed assembled ResNet-50 shows improvements in top-1 accuracy from 76.3\% to 82.78\%, mCE from 76.0\% to 48.9\% and mFR from 57.7\% to 32.3\% on ILSVRC2012 validation set. With these improvements, inference throughput only decreases from 536 to 312. To verify the performance improvement in transfer learning, fine grained classification and image retrieval tasks were tested on several public datasets and showed that the improvement to backbone network performance boosted transfer learning performance significantly. Our approach achieved 1st place in the iFood Competition Fine-Grained Visual Recognition at CVPR 2019, and the source code and trained models are available at https://github.com/clovaai/assembled-cnn
翻訳日:2023-01-10 12:37:21 公開日:2020-03-13
# 単調な形状制約によるデオントロジー倫理

Deontological Ethics By Monotonicity Shape Constraints ( http://arxiv.org/abs/2001.11990v2 )

ライセンス: Link先を確認
Serena Wang and Maya Gupta(参考訳) 現代の機械学習システムにおいて、「幸運を損なう」ことや「良い属性を罰しない」といった共通のデオントロジー的倫理原則や社会的規範を破ることがいかに容易であるかを実証する。 このような倫理的原則を機械学習モデルに組み込むためには,モデルが関連する入力に対して正に応答することを制約する形状制約を加える必要がある。 我々は、個人に作用するこれらの非オントロジー的制約と、一方的な統計的パリティと平等機会の連続的なグループに基づく公正度目標との関係を分析する。 この戦略は、収入や年齢といったブーリアン的あるいは実価値の高い属性で機能し、より責任と信頼性の高いAIを生み出すのに役立つ。

We demonstrate how easy it is for modern machine-learned systems to violate common deontological ethical principles and social norms such as "favor the less fortunate," and "do not penalize good attributes." We propose that in some cases such ethical principles can be incorporated into a machine-learned model by adding shape constraints that constrain the model to respond only positively to relevant inputs. We analyze the relationship between these deontological constraints that act on individuals and the consequentialist group-based fairness goals of one-sided statistical parity and equal opportunity. This strategy works with sensitive attributes that are Boolean or real-valued such as income and age, and can help produce more responsible and trustworthy AI.
翻訳日:2023-01-05 05:34:30 公開日:2020-03-13
# 誤り制御型適応リグにおける能動的学習と知識共有による情報分析の価値

Value of Information Analysis via Active Learning and Knowledge Sharing in Error-Controlled Adaptive Kriging ( http://arxiv.org/abs/2002.02354v2 )

ライセンス: Link先を確認
Chi Zhang, Zeyu Wang, and Abdollah Shafieezadeh(参考訳) 多くの現象における大きな不確実性は意思決定に挑戦している。 還元可能な不確実性をよりよく特徴付けるために追加情報を集めることは、決定的な選択肢である。 value of information (voi) 分析は、新しいデータの期待される潜在的利益を定量化し、情報収集のためのリソースの最適割り当てを支援する数学的決定フレームワークである。 しかし、voiの分析は、特に等式型情報に対するベイズ推論が基礎となっているため、非常にコストがかかる。 本稿では,voi分析のための最初のサーロゲートベースフレームワークを提案する。 モデルに基づく信頼性手法で一般的に追求される意思決定のイベントを記述する限定状態関数をモデル化する代わりに、提案するフレームワークはシステム応答をモデル化する。 このアプローチは、複数の関心のある事象の確率を更新するために、代理モデル間の観測から平等型の情報を共有できる。 さらに,モデルとトレーニングポイントの共有という2つの知識共有方式を提案し,コストのかかるモデル評価の知識を最大限活用する。 どちらのスキームも誤差率に基づく適応訓練手法と統合され、精度の高いkriging surrogateモデルを生成する。 提案するvoi解析フレームワークをトラス橋の負荷試験を含む最適意思決定問題に適用した。 重要度サンプリングと適応kriging monte carloシミュレーションに基づく最先端手法ではこの問題は解決できないが,本手法は限定的なモデル評価により,voiの高精度かつロバストな推定を提供することを示す。 そこで,提案手法は,複雑な決定問題に対するvoiの適用を容易にする。

Large uncertainties in many phenomena have challenged decision making. Collecting additional information to better characterize reducible uncertainties is among decision alternatives. Value of information (VoI) analysis is a mathematical decision framework that quantifies expected potential benefits of new data and assists with optimal allocation of resources for information collection. However, analysis of VoI is computational very costly because of the underlying Bayesian inference especially for equality-type information. This paper proposes the first surrogate-based framework for VoI analysis. Instead of modeling the limit state functions describing events of interest for decision making, which is commonly pursued in surrogate model-based reliability methods, the proposed framework models system responses. This approach affords sharing equality-type information from observations among surrogate models to update likelihoods of multiple events of interest. Moreover, two knowledge sharing schemes called model and training points sharing are proposed to most effectively take advantage of the knowledge offered by costly model evaluations. Both schemes are integrated with an error rate-based adaptive training approach to efficiently generate accurate Kriging surrogate models. The proposed VoI analysis framework is applied for an optimal decision-making problem involving load testing of a truss bridge. While state-of-the-art methods based on importance sampling and adaptive Kriging Monte Carlo simulation are unable to solve this problem, the proposed method is shown to offer accurate and robust estimates of VoI with a limited number of model evaluations. Therefore, the proposed method facilitates the application of VoI for complex decision problems.
翻訳日:2023-01-03 13:06:46 公開日:2020-03-13
# コンパクト距離空間上のすべての連続関数を含まないカーネルヒルベルト空間の再生

Reproducing Kernel Hilbert Spaces Cannot Contain all Continuous Functions on a Compact Metric Space ( http://arxiv.org/abs/2002.03171v2 )

ライセンス: Link先を確認
Ingo Steinwart(参考訳) 可算でコンパクトな距離空間が与えられたとき、このコンパクト空間上のすべての連続函数の空間を含む再生核ヒルベルト空間は存在しないことを示す。

Given an uncountable, compact metric space, we show that there exists no reproducing kernel Hilbert space that contains the space of all continuous functions on this compact space.
翻訳日:2023-01-02 23:04:18 公開日:2020-03-13
# 胸部CT画像における生成的気道および血管形態の定量化

Generative-based Airway and Vessel Morphology Quantification on Chest CT Images ( http://arxiv.org/abs/2002.05702v2 )

ライセンス: Link先を確認
Pietro Nardelli, James C. Ross, Ra\'ul San Jos\'e Est\'epar(参考訳) 肺疾患の診断において, 気道や血管などのCT画像から, 肺構造物の形態を正確に正確に把握することが重要である。 より小さい導管路は慢性閉塞性肺疾患(COPD)において気流抵抗が増大する主要な場所であり、正確に大きさの血管は将来の疾患を決定する可能性のある肺領域の動脈および静脈の変化を特定するのに役立つ。 しかし、従来の方法はしばしば解像度とアーティファクトのために制限される。 本稿では, 気道ルーメン, 気道壁厚, 血管半径の断面計測を行う畳み込み型神経回帰器(cnr)を提案する。 cnrは合成構造の生成モデルによって作成されたデータで訓練され、シミュレーションおよび教師なしの生成副次ネットワーク(simgan)と組み合わせて、既知の地対地を持つシミュレーションおよび洗練された航空路および船舶を作成する。 評価のために,提案手法では,合成空気路と船体を用いて相対誤差を計算し,従来の手法と比較してCNRの精度を直接評価する。 次に、予測された強制呼気量の1秒間(FEV1\%)とPi10パラメータの値、肺機能と気道疾患の2つのよく知られた測定値との相関を気道で分析して、in-vivo検証を行う。 血管では,小血管血液量の推定値と一酸化炭素(DLCO)の肺拡散能の相関性を検討した。 その結果,CNN(Convolutional Neural Networks)は,胸部CT画像上の血管や気道を生理的相関で正確に測定する上で,有望な方向を提供することが示された。

Accurately and precisely characterizing the morphology of small pulmonary structures from Computed Tomography (CT) images, such as airways and vessels, is becoming of great importance for diagnosis of pulmonary diseases. The smaller conducting airways are the major site of increased airflow resistance in chronic obstructive pulmonary disease (COPD), while accurately sizing vessels can help identify arterial and venous changes in lung regions that may determine future disorders. However, traditional methods are often limited due to image resolution and artifacts. We propose a Convolutional Neural Regressor (CNR) that provides cross-sectional measurement of airway lumen, airway wall thickness, and vessel radius. CNR is trained with data created by a generative model of synthetic structures which is used in combination with Simulated and Unsupervised Generative Adversarial Network (SimGAN) to create simulated and refined airways and vessels with known ground-truth. For validation, we first use synthetically generated airways and vessels produced by the proposed generative model to compute the relative error and directly evaluate the accuracy of CNR in comparison with traditional methods. Then, in-vivo validation is performed by analyzing the association between the percentage of the predicted forced expiratory volume in one second (FEV1\%) and the value of the Pi10 parameter, two well-known measures of lung function and airway disease, for airways. For vessels, we assess the correlation between our estimate of the small-vessel blood volume and the lungs' diffusing capacity for carbon monoxide (DLCO). The results demonstrate that Convolutional Neural Networks (CNNs) provide a promising direction for accurately measuring vessels and airways on chest CT images with physiological correlates.
翻訳日:2023-01-01 09:44:41 公開日:2020-03-13
# 基底関数を用いた顔系統樹

Face Phylogeny Tree Using Basis Functions ( http://arxiv.org/abs/2002.09068v2 )

ライセンス: Link先を確認
Sudipta Banerjee and Arun Ross(参考訳) 輝度やコントラスト調整などの光度変換は、重複に近い画像のセットを繰り返し生成する顔画像に適用することができる。 デジタル画像法医学の文脈において,そのような近接複写集合から原画像を特定し,それらの関係を推定することが重要である。 これは、画像フィロジェニーツリー \textemdash \hspace{0.08cm} を生成することで、ほぼ重複した画像の集合間の関係を記述する階層構造を生成する。 本研究では,3種類の基底関数を用いて,近距離画像間の相互関係をモデル化する。 この研究で使われる基底関数は直交多項式、ウェーブレット基底関数、放射基底関数である。 提案手法は,顔,指紋,虹彩の3種類の特徴,異なる画像系統樹構成,および様々な種類の測光変換において,提案手法の性能を評価するための広範囲な実験を行った。 また,同じ基底関数を用いて幾何変換やディープラーニングに基づく変換をモデル化する。 また、任意の変換をモデル化し、元の画像と変換された画像を区別する能力に関して、各基底関数の広範な解析を行う。 最後に, 提案した IPT 生成アルゴリズムの成功事例と失敗事例を説明するために, 近似フォン・ノイマングラフエントロピーの概念を利用する。 実験により,提案手法は異なるシナリオをまたいでうまく一般化し,基礎関数を用いて測光と幾何学的修正画像の関係をモデル化する利点を示唆した。

Photometric transformations, such as brightness and contrast adjustment, can be applied to a face image repeatedly creating a set of near-duplicate images. Identifying the original image from a set of such near-duplicates and deducing the relationship between them are important in the context of digital image forensics. This is commonly done by generating an image phylogeny tree \textemdash \hspace{0.08cm} a hierarchical structure depicting the relationship between a set of near-duplicate images. In this work, we utilize three different families of basis functions to model pairwise relationships between near-duplicate images. The basis functions used in this work are orthogonal polynomials, wavelet basis functions and radial basis functions. We perform extensive experiments to assess the performance of the proposed method across three different modalities, namely, face, fingerprint and iris images; across different image phylogeny tree configurations; and across different types of photometric transformations. We also utilize the same basis functions to model geometric transformations and deep-learning based transformations. We also perform extensive analysis of each basis function with respect to its ability to model arbitrary transformations and to distinguish between the original and the transformed images. Finally, we utilize the concept of approximate von Neumann graph entropy to explain the success and failure cases of the proposed IPT generation algorithm. Experiments indicate that the proposed algorithm generalizes well across different scenarios thereby suggesting the merits of using basis functions to model the relationship between photometrically and geometrically modified images.
翻訳日:2022-12-30 01:28:49 公開日:2020-03-13
# green edge ai推論のためのスパース最適化

Sparse Optimization for Green Edge AI Inference ( http://arxiv.org/abs/2002.10080v2 )

ライセンス: Link先を確認
Xiangyu Yang, Sheng Hua, Yuanming Shi, Hao Wang, Jun Zhang, Khaled B. Letaief(参考訳) ネットワークエッジでのディープラーニングタスクの急速な増加により、エッジコンピューティング能力を活用することで、モバイルユーザのための低レイテンシなインテリジェントなサービスを提供するために、効果的なエッジ人工知能(AI)推論が重要になる。 このようなシナリオでは、エネルギー効率が主要な関心事となる。 本稿では,計算量と送信電力消費量の両方からなる全体の消費電力を最小化して,エネルギー効率の高いエッジAI推論を実現するための共同推論タスク選択とダウンリンクビームフォーミング戦略を提案する。 タスク選択の集合とグループ間隔構造的ビームフォーミングベクトルとの固有の接続を利用して、グループスパースビームフォーミング問題として最適化を再構成する。 この課題を解決するために,ログサム関数に基づく3段階アプローチを提案する。 グループスパーシティを高めるためにログサム関数を採用することで、近位反復重み付けアルゴリズムを開発した。 さらに,グローバル収束解析を確立し,このアルゴリズムのエルゴード最悪の収束率を示す。 シミュレーション結果は,エッジAI推論システムにおけるエネルギー効率向上のための提案手法の有効性を示す。

With the rapid upsurge of deep learning tasks at the network edge, effective edge artificial intelligence (AI) inference becomes critical to provide low-latency intelligent services for mobile users via leveraging the edge computing capability. In such scenarios, energy efficiency becomes a primary concern. In this paper, we present a joint inference task selection and downlink beamforming strategy to achieve energy-efficient edge AI inference through minimizing the overall power consumption consisting of both computation and transmission power consumption, yielding a mixed combinatorial optimization problem. By exploiting the inherent connections between the set of task selection and group sparsity structural transmit beamforming vector, we reformulate the optimization as a group sparse beamforming problem. To solve this challenging problem, we propose a log-sum function based three-stage approach. By adopting the log-sum function to enhance the group sparsity, a proximal iteratively reweighted algorithm is developed. Furthermore, we establish the global convergence analysis and provide the ergodic worst-case convergence rate for this algorithm. Simulation results will demonstrate the effectiveness of the proposed approach for improving energy efficiency in edge AI inference systems.
翻訳日:2022-12-29 04:39:33 公開日:2020-03-13
# PPMC RLトレーニングアルゴリズム:強化学習によるラフテランの知的ロボット

PPMC RL Training Algorithm: Rough Terrain Intelligent Robots through Reinforcement Learning ( http://arxiv.org/abs/2003.02655v2 )

ライセンス: Link先を確認
Tamir Blum and Kazuya Yoshida(参考訳) ロボットは意思決定の仕方を学習し、自らをコントロールし、学習した行動が見えないシナリオに一般化できる。 特に、AIを利用したロボットは、環境の不確実性のため、月面のような荒々しい環境での約束を示す。 そこで我々は,Pass Planning and Motion Control (PPMC) Training Algorithm と呼ばれるトレーニングアルゴリズムを用いて,荒地におけるロボットの移動を決定的に一般化する手法を提案する。 このアルゴリズムは、一般的な強化学習アルゴリズムと組み合わされ、ロボットにユーザーコマンドへの応答方法を教え、単一のニューラルネットワーク上で指定された場所に移動する。 本稿では,このアルゴリズムがロボット構造とは独立して動作することを示し,四足歩行ロボットの過去の結果に加えて車輪付きローバーでも動作することを示す。 さらに,荒削りな地形を導入することで,現実の実用性への大きな一歩を踏み出した。 批判的に、ロボットが新しい荒地マップに一般化することを学び、100%の成功率を維持していることを実験を通して示す。 我々の知る限りでは、強化学習のみを用いて、どんなロボットにも粗い環境で一般化されたPPMCを教える汎用的なトレーニングアルゴリズムを導入する最初の論文である。

Robots can now learn how to make decisions and control themselves, generalizing learned behaviors to unseen scenarios. In particular, AI powered robots show promise in rough environments like the lunar surface, due to the environmental uncertainties. We address this critical generalization aspect for robot locomotion in rough terrain through a training algorithm we have created called the Path Planning and Motion Control (PPMC) Training Algorithm. This algorithm is coupled with any generic reinforcement learning algorithm to teach robots how to respond to user commands and to travel to designated locations on a single neural network. In this paper, we show that the algorithm works independent of the robot structure, demonstrating that it works on a wheeled rover in addition the past results on a quadruped walking robot. Further, we take several big steps towards real world practicality by introducing a rough highly uneven terrain. Critically, we show through experiments that the robot learns to generalize to new rough terrain maps, retaining a 100% success rate. To the best of our knowledge, this is the first paper to introduce a generic training algorithm teaching generalized PPMC in rough environments to any robot, with just the use of reinforcement learning.
翻訳日:2022-12-27 04:02:48 公開日:2020-03-13
# ハイブリッドASPにおけるアグリゲートと制約の一様処理

A Uniform Treatment of Aggregates and Constraints in Hybrid ASP ( http://arxiv.org/abs/2003.04176v2 )

ライセンス: Link先を確認
Pedro Cabalar and Jorge Fandinno and Torsten Schaub and Philipp Wanko(参考訳) ハイブリッドaspを一般的な方法で特徴付けるのは、特定の理論から抽象化する必要があるため難しい。 遅延SMT解法に触発され、通常は理論原子を不透明として扱う。 これとは異なり、用語の抽象的な概念を含む、もう少し透明なアプローチを提案する。 用語に構文を与えるのではなく、いくつかの基本的な性質のみを規定することでそれらを抽象的に保ちます。 これにより、ハイブリッドASPの問題解決のためのセマンティックフレームワークをさらに発展させ、異なるセマンティックな原則に従う理論変数に対して集約関数を提供し、ASPに既存の集合セマンティクスを一般化し、実装にオフザシェルのハイブリッドソルバに頼る方法を示す。

Characterizing hybrid ASP solving in a generic way is difficult since one needs to abstract from specific theories. Inspired by lazy SMT solving, this is usually addressed by treating theory atoms as opaque. Unlike this, we propose a slightly more transparent approach that includes an abstract notion of a term. Rather than imposing a syntax on terms, we keep them abstract by stipulating only some basic properties. With this, we further develop a semantic framework for hybrid ASP solving and provide aggregate functions for theory variables that adhere to different semantic principles, show that they generalize existing aggregate semantics in ASP and how we can rely on off-the-shelf hybrid solvers for implementation.
翻訳日:2022-12-25 09:18:06 公開日:2020-03-13
# 口唇読解のための変形流れに基づく2ストリームネットワーク

Deformation Flow Based Two-Stream Network for Lip Reading ( http://arxiv.org/abs/2003.05709v2 )

ライセンス: Link先を確認
Jingyun Xiao, Shuang Yang, Yuanhang Zhang, Shiguang Shan, Xilin Chen(参考訳) 口唇読解は、発話中の口唇領域の動きを分析して音声内容を認識する作業である。 発話過程における隣接フレームの連続性と、同一音素を発音する際の異なる話者間の動きパターンの一貫性を観察し、発話過程における唇運動を唇領域における明らかな変形の列としてモデル化する。 具体的には,隣接フレーム間の変形流れを学習するための変形フローネットワーク(dfn)を導入し,リップ領域内の動き情報を直接キャプチャする。 そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。 従来の2つのストリームネットワークとは違って,双方向の知識蒸留損失を導入することで,学習過程において2つのストリームを相互に学習させる。 異なるブランチによって提供される補完的なキューにより、2ストリームネットワークはいずれのブランチを使用するよりも大幅に改善されている。 2つの大規模唇読解ベンチマークの詳細な実験結果について,詳細な分析を行った。 結果は我々のモチベーションに合致し、この2つの挑戦的データセットで最新の性能または同等の性能を達成できることを示しました。

Lip reading is the task of recognizing the speech content by analyzing movements in the lip region when people are speaking. Observing on the continuity in adjacent frames in the speaking process, and the consistency of the motion patterns among different speakers when they pronounce the same phoneme, we model the lip movements in the speaking process as a sequence of apparent deformations in the lip region. Specifically, we introduce a Deformation Flow Network (DFN) to learn the deformation flow between adjacent frames, which directly captures the motion information within the lip region. The learned deformation flow is then combined with the original grayscale frames with a two-stream network to perform lip reading. Different from previous two-stream networks, we make the two streams learn from each other in the learning process by introducing a bidirectional knowledge distillation loss to train the two branches jointly. Owing to the complementary cues provided by different branches, the two-stream network shows a substantial improvement over using either single branch. A thorough experimental evaluation on two large-scale lip reading benchmarks is presented with detailed analysis. The results accord with our motivation, and show that our method achieves state-of-the-art or comparable performance on these two challenging datasets.
翻訳日:2022-12-24 15:07:32 公開日:2020-03-13
# タイムチャレンジ2019におけるマルチモーメントのTop-1ソリューション

Top-1 Solution of Multi-Moments in Time Challenge 2019 ( http://arxiv.org/abs/2003.05837v2 )

ライセンス: Link先を確認
Manyuan Zhang, Hao Shao, Guanglu Song, Yu Liu, Junjie Yan(参考訳) 本技術報告では,ICCV 2019におけるマルチモーメント・イン・タイムの課題に対する,チームの"効率的な"ソリューションについて紹介する。 まず,一般的な画像に基づく行動認識手法であるTRN, TSN, TSMを用いて実験を行った。 そして、高速かつ正確な認識に向けて、新しい時間的インターレースネットワークを提案する。 さらに、slowfast networkとその変種も検討されている。 最後に、上記のモデルをすべてまとめ、検証セットで67.22\%、テストセットで60.77\%を達成します。 さらに,PyTorchをベースとした最先端の2Dおよび3Dメソッドを統合するビデオ理解のための新しいコードリポジトリもリリースした。 チャレンジのソリューションはリポジトリにも含まれており、https://github.com/sense-x/x-temporalで入手できる。

In this technical report, we briefly introduce the solutions of our team 'Efficient' for the Multi-Moments in Time challenge in ICCV 2019. We first conduct several experiments with popular Image-Based action recognition methods TRN, TSN, and TSM. Then a novel temporal interlacing network is proposed towards fast and accurate recognition. Besides, the SlowFast network and its variants are explored. Finally, we ensemble all the above models and achieve 67.22\% on the validation set and 60.77\% on the test set, which ranks 1st on the final leaderboard. In addition, we release a new code repository for video understanding which unifies state-of-the-art 2D and 3D methods based on PyTorch. The solution of the challenge is also included in the repository, which is available at https://github.com/Sense-X/X-Temporal.
翻訳日:2022-12-24 15:06:48 公開日:2020-03-13
# DNN+NeuroSim V2.0: オンチップトレーニングのためのコンピュータインメモリアクセラレータのためのエンドツーエンドベンチマークフレームワーク

DNN+NeuroSim V2.0: An End-to-End Benchmarking Framework for Compute-in-Memory Accelerators for On-chip Training ( http://arxiv.org/abs/2003.06471v1 )

ライセンス: Link先を確認
Xiaochen Peng, Shanshi Huang, Hongwu Jiang, Anni Lu, Shimeng Yu(参考訳) dnn+neurosimは、ディープニューラルネットワークのためのcompute-in-memory(cim)アクセラレータをベンチマークするための統合フレームワークであり、デバイスレベルから回路レベル、アルゴリズムレベルまでの階層的設計オプションを備えている。 pythonラッパーは、neurosimと一般的な機械学習プラットフォームであるpytorchをインターフェースし、柔軟なネットワーク構造をサポートするために開発されている。 このフレームワークは、自動的なアルゴリズムからハードウェアへのマッピングを提供し、トレーニングや推論のためのチップレベル領域、エネルギー効率、スループット、ハードウェア制約によるトレーニング/推論精度を評価する。 我々の以前の研究(DNN+NeuroSim V1.1)は、シナプスデバイスにおける信頼性の影響を推定するために開発され、アナログ・デジタル変換器(ADC)の量子化損失が推論エンジンの精度とハードウェア性能に与える影響を推定した。 本研究では,非揮発性メモリ非理想的デバイス特性がオンチップトレーニングに与える影響について検討した。 我々はNuroSimコアの非線形性,非対称性,デバイス間およびサイクル間の重量更新の変動,およびエラー/重量勾配計算の周辺回路を導入することにより,CIFAR-10データセット上のVGG-8の最先端SRAMおよびeNVMデバイスに基づくCIMアクセラレータをベンチマークし,チップ上でのトレーニングにおいて重要なシナプスデバイス仕様を明らかにした。 提案されているDNN+NeuroSim V2.0フレームワークはGitHubで公開されている。

DNN+NeuroSim is an integrated framework to benchmark compute-in-memory (CIM) accelerators for deep neural networks, with hierarchical design options from device-level, to circuit-level and up to algorithm-level. A python wrapper is developed to interface NeuroSim with a popular machine learning platform: Pytorch, to support flexible network structures. The framework provides automatic algorithm-to-hardware mapping, and evaluates chip-level area, energy efficiency and throughput for training or inference, as well as training/inference accuracy with hardware constraints. Our prior work (DNN+NeuroSim V1.1) was developed to estimate the impact of reliability in synaptic devices, and analog-to-digital converter (ADC) quantization loss on the accuracy and hardware performance of inference engines. In this work, we further investigated the impact of the analog emerging non-volatile memory non-ideal device properties for on-chip training. By introducing the nonlinearity, asymmetry, device-to-device and cycle-to-cycle variation of weight update into the python wrapper, and peripheral circuits for error/weight gradient computation in NeuroSim core, we benchmarked CIM accelerators based on state-of-the-art SRAM and eNVM devices for VGG-8 on CIFAR-10 dataset, revealing the crucial specs of synaptic devices for on-chip training. The proposed DNN+NeuroSim V2.0 framework is available on GitHub.
翻訳日:2022-12-24 02:25:28 公開日:2020-03-13
# TrojAI Software Framework: ディープラーニングモデルにトロイの木を埋め込むオープンソースツール

The TrojAI Software Framework: An OpenSource tool for Embedding Trojans into Deep Learning Models ( http://arxiv.org/abs/2003.07233v1 )

ライセンス: Link先を確認
Kiran Karra, Chace Ashcraft, Neil Fendley(参考訳) 本稿では、トロイの木馬を用いてトリガ(汚染)データセットと関連するディープラーニング(dl)モデルを生成することができるオープンソースのpythonツールセットであるtrojai software frameworkを紹介する。 開発したフレームワークを用いて、大量のトロイの木馬MNIST分類器を生成し、ベクトル観測を用いてトロイの木馬強化学習モデルを作成する能力を実証する。 MNISTの結果、トリガーの性質、訓練バッチサイズ、データセット中毒率はいずれもトロイの木馬の埋め込みの成功に影響を及ぼすことが示された。 トロイの木馬mnistモデルに対して神経清浄をテストし,トレーニングモデルの異常を約18%の確率で検出することに成功した。 我々の実験とワークフローは、TrojAIソフトウェアフレームワークが、データセットの様々な構成やハイパーパラメータが生成したトロイの木馬深層学習モデルに与える影響を容易に理解し、新しいトロイの木馬検出手法を迅速かつ包括的にテストできることを示している。

In this paper, we introduce the TrojAI software framework, an open source set of Python tools capable of generating triggered (poisoned) datasets and associated deep learning (DL) models with trojans at scale. We utilize the developed framework to generate a large set of trojaned MNIST classifiers, as well as demonstrate the capability to produce a trojaned reinforcement-learning model using vector observations. Results on MNIST show that the nature of the trigger, training batch size, and dataset poisoning percentage all affect successful embedding of trojans. We test Neural Cleanse against the trojaned MNIST models and successfully detect anomalies in the trained models approximately $18\%$ of the time. Our experiments and workflow indicate that the TrojAI software framework will enable researchers to easily understand the effects of various configurations of the dataset and training hyperparameters on the generated trojaned deep learning model, and can be used to rapidly and comprehensively test new trojan detection methods.
翻訳日:2022-12-24 02:24:54 公開日:2020-03-13
# 未知運動方程式を用いた移動物体のニューラルネットワーク追跡

Neural Network Tracking of Moving Objects with Unknown Equations of Motion ( http://arxiv.org/abs/2003.08362v1 )

ライセンス: Link先を確認
Boaz Fish and Ben Zion Bobrovsky(参考訳) 本稿では,物体の雑音座標測定に基づいて,所定の範囲内における移動物体の位置を追跡できるニューラルネットワークの設計を提案する。 KLMnフィルタで一般的に実行される関数は、この手法が特定のシナリオにおいてカルマンフィルタよりも優れていることを示すことである。

In this paper we present a Neural Network design that can be used to track the location of a moving object within a given range based on the object's noisy coordinates measurement. A function commonly performed by the KLMn filter, our goal is to show that our method outperforms the Kalman filter in certain scenarios.
翻訳日:2022-12-24 02:24:17 公開日:2020-03-13
# 格子ゲージ理論に対する同変フローに基づくサンプリング

Equivariant flow-based sampling for lattice gauge theory ( http://arxiv.org/abs/2003.06413v1 )

ライセンス: Link先を確認
Gurtej Kanwar, Michael S. Albergo, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, S\'ebastien Racani\`ere, Danilo Jimenez Rezende, Phiala E. Shanahan(参考訳) 構築によりゲージ不変である格子ゲージ理論に対する機械学習フローベースサンプリングアルゴリズムのクラスを定義する。 2つの時空次元におけるU(1)ゲージ理論へのこの枠組みの適用を実証し、パラメータ空間におけるほぼ臨界点が、ハイブリッドモンテカルロやヒートバスのような従来のサンプリング手順よりも、トポロジカル量のサンプリングにおいて桁違いに効率的であることを示す。

We define a class of machine-learned flow-based sampling algorithms for lattice gauge theories that are gauge-invariant by construction. We demonstrate the application of this framework to U(1) gauge theory in two spacetime dimensions, and find that near critical points in parameter space the approach is orders of magnitude more efficient at sampling topological quantities than more traditional sampling procedures such as Hybrid Monte Carlo and Heat Bath.
翻訳日:2022-12-24 02:23:55 公開日:2020-03-13
# ロボットナビゲーションのための意味的・文脈的対象情報を用いた地図の拡張:視覚・深度キューを用いた学習ベースフレームワーク

Extending Maps with Semantic and Contextual Object Information for Robot Navigation: a Learning-Based Framework using Visual and Depth Cues ( http://arxiv.org/abs/2003.06336v1 )

ライセンス: Link先を確認
Renato Martins, Dhiego Bersan, Mario F. M. Campos and Erickson R. Nascimento(参考訳) 本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。 本研究では,人間ロボットインタラクション,ロボット支援,視覚ナビゲーション,操作タスクなど,複数のアプリケーションで使用されるオブジェクトレベルの情報を備えた環境の地図表現を拡張したフレームワークを提案する。 我々の定式化は、CNNベースのオブジェクト検出器(Yolo)と3次元モデルに基づくセグメンテーション技術を利用して、インスタンスセグメンテーションを行い、シーン内のさまざまなオブジェクトのクラスをローカライズ、識別、追跡する。 セマンティッククラスの追跡と位置決めはカルマンフィルタの辞書を用いて行われ、センサ計測を時間とともに組み合わせ、より正確な地図を提供する。 この定式化は、中期不変写像表現を得るために動的対象を識別し無視するように設計されている。 提案手法は,異なる屋内シーンで収集したrgb-dデータシーケンスを用いて評価した。 実験により,複数のオブジェクト(特にドア)を含む拡張意味マップを作成する手法の可能性を示した。 我々はまた、アノテーション付きオブジェクトクラス(ドア、消火器、ベンチ、噴水)とその位置決めとROSパッケージとしてのソースコードからなるデータセットをコミュニティに提供する。

This paper addresses the problem of building augmented metric representations of scenes with semantic information from RGB-D images. We propose a complete framework to create an enhanced map representation of the environment with object-level information to be used in several applications such as human-robot interaction, assistive robotics, visual navigation, or in manipulation tasks. Our formulation leverages a CNN-based object detector (Yolo) with a 3D model-based segmentation technique to perform instance semantic segmentation, and to localize, identify, and track different classes of objects in the scene. The tracking and positioning of semantic classes is done with a dictionary of Kalman filters in order to combine sensor measurements over time and then providing more accurate maps. The formulation is designed to identify and to disregard dynamic objects in order to obtain a medium-term invariant map representation. The proposed method was evaluated with collected and publicly available RGB-D data sequences acquired in different indoor scenes. Experimental results show the potential of the technique to produce augmented semantic maps containing several objects (notably doors). We also provide to the community a dataset composed of annotated object classes (doors, fire extinguishers, benches, water fountains) and their positioning, as well as the source code as ROS packages.
翻訳日:2022-12-24 02:18:24 公開日:2020-03-13
# プロドローム期における皮膚癌分類のための高度深層学習法

Advanced Deep Learning Methodologies for Skin Cancer Classification in Prodromal Stages ( http://arxiv.org/abs/2003.06356v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Asma Khatoon, Viktor Varkarakis, Peter Corcoran(参考訳) 最近の技術支援プラットフォームは、ほぼすべての分野において信頼できるソリューションを提供している。 医療分野における重要な応用の1つは、センシティブで正確なデータ分析を必要とする予備段階の皮膚がん分類である。 提案研究はカグル皮膚がんデータセットを用いて行う。 本研究は2つの段階からなる。 第1フェーズでは、画像が前処理され、クラッタを除去し、訓練画像の洗練されたバージョンを生成する。 これを実現するために、研削フィルタを施し、その後に毛髪除去アルゴリズムを施す。 ピーク信号とノイズ(psnr)、平均2乗誤差(mse)、最大絶対2乗偏差(mxerr)、および2乗ノルムのエネルギー比/比(l2rat)を含む画像品質測定指標を用いて、前処理操作の前後における全体の画質を比較する。 上記の画像品質指標の結果は、画質が損なわれていないことを証明しているが、前処理操作を適用してアップグレードされる。 本研究の第2フェーズでは,病変モグラの正確かつ正確かつロバストな分類において重要な役割を果たす深層学習手法を取り入れた。 これは、Inception-v3とMobileNetの2つの最先端ディープラーニングモデルを使って反映されている。 実験の結果,両ネットワークの画像の精巧化によるトレイン精度とバリデーション精度の改善が示されたが,inception-v3ネットワークでは検証精度が向上し,最終的にテストデータで評価することが可能となった。 アートインセプション-v3ネットワークを用いた最終テスト精度は86%であった。

Technology-assisted platforms provide reliable solutions in almost every field these days. One such important application in the medical field is the skin cancer classification in preliminary stages that need sensitive and precise data analysis. For the proposed study the Kaggle skin cancer dataset is utilized. The proposed study consists of two main phases. In the first phase, the images are preprocessed to remove the clutters thus producing a refined version of training images. To achieve that, a sharpening filter is applied followed by a hair removal algorithm. Different image quality measurement metrics including Peak Signal to Noise (PSNR), Mean Square Error (MSE), Maximum Absolute Squared Deviation (MXERR) and Energy Ratio/ Ratio of Squared Norms (L2RAT) are used to compare the overall image quality before and after applying preprocessing operations. The results from the aforementioned image quality metrics prove that image quality is not compromised however it is upgraded by applying the preprocessing operations. The second phase of the proposed research work incorporates deep learning methodologies that play an imperative role in accurate, precise and robust classification of the lesion mole. This has been reflected by using two state of the art deep learning models: Inception-v3 and MobileNet. The experimental results demonstrate notable improvement in train and validation accuracy by using the refined version of images of both the networks, however, the Inception-v3 network was able to achieve better validation accuracy thus it was finally selected to evaluate it on test data. The final test accuracy using state of art Inception-v3 network was 86%.
翻訳日:2022-12-24 02:17:59 公開日:2020-03-13
# 再帰的畳み込みニューラルネットワークを用いたctによる下顎骨分割

Recurrent convolutional neural networks for mandible segmentation from computed tomography ( http://arxiv.org/abs/2003.06486v1 )

ライセンス: Link先を確認
Bingjiang Qiu, Jiapan Guo, Joep Kraeima, Haye H. Glas, Ronald J. H. Borra, Max J. H. Witjes, Peter M. A. van Ooijen(参考訳) 近年,深層学習法に基づくCTスキャンの正確な下顎骨分割が注目されている。 しかし、下顎骨の金属造形物と個体間の形状や大きさのばらつきという2つの大きな課題が残っている。 これら2つの課題に対処するため,下顎骨の頑健かつ正確な分割のために,分割畳み込み畳み込みニューラルネットワーク (SegCNN) をリカレントニューラルネットワーク (RNN) に組み込む再帰分割畳み込み畳み込みニューラルネットワーク (RSegCNN) を提案する。 このようなシステムの設計は、CTスキャンで隣接する画像スライスでキャプチャされた下顎形状の類似性と連続性を考慮に入れている。 RSegCNNは、組込みエンコーダデコーダセグメンテーション(SegCNN)コンポーネントで繰り返し構造に基づいて、下顎情報を推測する。 繰り返し構造は、隣接するスライスから関連する重要な情報を利用するようシステムに誘導する一方、SegCNNコンポーネントは単一のCTスライスからの下顎骨形状に焦点を当てる。 2つの頭頸部CTデータセットを用いたRSegCNNの評価実験を行った。 実験の結果, RSegCNNは, 正確な下顎骨分割のための最先端モデルよりも有意に優れていることがわかった。

Recently, accurate mandible segmentation in CT scans based on deep learning methods has attracted much attention. However, there still exist two major challenges, namely, metal artifacts among mandibles and large variations in shape or size among individuals. To address these two challenges, we propose a recurrent segmentation convolutional neural network (RSegCNN) that embeds segmentation convolutional neural network (SegCNN) into the recurrent neural network (RNN) for robust and accurate segmentation of the mandible. Such a design of the system takes into account the similarity and continuity of the mandible shapes captured in adjacent image slices in CT scans. The RSegCNN infers the mandible information based on the recurrent structure with the embedded encoder-decoder segmentation (SegCNN) components. The recurrent structure guides the system to exploit relevant and important information from adjacent slices, while the SegCNN component focuses on the mandible shapes from a single CT slice. We conducted extensive experiments to evaluate the proposed RSegCNN on two head and neck CT datasets. The experimental results show that the RSegCNN is significantly better than the state-of-the-art models for accurate mandible segmentation.
翻訳日:2022-12-24 02:17:31 公開日:2020-03-13
# 20年間のアジャイル地球観測衛星スケジューリング--定式化,方法,今後の方向性

Agile Earth observation satellite scheduling over 20 years: formulations, methods and future directions ( http://arxiv.org/abs/2003.06169v1 )

ライセンス: Link先を確認
Xinwei Wang, Guohua Wu, Lining Xing, Witold Pedrycz(参考訳) 高度姿勢操作能力を持つアジャイル衛星は、新世代の地球観測衛星(EOS)である。 衛星技術の継続的な改善と打ち上げコストの削減により、アジャイルEOS(AEOS)の開発が促進された。 軌道上のAEOSを効率的に活用するために、複雑な運用制約をすべて満たしながら観測利益全体を最大化することを目的としたAEOSスケジューリング問題(AEOSSP)は、過去20年間に多くの注目を集めてきた。 本研究の目的は,AEOSSPの現在の研究成果を要約し,今後の研究方向性を明らかにすることである。 この目的のために、運用制約付きAEOSSPの一般的な定義を最初に記述し、続いて観察利益の異なる定義、多目的関数、自律モデルを含む3つの典型的なバリエーションを示す。 1997年から2019年までの詳細な文献レビューでは、正確な方法、ヒューリスティック、メタヒューリスティック、機械学習の4つの異なる解法が提示されている。 最後に、将来追求する価値のあるトピックをいくつか紹介する。

Agile satellites with advanced attitude maneuvering capability are the new generation of Earth observation satellites (EOSs). The continuous improvement in satellite technology and decrease in launch cost have boosted the development of agile EOSs (AEOSs). To efficiently employ the increasing orbiting AEOSs, the AEOS scheduling problem (AEOSSP) aiming to maximize the entire observation profit while satisfying all complex operational constraints, has received much attention over the past 20 years. The objectives of this paper are thus to summarize current research on AEOSSP, identify main accomplishments and highlight potential future research directions. To this end, general definitions of AEOSSP with operational constraints are described initially, followed by its three typical variations including different definitions of observation profit, multi-objective function and autonomous model. A detailed literature review from 1997 up to 2019 is then presented in line with four different solution methods, i.e., exact method, heuristic, metaheuristic and machine learning. Finally, we discuss a number of topics worth pursuing in the future.
翻訳日:2022-12-24 02:17:06 公開日:2020-03-13
# 局所的ニューラルアクティベーションを実現する改良型脳波取得プロトコル

An Improved EEG Acquisition Protocol Facilitates Localized Neural Activation ( http://arxiv.org/abs/2003.10212v1 )

ライセンス: Link先を確認
Jerrin Thomas Panachakel, Nandagopal Netrakanti Vinayak, Maanvi Nunna, A.G. Ramakrishnan and Kanishka Sharma(参考訳) 本研究は、運動運動および/または体性感覚手がかりの導入による運動画像の脳波記録プロトコルの改善を提案する。 その結果、被験者は画像の試行後に運動動作を行う必要があるという利点が示された。 プロトコルに運動動作を導入することで、被験者は単に運動の動きを可視化するのではなく、実際の運動計画を行うことができるため、運動の楽さを想像できる。 本研究は, 従来の聴覚・視覚手がかりとは対照的に, 体性感覚手がかりを被験者に投与することの利点についても検討した。 これらのプロトコルの変化は、よく知られた共通空間パターン(csp)アルゴリズムの適用に基づいて、データから得られる空間フィルタの適性の観点から有望である。 空間フィルターによって強調された領域は、体性感覚刺激によってプロトコルが強化されたとき、対象者間でより局所化され、一貫性がある。 そこで本研究は,脳波による脳波の取得プロトコルとして,脳波が脳波に反応して脳波を検出できる可能性が示唆された。

This work proposes improvements in the electroencephalogram (EEG) recording protocols for motor imagery through the introduction of actual motor movement and/or somatosensory cues. The results obtained demonstrate the advantage of requiring the subjects to perform motor actions following the trials of imagery. By introducing motor actions in the protocol, the subjects are able to perform actual motor planning, rather than just visualizing the motor movement, thus greatly improving the ease with which the motor movements can be imagined. This study also probes the added advantage of administering somatosensory cues in the subject, as opposed to the conventional auditory/visual cues. These changes in the protocol show promise in terms of the aptness of the spatial filters obtained on the data, on application of the well-known common spatial pattern (CSP) algorithms. The regions highlighted by the spatial filters are more localized and consistent across the subjects when the protocol is augmented with somatosensory stimuli. Hence, we suggest that this may prove to be a better EEG acquisition protocol for detecting brain activation in response to intended motor commands in (clinically) paralyzed/locked-in patients.
翻訳日:2022-12-24 02:16:49 公開日:2020-03-13
# 深海におけるローグ波の予測に基づくランダム森林分類器

Random Forest Classifier Based Prediction of Rogue waves on Deep Oceans ( http://arxiv.org/abs/2003.06431v1 )

ライセンス: Link先を確認
Pujan Pokhrel, Elias Ioup, Md Tamjidul Hoque, Julian Simeonov, Mahdi Abdelguerfi(参考訳) 本稿では,統計的機械学習手法を用いて,海洋におけるローグ波の予測手法を提案する。 海は多くの波動系から成り立っているため、二モーダル方向あるいは多モーダル方向の分布から二モーダル方向への変化を警告基準とする。 同様に、悪質な波を予測するのに役立つ様々な特徴を探索する。 その結果, スペクトル特性は, ローグ波の予測において有意であることがわかった。 非線形分類器は線形値よりも予測精度が高いことがわかった。 最後に,海洋環境下でのローグ波を予測するためのランダムフォレスト分類法を提案する。 提案アルゴリズムの全体的な精度は89.57%から91.81%であり、予測時間ウィンドウによっては79.41%から89.03%まで変化する。 さらに、評価基準のモデルのない性質とアプローチの学際的特性により、同様の研究は、非線形光学、プラズマ、固体などの他の非線形分散媒体において、同様の方程式によって制御され、極端波の早期検出を可能にする。

In this paper, we present a novel approach for the prediction of rogue waves in oceans using statistical machine learning methods. Since the ocean is composed of many wave systems, the change from a bimodal or multimodal directional distribution to unimodal one is taken as the warning criteria. Likewise, we explore various features that help in predicting rogue waves. The analysis of the results shows that the Spectral features are significant in predicting rogue waves. We find that nonlinear classifiers have better prediction accuracy than the linear ones. Finally, we propose a Random Forest Classifier based algorithm to predict rogue waves in oceanic conditions. The proposed algorithm has an Overall Accuracy of 89.57% to 91.81%, and the Balanced Accuracy varies between 79.41% to 89.03% depending on the forecast time window. Moreover, due to the model-free nature of the evaluation criteria and interdisciplinary characteristics of the approach, similar studies may be motivated in other nonlinear dispersive media, such as nonlinear optics, plasma, and solids, governed by similar equations, which will allow for the early detection of extreme waves
翻訳日:2022-12-24 02:15:48 公開日:2020-03-13
# 高度に非バランスな完全ラベル付き3次元バイオメディカルイメージのセマンティックセグメンテーションと教師なしドメイン適応による、未ラベルのバイオメディカル3次元イメージスタックのセマンティックセグメンテーション

Semantic Segmentation of highly class imbalanced fully labelled 3D volumetric biomedical images and unsupervised Domain Adaptation of the pre-trained Segmentation Network to segment another fully unlabelled Biomedical 3D Image stack ( http://arxiv.org/abs/2004.02748v1 )

ライセンス: Link先を確認
Shreya Roy and Anirban Chakraborty(参考訳) 私たちの研究の目標は、3dバイオメディカルボリュームデータでピクセルラベルのセマンティクスセグメンテーションを行うことです。 大規模なバイオメディカルデータセットでは、手動アノテーションは常に難しい。 したがって、1つのデータセットが完全にラベル付けされ、もう1つのデータセットが完全にラベル付けされていないと仮定される2つのケースを考える。 まず、完全にラベル付けされた等方性バイオメディカルソースデータ(fibsem)上で意味セグメンテーションを行い、異なる種類の細胞体や他のセルコンポーネントの文脈でソースデータセットといくつかの類似性を共有するターゲット非ラベルデータセット(snemi3d)をセグメンテーションするための訓練されたモデルを組み込もうとする。 しかし、細胞成分のサイズと形状は様々である。 そこで本稿では,対象の体積データの各ピクセルをセル境界とセル本体に分類しながら,教師なし領域適応の文脈における新しいアプローチを提案する。 また、トレーニング画像内の異なる画素に対して非一様重みを与えるための新しい手法を提案し、ソース領域のトレーニング元の画像とともに対応する画素単位ラベルマップの存在下でピクセルレベルの意味セグメンテーションを行う。 我々は,与えられた基底真理ラベルマップから得られたエントロピーマップや距離変換行列を用いて,細胞境界が非常に薄い医療画像データにおけるクラス不均衡問題を克服した。

The goal of our work is to perform pixel label semantic segmentation on 3D biomedical volumetric data. Manual annotation is always difficult for a large bio-medical dataset. So, we consider two cases where one dataset is fully labeled and the other dataset is assumed to be fully unlabelled. We first perform Semantic Segmentation on the fully labeled isotropic biomedical source data (FIBSEM) and try to incorporate the the trained model for segmenting the target unlabelled dataset(SNEMI3D)which shares some similarities with the source dataset in the context of different types of cellular bodies and other cellular components. Although, the cellular components vary in size and shape. So in this paper, we have proposed a novel approach in the context of unsupervised domain adaptation while classifying each pixel of the target volumetric data into cell boundary and cell body. Also, we have proposed a novel approach to giving non-uniform weights to different pixels in the training images while performing the pixel-level semantic segmentation in the presence of the corresponding pixel-wise label map along with the training original images in the source domain. We have used the Entropy Map or a Distance Transform matrix retrieved from the given ground truth label map which has helped to overcome the class imbalance problem in the medical image data where the cell boundaries are extremely thin and hence, extremely prone to be misclassified as non-boundary.
翻訳日:2022-12-24 02:09:03 公開日:2020-03-13
# 単語埋め込みを用いた共起テキストネットワークの識別性向上

Using word embeddings to improve the discriminability of co-occurrence text networks ( http://arxiv.org/abs/2003.06279v1 )

ライセンス: Link先を確認
Laura V. C. Quispe and Jorge A. V. Tohalino and Diego R. Amancio(参考訳) 単語共起ネットワークは、実用シナリオと理論シナリオの両方でテキストを分析するために用いられてきた。 いくつかのアプリケーションで比較的成功したにもかかわらず、従来の共起ネットワークは、テキストに遠くに見えるたびに類似した単語間のリンクを確立することに失敗している。 本稿では,共起ネットワークにおける仮想リンク作成ツールとしての単語埋め込みの利用により,分類システムの品質が向上するかどうかを検討する。 その結果,glove,word2vec,fasttextを用いた場合,スティロメトリータスクの判別性が向上した。 さらに,ストップワードが無視されない場合に最適化された結果が得られ,仮想リンクを確立するための簡単なグローバルしきい値設定戦略が用いられている。 提案手法は複雑なネットワークとしてテキストの表現を改善することができるため,他の自然言語処理タスクの研究にも適用できると考えている。 同様に、理論的言語の研究は、単語共起ネットワークの強化表現の恩恵を受けるかもしれない。

Word co-occurrence networks have been employed to analyze texts both in the practical and theoretical scenarios. Despite the relative success in several applications, traditional co-occurrence networks fail in establishing links between similar words whenever they appear distant in the text. Here we investigate whether the use of word embeddings as a tool to create virtual links in co-occurrence networks may improve the quality of classification systems. Our results revealed that the discriminability in the stylometry task is improved when using Glove, Word2Vec and FastText. In addition, we found that optimized results are obtained when stopwords are not disregarded and a simple global thresholding strategy is used to establish virtual links. Because the proposed approach is able to improve the representation of texts as complex networks, we believe that it could be extended to study other natural language processing tasks. Likewise, theoretical languages studies could benefit from the adopted enriched representation of word co-occurrence networks.
翻訳日:2022-12-24 02:08:31 公開日:2020-03-13
# ロバストDNN推論のための部分重み適応

Partial Weight Adaptation for Robust DNN Inference ( http://arxiv.org/abs/2003.06131v1 )

ライセンス: Link先を確認
Xiufeng Xie, Kyu-Han Kim(参考訳) ストリームビデオ分析では、推論入力とトレーニングデータが同じ確率分布に従うと仮定して、事前訓練されたDNNモデルを使用する。 自動運転車は、様々な明るさでビデオをキャプチャし、不安定な無線帯域幅でビデオの適応ビットレートストリーミングを呼び出し、推論サーバは異機種のIoTデバイス/カメラからの入力を提供する。 このような場合、入力歪みのレベルは急速に変化し、入力の確率分布が変化する。 異種DNN入力に対応する適応型推論アーキテクチャであるGearNNを提案する。 GearNNはメモリ予算に応じて、小さな「歪みに敏感な」DNNパラメータのセットを特定する最適化アルゴリズムを採用している。 入力の歪みレベルに基づいて、GearNNは歪みに敏感なパラメータのみを適応させ、残りの定数パラメータを全ての入力品質で再利用する。 動的入力歪みを伴うDNN推論の評価では、GearNNは、非歪データセットでトレーニングされたDNNに対して平均18.12%、Googleからの安定性トレーニングで4.84%、メモリオーバーヘッドがわずか1.8%の精度(mIoU)を改善する。

Mainstream video analytics uses a pre-trained DNN model with an assumption that inference input and training data follow the same probability distribution. However, this assumption does not always hold in the wild: autonomous vehicles may capture video with varying brightness; unstable wireless bandwidth calls for adaptive bitrate streaming of video; and, inference servers may serve inputs from heterogeneous IoT devices/cameras. In such situations, the level of input distortion changes rapidly, thus reshaping the probability distribution of the input. We present GearNN, an adaptive inference architecture that accommodates heterogeneous DNN inputs. GearNN employs an optimization algorithm to identify a small set of "distortion-sensitive" DNN parameters, given a memory budget. Based on the distortion level of the input, GearNN then adapts only the distortion-sensitive parameters, while reusing the rest of constant parameters across all input qualities. In our evaluation of DNN inference with dynamic input distortions, GearNN improves the accuracy (mIoU) by an average of 18.12% over a DNN trained with the undistorted dataset and 4.84% over stability training from Google, with only 1.8% extra memory overhead.
翻訳日:2022-12-24 02:06:58 公開日:2020-03-13
# グレー値不変ネットワークを用いたクロスモーダル学習のためのランダム滑らかな灰色の値変換

Random smooth gray value transformations for cross modality learning with gray value invariant networks ( http://arxiv.org/abs/2003.06158v1 )

ライセンス: Link先を確認
Nikolas Lessmann and Bram van Ginneken(参考訳) ランダム変換はトレーニングデータの増大によく使われ、トレーニングサンプルの均一性を低減することを目的としている。 これらの変換は通常、同じモダリティから画像に期待できるバリエーションを目標としている。 そこで本研究では,画像の灰色の値をモダリティの相違を減らし,簡単な変換法を提案する。 このアプローチにより、MRI画像にのみ訓練されたネットワークを用いて、胸椎体をCT画像にセグメント化することができる。 ソースコードはhttps://github.com/nlessmann/rsgtで入手できる。

Random transformations are commonly used for augmentation of the training data with the goal of reducing the uniformity of the training samples. These transformations normally aim at variations that can be expected in images from the same modality. Here, we propose a simple method for transforming the gray values of an image with the goal of reducing cross modality differences. This approach enables segmentation of the lumbar vertebral bodies in CT images using a network trained exclusively with MR images. The source code is made available at https://github.com/nlessmann/rsgt
翻訳日:2022-12-24 02:06:16 公開日:2020-03-13
# SVMとニューラル分類器を用いた皮膚癌の自動病変検出システム(ALDS)

Automatic Lesion Detection System (ALDS) for Skin Cancer Classification Using SVM and Neural Classifiers ( http://arxiv.org/abs/2003.06276v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Muhammad Aatif Mobeen Azhar, Rana Hammad Raza(参考訳) 最近の技術支援プラットフォームは、ほぼすべての分野において信頼できるツールを提供している。 計算能力によってサポートされているこれらのツールは、敏感で正確なデータ分析を必要とするアプリケーションにとって重要である。 医療分野における重要な応用の1つは、皮膚がん分類のための自動病変検出システム(alds)である。 コンピュータ診断は、医師や皮膚科医が皮膚がんの適切な分析と治療のための第2の意見を得るのに役立つ。 癌モグラとその周辺領域の精密な分節は, 適切な解析と診断に不可欠である。 本稿では,まずアクティブな輪郭と流域統合マスクを用いてモルを分割し,後にSVMとニューラル分類器を分割したモルの分類に適用した確率的アプローチに基づくALDSフレームワークの開発に焦点をあてる。 病変分割後、選択された特徴は、検討中の症例が黒色腫か非黒色腫かを判定する。 提案手法は,様々なデータセットに対して検証し,提案システムの有効性を反映した比較分析を行う。

Technology aided platforms provide reliable tools in almost every field these days. These tools being supported by computational power are significant for applications that need sensitive and precise data analysis. One such important application in the medical field is Automatic Lesion Detection System (ALDS) for skin cancer classification. Computer aided diagnosis helps physicians and dermatologists to obtain a second opinion for proper analysis and treatment of skin cancer. Precise segmentation of the cancerous mole along with surrounding area is essential for proper analysis and diagnosis. This paper is focused towards the development of improved ALDS framework based on probabilistic approach that initially utilizes active contours and watershed merged mask for segmenting out the mole and later SVM and Neural Classifier are applied for the classification of the segmented mole. After lesion segmentation, the selected features are classified to ascertain that whether the case under consideration is melanoma or non-melanoma. The approach is tested for varying datasets and comparative analysis is performed that reflects the effectiveness of the proposed system.
翻訳日:2022-12-24 02:00:31 公開日:2020-03-13
# 物体検出器の高調波伝達性と識別性

Harmonizing Transferability and Discriminability for Adapting Object Detectors ( http://arxiv.org/abs/2003.06297v1 )

ライセンス: Link先を確認
Chaoqi Chen, Zebiao Zheng, Xinghao Ding, Yue Huang, Qi Dou(参考訳) 適応物体検出の最近の進歩は、検出パイプラインに沿った分布シフトを緩和する対角的特徴適応により、魅力的な結果を得た。 対数適応は特徴表現の伝達可能性を大幅に向上させるが、対象検出器の特徴識別性は依然として少ない。 さらに、オブジェクトの複雑な組み合わせと、ドメイン間の区別されたシーンレイアウトを考えると、変換可能性と識別性は、対向適応において矛盾する可能性がある。 本稿では,階層的(地域/イメージ/インスタンス)に特徴表現の伝達性を校正する階層的転送可能性校正ネットワーク(HTCN)を提案する。 The proposed model consists of three components: (1) Importance Weighted Adversarial Training with input Interpolation (IWAT-I), which strengthens the global discriminability by re-weighting the interpolated image-level features; (2) Context-aware Instance-Level Alignment (CILA) module, which enhances the local discriminability by capturing the underlying complementary effect between the instance-level feature and the global context information for the instance-level feature alignment; (3) local feature masks that calibrate the local transferability to provide semantic guidance for the following discriminative pattern alignment. 実験の結果、HTCNはベンチマークデータセットの最先端メソッドよりも大幅に優れていた。

Recent advances in adaptive object detection have achieved compelling results in virtue of adversarial feature adaptation to mitigate the distributional shifts along the detection pipeline. Whilst adversarial adaptation significantly enhances the transferability of feature representations, the feature discriminability of object detectors remains less investigated. Moreover, transferability and discriminability may come at a contradiction in adversarial adaptation given the complex combinations of objects and the differentiated scene layouts between domains. In this paper, we propose a Hierarchical Transferability Calibration Network (HTCN) that hierarchically (local-region/image/instance) calibrates the transferability of feature representations for harmonizing transferability and discriminability. The proposed model consists of three components: (1) Importance Weighted Adversarial Training with input Interpolation (IWAT-I), which strengthens the global discriminability by re-weighting the interpolated image-level features; (2) Context-aware Instance-Level Alignment (CILA) module, which enhances the local discriminability by capturing the underlying complementary effect between the instance-level feature and the global context information for the instance-level feature alignment; (3) local feature masks that calibrate the local transferability to provide semantic guidance for the following discriminative pattern alignment. Experimental results show that HTCN significantly outperforms the state-of-the-art methods on benchmark datasets.
翻訳日:2022-12-24 02:00:13 公開日:2020-03-13
# 相互情報バックプロパゲーションによる不偏表現の学習

Learning Unbiased Representations via Mutual Information Backpropagation ( http://arxiv.org/abs/2003.06430v1 )

ライセンス: Link先を確認
Ruggero Ragonesi, Riccardo Volpi, Jacopo Cavazza and Vittorio Murino(参考訳) 私たちは、本質的にバイアスのあるデータでトレーニングされた場合でも、うまく一般化できるデータ駆動表現の学習に興味を持っています。 特に、モデルによって学習された場合、データのいくつかの属性(バイアス)が一般化特性を著しく損なうことがある。 情報理論のレンズを通してこの問題に取り組み,最近の知見を活用して相互情報の微分可能な推定を行う。 本研究では,学習表現とデータ属性の相互情報を同時に推定し,最小化する新しいエンドツーエンド最適化戦略を提案する。 標準ベンチマークに適用すると,本モデルは最先端の手法に対して同等あるいは優れた分類性能を示す。 さらに,本手法は,'algorithmic fairness'問題に適用できるほど汎用的であり,競争的な結果が得られる。

We are interested in learning data-driven representations that can generalize well, even when trained on inherently biased data. In particular, we face the case where some attributes (bias) of the data, if learned by the model, can severely compromise its generalization properties. We tackle this problem through the lens of information theory, leveraging recent findings for a differentiable estimation of mutual information. We propose a novel end-to-end optimization strategy, which simultaneously estimates and minimizes the mutual information between the learned representation and the data attributes. When applied on standard benchmarks, our model shows comparable or superior classification performance with respect to state-of-the-art approaches. Moreover, our method is general enough to be applicable to the problem of ``algorithmic fairness'', with competitive results.
翻訳日:2022-12-24 01:59:54 公開日:2020-03-13
# 効果的な口唇読解のための相互情報最大化

Mutual Information Maximization for Effective Lip Reading ( http://arxiv.org/abs/2003.06439v1 )

ライセンス: Link先を確認
Xing Zhao and Shuang Yang and Shiguang Shan and Xilin Chen(参考訳) 近年, 深層学習の急速な発展と応用の可能性から, リップリーディング研究への関心が高まっている。 唇読取作業における優れたパフォーマンスを得るための重要なポイントは, 唇の動き情報を取得することや, ポーズの変化, 照明条件, 話者の外観などによる騒音に抵抗できることに大きく依存する。 そこで本研究では,特徴と音声コンテンツとの関係を高めるために,局所特徴レベルとグローバルシーケンスレベルの両方の相互情報制約を導入することを提案する。 一方,局所的相互情報最大化制約(lmim)を課すことで,各時間ステップで生成した特徴を音声コンテンツとの強い関係性を持たせるために制約し,「spend」や「spending」といった発音に類似した単語間の細かな唇運動や細粒度の違いをモデルで発見する能力の向上に繋がる。 一方,グローバルシーケンスのレベル(GMIM)における相互情報最大化制約を導入し,音声内容に関連するキーフレームの識別により多くの注意を払うことができるようにし,発話過程に現れる様々なノイズを低減させる。 これら2つの利点を組み合わせることで,本手法は効果的な唇読解のための識別性と堅牢性の両方を期待できる。 この方法を検証するため,2つの大規模ベンチマークで評価を行った。 我々は,LMIMとGMIMのベースラインとの比較,学習表現の可視化など,いくつかの側面について詳細な分析と比較を行う。 その結果,提案手法の有効性を実証するだけでなく,両ベンチマークにおける最新性能を報告した。

Lip reading has received an increasing research interest in recent years due to the rapid development of deep learning and its widespread potential applications. One key point to obtain good performance for the lip reading task depends heavily on how effective the representation can be to capture the lip movement information and meanwhile to resist the noises resulted from the change of pose, lighting conditions, speaker's appearance and so on. Towards this target, we propose to introduce the mutual information constraints on both the local feature's level and the global sequence's level to enhance the relations of the features with the speech content. On the one hand, we constraint the features generated at each time step to enable them carry a strong relation with the speech content by imposing the local mutual information maximization constraint (LMIM), leading to improvements over the model's ability to discover fine-grained lip movements and the fine-grained differences among words with similar pronunciation, such as ``spend'' and ``spending''. On the other hand, we introduce the mutual information maximization constraint on the global sequence's level (GMIM), to make the model be able to pay more attention to discriminate key frames related with the speech content, and less to various noises appeared in the speaking process. By combining these two advantages together, the proposed method is expected to be both discriminative and robust for effective lip reading. To verify this method, we evaluate on two large-scale benchmark. We perform a detailed analysis and comparison on several aspects, including the comparison of the LMIM and GMIM with the baseline, the visualization of the learned representation and so on. The results not only prove the effectiveness of the proposed method but also report new state-of-the-art performance on both the two benchmarks.
翻訳日:2022-12-24 01:59:40 公開日:2020-03-13
# Semantic Consistencyを用いた自己教師付きシングルビュー3次元再構成

Self-supervised Single-view 3D Reconstruction via Semantic Consistency ( http://arxiv.org/abs/2003.06473v1 )

ライセンス: Link先を確認
Xueting Li, Sifei Liu, Kihwan Kim, Shalini De Mello, Varun Jampani, Ming-Hsuan Yang, Jan Kautz(参考訳) 対象物体の3次元メッシュ形状, テクスチャ, カメラポーズを2次元画像とシルエットのコレクションで予測する, 自己監督型, 単視点3次元再構成モデルについて学習する。 提案手法は,3次元の監督や手作業によるキーポイント,オブジェクトのマルチビュー画像,あるいは以前の3dテンプレートを必要としない。 私たちの仕事の重要な洞察は、オブジェクトは変形可能な部品の集合として表現でき、各部分は、同じカテゴリの異なるインスタンス(例えば、鳥の翼と車の車輪)で意味的に一貫性があるということです。 そこで,カテゴリ固有の画像集合の自己教師付き部分分割を利用して,再構成メッシュと元の画像とのセマンティック一貫性を効果的に実現する。 これにより、物体の形状とカメラのポーズの合同予測とテクスチャの曖昧さが著しく減少する。 私たちの知る限りでは、カテゴリ固有のテンプレートメッシュやセマンティックキーポイントを使わずに、シングルビューレコンストラクション問題を最初に解決しようと試みました。 したがって,馬,ペンギンなどのラベルを使わずに,様々な対象カテゴリに容易に一般化することができる。 変形性オブジェクトと剛性オブジェクトの様々なカテゴリに関する実験を通して、我々の非教師なしメソッドは、既存のカテゴリ固有の再構築方法よりも、相互に制御可能であることを示す。

We learn a self-supervised, single-view 3D reconstruction model that predicts the 3D mesh shape, texture and camera pose of a target object with a collection of 2D images and silhouettes. The proposed method does not necessitate 3D supervision, manually annotated keypoints, multi-view images of an object or a prior 3D template. The key insight of our work is that objects can be represented as a collection of deformable parts, and each part is semantically coherent across different instances of the same category (e.g., wings on birds and wheels on cars). Therefore, by leveraging self-supervisedly learned part segmentation of a large collection of category-specific images, we can effectively enforce semantic consistency between the reconstructed meshes and the original images. This significantly reduces ambiguities during joint prediction of shape and camera pose of an object, along with texture. To the best of our knowledge, we are the first to try and solve the single-view reconstruction problem without a category-specific template mesh or semantic keypoints. Thus our model can easily generalize to various object categories without such labels, e.g., horses, penguins, etc. Through a variety of experiments on several categories of deformable and rigid objects, we demonstrate that our unsupervised method performs comparably if not better than existing category-specific reconstruction methods learned with supervision.
翻訳日:2022-12-24 01:58:23 公開日:2020-03-13
# ドメイン一般化のための説明可能な深い分類モデル

Explainable Deep Classification Models for Domain Generalization ( http://arxiv.org/abs/2003.06498v1 )

ライセンス: Link先を確認
Andrea Zunino, Sarah Adel Bargal, Riccardo Volpi, Mehrnoosh Sameki, Jianming Zhang, Stan Sclaroff, Vittorio Murino, Kate Saenko(参考訳) 従来、aiモデルはより低い精度で説明可能性を切り離すと考えられている。 我々は、オブジェクト分類のためのより説明可能なAIシステムに繋がるだけでなく、その結果、知覚可能な精度の劣化に苦しむ訓練戦略を開発する。 説明は、深い分類ネットワークが決定を下す視覚的証拠の領域として定義される。 これは、各ピクセルがネットワークの決定にどれだけ貢献したかを示す、サリエンシマップの形式で表現される。 トレーニング戦略は周期的な正当性に基づくフィードバックを強制し、モデルが地中真実と直接対応する画像領域に集中するように促す。 自動測定と人間の判断を用いて説明可能性の定量化を行う。 本稿では,モデル記述をドメイン固有情報から分離する手段として用いる異なる領域間の視覚・視覚ギャップを橋渡しする手段として,説明可能性を提案する。 これにより、元のドメインの性能を損なうことなく、新しいドメインへの一般化が向上することを示す。

Conventionally, AI models are thought to trade off explainability for lower accuracy. We develop a training strategy that not only leads to a more explainable AI system for object classification, but as a consequence, suffers no perceptible accuracy degradation. Explanations are defined as regions of visual evidence upon which a deep classification network makes a decision. This is represented in the form of a saliency map conveying how much each pixel contributed to the network's decision. Our training strategy enforces a periodic saliency-based feedback to encourage the model to focus on the image regions that directly correspond to the ground-truth object. We quantify explainability using an automated metric, and using human judgement. We propose explainability as a means for bridging the visual-semantic gap between different domains where model explanations are used as a means of disentagling domain specific information from otherwise relevant features. We demonstrate that this leads to improved generalization to new domains without hindering performance on the original domain.
翻訳日:2022-12-24 01:57:59 公開日:2020-03-13
# ICCV 2019 Keypoint Detection Challenge Track Technical Report: Distribution-Aware Coordinate Representation for Human Pose Estimation

Joint COCO and Mapillary Workshop at ICCV 2019 Keypoint Detection Challenge Track Technical Report: Distribution-Aware Coordinate Representation for Human Pose Estimation ( http://arxiv.org/abs/2003.07232v1 )

ライセンス: Link先を確認
Hanbin Dai, Liangbo Zhou, Feng Zhang, Zhengyu Zhang, Hong Hu, Xiatian Zhu, Mao Ye(参考訳) 本稿では,人間のポーズ推定における座標表現に着目した。 標準的な選択であるが、ヒートマップに基づく表現は体系的に研究されていない。 座標デコーディング(すなわち予測熱マップを座標に変換する)のプロセスは、人間のポーズ推定性能にとって驚くほど重要であり、それにもかかわらずこれまで認識されていなかった。 検出された重要度を考慮して、標準座標復号法の設計限界をさらに探究し、原理的分布認識復号法を提案する。 また,不偏モデル学習のための正確なヒートマップ分布を生成することにより,標準座標符号化プロセス(すなわち地対地座標をヒートマップに変換する)を改善する。 それらを組み合わせて,キーポイント(DARK)法のための新しい分布認識座標表現を定式化する。 DARKはモデルに依存しないプラグインとして、さまざまな最先端の人間のポーズ推定モデルの性能を大幅に向上させる。 実験の結果,DARKはCOCOキーポイント検出の課題において,新しい座標表現概念の有用性と有効性を検証した。 詳細を含むプロジェクトページはhttps://ilovepose.github.io/coco。

In this paper, we focus on the coordinate representation in human pose estimation. While being the standard choice, heatmap based representation has not been systematically investigated. We found that the process of coordinate decoding (i.e. transforming the predicted heatmaps to the coordinates) is surprisingly significant for human pose estimation performance, which nevertheless was not recognised before. In light of the discovered importance, we further probe the design limitations of the standard coordinate decoding method and propose a principled distribution-aware decoding method. Meanwhile, we improve the standard coordinate encoding process (i.e. transforming ground-truth coordinates to heatmaps) by generating accurate heatmap distributions for unbiased model training. Taking them together, we formulate a novel Distribution-Aware coordinate Representation for Keypoint (DARK) method. Serving as a model-agnostic plug-in, DARK significantly improves the performance of a variety of state-of-the-art human pose estimation models. Extensive experiments show that DARK yields the best results on COCO keypoint detection challenge, validating the usefulness and effectiveness of our novel coordinate representation idea. The project page containing more details is at https://ilovepose.github.io/coco
翻訳日:2022-12-24 01:57:44 公開日:2020-03-13
# 注意に基づくニューラルネットワークを用いた文レベルの翻訳品質推定

Sentence Level Human Translation Quality Estimation with Attention-based Neural Networks ( http://arxiv.org/abs/2003.06381v1 )

ライセンス: Link先を確認
Yu Yuan, Serge Sharoff(参考訳) 本稿では,人間の翻訳品質の自動推定にDeep Learning法を適用した。 自動推定は翻訳指導、試験、品質管理に有用なフィードバックを提供する。 この問題を解決する従来の方法は、手作業による特徴と外部知識に依存している。 本稿では,文対のどの部分が品質評価に最も関連があるかを検出するクロスアテンション機構を組み込んだ,機能工学のないエンドツーエンドニューラルモデルを提案する。 翻訳品質の異なる側面を測定するための微粒なスコアの予測に関するもう一つの貢献点である。 大規模な人間の注釈付きデータセットの実証結果は、ニューラルモデルが特徴に基づく手法を大幅に上回っていることを示している。 データセットとツールは利用可能である。

This paper explores the use of Deep Learning methods for automatic estimation of quality of human translations. Automatic estimation can provide useful feedback for translation teaching, examination and quality control. Conventional methods for solving this task rely on manually engineered features and external knowledge. This paper presents an end-to-end neural model without feature engineering, incorporating a cross attention mechanism to detect which parts in sentence pairs are most relevant for assessing quality. Another contribution concerns of prediction of fine-grained scores for measuring different aspects of translation quality. Empirical results on a large human annotated dataset show that the neural model outperforms feature-based methods significantly. The dataset and the tools are available.
翻訳日:2022-12-24 01:51:21 公開日:2020-03-13
# コーパスを知りなさい! webコーパスのデジタルキュレーションのためのロバストな手法

Know thy corpus! Robust methods for digital curation of Web corpora ( http://arxiv.org/abs/2003.06389v1 )

ライセンス: Link先を確認
Serge Sharoff(参考訳) 本稿では,webコーパスのコンポジションやレキシコンなどのパラメータのロバストな推定を実現するために,webコーパスのデジタルキュレーションのための新しい枠組みを提案する。 近年,大規模コーパス上で事前学習した言語モデルは,多くのNLPタスクにおいて明確な勝者として出現しているが,その成功に繋がるコーパスの適切な分析は行われていない。 本稿では,与えられたコーパスのコアレキシコンの確立を支援するロバストな周波数推定手法と,非教師付きトピックモデルと教師付きジャンル分類によるコーパス構成の推定手法を提案する。 いくつかの Web 由来コーパスに適用したデジタルキュレーション研究の結果は,その大きな違いを示している。 まず、各コーパスから得られるコアレキシコンに影響を与える異なる周波数バーストに関する。 第2に、それが持つテキストの種類に関するものです。 例えば、OpenWebText は ukWac や Wikipedia と比較して、トピック的なニュースや政治的議論がかなり多い。 ツールと分析結果がリリースされた。

This paper proposes a novel framework for digital curation of Web corpora in order to provide robust estimation of their parameters, such as their composition and the lexicon. In recent years language models pre-trained on large corpora emerged as clear winners in numerous NLP tasks, but no proper analysis of the corpora which led to their success has been conducted. The paper presents a procedure for robust frequency estimation, which helps in establishing the core lexicon for a given corpus, as well as a procedure for estimating the corpus composition via unsupervised topic models and via supervised genre classification of Web pages. The results of the digital curation study applied to several Web-derived corpora demonstrate their considerable differences. First, this concerns different frequency bursts which impact the core lexicon obtained from each corpus. Second, this concerns the kinds of texts they contain. For example, OpenWebText contains considerably more topical news and political argumentation in comparison to ukWac or Wikipedia. The tools and the results of analysis have been released.
翻訳日:2022-12-24 01:51:12 公開日:2020-03-13
# 統一した枠組みによる漢詩の主要な種類の生成

Generating Major Types of Chinese Classical Poetry in a Uniformed Framework ( http://arxiv.org/abs/2003.11528v1 )

ライセンス: Link先を確認
Jinyi Hu, Maosong Sun(参考訳) 詩生成は、テキスト生成の分野で興味深い研究トピックである。 中国で最も貴重な文学・文化遺産の1つとして、中国の古典詩は非常に親しみやすく、代々中国人に愛されている。 その言語構造には形式、音、意味など様々な特徴があり、テキスト生成のための理想的なテストタスクとみなされている。 本稿では,主要な漢詩を生成できるGPT-2に基づく統一的枠組みを提案する。 詳細なフォーム情報を統合して,すべての種類のトレーニングサンプルを統一的に定式化するための形式を定義し,gpt-2 で簡易な形式拘束重み付け法を提案し,生成した詩の形式への制御を強化し,長身の形式を特に強調する。 予備実験の結果,本モデルでは,提案手法の有効性を検証し,形式・内容ともに高品質な中国古典詩を生成できることがわかった。 このモデルは清華大学(guo et al., 2019)が開発した最も影響力のある漢詩生成システムであるjiugeに取り入れられている。

Poetry generation is an interesting research topic in the field of text generation. As one of the most valuable literary and cultural heritages of China, Chinese classical poetry is very familiar and loved by Chinese people from generation to generation. It has many particular characteristics in its language structure, ranging from form, sound to meaning, thus is regarded as an ideal testing task for text generation. In this paper, we propose a GPT-2 based uniformed framework for generating major types of Chinese classical poems. We define a unified format for formulating all types of training samples by integrating detailed form information, then present a simple form-stressed weighting method in GPT-2 to strengthen the control to the form of the generated poems, with special emphasis on those forms with longer body length. Preliminary experimental results show this enhanced model can generate Chinese classical poems of major types with high quality in both form and content, validating the effectiveness of the proposed strategy. The model has been incorporated into Jiuge, the most influential Chinese classical poetry generation system developed by Tsinghua University (Guo et al., 2019).
翻訳日:2022-12-24 01:50:57 公開日:2020-03-13
# Masakhane - アフリカの機械翻訳

Masakhane -- Machine Translation For Africa ( http://arxiv.org/abs/2003.11529v1 )

ライセンス: Link先を確認
Iroro Orife, Julia Kreutzer, Blessing Sibanda, Daniel Whitenack, Kathleen Siminyu, Laura Martinus, Jamiil Toure Ali, Jade Abbott, Vukosi Marivate, Salomon Kabongo, Musie Meressa, Espoir Murhabazi, Orevaoghene Ahia, Elan van Biljon, Arshath Ramkilowan, Adewale Akinfaderin, Alp \"Oktem, Wole Akin, Ghollah Kioko, Kevin Degila, Herman Kamper, Bonaventure Dossou, Chris Emezue, Kelechi Ogueji, Abdallah Bashir(参考訳) アフリカには2000以上の言語がある。 それにもかかわらず、アフリカの言語は自然言語処理(nlp)において利用可能な資源や出版物のごく一部を占める。 政府や資金からの注目の欠如、発見可能性の欠如、コミュニティの欠如、言語の複雑さの多さ、論文の再現の困難さ、テクニックを比較するためのベンチマークの欠如などだ。 特定された問題に対処するために、アフリカ言語のための機械翻訳のためのオープンソース、大陸規模の分散オンライン研究活動であるMASAKHANEが設立された。 本稿では,アフリカのNLPに影響を及ぼす問題に対処する上で,コミュニティ構築の方法論とアフリカ大陸の研究の促進について論じるとともに,コミュニティの成功を概説する。

Africa has over 2000 languages. Despite this, African languages account for a small portion of available resources and publications in Natural Language Processing (NLP). This is due to multiple factors, including: a lack of focus from government and funding, discoverability, a lack of community, sheer language complexity, difficulty in reproducing papers and no benchmarks to compare techniques. To begin to address the identified problems, MASAKHANE, an open-source, continent-wide, distributed, online research effort for machine translation for African languages, was founded. In this paper, we discuss our methodology for building the community and spurring research from the African continent, as well as outline the success of the community in terms of addressing the identified problems affecting African NLP.
翻訳日:2022-12-24 01:50:40 公開日:2020-03-13
# 広帯域センサと確率推論を用いたスマートホームにおけるオンラインゲスト検出

Online Guest Detection in a Smart Home using Pervasive Sensors and Probabilistic Reasoning ( http://arxiv.org/abs/2003.06347v1 )

ライセンス: Link先を確認
Jennifer Renoux, Uwe K\"ockemann, Amy Loutfi(参考訳) 分散型センサネットワークを備えたスマートホーム環境は、健康、緊急検知、日々のルーチン管理に関連するサービスを提供することで、人々を助けることができる。 これらのシステムのバックボーンは、しばしば、自宅のユーザが行うアクティビティを追跡し、検出するシステムの能力に依存している。 スマートホームにおける活動認識分野の継続的な進歩にもかかわらず、多くのシステムは、任意の時点における家内の居住者の数が常に知られているという強い前提を定めている。 スマートホームにおける各ステップの人数を推定することは、今日でも課題である。 実際、コンピュータビジョン技術に基づくほとんどの(混雑した)カウントソリューションとは異なり、スマートホームで考慮されるセンサーは、非常に単純であり、個別に状況の概要を提供するものではない。 したがって、収集したデータは有用な情報を推測するために融合する必要がある。 本稿では,この課題に対処し,各時間ステップにおける環境中の人物数を推定可能な確率論的手法を提案する。 まず、この時点でセンサネットワークのトポロジーとセンサ活性化パターンに基づいて、制約満足度問題解決器を用いて、環境に存在する人の数の推定を行う。 そして、隠れマルコフモデルは、センサに関する不確実性を考慮してこの推定を洗練する。 シミュレーションデータと実データの両方を用いて,異なるサイズと構成の2つのスマートホームで検証および検証を行い,住民数を正確に推定する能力を実証した。

Smart home environments equipped with distributed sensor networks are capable of helping people by providing services related to health, emergency detection or daily routine management. A backbone to these systems relies often on the system's ability to track and detect activities performed by the users in their home. Despite the continuous progress in the area of activity recognition in smart homes, many systems make a strong underlying assumption that the number of occupants in the home at any given moment of time is always known. Estimating the number of persons in a Smart Home at each time step remains a challenge nowadays. Indeed, unlike most (crowd) counting solution which are based on computer vision techniques, the sensors considered in a Smart Home are often very simple and do not offer individually a good overview of the situation. The data gathered needs therefore to be fused in order to infer useful information. This paper aims at addressing this challenge and presents a probabilistic approach able to estimate the number of persons in the environment at each time step. This approach works in two steps: first, an estimate of the number of persons present in the environment is done using a Constraint Satisfaction Problem solver, based on the topology of the sensor network and the sensor activation pattern at this time point. Then, a Hidden Markov Model refines this estimate by considering the uncertainty related to the sensors. Using both simulated and real data, our method has been tested and validated on two smart homes of different sizes and configuration and demonstrates the ability to accurately estimate the number of inhabitants.
翻訳日:2022-12-24 01:50:25 公開日:2020-03-13
# 効率的な映像オブジェクトセグメンテーションのためのデュアルテンポラリメモリネットワーク

Dual Temporal Memory Network for Efficient Video Object Segmentation ( http://arxiv.org/abs/2003.06125v1 )

ライセンス: Link先を確認
Kaihua Zhang, Long Wang, Dong Liu, Bo Liu, Qingshan Liu and Zhu Li(参考訳) ビデオオブジェクトセグメンテーション(VOS)は通常、半教師付き設定で定式化される。 第1フレームの地対面セグメンテーションマスクを考えると、vosのタスクは、ビデオの残りフレームの1つまたは複数の興味のあるオブジェクトをピクセルレベルで追跡し、セグメンテーションすることである。 VOSの基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。 本稿では、VOSにおける時間的モデリングに対処するため、現在のフレームに先行する短・長期のビデオシーケンス情報を時間的記憶として格納するエンドツーエンドネットワークを提案する。 本ネットワークは,短期記憶サブネットワークと長期記憶サブネットワークの2つの時間的サブネットワークで構成される。 短期記憶サブネットワークは、グラフベースの学習フレームワークを介して、ビデオ内の隣接フレーム間の局所領域間のきめ細かい空間-時間的相互作用をモデル化する。 長期記憶サブネットワークはS-GRU(Simplified-Gated Recurrent Unit)を介してオブジェクトの長距離進化をモデル化し、セグメンテーションはオクルージョンやドリフトエラーに対して堅牢である。 提案手法は, DAVIS 2016, DAVIS 2017, Youtube-VOSを含む, 頻繁に使用される3つのVOSデータセットに対して, 速度と精度の両面で, 良好な競合性能が得られることを示す。

Video Object Segmentation (VOS) is typically formulated in a semi-supervised setting. Given the ground-truth segmentation mask on the first frame, the task of VOS is to track and segment the single or multiple objects of interests in the rest frames of the video at the pixel level. One of the fundamental challenges in VOS is how to make the most use of the temporal information to boost the performance. We present an end-to-end network which stores short- and long-term video sequence information preceding the current frame as the temporal memories to address the temporal modeling in VOS. Our network consists of two temporal sub-networks including a short-term memory sub-network and a long-term memory sub-network. The short-term memory sub-network models the fine-grained spatial-temporal interactions between local regions across neighboring frames in video via a graph-based learning framework, which can well preserve the visual consistency of local regions over time. The long-term memory sub-network models the long-range evolution of object via a Simplified-Gated Recurrent Unit (S-GRU), making the segmentation be robust against occlusions and drift errors. In our experiments, we show that our proposed method achieves a favorable and competitive performance on three frequently-used VOS datasets, including DAVIS 2016, DAVIS 2017 and Youtube-VOS in terms of both speed and accuracy.
翻訳日:2022-12-24 01:49:45 公開日:2020-03-13
# ビデオ超解像における空間と時間とのトレードオフはあるか?

Is There Tradeoff between Spatial and Temporal in Video Super-Resolution? ( http://arxiv.org/abs/2003.06141v1 )

ライセンス: Link先を確認
Haochen Zhang and Dong Liu and Zhiwei Xiong(参考訳) 近年のディープラーニングの進歩は、畳み込みニューラルネットワーク(CNN)に基づく画像とビデオの超解像(SR)手法に大きな成功を収めている。 ビデオSRでは、低解像度(LR)ビデオフレーム間の時間的相関を利用して、あるいは複数のLRフレームでフレームを超解する高度なアルゴリズムが提案されている。 これらの手法は、PSNRなどのフレーム単位での画質を計測する超解像フレームのより高い品質を追求する。 しかし、フレームごとの品質はフレーム間の一貫性を明らかにしないかもしれない。 アルゴリズムが各フレームに独立して適用された場合(従来の手法ではそうであった)、このアルゴリズムは時間的不整合を引き起こし、フリッカリングとして観測することができる。 空間的品質と時間的品質と呼ばれるフレームワイドの忠実度とフレーム間の一貫性の両方を改善することは自然な要件である。 空間的品質に最適化された手法は時間的品質にも最適化されているのか? 2つの品質指標を共同で最適化できますか?

Recent advances of deep learning lead to great success of image and video super-resolution (SR) methods that are based on convolutional neural networks (CNN). For video SR, advanced algorithms have been proposed to exploit the temporal correlation between low-resolution (LR) video frames, and/or to super-resolve a frame with multiple LR frames. These methods pursue higher quality of super-resolved frames, where the quality is usually measured frame by frame in e.g. PSNR. However, frame-wise quality may not reveal the consistency between frames. If an algorithm is applied to each frame independently (which is the case of most previous methods), the algorithm may cause temporal inconsistency, which can be observed as flickering. It is a natural requirement to improve both frame-wise fidelity and between-frame consistency, which are termed spatial quality and temporal quality, respectively. Then we may ask, is a method optimized for spatial quality also optimized for temporal quality? Can we optimize the two quality metrics jointly?
翻訳日:2022-12-24 01:49:18 公開日:2020-03-13
# 注意グラフクラスタリングを用いた共分散検出のための適応グラフ畳み込みネットワーク

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection ( http://arxiv.org/abs/2003.06167v1 )

ライセンス: Link先を確認
Kaihua Zhang, Tengpeng Li, Shiwen Shen, Bo Liu, Jin Chen, Qingshan Liu(参考訳) co-saliency detectionは、関連する画像のグループから、共通して有意義な前景を見つけることを目的としている。 本研究では,注目グラフクラスタリング(GCAGC)を用いた適応型グラフ畳み込みネットワークを提案する。 3つの主要な貢献が行われ、実験的に実質的なメリットが示されている。 まず,画像内および画像間対応を特徴付ける情報キューを抽出するグラフ畳み込みネットワーク設計を提案する。 第2に,注意グラフクラスタリングアルゴリズムを開発し,教師なしの方法で,すべての有望なフォアグラウンドオブジェクトから共通オブジェクトを識別する。 第3に,エンコーダ・デコーダ構造を持つ統一フレームワークを提案し,グラフ畳み込みネットワーク,アテンショングラフクラスタ,およびコ・サリエンス検出デコーダをエンドツーエンドにトレーニングし,最適化する。 提案手法を3つのコサリシ検出ベンチマークデータセット(iCoseg,Cosal2015,COCO-SEG)で評価した。 GCAGC法は,その大部分に対して,最先端技術よりも大幅に改善されている。

Co-saliency detection aims to discover the common and salient foregrounds from a group of relevant images. For this task, we present a novel adaptive graph convolutional network with attention graph clustering (GCAGC). Three major contributions have been made, and are experimentally shown to have substantial practical merits. First, we propose a graph convolutional network design to extract information cues to characterize the intra- and interimage correspondence. Second, we develop an attention graph clustering algorithm to discriminate the common objects from all the salient foreground objects in an unsupervised fashion. Third, we present a unified framework with encoder-decoder structure to jointly train and optimize the graph convolutional network, attention graph cluster, and co-saliency detection decoder in an end-to-end manner. We evaluate our proposed GCAGC method on three cosaliency detection benchmark datasets (iCoseg, Cosal2015 and COCO-SEG). Our GCAGC method obtains significant improvements over the state-of-the-arts on most of them.
翻訳日:2022-12-24 01:48:38 公開日:2020-03-13
# BigGANによるヒト脳活動からの自然像のベイズ的再構成

BigGAN-based Bayesian reconstruction of natural images from human brain activity ( http://arxiv.org/abs/2003.06105v1 )

ライセンス: Link先を確認
Kai Qiao, Jian Chen, Linyuan Wang, Chi Zhang, Li Tong, Bin Yan(参考訳) 視覚デコード領域では、機能的磁気共鳴画像(fmri)で観察された対応するヒト脳活動が提示された画像の視覚的再構成が困難である。 視覚再構成はfMRIデータに基づく条件付き画像生成であり,近年,自然画像生成のための生成逆ネットワーク(GAN)を導入している。 GAN法は大幅に改善されているが, 少数のfMRIデータサンプルとGANトレーニングの不安定性のため, 再建の忠実さと自然さは未だに満足できない。 本研究では,fMRIデータからカテゴリをデコードする分類器と,特定のカテゴリの自然画像を生成する事前学習条件生成器と,生成された画像を評価するための符号化モデルと評価器のセットを含む,GAN-BVRM(GAN-BVRM)を提案する。 GAN-BVRMは、訓練済みのBigGANのジェネレータを使用して、自然画像の塊を生成し、エンコーディングモデルを介して、対応する脳活動と最もよく一致する画像を選択する。 この過程において、復元の意味的および詳細な内容は、それぞれデコードされたカテゴリとエンコードモデルによって制御される。 GAN-BVRMはベイズ的手法を用いて、現在のGAN法と自然性と忠実性の矛盾を回避し、GANの利点を向上させることができる。 実験の結果,GAN-BVRMは像の忠実度と自然度,すなわち画像刺激に類似した再現性を向上させることが明らかとなった。

In the visual decoding domain, visually reconstructing presented images given the corresponding human brain activity monitored by functional magnetic resonance imaging (fMRI) is difficult, especially when reconstructing viewed natural images. Visual reconstruction is a conditional image generation on fMRI data and thus generative adversarial network (GAN) for natural image generation is recently introduced for this task. Although GAN-based methods have greatly improved, the fidelity and naturalness of reconstruction are still unsatisfactory due to the small number of fMRI data samples and the instability of GAN training. In this study, we proposed a new GAN-based Bayesian visual reconstruction method (GAN-BVRM) that includes a classifier to decode categories from fMRI data, a pre-trained conditional generator to generate natural images of specified categories, and a set of encoding models and evaluator to evaluate generated images. GAN-BVRM employs the pre-trained generator of the prevailing BigGAN to generate masses of natural images, and selects the images that best matches with the corresponding brain activity through the encoding models as the reconstruction of the image stimuli. In this process, the semantic and detailed contents of reconstruction are controlled by decoded categories and encoding models, respectively. GAN-BVRM used the Bayesian manner to avoid contradiction between naturalness and fidelity from current GAN-based methods and thus can improve the advantages of GAN. Experimental results revealed that GAN-BVRM improves the fidelity and naturalness, that is, the reconstruction is natural and similar to the presented image stimuli.
翻訳日:2022-12-24 01:42:23 公開日:2020-03-13
# 視線追跡データの融合検出のためのニューラルネットワーク

A Neural Architecture for Detecting Confusion in Eye-tracking Data ( http://arxiv.org/abs/2003.06434v1 )

ライセンス: Link先を確認
Shane Sims and Cristina Conati(参考訳) 様々な領域における深層学習の成功にともなう,眼球追跡データにおけるユーザの混乱を検出するための新しい手法の応用について検討した。 我々は、RNNとCNNのサブモデルを並列に使用して、データの時間的・空間的側面を活用するアーキテクチャを提案する。 valuechartビジュアライゼーションツールとユーザインタラクションのデータセットを用いた実験では、このモデルはランダムフォレストに基づく既存のモデルよりも優れており、22%の感度と特異性が向上した。

Encouraged by the success of deep learning in a variety of domains, we investigate a novel application of its methods on the effectiveness of detecting user confusion in eye-tracking data. We introduce an architecture that uses RNN and CNN sub-models in parallel to take advantage of the temporal and visuospatial aspects of our data. Experiments with a dataset of user interactions with the ValueChart visualization tool show that our model outperforms an existing model based on Random Forests resulting in a 22% improvement in combined sensitivity & specificity.
翻訳日:2022-12-24 01:41:22 公開日:2020-03-13
# GeoDA: ブラックボックス攻撃のための幾何学的枠組み

GeoDA: a geometric framework for black-box adversarial attacks ( http://arxiv.org/abs/2003.06468v1 )

ライセンス: Link先を確認
Ali Rahmati, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard, and Huaiyu Dai(参考訳) 敵対的な例は、画像分類器を騙す慎重な摂動画像として知られている。 我々は,最も困難なブラックボックス設定の1つにおいて,敵が少数のクエリしか生成できず,それぞれが分類器の最上位の$$$ラベルを返すような,敵のサンプルを生成する幾何学的フレームワークを提案する。 我々の枠組みは、深層ネットワークの決定境界が通常、データサンプルの近傍に小さい平均曲率を持つという観測に基づいている。 本稿では,検索効率のよいブラックボックス摂動を$p \ge 1$の$$\ell_p$ノルムで生成する効率的な反復アルゴリズムを提案する。 さらに、p=2$の場合、理論上、決定境界の曲率が有界であるとき、このアルゴリズムが実際に最小の$\ell_2$-摂動に収束することを示す。 また,アルゴリズムの反復によるクエリの最適分布を求める。 最後に, 実験結果から, 提案するブラックボックス攻撃アルゴリズムは, クエリの少ない小さな摂動を生成するため, 最先端のアルゴリズムよりも性能がよいことを確認した。

Adversarial examples are known as carefully perturbed images fooling image classifiers. We propose a geometric framework to generate adversarial examples in one of the most challenging black-box settings where the adversary can only generate a small number of queries, each of them returning the top-$1$ label of the classifier. Our framework is based on the observation that the decision boundary of deep networks usually has a small mean curvature in the vicinity of data samples. We propose an effective iterative algorithm to generate query-efficient black-box perturbations with small $\ell_p$ norms for $p \ge 1$, which is confirmed via experimental evaluations on state-of-the-art natural image classifiers. Moreover, for $p=2$, we theoretically show that our algorithm actually converges to the minimal $\ell_2$-perturbation when the curvature of the decision boundary is bounded. We also obtain the optimal distribution of the queries over the iterations of the algorithm. Finally, experimental results confirm that our principled black-box attack algorithm performs better than state-of-the-art algorithms as it generates smaller perturbations with a reduced number of queries.
翻訳日:2022-12-24 01:41:13 公開日:2020-03-13
# MixPoet: 可制御混合空間の学習による多言語詩生成

MixPoet: Diverse Poetry Generation via Learning Controllable Mixed Latent Space ( http://arxiv.org/abs/2003.06094v1 )

ライセンス: Link先を確認
Xiaoyuan Yi, Ruoyu Li, Cheng Yang, Wenhao Li, Maosong Sun(参考訳) コンピュータの創造性に欠かせないステップとして,近年,自動詩生成が注目されている。 最近のニューラルモデルは詩の質の基準において顕著な進歩を遂げているが、生成した詩はいまだに多様性の乏しい問題に苦しんでいる。 関連する文献研究では、生活経験や歴史背景などさまざまな要素が詩人の作曲スタイルに影響を与え、人文詩の多様性が著しく高まることが示されている。 そこで我々はmixpoetを提案する。mixpoetは多様なスタイルを作り多様性を促進するために複数の要素を吸収する新しいモデルだ。 半教師付き変分オートエンコーダに基づいて、我々のモデルは潜在空間をいくつかの部分空間に切り離し、それぞれが敵の訓練によって1つの影響因子に条件付けされる。 このようにして、モデルは制御可能な潜在変数を学習し、一般化された因子関連プロパティをキャプチャし混合する。 異なる要素の混合は様々なスタイルをもたらし、それによって生成された詩を互いに区別する。 中国詩の実験結果は、MixPoetが3つの最先端モデルに対して多様性と品質の両方を改善していることを示している。

As an essential step towards computer creativity, automatic poetry generation has gained increasing attention these years. Though recent neural models make prominent progress in some criteria of poetry quality, generated poems still suffer from the problem of poor diversity. Related literature researches show that different factors, such as life experience, historical background, etc., would influence composition styles of poets, which considerably contributes to the high diversity of human-authored poetry. Inspired by this, we propose MixPoet, a novel model that absorbs multiple factors to create various styles and promote diversity. Based on a semi-supervised variational autoencoder, our model disentangles the latent space into some subspaces, with each conditioned on one influence factor by adversarial training. In this way, the model learns a controllable latent variable to capture and mix generalized factor-related properties. Different factor mixtures lead to diverse styles and hence further differentiate generated poems from each other. Experiment results on Chinese poetry demonstrate that MixPoet improves both diversity and quality against three state-of-the-art models.
翻訳日:2022-12-24 01:40:18 公開日:2020-03-13
# WAC:オンライン乱用検知のためのウィキペディア会話コーパス

WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection ( http://arxiv.org/abs/2003.06190v1 )

ライセンス: Link先を確認
No\'e Cecillon (LIA), Vincent Labatut (LIA), Richard Dufour (LIA), Georges Linares (LIA)(参考訳) オンラインソーシャルネットワークの普及に伴い、ユーザー生成コンテンツをすべて監視することはますます困難になっている。 インターネット上の不適切な交換コンテンツのモデレーションプロセスの自動化が優先課題となっている。 この目的のためにメソッドが提案されているが、トレーニングと開発に適したデータセットを見つけることは困難である。 この問題は、会話の構造とダイナミックな情報に基づくアプローチに特に当てはまる。 本研究では,ウィキペディアコメントコーパスをベースとした,さまざまなタイプのコメントレベルの乱用アノテーションを用いた独自のフレームワークを提案する。 主な貢献は会話の再構築であり、既存のコーパスと比較して孤立したメッセージのみに焦点を当てている(会話の文脈から取り除く)。 380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。 また、このコーパスに加えて、コンテンツ乱用検出問題に関する科学的研究を刺激し、適切に比較し、結果複製の繰り返し問題を回避するための完全なベンチマークプラットフォームを提案する。 最後に,データセットに2つの分類手法を適用し,その可能性を示す。

With the spread of online social networks, it is more and more difficult to monitor all the user-generated content. Automating the moderation process of the inappropriate exchange content on Internet has thus become a priority task. Methods have been proposed for this purpose, but it can be challenging to find a suitable dataset to train and develop them. This issue is especially true for approaches based on information derived from the structure and the dynamic of the conversation. In this work, we propose an original framework, based on the Wikipedia Comment corpus, with comment-level abuse annotations of different types. The major contribution concerns the reconstruction of conversations, by comparison to existing corpora, which focus only on isolated messages (i.e. taken out of their conversational context). This large corpus of more than 380k annotated messages opens perspectives for online abuse detection and especially for context-based approaches. We also propose, in addition to this corpus, a complete benchmarking platform to stimulate and fairly compare scientific works around the problem of content abuse detection, trying to avoid the recurring problem of result replication. Finally, we apply two classification methods to our dataset to demonstrate its potential.
翻訳日:2022-12-24 01:39:59 公開日:2020-03-13
# eコマースにおけるレビューガイドによる回答識別

Review-guided Helpful Answer Identification in E-commerce ( http://arxiv.org/abs/2003.06209v1 )

ライセンス: Link先を確認
Wenxuan Zhang, Wai Lam, Yang Deng, Jing Ma(参考訳) 製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。 しかし、そのようなプラットフォーム上でユーザーが提供する回答は、しばしばその品質に大きく異なる。 コミュニティからの有益性投票は、回答の全体的な品質を示すことができるが、しばしば欠落する。 与えられた質問に対する回答の有用性を正確に予測し、有効な答えを特定することが要求されるニーズになりつつある。 回答の有効性は、典型的なQAタスクで調査された話題の関連性に限らず、複数の視点に依存するため、このタスクに対処するには共通の回答選択アルゴリズムが不十分である。 本稿では,qaペア間のインタラクションを考察するだけでなく,レビューに反映された回答と参加者の意見との意見の一貫性も検討し,有用な回答を特定する上でも重要な要素である,レビューガイド付き回答支援予測(rahp)モデルを提案する。 さらに,言語推論問題として意見コヒーレンスを決定する課題に取り組み,特別に設計されたネットワークから得られたテキスト推論知識の伝達における事前学習戦略の活用について検討する。 7つの製品カテゴリにまたがる実世界のデータを用いた大規模な実験により,提案モデルが予測課題において優れた性能を発揮することを示す。

Product-specific community question answering platforms can greatly help address the concerns of potential customers. However, the user-provided answers on such platforms often vary a lot in their qualities. Helpfulness votes from the community can indicate the overall quality of the answer, but they are often missing. Accurately predicting the helpfulness of an answer to a given question and thus identifying helpful answers is becoming a demanding need. Since the helpfulness of an answer depends on multiple perspectives instead of only topical relevance investigated in typical QA tasks, common answer selection algorithms are insufficient for tackling this task. In this paper, we propose the Review-guided Answer Helpfulness Prediction (RAHP) model that not only considers the interactions between QA pairs but also investigates the opinion coherence between the answer and crowds' opinions reflected in the reviews, which is another important factor to identify helpful answers. Moreover, we tackle the task of determining opinion coherence as a language inference problem and explore the utilization of pre-training strategy to transfer the textual inference knowledge obtained from a specifically designed trained network. Extensive experiments conducted on real-world data across seven product categories show that our proposed model achieves superior performance on the prediction task.
翻訳日:2022-12-24 01:39:42 公開日:2020-03-13
# グラフニューラルネットワークによるボットネット検出の自動化

Automating Botnet Detection with Graph Neural Networks ( http://arxiv.org/abs/2003.06344v1 )

ライセンス: Link先を確認
Jiawei Zhou, Zhiying Xu, Alexander M. Rush, Minlan Yu(参考訳) ボットネットは、DDoS攻撃やスパムなど、多くのネットワーク攻撃の主要なソースとなっている。 しかし、従来の検出方法はヒューリスティックに設計された多段検出基準に大きく依存している。 本稿では,最新のディープラーニング技術を用いてボットネット検出のポリシーを自動学習するニューラルネットワーク設計の課題について考察する。 トレーニングデータを生成するために,大規模実ネットワーク上のさまざまな通信パターンをデータセットとしてオーバーレイしたボットネット接続を合成する。 集中型ボットネットの重要な階層構造と分散化されたボットネットの高速混合構造を捉えるため、グラフニューラルネットワーク(GNN)を調整し、これらの構造の性質を検出する。 実験により、GNNは、適切なデータでトレーニングされた場合、従来の非学習手法よりもボットネット構造を捉えることができ、より深いGNNは難しいボットネットトポロジの学習に不可欠であることが示されている。 我々のデータと研究は、ネットワークのセキュリティとグラフ学習のコミュニティの両方に役立つと信じています。

Botnets are now a major source for many network attacks, such as DDoS attacks and spam. However, most traditional detection methods heavily rely on heuristically designed multi-stage detection criteria. In this paper, we consider the neural network design challenges of using modern deep learning techniques to learn policies for botnet detection automatically. To generate training data, we synthesize botnet connections with different underlying communication patterns overlaid on large-scale real networks as datasets. To capture the important hierarchical structure of centralized botnets and the fast-mixing structure for decentralized botnets, we tailor graph neural networks (GNN) to detect the properties of these structures. Experimental results show that GNNs are better able to capture botnet structure than previous non-learning methods when trained with appropriate data, and that deeper GNNs are crucial for learning difficult botnet topologies. We believe our data and studies can be useful for both the network security and graph learning communities.
翻訳日:2022-12-24 01:32:40 公開日:2020-03-13
# ポートフォリオ管理における深層Qネットワークの適用

Application of Deep Q-Network in Portfolio Management ( http://arxiv.org/abs/2003.06365v1 )

ライセンス: Link先を確認
Ziming Gao, Yuan Gao, Yi Hu, Zhengyong Jiang, Jionglong Su(参考訳) 機械学習アルゴリズムとニューラルネットワークは、株式市場の予測、顔認識、人口分析など、多くの分野に広く応用されている。 本稿では,ストックマーケットにおけるポートフォリオ管理のための古典的深層強化学習アルゴリズム,Deep Q-Networkに基づく戦略を提案する。 Q Learningによって最適化されたディープニューラルネットワークの一種である。 DQNを金融市場に適応させるため、我々はまず異なる資産のポートフォリオの重みとして定義される行動空間を識別し、ポートフォリオ管理がディープQネットワークが解決できる問題となるようにします。 次に,畳み込みニューラルネットワークとq-netを組み合わせることで,アルゴリズムの認識能力を向上させる。 実験では、モデルをテストするために5つの低関係の米国株を選んだ。 その結果、DQNベースの戦略は、他の10の伝統的な戦略よりも優れていることが示された。 DQNアルゴリズムの利益は他の戦略の利益よりも30%高い。 さらに、マックス・ドローダウンに関連するシャープ比は、DQNによる政策のリスクが最も低いことを示している。

Machine Learning algorithms and Neural Networks are widely applied to many different areas such as stock market prediction, face recognition and population analysis. This paper will introduce a strategy based on the classic Deep Reinforcement Learning algorithm, Deep Q-Network, for portfolio management in stock market. It is a type of deep neural network which is optimized by Q Learning. To make the DQN adapt to financial market, we first discretize the action space which is defined as the weight of portfolio in different assets so that portfolio management becomes a problem that Deep Q-Network can solve. Next, we combine the Convolutional Neural Network and dueling Q-net to enhance the recognition ability of the algorithm. Experimentally, we chose five lowrelevant American stocks to test the model. The result demonstrates that the DQN based strategy outperforms the ten other traditional strategies. The profit of DQN algorithm is 30% more than the profit of other strategies. Moreover, the Sharpe ratio associated with Max Drawdown demonstrates that the risk of policy made with DQN is the lowest.
翻訳日:2022-12-24 01:32:25 公開日:2020-03-13
# レジリエント機械学習分類器を目指して -ランサムウェア検出を事例として-

Towards a Resilient Machine Learning Classifier -- a Case Study of Ransomware Detection ( http://arxiv.org/abs/2003.06428v1 )

ライセンス: Link先を確認
Chih-Yuan Yang and Ravi Sahita(参考訳) 暗号化による暗号ランサムウェアによるダメージは、逆戻りやデータ損失を引き起こすことが困難である。 本稿では,プログラム動作による暗号を用いたランサムウェア(crypto-ransomware)の早期検出を目的とした機械学習(ml)分類器を開発した。 署名に基づく検出が失敗した場合、動作に基づく検出器が最後の防御線となり、損傷を検出し、封じ込められる。 ランサムウェアとファイル内容エントロピーの入出力アクティビティは,暗号ランサムウェアを検出するユニークな特徴であることがわかった。 ディープラーニング(DL)分類器は、高精度で偽陽性率の低いランサムウェアを検出することができる。 我々は生成したモデルに対して敵対的な研究を行う。 シミュレーションランサムウェアプログラムを用いて、グレーボックス解析を行い、ML分類器の弱点を調査し、モデルの堅牢性を向上させる。 精度と弾力性に加えて、信頼性は品質検知のもう一つの重要な基準である。 正しい情報が推論に使われたことを確認することは、セキュリティアプリケーションにとって重要です。 統合勾配法(integrated gradient method)は、ディープラーニングモデルの説明と、偽陰性が検出を回避した理由の解明に用いられた。 実世界の検出器の構築と評価のアプローチを実証し議論した。

The damage caused by crypto-ransomware, due to encryption, is difficult to revert and cause data losses. In this paper, a machine learning (ML) classifier was built to early detect ransomware (called crypto-ransomware) that uses cryptography by program behavior. If a signature-based detection was missed, a behavior-based detector can be the last line of defense to detect and contain the damages. We find that input/output activities of ransomware and the file-content entropy are unique traits to detect crypto-ransomware. A deep-learning (DL) classifier can detect ransomware with a high accuracy and a low false positive rate. We conduct an adversarial research against the models generated. We use simulated ransomware programs to launch a gray-box analysis to probe the weakness of ML classifiers and to improve model robustness. In addition to accuracy and resiliency, trustworthiness is the other key criteria for a quality detector. Making sure that the correct information was used for inference is important for a security application. The Integrated Gradient method was used to explain the deep learning model and also to reveal why false negatives evade the detection. The approaches to build and to evaluate a real-world detector were demonstrated and discussed.
翻訳日:2022-12-24 01:32:11 公開日:2020-03-13
# 機械翻訳を用いたASR誤り訂正と領域適応

ASR Error Correction and Domain Adaptation Using Machine Translation ( http://arxiv.org/abs/2003.07692v1 )

ライセンス: Link先を確認
Anirudh Mani, Shruti Palaskar, Nimshi Venkat Meripo, Sandeep Konam, Florian Metze(参考訳) 市販の事前学習型自動音声認識(asr)システムは、音声ベースの製品を構築するあらゆる規模の企業にとって、ますます有望なサービスだ。 これらのASRシステムは大量のデータに基づいてトレーニングされているが、ドメインミスマッチは、このサービスを使いたいと考える多くの当事者にとって依然として問題である。 本稿では,機械翻訳によるASR誤り訂正のためのドメイン適応手法を提案する。 機械翻訳モデルは、ドメイン外のASRエラーから対応する参照ファイルのドメイン内用語へのマッピングを学ぶための強力な候補である。 この作業では、Google ASR(商用)とASPIRE(オープンソース)の2つの既製のASRシステムを使用します。 提案手法を用いて,Google ASR出力における単語誤り率の7%,BLEUスコアの4点絶対改善を観測した。 また,asr補正によって得られた話者スタイル,構文,構造,意味的改善を捉えた話者ダイアリゼーションの下流タスクを通じて,asr誤り訂正を評価する。

Off-the-shelf pre-trained Automatic Speech Recognition (ASR) systems are an increasingly viable service for companies of any size building speech-based products. While these ASR systems are trained on large amounts of data, domain mismatch is still an issue for many such parties that want to use this service as-is leading to not so optimal results for their task. We propose a simple technique to perform domain adaptation for ASR error correction via machine translation. The machine translation model is a strong candidate to learn a mapping from out-of-domain ASR errors to in-domain terms in the corresponding reference files. We use two off-the-shelf ASR systems in this work: Google ASR (commercial) and the ASPIRE model (open-source). We observe 7% absolute improvement in word error rate and 4 point absolute improvement in BLEU score in Google ASR output via our proposed method. We also evaluate ASR error correction via a downstream task of Speaker Diarization that captures speaker style, syntax, structure and semantic improvements we obtain via ASR correction.
翻訳日:2022-12-24 01:31:31 公開日:2020-03-13
# 生成型adversarial networkを用いたオーディオインパインティング

Audio inpainting with generative adversarial network ( http://arxiv.org/abs/2003.07704v1 )

ライセンス: Link先を確認
P. P. Ebner and A. Eltelt(参考訳) 本研究では,wassersteingenerative adversarial network (wgan) の音声コンテンツ生成能力について検討した。 我々は,WGANモデルを用いた長距離ギャップ(500ms)の音響塗装の課題に対処する。 我々は,従来のWGANモデルと比較して,短距離および長距離境界を用いた新しいWGANアーキテクチャを用いて,塗装部の品質を改善した。 この演奏は、2つの異なるオーディオ楽器(ピアノとギター)と、ヴィルトゥオーゾのピアニストと弦楽オーケストラと比較された。 客観差分級法(ODG)は両アーキテクチャの性能評価に用いられた。 提案モデルは,古典的なWGANモデルより優れ,高周波コンテンツの再構成を改善する。 さらに, 周波数スペクトルが主に低域にあり, 小さな雑音が人間の耳に悪さを伴わず, 塗布部がより知覚しやすい楽器に対して, より優れた結果を得た。 最後に、もしこの特定の楽器を無視するこの特定の楽器でのみネットワークを訓練すれば、特定の楽器が他の楽器と相性が良いオーディオデータセットのテスト結果に到達したことを示すことができる。

We study the ability of Wasserstein Generative Adversarial Network (WGAN) to generate missing audio content which is, in context, (statistically similar) to the sound and the neighboring borders. We deal with the challenge of audio inpainting long range gaps (500 ms) using WGAN models. We improved the quality of the inpainting part using a new proposed WGAN architecture that uses a short-range and a long-range neighboring borders compared to the classical WGAN model. The performance was compared with two different audio instruments (piano and guitar) and on virtuoso pianists together with a string orchestra. The objective difference grading (ODG) was used to evaluate the performance of both architectures. The proposed model outperforms the classical WGAN model and improves the reconstruction of high-frequency content. Further, we got better results for instruments where the frequency spectrum is mainly in the lower range where small noises are less annoying for human ear and the inpainting part is more perceptible. Finally, we could show that better test results for audio dataset were reached where a particular instrument is accompanist by other instruments if we train the network only on this particular instrument neglecting the other instruments.
翻訳日:2022-12-24 01:30:59 公開日:2020-03-13
# ビデオゲームにおけるプレイヤーチャーンとコンバージョンへの時系列的アプローチ

A Time Series Approach To Player Churn and Conversion in Videogames ( http://arxiv.org/abs/2003.10287v1 )

ライセンス: Link先を確認
Ana Fern\'andez del R\'io, Anna Guitart and \'Africa Peri\'a\~nez(参考訳) フリー・トゥ・プレイゲームのプレイヤーは、非有料アクティブユーザー、有料アクティブユーザー、非アクティブユーザーという3つの主要なグループに分けられる。 状態空間時系列のアプローチは、異なるグループ間の日々の変換率、すなわちあるグループから別のグループへ遷移する確率をモデル化するために使われる。 これにより、これらのレートがどのように進化するかの予測だけでなく、ゲーム内プランニングやカレンダー効果の影響をより深く理解することができる。 この研究は、情報がないマーケティングやプロモーションキャンペーンの検出にも利用されている。 特に、2つの異なる状態空間の定式化が検討され比較される: 自己回帰統合移動平均過程と非観測成分アプローチ、どちらの場合も説明変数への線形回帰である。 両者は共変量パラメーターを非常によく推定し、ほとんどの遷移速度で同様の性能の予測を生成する。 Unobserved Componentsアプローチは、モデル定義に関してより堅牢で、人間の介入を少なくするが、非支払いのユーザ放棄確率を著しく悪化させる。 さらに重要なのは、マーケティングやプロモーションキャンペーンのシナリオを検知できないことだ。

Players of a free-to-play game are divided into three main groups: non-paying active users, paying active users and inactive users. A State Space time series approach is then used to model the daily conversion rates between the different groups, i.e., the probability of transitioning from one group to another. This allows, not only for predictions on how these rates are to evolve, but also for a deeper understanding of the impact that in-game planning and calendar effects have. It is also used in this work for the detection of marketing and promotion campaigns about which no information is available. In particular, two different State Space formulations are considered and compared: an Autoregressive Integrated Moving Average process and an Unobserved Components approach, in both cases with a linear regression to explanatory variables. Both yield very close estimations for covariate parameters, producing forecasts with similar performances for most transition rates. While the Unobserved Components approach is more robust and needs less human intervention in regards to model definition, it produces significantly worse forecasts for non-paying user abandonment probability. More critically, it also fails to detect a plausible marketing and promotion campaign scenario.
翻訳日:2022-12-24 01:30:39 公開日:2020-03-13
# 信念伝達再ロード:ラベル問題に対するbp層学習

Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems ( http://arxiv.org/abs/2003.06258v1 )

ライセンス: Link先を確認
Patrick Kn\"obelreiter and Christian Sormann and Alexander Shekhovtsov and Friedrich Fraundorfer and Thomas Pock(参考訳) 多くの研究者がディープニューラルネットワークとグラフィカルモデルの組み合わせにより、より効率的でより規則化された複合モデルを作ることができると提案している。 実際にこれを実行する上での大きな困難は、適切な学習目標の相違と、推論の近似の必要性に関係している。 この研究では、最も単純な推論手法の1つ、断続的な最大生産信念伝播(max-product belief propagation)を取り上げ、ディープラーニングモデルの適切な構成要素にするために必要なものを追加します。 このbp層は畳み込みニューラルネットワーク(cnns)の最終ブロックまたは中間ブロックとして使用することができ、bp推論とcnnを異なるスケールレベルで構成する階層モデルを設計することができる。 このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。

It has been proposed by many researchers that combining deep neural networks with graphical models can create more efficient and better regularized composite models. The main difficulties in implementing this in practice are associated with a discrepancy in suitable learning objectives as well as with the necessity of approximations for the inference. In this work we take one of the simplest inference methods, a truncated max-product Belief Propagation, and add what is necessary to make it a proper component of a deep learning model: We connect it to learning formulations with losses on marginals and compute the backprop operation. This BP-Layer can be used as the final or an intermediate block in convolutional neural networks (CNNs), allowing us to design a hierarchical model composing BP inference and CNNs at different scale levels. The model is applicable to a range of dense prediction problems, is well-trainable and provides parameter-efficient and robust solutions in stereo, optical flow and semantic segmentation.
翻訳日:2022-12-24 01:24:35 公開日:2020-03-13
# サービスロボティクスにおけるビジュアルインテリジェンスの枠組みに向けて--認識論的要求とギャップ分析

Towards a Framework for Visual Intelligence in Service Robotics: Epistemic Requirements and Gap Analysis ( http://arxiv.org/abs/2003.06171v1 )

ライセンス: Link先を確認
Agnese Chiatti, Enrico Motta, Enrico Daga(参考訳) 実世界の動的環境で動作するサービスロボットが必要とする重要な能力は、視覚情報、すなわち視覚システム、推論コンポーネント、背景知識を使用して環境を理解する能力である。 本稿では、文献における人間のようなビジュアルインテリジェンスのための既存のフレームワークを用いたトップダウン方式と、現実世界のロボットシナリオにおける物体認識試験から生じるエラーに基づいて、ビジュアルインテリジェンスに対する認識要求を分析する。 最後に、サービスロボティクスの現在の知識ベースを評価し、視覚知性に対するサポートのギャップを特定するために、これらの要件を使用します。 これらのギャップは、ビジュアルインテリジェンスのためのより効果的な知識表現を開発するための研究課題の基礎を提供する。

A key capability required by service robots operating in real-world, dynamic environments is that of Visual Intelligence, i.e., the ability to use their vision system, reasoning components and background knowledge to make sense of their environment. In this paper, we analyze the epistemic requirements for Visual Intelligence, both in a top-down fashion, using existing frameworks for human-like Visual Intelligence in the literature, and from the bottom up, based on the errors emerging from object recognition trials in a real-world robotic scenario. Finally, we use these requirements to evaluate current knowledge bases for Service Robotics and to identify gaps in the support they provide for Visual Intelligence. These gaps provide the basis of a research agenda for developing more effective knowledge representations for Visual Intelligence.
翻訳日:2022-12-24 01:24:06 公開日:2020-03-13
# CNNを用いたビデオ符号化における速度制御パラメータの推定

Estimation of Rate Control Parameters for Video Coding Using CNN ( http://arxiv.org/abs/2003.06315v1 )

ライセンス: Link先を確認
Maria Santamaria, Ebroul Izquierdo, Saverio Blasi, Marta Mrak(参考訳) レートコントロールは、効率的なビデオ配信を確保するために不可欠である。 典型的なレート制御アルゴリズムはビット割り当て戦略に依存し、フレーム間でビットを適切に分配する。 参照フレームは時間的冗長性を利用するのに不可欠であるため、イントラフレームは通常、利用可能なビットの大部分を割り当てられる。 本稿では,ビット数とフレーム内品質を正確に推定する手法を提案し,レート制御方式でビット割り当てを行う。 このアルゴリズムはディープラーニングに基づいており、元のフレームを入力としてネットワークを訓練し、エンコーディング後の圧縮フレームの歪みとサイズを基底真理として利用する。 局所的あるいは大域的な歪みを予測できる2つの手法が提案されている。

Rate-control is essential to ensure efficient video delivery. Typical rate-control algorithms rely on bit allocation strategies, to appropriately distribute bits among frames. As reference frames are essential for exploiting temporal redundancies, intra frames are usually assigned a larger portion of the available bits. In this paper, an accurate method to estimate number of bits and quality of intra frames is proposed, which can be used for bit allocation in a rate-control scheme. The algorithm is based on deep learning, where networks are trained using the original frames as inputs, while distortions and sizes of compressed frames after encoding are used as ground truths. Two approaches are proposed where either local or global distortions are predicted.
翻訳日:2022-12-24 01:21:30 公開日:2020-03-13
# Taylor 拡張ポリシー最適化

Taylor Expansion Policy Optimization ( http://arxiv.org/abs/2003.06259v1 )

ライセンス: Link先を確認
Yunhao Tang, Michal Valko, R\'emi Munos(参考訳) 本研究では,強化学習におけるTaylor拡張の適用について検討する。 特に,事前作業(例えばtrpo)を一階の特別な場合として一般化した政策最適化形式であるtaylor expansion policy optimizationを提案する。 また,テイラー展開はオフ・ポリティカル評価と密接に関連していることを示した。 最後に、この新たな定式化は、いくつかの最先端分散アルゴリズムの性能を改善する修正を必要とすることを示す。

In this work, we investigate the application of Taylor expansions in reinforcement learning. In particular, we propose Taylor expansion policy optimization, a policy optimization formalism that generalizes prior work (e.g., TRPO) as a first-order special case. We also show that Taylor expansions intimately relate to off-policy evaluation. Finally, we show that this new formulation entails modifications which improve the performance of several state-of-the-art distributed algorithms.
翻訳日:2022-12-24 01:15:17 公開日:2020-03-13
# 時間差学習における干渉と一般化

Interference and Generalization in Temporal Difference Learning ( http://arxiv.org/abs/2003.06350v1 )

ライセンス: Link先を確認
Emmanuel Bengio, Joelle Pineau, Doina Precup(参考訳) 時間差学習における一般化と干渉の関係について検討する。 干渉は2つの異なる勾配の内積として定義され、それらのアライメントを表す。 この量は、ニューラルネットワーク、パラメータ共有、学習のダイナミクスに関するさまざまな観察から、興味深いものとして現れます。 教師付き学習ではTDが容易に低干渉,低一般化パラメータにつながり,その効果は逆のように見える。 原因は、干渉とブートストラップのダイナミクスの間の相互作用に遡ることができると仮定した。 一般化ギャップとtdの干渉の負の関係、ブートストラップによる干渉とターゲットの局所的コヒーレンスに対する負の影響、td(0) と td($\lambda$) における情報の伝播速度とモンテカルロ政策評価のような回帰タスクとの対比。 これらの新たな発見が、より優れたブートストラップ手法の発見を導くことを願っている。

We study the link between generalization and interference in temporal-difference (TD) learning. Interference is defined as the inner product of two different gradients, representing their alignment. This quantity emerges as being of interest from a variety of observations about neural networks, parameter sharing and the dynamics of learning. We find that TD easily leads to low-interference, under-generalizing parameters, while the effect seems reversed in supervised learning. We hypothesize that the cause can be traced back to the interplay between the dynamics of interference and bootstrapping. This is supported empirically by several observations: the negative relationship between the generalization gap and interference in TD, the negative effect of bootstrapping on interference and the local coherence of targets, and the contrast between the propagation rate of information in TD(0) versus TD($\lambda$) and regression tasks such as Monte-Carlo policy evaluation. We hope that these new findings can guide the future discovery of better bootstrapping methods.
翻訳日:2022-12-24 01:14:02 公開日:2020-03-13
# 精度と解釈性を兼ね備えたスパース局所線形モデルのニューラルジェネレータ

Neural Generators of Sparse Local Linear Models for Achieving both Accuracy and Interpretability ( http://arxiv.org/abs/2003.06441v1 )

ライセンス: Link先を確認
Yuya Yoshikawa, Tomoharu Iwata(参考訳) 信頼性のためには,機械学習手法による予測が人間によって解釈できることが重要である。 一般に、ディープニューラルネットワーク(DNN)は正確な予測を提供することができるが、なぜそのような予測がDNNによって得られるのかを理解するのは難しい。 一方で、実世界のデータは本質的に非線形であることが多いため、予測性能は低いが、線形モデルの解釈は容易である。 DNNの高予測性能と線形モデルの高解釈可能性の利点を1つのモデルに組み合わせて、疎局所線形モデル(NGSLL)のニューラルジェネレータを提案する。 スパース局所線型モデルは、非線形関数を近似できるため、高い柔軟性を持つ。 ngsllは、各サンプル(例えば単語列)とそれらの簡易表現(例えば単語の袋)のオリジナル表現を入力とするdnnを使用して、各サンプルに対してスパース線形重みを生成する。 元の表現から特徴を抽出することにより、重みは高い予測性能を達成するために豊富な情報を含むことができる。 さらに、簡易表現とスパース重みの間に内積が得られ、ngsllのゲートモジュールによって少量の重みしか選択されないため、予測は解釈可能である。 実世界のデータセットを用いた実験において,予測性能を評価し,画像とテキストの分類タスクで生成された重みを可視化することにより,ngsllの有効性を定量的・質的に実証する。

For reliability, it is important that the predictions made by machine learning methods are interpretable by human. In general, deep neural networks (DNNs) can provide accurate predictions, although it is difficult to interpret why such predictions are obtained by DNNs. On the other hand, interpretation of linear models is easy, although their predictive performance would be low since real-world data is often intrinsically non-linear. To combine both the benefits of the high predictive performance of DNNs and high interpretability of linear models into a single model, we propose neural generators of sparse local linear models (NGSLLs). The sparse local linear models have high flexibility as they can approximate non-linear functions. The NGSLL generates sparse linear weights for each sample using DNNs that take original representations of each sample (e.g., word sequence) and their simplified representations (e.g., bag-of-words) as input. By extracting features from the original representations, the weights can contain rich information to achieve high predictive performance. Additionally, the prediction is interpretable because it is obtained by the inner product between the simplified representations and the sparse weights, where only a small number of weights are selected by our gate module in the NGSLL. In experiments with real-world datasets, we demonstrate the effectiveness of the NGSLL quantitatively and qualitatively by evaluating prediction performance and visualizing generated weights on image and text classification tasks.
翻訳日:2022-12-24 01:13:46 公開日:2020-03-13
# AutoGluon-Tabular:構造化データのためのロバストで正確なAutoML

AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data ( http://arxiv.org/abs/2003.06505v1 )

ライセンス: Link先を確認
Nick Erickson, Jonas Mueller, Alexander Shirkov, Hang Zhang, Pedro Larroy, Mu Li, Alexander Smola(参考訳) これはオープンソースのautomlフレームワークで、csvファイルのような未処理の表型データセット上で高精度な機械学習モデルをトレーニングするために、pythonを1行だけ必要とします。 モデル/ハイパーパラメータ選択に重点を置く既存のAutoMLフレームワークとは異なり、AutoGluon-Tabularは複数のモデルをまとめて複数のレイヤに積み重ねることで成功している。 実験により、多くのモデルの多層結合は、ベストを追求するよりも、割り当てられたトレーニング時間をうまく活用できることがわかった。 第2のコントリビューションは、TPOT、H2O、AutoWEKA、Auto-sklearn、AutoGluon、Google AutoML Tablesなど、パブリックおよび商用AutoMLプラットフォームの広範な評価である。 KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。 AutoGluonは、競合他社の最も目に見える組み合わせよりも優れています。 2つの有名なKaggleコンペティションでは、AutoGluonが生データに関するトレーニングをわずか4時間で行った後、参加データサイエンティストの99%を破った。

We introduce AutoGluon-Tabular, an open-source AutoML framework that requires only a single line of Python to train highly accurate machine learning models on an unprocessed tabular dataset such as a CSV file. Unlike existing AutoML frameworks that primarily focus on model/hyperparameter selection, AutoGluon-Tabular succeeds by ensembling multiple models and stacking them in multiple layers. Experiments reveal that our multi-layer combination of many models offers better use of allocated training time than seeking out the best. A second contribution is an extensive evaluation of public and commercial AutoML platforms including TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon, and Google AutoML Tables. Tests on a suite of 50 classification and regression tasks from Kaggle and the OpenML AutoML Benchmark reveal that AutoGluon is faster, more robust, and much more accurate. We find that AutoGluon often even outperforms the best-in-hindsight combination of all of its competitors. In two popular Kaggle competitions, AutoGluon beat 99% of the participating data scientists after merely 4h of training on the raw data.
翻訳日:2022-12-24 01:13:22 公開日:2020-03-13
# 一致指数を用いた時間-事象分析のための半パラメトリック・パラメトリック・機械学習モデルの比較

Experimental Comparison of Semi-parametric, Parametric, and Machine Learning Models for Time-to-Event Analysis Through the Concordance Index ( http://arxiv.org/abs/2003.08820v1 )

ライセンス: Link先を確認
Camila Fernandez (LINCS), Chung Shue Chen (LINCS), Pierre Gaillard (SIERRA), Alonso Silva(参考訳) 本稿では,2つの異なるデータセット(pbc,gbcsg2)のコンコダンスインデックスを用いて,半パラメトリック(cox比例ハザードモデル,aalenの加法回帰モデル),パラメトリック(weibull aftモデル),機械学習モデル(random survival forest,gradient boosting with cox proportional hazards loss,deepsurv)を実験的に比較する。 これらのモデルのデフォルトのハイパーパラメータと、ランダム化探索で見つかる最高のハイパーパラメータの2つを比較した。

In this paper, we make an experimental comparison of semi-parametric (Cox proportional hazards model, Aalen's additive regression model), parametric (Weibull AFT model), and machine learning models (Random Survival Forest, Gradient Boosting with Cox Proportional Hazards Loss, DeepSurv) through the concordance index on two different datasets (PBC and GBCSG2). We present two comparisons: one with the default hyper-parameters of these models and one with the best hyper-parameters found by randomized search.
翻訳日:2022-12-24 01:12:44 公開日:2020-03-13
# ResNetはどんな情報を圧縮するのか?

What Information Does a ResNet Compress? ( http://arxiv.org/abs/2003.06254v1 )

ライセンス: Link先を確認
Luke Nicholas Darlow, Amos Storkey(参考訳) 情報ボトルネック原理(Shwartz-Ziv & Tishby, 2017)は、深層ニューラルネットワークのSGDに基づくトレーニングが、情報理論の観点から最適に圧縮された隠れ層をもたらすことを示唆している。 しかし、この主張はおもちゃのデータに基づいている。 ここでの作業の目標は、情報ボトルネックの原則がより大きくより深い畳み込みアーキテクチャ、resnetモデルを使って現実的な設定に適用できるかどうかをテストすることです。 我々はPixelCNN++モデルを逆表現デコーダとして訓練し,(1)分類と(2)自動符号化のトレーニングにおいて,ResNetの隠蔽層と入力画像データの相互情報を測定する。 学習の2つの段階は、両方の訓練体制で起こり、圧縮はオートエンコーダでも起こります。 隠れたレイヤのアクティベーションを条件付けしてイメージをサンプリングすることは、リネットが何を忘れたかを理解するための直感的な視覚化を提供する。

The information bottleneck principle (Shwartz-Ziv & Tishby, 2017) suggests that SGD-based training of deep neural networks results in optimally compressed hidden layers, from an information theoretic perspective. However, this claim was established on toy data. The goal of the work we present here is to test whether the information bottleneck principle is applicable to a realistic setting using a larger and deeper convolutional architecture, a ResNet model. We trained PixelCNN++ models as inverse representation decoders to measure the mutual information between hidden layers of a ResNet and input image data, when trained for (1) classification and (2) autoencoding. We find that two stages of learning happen for both training regimes, and that compression does occur, even for an autoencoder. Sampling images by conditioning on hidden layers' activations offers an intuitive visualisation to understand what a ResNets learns to forget.
翻訳日:2022-12-24 01:06:40 公開日:2020-03-13
# DAN:新しいドメインへのスタンス分類の適応のためのデュアルビュー表現学習

DAN: Dual-View Representation Learning for Adapting Stance Classifiers to New Domains ( http://arxiv.org/abs/2003.06514v1 )

ライセンス: Link先を確認
Chang Xu, Cecile Paris, Surya Nepal, Ross Sparks, Chong Long, Yafang Wang(参考訳) ドメイン適応にドメイン外分類を適応させることにより、新しいドメインにおけるスタンス分類のためのアノテーションが限られている問題に対処する。 既存のアプローチでは、異なるドメインを単一のグローバルな機能空間(あるいはビュー)で整列させることがしばしばあり、スタンスを表現するために使われる言語の豊かさを完全に把握できない場合があり、スタンスデータへの適応性が低下する。 本稿では,言語的に異なる2種類のスタンス表現を同定し,これらの表現をドメイン間で適応させるために,DAN(Matheored dual-view adapt Network)を提案する。 提案モデルではまず,各表現チャネルにおけるドメイン転送の別々のビューを学習し,最適な転送のために両ビューの最適適応部分を選択する。 学習したビュー機能は、いずれのビューでも、より簡単に整列し、よりスタンスに差別化され、ビューを組み合わせることで、より移行可能な全体的な機能になる。 実験結果から,各領域にまたがるスタンスデータに適合する最先端の単一ビュー手法を改良し,各手法の適応性を向上させることが示唆された。

We address the issue of having a limited number of annotations for stance classification in a new domain, by adapting out-of-domain classifiers with domain adaptation. Existing approaches often align different domains in a single, global feature space (or view), which may fail to fully capture the richness of the languages used for expressing stances, leading to reduced adaptability on stance data. In this paper, we identify two major types of stance expressions that are linguistically distinct, and we propose a tailored dual-view adaptation network (DAN) to adapt these expressions across domains. The proposed model first learns a separate view for domain transfer in each expression channel and then selects the best adapted parts of both views for optimal transfer. We find that the learned view features can be more easily aligned and more stance-discriminative in either or both views, leading to more transferable overall features after combining the views. Results from extensive experiments show that our method can enhance the state-of-the-art single-view methods in matching stance data across different domains, and that it consistently improves those methods on various adaptation tasks.
翻訳日:2022-12-24 01:06:17 公開日:2020-03-13
# B-PINN:雑音データを用いた逆PDE問題に対するベイズ物理学情報ニューラルネットワーク

B-PINNs: Bayesian Physics-Informed Neural Networks for Forward and Inverse PDE Problems with Noisy Data ( http://arxiv.org/abs/2003.06097v1 )

ライセンス: Link先を確認
Liu Yang, Xuhui Meng, George Em Karniadakis(参考訳) 偏微分方程式(PDE)と雑音データにより記述された前方および逆非線形問題を解くためにベイズ物理学情報ニューラルネットワーク(B-PINN)を提案する。 このベイズ的枠組みでは、ベイズニューラルネットワーク(BNN)とPDEのためのPINNが前者として機能し、ハミルトニアンモンテカルロ(HMC)や変分推論(VI)は後部の推定器として機能する。 B-PINNは物理法則と散乱ノイズ測定の両方を用いてベイズフレームワークのノイズデータから生じるアレータティック不確実性を予測し定量化する。 PINNと比較して、不確実性の定量化に加えて、B-PINNは過度な適合を避ける能力のため、大きなノイズのあるシナリオにおいてより正確な予測を得る。 ディープニューラルネットワークにおける不確かさの定量化に使用されるドロップアウトとbピン後方推定(hmcまたはvi)の2つの異なるアプローチを系統的に比較した。 実験の結果, hmcはbピンの後方推定にviよりも適しており, ピンを用いたドロップアウトは妥当な不確実性を持つ正確な予測が得られないことがわかった。 最後に, 後部推定器としてHMCや深部正規化流(DNF)モデルと組み合わせた, 切り離したKarhunen-Lo\eve(KL)拡張をBNNに置き換える。 KLはBNNと同じくらい正確だが、BNNベースのフレームワークとは異なり、このフレームワークは高次元の問題に容易に拡張できない。

We propose a Bayesian physics-informed neural network (B-PINN) to solve both forward and inverse nonlinear problems described by partial differential equations (PDEs) and noisy data. In this Bayesian framework, the Bayesian neural network (BNN) combined with a PINN for PDEs serves as the prior while the Hamiltonian Monte Carlo (HMC) or the variational inference (VI) could serve as an estimator of the posterior. B-PINNs make use of both physical laws and scattered noisy measurements to provide predictions and quantify the aleatoric uncertainty arising from the noisy data in the Bayesian framework. Compared with PINNs, in addition to uncertainty quantification, B-PINNs obtain more accurate predictions in scenarios with large noise due to their capability of avoiding overfitting. We conduct a systematic comparison between the two different approaches for the B-PINN posterior estimation (i.e., HMC or VI), along with dropout used for quantifying uncertainty in deep neural networks. Our experiments show that HMC is more suitable than VI for the B-PINNs posterior estimation, while dropout employed in PINNs can hardly provide accurate predictions with reasonable uncertainty. Finally, we replace the BNN in the prior with a truncated Karhunen-Lo\`eve (KL) expansion combined with HMC or a deep normalizing flow (DNF) model as posterior estimators. The KL is as accurate as BNN and much faster but this framework cannot be easily extended to high-dimensional problems unlike the BNN based framework.
翻訳日:2022-12-24 01:05:24 公開日:2020-03-13
# 人口学習によるalphazeroの高速化と改善

Accelerating and Improving AlphaZero Using Population Based Training ( http://arxiv.org/abs/2003.06212v1 )

ライセンス: Link先を確認
Ti-Rong Wu, Ting-Han Wei, I-Chen Wu(参考訳) AlphaZeroは多くのゲームで成功している。 残念ながら、まだ大量のコンピューティングリソースを消費しており、その大半はセルフプレイに費やされている。 ハイパーパラメータチューニングは、各ハイパーパラメータ構成が1回の実行をトレーニングするのに独自の時間を必要とするため、トレーニングコストが向上する。 その結果、通常、異なるハイパーパラメータ構成に対して複数の実行が必要になる。 本稿では,人口ベーストレーニング(PBT)を用いてハイパーパラメータを動的に調整し,トレーニング時の強度を向上させることを提案する。 もうひとつの大きな利点は、AlphaZeroのトレーニングアルゴリズムの後に最適化の時間が増加するにもかかわらず、自己再生レコードを生成する時間は変化しないため、単一の実行のみを必要とすることだ。 9x9 Goの実験では, PBT法はベースラインよりも9x9 Goの方が高い勝率を達成でき, それぞれが独自のハイパーパラメータ構成を持ち, 個別に訓練されている。 19×19 Goでは、PBTで演奏強度を改善することができる。 具体的には、PBTエージェントは、同等容量のニューラルネットワークを使用して、オープンソースのAlphaZeroプログラムであるELF OpenGoに対して最大74%の勝利率を得ることができる。 これは、同じ状況下でELF OpenGoに対して47%の勝利率を達成する飽和非PBT剤と比較される。

AlphaZero has been very successful in many games. Unfortunately, it still consumes a huge amount of computing resources, the majority of which is spent in self-play. Hyperparameter tuning exacerbates the training cost since each hyperparameter configuration requires its own time to train one run, during which it will generate its own self-play records. As a result, multiple runs are usually needed for different hyperparameter configurations. This paper proposes using population based training (PBT) to help tune hyperparameters dynamically and improve strength during training time. Another significant advantage is that this method requires a single run only, while incurring a small additional time cost, since the time for generating self-play records remains unchanged though the time for optimization is increased following the AlphaZero training algorithm. In our experiments for 9x9 Go, the PBT method is able to achieve a higher win rate for 9x9 Go than the baselines, each with its own hyperparameter configuration and trained individually. For 19x19 Go, with PBT, we are able to obtain improvements in playing strength. Specifically, the PBT agent can obtain up to 74% win rate against ELF OpenGo, an open-source state-of-the-art AlphaZero program using a neural network of a comparable capacity. This is compared to a saturated non-PBT agent, which achieves a win rate of 47% against ELF OpenGo under the same circumstances.
翻訳日:2022-12-24 00:56:52 公開日:2020-03-13
# LSCP: 大規模語彙ペルシャ語理解の強化

LSCP: Enhanced Large Scale Colloquial Persian Language Understanding ( http://arxiv.org/abs/2003.06499v1 )

ライセンス: Link先を確認
Hadi Abdi Khojasteh, Ebrahim Ansari, Mahdi Bohlouli(参考訳) 近年,ディープラーニングやリッチアノテーションによるベンチマークなど,現代的な機械学習手法によって,言語認識が大幅に進歩している。 しかし、研究は低リソースの形式言語ではまだ限られている。 これは、特にペルシャ語のような低資源の言語について、口語を記述する際の大きなギャップで構成されている。 低リソース言語でこのギャップを想定するために,我々は"大規模言語ペルシャデータセット" (lscp) を提案する。 LSCPは、多タスクの非公式ペルシア語理解を包括的問題とする意味分類において階層的に組織化されている。 これは、現実世界の文から自然に捉えられる人間レベルの文における複数の意味的側面の認識を含む。 我々は、さらなる調査と処理、および新しいアルゴリズムと手法の適用により、低リソース言語のコンピュータ化された理解と処理を強化することができると信じている。 提案したコーパスは,2700万件のツイートに解析木,音声タグ,感情の極性,5つの言語で注釈付けされた文からなる。

Language recognition has been significantly advanced in recent years by means of modern machine learning methods such as deep learning and benchmarks with rich annotations. However, research is still limited in low-resource formal languages. This consists of a significant gap in describing the colloquial language especially for low-resourced ones such as Persian. In order to target this gap for low resource languages, we propose a "Large Scale Colloquial Persian Dataset" (LSCP). LSCP is hierarchically organized in a semantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. This encompasses the recognition of multiple semantic aspects in the human-level sentences, which naturally captures from the real-world sentences. We believe that further investigations and processing, as well as the application of novel algorithms and methods, can strengthen enriching computerized understanding and processing of low resource languages. The proposed corpus consists of 120M sentences resulted from 27M tweets annotated with parsing tree, part-of-speech tags, sentiment polarity and translation in five different languages.
翻訳日:2022-12-24 00:56:12 公開日:2020-03-13
# 連続力学モデルを用いた変圧器の位置符号化の学習

Learning to Encode Position for Transformer with Continuous Dynamical Model ( http://arxiv.org/abs/2003.09229v1 )

ライセンス: Link先を確認
Xuanqing Liu, Hsiang-Fu Yu, Inderjit Dhillon, Cho-Jui Hsieh(参考訳) 本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。 入力トークンを順次ロードすることで誘導バイアスを含むRNNやLSTMとは異なり、非リカレントモデルは位置に対する感度が低い。 主な理由は、入力単位間の位置情報が本質的に符号化されていないこと、すなわち、モデルが置換等価であることであり、この問題は、既存のモデルが入力に正弦波符号化/埋め込み層を伴っている理由を正当化する。 しかし、この解には明確な制限がある: 正弦波符号化は手動で設計され、学習可能なパラメータは含まないが、位置埋め込みは入力シーケンスの最大長を制限する。 したがって、異なるデータセットと異なるアーキテクチャに適応するために学習可能なパラメータを含む新しい位置層を設計することが望ましい。 同時に、エンコーディングは入力の可変長に応じて外挿されることも望みます。 提案するソリューションでは、最近のneural odeアプローチを借用し、resnetの汎用的な継続的バージョンと見なすことができます。 このモデルは様々な力学系をモデル化することができる。 このような動的システムによる位置指数に沿った符号化結果の進化をモデル化し,既存の手法の限界を克服する。 ニューラルネットワーク翻訳および言語理解タスクにおける新しい位置層の評価を行い,実験結果からベースラインよりも一貫した改善が得られた。

We introduce a new way of learning to encode position information for non-recurrent models, such as Transformer models. Unlike RNN and LSTM, which contain inductive bias by loading the input tokens sequentially, non-recurrent models are less sensitive to position. The main reason is that position information among input units is not inherently encoded, i.e., the models are permutation equivalent; this problem justifies why all of the existing models are accompanied by a sinusoidal encoding/embedding layer at the input. However, this solution has clear limitations: the sinusoidal encoding is not flexible enough as it is manually designed and does not contain any learnable parameters, whereas the position embedding restricts the maximum length of input sequences. It is thus desirable to design a new position layer that contains learnable parameters to adjust to different datasets and different architectures. At the same time, we would also like the encodings to extrapolate in accordance with the variable length of inputs. In our proposed solution, we borrow from the recent Neural ODE approach, which may be viewed as a versatile continuous version of a ResNet. This model is capable of modeling many kinds of dynamical systems. We model the evolution of encoded results along position index by such a dynamical system, thereby overcoming the above limitations of existing methods. We evaluate our new position layers on a variety of neural machine translation and language understanding tasks, the experimental results show consistent improvements over the baselines.
翻訳日:2022-12-24 00:55:34 公開日:2020-03-13
# イメージベースパーソナライズドレコメンダシステムにおける畳み込みオートエンコーダの有効性について

On the effectiveness of convolutional autoencoders on image-based personalized recommender systems ( http://arxiv.org/abs/2003.06205v1 )

ライセンス: Link先を確認
E. Blanco-Mallo, B. Remeseiro, V. Bol\'on-Canedo, A. Alonso-Betanzos(参考訳) リコメンダシステム(RS)は,特にビッグデータの出現以降,ユーザの嗜好に関するあらゆる情報を格納できるようになっている。 パーソナライズされたrsはnetflix、amazon、youtubeなどのプラットフォームでうまく適用できる。 しかし、TripAdvisorのような胃科のプラットフォームには欠けている。 本稿では,ユーザの嗜好をモデル化するための情報源としてこれらの画像を利用する可能性について検討し,畳み込みオートエンコーダを特徴抽出器として用い,パーソナライズされたレコメンデーションを得るためのイメージベース分類システムを提案する。 提案するアーキテクチャはtripadvisorデータに適用され、ユーザ、レストラン、ユーザが撮影したイメージからなるトライアドとして定義可能なユーザのレビューを使用する。 データセットは高度にバランスが取れないため、マイノリティクラスにおけるデータ拡張の使用も実験において考慮される。 異なる大きさの3つの都市(サンティアゴ・デ・コンポステーラ、バルセロナ、ニューヨーク)のデータによる結果は、畳み込みニューラルネットワークで計算される標準的な深い特徴の代わりに、畳み込みオートエンコーダを特徴抽出器として使用する効果を示す。

Recommender systems (RS) are increasingly present in our daily lives, especially since the advent of Big Data, which allows for storing all kinds of information about users' preferences. Personalized RS are successfully applied in platforms such as Netflix, Amazon or YouTube. However, they are missing in gastronomic platforms such as TripAdvisor, where moreover we can find millions of images tagged with users' tastes. This paper explores the potential of using those images as sources of information for modeling users' tastes and proposes an image-based classification system to obtain personalized recommendations, using a convolutional autoencoder as feature extractor. The proposed architecture will be applied to TripAdvisor data, using users' reviews that can be defined as a triad composed by a user, a restaurant, and an image of it taken by the user. Since the dataset is highly unbalanced, the use of data augmentation on the minority class is also considered in the experimentation. Results on data from three cities of different sizes (Santiago de Compostela, Barcelona and New York) demonstrate the effectiveness of using a convolutional autoencoder as feature extractor, instead of the standard deep features computed with convolutional neural networks.
翻訳日:2022-12-24 00:54:56 公開日:2020-03-13
# DHOG: 階層的なオブジェクトグループ

DHOG: Deep Hierarchical Object Grouping ( http://arxiv.org/abs/2003.08821v1 )

ライセンス: Link先を確認
Luke Nicholas Darlow, Amos Storkey(参考訳) 近年,拡張による表現間の相互情報の最大化により,教師なし表現学習に多くの競争的手法が取り組んできた。 結果として得られる表現は確率的拡張戦略に不変であり、クラスタリングや分類といった下流タスクに使用できる。 しかし、データ拡張は画像の多くの特性を保存するため、データ内の簡単でフィニッシュな特徴にマッチする表現を最適に選択する可能性がある。 我々は,相互情報量(確率勾配最適化など)を最大化するための欲求的あるいは局所的手法が相互情報量規準の局所的最適性を発見することを示した。 以前の作業では、この問題を具体的に特定あるいは解決していない。 本稿では,画像の異なる離散表現を階層的な順序で計算し,最終的に相互情報目的をより最適化する表現を生成するdhog(deep hierarchical object grouping)を導入する。 また、これらの表現は、下層のオブジェクトクラスにグループ化する下流タスクとよく一致しています。 我々はDHOGを教師なしクラスタリングでテストした。これは自然な下流テストであり、ターゲット表現はデータの離散的なラベル付けである。 我々は,従来の多くの手法で必要な事前フィルタやソベルエッジ検出を使わずに,3つのベンチマークで最新の結果を得た。 CIFAR-10では4.3%、CIFAR-100-20では1.5%、SVHNでは7.2%の精度向上が得られた。

Recently, a number of competitive methods have tackled unsupervised representation learning by maximising the mutual information between the representations produced from augmentations. The resulting representations are then invariant to stochastic augmentation strategies, and can be used for downstream tasks such as clustering or classification. Yet data augmentations preserve many properties of an image and so there is potential for a suboptimal choice of representation that relies on matching easy-to-find features in the data. We demonstrate that greedy or local methods of maximising mutual information (such as stochastic gradient optimisation) discover local optima of the mutual information criterion; the resulting representations are also less-ideally suited to complex downstream tasks. Earlier work has not specifically identified or addressed this issue. We introduce deep hierarchical object grouping (DHOG) that computes a number of distinct discrete representations of images in a hierarchical order, eventually generating representations that better optimise the mutual information objective. We also find that these representations align better with the downstream task of grouping into underlying object classes. We tested DHOG on unsupervised clustering, which is a natural downstream test as the target representation is a discrete labelling of the data. We achieved new state-of-the-art results on the three main benchmarks without any prefiltering or Sobel-edge detection that proved necessary for many previous methods to work. We obtain accuracy improvements of: 4.3% on CIFAR-10, 1.5% on CIFAR-100-20, and 7.2% on SVHN.
翻訳日:2022-12-24 00:54:32 公開日:2020-03-13