このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200823となっている論文です。

PDF登録状況(公開日: 20200823)

TitleAuthorsAbstract論文公表日・翻訳日
# 3次元点雲のための四元同変カプセルネットワーク

Quaternion Equivariant Capsule Networks for 3D Point Clouds ( http://arxiv.org/abs/1912.12098v3 )

ライセンス: Link先を確認
Yongheng Zhao, Tolga Birdal, Jan Eric Lenssen, Emanuele Menegatti, Leonidas Guibas, Federico Tombari(参考訳) 本稿では,3次元回転と変換に等しく,入力点の置換に不変な点雲を処理するための3次元カプセルモジュールを提案する。 オペレータは、入力ポイントクラウドから計算された局所参照フレームのスパースセットを受け取り、四元数に対する新しい動的ルーティング手順を介してエンドツーエンド変換等価性を確立する。 さらに, カプセル間の動的経路をよく知られたワイズフェルドアルゴリズムに結合し, 証明可能な収束特性を持つ非定常再重み付け最小二乗法 (irls) 問題を解く手法を提案する。 このようなグループ動的ルーティングは、カプセル投票に基づくロバストIRLSローテーションとして解釈でき、最終的なインリエスコアに基づいて情報がルーティングされる。 提案手法に基づき,形状をポーズから切り離したカプセルネットワークを構築し,より有意義な記述子と構造化された潜在空間への道を開く。 我々のアーキテクチャは、回転の明示的な監督なしに、共同物体の分類と方向推定を可能にする。 一般的なベンチマークデータセットでアルゴリズムを実証的に検証する。

We present a 3D capsule module for processing point clouds that is equivariant to 3D rotations and translations, as well as invariant to permutations of the input points. The operator receives a sparse set of local reference frames, computed from an input point cloud and establishes end-to-end transformation equivariance through a novel dynamic routing procedure on quaternions. Further, we theoretically connect dynamic routing between capsules to the well-known Weiszfeld algorithm, a scheme for solving \emph{iterative re-weighted least squares} (IRLS) problems with provable convergence properties. It is shown that such group dynamic routing can be interpreted as robust IRLS rotation averaging on capsule votes, where information is routed based on the final inlier scores. Based on our operator, we build a capsule network that disentangles geometry from pose, paving the way for more informative descriptors and a structured latent space. Our architecture allows joint object classification and orientation estimation without explicit supervision of rotations. We validate our algorithm empirically on common benchmark datasets.
翻訳日:2023-06-09 23:35:38 公開日:2020-08-23
# ブロックチェーンを利用した医療機器のインターネットによる新型コロナウイルス対策

Blockchain-enabled Internet of Medical Things to Combat COVID-19 ( http://arxiv.org/abs/2008.09933v1 )

ライセンス: Link先を確認
Hong-Ning Dai and Muhammad Imran and Noman Haider(参考訳) 新たに発見されたコロナウイルス(COVID-19)による前例のない医療危機に見舞われている。 新型コロナウイルス(COVID-19)の流行は、既存の医療システムの欠陥を浮き彫りにする。 したがって、医療システムのデジタルトランスフォーメーションは避けられない傾向にある。 このプロセスの間、IoMT(Internet of Medical Things)は、セキュリティとプライバシの固有の脆弱性がIoMTの広範な採用を妨げる一方で、重要な役割を果たす。 本稿では、IoMTシステムのセキュリティとプライバシに関する問題に対処するブロックチェーン対応IoMTを提案する。 また、5つの異なる視点から、ブロックチェーン対応のIoMTからCOVID-19へのソリューションについても論じる。 さらに,ブロックチェーン対応iomtのオープン課題と今後の方向性について概説する。

We are experiencing an unprecedented healthcare crisis caused by newly-discovered corona-virus disease (COVID-19). The outbreaks of COVID-19 reveal the frailties of existing healthcare systems. Therefore, the digital transformation of healthcare systems becomes an inevitable trend. During this process, the Internet of Medical Things (IoMT) plays a crucial role while intrinsic vulnerabilities of security and privacy deter the wide adoption of IoMT. In this article, we present a blockchain-enabled IoMT to address the security and privacy concerns of IoMT systems. We also discuss the solutions brought by blockchain-enabled IoMT to COVID-19 from five different perspectives. Moreover, we outline the open challenges and future directions of blockchain-enabled IoMT.
翻訳日:2023-05-05 04:13:33 公開日:2020-08-23
# コース、しかしまだない: システム開発におけるエンタープライズアーキテクチャの適合性とメリット

On Course, But Not There Yet: Enterprise Architecture Conformance and Benefits in Systems Development ( http://arxiv.org/abs/2008.11026v1 )

ライセンス: Link先を確認
Ralph Foorthuis, Marlies van Steenbergen, Nino Mushkudiani, Wiel Bruls, Sjaak Brinkkemper, Rik Bos(参考訳) エンタープライズアーキテクチャ(EA)が個々のシステム開発プロジェクトと組織全体に対してもたらすメリットについて、さまざまな主張がなされています。 本稿では,これらの主張を実証的に検証するために実施した調査(n=293)の統計的知見について述べる。 まず,EAの適合性を高めるために実際にどのような手法が用いられているかを検討した。 第2に,実際に得られるメリットについて検討した。 第3に、EA作成者(エンタープライズアーキテクトなど)とEAユーザ(プロジェクトメンバなど)がEAに対する認識に違いがあるかどうかを確認しました。 最後に,適用手法のどれが,EAのプロジェクト適合性と有効性を高めるかを検討した。 多変量回帰分析は、コンプライアンスアセスメントの実行、EAの管理伝搬、プロジェクトへの支援という、3つの手法が適合性に大きな影響を与えることを示した。 プロジェクト適合性は、組織レベルとプロジェクトレベルで様々な利益を享受する上で中心的な役割を果たすが、多くの重要な利益がまだ十分に達成されていないことが示されている。

Various claims have been made regarding the benefits that Enterprise Architecture (EA) delivers for both individual systems development projects and the organization as a whole. This paper presents the statistical findings of a survey study (n=293) carried out to empirically test these claims. First, we investigated which techniques are used in practice to stimulate conformance to EA. Secondly, we studied which benefits are actually gained. Thirdly, we verified whether EA creators (e.g. enterprise architects) and EA users (e.g. project members) differ in their perceptions regarding EA. Finally, we investigated which of the applied techniques most effectively increase project conformance to and effectiveness of EA. A multivariate regression analysis demonstrates that three techniques have a major impact on conformance: carrying out compliance assessments, management propagation of EA and providing assistance to projects. Although project conformance plays a central role in reaping various benefits at both the organizational and the project level, it is shown that a number of important benefits have not yet been fully achieved.
翻訳日:2023-05-05 04:11:02 公開日:2020-08-23
# 社会サイバーセキュリティ第13章:新型コロナパンデミックのケーススタディ

Social Cybersecurity Chapter 13: Casestudy with COVID-19 Pandemic ( http://arxiv.org/abs/2008.10102v1 )

ライセンス: Link先を確認
David M. Beskow and Kathleen M. Carley(参考訳) 本研究の目的は,前章で提示された概念とツールを活用し,現実の社会サイバーセキュリティの文脈に応用することである。 21世紀の決定的な出来事として新型コロナウイルス(COVID-19)のパンデミックが出現し、偽情報操作のための磁石が登場し、私たちはパンデミックと関連するソーシャルメディアの会話を選び、我々の努力に焦点を合わせました。 この章では、情報操作操作、ボット検出と特徴付け、ミーム検出と特徴付け、およびTwitter上でのCOVID-19関連の会話への情報マッピングのツールを適用する。 この章ではこれらのツールを使って、2020年3月15日から2020年4月30日までの2億2600万のツイートを分析している。 我々の成果は、BENDの操作を最大限活用し、重要な整形操作にボットを使用する、精巧な情報操作に光を当てた。

The purpose of this case study is to leverage the concepts and tools presented in the preceding chapters and apply them in a real world social cybersecurity context. With the COVID-19 pandemic emerging as a defining event of the 21st Century and a magnet for disinformation maneuver, we have selected the pandemic and its related social media conversation to focus our efforts on. This chapter therefore applies the tools of information operation maneuver, bot detection and characterization, meme detection and characterization, and information mapping to the COVID-19 related conversation on Twitter. This chapter uses these tools to analyze a stream containing 206 million tweets from 27 million unique users from 15 March 2020 to 30 April 2020. Our results shed light on elaborate information operations that leverage the full breadth of the BEND maneuvers and use bots for important shaping operations.
翻訳日:2023-05-05 04:10:46 公開日:2020-08-23
# 任意の関節計測構造からのベル違反

Bell violations from arbitrary joint measurability structures ( http://arxiv.org/abs/2008.10100v1 )

ライセンス: Link先を確認
Shiv Akshar Yadavalli, Nikola Andrejic, Ravi Kunjwal(参考訳) 測定の不適合性は必要だが、ベルの不等式違反には十分ではない。 測定セット間の(in)互換関係の構造は、関節測定可能性構造、すなわち、その頂点が測定を表すハイパーグラフと、すべての(かつ唯一の)互換な測定セットを表すハイパーエッジによって表される。 我々は、少なくとも一対の不整合頂点(非自明な関節可測構造)を持つ関節可測構造に対して、ベル違反を可能にする一連の測定値を持つ量子化が存在することを示す。 言い換えれば、任意のジョイント測定可能性構造に対して、ベル違反に十分な互換性のない測定セットを識別する。

Measurement incompatibility is necessary but not sufficient for violation of a Bell inequality. The structure of (in)compatibility relations among a set of measurements can be represented by a joint measurability structure, i.e., a hypergraph with its vertices representing measurements and its hyperedges representing all (and only) compatible sets of measurements. We show that for any joint measurability structure that admits at least a pair of incompatible vertices (i.e., a non-trivial joint measurability structure), there exists a quantum realization with a set of measurements that enables a Bell violation. In other words, we identify, for any joint measurability structure, an incompatible set of measurements that is sufficient for a Bell violation.
翻訳日:2023-05-05 04:10:28 公開日:2020-08-23
# 量子センサを用いたマイクロ波のヘテロダインセンシング

Heterodyne Sensing of Microwaves with a Quantum Sensor ( http://arxiv.org/abs/2008.10068v1 )

ライセンス: Link先を確認
Jonas Meinel, Vadim Vorobyov, Boris Yavkin, Durga Dasari, Hitoshi Sumiya, Shinobu Onoda, Junichi Isoya, J\"org Wrachtrup(参考訳) ダイヤモンド量子センサは、スピン遷移に共鳴する弱いマイクロ波磁場に敏感である。 しかし、そのようなプロトコルのスペクトル分解能は最終的にセンサー寿命によって制限される。 本稿では,マイクロ波(MW)のヘテロダイン検出法について述べる。 我々はMW信号をコヒーレント音源から初期重畳状態を生成することで局所振動子に参照する。 実験的に、klhertzのセンサー寿命限界よりはるかに低い$4\ \rm{GHz}$信号に対して、$1\ \rm{Hz}$以下のスペクトル分解能を得る。 さらに, ドレッシング場, パルスモロー吸収, フロケダイナミクスを強い縦波駆動下で適用することにより, MWフィールドと2レベルシステムとの相互作用の制御を示す。 パルスモロー吸収は高い感度をもたらすが、フロケダイナミクスは系共鳴周波数から独立して堅牢な制御を可能にする。 我々の研究は、スペクトル分解能の高い広帯域の弱いマイクロ波信号を検知する研究に重要である。

Diamond quantum sensors are sensitive to weak microwave magnetic fields resonant to the spin transitions. However the spectral resolution in such protocols is limited ultimately by sensor lifetime. Here we demonstrate a heterodyne detection method for microwaves (MW) leading to a lifetime independent spectral resolution in the GHz range. We reference the MW-signal to a local oscillator by generating the initial superposition state from a coherent source. Experimentally we achieve a spectral resolution below $1\ \rm{Hz}$ for a $4\ \rm{GHz}$ signal far below the sensor lifetime limit of kilohertz. Furthermore we show control over the interaction of the MW-field with the two level system by applying dressing fields, pulsed Mollow absorption and Floquet dynamics under strong longitudinal radio frequency drive. While pulsed Mollow absorption leads to highest sensitivity, the Floquet dynamics allows robust control independent from the systems resonance frequency. Our work is important for future studies in sensing weak microwave signals in wide frequency range with high spectral resolution.
翻訳日:2023-05-05 04:09:52 公開日:2020-08-23
# 携帯電話データを用いた新型コロナウイルスパンデミック時の全国移動状況の変化

Country-wide mobility changes observed using mobile phone data during COVID-19 pandemic ( http://arxiv.org/abs/2008.10064v1 )

ライセンス: Link先を確認
Georg Heiler, Tobias Reisch, Jan Hurt, Mohammad Forghani, Aida Omani, Allan Hanbury, Farid Karimipour(参考訳) 2020年3月、オーストリア政府は新型コロナウイルスのパンデミックに対する広範なロックダウンを導入した。 主観的な印象と逸話的な証拠に基づき、オーストリアの市民と民間人の生活は突然停止した。 ここでは,オーストリア全地域におけるロックダウンの効果を定量的に評価し,ほぼリアルタイムな携帯電話データを用いて,オーストリア全土における人体移動量の日次変化の分析を行った。 携帯電話のトラフィックを興味のある特定の地点(POI)で定量化し、個々の軌跡を解析し、原位置グラフのクラスタ構造を調査することにより、効率的なデータ集約パイプラインを記述し、モビリティを解析する。 その結果、ウィーン地下鉄の通勤者数は80\%以上減少し、ジャイレーション半径500m以下の装置の数はほぼ倍増した。 群集移動行動調査の結果,モビリティネットワークの構造に大きな変化がみられ,モジュール性が向上し,検出されたコミュニティが12から20に増加した。 我々は,ischgl(初期covid-19ホットスポット)からの流出量と8日間の遅延を伴う報告されたcovid-19症例との間に有意な相関関係を示し,疫学研究におけるモビリティデータの関連性を実証する。 本研究は,携帯電話の利用データにより,移動行動のモーメント・バイ・モーメント定量化が可能となることを示す。 我々は、新型コロナウイルス(COVID-19)と将来のパンデミックに対する迅速な対応を促進するために、匿名形式でそのようなデータの可用性を向上させる必要性を強調します。

In March 2020, the Austrian government introduced a widespread lock-down in response to the COVID-19 pandemic. Based on subjective impressions and anecdotal evidence, Austrian public and private life came to a sudden halt. Here we assess the effect of the lock-down quantitatively for all regions in Austria and present an analysis of daily changes of human mobility throughout Austria using near-real-time anonymized mobile phone data. We describe an efficient data aggregation pipeline and analyze the mobility by quantifying mobile-phone traffic at specific point of interest (POI), analyzing individual trajectories and investigating the cluster structure of the origin-destination graph. We found a reduction of commuters at Viennese metro stations of over 80\% and the number of devices with a radius of gyration of less than 500 m almost doubled. The results of studying crowd-movement behavior highlight considerable changes in the structure of mobility networks, revealed by a higher modularity and an increase from 12 to 20 detected communities. We demonstrate the relevance of mobility data for epidemiological studies by showing a significant correlation of the outflow from the town of Ischgl (an early COVID-19 hotspot) and the reported COVID-19 cases with an 8-day time lag. This research indicates that mobile phone usage data permits the moment-by-moment quantification of mobility behavior for a whole country. We emphasize the need to improve the availability of such data in anonymized form to empower rapid response to combat COVID-19 and future pandemics.
翻訳日:2023-05-05 04:09:37 公開日:2020-08-23
# 機械振動子に符号化された論理量子ビットの非摂動漏洩除去

Nonperturbative leakage elimination for a logical qubit encoded in a mechanical oscillator ( http://arxiv.org/abs/2008.09953v1 )

ライセンス: Link先を確認
Shasha Zheng, Qiongyi He, Mark S. Byrd, and Lian-Ao Wu(参考訳) 連続変数(CV)システムは、普遍量子計算の実現に注目が集まっている。 いくつかの最近の実験では、例えば、量子ビットを閉じ込められたイオン機械振動子にエンコードし、論理ゲートを実行するためのCVシステムの実現可能性を示している(Nature 566, 513-517 (2019))。 次のステップは、量子デコヒーレンスからエンコードされた量子ビットを保護することである。例えば、機械発振器とその環境との相互作用による動きデコヒーレンスである。 本稿では、この目的のために設計された非摂動漏洩除去演算子(LEO)を導入して、量子ビットを符号化する単一モード高調波発振器の量子デコヒーレンスを抑制する手法を提案する。 興味深いことに、我々の非摂動型LEOは近似なしで正確な運動方程式を解析的に導出することができる。 また、これらのLEOの有効性は、時間領域におけるパルスシーケンスの積分にのみ依存するが、パルス形状の詳細は、時間周期が適切に選択されたときに有意差がないことを示すことができる。 この制御法は任意の温度と任意の系-バス結合強度を持つ系に適用でき、一般のオープン量子系に非常に有用である。

Continuous-variable (CV) systems are attracting increasing attention in the realization of universal quantum computation. Several recent experiments have shown the feasibility of using CV systems to, e.g., encode a qubit into a trapped-ion mechanical oscillator and perform logic gates [Nature 566, 513-517 (2019)]. The essential next step is to protect the encoded qubit from quantum decoherence, e.g., the motional decoherence due to the interaction between a mechanical oscillator and its environment. Here we propose a scheme to suppress quantum decoherence of a single-mode harmonic oscillator used to encode qubits by introducing a nonperturbative leakage elimination operator (LEO) specifically designed for this purpose. Remarkably, our nonperturbative LEO can be used to analytically derive exact equations of motion without approximations. It also allows us to prove that the effectiveness of these LEOs only depends on the integral of the pulse sequence in the time domain, while details of the pulse shape does not make a significant difference when the time period is chosen appropriately. This control method can be applied to a system at an arbitrary temperature and arbitrary system-bath coupling strength which makes it extremely useful for general open quantum systems.
翻訳日:2023-05-05 04:08:37 公開日:2020-08-23
# 1次元と2次元における拡張音源の量子制限超解像

Quantum Limited Superresolution of Extended Sources in One and Two Dimensions ( http://arxiv.org/abs/2008.09946v1 )

ライセンス: Link先を確認
Sudhakar Prasad(参考訳) 円形撮像開口を用いた量子フィッシャー情報(qfi)を用いて、固定中点を持つ均一に明るい非コヒーレント線源の長さと、固定中心を有する均一に明るい非コヒーレント円板状源半径を算出する。 中心線セグメント上の球面波動関数(PSWF)とその中心円板上の一般化版は、1光子密度演算子の固有状態と固有値を計算するためのそれぞれの基底を持ち、2つの音源の空間パラメータに関するQFIを計算する。 Zernike多項式は、全音源の波面を投影する良いセットを提供し、そのような古典的な波面投影データは、各ケースで有界な量子制限推定誤差を実現できる。 その後,pswfsと密接な関係を持つベッセルフーリエ関数のクラスを用いて任意の輝度分布と形状の源を解析する手法を一般化した。 均一に明るい楕円円盤の主軸の長さを推定するためのQFI計算による一般的なアプローチについて述べる。

We calculate the quantum Fisher information (QFI) for estimating, using a circular imaging aperture, the length of a uniformly bright incoherent line source with a fixed mid-point and the radius of a uniformly bright incoherent disk shaped source with a fixed center. Prolate spheroidal wavefunctions (PSWFs) on a centered line segment and its generalized version on a centered disk furnish the respective bases for computing the eigenstates and eigenvalues of the one-photon density operator, from which we subsequently calculate QFI with respect to the spatial parameters of the two sources. Zernike polynomials provide a good set into which to project the full source wavefront, and such classical wavefront projection data can realize quantum limited estimation error bound in each case. We subsequently generalize our approach to analyze sources of arbitrary brightness distributions and shapes using a certain class of Bessel Fourier functions that are closely related to the PSWFs. We illustrate the general approach by computing QFI for estimating the lengths of the principal axes of a uniformly bright, centered elliptical disk.
翻訳日:2023-05-05 04:08:03 公開日:2020-08-23
# グレイウルフ最適化アルゴリズムを用いたカスピ海南岸の波力ポテンシャル調査

Investigating Wave Energy Potential in Southern Coasts of the Caspian Sea Using Grey Wolf Optimizer Algorithm ( http://arxiv.org/abs/1912.13201v2 )

ライセンス: Link先を確認
Erfan Amini and Seyed Taghi Omid Naeeni and Pedram Ghaderi and Fereidoun Amini(参考訳) 近年, 海洋波エネルギー変換器の適用が著しく加速している。 結果として、これらのシステムを実装するのに適切なポイントを採用することが不可欠である。 また、カスピ海はアジアで最も重要な海洋再生可能エネルギー源の一つであり、沿岸地域に大量のエネルギーを供給することができる。 そのため、カスピ海南岸の9つの港周辺は波力エネルギーのポテンシャルを測定するために選ばれた。 当初、これらの点のエネルギー量は不規則エネルギー理論を用いて測定された。 南西地域(キアシャール海岸とアンザリ港)では、南東地域よりも波力が高いことが観測された。 グレイウルフオプティマイザ (gwo) アルゴリズムと時間履歴解析を用いて, これらの点を比較し, 最大エネルギーを供給する際の適合度を測定する新しい手法を開発した。 この方法では,カスピ海南部における地点を評価するアルゴリズムから,まず最適なパラメータを抽出した。 これらの値は評価指標と見なされた。 そして, 相関関数とノルムベクトルを用いて各点の適合性を求め, 最も最適な位置を最大波エネルギー搾取電位で提示した。 この新しいアプローチは解析データを用いて検証され、異なる点における波動パワーの予測と比較の精度が承認された。 最後に、波動エネルギーに影響を与えるパラメータを並べて比較した結果、波動高さと波動エネルギー周期の最適範囲が得られた。

There is a significantly accelerating trend in the application of the marine wave energy converters in recent years. As a result, it is imperative to adopt a suitable point for implementing these systems. Besides, the Caspian Sea, as one of the most important marine renewable energy sources in Asia, is capable of supplying the coastal areas with a large amount of energy. Therefore, areas around nine ports in the southern coasts of the Caspian Sea were selected to measure their wave energy potential. Initially, the amount of energy on these points was measured using the irregular energy theory. It was observed that the wave power was higher in the southwestern areas (within the Kiashahr coast and Anzali port) than the southeastern areas. A new approach was developed to compare these points and measure their fitnesses in supplying the maximum energy using the Grey Wolf optimizer (GWO) algorithm and time history analysis. In this method, the optimal parameters were first extracted from the algorithm for assessing the points within the southern areas of the Caspian Sea. These values were regarded as the assessment indices. Then, the fitness of each point was obtained using the correlation function and the norm vector to present the most optimal position with maximum wave energy exploitation potential. This new approach was validated with analytical data, and its accuracy in predicting and comparing the wave power on different points was approved. Finally, by a side-by-side comparison of the parameters affecting the wave energy, the optimum range of significant wave height and wave energy period was achieved.
翻訳日:2023-01-16 20:52:07 公開日:2020-08-23
# マルチエージェント強化学習を用いたドライバ配置のリワード設計

Reward Design for Driver Repositioning Using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2002.06723v3 )

ライセンス: Link先を確認
Zhenyu Shou, Xuan Di(参考訳) 乗客の要求の多くは、一部は乗客の捜索中の空き運転者によるクルーズ行動のため、役に立たないと伝えられている。 本稿では,複数エージェント間の競合を捉えた平均場多エージェント強化学習(MARL)手法を用いて,マルチドライバ再配置タスクをモデル化することを目的とする。 与えられた報酬機構の下でのマルチドライバーシステムへのmarlの直接適用は、ドライバの利己性により、最適以下の均衡をもたらす可能性が高いため、より望ましい均衡に達することができる報酬設計スキームを提案する。 報酬設計として上位レベル、マルチエージェントシステムとして下位レベルの2レベル最適化問題を効果的に解くため、ベイズ最適化(BO)アルゴリズムを用いて学習プロセスを高速化する。 次に、二段階最適化モデルを2つのケーススタディに適用する。すなわち、サービス料金下でのe-hailingドライバ再配置と、NYCの混雑価格下でのマルチクラスタクシードライバ再配置である。 最初のケーススタディでは、BOから導出した最適制御と解析解からの最適制御との一致によってモデルが検証される。 単純な分割線形サービスチャージにより、e-hailingプラットフォームの目的を8.4%向上させることができる。 第2のケーススタディでは、料金のない料金に比べて都市計画者の目標を7.9%改善するBOを用いて、最適料金5.1ドルを解いた。 この最適料金の下では、地下鉄網の混雑を著しく増大させることなく、ニューヨーク市中心部の営業地区でのタクシーの数は減少し、交通条件が良くなった。

A large portion of passenger requests is reportedly unserviced, partially due to vacant for-hire drivers' cruising behavior during the passenger seeking process. This paper aims to model the multi-driver repositioning task through a mean field multi-agent reinforcement learning (MARL) approach that captures competition among multiple agents. Because the direct application of MARL to the multi-driver system under a given reward mechanism will likely yield a suboptimal equilibrium due to the selfishness of drivers, this study proposes a reward design scheme with which a more desired equilibrium can be reached. To effectively solve the bilevel optimization problem with upper level as the reward design and the lower level as a multi-agent system, a Bayesian optimization (BO) algorithm is adopted to speed up the learning process. We then apply the bilevel optimization model to two case studies, namely, e-hailing driver repositioning under service charge and multiclass taxi driver repositioning under NYC congestion pricing. In the first case study, the model is validated by the agreement between the derived optimal control from BO and that from an analytical solution. With a simple piecewise linear service charge, the objective of the e-hailing platform can be increased by 8.4%. In the second case study, an optimal toll charge of $5.1 is solved using BO, which improves the objective of city planners by 7.9%, compared to that without any toll charge. Under this optimal toll charge, the number of taxis in the NYC central business district is decreased, indicating a better traffic condition, without substantially increasing the crowdedness of the subway system.
翻訳日:2022-12-31 12:27:15 公開日:2020-08-23
# 圧縮センシング磁気共鳴画像再構成のためのニューラルネットワーク探索

Neural Architecture Search for Compressed Sensing Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2002.09625v6 )

ライセンス: Link先を確認
Jiangpeng Yan, Shuo Chen, Yongbing Zhang and Xiu Li(参考訳) 近年の研究では、サブサンプルk空間データからMR画像を再構成することにより、深層学習(DL)に基づく圧縮センシング(CS)の実装がMRイメージングを加速できることが示されている。 しかし、従来の手法で採用されていたネットワークアーキテクチャはすべて手作業で設計されている。 neural architecture search (nas)アルゴリズムは、複数のビジョンタスクにおいて、人間が設計したものを上回るニューラルネットワークアーキテクチャを自動構築することができる。 そこで本研究では,手作業ではなくNASによるMR画像再構成問題に対する,新規で効率的なネットワークを提案する。 特に,モデル駆動型mr再構成パイプラインに組み込まれた特定の細胞構造は,柔軟に定義された操作探索空間から微分可能な方法で自動的に探索された。 実験の結果,psnrとssimでは4~6倍少ない計算資源で,従来手法と比較して検索したネットワークの復元性能が向上した。 過度パラメータが再建性能と探索構造に与える影響を解析するための大規模な実験を行った。 探索されたアーキテクチャの一般化可能性についても,臓器MRデータセットを用いて評価した。 提案手法は,mr再構成問題に対する計算コストと再構成性能とのトレードオフが向上し,他の医用画像アプリケーションのためのニューラルネットワーク設計への洞察が得られる。 評価コードはhttps://github.com/yjump/NAS-for-CSMRIで入手できる。

Recent works have demonstrated that deep learning (DL) based compressed sensing (CS) implementation can accelerate Magnetic Resonance (MR) Imaging by reconstructing MR images from sub-sampled k-space data. However, network architectures adopted in previous methods are all designed by handcraft. Neural Architecture Search (NAS) algorithms can automatically build neural network architectures which have outperformed human designed ones in several vision tasks. Inspired by this, here we proposed a novel and efficient network for the MR image reconstruction problem via NAS instead of manual attempts. Particularly, a specific cell structure, which was integrated into the model-driven MR reconstruction pipeline, was automatically searched from a flexible pre-defined operation search space in a differentiable manner. Experimental results show that our searched network can produce better reconstruction results compared to previous state-of-the-art methods in terms of PSNR and SSIM with 4-6 times fewer computation resources. Extensive experiments were conducted to analyze how hyper-parameters affect reconstruction performance and the searched structures. The generalizability of the searched architecture was also evaluated on different organ MR datasets. Our proposed method can reach a better trade-off between computation cost and reconstruction performance for MR reconstruction problem with good generalizability and offer insights to design neural networks for other medical image applications. The evaluation code will be available at https://github.com/yjump/NAS-for-CSMRI.
翻訳日:2022-12-29 19:36:35 公開日:2020-08-23
# 意味セグメンテーションにおける領域適応のためのラベル駆動再構成

Label-Driven Reconstruction for Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2003.04614v3 )

ライセンス: Link先を確認
Jinyu Yang, Weizhi An, Sheng Wang, Xinliang Zhu, Chaochao Yan, Junzhou Huang(参考訳) 教師なしのドメイン適応は、セマンティックセグメンテーションにおけるピクセルワイズアノテーションの必要性を軽減することができる。 最も一般的な戦略の1つは、ソースドメインからターゲットドメインに画像を変換し、敵対学習を用いて特徴空間内の限界分布を調整することである。 しかし、ソースからターゲットへの変換は、翻訳画像のバイアスを拡大し、ソースドメインの支配的なデータサイズのために余分な計算を導入する。 さらに、ソースドメインとターゲットドメインのジョイント分布の一貫性は、グローバル機能アライメントによって保証できない。 本稿では,画像翻訳バイアスを軽減し,クロスドメイン機能を同じカテゴリに整合させる,革新的なフレームワークを提案する。 これが達成される 1)ターゲット・ソース翻訳を行い、 2) 予測ラベルからソース画像とターゲット画像の両方を再構成する。 合成から実際の都市環境への適応に関する大規模な実験は、我々のフレームワークが既存の最先端の手法と好適に競合することを示した。

Unsupervised domain adaptation enables to alleviate the need for pixel-wise annotation in the semantic segmentation. One of the most common strategies is to translate images from the source domain to the target domain and then align their marginal distributions in the feature space using adversarial learning. However, source-to-target translation enlarges the bias in translated images and introduces extra computations, owing to the dominant data size of the source domain. Furthermore, consistency of the joint distribution in source and target domains cannot be guaranteed through global feature alignment. Here, we present an innovative framework, designed to mitigate the image translation bias and align cross-domain features with the same category. This is achieved by 1) performing the target-to-source translation and 2) reconstructing both source and target images from their predicted labels. Extensive experiments on adapting from synthetic to real urban scene understanding demonstrate that our framework competes favorably against existing state-of-the-art methods.
翻訳日:2022-12-24 21:12:13 公開日:2020-08-23
# 包括的GAN: 生成モデルにおけるデータとマイノリティカバレッジの改善

Inclusive GAN: Improving Data and Minority Coverage in Generative Models ( http://arxiv.org/abs/2004.03355v3 )

ライセンス: Link先を確認
Ning Yu, Ke Li, Peng Zhou, Jitendra Malik, Larry Davis, Mario Fritz(参考訳) GAN(Generative Adversarial Networks)は、フォトリアリスティック画像の生成に向けて急速に進歩している。 しかし、サブグループ間のモデリング能力の均等な配分は、あまり制御されていないマイノリティに対する潜在的なバイアスをもたらす可能性があるとして、あまり注目されていない。 本研究ではまず,データカバレッジの1つとしてマイノリティー・インクルージョンの問題を定式化し,その上で,コンストラクティブ・ジェネレーションと敵対的トレーニングを調和させてデータカバレッジを改善することを提案する。 実験の結果,本手法は実データと未発見データの両方のデータカバレッジにおいて,既存の最先端手法よりも優れていることがわかった。 我々は、モデルが含めるべき少数小グループを明示的に制御できる拡張を開発し、データセット全体の全体的なパフォーマンスからほとんど妥協なくその有効性を検証します。 コード、モデル、補足ビデオはgithubから入手できる。

Generative Adversarial Networks (GANs) have brought about rapid progress towards generating photorealistic images. Yet the equitable allocation of their modeling capacity among subgroups has received less attention, which could lead to potential biases against underrepresented minorities if left uncontrolled. In this work, we first formalize the problem of minority inclusion as one of data coverage, and then propose to improve data coverage by harmonizing adversarial training with reconstructive generation. The experiments show that our method outperforms the existing state-of-the-art methods in terms of data coverage on both seen and unseen data. We develop an extension that allows explicit control over the minority subgroups that the model should ensure to include, and validate its effectiveness at little compromise from the overall performance on the entire dataset. Code, models, and supplemental videos are available at GitHub.
翻訳日:2022-12-16 00:25:16 公開日:2020-08-23
# 解釈可能な薬物・標的相互作用予測のための多視点セルフアテンション

Multi-View Self-Attention for Interpretable Drug-Target Interaction Prediction ( http://arxiv.org/abs/2005.00397v2 )

ライセンス: Link先を確認
Brighter Agyemang and Wei-Ping Wu and Michael Yelpengne Kpiebaareh and Zhihua Lei and Ebenezer Nanor and Lei Chen(参考訳) 薬物発見段階は、医薬品開発プロセスの重要な側面であり、開発パイプラインの初期段階の一部を形成する。 近年では、これらの手法を他の領域に応用することで、合理的な薬物発見のための薬物標的相互作用のモデル化に機械学習ベースの手法が積極的に用いられている。 機械学習のアプローチでは、分子の数値表現がモデルの性能に不可欠である。 分子表現工学において大きな進歩があったが、これは標的と化合物の両方にいくつかの記述子をもたらした。 また、モデル予測の解釈性は、いくつかの薬理学的応用をもたらす重要な特徴である。 本研究では,薬物-標的相互作用をモデル化するための自己注意に基づく多視点表現学習手法を提案する。 3つのベンチマークキナーゼデータセットを用いてアプローチを評価し,提案手法をベースラインモデルと比較した。 実験結果から,本手法が競合予測性能を実現し,生物学的に妥当な薬物-標的相互作用の解釈を提供することを示す。

The drug discovery stage is a vital aspect of the drug development process and forms part of the initial stages of the development pipeline. In recent times, machine learning-based methods are actively being used to model drug-target interactions for rational drug discovery due to the successful application of these methods in other domains. In machine learning approaches, the numerical representation of molecules is critical to the performance of the model. While significant progress has been made in molecular representation engineering, this has resulted in several descriptors for both targets and compounds. Also, the interpretability of model predictions is a vital feature that could have several pharmacological applications. In this study, we propose a self-attention-based multi-view representation learning approach for modeling drug-target interactions. We evaluated our approach using three benchmark kinase datasets and compared the proposed method to some baseline models. Our experimental results demonstrate the ability of our method to achieve competitive prediction performance and offer biologically plausible drug-target interaction interpretations.
翻訳日:2022-12-07 23:09:09 公開日:2020-08-23
# 非微分的誤測の単調性について

On the Monotonicity of a Nondifferentially Mismeasured Binary Confounder ( http://arxiv.org/abs/2005.13245v9 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) この関係がバイナリ共同設立者によって結合された結果に対するバイナリ処理の平均因果効果に興味があるとする。 共同設立者が観察されていないが、その非微分プロキシが観察されていると仮定する。 実証的に検証可能なある種の単調性仮定の下では、プロキシの調整は、調整されていない尺度と真の尺度の間の効果の尺度を生成する。

Suppose that we are interested in the average causal effect of a binary treatment on an outcome when this relationship is confounded by a binary confounder. Suppose that the confounder is unobserved but a nondifferential proxy of it is observed. We show that, under certain monotonicity assumption that is empirically verifiable, adjusting for the proxy produces a measure of the effect that is between the unadjusted and the true measures.
翻訳日:2022-11-28 08:29:56 公開日:2020-08-23
# 近似の硬さが学習の硬さと出会うとき

When Hardness of Approximation Meets Hardness of Learning ( http://arxiv.org/abs/2008.08059v2 )

ライセンス: Link先を確認
Eran Malach, Shai Shalev-Shwartz(参考訳) 教師付き学習アルゴリズムはラベル付きサンプルの分布にアクセスでき、サンプルを正しくラベル付けする関数(仮説)を返す必要がある。 学習者の仮説は、いくつかの固定された種類の関数(線形分類器、ニューラルネットワークなど)から取られる。 学習アルゴリズムの失敗は、仮説クラス(近似のハードネス)の間違った選択、あるいは仮説クラス(学習のハードネス)の中で最高の関数を見つけるのに失敗する2つの理由により起こりうる。 近似も学習性もアルゴリズムの成功には重要であるが、通常は別々に研究されている。 本研究では,線形クラスと浅層ネットワークを用いた近似の硬さと,相関クエリと勾配descentを用いた学習の硬さを示唆する単一硬さ特性を示す。 これにより、パリティ関数、DNF式および$AC^0$回路の近似と学習性に関する新しい結果が得られる。

A supervised learning algorithm has access to a distribution of labeled examples, and needs to return a function (hypothesis) that correctly labels the examples. The hypothesis of the learner is taken from some fixed class of functions (e.g., linear classifiers, neural networks etc.). A failure of the learning algorithm can occur due to two possible reasons: wrong choice of hypothesis class (hardness of approximation), or failure to find the best function within the hypothesis class (hardness of learning). Although both approximation and learnability are important for the success of the algorithm, they are typically studied separately. In this work, we show a single hardness property that implies both hardness of approximation using linear classes and shallow networks, and hardness of learning using correlation queries and gradient-descent. This allows us to obtain new results on hardness of approximation and learnability of parity functions, DNF formulas and $AC^0$ circuits.
翻訳日:2022-10-27 20:54:12 公開日:2020-08-23
# good graph to optimize: visual slamにおけるコスト効率と予算対応バンドル調整

Good Graph to Optimize: Cost-Effective, Budget-Aware Bundle Adjustment in Visual SLAM ( http://arxiv.org/abs/2008.10123v1 )

ライセンス: Link先を確認
Yipu Zhao, Justin S. Smith, Patricio A. Vela(参考訳) ビジュアル(慣性)SLAM(VSLAM)のコスト効率は、リソース制限されたアプリケーションの重要な特徴である。 ハードウェアとアルゴリズムの進歩はVSLAMフロントエンドのコスト効率を大幅に改善したが、VSLAMバックエンドのコスト効率は依然としてボトルネックとなっている。 本稿では,BAベースのVSLAMバックエンドにおけるローカルBAのコスト効率を向上させるための,新しい厳密な手法について述べる。 Good Graphと呼ばれる効率的なアルゴリズムは、ローカルBAに最適化されたサイズ再現グラフを条件保存で選択するために開発された。 BAベースのVSLAMバックエンドに合うように、Good Graphは将来の見積もりニーズを予測し、適切なサイズ予算を動的に割り当て、BA推定のための条件最大化サブグラフを選択する。 評価は2つのシナリオで行われる。 1)独立プロセスとしてのVSLAM,及び 2) 閉ループナビゲーションシステムの一部としてのVSLAM。 最初のシナリオでは、計算限界が存在する場合、グッドグラフはVSLAM推定の精度と堅牢性を改善する。 第2のシナリオから得られた結果は、よいグラフは、vslamの主要なアプリケーションである、vslamベースのクローズドループナビゲーションシステムの軌道追跡性能に有益であることを示している。

The cost-efficiency of visual(-inertial) SLAM (VSLAM) is a critical characteristic of resource-limited applications. While hardware and algorithm advances have been significantly improved the cost-efficiency of VSLAM front-ends, the cost-efficiency of VSLAM back-ends remains a bottleneck. This paper describes a novel, rigorous method to improve the cost-efficiency of local BA in a BA-based VSLAM back-end. An efficient algorithm, called Good Graph, is developed to select size-reduced graphs optimized in local BA with condition preservation. To better suit BA-based VSLAM back-ends, the Good Graph predicts future estimation needs, dynamically assigns an appropriate size budget, and selects a condition-maximized subgraph for BA estimation. Evaluations are conducted on two scenarios: 1) VSLAM as standalone process, and 2) VSLAM as part of closed-loop navigation system. Results from the first scenario show Good Graph improves accuracy and robustness of VSLAM estimation, when computational limits exist. Results from the second scenario, indicate that Good Graph benefits the trajectory tracking performance of VSLAM-based closed-loop navigation systems, which is a primary application of VSLAM.
翻訳日:2022-10-26 03:22:44 公開日:2020-08-23
# 彼らはマスクを着ています! x-vectorとfisher vectorを用いた音声からの手術用マスク着用者の同定

They are wearing a mask! Identification of Subjects Wearing a Surgical Mask from their Speech by means of x-vectors and Fisher Vectors ( http://arxiv.org/abs/2008.10014v1 )

ライセンス: Link先を確認
Jos\'e Vicente Egas-L\'opez(参考訳) InterSPEECH Conferenceにおける計算パラ言語学に基づく課題は、その競争的な学術的・研究的な要求により、参加者の間で常に好意的に受け入れられてきた。 今年、InterSPEECH 2020 Computational Paralinguistics Challengeは3つの異なる問題を提起した。 この課題は、手術用マスクを着用して被写体から録音された音声の分類である。 本研究では,上記の問題に対処するために,2種類の特徴抽出手法を用いる。 話者認識における現在最先端の手法であるxベクトル埋め込みと、元来は画像認識を目的とした手法であるFisher Vector(FV)を用いるが、ここでは発話の識別に利用する。 これらのアプローチは、mfccとplpという異なるフレームレベルの表現を用いる。 サポートベクターマシン(svm)を分類器として使用し,fvエンコーディングの性能と,この特定分類タスクにおけるx-vector組込みの技術的比較を行った。 Fisherベクトル符号化は、この特定のデータセットに対して行うxベクトルよりも発話の表現が優れている。 さらに,最適構成の融合は,Mask Sub-Challengeのすべてのベースラインスコアより優れていることを示す。

Challenges based on Computational Paralinguistics in the INTERSPEECH Conference have always had a good reception among the attendees owing to its competitive academic and research demands. This year, the INTERSPEECH 2020 Computational Paralinguistics Challenge offers three different problems; here, the Mask Sub-Challenge is of specific interest. This challenge involves the classification of speech recorded from subjects while wearing a surgical mask. In this study, to address the above-mentioned problem we employ two different types of feature extraction methods. The x-vectors embeddings, which is the current state-of-the-art approach for Speaker Recognition; and the Fisher Vector (FV), that is a method originally intended for Image Recognition, but here we utilize it to discriminate utterances. These approaches employ distinct frame-level representations: MFCC and PLP. Using Support Vector Machines (SVM) as the classifier, we perform a technical comparison between the performances of the FV encodings and the x-vector embeddings for this particular classification task. We find that the Fisher vector encodings provide better representations of the utterances than the x-vectors do for this specific dataset. Moreover, we show that a fusion of our best configurations outperforms all the baseline scores of the Mask Sub-Challenge.
翻訳日:2022-10-26 03:21:06 公開日:2020-08-23
# 多人数全身ポーズ推定

Multi-Person Full Body Pose Estimation ( http://arxiv.org/abs/2008.10060v1 )

ライセンス: Link先を確認
Haoyi Zhu, Cheng Jie, Shaofei Jiang(参考訳) 多人数のポーズ推定は多くの分野において重要な役割を果たす。 従来の研究は、人間のポーズ推定の様々な部分について多くの研究を行ってきたが、マルチパーソンのフルボディポーズ推定は、まださらなる研究が必要である。 本研究は,全身のポーズを推定できる知識蒸留による統合モデルを開発した。 AlphaPoseシステムとMSCOCO2017データセットに基づいてトレーニングされ、我々のモデルは手動で注釈付けされた検証データセット上で51.5mAPを達成する。 関連リソースはhttps://esflfei.github.io/esflfei.gethub.io/website.htmlで入手できる。

Multi-person pose estimation plays an important role in many fields. Although previous works have researched a lot on different parts of human pose estimation, full body pose estimation for multi-person still needs further research. Our work has developed an integrated model through knowledge distillation which can estimate full body poses. Trained based on the AlphaPose system and MSCOCO2017 dataset, our model achieves 51.5 mAP on the validation dataset annotated manually by ourselves. Related resources are available at https://esflfei.github.io/esflfei.gethub.io/website.html.
翻訳日:2022-10-26 03:13:29 公開日:2020-08-23
# 敵対的事例の開発と定義

Developing and Defeating Adversarial Examples ( http://arxiv.org/abs/2008.10106v1 )

ライセンス: Link先を確認
Ian McDiarmid-Sterling and Allan Moser(参考訳) 機械学習のブレークスルーは、最先端のディープニューラルネットワーク(DNN)が安全クリティカルなアプリケーションで分類タスクを実行する結果となった。 近年の研究では、DNNがオブジェクトを誤分類する原因となる入力データに対する小さな摂動である敵例を通じてDNNを攻撃できることが示されている。 dnnの普及は、敵対的な例にロバストなシステムを設計する上で重要な安全性上の懸念を引き起こす。 本研究は,ヨーロV3物体検出器[1]を攻撃し,これらのサンプルを検出し中和するための戦略を研究する。 このプロジェクトのpythonコードはhttps://github.com/ianmcdiarmidsterling/adversarialで入手できる。

Breakthroughs in machine learning have resulted in state-of-the-art deep neural networks (DNNs) performing classification tasks in safety-critical applications. Recent research has demonstrated that DNNs can be attacked through adversarial examples, which are small perturbations to input data that cause the DNN to misclassify objects. The proliferation of DNNs raises important safety concerns about designing systems that are robust to adversarial examples. In this work we develop adversarial examples to attack the Yolo V3 object detector [1] and then study strategies to detect and neutralize these examples. Python code for this project is available at https://github.com/ianmcdiarmidsterling/adversarial
翻訳日:2022-10-26 03:13:21 公開日:2020-08-23
# Vision at a Glance: きめ細かい情報処理経路と粗い情報処理経路の相互作用

Vision at A Glance: Interplay between Fine and Coarse Information Processing Pathways ( http://arxiv.org/abs/2009.05101v1 )

ライセンス: Link先を確認
Zilong Ji, Xiaolong Zou, Tiejun Huang, Si Wu(参考訳) 物体認識はしばしば、機械学習におけるフィードフォワード、ボトムアッププロセスと見なされるが、実際のニューラルネットワークでは、物体認識は2つの信号経路間の相互作用を伴う複雑なプロセスである。 一つはパーボセル経路(p-pathway)で、スローでオブジェクトの細かい特徴を抽出し、もう一つは高速で粗い特徴を抽出するマグノセル経路(m-pathway)である。 2つの経路間の相互作用は、視覚情報を迅速に、適応的に、堅牢に処理する能力を持つ神経系を導くことが示唆されている。 しかし、基礎となる計算機構はほとんど不明である。 本研究では,二つの経路間の相互作用に関連する計算上の優位性を解明する計算モデルを構築する。 我々のモデルは2つの畳み込みニューラルネットワークで構成されている: 1つはPパスを模倣し、もう1つは深く、小さなカーネルを持ち、詳細な視覚入力を受け取り、もう1つは、浅いコアスネットと呼ばれるMパスを模倣し、大きなカーネルを持ち、低パスフィルタリングまたは双対化視覚入力を受け取ります。 2つの経路は制限ボルツマン機械を介して相互作用する。 私たちはそれを見つけました 1) FineNetは、模倣を通じてCoarseNetを教えることができ、その性能を大幅に向上させることができる。 2 粗いネットは、ファインネットのノイズ堅牢性を向上させることができる。 3) CoarseNet の出力は,FineNet の性能向上のための認知バイアスとして機能する。 本研究は,視覚情報処理の理解と,新たなオブジェクト認識アーキテクチャの開発を促すための知見を提供する。

Object recognition is often viewed as a feedforward, bottom-up process in machine learning, but in real neural systems, object recognition is a complicated process which involves the interplay between two signal pathways. One is the parvocellular pathway (P-pathway), which is slow and extracts fine features of objects; the other is the magnocellular pathway (M-pathway), which is fast and extracts coarse features of objects. It has been suggested that the interplay between the two pathways endows the neural system with the capacity of processing visual information rapidly, adaptively, and robustly. However, the underlying computational mechanisms remain largely unknown. In this study, we build a computational model to elucidate the computational advantages associated with the interactions between two pathways. Our model consists of two convolution neural networks: one mimics the P-pathway, referred to as FineNet, which is deep, has small-size kernels, and receives detailed visual inputs; the other mimics the M-pathway, referred to as CoarseNet, which is shallow, has large-size kernels, and receives low-pass filtered or binarized visual inputs. The two pathways interact with each other via a Restricted Boltzmann Machine. We find that: 1) FineNet can teach CoarseNet through imitation and improve its performance considerably; 2) CoarseNet can improve the noise robustness of FineNet through association; 3) the output of CoarseNet can serve as a cognitive bias to improve the performance of FineNet. We hope that this study will provide insight into understanding visual information processing and inspire the development of new object recognition architectures.
翻訳日:2022-10-26 03:13:11 公開日:2020-08-23
# 陰謀と陰謀論の物語フレームワークの発見のための自動パイプライン:ウェブ上でのブリッジゲート、ピザゲート、ストーリーテリング

An automated pipeline for the discovery of conspiracy and conspiracy theory narrative frameworks: Bridgegate, Pizzagate and storytelling on the web ( http://arxiv.org/abs/2008.09961v1 )

ライセンス: Link先を確認
Timothy R. Tangherlini, Shadi Shahsavari, Behnam Shahbazi, Ehsan Ebrahimzadeh, Vwani Roychowdhury(参考訳) 陰謀論がソーシャルメディアやその事実に反する陰謀にどのように広まるかについては、多くの注意が払われているが、彼らの物語構造を記述するための計算作業はほとんど行われていない。 本稿では,ソーシャルメディア上の陰謀論の生成的ナラティブ・フレームワークの発見と説明のための自動化パイプラインと,ニュースメディアで報告された実際の陰謀について述べる。 この研究は、2016年の共謀説であるpizzagateと、2013年のニュージャージー州共謀のbridgegateに関する2つの投稿とニュース記事に基づいています。 ノードがアクター/アクターを表現し、ノード間のマルチエッジと自己ループがコンテキスト固有の関係をキャプチャするグラフィカルな生成機械学習モデルを定式化する。 投稿やニュースの項目は、隠れ物語ネットワークのサブグラフのサンプルと見なされる。 基礎構造を再構築する問題は潜在モデル推定問題として提起される。 我々は、投稿や記事から自動的にアクティベートとその関係を抽出・集約する。 超ノードとサブノードのシステムを開発することにより、コンテキスト固有のアクタントと相互作用関係を捉える。 我々はこれらを用いて、基礎となる物語の枠組みを構成するネットワークを構築する。 ピザゲートの枠組みは、陰謀論者による「隠れた知識」の解釈に頼り、そうでなければ人間同士の相互作用の無関係な領域をリンクし、この多分野の焦点が陰謀論の重要な特徴であると仮説を立てる。 ピザゲートは複数のドメインのアライメントに依存しているが、ブリッジゲートはニュージャージー州の単一ドメイン政治に固執している。 我々は、陰謀論の物語的枠組みは、啓示が明るみになるとよりゆっくりと発達する実際の陰謀の物語的枠組みとは対照的に、急速に安定化するのではないかと仮定する。

Although a great deal of attention has been paid to how conspiracy theories circulate on social media and their factual counterpart conspiracies, there has been little computational work done on describing their narrative structures. We present an automated pipeline for the discovery and description of the generative narrative frameworks of conspiracy theories on social media, and actual conspiracies reported in the news media. We base this work on two separate repositories of posts and news articles describing the well-known conspiracy theory Pizzagate from 2016, and the New Jersey conspiracy Bridgegate from 2013. We formulate a graphical generative machine learning model where nodes represent actors/actants, and multi-edges and self-loops among nodes capture context-specific relationships. Posts and news items are viewed as samples of subgraphs of the hidden narrative network. The problem of reconstructing the underlying structure is posed as a latent model estimation problem. We automatically extract and aggregate the actants and their relationships from the posts and articles. We capture context specific actants and interactant relationships by developing a system of supernodes and subnodes. We use these to construct a network, which constitutes the underlying narrative framework. We show how the Pizzagate framework relies on the conspiracy theorists' interpretation of "hidden knowledge" to link otherwise unlinked domains of human interaction, and hypothesize that this multi-domain focus is an important feature of conspiracy theories. While Pizzagate relies on the alignment of multiple domains, Bridgegate remains firmly rooted in the single domain of New Jersey politics. We hypothesize that the narrative framework of a conspiracy theory might stabilize quickly in contrast to the narrative framework of an actual one, which may develop more slowly as revelations come to light.
翻訳日:2022-10-26 03:12:45 公開日:2020-08-23
# オンライン共同センシングトレーシングによる新興アプリの課題同定

Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing ( http://arxiv.org/abs/2008.09976v1 )

ライセンス: Link先を確認
Cuiyun Gao, Jichuan Zeng, Zhiyuan Wen, David Lo, Xin Xia, Irwin King, Michael R. Lyu(参考訳) AppleのApp StoreやGoogle Playなど,数百万のモバイルアプリがアプリストアで利用可能だ。 モバイルアプリにとって、巨大なライバルたちと対決し、ユーザーの間で普及していくことはますます難しくなるだろう。 良いユーザー体験とよく設計された機能が、成功するアプリの鍵だ。 これを実現するために、人気のあるアプリは更新を頻繁にスケジュールする。 ユーザが直面する重要なアプリの問題をタイムリーで正確な方法で捉えることができれば、開発者はタイムリーにアップデートでき、優れたユーザエクスペリエンスが確保できます。 アプリ問題検出のためのレビュー分析に関する先行研究がある。 これらの研究は通常、トピックモデリングやクラスタリング技術に基づいている。 しかし,ユーザレビューの短期的特徴や感情は考慮されていない。 本稿では,上記の2つの特徴を考慮に入れたMERITという新しい問題検出手法を提案する。 具体的には、アプリケーションのバージョンを考慮したトピックとそれに対応する感情を共同でモデル化するAdaptive Online Biterm Sentiment-Topic(AOBST)モデルを提案する。 AOBSTモデルに基づいて、あるアプリのユーザレビューに否定的に反映されたトピックを推測し、最も関連するフレーズや文でトピックの意味を自動的に解釈する。 Google PlayとAppleのApp Storeの人気のアプリに対する実験は、新興アプリの問題の特定におけるMERITの有効性を示し、F1スコアの観点から最先端のメソッドを22.3%改善した。 効率の面では、MERITは許容時間内に結果を返すことができる。

Millions of mobile apps are available in app stores, such as Apple's App Store and Google Play. For a mobile app, it would be increasingly challenging to stand out from the enormous competitors and become prevalent among users. Good user experience and well-designed functionalities are the keys to a successful app. To achieve this, popular apps usually schedule their updates frequently. If we can capture the critical app issues faced by users in a timely and accurate manner, developers can make timely updates, and good user experience can be ensured. There exist prior studies on analyzing reviews for detecting emerging app issues. These studies are usually based on topic modeling or clustering techniques. However, the short-length characteristics and sentiment of user reviews have not been considered. In this paper, we propose a novel emerging issue detection approach named MERIT to take into consideration the two aforementioned characteristics. Specifically, we propose an Adaptive Online Biterm Sentiment-Topic (AOBST) model for jointly modeling topics and corresponding sentiments that takes into consideration app versions. Based on the AOBST model, we infer the topics negatively reflected in user reviews for one app version, and automatically interpret the meaning of the topics with most relevant phrases and sentences. Experiments on popular apps from Google Play and Apple's App Store demonstrate the effectiveness of MERIT in identifying emerging app issues, improving the state-of-the-art method by 22.3% in terms of F1-score. In terms of efficiency, MERIT can return results within acceptable time.
翻訳日:2022-10-26 03:12:15 公開日:2020-08-23
# ギャップを埋める:不適切なモデル化されたダイナミクスを解決する機械学習

Bridging the Gap: Machine Learning to Resolve Improperly Modeled Dynamics ( http://arxiv.org/abs/2008.12642v1 )

ライセンス: Link先を確認
Maan Qraitem, Dhanushka Kularatne, Eric Forgoston, M. Ani Hsieh(参考訳) 複雑な時空間的挙動を示すシステムの不適切にモデル化されたダイナミクスを克服するためのデータ駆動モデリング戦略を提案する。 本稿では,システムの真のダイナミクスと,不正確あるいは不適切に記述されたシステムのモデルによって与えられるダイナミクスとの差異を解決するための深層学習フレームワークを提案する。 我々の機械学習戦略は、不適切なシステムモデルから生成されたデータと実際のシステムの観測データを利用して、実際のシステムのダイナミクスをモデル化するニューラルネットワークを作成する。 3つの複雑な力学系から得られる数値解を用いて,提案手法を評価する。 その結果,従来観測されていなかった領域と将来の状態の両方において,システム状態の正確な推定を行うデータ駆動モデルが学習可能であることがわかった。 以上の結果から,有限地平線までの予測に使用できるシステムの真の力学の精度を推定する上で,最先端の機械学習フレームワークの能力を示す。

We present a data-driven modeling strategy to overcome improperly modeled dynamics for systems exhibiting complex spatio-temporal behaviors. We propose a Deep Learning framework to resolve the differences between the true dynamics of the system and the dynamics given by a model of the system that is either inaccurately or inadequately described. Our machine learning strategy leverages data generated from the improper system model and observational data from the actual system to create a neural network to model the dynamics of the actual system. We evaluate the proposed framework using numerical solutions obtained from three increasingly complex dynamical systems. Our results show that our system is capable of learning a data-driven model that provides accurate estimates of the system states both in previously unobserved regions as well as for future states. Our results show the power of state-of-the-art machine learning frameworks in estimating an accurate prior of the system's true dynamics that can be used for prediction up to a finite horizon.
翻訳日:2022-10-26 03:11:56 公開日:2020-08-23
# デコンプレックス:コロケーションロボットによる複雑な自然命令からのタスク計画

DeComplex: Task planning from complex natural instructions by a collocating robot ( http://arxiv.org/abs/2008.10084v1 )

ライセンス: Link先を確認
Pradip Pramanick, Hrishav Bakul Barua, Chayan Sarkar(参考訳) 家庭、オフィス、レストラン、工場のフロアなどの日常生活環境におけるロボットの数は急速に増加しており、ロボットの使いやすさや受容性を規定する自然とロボットの相互作用機構の開発が不可欠になっている。 このような共生ロボットの特徴の1つは、自然言語で指示されたタスクを実行することである。 しかし、自然言語表現は言語的変化が大きいため、人間の意図したタスクを実行することは容易ではない。 既存の作業では、一度に1つのタスク命令がロボットに与えられるか、命令に複数の独立したタスクが存在すると仮定している。 しかし、複数の相互依存タスクからなる複雑なタスク命令は、文献では効率的に処理されない。 タスク間の依存関係の順序付け、すなわちタスクを特定の順序で実行する必要がある、あるいは実行依存性がある可能性がある、例えば、入力パラメータやタスクの実行は他のタスクの結果に依存する。 複雑な命令でそのような依存関係を理解することは、制約のない自然言語が許される場合、簡単ではない。 本研究では,自然言語命令で与えられた複数の相互依存タスクの実行順序を求める手法を提案する。 本実験から,複雑な命令から実行可能な実行計画を生成する上で,システムは非常に正確であることを示す。

As the number of robots in our daily surroundings like home, office, restaurants, factory floors, etc. are increasing rapidly, the development of natural human-robot interaction mechanism becomes more vital as it dictates the usability and acceptability of the robots. One of the valued features of such a cohabitant robot is that it performs tasks that are instructed in natural language. However, it is not trivial to execute the human intended tasks as natural language expressions can have large linguistic variations. Existing works assume either single task instruction is given to the robot at a time or there are multiple independent tasks in an instruction. However, complex task instructions composed of multiple inter-dependent tasks are not handled efficiently in the literature. There can be ordering dependency among the tasks, i.e., the tasks have to be executed in a certain order or there can be execution dependency, i.e., input parameter or execution of a task depends on the outcome of another task. Understanding such dependencies in a complex instruction is not trivial if an unconstrained natural language is allowed. In this work, we propose a method to find the intended order of execution of multiple inter-dependent tasks given in natural language instruction. Based on our experiment, we show that our system is very accurate in generating a viable execution plan from a complex instruction.
翻訳日:2022-10-26 03:11:20 公開日:2020-08-23
# 新型コロナウイルスパンデミック:ソーシャルメディアと自然言語処理による課題の特定

COVID-19 Pandemic: Identifying Key Issues using Social Media and Natural Language Processing ( http://arxiv.org/abs/2008.10022v1 )

ライセンス: Link先を確認
Oladapo Oyebode, Chinenye Ndulue, Dinesh Mulchandani, Banuchitra Suruliraj, Ashfaq Adib, Fidelia Anulika Orji, Evangelos Milios, Stan Matwin, and Rita Orji(参考訳) 新型コロナウイルスのパンデミックは、多くの点で人々の生活に影響を与えている。 ソーシャルメディアのデータは、パンデミックに対する大衆の認識や経験を明らかにし、この病気の世界的な拡散を抑制するための努力を妨げたり支援したりする要因を明らかにする。 本稿では、自然言語処理(nlp)技術を用いて、6つのソーシャルメディアプラットフォームから収集されたcovid-19関連コメントを分析した。 ランダムに選択された100万以上のコメントから関連する意見キーフレーズとその感情極性(否定的あるいは肯定的)を特定し,テーマ分析を用いてより広いテーマに分類した。 その結果,経済問題,社会政治問題,教育問題,政治問題など17項目中,34項目の否定的テーマが明らかになった。 20のポジティブテーマも特定された。 ネガティブな問題を議論し、ポジティブなテーマと研究証拠に基づいて対処するための介入を提案する。

The COVID-19 pandemic has affected people's lives in many ways. Social media data can reveal public perceptions and experience with respect to the pandemic, and also reveal factors that hamper or support efforts to curb global spread of the disease. In this paper, we analyzed COVID-19-related comments collected from six social media platforms using Natural Language Processing (NLP) techniques. We identified relevant opinionated keyphrases and their respective sentiment polarity (negative or positive) from over 1 million randomly selected comments, and then categorized them into broader themes using thematic analysis. Our results uncover 34 negative themes out of which 17 are economic, socio-political, educational, and political issues. 20 positive themes were also identified. We discuss the negative issues and suggest interventions to tackle them based on the positive themes and research evidence.
翻訳日:2022-10-26 03:10:57 公開日:2020-08-23
# 音声言語理解におけるスロットフィリングのためのリカレントニューラルネットワークにおける変分推論に基づくドロップアウト

Variational Inference-Based Dropout in Recurrent Neural Networks for Slot Filling in Spoken Language Understanding ( http://arxiv.org/abs/2009.01003v1 )

ライセンス: Link先を確認
Jun Qi, Xu Liu, Javier Tejedor(参考訳) 本稿では、長寿命メモリ(LSTM)セルに使用される変動推論(VI)に基づくドロップアウト正規化を、ゲートリカレントユニット(GRU)や双方向LSTM/GRUのようなより高度なRNNアーキテクチャに一般化することを提案する。 新しい変分RNNはスロットフィリングに使われており、これは音声言語理解において興味深いが難しい課題である。 ATISデータセットを用いた実験結果から,VIベースのドロップアウト正規化による変動RNNは,F尺度の点から,素早いドロップアウト正規化RNNベースのベースラインシステムを大幅に改善する可能性が示唆された。 特に、双方向LSTM/GRUを有する変動RNNは、最良のF測定スコアを得る。

This paper proposes to generalize the variational recurrent neural network (RNN) with variational inference (VI)-based dropout regularization employed for the long short-term memory (LSTM) cells to more advanced RNN architectures like gated recurrent unit (GRU) and bi-directional LSTM/GRU. The new variational RNNs are employed for slot filling, which is an intriguing but challenging task in spoken language understanding. The experiments on the ATIS dataset suggest that the variational RNNs with the VI-based dropout regularization can significantly improve the naive dropout regularization RNNs-based baseline systems in terms of F-measure. Particularly, the variational RNN with bi-directional LSTM/GRU obtains the best F-measure score.
翻訳日:2022-10-26 03:10:41 公開日:2020-08-23
# ロバスト・ヴィジョン・チャレンジ2020 -- 第1回パンオプティカルセグメンテーション報告

Robust Vision Challenge 2020 -- 1st Place Report for Panoptic Segmentation ( http://arxiv.org/abs/2008.10112v1 )

ライセンス: Link先を確認
Rohit Mohan and Abhinav Valada(参考訳) 本技術報告では,勝利したパノプティックセグメンテーションアーキテクチャ EffPS_b1bs4_RVC について述べる。 提案する共有バックボーンをエンコーダとして修正した efficientnet-b5 モデルと,セマンティクス的にリッチなマルチスケール機能を学ぶための 2-way fpn とを組み合わせた,最先端の efficientps アーキテクチャの軽量版です。 タスク固有の2つのヘッド、修正されたMask R-CNNインスタンスヘッドと、コヒーレントな特徴改善のための特別なモジュールで異なるスケールの特徴を処理する新しいセマンティックセグメンテーションヘッドで構成されている。 最後に,提案するpanoptic fusionモジュールは,各ヘッドからロジットを適応的に融合してpanoptic segmentation出力を生成する。 Robust Vision Challenge 2020ベンチマーク結果によると、当社のモデルはMicrosoft COCO、VIPER、WildDashで第1位、Cityscapes、Mapillary Vistasで第2位、パン光学セグメンテーションタスクで第1位にランクされている。

In this technical report, we present key details of our winning panoptic segmentation architecture EffPS_b1bs4_RVC. Our network is a lightweight version of our state-of-the-art EfficientPS architecture that consists of our proposed shared backbone with a modified EfficientNet-B5 model as the encoder, followed by the 2-way FPN to learn semantically rich multi-scale features. It consists of two task-specific heads, a modified Mask R-CNN instance head and our novel semantic segmentation head that processes features of different scales with specialized modules for coherent feature refinement. Finally, our proposed panoptic fusion module adaptively fuses logits from each of the heads to yield the panoptic segmentation output. The Robust Vision Challenge 2020 benchmarking results show that our model is ranked #1 on Microsoft COCO, VIPER and WildDash, and is ranked #2 on Cityscapes and Mapillary Vistas, thereby achieving the overall rank #1 for the panoptic segmentation task.
翻訳日:2022-10-26 03:04:44 公開日:2020-08-23
# オンラインレビューの有益性予測

Predicting Helpfulness of Online Reviews ( http://arxiv.org/abs/2008.10129v1 )

ライセンス: Link先を確認
Abdalraheem Alsmadi, Shadi AlZu'bi, Mahmoud Al-Ayyoub, Yaser Jararweh(参考訳) 電子商取引は世界の経済の大部分を占めており、オンライン販売に特化した多くのウェブサイトがある。 大部分のeコマースウェブサイトは顧客に対して、購入した製品やサービスについて意見を述べる機能を提供する。 これらのレビュー形式でのフィードバックは、ユーザの経験と満足度に関する豊富な情報ソースであり、プロデューサとコンシューマの両方にとって大きなメリットがあります。 しかし、これらのレビューはどれも役に立たない。 レビューの有用性を決定する従来の方法は、人間のユーザからのフィードバックを通じて行われる。 しかし、このような方法は必ずしもすべてのレビューをカバーするわけではない。 さらに、バイアスや高コストなど、多くの問題があります。 したがって、このプロセスを自動化する必要がある。 本稿では,オンラインレビューの有用性を予測するための機械学習(ML)モデルを提案する。 主に3つのアプローチが使用されている: 教師付き学習アプローチ(mlとディープラーニング(dl)モデル)、半教師付きアプローチ(dlモデルと単語埋め込みを組み合わせた)、および転送学習(tl)を使用する事前学習された単語埋め込みモデル。 後者の2つのアプローチは、最近のラベルなしテキストの利用傾向に従う中で、この論文のユニークな側面である。 その結果,提案するDLアプローチは従来のDLアプローチよりも優れていることがわかった。 さらに、半教師は他の教師に比べて顕著なパフォーマンスを持つ。

E-commerce dominates a large part of the world's economy with many websites dedicated to online selling products. The vast majority of e-commerce websites provide their customers with the ability to express their opinions about the products/services they purchase. These feedback in the form of reviews represent a rich source of information about the users' experiences and level of satisfaction, which is of great benefit to both the producer and the consumer. However, not all of these reviews are helpful/useful. The traditional way of determining the helpfulness of a review is through the feedback from human users. However, such a method does not necessarily cover all reviews. Moreover, it has many issues like bias, high cost, etc. Thus, there is a need to automate this process. This paper presents a set of machine learning (ML) models to predict the helpfulness online reviews. Mainly, three approaches are used: a supervised learning approach (using ML as well as deep learning (DL) models), a semi-supervised approach (that combines DL models with word embeddings), and pre-trained word embedding models that uses transfer learning (TL). The latter two approaches are among the unique aspects of this paper as they follow the recent trend of utilizing unlabeled text. The results show that the proposed DL approaches have superiority over the traditional existing ones. Moreover, the semi-supervised has a remarkable performance compared with the other ones.
翻訳日:2022-10-26 03:04:08 公開日:2020-08-23
# お金を賢明に使う - リアルタイムユーザインテント検出に基づくオンライン電子クーポンアロケーション

Spending Money Wisely: Online Electronic Coupon Allocation based on Real-Time User Intent Detection ( http://arxiv.org/abs/2008.09982v1 )

ライセンス: Link先を確認
Liangwei Li, Liucheng Sun, Chenwei Weng, Chengfu Huo, Weijun Ren(参考訳) オンライン電子クーポン(e-coupon)は、電子商取引プラットフォームがユーザーを引きつける主要なツールになりつつある。 e-couponは従来のペーパークーポンのデジタル版で、顧客にディスカウントやギフトを提供する。 関連する根本的な問題の1つは、ユーザーが注文する意欲を最大化しながら、e-couponを最小限のコストで提供する方法である。 我々はこの問題をクーポン割当問題と呼ぶ。 成熟したeプラットフォーム上の正規ユーザ数は数億に達し、割り当てられるe-couponのタイプは複数であることが多いため、これは簡単な問題ではない。 政策空間は極めて大きく、オンラインアロケーションは予算の制約を満たす必要がある。 また、ポリシー作成プロセスの不確実性を高める異なるポリシーの下で、あるユーザの応答を観察することはできない。 以前の作業はこれらの課題に対処できません。 本稿では,クーポン割当タスクをユーザ意図検出タスクと割当タスクという2つのサブタスクに分解する。 そこで,本研究では,第1段階(検出段階)において,ユーザ・カウンポンの特徴を入力として捉え,ユーザ・リアルタイムの意図を予測する新たなInstantaneous Intent Detection Network (IIDN)を提案し,第2段階(アロケーション段階)では,アロケーション問題を,検出段階で予測されたインテントを用いて,MCKP(Multiple-Choice Knapsack Problem)としてモデル化し,効率的なアロケーション手法を提案する。 大規模なオンラインおよびオフラインの実験を行い、その結果、提案したフレームワークの優位性を示し、プラットフォームに大きな利益をもたらし、オンラインで機能し続けています。

Online electronic coupon (e-coupon) is becoming a primary tool for e-commerce platforms to attract users to place orders. E-coupons are the digital equivalent of traditional paper coupons which provide customers with discounts or gifts. One of the fundamental problems related is how to deliver e-coupons with minimal cost while users' willingness to place an order is maximized. We call this problem the coupon allocation problem. This is a non-trivial problem since the number of regular users on a mature e-platform often reaches hundreds of millions and the types of e-coupons to be allocated are often multiple. The policy space is extremely large and the online allocation has to satisfy a budget constraint. Besides, one can never observe the responses of one user under different policies which increases the uncertainty of the policy making process. Previous work fails to deal with these challenges. In this paper, we decompose the coupon allocation task into two subtasks: the user intent detection task and the allocation task. Accordingly, we propose a two-stage solution: at the first stage (detection stage), we put forward a novel Instantaneous Intent Detection Network (IIDN) which takes the user-coupon features as input and predicts user real-time intents; at the second stage (allocation stage), we model the allocation problem as a Multiple-Choice Knapsack Problem (MCKP) and provide a computational efficient allocation method using the intents predicted at the detection stage. We conduct extensive online and offline experiments and the results show the superiority of our proposed framework, which has brought great profits to the platform and continues to function online.
翻訳日:2022-10-26 03:03:50 公開日:2020-08-23
# コンピュータ化のためのモバイルネットワーク

Mobile Networks for Computer Go ( http://arxiv.org/abs/2008.10080v1 )

ライセンス: Link先を確認
Tristan Cazenave(参考訳) alpha zeroやpolygamesといった深層強化学習プログラムで使用されるニューラルネットワークのアーキテクチャは、結果として得られるプレイエンジンのパフォーマンスに大きな影響を与えることが示されている。 例えば、残留ネットワークの使用は、Alpha Goの強度を600 ELO増加させた。 本稿では、教師付き学習とポリシーヘッドとAlpha Zeroヘッドとは異なる値ヘッドの使用により、Goのゲームに対するモバイルネットワークの関心を評価することを提案する。 ポリシーの正確性、値の平均二乗誤差、パラメータ数によるネットワークの効率、トレーニングされたネットワークの演奏速度、強度を評価する。

The architecture of the neural networks used in Deep Reinforcement Learning programs such as Alpha Zero or Polygames has been shown to have a great impact on the performances of the resulting playing engines. For example the use of residual networks gave a 600 ELO increase in the strength of Alpha Go. This paper proposes to evaluate the interest of Mobile Network for the game of Go using supervised learning as well as the use of a policy head and a value head different from the Alpha Zero heads. The accuracy of the policy, the mean squared error of the value, the efficiency of the networks with the number of parameters, the playing speed and strength of the trained networks are evaluated.
翻訳日:2022-10-26 03:03:22 公開日:2020-08-23
# 機械学習と確率論手法を用いた医療データの不確実性処理:30年間のレビュー(1991-2020)

Handling of uncertainty in medical data using machine learning and probability theory techniques: A review of 30 years (1991-2020) ( http://arxiv.org/abs/2008.10114v1 )

ライセンス: Link先を確認
Roohallah Alizadehsani, Mohamad Roshanzamir, Sadiq Hussain, Abbas Khosravi, Afsaneh Koohestani, Mohammad Hossein Zangooei, Moloud Abdar, Adham Beykikhoshk, Afshin Shoeibi, Assef Zare, Maryam Panahiazar, Saeid Nahavandi, Dipti Srinivasan, Amir F. Atiya, U. Rajendra Acharya(参考訳) データを理解し、妥当な結論に達することは、ビッグデータの時代において最も重要なことです。 機械学習と確率論の手法は、異なる分野でこの目的に広く応用されている。 データとモデルの不確実性をキャプチャして分析する方法が重要である。 不確実性の適切な定量化は、最適な意思決定に有用な情報を提供する。 本稿では,過去30年間(1991年から2020年まで)に行われた医療データの不確実性について,確率論と機械学習技術を用いて検討した。 医療データは、データにノイズが存在するため、不確実性が高まる。 したがって、正確な診断を得るために、ノイズのないクリーンな医療データを持つことは非常に重要です。 医療データのノイズ源は、この問題に対処するために知っておく必要がある。 医師が取得した医療データに基づいて、疾患の診断及び治療計画が規定される。 したがって、医療における不確実性は増大しており、これらの問題に対処する知識は限られている。 医学に不確実性の源が多数存在するため, 最適な治療方法に関する知識は乏しい。 以上の結果から,医療用生データや新モデルの不確実性に対処する上での課題は少ないことが示唆された。 本研究では,この問題を克服するための様々な手法をまとめた。 近年,このような不確実性に対処する新しい深層学習技術の応用が著しく進んでいる。

Understanding data and reaching valid conclusions are of paramount importance in the present era of big data. Machine learning and probability theory methods have widespread application for this purpose in different fields. One critically important yet less explored aspect is how data and model uncertainties are captured and analyzed. Proper quantification of uncertainty provides valuable information for optimal decision making. This paper reviewed related studies conducted in the last 30 years (from 1991 to 2020) in handling uncertainties in medical data using probability theory and machine learning techniques. Medical data is more prone to uncertainty due to the presence of noise in the data. So, it is very important to have clean medical data without any noise to get accurate diagnosis. The sources of noise in the medical data need to be known to address this issue. Based on the medical data obtained by the physician, diagnosis of disease, and treatment plan are prescribed. Hence, the uncertainty is growing in healthcare and there is limited knowledge to address these problems. We have little knowledge about the optimal treatment methods as there are many sources of uncertainty in medical science. Our findings indicate that there are few challenges to be addressed in handling the uncertainty in medical raw data and new models. In this work, we have summarized various methods employed to overcome this problem. Nowadays, application of novel deep learning techniques to deal such uncertainties have significantly increased.
翻訳日:2022-10-26 03:03:11 公開日:2020-08-23
# クラスタリングのための二重反転オートエンコーダ

Dual Adversarial Auto-Encoders for Clustering ( http://arxiv.org/abs/2008.10038v1 )

ライセンス: Link先を確認
Pengfei Ge, Chuan-Xian Ren, Jiashi Feng, Shuicheng Yan(参考訳) 探索的データ分析の強力なアプローチとして、教師なしクラスタリングはコンピュータビジョンとパターン認識の基本的な課題である。 多くのクラスタリングアルゴリズムが開発されているが、そのほとんどは複雑な構造を持つデータに対して不満足に動作している。 近年,Adversarial Auto-Encoder (AAE) は,オートエンコーダ (AE) と逆行訓練を組み合わせることで,そのようなデータに対処する効果を示すが,ラベルのないデータから分類情報を効果的に抽出することはできない。 そこで本研究では,実例と潜在変数のサブセット間の確率関数と相互情報を同時に最大化する2つの逆オートエンコーダ(dual-aae)を提案する。 Dual-AAEの目的関数に対する変分推論を行うことで,2組のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。 さらに,モード崩壊を回避するために,カテゴリ変数のクラスタリング正規化項を導入する。 4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。 さらに、rejectオプションを追加することで、dual-aaeのクラスタリング精度は教師付きcnnアルゴリズムに到達できる。 Dual-AAEは、教師付き情報を用いることなく、画像のスタイルや内容の切り離しにも利用できる。

As a powerful approach for exploratory data analysis, unsupervised clustering is a fundamental task in computer vision and pattern recognition. Many clustering algorithms have been developed, but most of them perform unsatisfactorily on the data with complex structures. Recently, Adversarial Auto-Encoder (AAE) shows effectiveness on tackling such data by combining Auto-Encoder (AE) and adversarial training, but it cannot effectively extract classification information from the unlabeled data. In this work, we propose Dual Adversarial Auto-encoder (Dual-AAE) which simultaneously maximizes the likelihood function and mutual information between observed examples and a subset of latent variables. By performing variational inference on the objective function of Dual-AAE, we derive a new reconstruction loss which can be optimized by training a pair of Auto-encoders. Moreover, to avoid mode collapse, we introduce the clustering regularization term for the category variable. Experiments on four benchmarks show that Dual-AAE achieves superior performance over state-of-the-art clustering methods. Besides, by adding a reject option, the clustering accuracy of Dual-AAE can reach that of supervised CNN algorithms. Dual-AAE can also be used for disentangling style and content of images without using supervised information.
翻訳日:2022-10-26 03:01:52 公開日:2020-08-23
# 組織リソースを活用した新しいデータモダリティへのモデルの適用

Leveraging Organizational Resources to Adapt Models to New Data Modalities ( http://arxiv.org/abs/2008.09983v1 )

ライセンス: Link先を確認
Sahaana Suri, Raghuveer Chanda, Neslihan Bulut, Pradyumna Narayana, Yemao Zeng, Peter Bailis, Sugato Basu, Girija Narlikar, Christopher Re, and Abishek Sethi(参考訳) 大企業のアプリケーションが進化するにつれて、それらを支える機械学習(ml)モデルは、新たに発生するデータモダリティに同じ予測タスクを適用する必要がある(例えば、ソーシャルメディアアプリケーションで新しいビデオコンテンツがローンチされると、既存のテキストや画像モデルがビデオに拡張される必要がある)。 この問題を解決するために、組織は通常、スクラッチからMLパイプラインを作成します。 しかし、これは既存のモダリティのためにタスクを開発することで生み出したドメインの専門知識とデータを利用することができない。 組織的なリソース、すなわち統計、知識ベース、および関連するタスクを操作する既存のサービスによって、チームが新しいデータモダリティと既存のデータモダリティを接続する共通の機能空間を構築することができるかを示す。 これにより、チームはデータキュレーション(例えば、弱い監督とラベルの伝播)とモデルトレーニング(例えば、マルチモーダル学習の形式)をこれらの異なるデータモダリティにわたってトレーニングする方法を適用することができる。 この組織リソースの利用が,Googleの5つ以上の分類タスクにおいて,運用規模でどのように構成されるのかを調査し,新しいモダリティのモデルを開発するために必要な時間を数ヶ月から数週間から数日に短縮する方法を実証する。

As applications in large organizations evolve, the machine learning (ML) models that power them must adapt the same predictive tasks to newly arising data modalities (e.g., a new video content launch in a social media application requires existing text or image models to extend to video). To solve this problem, organizations typically create ML pipelines from scratch. However, this fails to utilize the domain expertise and data they have cultivated from developing tasks for existing modalities. We demonstrate how organizational resources, in the form of aggregate statistics, knowledge bases, and existing services that operate over related tasks, enable teams to construct a common feature space that connects new and existing data modalities. This allows teams to apply methods for training data curation (e.g., weak supervision and label propagation) and model training (e.g., forms of multi-modal learning) across these different data modalities. We study how this use of organizational resources composes at production scale in over 5 classification tasks at Google, and demonstrate how it reduces the time needed to develop models for new modalities from months to weeks to days.
翻訳日:2022-10-26 02:55:01 公開日:2020-08-23
# TSAM:自己注意機構に基づく方向性ネットワークにおける時間リンク予測

TSAM: Temporal Link Prediction in Directed Networks based on Self-Attention Mechanism ( http://arxiv.org/abs/2008.10021v1 )

ライセンス: Link先を確認
Jinsong Li, Jianhua Peng, Shuxin Liu, Lintianran Weng, Cong Li(参考訳) グラフニューラルネットワーク(GCN)の開発により、複雑なネットワークの進化から構造的特徴を学ぶことができる。 幅広い現実的なネットワークが指向されているが、有向ネットワークと時間ネットワークの特性を調査する既存の研究はほとんどない。 本稿では,有向ネットワークにおける時間的リンク予測の問題に対処し,gcnと自己アテンション機構に基づくディープラーニングモデル,すなわちtsamを提案する。 提案するモデルはオートエンコーダアーキテクチャを採用しており、グラフ注意層を用いて近傍ノードの構造特徴をキャプチャし、グラフ畳み込み層の集合をモチーフの特徴をキャプチャする。 自己アテンションを有するグラフリカレント単位層を用いて、スナップショットシーケンスの時間変化を学習する。 TSAMの有効性を検証するために、4つの現実的ネットワーク上で比較実験を行った。 実験の結果,TSAMは2つの評価基準でほとんどのベンチマークより優れていた。

The development of graph neural networks (GCN) makes it possible to learn structural features from evolving complex networks. Even though a wide range of realistic networks are directed ones, few existing works investigated the properties of directed and temporal networks. In this paper, we address the problem of temporal link prediction in directed networks and propose a deep learning model based on GCN and self-attention mechanism, namely TSAM. The proposed model adopts an autoencoder architecture, which utilizes graph attentional layers to capture the structural feature of neighborhood nodes, as well as a set of graph convolutional layers to capture motif features. A graph recurrent unit layer with self-attention is utilized to learn temporal variations in the snapshot sequence. We run comparative experiments on four realistic networks to validate the effectiveness of TSAM. Experimental results show that TSAM outperforms most benchmarks under two evaluation metrics.
翻訳日:2022-10-26 02:54:38 公開日:2020-08-23
# 局所安定性プリエントを用いた学習力学系

Learning Dynamical Systems using Local Stability Priors ( http://arxiv.org/abs/2008.10053v1 )

ライセンス: Link先を確認
Arash Mehrjou, Andrea Iannelli, Bernhard Sch\"olkopf(参考訳) 系の生成軌道からベクトル場と平衡点のアトラクションの領域を同時に学習する計算手法を提案する。 非線形同定は、システムの先行として局所安定性情報を活用し、この重要な構造特性で推定を効果的に内挿する。 さらに、アトラクション領域の知識は、軌道が生成される初期条件の選択を知らせ、システムのリアプノフ関数を正規化項として使用できるようにすることで、実験設計の役割を担っている。 数値計算の結果,提案手法は効率的なサンプリングが可能であり,アトラクション領域内近似のダイナミクスを精度良く推定できることがわかった。

A coupled computational approach to simultaneously learn a vector field and the region of attraction of an equilibrium point from generated trajectories of the system is proposed. The nonlinear identification leverages the local stability information as a prior on the system, effectively endowing the estimate with this important structural property. In addition, the knowledge of the region of attraction plays an experiment design role by informing the selection of initial conditions from which trajectories are generated and by enabling the use of a Lyapunov function of the system as a regularization term. Numerical results show that the proposed method allows efficient sampling and provides an accurate estimate of the dynamics in an inner approximation of its region of attraction.
翻訳日:2022-10-26 02:54:24 公開日:2020-08-23
# スムース信号からのカーネルベースのグラフ学習:機能的視点

Kernel-based Graph Learning from Smooth Signals: A Functional Viewpoint ( http://arxiv.org/abs/2008.10065v1 )

ライセンス: Link先を確認
Xingyue Pu, Siu Lun Chau, Xiaowen Dong and Dino Sejdinovic(参考訳) グラフ学習の問題は、データエンティティを表すノード間の関係を明らかにする明示的なトポロジ構造の構築に関するもので、機械学習やグラフ信号処理の分野で、多くのグラフベースの表現とアルゴリズムの成功にますます重要な役割を果たしている。 本稿では,ノード側および観測側情報,特にグラフ信号の依存性構造を説明するのに役立つ共変量を含む新しいグラフ学習フレームワークを提案する。 そこで我々は,Kronecker製品カーネルに付随する再現カーネルHilbert空間の関数としてグラフ信号を考慮し,スムーズなグラフ学習と関数学習を統合し,ノード間の関係を表すグラフを学習する。 機能学習はグラフ信号の欠落や不完全な情報に対するグラフ学習の堅牢性を高める。 さらに、Kronecker製品カーネルと組み合わせることで、グラフによって説明される依存性と、異なる状況下で観察されるグラフ信号による依存性の両方を、時間内の異なる点などによって捉えることができる新しいグラフベースの正規化手法を開発した。 後者は、グラフ信号は古典的なグラフ学習モデルで要求されるi.d.仮定から解放されることを意味する。 合成データと実世界のデータの両方で実験した結果,本手法はグラフ信号から有意義なグラフトポロジを学習する際の最先端モデルよりも優れていることがわかった。

The problem of graph learning concerns the construction of an explicit topological structure revealing the relationship between nodes representing data entities, which plays an increasingly important role in the success of many graph-based representations and algorithms in the field of machine learning and graph signal processing. In this paper, we propose a novel graph learning framework that incorporates the node-side and observation-side information, and in particular the covariates that help to explain the dependency structures in graph signals. To this end, we consider graph signals as functions in the reproducing kernel Hilbert space associated with a Kronecker product kernel, and integrate functional learning with smoothness-promoting graph learning to learn a graph representing the relationship between nodes. The functional learning increases the robustness of graph learning against missing and incomplete information in the graph signals. In addition, we develop a novel graph-based regularisation method which, when combined with the Kronecker product kernel, enables our model to capture both the dependency explained by the graph and the dependency due to graph signals observed under different but related circumstances, e.g. different points in time. The latter means the graph signals are free from the i.i.d. assumptions required by the classical graph learning models. Experiments on both synthetic and real-world data show that our methods outperform the state-of-the-art models in learning a meaningful graph topology from graph signals, in particular under heavy noise, missing values, and multiple dependency.
翻訳日:2022-10-26 02:54:15 公開日:2020-08-23
# 平滑な非線形TD学習のための単一時間確率非凸凹最適化

Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning ( http://arxiv.org/abs/2008.10103v1 )

ライセンス: Link先を確認
Shuang Qiu, Zhuoran Yang, Xiaohan Wei, Jieping Ye, Zhaoran Wang(参考訳) 非線形滑らか関数近似を用いたtd学習は,近年の強化学習において大きな成功を収めている。 このような問題を確率的非凸・強凹最適化問題として再定式化できることが示されているが、これはナイーブな確率的勾配降下・上昇アルゴリズムが収束の遅い問題である。 この問題に対する既存のアプローチは、2時間スケールまたはダブルループの確率的勾配アルゴリズムに基づいている。 しかし、実際には、その単純さとステップサイズが調整しやすいため、シングルタイムスケールのシングルループ確率アルゴリズムが好まれる。 本稿では,各ステップごとに1つのデータポイントしか必要としない2つのシングルタイムスケールシングルループアルゴリズムを提案する。 我々の最初のアルゴリズムは、プリマル変数と双対変数の両方の運動量更新を実装し、O(\varepsilon^{-4})$サンプル複雑性を実現し、単一時間スケールのアルゴリズムを得る上での運動量の役割を示す。 第2のアルゴリズムは,既存の作業における最もよく知られた$o(\varepsilon^{-3})$サンプル複雑性と一致する運動量上に分散還元を適用することで,第1のアルゴリズムを改善する。 さらに,本アルゴリズムでは大きなバッチチェックポイントを必要としない。 さらに, 両アルゴリズムの理論的結果は, 同時一次および二重側収束のより厳密な形式で表される。

Temporal-Difference (TD) learning with nonlinear smooth function approximation for policy evaluation has achieved great success in modern reinforcement learning. It is shown that such a problem can be reformulated as a stochastic nonconvex-strongly-concave optimization problem, which is challenging as naive stochastic gradient descent-ascent algorithm suffers from slow convergence. Existing approaches for this problem are based on two-timescale or double-loop stochastic gradient algorithms, which may also require sampling large-batch data. However, in practice, a single-timescale single-loop stochastic algorithm is preferred due to its simplicity and also because its step-size is easier to tune. In this paper, we propose two single-timescale single-loop algorithms which require only one data point each step. Our first algorithm implements momentum updates on both primal and dual variables achieving an $O(\varepsilon^{-4})$ sample complexity, which shows the important role of momentum in obtaining a single-timescale algorithm. Our second algorithm improves upon the first one by applying variance reduction on top of momentum, which matches the best known $O(\varepsilon^{-3})$ sample complexity in existing works. Furthermore, our variance-reduction algorithm does not require a large-batch checkpoint. Moreover, our theoretical results for both algorithms are expressed in a tighter form of simultaneous primal and dual side convergence.
翻訳日:2022-10-26 02:53:48 公開日:2020-08-23
# 義肢感覚を符号化するグラフ畳み込みネットワーク

Graph Convolutional Networks Reveal Neural Connections Encoding Prosthetic Sensation ( http://arxiv.org/abs/2009.03272v1 )

ライセンス: Link先を確認
Vivek Subramanian, Joshua Khani(参考訳) 神経アンサンブルからの刺激特徴の抽出は、電気刺激によって脳に直接感覚情報を投影する神経補綴物の開発に大きな関心を寄せている。 被験者が人工的な入力を解釈するときに刺激パラメータを最適化する機械学習戦略は、デバイスの有効性を改善し、補綴性能を高め、誘発された感覚の安定性を確保し、外部入力を排除して消費電力を改善する。 深層学習を非ユークリッドグラフデータに拡張する最近の進歩は、神経スパイク活動の解釈に新しいアプローチをもたらす。 本研究では, 人工感覚情報の処理に関与するニューロン間の機能的関係を推定するために, グラフ畳み込みネットワーク(GCN)を適用した。 データは4つの赤外線センサー、ICMSベースのニューロプロセシスを用いて、自由に行動するラットから収集された。 我々はGCNを用いて4つの刺激チャネル間の刺激周波数を予測し、相対距離と方向情報をIR励起報酬ポートにエンコードする。 このGCNモデルでは、7つのクラスからなる多重クラス分類問題において、修正順序回帰性能指標の73.5%のピーク性能を達成でき、その確率は14.3%である。 さらに、推論隣接行列は、人工感覚をコードする基盤となる神経回路の適切な表現を提供する。

Extracting stimulus features from neuronal ensembles is of great interest to the development of neuroprosthetics that project sensory information directly to the brain via electrical stimulation. Machine learning strategies that optimize stimulation parameters as the subject learns to interpret the artificial input could improve device efficacy, increase prosthetic performance, ensure stability of evoked sensations, and improve power consumption by eliminating extraneous input. Recent advances extending deep learning techniques to non-Euclidean graph data provide a novel approach to interpreting neuronal spiking activity. For this study, we apply graph convolutional networks (GCNs) to infer the underlying functional relationship between neurons that are involved in the processing of artificial sensory information. Data was collected from a freely behaving rat using a four infrared (IR) sensor, ICMS-based neuroprosthesis to localize IR light sources. We use GCNs to predict the stimulation frequency across four stimulating channels in the prosthesis, which encode relative distance and directional information to an IR-emitting reward port. Our GCN model is able to achieve a peak performance of 73.5% on a modified ordinal regression performance metric in a multiclass classification problem consisting of 7 classes, where chance is 14.3%. Additionally, the inferred adjacency matrix provides a adequate representation of the underlying neural circuitry encoding the artificial sensation.
翻訳日:2022-10-26 02:53:13 公開日:2020-08-23
# 口唇で口唇を鳴らす「Lip Sync Expert」(動画あり)

A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild ( http://arxiv.org/abs/2008.10010v1 )

ライセンス: Link先を確認
K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar(参考訳) 本研究では,任意のアイデンティティの発話表情映像をリップシンクして対象音声セグメントに適合させる問題について検討する。 現在の作品は、トレーニング段階で見られる特定の人物の静的画像やビデオで正確な唇の動きを生成するのに優れている。 しかし、動的で制約のない会話の表情ビデオでは、任意のアイデンティティの唇の動きを正確に変化させることができず、その結果、ビデオのかなりの部分が新しい音声と同期していない。 我々はこれに関連する重要な理由を特定し、強力なリップシンク判別器から学習することで解決する。 次に,無拘束ビデオのリップ同期を正確に測定するための新しい厳密な評価ベンチマークと指標を提案する。 wav2lipモデルによって生成されたビデオのリップシンク精度は、実際の同期ビデオとほぼ同等であることを示している。 当社のwebサイトでは,wav2lipモデルと評価ベンチマークの影響を,明確に示すデモビデオを公開しています。 コードとモデルは、このgithubリポジトリでリリースされている。 このリンクでインタラクティブなデモを試すこともできる。 \url{bhaasha.iiit.ac.in/lipsync}。

In this work, we investigate the problem of lip-syncing a talking face video of an arbitrary identity to match a target speech segment. Current works excel at producing accurate lip movements on a static image or videos of specific people seen during the training phase. However, they fail to accurately morph the lip movements of arbitrary identities in dynamic, unconstrained talking face videos, resulting in significant parts of the video being out-of-sync with the new audio. We identify key reasons pertaining to this and hence resolve them by learning from a powerful lip-sync discriminator. Next, we propose new, rigorous evaluation benchmarks and metrics to accurately measure lip synchronization in unconstrained videos. Extensive quantitative evaluations on our challenging benchmarks show that the lip-sync accuracy of the videos generated by our Wav2Lip model is almost as good as real synced videos. We provide a demo video clearly showing the substantial impact of our Wav2Lip model and evaluation benchmarks on our website: \url{cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip- generation-in-the-wild}. The code and models are released at this GitHub repository: \url{github.com/Rudrabha/Wav2Lip}. You can also try out the interactive demo at this link: \url{bhaasha.iiit.ac.in/lipsync}.
翻訳日:2022-10-26 02:52:52 公開日:2020-08-23
# クロスビューと各ビューからのハイブリッド知識の絞り込みによる教師なしマルチビュークラスタリング

Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from Cross View and Each View ( http://arxiv.org/abs/2008.09990v1 )

ライセンス: Link先を確認
Junpeng Tan, Yukai Shi, Zhijing Yang, Caizhen Wen, Liang Lin(参考訳) 近年,クラスタリング性能が優れているため,マルチビュークラスタリング手法が注目されている。 しかし、従来のマルチビュークラスタリングアルゴリズムには、冗長な情報の除去、様々なビューの利用、マルチビュー機能の融合など、いくつかの面ではまだ欠点がある。 そこで本研究では,適応グラフ正規化に基づく新しいマルチビュークラスタリング手法である低ランクサブスペースマルチビュークラスタリングを提案する。 2つの新しいデータ行列分解モデルを統一最適化モデルとして構築する。 本稿では,クロスビューで共有される共通知識と各ビューのユニークな知識の意義を,スパース部分空間行列に新しい低ランク制約とスパース制約を提示することによって解決する。 元のデータ行列上で効果的なスパース表現とクラスタリング性能を実現するため,提案モデルには適応グラフ正規化と教師なしクラスタリング制約も組み込まれ,データの内部構造的特徴を保っている。 最後に,提案手法を最先端アルゴリズムと比較する。 5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。

Multi-view clustering methods have been a focus in recent years because of their superiority in clustering performance. However, typical traditional multi-view clustering algorithms still have shortcomings in some aspects, such as removal of redundant information, utilization of various views and fusion of multi-view features. In view of these problems, this paper proposes a new multi-view clustering method, low-rank subspace multi-view clustering based on adaptive graph regularization. We construct two new data matrix decomposition models into a unified optimization model. In this framework, we address the significance of the common knowledge shared by the cross view and the unique knowledge of each view by presenting new low-rank and sparse constraints on the sparse subspace matrix. To ensure that we achieve effective sparse representation and clustering performance on the original data matrix, adaptive graph regularization and unsupervised clustering constraints are also incorporated in the proposed model to preserve the internal structural features of the data. Finally, the proposed method is compared with several state-of-the-art algorithms. Experimental results for five widely used multi-view benchmarks show that our proposed algorithm surpasses other state-of-the-art methods by a clear margin.
翻訳日:2022-10-26 02:46:27 公開日:2020-08-23
# 仮想ビッグデータ投影による安定的不均衡データの分類に向けて

Towards Stable Imbalanced Data Classification via Virtual Big Data Projection ( http://arxiv.org/abs/2009.08387v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Weidong Shi(参考訳) VBD(Virtual Big Data)は,最近になってGAN(Generative Adversarial Neural Networks)の2つの大きな問題として,モード崩壊とジェネレータ勾配の解消に有効であることが判明した。 本稿では,Deep Autoencoderトレーニングと不均衡データ分類を含む,機械学習における2つの大きな課題に対処するVBDの能力について検討する。 まず、VBDは、過度に適合する問題を最小化するために、より良い一般化に到達するための鍵となる巨大な多角化トレーニングデータを提供することにより、オートエンコーダの検証損失を著しく低減できることを示す。 第二に、VBDを用いてクロスコンカニエーションと呼ばれる最初のプロジェクションベースの手法を提案し、オーバーサンプリングなしでスキュートクラス分布のバランスをとる。 クロス結合は不均衡分類のためのデータ駆動手法の不確実性問題を解決できることを実証する。

Virtual Big Data (VBD) proved to be effective to alleviate mode collapse and vanishing generator gradient as two major problems of Generative Adversarial Neural Networks (GANs) very recently. In this paper, we investigate the capability of VBD to address two other major challenges in Machine Learning including deep autoencoder training and imbalanced data classification. First, we prove that, VBD can significantly decrease the validation loss of autoencoders via providing them a huge diversified training data which is the key to reach better generalization to minimize the over-fitting problem. Second, we use the VBD to propose the first projection-based method called cross-concatenation to balance the skewed class distributions without over-sampling. We prove that, cross-concatenation can solve uncertainty problem of data driven methods for imbalanced classification.
翻訳日:2022-10-26 02:45:49 公開日:2020-08-23
# 姿勢・年齢変化を考慮した画像集合分類のための識別残差分析

Discriminative Residual Analysis for Image Set Classification with Posture and Age Variations ( http://arxiv.org/abs/2008.09994v1 )

ライセンス: Link先を確認
Chuan-Xian Ren, You-Wei Luo, Xiao-Lin Xu, Dao-Qing Dai and Hong Yan(参考訳) 画像認識は、リアルタイムビデオ検索や画像キャプションタスクなど、多くの実践的な問題に広く応用されている。 その性能は優れており、近年では重要な話題となっている。 しかし、姿勢や人間の年齢など、複雑なバリエーションを持つ画像は、画像の出現に関して連続的に徐々に変化するため、対処が困難である。 したがって、画像集合認識の重要なポイントは、画像バッチから本質的な接続または構造情報をばらつきでマイニングすることである。 本研究では, 識別残差分析(DRA)手法を提案し, 関連群と非関連群の識別特徴を同定し, 分類性能を向上させる。 具体的には、DRAは残留表現を判別部分空間にキャストする強力な射影を得ようとする。 そのような射影部分空間は、入力空間の有用な情報を可能な限り拡大することが期待され、与えられた距離または距離で記述されたトレーニングセットとテストセットの関係は、判別サブ空間においてより正確になる。 また、無関係なグループを構築するための別のアプローチを定義することで、エラーをサンプリングするコストをさらに削減する手法を提案する。 2つの正則化アプローチは、可能な小さなサンプルサイズ問題に対処するために使用される。 ベンチマークデータベースで広範な実験を行い,新しい手法の有用性と効率性を示した。

Image set recognition has been widely applied in many practical problems like real-time video retrieval and image caption tasks. Due to its superior performance, it has grown into a significant topic in recent years. However, images with complicated variations, e.g., postures and human ages, are difficult to address, as these variations are continuous and gradual with respect to image appearance. Consequently, the crucial point of image set recognition is to mine the intrinsic connection or structural information from the image batches with variations. In this work, a Discriminant Residual Analysis (DRA) method is proposed to improve the classification performance by discovering discriminant features in related and unrelated groups. Specifically, DRA attempts to obtain a powerful projection which casts the residual representations into a discriminant subspace. Such a projection subspace is expected to magnify the useful information of the input space as much as possible, then the relation between the training set and the test set described by the given metric or distance will be more precise in the discriminant subspace. We also propose a nonfeasance strategy by defining another approach to construct the unrelated groups, which help to reduce furthermore the cost of sampling errors. Two regularization approaches are used to deal with the probable small sample size problem. Extensive experiments are conducted on benchmark databases, and the results show superiority and efficiency of the new methods.
翻訳日:2022-10-26 02:45:34 公開日:2020-08-23
# 参加させてください! 社会認識ロボットによるリアルタイムF画像認識

Let me join you! Real-time F-formation recognition by a socially aware robot ( http://arxiv.org/abs/2008.10078v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Pradip Pramanick, Chayan Sarkar, Theint Haythi Mg(参考訳) 本稿では,エゴビジョンカメラの連続画像ストリームからリアルタイムに社会集団を検出する新しいアーキテクチャを提案する。 f-formationは、2人以上の人が社会的な場所でコミュニケーションする傾向がある空間における社会的指向を定義する。 基本的に,会合や討論などの社会集会におけるF-formationを検出し,社会集団への参加を希望するロボットのアプローチ角を予測する。 さらに,対象グループに属さない異常者,すなわち,対象グループに属さない人物も検出する。 提案するパイプラインは -- a) 現場で検出された人間の骨格キーポイント推定器(合計17) b)crfを用いた学習モデル(骨格点に基づく特徴ベクトルを用いて)を用いて,シーン内の人物群及び異常者群を検出すること。 c) 多クラスサポートベクターマシン(svm)を用いた個別学習モデルにより,現在の場面における人々のグループの正確なf形成と,視聴ロボットのアプローチ角度を予測する。 システムは2つのデータセットを用いて評価される。 以上の結果から,本手法を用いたシーンにおけるグループと外乱検出の精度は91%であった。 我々は,最先端のf-formation検出システムと厳密な比較を行い,造形検出では29%,造形角と接近角の同時検出では55%,最先端f-formation検出システムでは29%の精度を示した。

This paper presents a novel architecture to detect social groups in real-time from a continuous image stream of an ego-vision camera. F-formation defines social orientations in space where two or more person tends to communicate in a social place. Thus, essentially, we detect F-formations in social gatherings such as meetings, discussions, etc. and predict the robot's approach angle if it wants to join the social group. Additionally, we also detect outliers, i.e., the persons who are not part of the group under consideration. Our proposed pipeline consists of -- a) a skeletal key points estimator (a total of 17) for the detected human in the scene, b) a learning model (using a feature vector based on the skeletal points) using CRF to detect groups of people and outlier person in a scene, and c) a separate learning model using a multi-class Support Vector Machine (SVM) to predict the exact F-formation of the group of people in the current scene and the angle of approach for the viewing robot. The system is evaluated using two data-sets. The results show that the group and outlier detection in a scene using our method establishes an accuracy of 91%. We have made rigorous comparisons of our systems with a state-of-the-art F-formation detection system and found that it outperforms the state-of-the-art by 29% for formation detection and 55% for combined detection of the formation and approach angle.
翻訳日:2022-10-26 02:44:56 公開日:2020-08-23
# 感性分析と深層学習を用いたクロスカルチャーポラリティと感情検出-COVID-19を事例として

Cross-Cultural Polarity and Emotion Detection Using Sentiment Analysis and Deep Learning -- a Case Study on COVID-19 ( http://arxiv.org/abs/2008.10031v1 )

ライセンス: Link先を確認
Ali Shariq Imran, Sher Mohammad Doudpota, Zenun Kastrati, Rakhi Bhatra(参考訳) 危機に対して異なる文化がどう反応し反応するかは、社会の規範と状況と戦うための政治的意志が主である。 多くの場合、決定は、国家の意思を表わさないかもしれない出来事、社会的圧力、時間の必要性によって必要となる。 喜ぶ者もいるが、恨みを抱く者もいる。 コロナウイルス(COVID-19)は各国の同様の感情を、各国政府による決定に取り入れた。 ソーシャルメディアは、新型コロナウイルス(COVID-19)に対する肯定的な感情と否定的な感情、パンデミック、ロックダウン、ハッシュタグを含む投稿で攻撃を受けた。 地理的に近かったにもかかわらず、多くの近隣諸国は異なる反応を示した。 例えば、多くの類似点を共有しているデンマークとスウェーデンは、それぞれの政府によって下された決定を断念した。 しかし、彼らの国の支援はほとんど満場一致で、人々が多くの不安や恨みを抱いていた南アジア諸国とは違っていた。 本研究は,自然言語処理(nlp)と深層学習技術を用いて,パンデミックの初期段階とロックダウン期間に示された感情極性と感情をtwitter投稿上で検出・分析する傾向がある。 感情極性と感情を抽出したツイートから推定するために使用される深部長期記憶(LSTM)モデルは、感情140データセットで最先端の精度を達成するために訓練されている。 エモティコンの使用は、twitterから抽出されたツイートで教師付きディープラーニングモデルを検証する、ユニークで新しい方法を示した。

How different cultures react and respond given a crisis is predominant in a society's norms and political will to combat the situation. Often the decisions made are necessitated by events, social pressure, or the need of the hour, which may not represent the will of the nation. While some are pleased with it, others might show resentment. Coronavirus (COVID-19) brought a mix of similar emotions from the nations towards the decisions taken by their respective governments. Social media was bombarded with posts containing both positive and negative sentiments on the COVID-19, pandemic, lockdown, hashtags past couple of months. Despite geographically close, many neighboring countries reacted differently to one another. For instance, Denmark and Sweden, which share many similarities, stood poles apart on the decision taken by their respective governments. Yet, their nation's support was mostly unanimous, unlike the South Asian neighboring countries where people showed a lot of anxiety and resentment. This study tends to detect and analyze sentiment polarity and emotions demonstrated during the initial phase of the pandemic and the lockdown period employing natural language processing (NLP) and deep learning techniques on Twitter posts. Deep long short-term memory (LSTM) models used for estimating the sentiment polarity and emotions from extracted tweets have been trained to achieve state-of-the-art accuracy on the sentiment140 dataset. The use of emoticons showed a unique and novel way of validating the supervised deep learning models on tweets extracted from Twitter.
翻訳日:2022-10-26 02:44:32 公開日:2020-08-23
# 決算報告と株価変動に向けて

Towards Earnings Call and Stock Price Movement ( http://arxiv.org/abs/2009.01317v1 )

ライセンス: Link先を確認
Zhiqiang Ma, Grace Bang, Chong Wang, Xiaomo Liu(参考訳) 決算報告は上場企業の経営陣が主催し、アナリストや投資家と会社の業績について議論する。 決算会見で公表された情報は、アナリストや投資家が投資決定を行う上で不可欠なデータ源である。 したがって、決算報告の書き起こしを利用して将来の株価変動を予測する。 本稿では,テキストデータをベクトルにエンコードし,株価変動を予測するための注意機構を応用した深層学習フレームワークを用いて,書き起こし中の言語をモデル化することを提案する。 実証実験により,提案モデルは従来の機械学習ベースラインよりも優れており,決算報告情報により株価予測性能が向上することが示された。

Earnings calls are hosted by management of public companies to discuss the company's financial performance with analysts and investors. Information disclosed during an earnings call is an essential source of data for analysts and investors to make investment decisions. Thus, we leverage earnings call transcripts to predict future stock price dynamics. We propose to model the language in transcripts using a deep learning framework, where an attention mechanism is applied to encode the text data into vectors for the discriminative network classifier to predict stock price movements. Our empirical experiments show that the proposed model is superior to the traditional machine learning baselines and earnings call information can boost the stock price prediction performance.
翻訳日:2022-10-26 02:44:06 公開日:2020-08-23
# セル接続型UAVのフェデレーション学習:無線マッピングと経路計画

Federated Learning for Cellular-connected UAVs: Radio Mapping and Path Planning ( http://arxiv.org/abs/2008.10054v1 )

ライセンス: Link先を確認
Behzad Khamidehi and Elvino S. Sousa(参考訳) 無人航空機(UAV)の寿命を延ばすため、UAVは可能な限り短期間でミッションを遂行する必要がある。 この要件に加えて、多くのアプリケーションでは、UAVは飛行中に信頼性の高いインターネット接続を必要とする。 本稿では,UAVの走行時間を最小化し,確率的接続制約を満たすことを保証する。 この問題を解決するには、環境における停止確率のグローバルモデルが必要である。 UAVは異なるミッションを持ち、異なるエリアを飛行するため、収集されたデータはネットワークの接続に関するローカル情報を運ぶ。 その結果、UAVはグローバルモデルを構築するために自身の経験を頼りにすることはできない。 この問題はUAVの経路計画に影響を与える。 この懸念に対処するために,我々は2段階のアプローチを用いる。 最初のステップでは、フェデレーション学習(fl)を使用して、uavsは協調して、環境における停止確率のグローバルモデルを構築します。 第2ステップでは、第1ステップで得られた大域的モデルと高速探索ランダムツリー(RRT)を用いて、UAVの経路を最適化するアルゴリズムを提案する。 シミュレーションの結果,UAVネットワークにおける2段階のアプローチの有効性が示された。

To prolong the lifetime of the unmanned aerial vehicles (UAVs), the UAVs need to fulfill their missions in the shortest possible time. In addition to this requirement, in many applications, the UAVs require a reliable internet connection during their flights. In this paper, we minimize the travel time of the UAVs, ensuring that a probabilistic connectivity constraint is satisfied. To solve this problem, we need a global model of the outage probability in the environment. Since the UAVs have different missions and fly over different areas, their collected data carry local information on the network's connectivity. As a result, the UAVs can not rely on their own experiences to build the global model. This issue affects the path planning of the UAVs. To address this concern, we utilize a two-step approach. In the first step, by using Federated Learning (FL), the UAVs collaboratively build a global model of the outage probability in the environment. In the second step, by using the global model obtained in the first step and rapidly-exploring random trees (RRTs), we propose an algorithm to optimize UAVs' paths. Simulation results show the effectiveness of this two-step approach for UAV networks.
翻訳日:2022-10-26 02:43:56 公開日:2020-08-23
# プロアクティブな知識伝達を通して話すことを学ぶ

Learn to Talk via Proactive Knowledge Transfer ( http://arxiv.org/abs/2008.10077v1 )

ライセンス: Link先を確認
Qing Sun and James Cross(参考訳) 知識伝達は様々な問題を解決するために応用されている。 例えば、知識はタスク(例えば、以前の知識を利用して新しい状況に対処する学習)とエージェント(例えば、直接経験のない他人から学ぶ)の間で伝達される。 一般性を欠くことなく、知識伝達とKL分割最小化、すなわち学習者と教師の(信頼)分布のマッチングを関連付ける。 等価性は、学習者が知識を得るために教師との相互作用をどのように構成するかを検討することで、KL分割の変種を理解する新しい視点を与える。 本稿では,KL分割最小化をフォワードとバックワードの順序で詳細に分析し,学習者はバックワードのオン政治学習を通じて強化されることを示す。 一方、学習者はフォワードで指導される。 さらに,解析は勾配ベースであるため,任意のタスクに一般化でき,そのタスクの性質を考慮すれば,どの順序を最小にするかを決定するのに役立つ。 WMT'17 De-En と IWSLT'15 Th-En の機械翻訳タスクで +0.7-1.1 BLEU が得られた。

Knowledge Transfer has been applied in solving a wide variety of problems. For example, knowledge can be transferred between tasks (e.g., learning to handle novel situations by leveraging prior knowledge) or between agents (e.g., learning from others without direct experience). Without loss of generality, we relate knowledge transfer to KL-divergence minimization, i.e., matching the (belief) distributions of learners and teachers. The equivalence gives us a new perspective in understanding variants of the KL-divergence by looking at how learners structure their interaction with teachers in order to acquire knowledge. In this paper, we provide an in-depth analysis of KL-divergence minimization in Forward and Backward orders, which shows that learners are reinforced via on-policy learning in Backward. In contrast, learners are supervised in Forward. Moreover, our analysis is gradient-based, so it can be generalized to arbitrary tasks and help to decide which order to minimize given the property of the task. By replacing Forward with Backward in Knowledge Distillation, we observed +0.7-1.1 BLEU gains on the WMT'17 De-En and IWSLT'15 Th-En machine translation tasks.
翻訳日:2022-10-26 02:37:53 公開日:2020-08-23
# 識別的マニフォールド伝播による教師なし領域適応

Unsupervised Domain Adaptation via Discriminative Manifold Propagation ( http://arxiv.org/abs/2008.10030v1 )

ライセンス: Link先を確認
You-Wei Luo, Chuan-Xian Ren, Dao-Qing Dai and Hong Yan(参考訳) 教師なしドメイン適応はラベル付きソースドメインからラベルなしターゲットドメインへのリッチな情報を活用するのに有効である。 深い学習と敵対的戦略は特徴の適応性に大きなブレークスルーをもたらしたが、さらに研究すべき問題が2つある。 まず、ターゲットドメイン上のハードアサインされた擬似ラベルは任意でエラーを起こし、それらの直接適用は本質的なデータ構造を破壊する可能性がある。 第二に、深層学習のバッチワイドトレーニングは、グローバル構造の特徴づけを制限する。 本稿では,移動性と識別性を同時に実現するために,リーマン多様体学習フレームワークを提案する。 第一に、このフレームワークはソフトラベルを介してターゲットドメインの確率論的判別基準を確立する。 事前構築されたプロトタイプに基づいて、この基準は第2号のグローバル近似スキームに拡張される。 多様体計量アライメントは埋め込み空間と互換性を持つように採用されている。 異なるアライメントメトリックの理論的誤差境界は、構成的ガイダンスのために導出される。 提案手法は、バニラと部分的設定の両方を含む、ドメイン適応問題の一連の変種に取り組むのに使うことができる。 本手法に関する広範囲な実験を行い, 判別的多様体学習フレームワークの優位性を比較検討した。

Unsupervised domain adaptation is effective in leveraging rich information from a labeled source domain to an unlabeled target domain. Though deep learning and adversarial strategy made a significant breakthrough in the adaptability of features, there are two issues to be further studied. First, hard-assigned pseudo labels on the target domain are arbitrary and error-prone, and direct application of them may destroy the intrinsic data structure. Second, batch-wise training of deep learning limits the characterization of the global structure. In this paper, a Riemannian manifold learning framework is proposed to achieve transferability and discriminability simultaneously. For the first issue, this framework establishes a probabilistic discriminant criterion on the target domain via soft labels. Based on pre-built prototypes, this criterion is extended to a global approximation scheme for the second issue. Manifold metric alignment is adopted to be compatible with the embedding space. The theoretical error bounds of different alignment metrics are derived for constructive guidance. The proposed method can be used to tackle a series of variants of domain adaptation problems, including both vanilla and partial settings. Extensive experiments have been conducted to investigate the method and a comparative study shows the superiority of the discriminative manifold learning framework.
翻訳日:2022-10-26 02:37:11 公開日:2020-08-23
# 複合顔再建攻撃に対する顔認識システムの脆弱性

Vulnerability of Face Recognition Systems Against Composite Face Reconstruction Attack ( http://arxiv.org/abs/2009.02286v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Weidong Shi(参考訳) 丸め信頼度スコアは自明であるが、勾配降下に基づく画像再構成攻撃を止めるための単純かつ効果的な対策である。 しかし、より洗練された再建攻撃に直面する能力は、実証されていない研究領域である。 本稿では,複合顔に基づく顔再建攻撃が,丸め方針の非効率性を対策として明らかにできることを示す。 攻撃者は顔の最も重要な特徴にアクセスしたり、独立したセグメントに分解したりするのに役立つ顔合成部品を利用する。 その後、分割されたセグメントを探索パラメータとして利用して最適な顔の再構成を行う。 顔合成部品は、ブラインド検索であっても、攻撃者は顔認識モデルのプライバシーを侵害することができる。 しかし,攻撃者は対象の顔の高速な再構築にランダム検索を活用できると考えられる。 アルゴリズムは、顔部品のランダムな構成を初期顔として開始し、信頼スコアを適合値とする。 提案手法は,ランダムな検索処理を防止できないため,現状の顔認識システムは,このような高度な攻撃に対して極めて脆弱であることを示す。 この問題に対処するため,提案した攻撃に対してトレーニングデータのプライバシーを保護するために,顔検出スコアフィルタリング(FDSF)を成功裏に検証した。

Rounding confidence score is considered trivial but a simple and effective countermeasure to stop gradient descent based image reconstruction attacks. However, its capability in the face of more sophisticated reconstruction attacks is an uninvestigated research area. In this paper, we prove that, the face reconstruction attacks based on composite faces can reveal the inefficiency of rounding policy as countermeasure. We assume that, the attacker takes advantage of face composite parts which helps the attacker to get access to the most important features of the face or decompose it to the independent segments. Afterwards, decomposed segments are exploited as search parameters to create a search path to reconstruct optimal face. Face composition parts enable the attacker to violate the privacy of face recognition models even with a blind search. However, we assume that, the attacker may take advantage of random search to reconstruct the target face faster. The algorithm is started with random composition of face parts as initial face and confidence score is considered as fitness value. Our experiments show that, since the rounding policy as countermeasure can't stop the random search process, current face recognition systems are extremely vulnerable against such sophisticated attacks. To address this problem, we successfully test Face Detection Score Filtering (FDSF) as a countermeasure to protect the privacy of training data against proposed attack.
翻訳日:2022-10-26 02:36:54 公開日:2020-08-23
# コントラスト型自己監督学習によるFew-Shot画像分類

Few-Shot Image Classification via Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2008.09942v1 )

ライセンス: Link先を確認
Jianyi Li and Guizhong Liu(参考訳) これまでの数ショット学習アルゴリズムのほとんどは、大規模なラベル付きベースクラスを必要とするトレーニングサンプルとして、偽の数ショットタスクを使ったメタトレーニングに基づいている。 トレーニングされたモデルはタスクの種類によっても制限される。 本稿では,欠陥を修復するための教師なし数発学習の新たなパラダイムを提案する。 コントラスト的自己教師付き学習による移動可能な特徴抽出器のメタトレーニングと,グラフ集約,自己蒸留,多様体拡張を用いた分類器の訓練である。 メタトレーニングが完了すると、タスク依存の分類器トレーニングで任意のタスクでモデルを使用できるようになる。 本手法は,標準的な数ショットの視覚的分類データセット上で確立された数ショットタスクにおいて,教師なし数ショット学習法と比較して8~28%向上する。

Most previous few-shot learning algorithms are based on meta-training with fake few-shot tasks as training samples, where large labeled base classes are required. The trained model is also limited by the type of tasks. In this paper we propose a new paradigm of unsupervised few-shot learning to repair the deficiencies. We solve the few-shot tasks in two phases: meta-training a transferable feature extractor via contrastive self-supervised learning and training a classifier using graph aggregation, self-distillation and manifold augmentation. Once meta-trained, the model can be used in any type of tasks with a task-dependent classifier training. Our method achieves state of-the-art performance in a variety of established few-shot tasks on the standard few-shot visual classification datasets, with an 8- 28% increase compared to the available unsupervised few-shot learning methods.
翻訳日:2022-10-26 02:36:33 公開日:2020-08-23
# 著者認証のためのDeep Bayes Factor Scoring

Deep Bayes Factor Scoring for Authorship Verification ( http://arxiv.org/abs/2008.10105v1 )

ライセンス: Link先を確認
Benedikt Boenninghoff and Julian Rupp and Robert M. Nickel and Dorothea Kolossa(参考訳) pan 2020 authorship verification (av) challengeは、ファンフィクションテキストのコレクションよりも、クロストピック/クローズドセットavタスクに焦点を当てている。 fanfiction(ファンファイクション)は、いわゆるfandomトピックが文書の主要な主題を記述した、ストーリーラインのファンライクな拡張である。 pan 2020 avタスクで提供されるデータは、複数の異なるファンダムトピックにまたがるテキストの作成者が含まれているため、非常に難しい。 本稿では,2つのよく知られたアプローチを1つのエンドツーエンド学習手順に階層的に融合することを提案する。 底辺の深いメトリック学習フレームワークは,可変長の文書を固定サイズの特徴ベクトルにマッピングする擬似メトリックを学習することを目的としている。 上位には確率層を組み込んで、学習された計量空間におけるベイズ係数のスコアリングを行う。 また、横断的な問題に対処するためのテキスト前処理戦略も提供します。

The PAN 2020 authorship verification (AV) challenge focuses on a cross-topic/closed-set AV task over a collection of fanfiction texts. Fanfiction is a fan-written extension of a storyline in which a so-called fandom topic describes the principal subject of the document. The data provided in the PAN 2020 AV task is quite challenging because authors of texts across multiple/different fandom topics are included. In this work, we present a hierarchical fusion of two well-known approaches into a single end-to-end learning procedure: A deep metric learning framework at the bottom aims to learn a pseudo-metric that maps a document of variable length onto a fixed-sized feature vector. At the top, we incorporate a probabilistic layer to perform Bayes factor scoring in the learned metric space. We also provide text preprocessing strategies to deal with the cross-topic issue.
翻訳日:2022-10-26 02:35:57 公開日:2020-08-23
# ADAIL: Adaptive Adversarial Imitation Learning

ADAIL: Adaptive Adversarial Imitation Learning ( http://arxiv.org/abs/2008.12647v1 )

ライセンス: Link先を確認
Yiren Lu, Jonathan Tompson(参考訳) 本稿では,1つのソースドメインから収集した少数のデモを模倣して,異なるダイナミクスの環境間で伝達可能な適応ポリシーを学習するための適応型adversarial imitation learning(adail)アルゴリズムを提案する。 これはロボット学習の重要な問題です なぜなら現実のシナリオでは 1)報酬関数の取得は困難である。 2) 対象とするドメイン統計のソースが異なるため,あるドメインから学習したポリシを別のドメインにデプロイすることは困難である。 3) ダイナミクスが知られ制御されている複数の環境でのエキスパートデモの収集は、しばしば実現不可能である。 我々は,近年の対人模倣学習の進歩を基盤として,この制約に対処し,学習力学の埋め込みにポリシーを定め,ドメイン対逆損失を用いて動的不変判別器を学習する。 本手法の有効性は, 環境動態の異なるシミュレーション制御タスクにおいて実証され, 学習適応剤は近年のベースラインよりも優れている。

We present the ADaptive Adversarial Imitation Learning (ADAIL) algorithm for learning adaptive policies that can be transferred between environments of varying dynamics, by imitating a small number of demonstrations collected from a single source domain. This is an important problem in robotic learning because in real world scenarios 1) reward functions are hard to obtain, 2) learned policies from one domain are difficult to deploy in another due to varying source to target domain statistics, 3) collecting expert demonstrations in multiple environments where the dynamics are known and controlled is often infeasible. We address these constraints by building upon recent advances in adversarial imitation learning; we condition our policy on a learned dynamics embedding and we employ a domain-adversarial loss to learn a dynamics-invariant discriminator. The effectiveness of our method is demonstrated on simulated control tasks with varying environment dynamics and the learned adaptive agent outperforms several recent baselines.
翻訳日:2022-10-26 02:35:24 公開日:2020-08-23
# dsp:包括的実産業データセットのための差分空間予測手法

DSP: A Differential Spatial Prediction Scheme for Comprehensive real industrial datasets ( http://arxiv.org/abs/2008.09951v1 )

ライセンス: Link先を確認
Junjie Zhang, Cong Zhang, Neal N. Xiong(参考訳) 逆距離重み付きモデル(IDW)は多モード産業プロセスにおける多次元空間の予測とモデル化に広く用いられている。 しかし、多次元空間の構造が複雑になるほど、idwモデルの性能が低下し、実際の産業データセットはより複雑な空間構造を持つ傾向がある。 この問題を解決するために,深層強化学習ネットワークに基づく空間予測とモデリングのための新しいフレームワークを提案する。 提案手法では,qネットワークの状態値を再利用することにより,状態と動作の内部関係が向上し,深層強化学習ネットワークの収束率と安定性が向上する。 改良された深層強化学習ネットワークは、逆距離重みモデルにおける各サンプル点のハイパーパラメータの探索と学習に使用される。 これらのハイパーパラメータは、現在の産業データセットの空間構造をある程度反映することができる。 そして、学習したハイパーパラメータに基づいてハイパーパラメータの空間分布を構築する。 各補間点は、ハイパーパラメトリック空間分布から対応するハイパーパラメータを取得し、予測のために古典的なIDWモデルにそれらをもたらす。 シミュレーションの結果,提案手法は複雑な空間構造特性を持つ実産業データセットに適しており,空間予測における現在のidwモデルよりも精度が高いことがわかった。

Inverse Distance Weighted models (IDW) have been widely used for predicting and modeling multidimensional space in multimodal industrial processes. However, the more complex the structure of multidimensional space, the lower the performance of IDW models, and real industrial datasets tend to have more complex spatial structure. To solve this problem, a new framework for spatial prediction and modeling based on deep reinforcement learning network is proposed. In the proposed framework, the internal relationship between state and action is enhanced by reusing the state values in the Q network, and the convergence rate and stability of the deep reinforcement learning network are improved. The improved deep reinforcement learning network is then used to search for and learn the hyperparameters of each sample point in the inverse distance weighted model. These hyperparameters can reflect the spatial structure of the current industrial dataset to some extent. Then a spatial distribution of hyperparameters is constructed based on the learned hyperparameters. Each interpolation point obtains corresponding hyperparameters from the hyperparametric spatial distribution and brings them into the classical IDW models for prediction, thus achieving differential spatial prediction and modeling. The simulation results show that the proposed framework is suitable for real industrial datasets with complex spatial structure characteristics and is more accurate than current IDW models in spatial prediction.
翻訳日:2022-10-26 02:35:06 公開日:2020-08-23