このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200822となっている論文です。

PDF登録状況(公開日: 20200822)

TitleAuthorsAbstract論文公表日・翻訳日
# nnAudio: 1次元畳み込みニューラルネットワークを用いたオンザフライGPUオーディオからスペクトログラム変換ツールボックス

nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolution Neural Networks ( http://arxiv.org/abs/1912.12055v3 )

ライセンス: Link先を確認
Kin Wai Cheuk, Hans Anderson, Kat Agres, Dorien Herremans(参考訳) 時間領域の波形を周波数領域のスペクトログラムに変換することは、通常、モデルトレーニングの前に行われる前提ステップであると考えられている。 しかし、このアプローチにはいくつかの欠点がある。 まず、異なる周波数領域表現を保持するのに多くのハードディスク空間が必要です。 これは、モデル開発とチューニングのプロセスにおいて、最適なパフォーマンスのために様々なタイプのスペクトログラムを探索するときに特に当てはまる。 第二に、もし別のデータセットが使われたら、ネットワークが再トレーニングされる前に、すべてのオーディオクリップを再び処理しなければならない。 本稿では、モデル構造の一部として時間領域から周波数領域への変換を統合し、1次元畳み込みニューラルネットワークを利用してフィードフォワード中の周波数領域への変換を行うニューラルネットワークベースのツールボックスnnAudioを提案する。 オンザフライのスペクトログラム生成が可能で、ディスクにスペクトログラムを格納する必要はない。 このアプローチはまた、波形-スペクトル変換層へのバックプロパゲーションを可能にするため、この変換プロセスをトレーニング可能とし、従って勾配降下によりさらに最適化することができる。 nnAudioは、(MAPSデータセットから)1,770の波形の変換時間を、リブロサによる10.64ドル秒から、ショートタイムフーリエ変換(STFT)でわずか0.001ドル秒まで、Mel Spectrogramで18.3ドル秒から0.015ドル秒まで、Mel Spectrogramで103.4ドル秒から0.258ドルまで、CPUでDGXワークステーションでGPUを使用する場合、Mel Spectrogram(CQT)で103.4ドル秒から0.258ドルに短縮する。 (現在、すべての実験に1つのGPUが使われている)。 さらに、既存のCQTアルゴリズムを最適化し、より高速な計算時間(0.258$秒から0.001$秒まで)でCQTスペクトログラムが得られるようにした。

Converting time domain waveforms to frequency domain spectrograms is typically considered to be a prepossessing step done before model training. This approach, however, has several drawbacks. First, it takes a lot of hard disk space to store different frequency domain representations. This is especially true during the model development and tuning process, when exploring various types of spectrograms for optimal performance. Second, if another dataset is used, one must process all the audio clips again before the network can be retrained. In this paper, we integrate the time domain to frequency domain conversion as part of the model structure, and propose a neural network based toolbox, nnAudio, which leverages 1D convolutional neural networks to perform time domain to frequency domain conversion during feed-forward. It allows on-the-fly spectrogram generation without the need to store any spectrograms on the disk. This approach also allows back-propagation on the waveforms-to-spectrograms transformation layer, which implies that this transformation process can be made trainable, and hence further optimized by gradient descent. nnAudio reduces the waveforms-to-spectrograms conversion time for 1,770 waveforms (from the MAPS dataset) from $10.64$ seconds with librosa to only $0.001$ seconds for Short-Time Fourier Transform (STFT), $18.3$ seconds to $0.015$ seconds for Mel spectrogram, $103.4$ seconds to $0.258$ for constant-Q transform (CQT), when using GPU on our DGX work station with CPU: Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz Tesla v100 32Gb GPUs. (Only 1 GPU is being used for all the experiments.) We also further optimize the existing CQT algorithm, so that the CQT spectrogram can be obtained without aliasing in a much faster computation time (from $0.258$ seconds to only $0.001$ seconds).
翻訳日:2023-06-09 23:44:29 公開日:2020-08-22
# 遷移確率のヒルベルト空間平均

Hilbert space average of transition probabilities ( http://arxiv.org/abs/2002.09396v2 )

ライセンス: Link先を確認
Nico Hahn, Thomas Guhr, Daniel Waltner(参考訳) 典型的なアプローチとヒルベルト空間平均化法は、量子統計力学の重要な概念である。 本論文では、予測値に広く使用し、遷移確率に拡張する。 この文脈では、2つのランダムに分散した状態の遷移確率が、考慮された作用素のスペクトル統計に関連していることも分かる。 さらに、我々のアプローチでは、直交しない状態間の行列要素の分布を考えることができる。 積分可能なrespにおける蹴りスピンチェーンの数値的な結果を示す。 混乱した体制だ

The typicality approach and the Hilbert space averaging method as its technical manifestation are important concepts of quantum statistical mechanics. Extensively used for expectation values we extend them in this paper to transition probabilities. In this context we also find that the transition probability of two random uniformly distributed states is connected to the spectral statistics of the considered operator. Furthermore, within our approach we are capable to consider distributions of matrix elements between states, that are not orthogonal. We will demonstrate our quite general result numerically for a kicked spin chain in the integrable resp. chaotic regime.
翻訳日:2023-06-02 11:28:58 公開日:2020-08-22
# 光格子中の冷間ボソンを含む絡み合った磁性秩序状態の断熱的調製

Adiabatic preparation of entangled, magnetically ordered states with cold bosons in optical lattices ( http://arxiv.org/abs/2003.10905v2 )

ライセンス: Link先を確認
Araceli Venegas-Gomez, Johannes Schachenmayer, Anton S. Buyskikh, Wolfgang Ketterle, Maria Luisa Chiofalo, Andrew J. Daley(参考訳) 光学格子中の2成分ボソニック原子の磁気秩序状態の合成法を解析した。 実効スピンハミルトニアンの基底状態を生成するために断熱的かつ最適化された時間依存ランプのダイナミクスを計算し、現実的な実験システムサイズと時間スケールのデコヒーレンスに対するロバスト性を決定する。 有効スピン1/2モデルとスピン-1モデルの両方における相転移点近傍のラッピングパラメータは、量子増強測定における潜在的な将来的な応用を持つ絡み合ったスピン対称状態を生成する。 これらの状態の調製とデコヒーレンスに対する堅牢性は、最終状態の量子フィッシャー情報を計算することによって定量化される。 有用な絡み合いの発生は、一般的には、状態の忠実さによって暗示されるよりも、加熱に頑健であり、実用的応用に相当すべきである。

We analyze a scheme for preparation of magnetically ordered states of two-component bosonic atoms in optical lattices. We compute the dynamics during adiabatic and optimized time-dependent ramps to produce ground states of effective spin Hamiltonians, and determine the robustness to decoherence for realistic experimental system sizes and timescales. Ramping parameters near a phase transition point in both effective spin-1/2 and spin-1 models produces entangled spin-symmetric states that have potential future applications in quantum enhanced measurement. The preparation of these states and their robustness to decoherence is quantified by computing the Quantum Fisher Information of final states. We identify that the generation of useful entanglement should in general be more robust to heating than it would be implied by the state fidelity, with corresponding implications for practical applications.
翻訳日:2023-05-28 07:28:18 公開日:2020-08-22
# 結合二重量子ドットにおける相互情報:潜在的人工意識の簡易解析モデル

Mutual Information in Coupled Double Quantum Dots: A Simple Analytic Model for Potential Artificial Consciousness ( http://arxiv.org/abs/2006.16243v2 )

ライセンス: Link先を確認
Katsuaki Tanabe(参考訳) 統合情報理論は、意識の理論的理解の鍵となるものと考えられている。 本研究では,量子ドット間のクーロン相互作用の除去によって要素の切り離しが表現される2重量子ドットの集合からなる簡易な数値モデルを提案する。 統合情報の尺度として、マスター遷移率方程式から電子状態の確率分布を用いて、接続状態と非接続状態の間でクルバック・リブラーが分岐するようなモデルシステム内の相互情報を算出する。 量子ドット間の相互作用の強さの増加は、電子状態の確率分布のばらつきが大きいため、より高い相互情報をもたらすことを合理的に証明する。 我々のモデル設定は統合情報理論の分野における数値解析の有用な基本ツールとなり得る。

The integrated information theory is thought to be a key clue towards the theoretical understanding of consciousness. In this study, we propose a simple numerical model comprising a set of coupled double quantum dots, where the disconnection of the elements is represented by the removal of Coulomb interaction between the quantum dots, for the quantitative investigation of integrated information. As a measure of integrated information, we calculate the mutual information in the model system, as the Kullback-Leibler divergence between the connected and disconnected status, through the probability distribution of the electronic states from the master transition-rate equations. We reasonably demonstrate that the increase in the strength of interaction between the quantum dots leads to higher mutual information, owing to the larger divergence in the probability distributions of the electronic states. Our model setup could be a useful basic tool for numerical analyses in the field of integrated information theory.
翻訳日:2023-05-12 07:28:07 公開日:2020-08-22
# 亜大陸におけるCOVID-19パンデミックアウトブレイク:データ駆動分析

COVID-19 Pandemic Outbreak in the Subcontinent: A data-driven analysis ( http://arxiv.org/abs/2008.09803v1 )

ライセンス: Link先を確認
Bikash Chandra Singh, Zulfikar Alom, Mohammad Muntasir Rahman, Mrinal Kanti Baowaly, Mohammad Abdul Azim(参考訳) 人類文明は、新型コロナウイルス感染症(COVID-19)の危機的状況に直面している。 このウイルスは2019年12月末に中国湖北省武漢市で発生した。 新型コロナウイルスの悲惨な事実は、自然界で非常に伝染性が高く、世界中で急速に拡散し、重症急性呼吸器症候群ウイルス(SARS-CoV-2)を引き起こす。 新型コロナウイルス研究コミュニティの深刻さに反応して、新型コロナウイルスの分析に注意を向け、社会に対する敵意を和らげる。 多くの研究によると、この亜大陸、すなわちバングラデシュ、インド、パキスタンは、新型コロナウイルスの影響で最悪の地域にとどまる可能性がある。 新型コロナウイルスの感染拡大を防ぐためには、効果的なコントロール戦略の立案を事前に予測することが重要である。 基本的には、特定の地域でcovid-19の拡散率を判断するために、複製数を安定して見積もることである。 そこで本研究では,バングラデシュ,インド,パキスタンの公衆の疫学データを用いて再現数を推定する。 より具体的には、様々なモデル(例えば、感受性感染回復(sir)、指数成長(eg)、シーケンシャルベイズ(sb)、最大確率(ml)、時間依存(td)を使用して、再現数を推定し、対応するデータセットでモデルの適合度を観測する。 実験結果から、これらのモデルが生成する再生数は1.2以上(約)であり、亜大陸で徐々にCOVID-19が拡散していることが明らかとなった。

Human civilization is experiencing a critical situation that presents itself for a new coronavirus disease 2019 (COVID-19). This virus emerged in late December 2019 in Wuhan city, Hubei, China. The grim fact of COVID-19 is, it is highly contagious in nature, therefore, spreads rapidly all over the world and causes severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). Responding to the severity of COVID-19 research community directs the attention to the analysis of COVID-19, to diminish its antagonistic impact towards society. Numerous studies claim that the subcontinent, i.e., Bangladesh, India, and Pakistan, could remain in the worst affected region by the COVID-19. In order to prevent the spread of COVID-19, it is important to predict the trend of COVID-19 beforehand the planning of effective control strategies. Fundamentally, the idea is to dependably estimate the reproduction number to judge the spread rate of COVID-19 in a particular region. Consequently, this paper uses publicly available epidemiological data of Bangladesh, India, and Pakistan to estimate the reproduction numbers. More specifically, we use various models (for example, susceptible infection recovery (SIR), exponential growth (EG), sequential Bayesian (SB), maximum likelihood (ML) and time dependent (TD)) to estimate the reproduction numbers and observe the model fitness in the corresponding data set. Experimental results show that the reproduction numbers produced by these models are greater than 1.2 (approximately) indicates that COVID-19 is gradually spreading in the subcontinent.
翻訳日:2023-05-05 06:03:43 公開日:2020-08-22
# 駆動量子ビットの時間依存蛍光に対する変分的アプローチ

Variational approach to time-dependent fluorescence of a driven qubit ( http://arxiv.org/abs/2008.09726v1 )

ライセンス: Link先を確認
Yiying Yan, Lipeng Chen, JunYan Luo, Yang Zhao(参考訳) ディラック・フレンケル変分原理と複数のダヴィドフ・アンサッツを用いて、弱から強い量子-保存結合系における駆動量子ビットの時間依存蛍光スペクトルの研究を行い、ラビ周波数と自発的減衰率の両方が量子ビットの遷移周波数に匹敵する。 本手法は,弱結合状態における時間-局所マスター-方程式法とよく一致し,2時間相関関数の代わりにボソニックダイナミクスからスペクトルを計算する柔軟な方法を提供する。 強い結合状態では摂動的主方程式が崩壊するが, ボゾンコヒーレントな状態が一定の条件下で用いられるため, 本手法はより正確になる。 その結果, 量子ビットと貯水池の対回転結合は, 結合が緩やかに弱いにもかかわらず, 強い駆動条件下での光子数ダイナミクスやスペクトルに大きく寄与することがわかった。 時間依存スペクトルは一般に非対称であり、これは光子数力学から導かれる特徴である。 また、スペクトルプロファイルは、強い駆動に伴う強い散逸および/または多光子過程により、モロー三重項と劇的に異なることが示されている。 我々の形式主義は時間依存スペクトルを解釈するためのユニークな視点を提供する。

We employ the Dirac-Frenkel variational principle and multiple Davydov ansatz to study time-dependent fluorescence spectra of a driven qubit in the weak- to strong qubit-reservoir coupling regimes, where both the Rabi frequency and spontaneous decay rate are comparable to the transition frequency of the qubit. Our method agrees well with the time-local master-equation approach in the weak-coupling regime, and offers a flexible way to compute the spectra from the bosonic dynamics instead of two-time correlation functions. While the perturbative master equation breaks down in the strong-coupling regime, our method actually becomes more accurate due to the use of bosonic coherent states under certain conditions. We show that the counter-rotating coupling between the qubit and the reservoir has considerable contributions to the photon number dynamics and the spectra under strong driving conditions even though the coupling is moderately weak. The time-dependent spectra are found to be generally asymmetric, a feature that is derived from photon number dynamics. In addition, it is shown that the spectral profiles can be dramatically different from the Mollow triplet due to strong dissipation and/or multiphoton processes associated with the strong driving. Our formalism provides a unique perspective to interpret time-dependent spectra.
翻訳日:2023-05-05 06:03:14 公開日:2020-08-22
# 平行生活はハーディのパラドックスの解決策となるか?

Can parallel lives provide a solution to Hardy's paradox? ( http://arxiv.org/abs/2009.07633v1 )

ライセンス: Link先を確認
\.Inan\c{c} \c{S}ahin(参考訳) 並列生命は、局所的かつ現実的な量子論の解釈を提供するモデルである。 このモデルは、全ての量子場が「生きた」と呼ばれる点からなると仮定する。 生命は局所的に相互作用し、以前の相互作用の記憶を持つ。 状態ベクトルの削減はこのモデルには含まれず、生活は異なる世界に分けられる。 この特徴は多くの世界の解釈に似ている。 しかし、平行生活モデルでは、異なる世界への生活の分割が局所的に行われる。 並列寿命モデルは、光速を超えない速度で伝播し、局所的に相互作用するため、特殊相対性理論と互換性があると期待されている。 一方、反事実的命題に基づくパラドックスは、量子論の現実的な解釈を提供するため、オープンである。 本稿では,ハーディが提案したパラドックスを用いて並列生活モデルに挑戦する。 平行生活モデルはハーディのパラドックスのジレンマを克服できないことを示した。 我々は、相対性理論の特殊理論におけるこの対立の意味を議論し、並列生活モデルの精神に合致する解を推測する。

Parallel lives is a model which provides an interpretation of quantum theory that is both local and realistic. This model assumes that all quantum fields are composed of point beings called "lives". Lives interact locally and have a memory of their previous interactions. The reduction of the state vector is not included in this model: lives can be divided into different worlds. This feature resembles many worlds interpretation. However in the parallel lives model, the division of lives into different worlds takes place locally. The parallel lives model is expected to be compatible with special relativity, as the lives propagate at a speed that does not exceed the speed of light and interact locally. On the other hand, it is open to paradoxes based on counterfactual propositions, as it provides a realistic interpretation of quantum theory. In this paper, we confront the parallel lives model with the paradox proposed by Hardy. We show that the parallel lives model cannot overcome the dilemma in Hardy's paradox. We discuss implications of this confrontation on special theory of relativity, and speculate a solution that we believe, fits the spirit of the parallel lives model.
翻訳日:2023-05-05 06:00:45 公開日:2020-08-22
# 特定の学習障害スクリーニングへのディープラーニングの適用

Applying Deep Learning to Specific Learning Disorder Screening ( http://arxiv.org/abs/2008.13525v1 )

ライセンス: Link先を確認
Nuriel S. Mor and Kathryn L. Dardeck(参考訳) 早期発見は、スペリング、文法、句読点、明快さ、文面表現の組織化などの問題を含む、特定の学習障害と診断される患者を治療するための鍵となる。 早期介入は、この障害による潜在的なネガティブな結果を防ぐことができる。 深層畳み込みニューラルネットワーク(deep convolutional neural networks:cnns)は、視覚データから医療診断を行うなど、多くの視覚タスクにおいて、人間よりも優れたパフォーマンスを発揮する。 本研究の目的は,筆跡から特定の学習障害の診断を受ける学生を深層cnnで検出する能力を評価することである。 MobileNetV2のディープCNNアーキテクチャは、転送学習を適用した。 このモデルは、特定の学習障害の診断を受ける学生と、この診断を受けていない学生の筆跡サンプルの497枚のデータセットを用いて訓練された。 検証結果から得られた特定の学習障害の検出は、受信者動作特性曲線0.89の平均領域を設定する。 本研究は,ディープラーニングを用いた特定の学習障害の診断を行う学生を新たに検出する試みである。 本研究のために構築されたこのようなシステムは、特定の学習障害の診断基準を満たした学生の早期初期スクリーニングを提供する可能性がある。

Early detection is key for treating those diagnosed with specific learning disorder, which includes problems with spelling, grammar, punctuation, clarity and organization of written expression. Intervening early can prevent potential negative consequences from this disorder. Deep convolutional neural networks (CNNs) perform better than human beings in many visual tasks such as making a medical diagnosis from visual data. The purpose of this study was to evaluate the ability of a deep CNN to detect students with a diagnosis of specific learning disorder from their handwriting. The MobileNetV2 deep CNN architecture was used by applying transfer learning. The model was trained using a data set of 497 images of handwriting samples from students with a diagnosis of specific learning disorder, as well as those without this diagnosis. The detection of a specific learning disorder yielded on the validation set a mean area under the receiver operating characteristics curve of 0.89. This is a novel attempt to detect students with the diagnosis of specific learning disorder using deep learning. Such a system as was built for this study, may potentially provide fast initial screening of students who may meet the criteria for a diagnosis of specific learning disorder.
翻訳日:2023-05-05 06:00:29 公開日:2020-08-22
# 大規模アプリレビュー分析に基づくアプリ内広告問題に関する実証的研究

An Empirical Study of In-App Advertising Issues Based on Large Scale App Review Analysis ( http://arxiv.org/abs/2008.12112v1 )

ライセンス: Link先を確認
Cuiyun Gao, Jichuan Zeng, David Lo, Xin Xia, Irwin King, Michael R. Lyu(参考訳) アプリ内広告はアプリ収益と密接に関連している。 無謀な広告統合はアプリの信頼性とユーザーエクスペリエンスに悪影響を及ぼす可能性がある。 アプリ開発者にとって広告収入とユーザーエクスペリエンスのバランスをとることは非常に難しい。 本稿では,広告関連ユーザフィードバックに関する大規模分析を行う。 App StoreとGoogle Playからの大規模なユーザフィードバックデータにより、広告関連のアプリの問題を包括的に要約し、開発者に対して実用的な広告統合戦略を提供することができます。 まず、広告関連フィードバックの統計的に代表されるサンプルを手動でラベル付けし、次に広告関連フィードバックを分類する自動分類器を構築する。 異なる広告問題とユーザレーティングの関係を調査し,ユーザによる低得点広告問題を特定する。 また,プラットフォーム間の広告問題の修正期間についても検討し,広告のメンテナンスのための広告問題の優先順位付けに関する洞察を抽出する。 広告関連ユーザレビュー903/36,309を手作業でアノテートすることにより,15種類の広告問題を要約した。 広告関連レビュー36,309件の統計分析から、ユーザーは使用中の広告数や広告表示頻度を最も気にしていることがわかった。 さらに、ユーザーはセキュリティや通知に関する問題を報告する際に、比較的低い評価を与える傾向がある。 異なるプラットフォームに関して、広告問題の分布がApp StoreとGoogle Playとは大きく異なることを観察する。 さらに、一部の広告イシュータイプは、他の広告イシューよりも開発者によって迅速に対処される。 私たちが発見した発見は、アプリの信頼性を確保しながら、広告収入とユーザーエクスペリエンスのバランスをとる上で、アプリ開発者の利益になると考えています。

In-app advertising closely relates to app revenue. Reckless ad integration could adversely impact app reliability and user experience, leading to loss of income. It is very challenging to balance the ad revenue and user experience for app developers. In this paper, we present a large-scale analysis on ad-related user feedback. The large user feedback data from App Store and Google Play allow us to summarize ad-related app issues comprehensively and thus provide practical ad integration strategies for developers. We first define common ad issues by manually labeling a statistically representative sample of ad-related feedback, and then build an automatic classifier to categorize ad-related feedback. We study the relations between different ad issues and user ratings to identify the ad issues poorly scored by users. We also explore the fix durations of ad issues across platforms for extracting insights into prioritizing ad issues for ad maintenance. We summarize 15 types of ad issues by manually annotating 903/36,309 ad-related user reviews. From a statistical analysis of 36,309 ad-related reviews, we find that users care most about the number of unique ads and ad display frequency during usage. Besides, users tend to give relatively lower ratings when they report the security and notification related issues. Regarding different platforms, we observe that the distributions of ad issues are significantly different between App Store and Google Play. Moreover, some ad issue types are addressed more quickly by developers than other ad issues. We believe the findings we discovered can benefit app developers towards balancing ad revenue and user experience while ensuring app reliability.
翻訳日:2023-05-05 06:00:12 公開日:2020-08-22
# 量子非線形メタサーフェス

Quantum nonlinear metasurfaces ( http://arxiv.org/abs/2008.11035v1 )

ライセンス: Link先を確認
Alexander N. Poddubny, Dragomir N. Neshev, Andrey A. Sukhorukov(参考訳) メタサーフェスにおける非線形ナノ共振子による量子光発生の最近の進歩を概観し、量子状態の源と放出光子を形成するナノアンテナの両方として作用する。 我々は、ナノ共振器や準曲面を含む任意の非線形フォトニック構造における自発光子対生成の一般量子論を概説し、古典的グリーン関数を通して表現される光子状態に対して明確な解析解を提供する。 非線形媒体における量子光子ペア生成と古典的和周波過程の対応を定式化し、導波路回路やナノ構造を含む様々な文脈でその応用について論じる。 また, 単一非線形ナノアンテナを用いた光子対生成実験を行った。

We review the latest advances in the generation of quantum light with nonlinear nanoresonators in metasurfaces, which act both as sources of quantum states and nanoantennas shaping the emitted photons. We outline a general quantum theory of spontaneous photon-pair generation in arbitrary nonlinear photonic structures, including nanoresonators and metasurfaces, which provides an explicit analytical solution for the photon state expressed through the classical Green function. We formulate the correspondence between the quantum photon-pair generation and classical sum-frequency process in nonlinear media, and discuss its application in various contexts, including waveguide circuits and nanostructures. We also discuss the first experimental results demonstrating photon-pair generation in a single nonlinear nanoantenna.
翻訳日:2023-05-05 05:59:47 公開日:2020-08-22
# 断熱量子アニーリングによる量子強化の展望

Prospects for Quantum Enhancement with Diabatic Quantum Annealing ( http://arxiv.org/abs/2008.09913v1 )

ライセンス: Link先を確認
E.J. Crosson and D.A. Lidar(参考訳) 量子アニーリング(qa)の一般的な枠組みにおけるアルゴリズムの展望を評価し、組合せ最適化と関連するサンプリングタスクにおける古典的手法に対する量子速度向上を達成する。 我々は、コヒーレンス時間と制御能力の改善により、文献に導入されているいくつかのヒューリスティック量子最適化アルゴリズムの短期的な探索を可能にすることに基づいて、QAフレームワークへの継続的な探索と関心を論じる。 これらの連続時間ハミルトニアン計算アルゴリズムは、従来の基底状態のQAよりも高度な制御プロトコルに依存しているが、ゲートモデルの実装よりもかなり単純である。 励起状態へのコヒーレントな断熱遷移の包含は、断熱量子アニーリング(diabatic quantum annealing, dqa)と呼ばれる一般化をもたらす。 他の有望な従来のQAには、逆アニールや連続時間量子ウォーク、機械学習のためのパラメータ化量子回路のアナログアナログなどがある。 これらのアルゴリズムの多くは、効率的な古典的シミュレーションを知らない(あるいは発見される可能性が高い)が、多くの場合、量子スピードアップの可能性を期待する(しかし限定的な)早期の兆候があり、中間スケールの量子ハードウェアによるさらなる研究に値する。 これらすべてのプロトコルは、時間依存の有効横フィールドイジング・ハミルトニアンは、例えば、帰納的に結合されたフラックス量子ビットによってネイティブに実装され、既存のおよびアプリケーションスケールで射影されるような、新しい非平衡量子力学の完全な範囲を受け入れることによって、最先端の方法で探索することができると論じる。

We assess the prospects for algorithms within the general framework of quantum annealing (QA) to achieve a quantum speedup relative to classical state of the art methods in combinatorial optimization and related sampling tasks. We argue for continued exploration and interest in the QA framework on the basis that improved coherence times and control capabilities will enable the near-term exploration of several heuristic quantum optimization algorithms that have been introduced in the literature. These continuous-time Hamiltonian computation algorithms rely on control protocols that are more advanced than those in traditional ground-state QA, while still being considerably simpler than those used in gate-model implementations. The inclusion of coherent diabatic transitions to excited states results in a generalization called diabatic quantum annealing (DQA), which we argue for as the most promising route to quantum enhancement within this framework. Other promising variants of traditional QA include reverse annealing and continuous-time quantum walks, as well as analog analogues of parameterized quantum circuit ansatzes for machine learning. Most of these algorithms have no known (or likely to be discovered) efficient classical simulations, and in many cases have promising (but limited) early signs for the possibility of quantum speedups, making them worthy of further investigation with quantum hardware in the intermediate-scale regime. We argue that all of these protocols can be explored in a state-of-the-art manner by embracing the full range of novel out-of-equilibrium quantum dynamics generated by time-dependent effective transverse-field Ising Hamiltonians that can be natively implemented by, e.g., inductively-coupled flux qubits, both existing and projected at application scale.
翻訳日:2023-05-05 05:59:34 公開日:2020-08-22
# 光ツイーザ中中性フェルミオン原子に対する高速普遍2量子ゲート

Fast universal two-qubit gate for neutral fermionic atoms in optical tweezers ( http://arxiv.org/abs/2008.09819v1 )

ライセンス: Link先を確認
Jonathan Nemirovsky and Yoav Sagi(参考訳) 光マイクロトラップに保持される超低温中性原子の配列は、量子計算にとって有望なプラットフォームである。 このプラットフォームの大きなボトルネックの1つは、2量子ビットゲートの速度を制限する隣接する原子間の弱い結合強度である。 本稿では,フェルミオン原子を用いた高速な広義平方根SWAPゲートの実現法を提案する。 ゲートの基本的な考え方は、2つの原子の間に位置する調和ポテンシャルに原子を放出することである。 相互作用パラメータを適切に調整することにより、原子間の衝突過程が絡み合いを生成し、所望のゲートを生成する。 解析により、広い原子波束の限界において、ゲートの忠実度が一意に近づくことが証明される。 典型的な実験パラメータでは,我々のゲートはマイクロ秒の時間スケールで動作可能であり,0.998以上の忠実度を実現することができる。 さらに、ゲートの持続時間は原子間の初期距離に依存しない。 このような特徴を持つゲートは、中性原子を用いた量子計算における全接続性とフォールトトレランスの重要なマイルストーンである。

An array of ultracold neutral atoms held in optical micro-traps is a promising platform for quantum computation. One of the major bottlenecks of this platform is the weak coupling strength between adjacent atoms, which limits the speed of two-qubit gates. Here, we present a method to perform a fast universal square-root-SWAP gate with fermionic atoms. The basic idea of the gate is to release the atoms into a harmonic potential positioned in between the two atoms. By properly tailoring the interaction parameter, the collision process between the atoms generates entanglement and yields the desired gate. We prove analytically that in the limit of broad atomic wave-packets, the fidelity of the gate approaches unity. We demonstrate numerically that with typical experimental parameters, our gate can operate on a microsecond timescale and achieves a fidelity higher than 0.998. Moreover, the gate duration is independent of the initial distance between the atoms. A gate with such features is an important milestone towards all-to-all connectivity and fault tolerance in quantum computation with neutral atoms.
翻訳日:2023-05-05 05:57:53 公開日:2020-08-22
# 移動点としての行動

Actions as Moving Points ( http://arxiv.org/abs/2001.04608v3 )

ライセンス: Link先を確認
Yixuan Li, Zixu Wang, Limin Wang, Gangshan Wu(参考訳) 既存のアクションチューブレット検出器は、しばしばヒューリスティックなアンカーの設計と配置に依存しており、これは計算コストが高く、正確な位置決めに最適である。 本稿では,動作インスタンスを移動点の軌跡として扱うことで,概念的にシンプルで計算効率が高く,より精密な動作検出フレームワークである移動中心検出器(moc-detector)を提案する。 このmoc検出装置は,(1)中心検出および動作認識のためのセンタブランチ,(2)移動点の軌跡を形成する隣接フレームにおける移動推定のための移動ブランチ,(3)推定された各中心でのバウンディングボックスサイズを直接レグレッションして空間的範囲検出を行うボックスブランチの3つの重要なヘッドブランチから構成されている。 これら3つの枝は協力してチューブレット検出結果を生成する。 我々のMOC検出器は、JHMDBおよびUCF101-24データセット上のフレームmAPとビデオmAPの両方のメトリクスに対して、既存の最先端手法よりも優れている。 高いビデオIoUでは,MOC検出が特に高精度な動作検出に有効であることが示される。 コードはhttps://github.com/MCG-NJU/MOC-Detector.comで提供します。

The existing action tubelet detectors often depend on heuristic anchor design and placement, which might be computationally expensive and sub-optimal for precise localization. In this paper, we present a conceptually simple, computationally efficient, and more precise action tubelet detection framework, termed as MovingCenter Detector (MOC-detector), by treating an action instance as a trajectory of moving points. Based on the insight that movement information could simplify and assist action tubelet detection, our MOC-detector is composed of three crucial head branches: (1) Center Branch for instance center detection and action recognition, (2) Movement Branch for movement estimation at adjacent frames to form trajectories of moving points, (3) Box Branch for spatial extent detection by directly regressing bounding box size at each estimated center. These three branches work together to generate the tubelet detection results, which could be further linked to yield video-level tubes with a matching strategy. Our MOC-detector outperforms the existing state-of-the-art methods for both metrics of frame-mAP and video-mAP on the JHMDB and UCF101-24 datasets. The performance gap is more evident for higher video IoU, demonstrating that our MOC-detector is particularly effective for more precise action detection. We provide the code at https://github.com/MCG-NJU/MOC-Detector.
翻訳日:2023-01-11 12:43:57 公開日:2020-08-22
# 自動ポリープ検出におけるアーティファクトの効果の理解と学習による知識の統合

Understanding the effects of artifacts on automated polyp detection and incorporating that knowledge via learning without forgetting ( http://arxiv.org/abs/2002.02883v3 )

ライセンス: Link先を確認
Maxime Kayser, Roger D. Soberanis-Mukul, Anna-Maria Zvereva (M.D.), Peter Klare (M.D.), Nassir Navab, Shadi Albarqouni(参考訳) 早期にポリープが検出された場合、大腸癌の生存率は高く、悪性腫瘍に進展する前に除去することができる。 ディープラーニングに基づく手法が支配するポリプの自動検出は、ポリプの早期検出を改善することを目指している。 しかしながら、現在の取り組みはトレーニングデータセットのサイズと品質に大きく依存しています。 これらのデータセットの品質は、しばしば可視性に影響する様々な画像アーティファクトと、それゆえ検出率に苦しむ。 本研究では,アーティファクトが自動ポリープ検出に与える影響をよりよく理解するために,系統解析を行った。 6つの異なるアーティファクトクラスとそのイメージ内の位置が、RetinaNetベースのポリプ検出モデルの性能にどのように影響するかを検討する。 アーティファクトクラスによっては、ポリプ検出器に利益をもたらすか、害を与える可能性があることが分かりました。 例えば、泡はしばしばポリープとして誤分類されるが、ポリープ領域内の鏡面反射は検出能力を向上させることができる。 次に,フレームワークを忘れることなく学習するといった異なる戦略を検討し,人工的知識を活用し,ポリプの自動検出を改善する。 以上の結果から, ポリプ検出能力を著しく向上させるためには, これらのモデルが有害なアーティファクトの影響を軽減できることが示唆された。

Survival rates for colorectal cancer are higher when polyps are detected at an early stage and can be removed before they develop into malignant tumors. Automated polyp detection, which is dominated by deep learning based methods, seeks to improve early detection of polyps. However, current efforts rely heavily on the size and quality of the training datasets. The quality of these datasets often suffers from various image artifacts that affect the visibility and hence, the detection rate. In this work, we conducted a systematic analysis to gain a better understanding of how artifacts affect automated polyp detection. We look at how six different artifact classes, and their location in an image, affect the performance of a RetinaNet based polyp detection model. We found that, depending on the artifact class, they can either benefit or harm the polyp detector. For instance, bubbles are often misclassified as polyps, while specular reflections inside of a polyp region can improve detection capabilities. We then investigated different strategies, such as a learning without forgetting framework, to leverage artifact knowledge to improve automated polyp detection. Our results show that such models can mitigate some of the harmful effects of artifacts, but require more work to significantly improve polyp detection capabilities.
翻訳日:2023-01-03 04:26:03 公開日:2020-08-22
# ReClor: 論理的推論を必要とする要約データセット

ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning ( http://arxiv.org/abs/2002.04326v3 )

ライセンス: Link先を確認
Weihao Yu, Zihang Jiang, Yanfei Dong, Jiashi Feng(参考訳) 最近の強力な事前学習型言語モデルは、理解を読み取るための一般的なデータセットのほとんどで顕著なパフォーマンスを実現している。 この分野の開発をテキストのより包括的な推論へと進めるために、より困難なデータセットを導入する時が来た。 本稿では,標準化された大学院入学試験から抽出した論理推論(reclor)を必要とする新しい読解データセットを提案する。 以前の研究が示唆しているように、人間の注釈付きデータセットは通常バイアスを含んでおり、しばしばモデルがテキストを真に理解せずに高い精度を達成するために活用する。 本稿では,ReClor 上でのモデルの論理的推論能力を総合的に評価するために,偏りのあるデータ点を同定し,それを EASY 集合に分割し,残りを HARD 集合とする手法を提案する。 実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。 しかし、ランダムな推測に近い性能の悪いハードセットに苦慮しており、現在のモデルの論理的推論能力を高めるために、さらなる研究が必要であることを示している。

Recent powerful pre-trained language models have achieved remarkable performance on most of the popular datasets for reading comprehension. It is time to introduce more challenging datasets to push the development of this field towards more comprehensive reasoning of text. In this paper, we introduce a new Reading Comprehension dataset requiring logical reasoning (ReClor) extracted from standardized graduate admission examinations. As earlier studies suggest, human-annotated datasets usually contain biases, which are often exploited by models to achieve high accuracy without truly understanding the text. In order to comprehensively evaluate the logical reasoning ability of models on ReClor, we propose to identify biased data points and separate them into EASY set while the rest as HARD set. Empirical results show that state-of-the-art models have an outstanding ability to capture biases contained in the dataset with high accuracy on EASY set. However, they struggle on HARD set with poor performance near that of random guess, indicating more research is needed to essentially enhance the logical reasoning ability of current models.
翻訳日:2023-01-02 01:00:47 公開日:2020-08-22
# 都市における交通避難のシミュレーションパイプラインとケーススタディによる緊急交通管理政策の改善

Simulation Pipeline for Traffic Evacuation in Urban Areas and Emergency Traffic Management Policy Improvements through Case Studies ( http://arxiv.org/abs/2002.06198v4 )

ライセンス: Link先を確認
Yu Chen, S. Yusef Shafi, Yi-fan Chen(参考訳) 交通避難は、ハリケーン、山火事、洪水、地震などの災害で生活を救う上で重要な役割を果たしている。 交通流のボトルネックの特定,交通管理方針の改善,交通管理方針の堅牢性の理解など,これらのまれなイベントに対して,事前の避難計画の評価が緊急管理に不可欠である。 このようなイベントのまれさと実際のデータの欠如を考えると、交通シミュレーションはこのようなシナリオに対して柔軟で汎用的なアプローチを提供し、さらにシミュレーションされた避難と動的に相互作用できる。 本稿では,地図作成,需要発生,車両の挙動,ボトルネック識別,交通管理方針の改善,結果分析など,避難のさまざまな側面をカバーする交通シミュレーションパイプラインを構築した。 このパイプラインをカリフォルニアの2つのケーススタディに適用する。 1つ目はパラダイスであり、2018年の大規模な山火事で焼失し、避難中に壊滅的な交通渋滞に見舞われた。 2つ目はミル・バレーであり、市は狭い谷にあるので、山火事や交通の潜在的な危険性が高い。

Traffic evacuation plays a critical role in saving lives in devastating disasters such as hurricanes, wildfires, floods, earthquakes, etc. An ability to evaluate evacuation plans in advance for these rare events, including identifying traffic flow bottlenecks, improving traffic management policies, and understanding the robustness of the traffic management policy are critical for emergency management. Given the rareness of such events and the corresponding lack of real data, traffic simulation provides a flexible and versatile approach for such scenarios, and furthermore allows dynamic interaction with the simulated evacuation. In this paper, we build a traffic simulation pipeline to explore the above problems, covering many aspects of evacuation, including map creation, demand generation, vehicle behavior, bottleneck identification, traffic management policy improvement, and results analysis. We apply the pipeline to two case studies in California. The first is Paradise, which was destroyed by a large wildfire in 2018 and experienced catastrophic traffic jams during the evacuation. The second is Mill Valley, which has high risk of wildfire and potential traffic issues since the city is situated in a narrow valley.
翻訳日:2023-01-01 05:08:54 公開日:2020-08-22
# FormulaZero:オフライン人口合成による分散ロバストオンライン適応

FormulaZero: Distributionally Robust Online Adaptation via Offline Population Synthesis ( http://arxiv.org/abs/2003.03900v2 )

ライセンス: Link先を確認
Aman Sinha, Matthew O'Kelly, Hongrui Zheng, Rahul Mangharam, John Duchi, Russ Tedrake(参考訳) 性能と安全性のバランスは、マルチエージェント環境での自動運転車の展開に不可欠である。 特に、自律レースは安全だが保守的なポリシーを罰する領域であり、堅牢で適応的な戦略の必要性を強調している。 現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。 この研究は両方の課題にアルゴリズム的な貢献をする。 まず, 現実的かつ多様な対戦相手群を生成するために, 複製交換マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。 第2に,不確実性に対するリスク回避を適応的に調整する分散ロバストな帯域最適化手法を提案する。 我々は,リアルタイムモーションプランニングにおいて,これらの計算を近似する際の性能とロバスト性のトレードオフを厳密に定量化し,フォーミュラ1レースカーに匹敵するスケール速度を実現する自律走行車に関する実験手法を実証する。

Balancing performance and safety is crucial to deploying autonomous vehicles in multi-agent environments. In particular, autonomous racing is a domain that penalizes safe but conservative policies, highlighting the need for robust, adaptive strategies. Current approaches either make simplifying assumptions about other agents or lack robust mechanisms for online adaptation. This work makes algorithmic contributions to both challenges. First, to generate a realistic, diverse set of opponents, we develop a novel method for self-play based on replica-exchange Markov chain Monte Carlo. Second, we propose a distributionally robust bandit optimization procedure that adaptively adjusts risk aversion relative to uncertainty in beliefs about opponents' behaviors. We rigorously quantify the tradeoffs in performance and robustness when approximating these computations in real-time motion-planning, and we demonstrate our methods experimentally on autonomous vehicles that achieve scaled speeds comparable to Formula One racecars.
翻訳日:2022-12-25 08:24:29 公開日:2020-08-22
# copulaモデルを用いた方向依存マルチビュークラスタリング

Directionally Dependent Multi-View Clustering Using Copula Model ( http://arxiv.org/abs/2003.07494v2 )

ライセンス: Link先を確認
Kahkashan Afrin, Ashif S. Iquebal, Mostafa Karimi, Allyson Souris, Se Yoon Lee, and Bani K. Mallick(参考訳) 最近の生物医学的な問題では、複数のデータソースからオブジェクトの集合を統合的にクラスタ化することが基本的な問題である。 このような問題は、様々なソースからデータが収集され、典型的には異なるが相補的な情報を表すゲノミクスで主に発生する。 マルチソースクラスタリングのためのこれらのデータソースの統合は、方向依存を含む複雑な依存構造のために難しい。 特にゲノム研究では、DNAの発現、DNAメチル化、RNAの発現に一定の方向依存があることが知られており、The Central Dogmaと呼ばれている。 既存のマルチビュークラスタリングの手法のほとんどは、独立した構造あるいは対方向(非方向)依存性を前提として、方向関係を無視している。 そこで本研究では,copulaがデータセットに存在する方向依存に対応することを可能にする,copulaベースのマルチビュークラスタリングモデルを提案する。 シミュレーション実験では,方向依存を無視することがクラスタリング性能に悪影響を及ぼすことが判明した。 実際の応用として,癌ゲノムアルタス(TCGA)から採取した乳癌腫瘍標本に本モデルを適用した。

In recent biomedical scientific problems, it is a fundamental issue to integratively cluster a set of objects from multiple sources of datasets. Such problems are mostly encountered in genomics, where data is collected from various sources, and typically represent distinct yet complementary information. Integrating these data sources for multi-source clustering is challenging due to their complex dependence structure including directional dependency. Particularly in genomics studies, it is known that there is certain directional dependence between DNA expression, DNA methylation, and RNA expression, widely called The Central Dogma. Most of the existing multi-view clustering methods either assume an independent structure or pair-wise (non-directional) dependency, thereby ignoring the directional relationship. Motivated by this, we propose a copula-based multi-view clustering model where a copula enables the model to accommodate the directional dependence existing in the datasets. We conduct a simulation experiment where the simulated datasets exhibiting inherent directional dependence: it turns out that ignoring the directional dependence negatively affects the clustering performance. As a real application, we applied our model to the breast cancer tumor samples collected from The Cancer Genome Altas (TCGA).
翻訳日:2022-12-22 21:58:12 公開日:2020-08-22
# イベントカメラ用シン・トゥ・リアルギャップの低減

Reducing the Sim-to-Real Gap for Event Cameras ( http://arxiv.org/abs/2003.09078v5 )

ライセンス: Link先を確認
Timo Stoffregen, Cedric Scheerlinck, Davide Scaramuzza, Tom Drummond, Nick Barnes, Lindsay Kleeman, Robert Mahony(参考訳) イベントカメラは、非同期でピクセルごとの明るさ変化を報告し、非並列の低レイテンシで「イベント」と呼ばれるパラダイムシフトする新しいセンサーである。 これは、従来のカメラが故障する高速でダイナミックレンジのシーンに理想的である。 近年の研究では、コンボリューショナルニューラルネットワーク(CNN)を用いて、映像再構成とイベントによる光学的流れを実証している。 本稿では,既存のSOTA(State-of-the-art)ビデオ再構成ネットワークの性能を20~40%向上させるイベントベースCNNのトレーニングデータの改善戦略と,光フローネットワークの最大15%について述べる。 イベントベースのビデオ再構成を評価する上での課題は、既存のデータセットの品質上の真実イメージの欠如である。 そこで本研究では,DAVIS240Cのイベントと地上の真理フレームを含む,高品質フレーム(HQF)データセットを提案する。 本手法はhqf+既存の主要なイベントカメラデータセットで評価する。

Event cameras are paradigm-shifting novel sensors that report asynchronous, per-pixel brightness changes called 'events' with unparalleled low latency. This makes them ideal for high speed, high dynamic range scenes where conventional cameras would fail. Recent work has demonstrated impressive results using Convolutional Neural Networks (CNNs) for video reconstruction and optic flow with events. We present strategies for improving training data for event based CNNs that result in 20-40% boost in performance of existing state-of-the-art (SOTA) video reconstruction networks retrained with our method, and up to 15% for optic flow networks. A challenge in evaluating event based video reconstruction is lack of quality ground truth images in existing datasets. To address this, we present a new High Quality Frames (HQF) dataset, containing events and ground truth frames from a DAVIS240C that are well-exposed and minimally motion-blurred. We evaluate our method on HQF + several existing major event camera datasets.
翻訳日:2022-12-21 22:34:25 公開日:2020-08-22
# 正規化流を用いた3次元人物姿勢と形状再構成

Weakly Supervised 3D Human Pose and Shape Reconstruction with Normalizing Flows ( http://arxiv.org/abs/2003.10350v2 )

ライセンス: Link先を確認
Andrei Zanfir, Eduard Gabriel Bazavan, Hongyi Xu, Bill Freeman, Rahul Sukthankar and Cristian Sminchisescu(参考訳) 複雑な視覚場面における大規模教師付き学習のための訓練データを取得するため、身体の自由度やディフューチャの多さから、単眼的3次元人間のポーズや形状推定は困難である。 本稿では,実世界の映像と映像の訓練と一般化を支援する実践的な半教師付きモデルと自己教師付きモデルを提案する。 我々の定式化は、運動論的潜在正規化フロー表現と力学、および自己教師付き学習をサポートする意味的身体部分アライメント損失関数に基づく。 CMU,Human3.6M,3DPW,AMASSなどの3DモーションキャプチャデータセットとCOCOなどのイメージリポジトリを用いた広範な実験において,提案手法は,多種多様かつ不完全なラベル付き画像と映像データを用いた大規模トレーニングに基づく,正確なモデルのファミリの構築を支援するとともに,技術状況よりも優れていることを示す。

Monocular 3D human pose and shape estimation is challenging due to the many degrees of freedom of the human body and thedifficulty to acquire training data for large-scale supervised learning in complex visual scenes. In this paper we present practical semi-supervised and self-supervised models that support training and good generalization in real-world images and video. Our formulation is based on kinematic latent normalizing flow representations and dynamics, as well as differentiable, semantic body part alignment loss functions that support self-supervised learning. In extensive experiments using 3D motion capture datasets like CMU, Human3.6M, 3DPW, or AMASS, as well as image repositories like COCO, we show that the proposed methods outperform the state of the art, supporting the practical construction of an accurate family of models based on large-scale training with diverse and incompletely labeled image and video data.
翻訳日:2022-12-21 00:25:47 公開日:2020-08-22
# mm波質量MIMOにおけるハイブリッドビームフォーミングのフェデレーション学習

Federated Learning for Hybrid Beamforming in mm-Wave Massive MIMO ( http://arxiv.org/abs/2005.09969v3 )

ライセンス: Link先を確認
Ahmet M. Elbir and Sinem Coleri(参考訳) ハイブリッドビームフォーミングのための機械学習は、ユーザから収集された大規模なデータセットを持つグローバルモデルのトレーニングを必要とする集中型機械学習(CML)技術を使用して、広範囲に研究されている。 しかし、ユーザとベースステーション(bs)間のデータセット全体の送信は、通信帯域幅の制限とプライバシの懸念により計算的に禁止される。 本研究では,ハイブリッドビームフォーミングのためのフェデレートラーニング(FL)ベースのフレームワークを導入し,ユーザからの勾配のみを収集してBSでモデルトレーニングを行う。 本研究では,入力がチャネルデータである畳み込みニューラルネットワークを設計し,その出力でアナログビームフォーマーを生成する。 数値シミュレーションにより、FLはチャネルデータの不完全性や破損に寛容であり、CMLよりも透過オーバーヘッドが少ないことが示されている。

Machine learning for hybrid beamforming has been extensively studied by using centralized machine learning (CML) techniques, which require the training of a global model with a large dataset collected from the users. However, the transmission of the whole dataset between the users and the base station (BS) is computationally prohibitive due to limited communication bandwidth and privacy concerns. In this work, we introduce a federated learning (FL) based framework for hybrid beamforming, where the model training is performed at the BS by collecting only the gradients from the users. We design a convolutional neural network, in which the input is the channel data, yielding the analog beamformers at the output. Via numerical simulations, FL is demonstrated to be more tolerant to the imperfections and corruptions in the channel data as well as having less transmission overhead than CML.
翻訳日:2022-12-01 06:14:34 公開日:2020-08-22
# info3d:相互情報最大化とコントラスト学習を用いた3次元オブジェクト表現学習

Info3D: Representation Learning on 3D Objects using Mutual Information Maximization and Contrastive Learning ( http://arxiv.org/abs/2006.02598v2 )

ライセンス: Link先を確認
Aditya Sanghi(参考訳) コンピュータビジョンの主な取り組みは、3dデータから構造を表現、理解、抽出することである。 この目標に向けて、教師なし学習は強力で必要なツールです。 現在、教師なしの3d形状解析のほとんどの方法は、アライン化され、オブジェクトを再構築し、下流タスクのパフォーマンス低下に苦しむデータセットを使用する。 これらの問題を解決するため,我々はインフォマックスとコントラスト学習の原理を3次元形状に拡張する。 3dオブジェクトとその「チャンク」間の相互情報を最大化することで、アライメントされたデータセットの表現を改善することができることを示す。 さらに、SO${(3)}$群における回転不変性は、3Dオブジェクトとその幾何学変換バージョン間の相互情報を最大化することで実現できる。 最後に,クラスタリング,移動学習,形状検索,技術成果の達成など,いくつかの実験を行った。

A major endeavor of computer vision is to represent, understand and extract structure from 3D data. Towards this goal, unsupervised learning is a powerful and necessary tool. Most current unsupervised methods for 3D shape analysis use datasets that are aligned, require objects to be reconstructed and suffer from deteriorated performance on downstream tasks. To solve these issues, we propose to extend the InfoMax and contrastive learning principles on 3D shapes. We show that we can maximize the mutual information between 3D objects and their "chunks" to improve the representations in aligned datasets. Furthermore, we can achieve rotation invariance in SO${(3)}$ group by maximizing the mutual information between the 3D objects and their geometric transformed versions. Finally, we conduct several experiments such as clustering, transfer learning, shape retrieval, and achieve state of art results.
翻訳日:2022-11-25 09:50:20 公開日:2020-08-22
# OnlineAugment: ドメイン知識の少ないオンラインデータ拡張

OnlineAugment: Online Data Augmentation with Less Domain Knowledge ( http://arxiv.org/abs/2007.09271v2 )

ライセンス: Link先を確認
Zhiqiang Tang, Yunhe Gao, Leonid Karlinsky, Prasanna Sattigeri, Rogerio Feris, Dimitris Metaxas(参考訳) データ拡張は、現代のディープニューラルネットワークをトレーニングする上で最も重要なツールの1つである。 近年,画像分類領域における最適拡張ポリシーの探索において大きな進歩がみられた。 しかし、データ拡張に関連する2つの重要な点は、現在の方法によって明らかにされていない。 ひとつは、近代的な拡張検索手法がすべてオフラインで、学習ポリシーが利用から切り離されているかどうかだ。 学習されたポリシはトレーニングプロセスを通じてほぼ一定であり、現在のトレーニングモデル状態には適用されない。 第二に、ポリシーはクラス保存画像処理機能に依存している。 したがって、現在のオフラインメソッドを新しいタスクに適用するには、そのような操作を指定するためにドメイン知識が必要である。 本研究では,対象学習課題と協調して学習する3つの新しい拡張ネットワークとともに,直交型オンラインデータ拡張スキームを提供する。 新しいドメインに入る際に高価なオフライントレーニングを必要としないという意味でも、学習者状態に合わせて適応するという意味でも、より効率的である。 私たちの拡張ネットワークはドメイン知識を少なくし、新しいタスクに容易に適用できます。 大規模な実験により、提案手法は、最先端のオフラインデータ拡張手法と同等に動作し、それらの手法と組み合わせて最先端のオフラインデータ拡張法を改善する。 コードはhttps://github.com/zhiqiangdon/online-augmentで入手できる。

Data augmentation is one of the most important tools in training modern deep neural networks. Recently, great advances have been made in searching for optimal augmentation policies in the image classification domain. However, two key points related to data augmentation remain uncovered by the current methods. First is that most if not all modern augmentation search methods are offline and learning policies are isolated from their usage. The learned policies are mostly constant throughout the training process and are not adapted to the current training model state. Second, the policies rely on class-preserving image processing functions. Hence applying current offline methods to new tasks may require domain knowledge to specify such kind of operations. In this work, we offer an orthogonal online data augmentation scheme together with three new augmentation networks, co-trained with the target learning task. It is both more efficient, in the sense that it does not require expensive offline training when entering a new domain, and more adaptive as it adapts to the learner state. Our augmentation networks require less domain knowledge and are easily applicable to new tasks. Extensive experiments demonstrate that the proposed scheme alone performs on par with the state-of-the-art offline data augmentation methods, as well as improving upon the state-of-the-art in combination with those methods. Code is available at https://github.com/zhiqiangdon/online-augment .
翻訳日:2022-11-09 14:33:37 公開日:2020-08-22
# 新型コロナウイルスのデータ分析と予測:アルジェリアと世界

COVID-19 Data Analysis and Forecasting: Algeria and the World ( http://arxiv.org/abs/2007.09755v2 )

ライセンス: Link先を確認
Sami Belkacem(参考訳) 新型コロナウイルスの感染拡大を受け、世界は深刻な危機に陥っている。 2020年5月19日時点で、このウイルスは215カ国に広がり、4,622,001人以上が確認され、311,916人が死亡した。 新型コロナウイルス(COVID-19)の感染者や死亡率の予測や予測は、医療機器を見積もり、適切な対応をとることができ、専門家は病気のピークと終了を近似することができる。 本研究は,アルジェリアで発生した新型コロナウイルスの感染者数と死亡数を,以前に報告した数値に基づいて解析し,予測するために,まず時系列予測モデルを訓練する。 次に、新型コロナウイルスの感染拡大と特性をよりよく理解するために、ウイルスの感染拡大を加速・減少させ、信頼できる情報源からデータセットを構築し、世界82カ国を対象とした大規模データ分析を行う外部要因を含む。 評価の結果, 時系列預言者モデルは, RMSEスコアが低いアルジェリアの症例数と死亡数を正確に218.87点と4.79点と予測し, 今後数週間で死亡件数と死亡件数が増加することが示唆された。 さらに、世界的なデータ駆動分析により、死亡者数の増加/減少と、地理的、気候的、健康、経済、人口統計といったウイルスの拡散の加速/減少に寄与する外部要因との相関が明らかになった。

The novel coronavirus disease 2019 COVID-19 has been leading the world into a prominent crisis. As of May 19, 2020, the virus had spread to 215 countries with more than 4,622,001 confirmed cases and 311,916 reported deaths worldwide, including Algeria with 7201 cases and 555 deaths. Analyze and forecast COVID-19 cases and deaths growth could be useful in many ways, governments could estimate medical equipment and take appropriate policy responses, and experts could approximate the peak and the end of the disease. In this work, we first train a time series Prophet model to analyze and forecast the number of COVID-19 cases and deaths in Algeria based on the previously reported numbers. Then, to better understand the spread and the properties of the COVID-19, we include external factors that may contribute to accelerate/slow the spread of the virus, construct a dataset from reliable sources, and conduct a large-scale data analysis considering 82 countries worldwide. The evaluation results show that the time series Prophet model accurately predicts the number of cases and deaths in Algeria with low RMSE scores of 218.87 and 4.79 respectively, while the forecast suggests that the total number of cases and deaths are expected to increase in the coming weeks. Moreover, the worldwide data-driven analysis reveals several correlations between the increase/decrease in the number of cases and deaths and external factors that may contribute to accelerate/slow the spread of the virus such as geographic, climatic, health, economic, and demographic factors.
翻訳日:2022-11-09 00:50:08 公開日:2020-08-22
# 時空間ビデオグラウンドのためのオブジェクト対応マルチブランチ関係ネットワーク

Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2008.06941v2 )

ライセンス: Link先を確認
Zhu Zhang, Zhou Zhao, Zhijie Lin, Baoxing Huai and Nicholas Jing Yuan(参考訳) 時空間的ビデオグラウンドティングは,所定の文に従って検索対象の時空間的チューブを検索することを目的としている。 現在、既存の接地法のほとんどは、整列されたセグメント-文対に制限されている。 本稿では,不整合データと複数形式の文に基づく時空間ビデオグラウンドについて検討する。 この困難なタスクは、クエリ対象を特定するために重要なオブジェクト関係をキャプチャする必要がある。 しかし、既存のアプローチでは顕著な対象を区別することはできず、不要な対象間の非効率な関係モデリングに留まる。 そこで本稿では,オブジェクト認識関連発見のための新しいマルチブランチ関係ネットワークを提案する。 具体的には、まず複数のブランチを考案し、各ブランチが文中の重要なオブジェクトにフォーカスするオブジェクト認識領域モデリングを開発する。 次に,本分枝と補助分枝の臨界対象関係を捉えるマルチブランチ関係推論を提案する。 さらに,各ブランチが対応する対象にのみ注意を払い,マルチブランチ学習を促進するために多様性損失を適用した。 提案手法の有効性を実験的に検証した。

Spatio-temporal video grounding aims to retrieve the spatio-temporal tube of a queried object according to the given sentence. Currently, most existing grounding methods are restricted to well-aligned segment-sentence pairs. In this paper, we explore spatio-temporal video grounding on unaligned data and multi-form sentences. This challenging task requires to capture critical object relations to identify the queried target. However, existing approaches cannot distinguish notable objects and remain in ineffective relation modeling between unnecessary objects. Thus, we propose a novel object-aware multi-branch relation network for object-aware relation discovery. Concretely, we first devise multiple branches to develop object-aware region modeling, where each branch focuses on a crucial object mentioned in the sentence. We then propose multi-branch relation reasoning to capture critical object relationships between the main branch and auxiliary branches. Moreover, we apply a diversity loss to make each branch only pay attention to its corresponding object and boost multi-branch learning. The extensive experiments show the effectiveness of our proposed method.
翻訳日:2022-10-28 11:58:10 公開日:2020-08-22
# マルチモーダル協調対話エージェントによる未知のビデオ記述

Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents ( http://arxiv.org/abs/2008.07935v2 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Yi Yang, and Yan Yan(参考訳) 豊富な機密情報に直接アクセスするためのAIシステムに対する懸念が高まっているため、研究者は暗黙の情報ソースを用いたより信頼性の高いAIの開発を目指している。 そこで,本稿では,対話型対話エージェントが対話型対話と静的な2つのフレームをベースとした未確認ビデオを記述することを最終目標とする,複数モーダル協調型対話エージェントによるビデオ記述という新たなタスクを提案する。 具体的には、インテリジェントエージェントの1つ、Q-BOTは、ビデオの開始と終了から2つの静的フレームが与えられ、未確認のビデオを記述する前に、関連する自然言語の質問をする機会は有限である。 ビデオ全体を見た他のエージェントであるA-BOTは、Q-BOTがこれらの質問に対する回答を提供することで目標を達成するのを支援している。 本稿では,a-botからq-botへ知識を伝達する動的ダイアログ履歴更新学習機構を備えたqa協調ネットワークを提案する。 広汎な実験により,Q-BOTは,提案したモデルと協調学習手法によって映像を効果的に記述できることが示され,Q-BOTが真理履歴の全文ダイアログを付与されることを示す。

With the arising concerns for the AI systems provided with direct access to abundant sensitive information, researchers seek to develop more reliable AI with implicit information sources. To this end, in this paper, we introduce a new task called video description via two multi-modal cooperative dialog agents, whose ultimate goal is for one conversational agent to describe an unseen video based on the dialog and two static frames. Specifically, one of the intelligent agents - Q-BOT - is given two static frames from the beginning and the end of the video, as well as a finite number of opportunities to ask relevant natural language questions before describing the unseen video. A-BOT, the other agent who has already seen the entire video, assists Q-BOT to accomplish the goal by providing answers to those questions. We propose a QA-Cooperative Network with a dynamic dialog history update learning mechanism to transfer knowledge from A-BOT to Q-BOT, thus helping Q-BOT to better describe the video. Extensive experiments demonstrate that Q-BOT can effectively learn to describe an unseen video by the proposed model and the cooperative learning method, achieving the promising performance where Q-BOT is given the full ground truth history dialog.
翻訳日:2022-10-27 21:38:32 公開日:2020-08-22
# 不完全状態情報を持つモデル未知力学系に対する神経微分方程式の拡張

Augmenting Neural Differential Equations to Model Unknown Dynamical Systems with Incomplete State Information ( http://arxiv.org/abs/2008.08226v3 )

ライセンス: Link先を確認
Robert Strauss(参考訳) ニューラル正規微分方程式は従来のODEの右辺をニューラルネットに置き換え、普遍近似定理により任意の関数の表現を訓練することができる。 関数自体を知らないが、ODEシステムの状態軌跡(時間進化)がある場合、基礎的だが未知のODEの表現を学ぶためにニューラルネットワークを訓練することができる。 しかし、システムの状態が不完全であれば、ODEの右辺は計算できない。 系を伝播する誘導体は利用できない。 不完全な状態情報を与えると、特別に拡張されたニューラルODEがシステムを学ぶことができることを示す。 研究の例として、3種のウサギ、オオカミ、クマのLotka-Voltera問題に適用する。 熊の時系列データを取り除いた場合でも,不完全な状態情報が不足しているにも関わらず,その力学系を学習するのには,ウサギとオオカミの残りの時系列を学習するのに十分であることを示す。 従来のODEシステムは入力として完全な状態がなければ正しい微分を出力できないため、これは驚くべきことである。 ユリアプログラミング言語に拡張ニューラルODEと微分方程式ソルバを実装した。

Neural Ordinary Differential Equations replace the right-hand side of a conventional ODE with a neural net, which by virtue of the universal approximation theorem, can be trained to the representation of any function. When we do not know the function itself, but have state trajectories (time evolution) of the ODE system we can still train the neural net to learn the representation of the underlying but unknown ODE. However if the state of the system is incompletely known then the right-hand side of the ODE cannot be calculated. The derivatives to propagate the system are unavailable. We show that a specially augmented Neural ODE can learn the system when given incomplete state information. As a worked example we apply neural ODEs to the Lotka-Voltera problem of 3 species, rabbits, wolves, and bears. We show that even when the data for the bear time series is removed the remaining time series of the rabbits and wolves is sufficient to learn the dynamical system despite the missing the incomplete state information. This is surprising since a conventional ODE system cannot output the correct derivatives without the full state as the input. We implement augmented neural ODEs and differential equation solvers in the julia programming language.
翻訳日:2022-10-27 12:46:19 公開日:2020-08-22
# 創発言語に基づく胸部CTボリュームにおけるウイルス感染の象徴的セマンティックセマンティックセグメンテーションと解釈

Symbolic Semantic Segmentation and Interpretation of COVID-19 Lung Infections in Chest CT volumes based on Emergent Languages ( http://arxiv.org/abs/2008.09866v1 )

ライセンス: Link先を確認
Aritra Chowdhury, Alberto Santamaria-Pang, James R. Kubricht, Jianwei Qiu, Peter Tu(参考訳) 新型コロナウイルス(COVID-19)は、日常生活に不可欠なサービスの幅が拡大するパンデミックを引き起こしている。 コンピュータ断層撮影(CT)スライスにおける肺感染症の分画は、患者の新型コロナウイルスの診断と理解を改善するために用いられる。 深層学習システムはブラックボックスの性質のために解釈性に欠ける。 言語による複雑なアイデアの人間コミュニケーションから着想を得て,肺のCTスキャンにおけるCOVID-19感染のセグメンテーションのための創発的言語に基づくシンボリックフレームワークを提案する。 2つの人工エージェント - 送信側と受信側 - の協調をモデル化する。 これらのエージェントは、セマンティックセグメンテーションの課題を解決するために創発的記号言語を用いて相乗的に協調する。 我々のゲーム理論のアプローチは,GAN(Generative Adversarial Networks)とは異なり,エージェント間の協調をモデル化することである。 Senderは、ディープネットワークの上位層から情報を取得し、語彙のカテゴリー分布からサンプリングされた記号文を生成する。 受信側はシンボルのストリームを取り込み、セグメンテーションマスクを共生成する。 ウイルス感染のセグメンテーションのタスクを記述するのに使用されるコミュニケーションチャネルを形成する私的な創発言語が開発されている。 我々は,表現的セグメンテーションモデルを形成するために,シンボルジェネレータを用いて,アートセグメンテーションアーキテクチャの既存の状態を強化する。 我々の象徴的セグメンテーションの枠組みは、COVID-19による肺感染症のセグメンテーションにおけるアートパフォーマンスの状態を達成している。 本研究は, 正常領域と感染領域, 感染形態, 画像の特徴を判別するための記号文の直接解釈を示す。 今回,CTにおけるCOVID-19肺感染症の分画術式について報告する。

The coronavirus disease (COVID-19) has resulted in a pandemic crippling the a breadth of services critical to daily life. Segmentation of lung infections in computerized tomography (CT) slices could be be used to improve diagnosis and understanding of COVID-19 in patients. Deep learning systems lack interpretability because of their black box nature. Inspired by human communication of complex ideas through language, we propose a symbolic framework based on emergent languages for the segmentation of COVID-19 infections in CT scans of lungs. We model the cooperation between two artificial agents - a Sender and a Receiver. These agents synergistically cooperate using emergent symbolic language to solve the task of semantic segmentation. Our game theoretic approach is to model the cooperation between agents unlike Generative Adversarial Networks (GANs). The Sender retrieves information from one of the higher layers of the deep network and generates a symbolic sentence sampled from a categorical distribution of vocabularies. The Receiver ingests the stream of symbols and cogenerates the segmentation mask. A private emergent language is developed that forms the communication channel used to describe the task of segmentation of COVID infections. We augment existing state of the art semantic segmentation architectures with our symbolic generator to form symbolic segmentation models. Our symbolic segmentation framework achieves state of the art performance for segmentation of lung infections caused by COVID-19. Our results show direct interpretation of symbolic sentences to discriminate between normal and infected regions, infection morphology and image characteristics. We show state of the art results for segmentation of COVID-19 lung infections in CT.
翻訳日:2022-10-26 08:22:48 公開日:2020-08-22
# イベントデータを用いたモントリオール地下鉄スマートカード入力ログの予測

Forecasting of the Montreal Subway Smart Card Entry Logs with Event Data ( http://arxiv.org/abs/2008.09842v1 )

ライセンス: Link先を確認
Florian Toqu\'e, Etienne C\^ome, Martin Tr\'epanier and Latifa Oukhellou(参考訳) 輸送事業者の主な目的の1つは、各期間に既存の輸送ネットワークの旅客需要に交通供給のスケジューリングを適用することである。 オペレーターが指摘する別の問題は、使い捨て券や乗車券の需要を正確に推定し、乗客の需要に応じて乗車券を利用できるようにすることである。 そこで本稿では, 利用者需要の長期予測によく知られた回帰モデル(基本, 統計的, 機械学習モデル)を, 微粒な時間分解能で利用できる汎用データ整形法を提案する。 具体的には,計画されたイベント(コンサート,ショーなど)を考慮に入れて,輸送ネットワークの各駅に4分の1のアグリゲーションで入場する乗客数より1年前までの予測について検討する。 モデルと予測の質を比較するために、カナダのモントーイール市で設定された本物のスマートカードとイベントデータセットを使用します。

One of the major goals of transport operators is to adapt the transport supply scheduling to the passenger demand for existing transport networks during each specific period. Another problem mentioned by operators is accurately estimating the demand for disposable ticket or pass to adapt ticket availability to passenger demand. In this context, we propose generic data shaping, allowing the use of well-known regression models (basic, statistical and machine learning models) for the long-term forecasting of passenger demand with fine-grained temporal resolution. Specifically, this paper investigates the forecasting until one year ahead of the number of passengers entering each station of a transport network with a quarter-hour aggregation by taking planned events into account (e.g., concerts, shows, and so forth). To compare the models and the quality of the prediction, we use a real smart card and event data set from the city of Montr\'eal, Canada, that span a three-year period with two years for training and one year for testing.
翻訳日:2022-10-26 08:22:21 公開日:2020-08-22
# バグングにおける内在的微分プライバシーについて

On the Intrinsic Differential Privacy of Bagging ( http://arxiv.org/abs/2008.09845v1 )

ライセンス: Link先を確認
Hongbin Liu, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) 異なるプライベート機械学習は、センシティブなトレーニングデータのプライバシーを保護しながらモデルをトレーニングする。 微分プライベートモデルを得る鍵は、トレーニングプロセスにノイズ/ランダム性を導入することである。 特に、既存の差分プライベートな機械学習手法は、トレーニングデータ、勾配、損失関数、および/またはモデル自体にノイズを追加する。 一般的なアンサンブル学習フレームワークであるBaggingは、トレーニングデータのいくつかのサブサンプルをランダムに生成し、ベースラーナーを使用して各サブサンプルのベースモデルをトレーニングし、予測を行うときにベースモデルに多数票を投じる。 Baggingはトレーニングプロセスに固有のランダム性を持ち、サブサンプルをランダムに生成する。 我々の主要な理論的結果は、そのような本質的なランダム性は、付加ノイズを伴わずに既にBagingを微分プライベートにすることを示している。 特に、任意のベース学習者に対して、置換なしでバグングがそれぞれ$\left(n\cdot k \cdot \ln{\frac{n+1}{n}},1- (\frac{n-1}{n})^{n\cdot k}\right)$-differential privacyと$\left(\ln{\frac{n+1}{n+1-n\cdot k}}, \frac{n\cdot k}{n} \right)$-differential privacy(ここで$n$はトレーニングデータサイズ、$k$はサブサンプルサイズ、$n$はベースモデルの数である。 さらに,ベース学習者に関する仮定がなければ,プライバシの保証は厳密であることが証明される。 MNIST と CIFAR10 の Bagging を実験的に評価した。 実験結果から,Bagingは,同一のプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも格段に高い精度を実現することが示された。

Differentially private machine learning trains models while protecting privacy of the sensitive training data. The key to obtain differentially private models is to introduce noise/randomness to the training process. In particular, existing differentially private machine learning methods add noise to the training data, the gradients, the loss function, and/or the model itself. Bagging, a popular ensemble learning framework, randomly creates some subsamples of the training data, trains a base model for each subsample using a base learner, and takes majority vote among the base models when making predictions. Bagging has intrinsic randomness in the training process as it randomly creates subsamples. Our major theoretical results show that such intrinsic randomness already makes Bagging differentially private without the needs of additional noise. In particular, we prove that, for any base learner, Bagging with and without replacement respectively achieves $\left(N\cdot k \cdot \ln{\frac{n+1}{n}},1- (\frac{n-1}{n})^{N\cdot k}\right)$-differential privacy and $\left(\ln{\frac{n+1}{n+1-N\cdot k}}, \frac{N\cdot k}{n} \right)$-differential privacy, where $n$ is the training data size, $k$ is the subsample size, and $N$ is the number of base models. Moreover, we prove that if no assumptions about the base learner are made, our derived privacy guarantees are tight. We empirically evaluate Bagging on MNIST and CIFAR10. Our experimental results demonstrate that Bagging achieves significantly higher accuracies than state-of-the-art differentially private machine learning methods with the same privacy budgets.
翻訳日:2022-10-26 08:22:04 公開日:2020-08-22
# deepstcl:旅行需要予測のための深部時空間コンヴルスtm

DeepSTCL: A Deep Spatio-temporal ConvLSTM for Travel Demand Prediction ( http://arxiv.org/abs/2009.00096v1 )

ライセンス: Link先を確認
Dongjie Wang, Yan Yang, Shangming Ning(参考訳) 都市資源スケジューリングはスマートシティの発展の重要な部分であり、交通資源は都市資源の主要な構成要素である。 現在、不均衡分布や道路渋滞といった交通資源の問題がスケジューリングの規律を乱している。 したがって、都市資源派遣の旅行需要を予測することは重要である。 以前は、ARやARIMAなどの旅行需要予測に伝統的な時系列モデルが用いられていた。 しかし,これらの手法の予測効率は低く,訓練時間が長すぎる。 性能を改善するために、ディープラーニングは予測を支援するために使用される。 しかし、ディープラーニング手法のほとんどは、予測過程におけるデータの時間的依存または空間的依存のみを利用する。 これらの制約に対処するために,Deep Spatio-Temporal ConvLSTMに基づく新しいディープラーニングトラフィック需要予測フレームワークを提案する。 フレームワークの性能を評価するために、エンドツーエンドのディープラーニングシステムを設計し、実際のデータセットを使用する。 さらに,提案手法は時間依存と空間依存を同時に捉えることができる。 時空間データの近接性、周期およびトレンド成分は、予測された3つの分岐で使用される。 これらの枝は同じネットワーク構造を持つが、重みを共有しない。 次に、最終結果を得るために線形融合法を用いる。 最後に、chengduのdidi orderデータセットにおける実験結果から、従来のモデルよりも精度と速度で優れることを示した。

Urban resource scheduling is an important part of the development of a smart city, and transportation resources are the main components of urban resources. Currently, a series of problems with transportation resources such as unbalanced distribution and road congestion disrupt the scheduling discipline. Therefore, it is significant to predict travel demand for urban resource dispatching. Previously, the traditional time series models were used to forecast travel demand, such as AR, ARIMA and so on. However, the prediction efficiency of these methods is poor and the training time is too long. In order to improve the performance, deep learning is used to assist prediction. But most of the deep learning methods only utilize temporal dependence or spatial dependence of data in the forecasting process. To address these limitations, a novel deep learning traffic demand forecasting framework which based on Deep Spatio-Temporal ConvLSTM is proposed in this paper. In order to evaluate the performance of the framework, an end-to-end deep learning system is designed and a real dataset is used. Furthermore, the proposed method can capture temporal dependence and spatial dependence simultaneously. The closeness, period and trend components of spatio-temporal data are used in three predicted branches. These branches have the same network structures, but do not share weights. Then a linear fusion method is used to get the final result. Finally, the experimental results on DIDI order dataset of Chengdu demonstrate that our method outperforms traditional models with accuracy and speed.
翻訳日:2022-10-26 08:21:10 公開日:2020-08-22
# Valence-Arousal Spaceにおける感情に基づく画像と音楽のエンドツーエンドマッチング

Emotion-Based End-to-End Matching Between Image and Music in Valence-Arousal Space ( http://arxiv.org/abs/2009.05103v1 )

ライセンス: Link先を確認
Sicheng Zhao, Yaxian Li, Xingxu Yao, Weizhi Nie, Pengfei Xu, Jufeng Yang, Kurt Keutzer(参考訳) 画像も音楽も豊かな意味を伝達し、特定の感情を誘発するために広く使われている。 イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。 既存の感情に基づく画像と音楽のマッチング手法では、感情の複雑さと微妙さを十分に反映できない限られたカテゴリーの感情状態を用いるか、あるいは非現実的な多段階パイプラインを使用してマッチングモデルを訓練する。 本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。 まず,140Kを超える画像-音楽-感情-マッチング-ネット(IMEMNet)と呼ばれる大規模データセットを構築した。 第2に、連続マッチング空間における相互類似性関係を保った共有潜在埋め込み空間を学習するために、クロスモーダル深部連続距離学習(CDCML)を提案する。 最後に,画像と音楽の両方のva空間における単一モーダル感情関係をさらに保ち,埋め込み空間を洗練する。 ラベル空間における埋め込み空間における計量学習とタスク回帰は、クロスモーダルマッチングと単一モーダルVA予測の両方に共同最適化される。 IMEMNetで行った広範囲な実験は、感情に基づくイメージと音楽マッチングにおけるCDCMLの優位性を、最先端のアプローチと比較して実証している。

Both images and music can convey rich semantics and are widely used to induce specific emotions. Matching images and music with similar emotions might help to make emotion perceptions more vivid and stronger. Existing emotion-based image and music matching methods either employ limited categorical emotion states which cannot well reflect the complexity and subtlety of emotions, or train the matching model using an impractical multi-stage pipeline. In this paper, we study end-to-end matching between image and music based on emotions in the continuous valence-arousal (VA) space. First, we construct a large-scale dataset, termed Image-Music-Emotion-Matching-Net (IMEMNet), with over 140K image-music pairs. Second, we propose cross-modal deep continuous metric learning (CDCML) to learn a shared latent embedding space which preserves the cross-modal similarity relationship in the continuous matching space. Finally, we refine the embedding space by further preserving the single-modal emotion relationship in the VA spaces of both images and music. The metric learning in the embedding space and task regression in the label space are jointly optimized for both cross-modal matching and single-modal VA prediction. The extensive experiments conducted on IMEMNet demonstrate the superiority of CDCML for emotion-based image and music matching as compared to the state-of-the-art approaches.
翻訳日:2022-10-26 08:20:51 公開日:2020-08-22
# マルチスケール微分方程式時間ステップの階層的深層学習

Hierarchical Deep Learning of Multiscale Differential Equation Time-Steppers ( http://arxiv.org/abs/2008.09768v1 )

ライセンス: Link先を確認
Yuying Liu, J. Nathan Kutz, Steven L. Brunton(参考訳) 非線形微分方程式は閉形式解をほとんど認めないため、近似解に数値時間ステップアルゴリズムを必要とする。 さらに、多スケール物理学を特徴とする多くのシステムは、幅広い時間スケールのダイナミクスを示し、数値積分は数値剛性のために計算コストがかかる。 本研究では,異なる時間スケール範囲の動的システムのフローマップを近似するために,ディープニューラルネットワークの時間ステップの階層構造を開発する。 結果のモデルは純粋にデータ駆動であり、マルチスケールのダイナミックスの特徴を活用し、数値的な積分と予測を可能にします。 さらに、ニューラルネットワークベースのモデルと古典的な数値時間ステップを結合するためにも同様のアイデアが利用できる。 我々のマルチスケール階層型タイムステッピング方式は、現在のタイムステッピングアルゴリズムよりも重要な利点を提供する。 (i)異種時間尺度による数値剛性回避 (ii)主要なニューラルネットワークアーキテクチャと比較して精度が向上した。 (iii)スロータイムスケールダイナミクスの明示的なトレーニングによる長時間シミュレーション/フォアキャスティングの効率性 (iv)並列化可能なフレキシブルなフレームワークで、標準的な数値タイムステッピングアルゴリズムと統合することができる。 本手法は,van der pol 発振器,lorenz 系,kuramoto-sivashinsky 方程式,流体流がシリンダを通過する幅広い非線形力学系で実証され,音響信号や映像信号も検討されている。 シーケンス生成の例では、LSTM、貯水池計算、クロックワークRNNなどの最先端手法に対してアルゴリズムをベンチマークする。 本手法は構造的単純さにもかかわらず,数値積分において競合する手法よりも優れる。

Nonlinear differential equations rarely admit closed-form solutions, thus requiring numerical time-stepping algorithms to approximate solutions. Further, many systems characterized by multiscale physics exhibit dynamics over a vast range of timescales, making numerical integration computationally expensive due to numerical stiffness. In this work, we develop a hierarchy of deep neural network time-steppers to approximate the flow map of the dynamical system over a disparate range of time-scales. The resulting model is purely data-driven and leverages features of the multiscale dynamics, enabling numerical integration and forecasting that is both accurate and highly efficient. Moreover, similar ideas can be used to couple neural network-based models with classical numerical time-steppers. Our multiscale hierarchical time-stepping scheme provides important advantages over current time-stepping algorithms, including (i) circumventing numerical stiffness due to disparate time-scales, (ii) improved accuracy in comparison with leading neural-network architectures, (iii) efficiency in long-time simulation/forecasting due to explicit training of slow time-scale dynamics, and (iv) a flexible framework that is parallelizable and may be integrated with standard numerical time-stepping algorithms. The method is demonstrated on a wide range of nonlinear dynamical systems, including the Van der Pol oscillator, the Lorenz system, the Kuramoto-Sivashinsky equation, and fluid flow pass a cylinder; audio and video signals are also explored. On the sequence generation examples, we benchmark our algorithm against state-of-the-art methods, such as LSTM, reservoir computing, and clockwork RNN. Despite the structural simplicity of our method, it outperforms competing methods on numerical integration.
翻訳日:2022-10-26 08:20:17 公開日:2020-08-22
# ビデオ質問応答タスクのためのデータ拡張技術

Data augmentation techniques for the Video Question Answering task ( http://arxiv.org/abs/2008.09849v1 )

ライセンス: Link先を確認
Alex Falcon, Oswald Lanz, Giuseppe Serra(参考訳) ビデオ質問応答 (video question answering, videoqa) は、入力されたビデオが与える視覚コンテンツと、質問が与えるテキスト的部分の両方を分析し理解し、それらの間の対話によって意味のある回答を生成するためのモデルを必要とするタスクである。 本研究は,社会支援や産業訓練など,様々な分野に影響を及ぼす可能性のある課題の重要性から,一対一の映像を活用するエゴセントリックビデオQAタスクに焦点をあてる。 最近、EgoVQAと呼ばれるEgocentric VideoQAデータセットがリリースされた。 サイズが小さいため、モデルはすぐにオーバーフィットする傾向にある。 この問題を軽減するために,検討されたベースラインに対する最終的な精度を5.5%向上させる拡張手法を提案する。

Video Question Answering (VideoQA) is a task that requires a model to analyze and understand both the visual content given by the input video and the textual part given by the question, and the interaction between them in order to produce a meaningful answer. In our work we focus on the Egocentric VideoQA task, which exploits first-person videos, because of the importance of such task which can have impact on many different fields, such as those pertaining the social assistance and the industrial training. Recently, an Egocentric VideoQA dataset, called EgoVQA, has been released. Given its small size, models tend to overfit quickly. To alleviate this problem, we propose several augmentation techniques which give us a +5.5% improvement on the final accuracy over the considered baseline.
翻訳日:2022-10-26 08:14:27 公開日:2020-08-22
# 創発的記号言語に基づく深部医用画像分類

Emergent symbolic language based deep medical image classification ( http://arxiv.org/abs/2008.09860v1 )

ライセンス: Link先を確認
Aritra Chowdhury, Alberto Santamaria-Pang, James R. Kubricht, Peter Tu(参考訳) 医用画像分類のための最新の深層学習システムは、画像に基づく医療カテゴリーを区別する特別な能力を示している。 しかし、意思決定の背後にある理由を説明する能力に深刻な障害がある。 これは部分的には、ニューラルネットワークの解釈不能な連続潜在表現によるものである。 創発言語(EL)は、最近、参照ゲームの枠組みにおいて、それらを象徴的な再認識とすることで、ニューラルネットワークの能力を高めることが示されている。 記号表現は、非常に説明しやすい古き良きAI(GOFAI)システムの基盤の1つである。 本稿では,画像分類のフレームワークにおいて,創発的言語の深い記号表現のエマージェンスを初めて示す。 ELをベースとした分類モデルでは,技術深層学習モデルよりも優れた性能が得られることを示す。 さらに、シンボル操作を含む解釈可能なgofaiメソッドの可能性の分野全体を開くシンボル表現を提供する。 我々は,chexpertデータセットを用いた免疫細胞マーカーに基づく細胞分類と胸部x線分類のel分類枠組みを示す。 コードはhttps://github.com/arichow/elで入手できる。

Modern deep learning systems for medical image classification have demonstrated exceptional capabilities for distinguishing between image based medical categories. However, they are severely hindered by their ina-bility to explain the reasoning behind their decision making. This is partly due to the uninterpretable continuous latent representations of neural net-works. Emergent languages (EL) have recently been shown to enhance the capabilities of neural networks by equipping them with symbolic represen-tations in the framework of referential games. Symbolic representations are one of the cornerstones of highly explainable good old fashioned AI (GOFAI) systems. In this work, we demonstrate for the first time, the emer-gence of deep symbolic representations of emergent language in the frame-work of image classification. We show that EL based classification models can perform as well as, if not better than state of the art deep learning mod-els. In addition, they provide a symbolic representation that opens up an entire field of possibilities of interpretable GOFAI methods involving symbol manipulation. We demonstrate the EL classification framework on immune cell marker based cell classification and chest X-ray classification using the CheXpert dataset. Code is available online at https://github.com/AriChow/EL.
翻訳日:2022-10-26 08:14:14 公開日:2020-08-22
# 直交性に基づく確率損失による教師なし深度学習

Unsupervised Deep Metric Learning via Orthogonality based Probabilistic Loss ( http://arxiv.org/abs/2008.09880v1 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Mehrtash Harandi and Chellu Chandra Sekhar(参考訳) メトリクス学習は機械学習において重要な問題である。 同様の例をまとめることを目的としている。 既存の最先端のメトリック学習アプローチでは、クラスラベルでメトリクスを学習する必要がある。 全てのアプリケーションでクラスラベルを取得することは不可能であるため、クラスラベルを使わずにメトリクスを学習する教師なしアプローチを提案する。 クラスラベルの欠如は、グラフベースのクラスタリングアプローチを使用して疑似ラベルデータを取得することで補償される。 擬似ラベルは、メトリクス学習を導く例のトリプレットを形成するために使用される。 我々は、角制約に違反する各三重項の確率を最小化する確率的損失を提案する。 重み関数と対象の直交制約は収束を加速させ、モデルの崩壊を避ける。 また,大規模データセットにスケールアップするための確率的定式化も提供する。 本研究は,最先端手法に対するアプローチの競争力を示す。 また,本手法の異なる成分の影響についても徹底的に検討した。

Metric learning is an important problem in machine learning. It aims to group similar examples together. Existing state-of-the-art metric learning approaches require class labels to learn a metric. As obtaining class labels in all applications is not feasible, we propose an unsupervised approach that learns a metric without making use of class labels. The lack of class labels is compensated by obtaining pseudo-labels of data using a graph-based clustering approach. The pseudo-labels are used to form triplets of examples, which guide the metric learning. We propose a probabilistic loss that minimizes the chances of each triplet violating an angular constraint. A weight function, and an orthogonality constraint in the objective speeds up the convergence and avoids a model collapse. We also provide a stochastic formulation of our method to scale up to large-scale datasets. Our studies demonstrate the competitiveness of our approach against state-of-the-art methods. We also thoroughly study the effect of the different components of our method.
翻訳日:2022-10-26 08:13:53 公開日:2020-08-22
# 胸部X線写真と放射線検査の併用による肺浮腫の評価

Joint Modeling of Chest Radiographs and Radiology Reports for Pulmonary Edema Assessment ( http://arxiv.org/abs/2008.09884v1 )

ライセンス: Link先を確認
Geeticka Chauhan, Ruizhi Liao, William Wells, Jacob Andreas, Xin Wang, Seth Berkowitz, Steven Horng, Peter Szolovits, Polina Golland(参考訳) 胸部x線写真から肺浮腫の重症度を評価する新しい機械学習アルゴリズムを提案する。 胸部X線写真と自由テキストラジオグラフィーの大規模なデータセットは存在するが、ラジオグラフィーレポートから限られた数値的浮腫重度ラベルのみを抽出できる。 これは画像分類のモデルを学ぶ上で重要な課題である。 胸部X線写真から肺浮腫の重症度を評価するために,画像と自由テキストの両方で訓練したニューラルネットワークモデルを開発した。 画像のみを訓練した教師付きモデルと比較して, 共同画像テキスト表現学習は肺浮腫評価の性能を向上させることが示唆された。 また,共同モデルによる画像分類の説明にテキストを用いていることを示す。 我々の知る限り、我々のアプローチは、このアプリケーションにおける画像モデルの性能向上にフリーテキストラジオロジーレポートを利用する最初の方法である。 私たちのコードはhttps://github.com/rayruizhiliao/joint_chestxrayで利用可能です。

We propose and demonstrate a novel machine learning algorithm that assesses pulmonary edema severity from chest radiographs. While large publicly available datasets of chest radiographs and free-text radiology reports exist, only limited numerical edema severity labels can be extracted from radiology reports. This is a significant challenge in learning such models for image classification. To take advantage of the rich information present in the radiology reports, we develop a neural network model that is trained on both images and free-text to assess pulmonary edema severity from chest radiographs at inference time. Our experimental results suggest that the joint image-text representation learning improves the performance of pulmonary edema assessment compared to a supervised model trained on images only. We also show the use of the text for explaining the image classification by the joint model. To the best of our knowledge, our approach is the first to leverage free-text radiology reports for improving the image model performance in this application. Our code is available at https://github.com/RayRuizhiLiao/joint_chestxray.
翻訳日:2022-10-26 08:13:42 公開日:2020-08-22
# スーパービジョンレベルスケール(SLS)

Supervision Levels Scale (SLS) ( http://arxiv.org/abs/2008.09890v1 )

ライセンス: Link先を確認
Dima Damen and Michael Wray(参考訳) そこで本稿では,モデルの学習に使用するデータとラベルを符号化し,与えられた性能を達成するための3次元離散的・漸進的スケールを提案する。 我々は、事前トレーニング、ラベルのトレーニング、トレーニングデータという、追加のコストを要しながら、メソッドに利点を与えることが知られている、監督の3つの側面を捉えます。 提案した3次元尺度は、結果表やリーダーボードに含められ、その性能だけでなく、各手法が活用するデータ監視レベルによってメソッドを手軽に比較することができる。 監視レベルスケール(sls)は、タスク/データセット/チャレンジに対して一般的に提示される。 その後、EPIC-KITCHENS-100データセットに適用され、このデータセットに関連するさまざまなリーダボードや課題に使用される。

We propose a three-dimensional discrete and incremental scale to encode a method's level of supervision - i.e. the data and labels used when training a model to achieve a given performance. We capture three aspects of supervision, that are known to give methods an advantage while requiring additional costs: pre-training, training labels and training data. The proposed three-dimensional scale can be included in result tables or leaderboards to handily compare methods not only by their performance, but also by the level of data supervision utilised by each method. The Supervision Levels Scale (SLS) is first presented generally fo any task/dataset/challenge. It is then applied to the EPIC-KITCHENS-100 dataset, to be used for the various leaderboards and challenges associated with this dataset.
翻訳日:2022-10-26 08:13:27 公開日:2020-08-22
# クラス内知識伝達を用いたFew-Shot Learning

Few-Shot Learning with Intra-Class Knowledge Transfer ( http://arxiv.org/abs/2008.09892v1 )

ライセンス: Link先を確認
Vivek Roy, Yan Xu, Yu-Xiong Wang, Kris Kitani, Ruslan Salakhutdinov, and Martial Hebert(参考訳) いくつかのクラスは十分なトレーニングサンプルを持ち、他のクラスは限られたトレーニングサンプルしか持たない。 近年の研究では, 種子を種子とする生成モデルを用いて, 少数ショットクラスのトレーニングデータを強化し, 課題を解決するための提案を行っている。 しかしながら、少数芽の種子の数が限られているため、生成したサンプルは通常、多様性が小さく、少数芽クラスの識別分類器の訓練が困難である。 生成したサンプルの多様性を高めるために,近隣クラスが類似した統計情報を共有するという直感をもって,近隣クラスからのクラス内知識を活用することを提案する。 このようなクラス内情報は2段階のメカニズムで得られる。 まず、複数ショットクラスでのみトレーニングされたレグレッシャを使用して、少数のサンプルから少数ショットクラス平均を評価する。 第二に、スーパークラスはクラスタ化され、各スーパークラスの統計平均と特徴分散は、子供の数ショットクラスによって継承される伝達可能な知識として使用される。 このような知識は、下流の分類タスクを支援するためにスパーストレーニングデータを増強するためにジェネレータによって使用される。 広範な実験により、異なるデータセットと$n$-shot設定にまたがる最先端の手法が得られた。

We consider the few-shot classification task with an unbalanced dataset, in which some classes have sufficient training samples while other classes only have limited training samples. Recent works have proposed to solve this task by augmenting the training data of the few-shot classes using generative models with the few-shot training samples as the seeds. However, due to the limited number of the few-shot seeds, the generated samples usually have small diversity, making it difficult to train a discriminative classifier for the few-shot classes. To enrich the diversity of the generated samples, we propose to leverage the intra-class knowledge from the neighbor many-shot classes with the intuition that neighbor classes share similar statistical information. Such intra-class information is obtained with a two-step mechanism. First, a regressor trained only on the many-shot classes is used to evaluate the few-shot class means from only a few samples. Second, superclasses are clustered, and the statistical mean and feature variance of each superclass are used as transferable knowledge inherited by the children few-shot classes. Such knowledge is then used by a generator to augment the sparse training data to help the downstream classification tasks. Extensive experiments show that our method achieves state-of-the-art across different datasets and $n$-shot settings.
翻訳日:2022-10-26 08:12:58 公開日:2020-08-22
# 不動産市場予測問題に対する機械学習のアプローチ--事例研究

Machine Learning Approaches to Real Estate Market Prediction Problem: A Case Study ( http://arxiv.org/abs/2008.09922v1 )

ライセンス: Link先を確認
Shashi Bhushan Jha, Vijay Pandey, Rajesh Kumar Jha, Radu F. Babiceanu(参考訳) 住宅販売価格は、政府、不動産ディーラー、および不動産を売買する一般市民を含む取引業者の経済的利益に応じて形成される。 正確な不動産価格予測モデルを生成することは不動産市場にとって大きな課題である。 本研究は,2010年1月から2019年11月までの10年間の実際のデータセットを用いた物価分類モデルを構築した。 不動産データセットはVolusia County Property Appraiser of Floridaのウェブサイトから公開されている。 また、国内総生産(gdp)、消費者物価指数、生産者物価指数、住宅物価指数、有効連邦資金率などの社会経済的要因を、予測モデルにおいて収集して使用する。 このケーススタディ問題を解決するために、ロジスティック回帰、ランダムフォレスト、投票分類器、XGBoostといった強力な機械学習アルゴリズムが採用されている。 ターゲットエンコードと統合して正確な資産売却価格予測モデルを構築し、閉店価格が上場販売価格より大きいか否かを予測する。 モデルの性能を評価するために、モデルの精度、精度、リコール、分類F1スコア、エラー率を決定する。 4つの研究された機械学習アルゴリズムのうち、XGBoostは他のモデルと比較して優れた結果と堅牢性を提供する。 開発モデルは不動産投資家、住宅ローン貸付業者、金融機関がより良い情報的判断を下すよう促すことができる。

Home sale prices are formed given the transaction actors economic interests, which include government, real estate dealers, and the general public who buy or sell properties. Generating an accurate property price prediction model is a major challenge for the real estate market. This work develops a property price classification model using a ten year actual dataset, from January 2010 to November 2019. The real estate dataset is publicly available and was retrieved from Volusia County Property Appraiser of Florida website. In addition, socio-economic factors such as Gross Domestic Product, Consumer Price Index, Producer Price Index, House Price Index, and Effective Federal Funds Rate are collected and used in the prediction model. To solve this case study problem, several powerful machine learning algorithms, namely, Logistic Regression, Random Forest, Voting Classifier, and XGBoost, are employed. They are integrated with target encoding to develop an accurate property sale price prediction model with the aim to predict whether the closing sale price is greater than or less than the listing sale price. To assess the performance of the models, the accuracy, precision, recall, classification F1 score, and error rate of the models are determined. Among the four studied machine learning algorithms, XGBoost delivers superior results and robustness of the model compared to other models. The developed model can facilitate real estate investors, mortgage lenders and financial institutions to make better informed decisions.
翻訳日:2022-10-26 08:11:49 公開日:2020-08-22
# PNEN: ピラミッド非ローカル拡張ネットワーク

PNEN: Pyramid Non-Local Enhanced Networks ( http://arxiv.org/abs/2008.09742v1 )

ライセンス: Link先を確認
Feida Zhu, Chaowei Fang, Kai-Kuang Ma(参考訳) 低レベルの画像処理タスクのために提案された既存のニューラルネットワークは通常、カーネルサイズが制限された畳み込み層を積み重ねることで実装される。 すべての畳み込み層は、小さなローカル地区からのコンテキスト情報のみを含む。 より多くの畳み込み層が採用されれば、よりコンテキスト的な機能を検討することができる。 しかし、長距離依存関係を完全に活用することは困難でコストがかかる。 我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。 提案モジュールは,異なるスケールの低レベル構造間の相互依存関係を効率的に利用することができる。 ターゲットは、まずフル解像度のクエリ特徴マップと、ダウンスケール解像度の参照特徴マップのピラミッドを学習することで実現される。 次に、画素レベルの特徴表現を強化するために、マルチスケール参照特徴との相関を利用する。 計算手順は、メモリ消費と計算コストを考慮すると経済的である。 提案モジュールをベースとして、3つの古典的画像平滑化アルゴリズムを模倣して最先端の性能を実現するエッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案した。 さらに、ピラミッド非局所ブロックは、他の画像復元タスクのために畳み込みニューラルネットワークに直接組み込むことができる。 画像分解と超解像の2つの既存手法に統合し,一貫した性能向上を実現した。

Existing neural networks proposed for low-level image processing tasks are usually implemented by stacking convolution layers with limited kernel size. Every convolution layer merely involves in context information from a small local neighborhood. More contextual features can be explored as more convolution layers are adopted. However it is difficult and costly to take full advantage of long-range dependencies. We propose a novel non-local module, Pyramid Non-local Block, to build up connection between every pixel and all remain pixels. The proposed module is capable of efficiently exploiting pairwise dependencies between different scales of low-level structures. The target is fulfilled through first learning a query feature map with full resolution and a pyramid of reference feature maps with downscaled resolutions. Then correlations with multi-scale reference features are exploited for enhancing pixel-level feature representation. The calculation procedure is economical considering memory consumption and computational cost. Based on the proposed module, we devise a Pyramid Non-local Enhanced Networks for edge-preserving image smoothing which achieves state-of-the-art performance in imitating three classical image smoothing algorithms. Additionally, the pyramid non-local block can be directly incorporated into convolution neural networks for other image restoration tasks. We integrate it into two existing methods for image denoising and single image super-resolution, achieving consistently improved performance.
翻訳日:2022-10-26 08:05:51 公開日:2020-08-22
# 睡眠患者の奥行き画像における胸部領域分割

Chest Area Segmentation in Depth Images of Sleeping Patients ( http://arxiv.org/abs/2008.09773v1 )

ライセンス: Link先を確認
Yoav Goldstein, Martin Sch\"atz and Mireille Avigal(参考訳) 睡眠研究の分野は近年大きく発展してきたが、睡眠問題を検出する最も一般的で効率的な方法は、睡眠検査室で実施される睡眠検査であり、これはPSG(Polysomnography)と呼ばれる方法である。 この検査は、患者の身体に接続された複数のセンサーを用いて、一晩の睡眠中にいくつかの重要な信号を測定する。 しかし、ゴールデンスタンダードであるにもかかわらず、センサーと慣れない環境の接続は、患者の睡眠と検査自体の品質に必然的に影響を及ぼす。 そのため、より正確で安価な3Dセンシング装置の開発が進み、非接触睡眠研究の新しいアプローチが生まれた。 これらの方法は、同じ睡眠パラメータを抽出する目的で異なる技術を利用するが、遠隔で患者の身体への物理的接続を不要にする。 しかし,信頼性の高い遠隔抽出を実現するためには,患者の胸部領域,すなわち現在開発過程を保留しているタスクを,各患者に対して手動で行うという,基本的な関心領域(ROI)の正確な同定が必要である。 本研究では、眠る患者の3dフレームの入力セットが与えられた後、胸部領域に対応する画素でセグメンテーション画像が出力され、その後、睡眠分析アルゴリズムへの入力として使用できる胸部領域セグメンテーションアルゴリズムを提案する。 非接触法の開発プロセスを大幅に高速化する以外は、精度の高い自動セグメンテーションにより、より正確な特徴抽出が可能であり、手動ROI選択よりも平均46.9%の精度で先行ソリューションの感度が向上していることが示されている。 上記のすべては、既存の従来の方法を置き換える主要な候補として、非接触メソッドの抽出アルゴリズムを配置する。

Although the field of sleep study has greatly developed over the recent years, the most common and efficient way to detect sleep issues remains a sleep examination performed in a sleep laboratory, in a procedure called Polysomnography (PSG). This examination measures several vital signals during a full night's sleep using multiple sensors connected to the patient's body. Yet, despite being the golden standard, the connection of the sensors and the unfamiliar environment inevitably impact the quality of the patient's sleep and the examination itself. Therefore, with the novel development of more accurate and affordable 3D sensing devices, new approaches for non-contact sleep study emerged. These methods utilize different techniques with the purpose to extract the same sleep parameters, but remotely, eliminating the need of any physical connections to the patient's body. However, in order to enable reliable remote extraction, these methods require accurate identification of the basic Region of Interest (ROI) i.e. the chest area of the patient, a task that is currently holding back the development process, as it is performed manually for each patient. In this study, we propose an automatic chest area segmentation algorithm, that given an input set of 3D frames of a sleeping patient, outputs a segmentation image with the pixels that correspond to the chest area, and can then be used as an input to subsequent sleep analysis algorithms. Except for significantly speeding up the development process of the non-contact methods, accurate automatic segmentation can also enable a more precise feature extraction and it is shown it is already improving sensitivity of prior solutions on average 46.9% better compared to manual ROI selection. All mentioned will place the extraction algorithms of the non-contact methods as a leading candidate to replace the existing traditional methods used today.
翻訳日:2022-10-26 08:04:48 公開日:2020-08-22
# アイデンティティ対応多文ビデオ記述

Identity-Aware Multi-Sentence Video Description ( http://arxiv.org/abs/2008.09791v1 )

ライセンス: Link先を確認
Jae Sung Park, Trevor Darrell, Anna Rohrbach(参考訳) 標準的なビデオや映画の記述タスクは、人物のアイデンティティから切り離され、それによって文間でアイデンティティをリンクできない。 本稿では、この制限を克服し、連続するクリップのセット内で人物を再識別する必要があるマルチ文ID対応ビデオ記述タスクを提案する。 ビデオ記述が与えられたとき,一括して人の身元を一括して予測することを目的とした,身元確認の補助的タスクを導入する。 提案手法はTransformerアーキテクチャを利用して,複数IDのコヒーレントな共同予測を可能にする。 主要な構成要素の1つは、性別対応のテキスト表現と、主モデルにおける追加の性別予測目標である。 この補助タスクにより、アイデンティティ認識ビデオ記述に対する2段階のアプローチを提案することができる。 まず、マルチセンテンスビデオ記述を生成し、次に、予測された人物エンティティ間のリンクを確立するためにidモデルを適用します。 両課題に対処するために,我々はLSMDC(Large Scale Movie Description Challenge)ベンチマークを,問題文に適した新しいアノテーションで強化した。 実験の結果,提案したFill-in the Identity Modelは,いくつかのベースラインや最近の作業よりも優れており,局所的に再同定された人々による記述を生成できることがわかった。

Standard video and movie description tasks abstract away from person identities, thus failing to link identities across sentences. We propose a multi-sentence Identity-Aware Video Description task, which overcomes this limitation and requires to re-identify persons locally within a set of consecutive clips. We introduce an auxiliary task of Fill-in the Identity, that aims to predict persons' IDs consistently within a set of clips, when the video descriptions are given. Our proposed approach to this task leverages a Transformer architecture allowing for coherent joint prediction of multiple IDs. One of the key components is a gender-aware textual representation as well an additional gender prediction objective in the main model. This auxiliary task allows us to propose a two-stage approach to Identity-Aware Video Description. We first generate multi-sentence video descriptions, and then apply our Fill-in the Identity model to establish links between the predicted person entities. To be able to tackle both tasks, we augment the Large Scale Movie Description Challenge (LSMDC) benchmark with new annotations suited for our problem statement. Experiments show that our proposed Fill-in the Identity model is superior to several baselines and recent works, and allows us to generate descriptions with locally re-identified people.
翻訳日:2022-10-26 08:03:55 公開日:2020-08-22
# 時間的行動局在のためのアンカー機構の再検討

Revisiting Anchor Mechanisms for Temporal Action Localization ( http://arxiv.org/abs/2008.09837v1 )

ライセンス: Link先を確認
Le Yang, Houwen Peng, Dingwen Zhang, Jianlong Fu, Junwei Han(参考訳) 現在のアクションローカライゼーションメソッドのほとんどは、事前に定義されたアンカーによるアクションインスタンスの描写、基底真実に最も近いアンカーの選択の学習、洗練されたアンカーの信頼性の予測など、アンカーベースのパイプラインに従っている。 アクションインスタンスの位置と期間について事前に定義されたアンカーは、一般的なアクションインスタンスのローカライズを容易にするが、特に非常に短いものや非常に長いものに対して、劇的なバリエーションでアクションインスタンスに取り組む柔軟性を制限する。 そこで本研究では,時間的視点による動作の局所化を支援するアンカーフリーなアクションローカライゼーションモジュールを提案する。 具体的には、このモジュールはアクションインスタンスを開始境界と終了境界までの距離のあるポイントとして表現し、アクションのローカライゼーションと持続時間の観点から事前に定義されたアンカー制限を緩和する。 提案するアンカーフリーモジュールは、持続時間が極端に短いか極端に長いアクションインスタンスを予測することができる。 提案するアンカーフリーモジュールと従来のアンカーベースモジュールを組み合わせることで,新たなアクションローカライゼーションフレームワークであるa2netを提案する。 アンカーフリーモジュールとアンカーベースモジュールの協調はTHUMOS14(45.5%対42.8%)の最先端技術よりも優れた性能を達成する。 さらに、アンカーフリーとアンカーベースモジュールの相補性を示す包括的な実験により、A2Netは単純だが効果的である。

Most of the current action localization methods follow an anchor-based pipeline: depicting action instances by pre-defined anchors, learning to select the anchors closest to the ground truth, and predicting the confidence of anchors with refinements. Pre-defined anchors set prior about the location and duration for action instances, which facilitates the localization for common action instances but limits the flexibility for tackling action instances with drastic varieties, especially for extremely short or extremely long ones. To address this problem, this paper proposes a novel anchor-free action localization module that assists action localization by temporal points. Specifically, this module represents an action instance as a point with its distances to the starting boundary and ending boundary, alleviating the pre-defined anchor restrictions in terms of action localization and duration. The proposed anchor-free module is capable of predicting the action instances whose duration is either extremely short or extremely long. By combining the proposed anchor-free module with a conventional anchor-based module, we propose a novel action localization framework, called A2Net. The cooperation between anchor-free and anchor-based modules achieves superior performance to the state-of-the-art on THUMOS14 (45.5% vs. 42.8%). Furthermore, comprehensive experiments demonstrate the complementarity between the anchor-free and the anchor-based module, making A2Net simple but effective.
翻訳日:2022-10-26 08:02:55 公開日:2020-08-22
# ガウス混合VAEを用いたゲームレベルのクラスタリングと生成

Game Level Clustering and Generation using Gaussian Mixture VAEs ( http://arxiv.org/abs/2009.09811v1 )

ライセンス: Link先を確認
Zhihan Yang, Anurag Sarkar, Seth Cooper(参考訳) 変分オートエンコーダ(vaes)はゲームレベルを生成することができるが、必要な属性の出力を生成するために学習された潜在空間を手作業で探索する必要がある。 条件付きVAEはラベルに生成を条件付けることでこの問題に対処するが、そのようなラベルはトレーニング中に提供されなければならないため、常に利用できるとは限らない事前知識が必要である。 本稿では, ガウス混合系(GMVAEs) の変種であるガウス混合系(英語版) (GMVAEs) を適用し, 潜時空間にガウス混合系(英語版) (GM) を課す。 これにより、GMのコンポーネントを使用して教師なしの方法でGMVAEがクラスタ化され、学習したコンポーネントを使用して新しいレベルが生成される。 我々はスーパーマリオブラザース、キッド・イカルス、メガマンのレベルから我々のアプローチを実証する。 その結果、学習したコンポーネントがクラスタレベルの構造やパターンを発見し、望ましい特徴を持つレベルを生成することができることがわかった。

Variational autoencoders (VAEs) have been shown to be able to generate game levels but require manual exploration of the learned latent space to generate outputs with desired attributes. While conditional VAEs address this by allowing generation to be conditioned on labels, such labels have to be provided during training and thus require prior knowledge which may not always be available. In this paper, we apply Gaussian Mixture VAEs (GMVAEs), a variant of the VAE which imposes a mixture of Gaussians (GM) on the latent space, unlike regular VAEs which impose a unimodal Gaussian. This allows GMVAEs to cluster levels in an unsupervised manner using the components of the GM and then generate new levels using the learned components. We demonstrate our approach with levels from Super Mario Bros., Kid Icarus and Mega Man. Our results show that the learned components discover and cluster level structures and patterns and can be used to generate levels with desired characteristics.
翻訳日:2022-10-26 07:56:45 公開日:2020-08-22
# 自己競合型ニューラルネットワーク

Self-Competitive Neural Networks ( http://arxiv.org/abs/2008.09824v1 )

ライセンス: Link先を確認
Iman Saberi, Fathiyeh Faghih(参考訳) ディープニューラルネットワーク(DNN)は、多くのアプリケーションにおける分類問題の精度を改善している。 DNNをトレーニングする際の課題の1つは、その正確性を高め、過度な適合に苦しむことを避けるために、豊富なデータセットによって供給される必要があることである。 DNNの一般化を改善する一つの方法は、新しい合成逆数サンプルでトレーニングデータを増強することである。 近年,データ拡張手法の提案が盛んに行われている。 本稿では,各クラスのアトラクション領域(doas)を洗練するために,逆のサンプルを生成する。 このアプローチでは、各段階において、一次および生成された逆データ(その段階まで)によって学習されたモデルを用いて、DNNに複雑に見えるように一次データを操作する。 その後、dnnは拡張データを使用して再訓練され、また、予測が難しい逆データを生成する。 DNNが自分自身と競合する(ハードサンプルを生成して学習する)ことによって精度を向上しようとすると、この技術は自己競合ニューラルネットワーク(SCNN)と呼ばれる。 このようなサンプルを生成するために,ネットワークの重みを固定し,勾配降下に基づく手法を用いて,真のラベルと最も近いラベルの境界に位置する逆サンプルを合成する最適化タスクとして提案する。 実験の結果,scnnを用いたデータ拡張により,元のネットワークの精度が著しく向上することが示された。 例えば、1000の制限されたMNISTデータセットのトレーニングデータでトレーニングされたCNNの精度を94.26%から98.25%に向上させることに言及できる。

Deep Neural Networks (DNNs) have improved the accuracy of classification problems in lots of applications. One of the challenges in training a DNN is its need to be fed by an enriched dataset to increase its accuracy and avoid it suffering from overfitting. One way to improve the generalization of DNNs is to augment the training data with new synthesized adversarial samples. Recently, researchers have worked extensively to propose methods for data augmentation. In this paper, we generate adversarial samples to refine the Domains of Attraction (DoAs) of each class. In this approach, at each stage, we use the model learned by the primary and generated adversarial data (up to that stage) to manipulate the primary data in a way that look complicated to the DNN. The DNN is then retrained using the augmented data and then it again generates adversarial data that are hard to predict for itself. As the DNN tries to improve its accuracy by competing with itself (generating hard samples and then learning them), the technique is called Self-Competitive Neural Network (SCNN). To generate such samples, we pose the problem as an optimization task, where the network weights are fixed and use a gradient descent based method to synthesize adversarial samples that are on the boundary of their true labels and the nearest wrong labels. Our experimental results show that data augmentation using SCNNs can significantly increase the accuracy of the original network. As an example, we can mention improving the accuracy of a CNN trained with 1000 limited training data of MNIST dataset from 94.26% to 98.25%.
翻訳日:2022-10-26 07:56:27 公開日:2020-08-22
# 依存クリックモデルのための疲労認識帯域

Fatigue-aware Bandits for Dependent Click Models ( http://arxiv.org/abs/2008.09733v1 )

ライセンス: Link先を確認
Junyu Cao, Wei Sun, Zuo-Jun (Max) Shen, Markus Ettl(参考訳) レコメンダシステムは、ユーザのエンゲージメントを維持するために大量のコンテンツを送信します。 1)無関係な内容に対する過剰な露出 2)類似した推奨が多すぎることはほとんどない。 この問題に対処するために、プラットフォームがユーザの疲労を考慮したコンテンツを推奨するポリシーを学習するオンライン学習環境を検討する。 本稿では,ユーザの行動を記述するために,依存クリックモデル(dcm)の拡張を提案する。 各コンテンツについて、ユーザにとっての魅力は、その本質的な関連性と、類似コンテンツ数を測定する割引要因に依存すると規定する。 ユーザーは推奨コンテンツを順次表示し、魅力的なコンテンツをクリックする。 ユーザーはいつでもプラットフォームを離れることができ、コンテンツが気に入らない場合は離脱する確率が高い。 利用者のフィードバックに基づき、プラットフォームはコンテンツ疲労による割引効果だけでなく、基盤となるコンテンツの関連性も学習する。 本稿では,この学習課題を「Fatigue-aware DCM Bandit」問題と呼ぶ。 割引効果が知られているかどうかに応じて,2つの学習シナリオを考察する。 それぞれのシナリオについて,同時に探索し,悪用し,その後悔を特徴付ける学習アルゴリズムを提案する。

As recommender systems send a massive amount of content to keep users engaged, users may experience fatigue which is contributed by 1) an overexposure to irrelevant content, 2) boredom from seeing too many similar recommendations. To address this problem, we consider an online learning setting where a platform learns a policy to recommend content that takes user fatigue into account. We propose an extension of the Dependent Click Model (DCM) to describe users' behavior. We stipulate that for each piece of content, its attractiveness to a user depends on its intrinsic relevance and a discount factor which measures how many similar contents have been shown. Users view the recommended content sequentially and click on the ones that they find attractive. Users may leave the platform at any time, and the probability of exiting is higher when they do not like the content. Based on user's feedback, the platform learns the relevance of the underlying content as well as the discounting effect due to content fatigue. We refer to this learning task as "fatigue-aware DCM Bandit" problem. We consider two learning scenarios depending on whether the discounting effect is known. For each scenario, we propose a learning algorithm which simultaneously explores and exploits, and characterize its regret bound.
翻訳日:2022-10-26 07:55:45 公開日:2020-08-22
# 情報型ニューラルアンサンブルカルマン学習

Informative Neural Ensemble Kalman Learning ( http://arxiv.org/abs/2008.09915v1 )

ライセンス: Link先を確認
Margaret Trautner and Gabriel Margolis and Sai Ravela(参考訳) 確率的システムにおいて、情報的アプローチは、情報ゲインを最大化し、モデル関連推論の有効性を高めるキー測定または決定変数を選択する。 ニューラルネットワークもまた確率力学を具現化するが、情報学習はあまり発達していない。 本稿では,バックプロパゲーションを適応型アンサンブルカルマンフィルタで置き換え,不確かさを定量化し,学習中に情報ゲインを最大化する情報アンサンブルカルマン学習を提案する。 標準データセットにおけるkalman learningの競争力を実証した結果,神経構造学習にインフォメーションアプローチを適用した。 特に、Lorenz-63システムのシミュレーションから学習すると、効果的に学習された構造が力学方程式を回復することを示す。 私たちの知る限りでは、Informative Ensemble Kalman Learningは新しいものです。 結果は、最適化された学習へのこのアプローチは有望であることを示唆している。

In stochastic systems, informative approaches select key measurement or decision variables that maximize information gain to enhance the efficacy of model-related inferences. Neural Learning also embodies stochastic dynamics, but informative Learning is less developed. Here, we propose Informative Ensemble Kalman Learning, which replaces backpropagation with an adaptive Ensemble Kalman Filter to quantify uncertainty and enables maximizing information gain during Learning. After demonstrating Ensemble Kalman Learning's competitive performance on standard datasets, we apply the informative approach to neural structure learning. In particular, we show that when trained from the Lorenz-63 system's simulations, the efficaciously learned structure recovers the dynamical equations. To the best of our knowledge, Informative Ensemble Kalman Learning is new. Results suggest that this approach to optimized Learning is promising.
翻訳日:2022-10-26 07:55:06 公開日:2020-08-22
# 不均一 SoC の実行資源管理のためのオンライン適応学習

Online Adaptive Learning for Runtime Resource Management of Heterogeneous SoCs ( http://arxiv.org/abs/2008.09728v1 )

ライセンス: Link先を確認
Sumit K. Mandal, Umit Y. Ogras, Janardhan Rao Doppa, Raid Z. Ayoub, Michael Kishinevsky, Partha P. Pande(参考訳) 動的資源管理は、消費電力の低減と高い性能要求により、現代のコンピュータおよび通信システム設計における主要な研究分野の1つとなっている。 統合コアの数、異質性のレベル、制御ノブの量は着実に増加する。 その結果、システムの複雑さは、リソースを最適化し、動的に管理する能力よりも速くなっている。 さらに、オフラインアプローチは、作業負荷のばらつきと、設計時に未知の新しいアプリケーションが多いため、サブ最適である。 本稿では,システム性能,パワー,温度を予測するオンライン学習手法について概説する。 次に, 模倣学習 (il) と明示的非線形モデル予測制御 (nmpc) の2つの手法を用いて, オンライン制御における予測モデルの利用について述べる。 16のベンチマークによる商用モバイルプラットフォームの評価は、ilアプローチが未知のアプリケーションに制御ポリシーをうまく適用していることを示している。 明示的なNMPCは、最新のGPUサブシステムの多変数電力管理のための最先端アルゴリズムと比較して25%の省エネを提供する。

Dynamic resource management has become one of the major areas of research in modern computer and communication system design due to lower power consumption and higher performance demands. The number of integrated cores, level of heterogeneity and amount of control knobs increase steadily. As a result, the system complexity is increasing faster than our ability to optimize and dynamically manage the resources. Moreover, offline approaches are sub-optimal due to workload variations and large volume of new applications unknown at design time. This paper first reviews recent online learning techniques for predicting system performance, power, and temperature. Then, we describe the use of predictive models for online control using two modern approaches: imitation learning (IL) and an explicit nonlinear model predictive control (NMPC). Evaluations on a commercial mobile platform with 16 benchmarks show that the IL approach successfully adapts the control policy to unknown applications. The explicit NMPC provides 25% energy savings compared to a state-of-the-art algorithm for multi-variable power management of modern GPU sub-systems.
翻訳日:2022-10-26 07:54:02 公開日:2020-08-22
# bertに基づく系列タグ付けモデルの中国医学テキスト属性抽出への応用

Applications of BERT Based Sequence Tagging Models on Chinese Medical Text Attributes Extraction ( http://arxiv.org/abs/2008.09740v1 )

ライセンス: Link先を確認
Gang Zhao, Teng Zhang, Chenxiao Wang, Ping Lv, Ji Wu(参考訳) 漢方医学テキスト属性抽出タスクをシーケンスタグ化または機械読み理解タスクに変換する。 BERT事前学習モデルに基づいて、広く使われているLSTM-CRFシーケンスタギングモデルだけでなく、CNN、UCNN、WaveNet、SelfAttentionなど、LSTM+CRFと同等の性能を持つ他のシーケンスモデルも試した。 これは従来のシーケンスタグ付けモデルに光を当てます。 異なるシーケンスタギングモデルに重点を置く側面は大きく異なるため、これらのモデルを統合することで最終システムに多様性が加わる。 そこで本システムは,中国の医療用テキスト属性抽出作業(CCKS 2019タスク1のサブタスク2)において,優れたパフォーマンスを実現している。

We convert the Chinese medical text attributes extraction task into a sequence tagging or machine reading comprehension task. Based on BERT pre-trained models, we have not only tried the widely used LSTM-CRF sequence tagging model, but also other sequence models, such as CNN, UCNN, WaveNet, SelfAttention, etc, which reaches similar performance as LSTM+CRF. This sheds a light on the traditional sequence tagging models. Since the aspect of emphasis for different sequence tagging models varies substantially, ensembling these models adds diversity to the final system. By doing so, our system achieves good performance on the task of Chinese medical text attributes extraction (subtask 2 of CCKS 2019 task 1).
翻訳日:2022-10-26 07:53:48 公開日:2020-08-22
# SemEval-2020 Task 11におけるCyberWallE: プロパガンダ検出のためのアンサンブルモデルの特徴解析

CyberWallE at SemEval-2020 Task 11: An Analysis of Feature Engineering for Ensemble Models for Propaganda Detection ( http://arxiv.org/abs/2008.09859v1 )

ライセンス: Link先を確認
Verena Blaschke, Maxim Korniyenko, Sam Tureski(参考訳) 本稿では,SemEval-2020 Task Detection of Propaganda Techniques in News Articlesについて述べる。 Span Identification (SI) と Technique Classification (TC) の2つのサブタスクに参加している。 我々はSIサブタスクにバイLSTMアーキテクチャを使用し、TCサブタスクの複雑なアンサンブルモデルを訓練する。 我々のアーキテクチャはBERTからの埋め込みと、追加の語彙的特徴と広範なラベル後処理を組み合わせて構築されている。 我々のシステムは、SIサブタスクで35チーム中8チーム(F1スコア:43.86%)、TCサブタスクで31チーム中8チーム(F1スコア:57.37%)を達成している。

This paper describes our participation in the SemEval-2020 task Detection of Propaganda Techniques in News Articles. We participate in both subtasks: Span Identification (SI) and Technique Classification (TC). We use a bi-LSTM architecture in the SI subtask and train a complex ensemble model for the TC subtask. Our architectures are built using embeddings from BERT in combination with additional lexical features and extensive label post-processing. Our systems achieve a rank of 8 out of 35 teams in the SI subtask (F1-score: 43.86%) and 8 out of 31 teams in the TC subtask (F1-score: 57.37%).
翻訳日:2022-10-26 07:48:34 公開日:2020-08-22
# utmn at semeval-2020 task 11: 自動プロパガンダ検出のためのキッチンソリューション

UTMN at SemEval-2020 Task 11: A Kitchen Solution to Automatic Propaganda Detection ( http://arxiv.org/abs/2008.09869v1 )

ライセンス: Link先を確認
Elena Mikhalkova, Nadezhda Ganzherli, Anna Glazkova, Yuliya Bidulya(参考訳) 本稿では,SemEval-2020 Task 11におけるプロパガンダ検出の高速解について述べる。 機能毎のベクトル化とシンプルなロジスティック回帰分類器を使用して、データに関するさまざまな仮説をすばやくテストします。 ベストな解決法と思われるものを考え出すが、タスクのオーガナイザが提案する測定結果と一致できない。 トレーニングセットにおける2つのクラス(PropagandaとNone)のサンプル数、トークンがベクトル化されるコンテキストウインドウのサイズ、ベクトル化手段の組み合わせによって、システムがどのようにクラスと特徴の不均衡を処理するかをテストする。 SemEval2020 Task 11のシステムの結果はF-score=0.37である。

The article describes a fast solution to propaganda detection at SemEval-2020 Task 11, based onfeature adjustment. We use per-token vectorization of features and a simple Logistic Regressionclassifier to quickly test different hypotheses about our data. We come up with what seems to usthe best solution, however, we are unable to align it with the result of the metric suggested by theorganizers of the task. We test how our system handles class and feature imbalance by varying thenumber of samples of two classes (Propaganda and None) in the training set, the size of a contextwindow in which a token is vectorized and combination of vectorization means. The result of oursystem at SemEval2020 Task 11 is F-score=0.37.
翻訳日:2022-10-26 07:48:22 公開日:2020-08-22
# 大規模検索エンジンログの季節調整に基づく特徴選択手法

Seasonal-adjustment Based Feature Selection Method for Large-scale Search Engine Logs ( http://arxiv.org/abs/2008.09727v1 )

ライセンス: Link先を確認
Thien Q. Tran, Jun Sakuma(参考訳) 検索エンジンログは感染症の発生を追跡し予測する上で大きな可能性を秘めている。 より正確には、いくつかの検索用語の検索ボリュームを使用して、ほぼリアルタイムで感染症の感染率を予測することができる。 しかし,検索ログの2方向不安定性に起因して,検索エンジンログによるアウトブレイクの正確かつ安定した予測を行うことは困難な課題である。 まず、検索項の検索量は、例えば、メディアやニュースの量などの環境要因により、短期的に不規則に変化する可能性がある。 第二に、検索エンジンの人口動態の変化により、検索量も長期的に変化する可能性がある。 つまり、モデルがそのような特徴を無視してそのような検索ログで訓練された場合、その結果の予測は、これらの変更が発生した時に重大な誤予測を含むことになる。 本研究では,この不安定な問題を克服するための新しい特徴選択手法を提案する。 特に,各時系列を季節,傾向,不規則成分の3成分に分解し,各成分の予測モデルを構築する季節調整手法を採用する。 また,各コンポーネントを予測する適切な検索語を選択するために,特徴選択手法を慎重に設計する。 我々は10種類の感染症について総合的な実験を行った。 実験結果から, 提案手法は, 現況, 予報環境において, 10の疾患のうち7つの疾患の予測精度において, 比較手法よりも優れていた。 また,提案手法は,対象疾患に意味的に関連のある検索語を選択することに成功している。

Search engine logs have a great potential in tracking and predicting outbreaks of infectious disease. More precisely, one can use the search volume of some search terms to predict the infection rate of an infectious disease in nearly real-time. However, conducting accurate and stable prediction of outbreaks using search engine logs is a challenging task due to the following two-way instability characteristics of the search logs. First, the search volume of a search term may change irregularly in the short-term, for example, due to environmental factors such as the amount of media or news. Second, the search volume may also change in the long-term due to the demographic change of the search engine. That is to say, if a model is trained with such search logs with ignoring such characteristic, the resulting prediction would contain serious mispredictions when these changes occur. In this work, we proposed a novel feature selection method to overcome this instability problem. In particular, we employ a seasonal-adjustment method that decomposes each time series into three components: seasonal, trend and irregular component and build prediction models for each component individually. We also carefully design a feature selection method to select proper search terms to predict each component. We conducted comprehensive experiments on ten different kinds of infectious diseases. The experimental results show that the proposed method outperforms all comparative methods in prediction accuracy for seven of ten diseases, in both now-casting and forecasting setting. Also, the proposed method is more successful in selecting search terms that are semantically related to target diseases.
翻訳日:2022-10-26 07:47:36 公開日:2020-08-22
# 高速近似多出力ガウス過程

Fast Approximate Multi-output Gaussian Processes ( http://arxiv.org/abs/2008.09848v1 )

ライセンス: Link先を確認
Vladimir Joukov and Dana Kuli\'c(参考訳) ガウス過程回帰モデル(Gaussian process regression model)は、パラメータチューニングを最小限とする模範データから表現的非線形モデルを学び、未知点の平均と共分散を推定する、魅力的な機械学習手法である。 しかしながら、トレーニングサンプルの数による指数関数的計算複雑性の増大は、長年の課題であった。 トレーニング中は、繰り返し毎に$N \times N$ kernel matrixを計算し、反転する必要がある。 回帰は$m \times N$ kernelの計算を必要とし、$N$と$m$はそれぞれ、トレーニング数とテストポイント数である。 本稿では,固有値と関数を用いた共分散核の近似が,トレーニングと回帰複雑性の大幅な低減を伴う近似ガウス過程にどのようにつながるかを示す。 提案手法のトレーニングでは、$N \times n$ eigenfunction matrixと$n \times n$ inverseだけを計算し、$n$は選択された固有値の数である。 さらに、回帰には$m \times n$ matrixしか必要ない。 最後に、特別な場合、ハイパーパラメータ最適化はトレーニングサンプルの数によって完全に独立である。 提案手法では,複数の出力をリグレッシブし,任意の順序のレグレッシブの導出を推定し,それらの相関関係を学習できる。 計算複雑性の低減,回帰能力,マルチアウトプット相関学習をシミュレーション例で示す。

Gaussian processes regression models are an appealing machine learning method as they learn expressive non-linear models from exemplar data with minimal parameter tuning and estimate both the mean and covariance of unseen points. However, exponential computational complexity growth with the number of training samples has been a long standing challenge. During training, one has to compute and invert an $N \times N$ kernel matrix at every iteration. Regression requires computation of an $m \times N$ kernel where $N$ and $m$ are the number of training and test points respectively. In this work we show how approximating the covariance kernel using eigenvalues and functions leads to an approximate Gaussian process with significant reduction in training and regression complexity. Training with the proposed approach requires computing only a $N \times n$ eigenfunction matrix and a $n \times n$ inverse where $n$ is a selected number of eigenvalues. Furthermore, regression now only requires an $m \times n$ matrix. Finally, in a special case the hyperparameter optimization is completely independent form the number of training samples. The proposed method can regress over multiple outputs, estimate the derivative of the regressor of any order, and learn the correlations between them. The computational complexity reduction, regression capabilities, and multioutput correlation learning are demonstrated in simulation examples.
翻訳日:2022-10-26 07:46:49 公開日:2020-08-22
# 予防は治療より優れている:密集ネットワークにおける基礎崩壊と透明性の取り扱い

Prevention is Better than Cure: Handling Basis Collapse and Transparency in Dense Networks ( http://arxiv.org/abs/2008.09878v1 )

ライセンス: Link先を確認
Gurpreet Singh, Soumyajit Gupta, Clint N. Dawson(参考訳) デンスネットはあらゆる分類と回帰問題の不可欠な部分である。 近年,これらのネットワークは様々な領域における既知の表現の解法として新たな応用を見出した。 しかし、密度の高いネットの1つの重要な問題は、複数のトレーニング実行に対する特徴解釈と再現性の欠如である。 本研究では,基礎崩壊問題の主な原因を特定し,この問題を回避する修正損失関数を提案する。 また,低重量高密度ネットの設計において,表面粗さの損失に対するアクティベーションの選択と適切なスケーリングに関する一般的なガイドラインも提示する。 基礎崩壊の問題が大規模冗長ネットワークの設計につながることを注意深く選択した数値実験により実証する。 提案手法により,100 \times$パラメータが少なくなるとともに,MSE損失が従来報告よりもはるかに低い10\times$MSE損失が得られる。 さらに,高密度ネットの幅は特徴量に大きく依存していることを示す。 これは、以前の理論研究で報告された次元依存幅選択とは対照的である。 私たちの知る限りでは、これらの問題と矛盾が報告され、実験的に検証されたのはこれが初めてです。 設計ガイドラインでは、低軽量ネットワーク設計の観点で透明性を保ちます。 完全な再現性のためのコードをhttps://github.com/smjtgupta/dense_net_regressで公開しています。

Dense nets are an integral part of any classification and regression problem. Recently, these networks have found a new application as solvers for known representations in various domains. However, one crucial issue with dense nets is it's feature interpretation and lack of reproducibility over multiple training runs. In this work, we identify a basis collapse issue as a primary cause and propose a modified loss function that circumvents this problem. We also provide a few general guidelines relating the choice of activations to loss surface roughness and appropriate scaling for designing low-weight dense nets. We demonstrate through carefully chosen numerical experiments that the basis collapse issue leads to the design of massively redundant networks. Our approach results in substantially concise nets, having $100 \times$ fewer parameters, while achieving a much lower $(10\times)$ MSE loss at scale than reported in prior works. Further, we show that the width of a dense net is acutely dependent on the feature complexity. This is in contrast to the dimension dependent width choice reported in prior theoretical works. To the best of our knowledge, this is the first time these issues and contradictions have been reported and experimentally verified. With our design guidelines we render transparency in terms of a low-weight network design. We share our codes for full reproducibility available at https://github.com/smjtgupta/Dense_Net_Regress.
翻訳日:2022-10-26 07:45:31 公開日:2020-08-22
# icvi-artmap:adaptive resonance theory prediction mappingとインクリメンタルクラスタ妥当性指標を用いたクラスタリングの高速化と改善

iCVI-ARTMAP: Accelerating and improving clustering using adaptive resonance theory predictive mapping and incremental cluster validity indices ( http://arxiv.org/abs/2008.09903v1 )

ライセンス: Link先を確認
Leonardo Enzo Brito da Silva and Nagasharath Rayapati and Donald C. Wunsch II(参考訳) 本稿では,段階的クラスタ妥当性指標(iCVI)を用いて教師なし学習(iCVI-ARTMAP)を行う適応共振理論予測写像(ARTMAP)モデルを提案する。 ARTMAPの意思決定と多対一マッピング機能にiCVIを組み込むことで、サンプルを段階的に割り当てるクラスタの選択を改善することができる。 これらの改善は、クラスタ間でサンプル割り当てを交換する操作をインテリジェントに実行し、クラスタを分割し、マージし、iCVI値を再計算する必要がある変数の値をキャッシュすることで達成される。 再帰的定式化を用いることで、iCVI-ARTMAPはクラスタ妥当性指数(CVI)ベースのオフラインクラスタリングに関連する計算負担を大幅に削減できる。 iCVIとデータセットによって、バッチCVI計算を使用する場合よりも最大2桁の実行時間を短縮することができる。 本研究では,Calinski-Harabasz,WB-index,Xie-Beni,Davies-Bouldin,Pakhira-Bandyopadhyay-Maulik,NegentropyインクリメントのインクリメンタルバージョンをARTMAPに統合した。 実験の結果,icviを適切に選択することで,icvi-artmapは合成ベンチマークデータセットのほとんどにおいて,ファジィ・アダプティブ・共振理論(art),デュアル・ビジレンス・ファジィ・アート,kmeans,スペクトルクラスタリング,ガウス混合モデル,階層的凝集クラスタリングアルゴリズムよりも優れていることがわかった。 また、プロジェクション上のクラスタリングや、深層クラスタリングモデルによって生成された潜在空間において、実世界の画像ベンチマークデータセットで競合的に実行した。 当然、iCVI-ARTMAPの性能は選択されたiCVIと手前のデータに適合するが、幸運なことに、他のiCVIを簡単に埋め込み可能な汎用モデルである。

This paper presents an adaptive resonance theory predictive mapping (ARTMAP) model which uses incremental cluster validity indices (iCVIs) to perform unsupervised learning, namely iCVI-ARTMAP. Incorporating iCVIs to the decision-making and many-to-one mapping capabilities of ARTMAP can improve the choices of clusters to which samples are incrementally assigned. These improvements are accomplished by intelligently performing the operations of swapping sample assignments between clusters, splitting and merging clusters, and caching the values of variables when iCVI values need to be recomputed. Using recursive formulations enables iCVI-ARTMAP to considerably reduce the computational burden associated with cluster validity index (CVI)-based offline clustering. Depending on the iCVI and the data set, it can achieve running times up to two orders of magnitude shorter than when using batch CVI computations. In this work, the incremental versions of Calinski-Harabasz, WB-index, Xie-Beni, Davies-Bouldin, Pakhira-Bandyopadhyay-Maulik, and negentropy increment were integrated into fuzzy ARTMAP. Experimental results show that, with proper choice of iCVI, iCVI-ARTMAP outperformed fuzzy adaptive resonance theory (ART), dual vigilance fuzzy ART, kmeans, spectral clustering, Gaussian mixture models and hierarchical agglomerative clustering algorithms in most of the synthetic benchmark data sets. It also performed competitively on real world image benchmark data sets when clustering on projections and on latent spaces generated by a deep clustering model. Naturally, the performance of iCVI-ARTMAP is subject to the selected iCVI and its suitability to the data at hand; fortunately, it is a general model wherein other iCVIs can be easily embedded.
翻訳日:2022-10-26 07:38:56 公開日:2020-08-22
# FAT ALBERT: BERTに基づく意味的類似性注意層を用いた大規模テキストの回答

FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity Attention Layer based on BERT ( http://arxiv.org/abs/2009.01004v1 )

ライセンス: Link先を確認
Omar Mossad, Amgad Ahmed, Anandharaju Raju, Hari Karthikeyan, and Zayed Ahmed(参考訳) 機械によるテキスト理解は自然言語処理における重要な研究分野である。 テキストコンテキストとセマンティクスの完全な理解が達成されると、ディープラーニングモデルをトレーニングして、テキスト要約、分類、質問応答など、タスクの大規模なサブセットを解決することが可能になる。 本稿では,質問応答問題,特に多重選択型質問に焦点をあてる。 我々は最先端トランスフォーマーネットワークであるbertに基づくモデルを開発した。 さらに,意味的類似性モデルを用いて,最も影響の高い文を抽出することにより,bertの大規模テキストコーパス支援能力の軽減を図る。 提案モデルの評価から,MovieQA課題における先行モデルよりも優れており,現在,87.79%の精度でリーダボードにランクインしている。 最後に,モデルの欠点を議論し,これらの制限を克服するための改善の可能性を提案する。

Machine based text comprehension has always been a significant research field in natural language processing. Once a full understanding of the text context and semantics is achieved, a deep learning model can be trained to solve a large subset of tasks, e.g. text summarization, classification and question answering. In this paper we focus on the question answering problem, specifically the multiple choice type of questions. We develop a model based on BERT, a state-of-the-art transformer network. Moreover, we alleviate the ability of BERT to support large text corpus by extracting the highest influence sentences through a semantic similarity model. Evaluations of our proposed model demonstrate that it outperforms the leading models in the MovieQA challenge and we are currently ranked first in the leader board with test accuracy of 87.79%. Finally, we discuss the model shortcomings and suggest possible improvements to overcome these limitations.
翻訳日:2022-10-26 07:38:15 公開日:2020-08-22
# WeLa-VAE:弱ラベルを用いた対角表現学習

WeLa-VAE: Learning Alternative Disentangled Representations Using Weak Labels ( http://arxiv.org/abs/2008.09879v1 )

ライセンス: Link先を確認
Vasilis Margonis, Athanasios Davvetas, Iraklis A. Klampanos(参考訳) 監督や帰納的バイアスを伴わない不連続表現の学習は、しばしば解釈不能な表現や望ましくない表現につながる。 一方、厳格な監督は真の生成要因の詳細な知識を必要とするが、必ずしも可能であるとは限らない。 本稿では,基礎的真理要因に明示的に関係しないと思われるハイレベルラベルを用いて,弱い監督を考察する。 このようなラベルは容易に取得できるが、アルゴリズムがより解釈可能な表現や代替の非絡み合い表現を学ぶための誘導バイアスとしても用いられる。 そこで本研究では, 観測値とラベル値が同じ潜在変数を共有する変分推論フレームワークwela-vaeを提案する。 我々の手法はTCVAEの一般化であり、追加のハイパーパラメータを1つ加えるだけである。 我々はカルテシアン座標によって生成されたデータセットを実験し、TCVAEが係数化されたカルテシアン表現を学習する一方で、WeLa-VAEは極性表現を学習・解離することができることを示す。 これは、洗練されたラベルや、レイヤーの数、最適化パラメータ、あるいは全相関ハイパーパラメータを調整する必要なしに達成される。

Learning disentangled representations without supervision or inductive biases, often leads to non-interpretable or undesirable representations. On the other hand, strict supervision requires detailed knowledge of the true generative factors, which is not always possible. In this paper, we consider weak supervision by means of high-level labels that are not assumed to be explicitly related to the ground truth factors. Such labels, while being easier to acquire, can also be used as inductive biases for algorithms to learn more interpretable or alternative disentangled representations. To this end, we propose WeLa-VAE, a variational inference framework where observations and labels share the same latent variables, which involves the maximization of a modified variational lower bound and total correlation regularization. Our method is a generalization of TCVAE, adding only one extra hyperparameter. We experiment on a dataset generated by Cartesian coordinates and we show that, while a TCVAE learns a factorized Cartesian representation, given weak labels of distance and angle, WeLa-VAE is able to learn and disentangle a polar representation. This is achieved without the need of refined labels or having to adjust the number of layers, the optimization parameters, or the total correlation hyperparameter.
翻訳日:2022-10-26 07:38:01 公開日:2020-08-22
# プラットフォームを横断するレベルブレンドの探索 : パスとアクダクタンス

Exploring Level Blending across Platformers via Paths and Affordances ( http://arxiv.org/abs/2009.06356v1 )

ライセンス: Link先を確認
Anurag Sarkar, Adam Summerville, Sam Snodgrass, Gerard Bentley, Joseph Osborn(参考訳) 機械学習(PCGML)による手続き的コンテンツ生成技術は,新しいゲームコンテンツの生成に有用であることが示されている。 主にトレーニングに使用されるゲームドメインのスタイルで新しいコンテンツを生成するために使用されるが、近年ではレベルブレンディングやドメイン転送といった技術を用いて、新しいドメインでコンテンツを発見し、生成する方法が研究され始めている。 本稿では,これらの研究に基づいて,複数のドメインにまたがる新しいゲームコンテンツを作成するためのPCGMLアプローチを提案する。 6つの異なるプラットフォームゲームからのデータをエンコードし、このデータ上で変分オートエンコーダをトレーニングするために、新しいアプライアンスとパス語彙を使用し、すべてのドメインにまたがる潜在レベルスペースをキャプチャし、異なるドメインの比率で新しいコンテンツを生成することができます。

Techniques for procedural content generation via machine learning (PCGML) have been shown to be useful for generating novel game content. While used primarily for producing new content in the style of the game domain used for training, recent works have increasingly started to explore methods for discovering and generating content in novel domains via techniques such as level blending and domain transfer. In this paper, we build on these works and introduce a new PCGML approach for producing novel game content spanning multiple domains. We use a new affordance and path vocabulary to encode data from six different platformer games and train variational autoencoders on this data, enabling us to capture the latent level space spanning all the domains and generate new content with varying proportions of the different domains.
翻訳日:2022-10-26 07:37:39 公開日:2020-08-22
# 畳み込みニューラルネットワークと深度・慣性センサデータのマルチモーダル融合による人間行動認識の改善に向けて

Towards Improved Human Action Recognition Using Convolutional Neural Networks and Multimodal Fusion of Depth and Inertial Sensor Data ( http://arxiv.org/abs/2008.09747v1 )

ライセンス: Link先を確認
Zeeshan Ahmad and Naimul Khan(参考訳) 本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。 まず、深度データをSequential Front View Images(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。 そして、慣性データを信号画像(si)に変換し、これら画像に対して別の畳み込みニューラルネットワーク(cnn)を訓練する。 最後に、学習した特徴をCNNから抽出し、融合して共有機能層を作り、これらの特徴を分類器に供給する。 そこで我々は,SVM(Support Vector Machines)とSoftmaxの2つの分類器を実験し,それらの性能を比較した。 また、各モーダル、深度データ、センサデータのみの認識精度を算出し、融合に基づく精度と比較し、モーダルの融合が個々のモーダルよりも良い結果をもたらすという事実を強調する。 UTD-MHADとKinect 2Dデータセットの実験結果から,最近提案された他の視覚慣性行動認識法と比較して,提案手法が技術結果の状態を達成できることが示されている。

This paper attempts at improving the accuracy of Human Action Recognition (HAR) by fusion of depth and inertial sensor data. Firstly, we transform the depth data into Sequential Front view Images(SFI) and fine-tune the pre-trained AlexNet on these images. Then, inertial data is converted into Signal Images (SI) and another convolutional neural network (CNN) is trained on these images. Finally, learned features are extracted from both CNN, fused together to make a shared feature layer, and these features are fed to the classifier. We experiment with two classifiers, namely Support Vector Machines (SVM) and softmax classifier and compare their performances. The recognition accuracies of each modality, depth data alone and sensor data alone are also calculated and compared with fusion based accuracies to highlight the fact that fusion of modalities yields better results than individual modalities. Experimental results on UTD-MHAD and Kinect 2D datasets show that proposed method achieves state of the art results when compared to other recently proposed visual-inertial action recognition methods.
翻訳日:2022-10-26 07:37:24 公開日:2020-08-22
# 進化アルゴリズムのための単目的二値最適化の楽観的変種

Optimistic variants of single-objective bilevel optimization for evolutionary algorithms ( http://arxiv.org/abs/2008.09926v1 )

ライセンス: Link先を確認
Anuraganand Sharma(参考訳) 単目的双レベル最適化は、制約の1つが最適化問題そのものであるような制約最適化問題の特殊な形式である。 これらの問題は、通常、非凸かつ強いnpハードである。 近年, 意思決定問題に対する実世界応用の適用性から, 進化的計算コミュニティから, 双レベル問題をモデル化する関心が高まっている。 本研究では,局所的ヒューリスティック探索を用いた部分ネスト型進化的手法を提案し,ベンチマーク問題を解き,優れた結果を得た。 このアプローチは、制約から情報を活用することにより、実現可能な領域を探索する際の婚姻交叉の概念に依存している。 一般的な収束アプローチ、すなわち楽観的で悲観的なアプローチにも新しい変種が提案されている。 これを極楽観的アプローチと呼ぶ。 実験結果は、アルゴリズムが楽観的な変種を持つ既知の最適解と異なる収束性を示す。 最適アプローチは悲観的アプローチよりも優れている。 最近発表された部分進化的アプローチと完全進化的アプローチの比較統計的分析は、非常に競争力のある結果を示している。

Single-objective bilevel optimization is a specialized form of constraint optimization problems where one of the constraints is an optimization problem itself. These problems are typically non-convex and strongly NP-Hard. Recently, there has been an increased interest from the evolutionary computation community to model bilevel problems due to its applicability in the real-world applications for decision-making problems. In this work, a partial nested evolutionary approach with a local heuristic search has been proposed to solve the benchmark problems and have outstanding results. This approach relies on the concept of intermarriage-crossover in search of feasible regions by exploiting information from the constraints. A new variant has also been proposed to the commonly used convergence approaches, i.e., optimistic and pessimistic. It is called extreme optimistic approach. The experimental results demonstrate the algorithm converges differently to known optimum solutions with the optimistic variants. Optimistic approach also outperforms pessimistic approach. Comparative statistical analysis of our approach with other recently published partial to complete evolutionary approaches demonstrates very competitive results.
翻訳日:2022-10-26 07:37:00 公開日:2020-08-22
# 慣性センサを用いた人間行動認識のためのマルチドメインマルチモーダルフュージョン

Multidomain Multimodal Fusion For Human Action Recognition Using Inertial Sensors ( http://arxiv.org/abs/2008.09748v1 )

ライセンス: Link先を確認
Zeeshan Ahmad and Naimul Khan(参考訳) アクション認識中に多重アクションを誤分類する主な理由の1つは、アクションに関する意味的な情報を提供する補完機能がないことである。 異なるドメインでは、これらの特徴は異なるスケールと強度で存在します。 既存の文献では、特徴は異なるドメインで独立に抽出されるが、これらのマルチドメイン機能の融合による利点は実現されていない。 本稿では,この課題に対処し,補完的情報の完全集合を抽出するため,入力モダリティの異なる領域から相補的かつ識別的な特徴を抽出する,新しいマルチドメインマルチモーダル融合フレームワークを提案する。 入力慣性データを信号画像に変換し,それぞれ離散フーリエ変換(DFT)とガボルウェーブレット変換(GWT)を用いて空間領域情報を周波数および時間スペクトル領域に変換することにより,入力モダリティ多重領域とマルチモーダルを生成する。 異なる領域の特徴は畳み込みニューラルネットワーク(CNN)によって抽出され、続いてCCF(Canonical correlation based Fusion)によって融合され、人間の行動認識の精度が向上する。 3つの慣性データセットに対する実験結果から,提案手法の最先端性を示した。

One of the major reasons for misclassification of multiplex actions during action recognition is the unavailability of complementary features that provide the semantic information about the actions. In different domains these features are present with different scales and intensities. In existing literature, features are extracted independently in different domains, but the benefits from fusing these multidomain features are not realized. To address this challenge and to extract complete set of complementary information, in this paper, we propose a novel multidomain multimodal fusion framework that extracts complementary and distinct features from different domains of the input modality. We transform input inertial data into signal images, and then make the input modality multidomain and multimodal by transforming spatial domain information into frequency and time-spectrum domain using Discrete Fourier Transform (DFT) and Gabor wavelet transform (GWT) respectively. Features in different domains are extracted by Convolutional Neural networks (CNNs) and then fused by Canonical Correlation based Fusion (CCF) for improving the accuracy of human action recognition. Experimental results on three inertial datasets show the superiority of the proposed method when compared to the state-of-the-art.
翻訳日:2022-10-26 07:36:45 公開日:2020-08-22
# ScribbleBox:ビデオオブジェクトセグメンテーションのためのインタラクティブアノテーションフレームワーク

ScribbleBox: Interactive Annotation Framework for Video Object Segmentation ( http://arxiv.org/abs/2008.09721v1 )

ライセンス: Link先を確認
Bowen Chen, Huan Ling, Xiaohui Zeng, Gao Jun, Ziyue Xu, Sanja Fidler(参考訳) セグメンテーションタスクのためのビデオデータセットの手動ラベリングは非常に時間がかかる。 本稿では,ビデオ中のマスク付きオブジェクトインスタンスをアノテートするためのインタラクティブフレームワークであるScribbleBoxを紹介する。 特に、アノテーションを2つのステップに分割した: トラックされたボックスでオブジェクトに注釈を付け、これらのトラック内にマスクをラベル付けする。 両方のステップで自動化とインタラクションを導入します。 注釈装置が対話的に補正できる少数の制御点を有するパラメトリック曲線を用いて軌道を近似することにより、ボックストラックを効率的に注釈付けする。 当社のアプローチでは,ボックス配置のノイズをわずかに許容するので,トラックボックスのアノテートに要するクリック数はごくわずかである。 セグメンテーションマスクは、時間を通じて効率的に伝播するスクリブルを介して修正される。 我々は過去の作業でアノテーションの効率が大幅に向上したことを示す。 我々のScribbleBoxアプローチは、DAVIS2017で88.92%のJ&Fに達し、ボックストラックあたり9.14クリック、4フレームのスクリブルアノテーションがある。

Manually labeling video datasets for segmentation tasks is extremely time consuming. In this paper, we introduce ScribbleBox, a novel interactive framework for annotating object instances with masks in videos. In particular, we split annotation into two steps: annotating objects with tracked boxes, and labeling masks inside these tracks. We introduce automation and interaction in both steps. Box tracks are annotated efficiently by approximating the trajectory using a parametric curve with a small number of control points which the annotator can interactively correct. Our approach tolerates a modest amount of noise in the box placements, thus typically only a few clicks are needed to annotate tracked boxes to a sufficient accuracy. Segmentation masks are corrected via scribbles which are efficiently propagated through time. We show significant performance gains in annotation efficiency over past work. We show that our ScribbleBox approach reaches 88.92% J&F on DAVIS2017 with 9.14 clicks per box track, and 4 frames of scribble annotation.
翻訳日:2022-10-26 07:36:09 公開日:2020-08-22
# hinglishnlp:hinglish感情検出のための微調整言語モデル

HinglishNLP: Fine-tuned Language Models for Hinglish Sentiment Detection ( http://arxiv.org/abs/2008.09820v1 )

ライセンス: Link先を確認
Meghana Bhange and Nirant Kasliwal(参考訳) code-mixed social media textの感情分析は未調査領域であり続けている。 この作業には、大きなトランスフォーマーモデルの微調整と、ulmfitのようなサンプル効率的なメソッドという、2つの一般的なアプローチが含まれている。 従来の研究は、古典的なML手法による極性検出の有効性を示した。 BERTファミリーのような微調整された汎用言語表現モデルは、古典的な機械学習やアンサンブル手法と共にベンチマークされる。 NB-SVMがRoBERTaを6.2%(相対)F1で上回っていることを示す。 最高の演奏モデルは、0.707のF1を達成する多数投票アンサンブルである。 リーダーボードの提出はコダラブのユーザー名 nirantk で行われ、F1は0.689である。

Sentiment analysis for code-mixed social media text continues to be an under-explored area. This work adds two common approaches: fine-tuning large transformer models and sample efficient methods like ULMFiT. Prior work demonstrates the efficacy of classical ML methods for polarity detection. Fine-tuned general-purpose language representation models, such as those of the BERT family are benchmarked along with classical machine learning and ensemble methods. We show that NB-SVM beats RoBERTa by 6.2% (relative) F1. The best performing model is a majority-vote ensemble which achieves an F1 of 0.707. The leaderboard submission was made under the codalab username nirantk, with F1 of 0.689.
翻訳日:2022-10-26 07:35:53 公開日:2020-08-22