このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200201となっている論文です。

PDF登録状況(公開日: 20200201)

TitleAuthorsAbstract論文公表日・翻訳日
# メジャーな成人ビデオポータルのワークロードを解剖する

Dissecting the Workload of a Major Adult Video Portal ( http://arxiv.org/abs/2002.00115v1 )

ライセンス: Link先を確認
Andreas Grammenos, Aravindh Raman, Timm B\"ottger, Zafar Gilani, Gareth Tyson(参考訳) 成人向けコンテンツはインターネットトラフィックの主要な源となっている。 他の多くのプラットフォームと同様に、これらのサイトはユーザーを惹きつけ、サイトに維持するためにインセンティブを得ている。 このエンゲージメント(例えばレコメンデーションを通じて)は、そのような場所を通る旅を形作る。 大規模なコンテンツ配信ネットワークからのデータを用いて、成人ウェブサイト内のセッションジャーニーを探索する。 2つの視点をとります まず、これらのプラットフォームで利用可能なコーパスを検査します。 次にセッションアクセスパターンについて検討する。 私たちは多くの観察を行い、例えば、ユーザーがしばしばビデオストリーム内でスキップするような配信を最適化するために利用することができる。

Adult content constitutes a major source of Internet traffic. As with many other platforms, these sites are incentivized to engage users and maintain them on the site. This engagement (e.g., through recommendations) shapes the journeys taken through such sites. Using data from a large content delivery network, we explore session journeys within an adult website. We take two perspectives. We first inspect the corpus available on these platforms. Following this, we investigate the session access patterns. We make a number of observations that could be exploited for optimizing delivery, e.g., that users often skip within video streams.
翻訳日:2023-06-05 00:42:52 公開日:2020-02-01
# クラウド環境におけるプライバシー保護のための量子データベースクエリ方式

A Quantum-based Database Query Scheme for Privacy Preservation in Cloud Environment ( http://arxiv.org/abs/2002.00192v1 )

ライセンス: Link先を確認
Wenjie Liu, Peipei Gao, Zhihao Liu, Hanwu Chen, Maojun Zhang(参考訳) クラウドコンピューティングは、データサービスのアウトソーシングを可能にし、最小限の管理労力で高レベルのサービスを提供する、強力で人気のある情報技術パラダイムである。 しかし、機密性の高いクラウドデータにアクセスする場合、データプライバシを保護することは依然として重要な課題である。 プライバシ保存データベースクエリは、ユーザがクエリされたデータ項目の情報を公開することなく、クラウドデータベースからデータ項目を取得することができると同時に、他のデータ項目へのアクセスも制限される。 本研究では,プライバシ保護を実現し,通信の複雑さを軽減するために,クラウド環境におけるプライバシ保護のための量子データベースクエリスキームを開発した。 具体的には、データベースのすべてのデータ項目は、サーバのプライバシを保護するために、まず異なるキーで暗号化され、クライアントのプライバシを保証するために、サーバーは、不必要な転送戦略でこれらの暗号化されたデータ項目をクライアントに送信する必要がある。 さらに、2つのオラクル操作、修正されたGroverイテレーション、特別なオフセット暗号化機構を組み合わせることで、クライアントが望ましいデータアイテムを正しくクエリできることを保証する。 最後に,提案手法の正確性,プライバシ,効率性を検証するため,性能評価を行う。

Cloud computing is a powerful and popular information technology paradigm that enables data service outsourcing and provides higher-level services with minimal management effort. However, it is still a key challenge to protect data privacy when a user accesses the sensitive cloud data. Privacy-preserving database query allows the user to retrieve a data item from the cloud database without revealing the information of the queried data item, meanwhile limiting user's ability to access other ones. In this study, in order to achieve the privacy preservation and reduce the communication complexity, a quantum-based database query scheme for privacy preservation in cloud environment is developed. Specifically, all the data items of the database are firstly encrypted by different keys for protecting server's privacy, and in order to guarantee the clients' privacy, the server is required to transmit all these encrypted data items to the client with the oblivious transfer strategy. Besides, two oracle operations, a modified Grover iteration, and a special offset encryption mechanism are combined together to ensure that the client can correctly query the desirable data item. Finally, performance evaluation is conducted to validate the correctness, privacy, and efficiency of our proposed scheme.
翻訳日:2023-06-05 00:37:16 公開日:2020-02-01
# 単一光子をメッセージキャリアとして用いたマルチパーティ量子シールバイドオークション

Multiparty Quantum Sealed-Bid Auction Using Single Photons as Message Carrier ( http://arxiv.org/abs/2002.00186v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Hai-Bin Wang, Gong-Lin Yuan, Yong Xu, Zhen-Yu Chen, Xing-Xing An, Fu-Gao Ji, Gnim Tchalim Gnitou(参考訳) 本研究では,シングルフォトンを入札のメッセージキャリアとして用いた,新たなマルチパーティ量子シール型オークションプロトコルを提案する。 絡み合った状態(GHZ状態、EPRペアなど)に基づくこれらのプロトコルと比較して、現在のプロトコルはより経済的であり、現在の技術で実現可能である。 オークションの安全性と公正性を保証するため、ePRペアによるデコイ光子チェック技術と改良された後確認機構をそれぞれ導入する。

In this study, a novel multiparty quantum sealed-bid auction protocol using the single photons as the message carrier of bids is proposed, followed by an example of three-party auction. Compared with those protocols based on the entangled states (GHZ state, EPR pairs, etc.), the present protocol is more economic and feasible within present technology. In order to guarantee the security and the fairness of the auction, the decoy photon checking technique and an improved post-confirmation mechanism with EPR pairs are introduced respectively.
翻訳日:2023-06-05 00:36:56 公開日:2020-02-01
# 量子緩和アルゴリズム

Quantum Relief Algorithm ( http://arxiv.org/abs/2002.00184v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Pei-Pei Gao, Wen-Bin Yu, Zhi-Guo Qu, Ching-Nung Yang(参考訳) Reliefアルゴリズムは、Kira と Rendell によって提案された二項分類で使われる特徴選択アルゴリズムであり、その計算複雑性はサンプルの規模と特徴数の両方で顕著に増加する。 複雑性を低減するために、量子救済アルゴリズム(quantum relief algorithm)とも呼ばれる救済アルゴリズムに基づく量子特徴選択アルゴリズムを提案する。 アルゴリズムでは、各サンプルの全ての特徴は \emph{cmp} と \emph{rotation} 演算を通してある量子状態によって重ね合わされ、次に \emph{swap test} と測定は2つのサンプル間の類似性を得るためにこの状態に適用される。 その後、最大類似度を計算することで \emph{Near-hit} と \emph{Near-miss} を取得し、さらに特徴量ベクトル $WT$ を更新して、閾値 $\tau$ で関連する特徴を決定する $WT'$ を得る。 提案アルゴリズムを検証するため,簡単な例でIBM Qに基づくシミュレーション実験を行った。 効率解析により,提案アルゴリズムの計算複雑性は \emph{O(M)} であり,元のReliefアルゴリズムの複雑性は \emph{O(NM)} である。 もちろん、我々の量子リリーフアルゴリズムは古典的アルゴリズムよりも加速が優れている。

Relief algorithm is a feature selection algorithm used in binary classification proposed by Kira and Rendell, and its computational complexity remarkable increases with both the scale of samples and the number of features. In order to reduce the complexity, a quantum feature selection algorithm based on Relief algorithm, also called quantum Relief algorithm, is proposed. In the algorithm, all features of each sample are superposed by a certain quantum state through the \emph{CMP} and \emph{rotation} operations, then the \emph{swap test} and measurement are applied on this state to get the similarity between two samples. After that, \emph{Near-hit} and \emph{Near-miss} are obtained by calculating the maximal similarity, and further applied to update the feature weight vector $WT$ to get $WT'$ that determine the relevant features with the threshold $\tau$. In order to verify our algorithm, a simulation experiment based on IBM Q with a simple example is performed. Efficiency analysis shows the computational complexity of our proposed algorithm is \emph{O(M)}, while the complexity of the original Relief algorithm is \emph{O(NM)}, where $N$ is the number of features for each sample, and $M$ is the size of the sample set. Obviously, our quantum Relief algorithm has superior acceleration than the classical one.
翻訳日:2023-06-05 00:36:46 公開日:2020-02-01
# 多部系におけるl_1-ノルムコヒーレンスのトレードオフ関係

Trade-off relations of l_1-norm coherence for multipartite systems ( http://arxiv.org/abs/2002.00165v1 )

ライセンス: Link先を確認
Zhengmin Jiang, Tinggui Zhang, Xiaofen Huang, Shao-Ming Fei(参考訳) 一般多粒子状態の l_1-ノルムコヒーレンスによって与えられるトレードオフ関係について検討する。 明示的なトレードオフ不等式は、二成分または多成分還元密度行列のコヒーレンスによって与えられる下限で導かれる。 特に純三量子状態の場合、トレードオフの不等式は量子絡み合いの3つの絡み合いによって下界であることが明確に示されている。

We study the trade-off relations given by the l_1-norm coherence of general multipartite states. Explicit trade-off inequalities are derived with lower bounds given by the coherence of either bipartite or multipartite reduced density matrices. In particular, for pure three-qubit states, it is explicitly shown that the trade-off inequality is lower bounded by the three tangle of quantum entanglement.
翻訳日:2023-06-05 00:36:18 公開日:2020-02-01
# 密度行列のハイゼンベルク・ワイル表現に基づく分離性基準

Separability criteria based on Heisenberg-Weyl representation of density matrices ( http://arxiv.org/abs/2002.00164v1 )

ライセンス: Link先を確認
Jingmei Chang, Meiyu Cui, Tinggui Zhang, Shao-Ming Fei(参考訳) 分離性は量子絡み合いの理論において重要な問題である。 ハイゼンベルク・ワイル観測可能な基底による量子状態のブロッホ表現を用いて、二部量子系に対する新たな分離性基準を示す。 この基準は, 絡み合いの検出において, 従来の基準よりも優れていることが示されている。 結果は多部量子状態に一般化される。

Separability is an important problem in theory of quantum entanglement. By using the Bloch representation of quantum states in terms of the Heisenberg-Weyl observable basis, we present a new separability criterion for bipartite quantum systems. It is shown that this criterion can be better than the previous ones in detecting entanglement. The results are generalized to multipartite quantum states.
翻訳日:2023-06-05 00:36:11 公開日:2020-02-01
# 原子スケール量子導体の熱力学的不確かさ関係

Thermodynamic uncertainty relation in atomic-scale quantum conductors ( http://arxiv.org/abs/2002.00284v1 )

ライセンス: Link先を確認
Hava Meira Friedman, Bijay Kumar Agarwalla, Ofir Shein-Lumbroso, Oren Tal, and Dvira Segal(参考訳) 熱力学的不確実性関係(TUR)は、電子輸送過程が量子コヒーレントで伝送確率が一定である(エネルギーと電圧に依存しない)場合にナノスケールの電子伝導体に保持される。 我々は、金原子スケール接合における電子電流とそのノイズの測定を行い、現実的な量子コヒーレント導体における電子輸送に対するTURの有効性を確認する。 さらに,非相互作用電子コヒーレントダイナミクスからの逸脱を識別するために,電流とその雑音をtur比として提示することが有効であることを示す。

The thermodynamic uncertainty relation (TUR) is expected to hold in nanoscale electronic conductors, when the electron transport process is quantum coherent and the transmission probability is constant (energy and voltage independent). We present measurements of the electron current and its noise in gold atomic-scale junctions and confirm the validity of the TUR for electron transport in realistic quantum coherent conductors. Furthermore, we show that it is beneficial to present the current and its noise as a TUR ratio in order to identify deviations from noninteracting-electron coherent dynamics.
翻訳日:2023-06-05 00:27:05 公開日:2020-02-01
# スマートコントラクトベースの駐車のためのオープンソースソリューション

An Open Source Solution for Smart Contract-based Parking ( http://arxiv.org/abs/2002.05663v1 )

ライセンス: Link先を確認
Nikolay Buldakov, Timur Khalilev, Salvatore Distefano and Manuel Mazzara(参考訳) 本稿では,高度都市部におけるスマートパーキングのオープンソースソリューションについて論じる。 ドメインの専門家とインタビューを行い、ユーザストーリーを定義し、システムアーキテクチャをケーススタディとして提案してきた。 我々のソリューションは、駐車スペースの独立所有者を1つの統合システムに統合し、スマートシティにおける駐車状況を改善する。 このようなシステムの利用は、駐車プロセスの複数の俳優の信頼と透明性の問題を提起する。 そこで我々は,敏感な関係とプロセスを透過的かつ分散したスマートコントラクトにカプセル化することで,信頼をもたらすスマートコントラクトベースのソリューションを提案する。

This paper discusses an open source solution to smart-parking in highly urbanized areas. Interviews have been conducted with domain experts, user stories defined and a system architecture has been proposed with a case study. Our solution allows independent owners of parking space to be integrated into one unified system, that facilitates the parking situation in a smart city. The utilization of such a system raises the issues of trust and transparency among several actors of the parking process. In order to tackle those, we propose a smart contract-based solution, that brings in trust by encapsulating sensitive relations and processes into transparent and distributed smart contracts.
翻訳日:2023-06-05 00:19:19 公開日:2020-02-01
# 制約付きnp最適化問題に対する量子近似アルゴリズム

Quantum approximate algorithm for NP optimization problems with constraints ( http://arxiv.org/abs/2002.00943v1 )

ライセンス: Link先を確認
Yue Ruan, Samuel Marsh, Xilin Xue, Xi Li, Zhihao Liu, and Jingbo Wang(参考訳) 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、組合せ最適化問題の近似解を求めるアルゴリズムフレームワークであり、量子断熱アルゴリズム (quantum adiabatic algorithm,qaa) への近似から導かれる。 QAOA や QAA の文脈における制約を伴う組合せ最適化問題の解決には、問題の制約をスキームにエンコードする方法を見つける必要がある。 本稿では,異なる制約型を線形等式,線形不等式,任意の形式に形式化する。 そこで本研究では,NP組合せ最適化問題の解法としてQAOAフレームワークに適合する制約符号化方式を提案する。 実装されたアルゴリズムは、よく知られたNP最適化問題の様々な事例のテスト結果により提案手法の有効性と効率を示す。 我々の研究は、QAOAの文脈において、様々な種類の制約を伴う組合せ問題に対する高品質な近似解を見つけるための一般化された枠組みにつながると論じる。

The Quantum Approximate Optimization Algorithm (QAOA) is an algorithmic framework for finding approximate solutions to combinatorial optimization problems, derived from an approximation to the Quantum Adiabatic Algorithm (QAA). In solving combinatorial optimization problems with constraints in the context of QAOA or QAA, one needs to find a way to encode problem constraints into the scheme. In this paper, we formalize different constraint types to linear equalities, linear inequalities, and arbitrary form. Based on this, we propose constraint-encoding schemes well-fitting into the QAOA framework for solving NP combinatorial optimization problems. The implemented algorithms demonstrate the effectiveness and efficiency of the proposed scheme by the testing results of varied instances of some well-known NP optimization problems. We argue that our work leads to a generalized framework for finding, in the context of QAOA, high-quality approximate solutions to combinatorial problems with various types of constraints.
翻訳日:2023-06-05 00:18:32 公開日:2020-02-01
# 熱力学的に効率的な局所計算と量子メモリ圧縮の非効率性

Thermodynamically-Efficient Local Computation and the Inefficiency of Quantum Memory Compression ( http://arxiv.org/abs/2001.02258v3 )

ライセンス: Link先を確認
Samuel P. Loomis and James P. Crutchfield(参考訳) モジュラリティの散逸は、局所的に実装された計算が、ランダウアーが熱力学計算に縛り付けられているものよりもコストがかかることを示す。 効率的な局所計算のための一般的な定理を確立し、局所演算がモジュラリティコストをゼロにするために必要な条件を与える。 熱力学的に生成する確率過程に適用すると、古典的ジェネレータがレトロディクションを満たす場合に限り効率が良いという予想が証明される。 量子メモリ圧縮を利用する量子シミュレータは、熱力学的に効率的ではない。

Modularity dissipation identifies how locally-implemented computation entails costs beyond those required by Landauer's bound on thermodynamic computing. We establish a general theorem for efficient local computation, giving the necessary and sufficient conditions for a local operation to have zero modularity cost. Applied to thermodynamically-generating stochastic processes it confirms a conjecture that classical generators are efficient if and only if they satisfy retrodiction, which places minimal memory requirements on the generator. This extends immediately to quantum computation: Any quantum simulator that employs quantum memory compression cannot be thermodynamically efficient.
翻訳日:2023-01-13 21:35:15 公開日:2020-02-01
# コヒーレンス光学によるフォトニック・ド・ブロイ波の決定論的制御:コヒーレンス・ド・ブロイ波

Deterministic control of photonic de Broglie waves using coherence optics: Coherence de Broglie waves ( http://arxiv.org/abs/2001.06913v4 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 量子力学において、フォトニック・ド・ブロイ波は粒子と光の波動の性質の相補性を満たす量子力学のユニークな性質として理解されており、フォトニック・ド・ブロイ波の波長はビームスプリッターに作用する絡み合った光子の数に反比例している。 ビームスプリッタ上の光子束の非古典的特徴の心臓は、コヒーレンス光学の純粋な波動特性(arXiv:1911.07174v2)を用いて新たに解釈され、非条件で確保された古典的鍵分布(arXiv:1807.04233v3)への道を開いた。 ここでは、Mach-Zehnder干渉計に基づく決定論的フォトニック・ド・ブロイ波は、基礎物理学とコヒーレンス量子メトロジーの潜在的な応用の両方のコヒーレンス系において研究される。

In quantum mechanics, photonic de Broglie waves have been understood as a unique property of quantum mechanics satisfying the complementarity between particle and wave natures of light, where the photonic de Broglie wavelength is inversely proportional to the number of entangled photons acting on a beam splitter. Very recently, the heart of nonclassical feature of photon bunching on a beam splitter was newly interpreted using pure wave nature of coherence optics [arXiv:1911.07174v2], paving a road to unconditionally secured classical key distribution [arXiv:1807.04233v3]. Here, Mach-Zehnder interferometer-based deterministic photonic de Broglie waves are studied in a coherence regime for both fundamental physics and potential applications of coherence-quantum metrology.
翻訳日:2023-01-10 05:20:17 公開日:2020-02-01
# 教師・教師環境下における深層ニューラルネットワーク分類器の収束率

Sharp Rate of Convergence for Deep Neural Network Classifiers under the Teacher-Student Setting ( http://arxiv.org/abs/2001.06892v2 )

ライセンス: Link先を確認
Tianyang Hu, Zuofeng Shang, Guang Cheng(参考訳) ニューラルネットワークで構築された分類器は、コンピュータビジョンによる顔画像のような大規模な高次元データを処理しているが、従来の統計手法は悲惨に失敗することが多い。 本稿では,高次元分類におけるこの経験的成功を理解するために,過剰リスクの収束率を導出する。 特に、ベイズ分類器をReLUニューラルネットワークとして表現することを前提とした教師学生フレームワークが提案されている。 この設定では、0-1損失またはヒンジ損失のいずれかを用いて訓練された分類器に対して、鋭い収束率、すなわち$\tilde{o}_d(n^{-2/3})$を得る。 この値は、データ分布が分離可能であれば$\tilde{O}_d(n^{-1})$にさらに改善することができる。 ここで、$n$ はサンプルサイズを表す。 興味深い観察は、データ次元が上記のレートで$\log(n)$項にしか寄与しないことである。 これは、深層ニューラルネットワークの高次元分類における経験的成功、特に構造化データに対する一つの理論的説明を提供するかもしれない。

Classifiers built with neural networks handle large-scale high dimensional data, such as facial images from computer vision, extremely well while traditional statistical methods often fail miserably. In this paper, we attempt to understand this empirical success in high dimensional classification by deriving the convergence rates of excess risk. In particular, a teacher-student framework is proposed that assumes the Bayes classifier to be expressed as ReLU neural networks. In this setup, we obtain a sharp rate of convergence, i.e., $\tilde{O}_d(n^{-2/3})$, for classifiers trained using either 0-1 loss or hinge loss. This rate can be further improved to $\tilde{O}_d(n^{-1})$ when the data distribution is separable. Here, $n$ denotes the sample size. An interesting observation is that the data dimension only contributes to the $\log(n)$ term in the above rates. This may provide one theoretical explanation for the empirical successes of deep neural networks in high dimensional classification, particularly for structured data.
翻訳日:2023-01-08 10:02:27 公開日:2020-02-01
# 量子化グラディエントを用いたシャーパー第一次逆数に向けて

Towards Sharper First-Order Adversary with Quantized Gradients ( http://arxiv.org/abs/2002.02372v1 )

ライセンス: Link先を確認
Zhuanghua Liu and Ivor W. Tsang(参考訳) 機械学習とデータマイニングタスクの幅広い分野でDeep Neural Networks(DNN)が大きな成功を収めているにも関わらず、最近の研究によると、この強力なツールは悪意のある敵の例に影響を受けやすい。 これまで、敵の訓練は敵の攻撃に対する最も成功した防御であった。 対向ロバスト性を高めるために、DNNは、一階法で生成された良性例と逆性例の組み合わせで訓練することができる。 しかし、最先端の1次攻撃では、符号勾配を持つ逆例は各勾配成分の符号情報を保持するが、成分間の相対等級は捨てる。 本研究では,符号勾配を量子化勾配に置き換える。 勾配量子化は符号情報を保存するだけでなく、成分間の相対等級も保持する。 実験では、量子化グラデーションを持つホワイトボックスの1次攻撃が、複数のデータセット上の符号勾配で変種よりも優れていた。 特に、我々のBLOB\_QG攻撃は、MNIST Challengeの秘密MNISTモデルで8.32$%の精度を達成し、ホワイトボックス攻撃のリーダーボード上での他の方法よりも優れています。

Despite the huge success of Deep Neural Networks (DNNs) in a wide spectrum of machine learning and data mining tasks, recent research shows that this powerful tool is susceptible to maliciously crafted adversarial examples. Up until now, adversarial training has been the most successful defense against adversarial attacks. To increase adversarial robustness, a DNN can be trained with a combination of benign and adversarial examples generated by first-order methods. However, in state-of-the-art first-order attacks, adversarial examples with sign gradients retain the sign information of each gradient component but discard the relative magnitude between components. In this work, we replace sign gradients with quantized gradients. Gradient quantization not only preserves the sign information, but also keeps the relative magnitude between components. Experiments show white-box first-order attacks with quantized gradients outperform their variants with sign gradients on multiple datasets. Notably, our BLOB\_QG attack achieves an accuracy of $88.32\%$ on the secret MNIST model from the MNIST Challenge and it outperforms all other methods on the leaderboard of white-box attacks.
翻訳日:2023-01-05 01:21:25 公開日:2020-02-01
# マルチモーダル音楽情報検索:ビジュアルコンピューティングによる音声分析の強化と音楽ビデオ解析の改善

Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis ( http://arxiv.org/abs/2002.00251v1 )

ライセンス: Link先を確認
Alexander Schindler(参考訳) この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。 この論文は、音楽ビデオの視覚層が提供する情報と、それがMIR研究領域のタスクの強化と改善にどのように活用できるかに焦点を当てている。 本研究の主な仮説は、音を聴くことなく、視覚コンテンツだけでジャンルやテーマなどのある種の表現的カテゴリーを認識できるという観察に基づくものである。 これは、気分やジャンルを表現するために使われる視覚言語が存在するという仮説に繋がる。 結果として、この視覚情報は音楽関連であり、音楽ジャンル分類や気分認識といった対応するmirタスクに有益であるべきであると結論付けることができる。 様々なmirタスクにおける視覚情報の抽出とその応用に焦点を当てた総合的な実験および評価を行った。 カスタムデータセットが作成され、音楽関連の情報を表現できるビジュアル機能の開発とテストに適しています。 評価は、低レベルの視覚特徴から、深い畳み込みニューラルネットワークによって得られた高レベルの概念まで幅広い。 さらに、リズミカルな視覚パターンをキャプチャする新しい視覚機能が導入されている。 これらの実験の全てにおいて、オーディオベースの結果は、視覚的およびオーディオ視覚的アプローチのベンチマークとなる。 実験は,mirタスクのアーティスト識別,音楽ジャンル分類,クロスジェネレーション分類の3つを対象に行った。 実験によれば、視覚概念検出から得られる高レベルの意味情報を活用した視聴覚アプローチは、オーディオのみのジャンル分類精度を16.43%上回っている。

This thesis combines audio-analysis with computer vision to approach Music Information Retrieval (MIR) tasks from a multi-modal perspective. This thesis focuses on the information provided by the visual layer of music videos and how it can be harnessed to augment and improve tasks of the MIR research domain. The main hypothesis of this work is based on the observation that certain expressive categories such as genre or theme can be recognized on the basis of the visual content alone, without the sound being heard. This leads to the hypothesis that there exists a visual language that is used to express mood or genre. In a further consequence it can be concluded that this visual information is music related and thus should be beneficial for the corresponding MIR tasks such as music genre classification or mood recognition. A series of comprehensive experiments and evaluations are conducted which are focused on the extraction of visual information and its application in different MIR tasks. A custom dataset is created, suitable to develop and test visual features which are able to represent music related information. Evaluations range from low-level visual features to high-level concepts retrieved by means of Deep Convolutional Neural Networks. Additionally, new visual features are introduced capturing rhythmic visual patterns. In all of these experiments the audio-based results serve as benchmark for the visual and audio-visual approaches. The experiments are conducted for three MIR tasks Artist Identification, Music Genre Classification and Cross-Genre Classification. Experiments show that an audio-visual approach harnessing high-level semantic information gained from visual concept detection, outperforms audio-only genre-classification accuracy by 16.43%.
翻訳日:2023-01-05 01:20:42 公開日:2020-02-01
# 半教師付き学習を用いたマルチチャネル音響モデルのための完全学習可能なフロントエンド

Fully Learnable Front-End for Multi-Channel Acoustic Modeling using Semi-Supervised Learning ( http://arxiv.org/abs/2002.00125v1 )

ライセンス: Link先を確認
Sanna Wager, Aparna Khare, Minhua Wu, Kenichi Kumatani, Shiva Sundaram(参考訳) 本研究では,遠距離場自動音声認識(ASR)のための完全学習可能なマルチチャンネル音響モデルを学習するための教師学生訓練パラダイムについて検討した。 ビームフォーミング音声で学習した大規模オフライン教師モデルを用いて,音声認識システムで使用する簡易なマルチチャネル学生音響モデルを訓練した。 学生は,マルチチャネル特徴抽出層と上位分類層の両方を教師モデルのロジットを用いて共同で訓練した。 実験では,600時間以上の書き起こしデータをトレーニングしたベースラインモデルと比較して,1800時間以上の書き起こしデータを用いることで,単語エラー率(WER)の約27.3%の削減が達成された。 また、L2損失を用いたビームフォーミング対数メルフィルタバンクエネルギー(LFBE)を出力するマルチチャネルフロントエンドの事前学習の利点についても検討した。 その結果, 前端のビームフォーマとメルフィルタバンク係数を直接初期化したマルチチャネルモデルと比較して,単語誤り率を10.7%向上させることがわかった。 最後に,プレトレーニングと教員養成を組み合わせることで,本研究のベースラインと比較して31%の削減が可能となった。

In this work, we investigated the teacher-student training paradigm to train a fully learnable multi-channel acoustic model for far-field automatic speech recognition (ASR). Using a large offline teacher model trained on beamformed audio, we trained a simpler multi-channel student acoustic model used in the speech recognition system. For the student, both multi-channel feature extraction layers and the higher classification layers were jointly trained using the logits from the teacher model. In our experiments, compared to a baseline model trained on about 600 hours of transcribed data, a relative word-error rate (WER) reduction of about 27.3% was achieved when using an additional 1800 hours of untranscribed data. We also investigated the benefit of pre-training the multi-channel front end to output the beamformed log-mel filter bank energies (LFBE) using L2 loss. We find that pre-training improves the word error rate by 10.7% when compared to a multi-channel model directly initialized with a beamformer and mel-filter bank coefficients for the front end. Finally, combining pre-training and teacher-student training produces a WER reduction of 31% compared to our baseline.
翻訳日:2023-01-05 01:20:18 公開日:2020-02-01
# 逆問題の深い合成正則化

Deep synthesis regularization of inverse problems ( http://arxiv.org/abs/2002.00155v1 )

ライセンス: Link先を確認
Daniel Obmann, Johannes Schwab and Markus Haltmeier(参考訳) 近年,逆問題に対する効率的な深層学習法が数多く開発され,優れた数値性能を示している。 しかし、これらの深層学習手法には、再建保証の形での確固たる理論的基盤が欠落している。 対照的に、凸変動やフレームベース正規化のような古典的再構成法では、理論収束と収束率の結果が十分に確立されている。 本稿では,この2つの世界のギャップを埋める非線形合成演算子としてニューラルネットワークを用いた深部合成正規化(DESYRE)を提案する。 提案手法は,利用可能なトレーニングデータに対して十分に調整可能であることによる深層学習の利点を活用し,一方,強固な数学的基盤を持つ。 提案した深部合成正則化に対する収束率を用いた完全収束解析を提案する。 本稿では,分析合成シーケンスの一部として,適切な学習戦略とともに合成ネットワークを構築するための戦略を提案する。 数値的な結果は,我々のアプローチの妥当性を示している。

Recently, a large number of efficient deep learning methods for solving inverse problems have been developed and show outstanding numerical performance. For these deep learning methods, however, a solid theoretical foundation in the form of reconstruction guarantees is missing. In contrast, for classical reconstruction methods, such as convex variational and frame-based regularization, theoretical convergence and convergence rate results are well established. In this paper, we introduce deep synthesis regularization (DESYRE) using neural networks as nonlinear synthesis operator bridging the gap between these two worlds. The proposed method allows to exploit the deep learning benefits of being well adjustable to available training data and on the other hand comes with a solid mathematical foundation. We present a complete convergence analysis with convergence rates for the proposed deep synthesis regularization. We present a strategy for constructing a synthesis network as part of an analysis-synthesis sequence together with an appropriate training strategy. Numerical results show the plausibility of our approach.
翻訳日:2023-01-05 01:19:59 公開日:2020-02-01
# 被告人としての公的機関-オークデン事件後、ベイジアンネットワークを利用して不利な主張が成功する可能性を決定する

Public Authorities as Defendants: Using Bayesian Networks to determine the Likelihood of Success for Negligence claims in the wake of Oakden ( http://arxiv.org/abs/2002.05664v1 )

ライセンス: Link先を確認
Scott McLachlan, Evangelia Kyrimi, and Norman Fenton(参考訳) いくつかの国は現在、高齢者ケア分野における無視、質の悪いケア、虐待の問題を調査中である。 多くの場合、高齢者ケア提供者の免許と監視を行う州であり、最も脆弱な人々が世話する施設の多くを州が運営しているため、深刻な利害対立を引き起こすことが多い。 ケアの基準によって問題が発生すると、多くの州は深い犯罪者と見なされ、高価値な訴訟の標的となる。 本論文は,オーストラリアにおける英国法伝統に基づく1つの司法管轄区域の事例と状況について考察し,公的な権威を有する被告に対して過失債権を提起する市民原告の成功する確率を決定するベイズソリューションを提案する。 ケース監査データに基づいてトレーニングされたベイズネットワークの使用は、原告訴訟がすべての要求を満たしたとしても、成功は保証されないことを示している。 これらの事件の5分の1程度で、原告は被告としての公的権威に対して成功する。

Several countries are currently investigating issues of neglect, poor quality care and abuse in the aged care sector. In most cases it is the State who license and monitor aged care providers, which frequently introduces a serious conflict of interest because the State also operate many of the facilities where our most vulnerable peoples are cared for. Where issues are raised with the standard of care being provided, the State are seen by many as a deep-pockets defendant and become the target of high-value lawsuits. This paper draws on cases and circumstances from one jurisdiction based on the English legal tradition, Australia, and proposes a Bayesian solution capable of determining probability for success for citizen plaintiffs who bring negligence claims against a public authority defendant. Use of a Bayesian network trained on case audit data shows that even when the plaintiff case meets all requirements for a successful negligence litigation, success is not often assured. Only in around one-fifth of these cases does the plaintiff succeed against a public authority as defendant.
翻訳日:2023-01-05 01:14:52 公開日:2020-02-01
# l2英語音声における非カテゴリー発見に基づく深部音韻後部グラム

Deep segmental phonetic posterior-grams based discovery of non-categories in L2 English speech ( http://arxiv.org/abs/2002.00205v1 )

ライセンス: Link先を確認
Xu Li, Xixin Wu, Xunying Liu, Helen Meng(参考訳) 第二言語(L2)音声は、しばしばネイティブ、電話のカテゴリーでラベル付けされる。 しかし、多くの場合、L2セグメントが属するカテゴリ電話を決定することは困難である。 これらのセグメントは非カテゴリと見なされる。 Mispronunciation Detection and Diagnosis (MDD) の既存のアプローチは、電話カテゴリが挿入、削除、置換されるという分類上の誤りにのみ関係している。 しかし、非分類的な誤りは考慮されない。 これらの非分類的誤りをモデル化するために、この研究は、分類的電話セットを拡張する非分類的パターンを探究することを目的としている。 音声のセグメントレベル情報を表現するために,音声セグメント分類器をsppg(segmental phonetic posterior-gram)として適用する。 そして、複数のピークを持つSPPGを探すことによって、非カテゴリを探索する。 ベースラインシステムと比較して,本手法はより非分類パターンを探索し,また知覚的実験結果から,2つの異なる測定方法により,探索された非分類が7.3%,7.5%の混乱度でより正確であることが示された。 最後に、これらの非カテゴリの背後にある理由を予め分析する。

Second language (L2) speech is often labeled with the native, phone categories. However, in many cases, it is difficult to decide on a categorical phone that an L2 segment belongs to. These segments are regarded as non-categories. Most existing approaches for Mispronunciation Detection and Diagnosis (MDD) are only concerned with categorical errors, i.e. a phone category is inserted, deleted or substituted by another. However, non-categorical errors are not considered. To model these non-categorical errors, this work aims at exploring non-categorical patterns to extend the categorical phone set. We apply a phonetic segment classifier to generate segmental phonetic posterior-grams (SPPGs) to represent phone segment-level information. And then we explore the non-categories by looking for the SPPGs with more than one peak. Compared with the baseline system, this approach explores more non-categorical patterns, and also perceptual experimental results show that the explored non-categories are more accurate with increased confusion degree by 7.3% and 7.5% under two different measures. Finally, we preliminarily analyze the reason behind those non-categories.
翻訳日:2023-01-05 01:14:12 公開日:2020-02-01
# 圧縮減圧ネットワークを用いた大孔画像インパインティング

Large Hole Image Inpainting With Compress-Decompression Network ( http://arxiv.org/abs/2002.00199v1 )

ライセンス: Link先を確認
Zhenghang Wu, Yidong Cui(参考訳) 画像のインペイント技術は、画像にピクセルの欠如をパッチできる。 既存の方法では、破損した画像を修復するための畳み込みニューラルネットワークが提案されている。 ネットワークは、欠落したピクセル周辺の有効なピクセルに焦点を合わせ、エンコーダ・デコーダ構造を使って貴重な情報を抽出し、その情報を使って空白を修復する。 しかし、欠落した部分が有用情報を提供するには大きすぎる場合、その結果はぼやけ、色混合、オブジェクトの混乱が存在する。 大規模ホール画像にパッチを当てるため,既存手法について検討し,圧縮圧縮ネットワークという新しいネットワークを提案する。 圧縮ネットワークは、ダウンサンプル画像の描画および生成の責任を負う。 圧縮ネットワークは、ダウンサンプル画像を元の解像度に拡張する責任を負う。 本稿では,残差ネットワークを用いた圧縮ネットワークを構築し,超解像ネットワークよりも優れた画像拡張のためのテクスチャ選択アルゴリズムを提案する。 我々はplaces2およびcelebaデータセット上でモデルを評価し,類似度比を指標として用いる。 その結果、インペイントタスクに多くの競合がある場合、モデルの性能が向上することがわかった。

Image inpainting technology can patch images with missing pixels. Existing methods propose convolutional neural networks to repair corrupted images. The networks focus on the valid pixels around the missing pixels, use the encoder-decoder structure to extract valuable information, and use the information to fix the vacancy. However, if the missing part is too large to provide useful information, the result will exist blur, color mixing, and object confusion. In order to patch the large hole image, we study the existing approaches and propose a new network, the compression-decompression network. The compression network takes responsibility for inpainting and generating a down-sample image. The decompression network takes responsibility for extending the down-sample image into the original resolution. We construct the compression network with the residual network and propose a similar texture selection algorithm to extend the image that is better than using the super-resolution network. We evaluate our model over Places2 and CelebA data set and use the similarity ratio as the metric. The result shows that our model has better performance when the inpainting task has many conflicts.
翻訳日:2023-01-05 01:13:32 公開日:2020-02-01
# 自動運転におけるディープマルチモーダル物体検出の不確かさの活用

Leveraging Uncertainties for Deep Multi-modal Object Detection in Autonomous Driving ( http://arxiv.org/abs/2002.00216v1 )

ライセンス: Link先を確認
Di Feng, Yifan Cao, Lars Rosenbaum, Fabian Timm, Klaus Dietmayer(参考訳) この研究は、LiDAR点雲とRGBカメラ画像を組み合わせて、堅牢で正確な3Dオブジェクト検出を行う確率論的ディープニューラルネットワークを提案する。 分類および回帰作業における不確実性を明示的にモデル化し、不確実性を利用してサンプリング機構を介して核融合ネットワークを訓練する。 本手法を3つのデータセット上で検証し,実世界の運転シナリオに挑戦した。 実験結果から、予測された不確実性は、人間の専門家によるラベル付けの難しさのような複雑な環境不確実性を反映していることが示された。 また,本手法はベースライン法と比較して平均精度を最大7%向上させることを示した。 センサが時間的にずれている場合、サンプリング方法は平均精度を最大20%改善し、ノイズの多いセンサ入力に対して高い堅牢性を示す。

This work presents a probabilistic deep neural network that combines LiDAR point clouds and RGB camera images for robust, accurate 3D object detection. We explicitly model uncertainties in the classification and regression tasks, and leverage uncertainties to train the fusion network via a sampling mechanism. We validate our method on three datasets with challenging real-world driving scenarios. Experimental results show that the predicted uncertainties reflect complex environmental uncertainty like difficulties of a human expert to label objects. The results also show that our method consistently improves the Average Precision by up to 7% compared to the baseline method. When sensors are temporally misaligned, the sampling method improves the Average Precision by up to 20%, showing its high robustness against noisy sensor inputs.
翻訳日:2023-01-05 01:13:14 公開日:2020-02-01
# gpu上に実装したrgb-dデータのフォアグラウンドオブジェクトセグメンテーション

Foreground object segmentation in RGB-D data implemented on GPU ( http://arxiv.org/abs/2002.00250v1 )

ライセンス: Link先を確認
Piotr Janus, Tomasz Kryjak, Marek Gorgon(参考訳) 本稿では,rgb-dデータサポート用に改良されたgaussian mixed model (gmm) とpixel based adaptive segmenter (pbas) という2つのフォアグラウンドオブジェクトセグメンテーションアルゴリズムのgpu実装について述べる。 色(RGB)と深度(D)データの同時使用により、特に色カモフラージュや照明の変化、影の発生などにおいて、セグメンテーションの精度が向上する。 組み込みNVIDIA Jetson TX2(Maxwellアーキテクチャ)、モバイルNVIDIA GeForce GTX 1050m(Pascalアーキテクチャ)、効率的なNVIDIA RTX 2070(Turingアーキテクチャ)の3つのGPUが計算を高速化するために使用された。 先行した作品に匹敵するセグメンテーション精度が得られた。 さらに、gpuプラットフォームを使用することで、リアルタイム画像処理が可能になる。 さらにこのシステムは、IntelのRealSense D415とD435という2つのRGB-Dセンサーで動作するように適応されている。

This paper presents a GPU implementation of two foreground object segmentation algorithms: Gaussian Mixture Model (GMM) and Pixel Based Adaptive Segmenter (PBAS) modified for RGB-D data support. The simultaneous use of colour (RGB) and depth (D) data allows to improve segmentation accuracy, especially in case of colour camouflage, illumination changes and occurrence of shadows. Three GPUs were used to accelerate calculations: embedded NVIDIA Jetson TX2 (Maxwell architecture), mobile NVIDIA GeForce GTX 1050m (Pascal architecture) and efficient NVIDIA RTX 2070 (Turing architecture). Segmentation accuracy comparable to previously published works was obtained. Moreover, the use of a GPU platform allowed to get real-time image processing. In addition, the system has been adapted to work with two RGB-D sensors: RealSense D415 and D435 from Intel.
翻訳日:2023-01-05 01:13:00 公開日:2020-02-01
# 繰り返しニューラルネットワークに対するモデル抽出攻撃

Model Extraction Attacks against Recurrent Neural Networks ( http://arxiv.org/abs/2002.00123v1 )

ライセンス: Link先を確認
Tatsuya Takemura and Naoto Yanai and Toru Fujiwara(参考訳) モデル抽出攻撃は、敵がターゲットモデルと同等の性能を持つ新しいモデルを得る攻撃の一種であり、ターゲットモデルへのクエリアクセスを効率的に行うことにより、ターゲットモデルよりも少ないデータセットと計算資源を得る。 既存の研究は単純なディープニューラルネットワーク(DNN)のみを扱っており、例えばモデル抽出攻撃の標的として3つの層しか扱っていないため、時系列データを扱う上でのリカレントニューラルネットワーク(RNN)の有効性を意識していない。 本研究では,rnnに対するモデル抽出攻撃の脅威について考察した。 より複雑で強力なRNNであるLong Short-term memory(LSTM)から、より高精度なモデルが単純なRNNで抽出できるかどうかを論じる。 具体的には、以下の問題に取り組む。 まず、画像認識などの分類問題の場合、LSTMモデルから最終的な出力のないRNNモデルの抽出を、そのシーケンスの中間の出力を利用して行う。 次に、回帰問題の場合です。 天気予報のように 新たに損失関数を 設定した新たな攻撃が 提示される。 rnnとlstmに対するモデル抽出攻撃実験を行い,公開学術データセットを用いてトレーニングを行った。 次に、特に損失関数と、ターゲットモデルとは異なるより複雑なアーキテクチャを設定することにより、精度の高いモデルを効率的に抽出できることを示す。

Model extraction attacks are a kind of attacks in which an adversary obtains a new model, whose performance is equivalent to that of a target model, via query access to the target model efficiently, i.e., fewer datasets and computational resources than those of the target model. Existing works have dealt with only simple deep neural networks (DNNs), e.g., only three layers, as targets of model extraction attacks, and hence are not aware of the effectiveness of recurrent neural networks (RNNs) in dealing with time-series data. In this work, we shed light on the threats of model extraction attacks against RNNs. We discuss whether a model with a higher accuracy can be extracted with a simple RNN from a long short-term memory (LSTM), which is a more complicated and powerful RNN. Specifically, we tackle the following problems. First, in a case of a classification problem, such as image recognition, extraction of an RNN model without final outputs from an LSTM model is presented by utilizing outputs halfway through the sequence. Next, in a case of a regression problem. such as in weather forecasting, a new attack by newly configuring a loss function is presented. We conduct experiments on our model extraction attacks against an RNN and an LSTM trained with publicly available academic datasets. We then show that a model with a higher accuracy can be extracted efficiently, especially through configuring a loss function and a more complex architecture different from the target model.
翻訳日:2023-01-05 01:12:42 公開日:2020-02-01
# 非同期確率近似と$Q$-Learningの有限時間解析

Finite-Time Analysis of Asynchronous Stochastic Approximation and $Q$-Learning ( http://arxiv.org/abs/2002.00260v1 )

ライセンス: Link先を確認
Guannan Qu, Adam Wierman(参考訳) 我々は、重み付き無限ノルムの縮約演算子を特徴とする一般的な非同期確率近似(SA)スキームを考察し、その有限時間収束率を1つの軌道上で証明する。 さらに、結果を非同期の$q$-learningに特化します。 結果として得られるバウンドは、同期$q$-learningの最もシャープなバウンドと一致し、非同期$q$-learningのこれまでの既知のバウンドよりも改善される。

We consider a general asynchronous Stochastic Approximation (SA) scheme featuring a weighted infinity-norm contractive operator, and prove a bound on its finite-time convergence rate on a single trajectory. Additionally, we specialize the result to asynchronous $Q$-learning. The resulting bound matches the sharpest available bound for synchronous $Q$-learning, and improves over previous known bounds for asynchronous $Q$-learning.
翻訳日:2023-01-05 01:12:05 公開日:2020-02-01
# ファウショット学習のための非対称分布測定

Asymmetric Distribution Measure for Few-shot Learning ( http://arxiv.org/abs/2002.00153v1 )

ライセンス: Link先を確認
Wenbin Li, Lei Wang, Jing Huo, Yinghuan Shi, Yang Gao, and Jiebo Luo(参考訳) メトリックベースの少数ショット画像分類の中核となる考え方は、クエリイメージとサポートクラスの関係を直接測定して、転送可能な特徴埋め込みを学習することである。 従来の研究は主に画像レベルの特徴表現に焦点を合わせており、サンプルの不足によりクラスの分布を効果的に推定することはできない。 最近の研究では、ローカルディスクリプタベースの表現は、画像レベルの表現よりもリッチな表現を達成できることが示されている。 しかしながら、このような研究は、クエリ画像とサポートクラスの関係を測定するために、より効果的なインスタンスレベルの計量、特に対称メトリックに基づいている。 問合せ画像とサポートクラスとの自然な非対称関係を考えると、非対称測度はメートル法に基づく少数ショット学習により適していると論じる。 そこで本稿では,クエリとクラスの多変量分布間の局所的および大域的非対称な共同測度を計算することにより,一括学習のための新しい非対称分布測度(ADM)ネットワークを提案する。 さらに,タスク対応のコントラスト尺度戦略(CMS)を提案し,測定関数をさらに強化した。 人気の miniimagenet と tieredimagenet では、それぞれ$5$-way の 1-shot タスクで、最先端のメソッドよりも$3.02\%$ と $1.56\%$ のゲインを達成しています。

The core idea of metric-based few-shot image classification is to directly measure the relations between query images and support classes to learn transferable feature embeddings. Previous work mainly focuses on image-level feature representations, which actually cannot effectively estimate a class's distribution due to the scarcity of samples. Some recent work shows that local descriptor based representations can achieve richer representations than image-level based representations. However, such works are still based on a less effective instance-level metric, especially a symmetric metric, to measure the relations between query images and support classes. Given the natural asymmetric relation between a query image and a support class, we argue that an asymmetric measure is more suitable for metric-based few-shot learning. To that end, we propose a novel Asymmetric Distribution Measure (ADM) network for few-shot learning by calculating a joint local and global asymmetric measure between two multivariate local distributions of queries and classes. Moreover, a task-aware Contrastive Measure Strategy (CMS) is proposed to further enhance the measure function. On popular miniImageNet and tieredImageNet, we achieve $3.02\%$ and $1.56\%$ gains over the state-of-the-art method on the $5$-way $1$-shot task, respectively, validating our innovative design of asymmetric distribution measures for few-shot learning.
翻訳日:2023-01-05 01:06:08 公開日:2020-02-01
# リッチおよびフェアセマンティック抽出によるアンバイアスなシーングラフ生成

Unbiased Scene Graph Generation via Rich and Fair Semantic Extraction ( http://arxiv.org/abs/2002.00176v1 )

ライセンス: Link先を確認
Bin Wen, Jie Luo, Xianglong Liu, Lei Huang(参考訳) 画像中の視覚シーンのグラフ表現を抽出することは、コンピュータビジョンにおいて難しい課題である。 過去10年間,シーングラフの生成が活発化してきたが,既存の手法の性能は,(1)対称性や(2)異なる関係性に対する不均衡アノテーションといった特定の意味的特性との無意識な関係を前提とする強いバイアスによって大きく制限されている。 これらのバイアスの悪影響を緩和するため,我々は,リレーションの豊富な意味的性質を捉えるだけでなく,アノテーションのスケールの異なる関係をかなり予測するために,rich and fair semantic extraction network (rifa) という新しいシンプルなアーキテクチャを提案した。 擬似テーマネットワークを用いて、RiFaは主題とオブジェクトをそれぞれ埋め込み、それらの意味的差異を識別し、その一方でその基盤となる意味的特性を保持する。 さらに、ある文脈領域における実体の視覚的特徴と意味的特徴に基づいて主観的対象関係を予測し、いくつかのアノテーションを持つ者の関係予測を適切にランク付けする。 人気のあるVisual Genomeデータセットの実験によると、RiFaはシーングラフタスクのいくつかの困難な設定の下で最先端のパフォーマンスを達成する。 特に,関係の異なるセマンティックな特性の取得に優れ,関係の全体的性能が最高のものとなる。

Extracting graph representation of visual scenes in image is a challenging task in computer vision. Although there has been encouraging progress of scene graph generation in the past decade, we surprisingly find that the performance of existing approaches is largely limited by the strong biases, which mainly stem from (1) unconsciously assuming relations with certain semantic properties such as symmetric and (2) imbalanced annotations over different relations. To alleviate the negative effects of these biases, we proposed a new and simple architecture named Rich and Fair semantic extraction network (RiFa for short), to not only capture rich semantic properties of the relations, but also fairly predict relations with different scale of annotations. Using pseudo-siamese networks, RiFa embeds the subject and object respectively to distinguish their semantic differences and meanwhile preserve their underlying semantic properties. Then, it further predicts subject-object relations based on both the visual and semantic features of entities under certain contextual area, and fairly ranks the relation predictions for those with a few annotations. Experiments on the popular Visual Genome dataset show that RiFa achieves state-of-the-art performance under several challenging settings of scene graph task. Especially, it performs significantly better on capturing different semantic properties of relations, and obtains the best overall per relation performance.
翻訳日:2023-01-05 01:05:40 公開日:2020-02-01
# 一般化ゼロショット学習のための領域分割と調整

Domain segmentation and adjustment for generalized zero-shot learning ( http://arxiv.org/abs/2002.00226v1 )

ライセンス: Link先を確認
Xinsheng Wang, Shanmin Pang, Jihua Zhu(参考訳) 一般化されたゼロショット学習では,未知覚データと生成モデルとの合成が,視クラスと未知覚クラス間のトレーニングデータの不均衡に対処する最も一般的な方法である。 しかし,本手法では,学習段階では見当たらない意味情報が必要であり,生成モデルの訓練は容易ではない。 これらのモデルのジェネレータは、見知らぬクラスでしか訓練できないので、未確認データの合成は、トレーニングデータの不均衡に起因するドメインシフトに対処するための理想的なアプローチではない、と我々は主張する。 本稿では,異なる領域における一般化ゼロショット認識を実現することを提案する。 したがって、unseen(seen)クラスは、見られている(seen)クラスの影響を避けることができる。 実例では,テストインスタンスを目に見えない,不確実な領域に分割するためのしきい値と確率分布結合法を提案する。 さらに、不確実領域は、ドメインシフトを軽減するためにさらに調整される。 5つのベンチマークデータセットの大規模な実験により,提案手法は生成モデルに基づく手法と比較して競合性能を示すことが示された。

In the generalized zero-shot learning, synthesizing unseen data with generative models has been the most popular method to address the imbalance of training data between seen and unseen classes. However, this method requires that the unseen semantic information is available during the training stage, and training generative models is not trivial. Given that the generator of these models can only be trained with seen classes, we argue that synthesizing unseen data may not be an ideal approach for addressing the domain shift caused by the imbalance of the training data. In this paper, we propose to realize the generalized zero-shot recognition in different domains. Thus, unseen (seen) classes can avoid the effect of the seen (unseen) classes. In practice, we propose a threshold and probabilistic distribution joint method to segment the testing instances into seen, unseen and uncertain domains. Moreover, the uncertain domain is further adjusted to alleviate the domain shift. Extensive experiments on five benchmark datasets show that the proposed method exhibits competitive performance compared with that based on generative models.
翻訳日:2023-01-05 01:05:00 公開日:2020-02-01
# Web テーブルからの新しいエンティティ発見

Novel Entity Discovery from Web Tables ( http://arxiv.org/abs/2002.00206v1 )

ライセンス: Link先を確認
Shuo Zhang and Edgar Meij and Krisztian Balog and Ridho Reinanda(参考訳) あらゆる種類の知識ベース(KB)で作業する場合、それを可能な限り完了し、可能な限り最新のものにする必要があります。 どちらのタスクもkbからどのエンティティとリレーションが欠けているかを決定するためにリコール指向の努力を必要とするため、非自明である。 そのため、かなりの労力を要する。 一方、Web上のテーブルは豊富であり、これらのタスクをアシストする明確な可能性を秘めている。 特に、そのようなテーブル内のコンテンツを利用して、新しいエンティティ、プロパティ、関係を見つけることができます。 Webテーブルは、通常、生のテキストコンテンツしか含まないので、まず、どの既知のエンティティを参照しているかを判断する必要があります。 この最初のタスクは、テーブルセルと列をKBの要素にリンクすることでテーブルセマンティクスを推論することを目的としている。 次に第2のタスクは、これらのリンクされたエンティティとプロパティの上に構築され、同じテーブルにある新しいエンティティを識別するだけでなく、それらのタイプと追加の関係をブートストラップする。 我々は、このプロセスを新しい実体発見と呼び、私たちの知る限り、リンクされていない細胞をWebテーブルにマイニングするための最初の取り組みである。 提案手法は,in-KB(`known')エンティティのアウト・オブ・KB(``novel'')情報だけでなく,新規なエイリアスも識別する。 3つのテストコレクションを用いて評価すると,提案手法はリコールを安定に保ちながら,ベースラインの精度を大幅に向上することがわかった。

When working with any sort of knowledge base (KB) one has to make sure it is as complete and also as up-to-date as possible. Both tasks are non-trivial as they require recall-oriented efforts to determine which entities and relationships are missing from the KB. As such they require a significant amount of labor. Tables on the Web, on the other hand, are abundant and have the distinct potential to assist with these tasks. In particular, we can leverage the content in such tables to discover new entities, properties, and relationships. Because web tables typically only contain raw textual content we first need to determine which cells refer to which known entities---a task we dub table-to-KB matching. This first task aims to infer table semantics by linking table cells and heading columns to elements of a KB. Then second task builds upon these linked entities and properties to not only identify novel ones in the same table but also to bootstrap their type and additional relationships. We refer to this process as novel entity discovery and, to the best of our knowledge, it is the first endeavor on mining the unlinked cells in web tables. Our method identifies not only out-of-KB (``novel'') information but also novel aliases for in-KB (``known'') entities. When evaluated using three purpose-built test collections, we find that our proposed approaches obtain a marked improvement in terms of precision over our baselines whilst keeping recall stable.
翻訳日:2023-01-05 01:04:28 公開日:2020-02-01
# コラボレーティブインテリジェンスのための共有モバイルクラウド推論

Shared Mobile-Cloud Inference for Collaborative Intelligence ( http://arxiv.org/abs/2002.00157v1 )

ライセンス: Link先を確認
Mateen Ulhaq and Ivan V. Baji\'c(参考訳) モバイルデバイス用のAIアプリケーションが普及するにつれて、ニューラルモデル推論の高速実行と低エネルギー消費の必要性が高まっている。 歴史的に、モバイルデバイス上で実行されるモデルは、クラウド上でしか実行できない大規模な最先端の研究モデルと比較して、小さく、よりシンプルである。 しかし、クラウドのみの推論には、ネットワーク帯域幅の増大やレイテンシの増大といった欠点がある。 さらに、クラウドのみの推論では、入力データ(画像、音声)を完全にクラウドに転送する必要があるため、潜在的なプライバシー侵害に関する懸念が生じる。 私たちは、モバイルクラウドの共有という別のアプローチを示します。 部分的推論は、入力データの次元性を低減するためにモバイル上で行われ、入力信号の潜在空間表現であるコンパクトな特徴テンソルに到達する。 その後、さらなる推論のために特徴テンソルがサーバに送信される。 この戦略は、推論レイテンシ、エネルギー消費量、ネットワーク帯域使用量を改善し、元の信号がモバイルを離れることはないため、プライバシ保護を提供する。 伝送前に特徴テンソルを圧縮することにより、さらなる性能向上を実現することができる。

As AI applications for mobile devices become more prevalent, there is an increasing need for faster execution and lower energy consumption for neural model inference. Historically, the models run on mobile devices have been smaller and simpler in comparison to large state-of-the-art research models, which can only run on the cloud. However, cloud-only inference has drawbacks such as increased network bandwidth consumption and higher latency. In addition, cloud-only inference requires the input data (images, audio) to be fully transferred to the cloud, creating concerns about potential privacy breaches. We demonstrate an alternative approach: shared mobile-cloud inference. Partial inference is performed on the mobile in order to reduce the dimensionality of the input data and arrive at a compact feature tensor, which is a latent space representation of the input signal. The feature tensor is then transmitted to the server for further inference. This strategy can improve inference latency, energy consumption, and network bandwidth usage, as well as provide privacy protection, because the original signal never leaves the mobile. Further performance gain can be achieved by compressing the feature tensor before its transmission.
翻訳日:2023-01-05 01:04:01 公開日:2020-02-01
# Bridging Text and Video: Video-Audio Scene-Aware Dialogのためのユニバーサルマルチモーダルトランスフォーマー

Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog ( http://arxiv.org/abs/2002.00163v1 )

ライセンス: Link先を確認
Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng, Cheng Niu, Jie Zhou(参考訳) audio-visual scene-aware dialog(avsd)は、第8回ダイアログシステム技術チャレンジ(dstc8)のトラックとして編成された、所定のビデオについてチャットする際に応答を生成するタスクである。 そこで本研究では,汎用マルチモーダル変圧器を提案し,異なるモダリティ間の協調表現を学習し,情報的かつ流れる応答を生成するマルチタスク学習手法を提案する。 本手法は自然言語生成事前学習モデルをマルチモーダル対話生成タスクに拡張する。 本システムは,本課題における客観的評価と主観評価の両方において,最高の性能を達成する。

Audio-Visual Scene-Aware Dialog (AVSD) is a task to generate responses when chatting about a given video, which is organized as a track of the 8th Dialog System Technology Challenge (DSTC8). To solve the task, we propose a universal multimodal transformer and introduce the multi-task learning method to learn joint representations among different modalities as well as generate informative and fluent responses. Our method extends the natural language generation pre-trained model to multimodal dialogue generation task. Our system achieves the best performance in both objective and subjective evaluations in the challenge.
翻訳日:2023-01-05 00:55:56 公開日:2020-02-01
# ヒンディー語の新たな言語資源 : 審美的テキストコーパスと包括的停止補題リスト

Novel Language Resources for Hindi: An Aesthetics Text Corpus and a Comprehensive Stop Lemma List ( http://arxiv.org/abs/2002.00171v1 )

ライセンス: Link先を確認
Gayatri Venugopal-Wairagade, Jatinderkumar R. Saini, Dhanya Pramod(参考訳) 本稿では,自然言語処理研究における非英語言語の導入に向けた研究者の貢献を補完する試みである。 2つの新しいヒンディー語リソースが作成され、一般公開されている。 最初の資料は、百年以上にわたる1000近い前処理されたフィクションとノンフィクションのテキストからなるコーパスである。 第2のリソースは、複数のドメインにまたがる12のコーパスから作成された停止補題の完全なリストで、1300万以上の単語から成り、20万以上の補題が生成され、1000以上の単語を含む11の公開可能な停止補題リストが400以上のユニークな補題が生成される。 本研究は,単語の根形のみの存在に対して,単語のすべての形態的形態が,必要であれば変化が引き起こされるような単語の根形のみの存在とは対照的に,停止語の存在によって,停止語の代わりに停止語を用いることを強調した。 また、停止語に比べ、停止語は複数のソースにまたがる一貫性が強いことが観察された。 停止補題リストを生成するために, 補題の音声部分について検討を行ったが, 周波数リスト中の単語のランクと発話部分との有意な相関が認められず, 否定された。 停止補題リストは比較手法を用いて評価した。 本研究は,今後の研究として,形式的評価手法を提案する。

This paper is an effort to complement the contributions made by researchers working toward the inclusion of non-English languages in natural language processing studies. Two novel Hindi language resources have been created and released for public consumption. The first resource is a corpus consisting of nearly thousand pre-processed fictional and nonfictional texts spanning over hundred years. The second resource is an exhaustive list of stop lemmas created from 12 corpora across multiple domains, consisting of over 13 million words, from which more than 200,000 lemmas were generated, and 11 publicly available stop word lists comprising over 1000 words, from which nearly 400 unique lemmas were generated. This research lays emphasis on the use of stop lemmas instead of stop words owing to the presence of various, but not all morphological forms of a word in stop word lists, as opposed to the presence of only the root form of the word, from which variations could be derived if required. It was also observed that stop lemmas were more consistent across multiple sources as compared to stop words. In order to generate a stop lemma list, the parts of speech of the lemmas were investigated but rejected as it was found that there was no significant correlation between the rank of a word in the frequency list and its part of speech. The stop lemma list was assessed using a comparative method. A formal evaluation method is suggested as future work arising from this study.
翻訳日:2023-01-05 00:55:43 公開日:2020-02-01
# UIT-ViIC:ベトナムの画像キャプチャーに関する最初の評価データセット

UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning ( http://arxiv.org/abs/2002.00175v1 )

ライセンス: Link先を確認
Quan Hoang Lam, Quang Duy Le, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 画像キャプションの自動生成タスクであるImage Captioningは、コンピュータビジョン、自然言語処理、機械学習など、コンピュータ科学の多くの分野の研究者から注目を集めている。 本稿では,異なる言語 - ベトナム語 - へのデータセット拡張の観点から,イメージキャプションタスクの研究に貢献する。 これまでのところ、ベトナム語のための画像キャプチャーデータセットは存在しないので、これはベトナム語画像キャプチャーを開発するための最も基本的なステップである。 そこで我々はまず,ボールでプレーするスポーツに関するMicrosoft COCOデータセットの画像に手書きのキャプションを含むデータセットを構築し,このデータセットをUIT-ViICと呼ぶ。 UIT-ViICは3,850枚の画像に対して19,250個のベトナム字幕で構成されている。 その後,深層ニューラルネットワークモデルのデータセットを評価し,異なる手法で構築された英語データセットとベトナム語の2つのデータセットとの比較を行う。 UIT-ViICは、我々の研究室のウェブサイトで研究目的で公開されている。

Image Captioning, the task of automatic generation of image captions, has attracted attentions from researchers in many fields of computer science, being computer vision, natural language processing and machine learning in recent years. This paper contributes to research on Image Captioning task in terms of extending dataset to a different language - Vietnamese. So far, there is no existed Image Captioning dataset for Vietnamese language, so this is the foremost fundamental step for developing Vietnamese Image Captioning. In this scope, we first build a dataset which contains manually written captions for images from Microsoft COCO dataset relating to sports played with balls, we called this dataset UIT-ViIC. UIT-ViIC consists of 19,250 Vietnamese captions for 3,850 images. Following that, we evaluate our dataset on deep neural network models and do comparisons with English dataset and two Vietnamese datasets built by different methods. UIT-ViIC is published on our lab website for research purposes.
翻訳日:2023-01-05 00:55:20 公開日:2020-02-01
# スキーマ誘導ゼロショット対話状態追跡のための微調整BERT

Fine-Tuning BERT for Schema-Guided Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2002.00181v1 )

ライセンス: Link先を確認
Yu-Ping Ruan, Zhen-Hua Ling, Jia-Chen Gu, Quan Liu(参考訳) 本稿では,対話システム技術チャレンジ8(dstc8)におけるトラック4について述べる。 DSTC8-Track 4は、ゼロショット設定下で対話状態追跡(DST)を実行することを目的としている。 Siri、Alexa、Google Assistantなどの多くのバーチャルアシスタントのコアとして機能し、DSTはユーザーの目標と、主に自然言語理解のモデルの能力をテストする意図予測、スロットフィリング、ユーザ状態トラッキングを含む対話履歴で起きたことを追跡する。 近年、事前訓練された言語モデルは、最先端の結果を達成し、様々なNLPタスクにおける印象的な一般化能力を示した。 そこで本研究では,最多の事前学習言語モデルであるBERTによるゼロショット対話状態追跡(SGP-DST)のためのスキーマ誘導パラダイムを提案する。 SGP-DSTシステムは、インテント予測、スロット予測、スロット転送予測、ユーザ状態要約の4つのモジュールを含む。 公式評価結果によると,sgp-dst (team12) は,25チーム中,共同ゴール精度 (ランキング評価基準) で3位,再計算スロットf1で1位にランクインした。

We present our work on Track 4 in the Dialogue System Technology Challenges 8 (DSTC8). The DSTC8-Track 4 aims to perform dialogue state tracking (DST) under the zero-shot settings, in which the model needs to generalize on unseen service APIs given a schema definition of these target APIs. Serving as the core for many virtual assistants such as Siri, Alexa, and Google Assistant, the DST keeps track of the user's goal and what happened in the dialogue history, mainly including intent prediction, slot filling, and user state tracking, which tests models' ability of natural language understanding. Recently, the pretrained language models have achieved state-of-the-art results and shown impressive generalization ability on various NLP tasks, which provide a promising way to perform zero-shot learning for language understanding. Based on this, we propose a schema-guided paradigm for zero-shot dialogue state tracking (SGP-DST) by fine-tuning BERT, one of the most popular pretrained language models. The SGP-DST system contains four modules for intent prediction, slot prediction, slot transfer prediction, and user state summarizing respectively. According to the official evaluation results, our SGP-DST (team12) ranked 3rd on the joint goal accuracy (primary evaluation metric for ranking submissions) and 1st on the requsted slots F1 among 25 participant teams.
翻訳日:2023-01-05 00:55:05 公開日:2020-02-01
# 交通監視のための無訓練単眼3次元イベント検出システム

Training-free Monocular 3D Event Detection System for Traffic Surveillance ( http://arxiv.org/abs/2002.00137v1 )

ライセンス: Link先を確認
Lijun Yu, Peng Chen, Wenhe Liu, Guoliang Kang, Alexander G. Hauptmann(参考訳) 我々は,車両の行動と衝突の両方を検出することを含む,監視シナリオにおける交通イベント検出の問題に焦点をあてる。 既存のイベント検出システムは、主に学習ベースであり、大量のトレーニングデータが利用可能な場合、十分なパフォーマンスを実現している。 しかし、実際のシナリオでは、十分なラベル付きトレーニングデータの収集は高価であり、時には不可能である(例えば、トラフィック衝突検出)。 さらに、監視ビューの従来の2次元表示は、自然界における閉塞や異なるカメラビューの影響を受けやすい。 本稿では,上記の問題に対処するため,交通監視のための無訓練単眼3次元イベント検出システムを提案する。 我々のシステムはまず、車両を3Dユークリッド空間に投影し、その運動状態を推定する。 次に,運動パターンに基づいてイベントを識別する,複数の単純かつ効果的な方法を開発し,さらなるトレーニングを必要としない。 その結果,本システムはオクルージョンや視点の変化に対して堅牢であることがわかった。 提案システムの有効性を検証した大規模実世界の監視データセットにおいて,本手法の優れた結果が報告されている。

We focus on the problem of detecting traffic events in a surveillance scenario, including the detection of both vehicle actions and traffic collisions. Existing event detection systems are mostly learning-based and have achieved convincing performance when a large amount of training data is available. However, in real-world scenarios, collecting sufficient labeled training data is expensive and sometimes impossible (e.g. for traffic collision detection). Moreover, the conventional 2D representation of surveillance views is easily affected by occlusions and different camera views in nature. To deal with the aforementioned problems, in this paper, we propose a training-free monocular 3D event detection system for traffic surveillance. Our system firstly projects the vehicles into the 3D Euclidean space and estimates their kinematic states. Then we develop multiple simple yet effective ways to identify the events based on the kinematic patterns, which need no further training. Consequently, our system is robust to the occlusions and the viewpoint changes. Exclusive experiments report the superior result of our method on large-scale real-world surveillance datasets, which validates the effectiveness of our proposed system.
翻訳日:2023-01-05 00:54:02 公開日:2020-02-01
# ロバストフェデレーション学習のための悪意のあるクライアント検出学習

Learning to Detect Malicious Clients for Robust Federated Learning ( http://arxiv.org/abs/2002.00211v1 )

ライセンス: Link先を確認
Suyi Li, Yong Cheng, Wei Wang, Yang Liu, Tianjian Chen(参考訳) フェデレートされた学習システムは悪意のあるクライアントからの攻撃に弱い。 システム内の中央サーバがクライアントの動作を制御できないため、不正クライアントは悪意のあるモデル更新をサーバに送信することで攻撃を開始することができ、学習性能を低下させるか、標的となるモデル中毒攻撃(バックドア攻撃)を強制する。 したがって、これらの悪質なモデル更新と基盤となる攻撃者をタイムリーに検出することが重要となる。 そこで本研究では,中央サーバが強力な検出モデルを用いて悪意のあるモデル更新の検出と削除を学習し,標的防御に繋がる,堅牢な連合学習のための新しいフレームワークを提案する。 我々は、さまざまな機械学習モデルを用いて、画像分類と感情分析のタスクにおけるソリューションの評価を行った。 実験結果から,Byzantine攻撃とターゲットモデル中毒攻撃の双方に耐性のある堅牢なフェデレート学習を実現することが示唆された。

Federated learning systems are vulnerable to attacks from malicious clients. As the central server in the system cannot govern the behaviors of the clients, a rogue client may initiate an attack by sending malicious model updates to the server, so as to degrade the learning performance or enforce targeted model poisoning attacks (a.k.a. backdoor attacks). Therefore, timely detecting these malicious model updates and the underlying attackers becomes critically important. In this work, we propose a new framework for robust federated learning where the central server learns to detect and remove the malicious model updates using a powerful detection model, leading to targeted defense. We evaluate our solution in both image classification and sentiment analysis tasks with a variety of machine learning models. Experimental results show that our solution ensures robust federated learning that is resilient to both the Byzantine attacks and the targeted model poisoning attacks.
翻訳日:2023-01-05 00:47:36 公開日:2020-02-01
# 変分オートエンコーダを用いた心電図生成と特徴抽出

Electrocardiogram Generation and Feature Extraction Using a Variational Autoencoder ( http://arxiv.org/abs/2002.00254v1 )

ライセンス: Link先を確認
V. V. Kuznetsov and V. A. Moskalenko and N. Yu. Zolotykh(参考訳) 本稿では,変分オートエンコーダを用いて心電図(ECG)信号を生成する手法を提案する。 この方法を用いて,新しい25個の特徴のベクトルを抽出し,多くの場合に解釈できる。 生成されたECGは非常に自然な外観です。 最大平均離散値 0.00383 の低い値は、ECG 生成の良質さを示している。 抽出された新機能は、心臓血管疾患の自動診断の品質向上に役立つ。 また、新しい合成ECGの生成により、教師あり学習に使用するラベル付きECGの欠如という問題を解決することができる。

We propose a method for generating an electrocardiogram (ECG) signal for one cardiac cycle using a variational autoencoder. Using this method we extracted a vector of new 25 features, which in many cases can be interpreted. The generated ECG has quite natural appearance. The low value of the Maximum Mean Discrepancy metric, 0.00383, indicates good quality of ECG generation too. The extracted new features will help to improve the quality of automatic diagnostics of cardiovascular diseases. Also, generating new synthetic ECGs will allow us to solve the issue of the lack of labeled ECG for use them in supervised learning.
翻訳日:2023-01-05 00:46:35 公開日:2020-02-01
# The Sylvester Graphical Lasso (SyGlasso)

The Sylvester Graphical Lasso (SyGlasso) ( http://arxiv.org/abs/2002.00288v1 )

ライセンス: Link先を確認
Yu Wang, Byoungwook Jang, Alfred Hero(参考訳) 本稿では,テンソル値データに存在するマルチウェイ依存性をキャプチャするSylvester Graphical lasso(SyGlasso)を提案する。 このモデルは生成モデルを定義するシルベスター方程式に基づいている。 提案モデルは、生成的で解釈可能な代替のクロネッカー和モデルを提供することで、逆共分散行列に対してクローネッカー和モデルを課すテンソルグラフラッソ(Greenewald et al., 2019)を補完する。 変数間の条件付き独立関係を推定するために,ノードワイズ回帰手法を採用する。 本手法の統計的収束性を確立し,有意な条件依存グラフの回復を実証するための実証的研究を行った。 我々はSyGlassoを脳波検査(EEG)に応用し、アルコールおよび非アルコール患者の脳の接続性を比較した。 モデルが脳との接続と時間的依存性の両方を同時に推定できることを実証する。

This paper introduces the Sylvester graphical lasso (SyGlasso) that captures multiway dependencies present in tensor-valued data. The model is based on the Sylvester equation that defines a generative model. The proposed model complements the tensor graphical lasso (Greenewald et al., 2019) that imposes a Kronecker sum model for the inverse covariance matrix by providing an alternative Kronecker sum model that is generative and interpretable. A nodewise regression approach is adopted for estimating the conditional independence relationships among variables. The statistical convergence of the method is established, and empirical studies are provided to demonstrate the recovery of meaningful conditional dependency graphs. We apply the SyGlasso to an electroencephalography (EEG) study to compare the brain connectivity of alcoholic and nonalcoholic subjects. We demonstrate that our model can simultaneously estimate both the brain connectivity and its temporal dependencies.
翻訳日:2023-01-05 00:45:37 公開日:2020-02-01
# 情報検索のための概念埋め込み

Concept Embedding for Information Retrieval ( http://arxiv.org/abs/2002.01071v1 )

ライセンス: Link先を確認
Karam Abdulahhad(参考訳) 概念はミスマッチ問題の解決に使用される。 しかし、概念間の効果的な類似性尺度が必要である。 単語埋め込みは有望な解決策である。 本稿では,単語ベクトルに基づく概念ベクトル構築のための3つの手法を提案する。 ベクトルに基づく測度を用いて概念間の類似性を推定する。 我々の実験は有望な結果を示している。 さらに、言葉と概念は同等になる。 これは概念的なインデクシングプロセスを改善するのに使うことができる。

Concepts are used to solve the term-mismatch problem. However, we need an effective similarity measure between concepts. Word embedding presents a promising solution. We present in this study three approaches to build concepts vectors based on words vectors. We use a vector-based measure to estimate inter-concepts similarity. Our experiments show promising results. Furthermore, words and concepts become comparable. This could be used to improve conceptual indexing process.
翻訳日:2023-01-05 00:38:09 公開日:2020-02-01
# 相関の存在下での最適なベイズ特徴選択の整合性について

On the Consistency of Optimal Bayesian Feature Selection in the Presence of Correlations ( http://arxiv.org/abs/2002.00120v1 )

ライセンス: Link先を確認
Ali Foroughi pour and Lori A. Dalton(参考訳) OBFS(Optimal Bayesian Feature selection)は、バイオマーカー発見のためにゼロから設計された多変量監視スクリーニング手法である。 本研究では, 軽度条件下ではガウスobfsが強く一貫性があることを証明し, フレームワークの重要な後方の収束率を示す。 これらの結果は、OBFSが漸近的に選択した特徴を正確に識別し、異なるタイプの特徴に基づいて後方収束の相対率を特徴付け、収束を保証する条件を提供し、内部仮定が無効である場合にOBFSの使用を正当化し、OBFSフレームワークに基づいた他のアルゴリズムの漸近挙動を理解するためのステージを設定することにより、非常に重要である。

Optimal Bayesian feature selection (OBFS) is a multivariate supervised screening method designed from the ground up for biomarker discovery. In this work, we prove that Gaussian OBFS is strongly consistent under mild conditions, and provide rates of convergence for key posteriors in the framework. These results are of enormous importance, since they identify precisely what features are selected by OBFS asymptotically, characterize the relative rates of convergence for posteriors on different types of features, provide conditions that guarantee convergence, justify the use of OBFS when its internal assumptions are invalid, and set the stage for understanding the asymptotic behavior of other algorithms based on the OBFS framework.
翻訳日:2023-01-05 00:37:47 公開日:2020-02-01
# 深層学習によるドメイン適応型感情分類の改善

Improving Domain-Adapted Sentiment Classification by Deep Adversarial Mutual Learning ( http://arxiv.org/abs/2002.00119v1 )

ライセンス: Link先を確認
Qianming Xue, Wei Zhang, Hongyuan Zha(参考訳) ドメイン適応感情分類(domain-adapted sentiment classification)とは、ラベル付きソースドメインのトレーニングであり、ラベル付きターゲットドメインの文書レベルの感情をよく推測する。 既存のモデルの多くは、特徴抽出器と感情分類器を含み、特徴抽出器は両方のドメインからドメイン不変の特徴を学習し、感情分類器は、特徴抽出器を導くためにソースドメインにのみ訓練される。 したがって、ターゲット領域に横たわる感情極性を使用するメカニズムが欠如している。 対象領域から感情を学習することで、ドメイン適応型感情分類を改善するために、特徴抽出者、ドメイン識別者、感情分類者、ラベル探索者という2つのグループからなる、新しい深層逆相互学習アプローチを考案する。 ドメイン識別器は、特徴抽出器がドメイン不変の特徴を得ることができる。 一方、各グループ内のラベルプローバは、ピアグループにおける分類器によって生成された感情予測を通じて、対象領域の文書感情極性を探索し、自己グループにおける特徴抽出器の学習を指導する。 提案手法は,両グループ間の相互学習をエンドツーエンドで実現する。 複数の公開データセットを用いた実験は,ラベルプローブによる相互学習の有効性を検証し,最先端のパフォーマンスを得ることを示す。

Domain-adapted sentiment classification refers to training on a labeled source domain to well infer document-level sentiment on an unlabeled target domain. Most existing relevant models involve a feature extractor and a sentiment classifier, where the feature extractor works towards learning domain-invariant features from both domains, and the sentiment classifier is trained only on the source domain to guide the feature extractor. As such, they lack a mechanism to use sentiment polarity lying in the target domain. To improve domain-adapted sentiment classification by learning sentiment from the target domain as well, we devise a novel deep adversarial mutual learning approach involving two groups of feature extractors, domain discriminators, sentiment classifiers, and label probers. The domain discriminators enable the feature extractors to obtain domain-invariant features. Meanwhile, the label prober in each group explores document sentiment polarity of the target domain through the sentiment prediction generated by the classifier in the peer group, and guides the learning of the feature extractor in its own group. The proposed approach achieves the mutual learning of the two groups in an end-to-end manner. Experiments on multiple public datasets indicate our method obtains the state-of-the-art performance, validating the effectiveness of mutual learning through label probers.
翻訳日:2023-01-05 00:37:06 公開日:2020-02-01
# 強化学習のための周期的感覚内知識蒸留

Periodic Intra-Ensemble Knowledge Distillation for Reinforcement Learning ( http://arxiv.org/abs/2002.00149v1 )

ライセンス: Link先を確認
Zhang-Wei Hong, Prabhat Nagarajan, Guilherme Maeda(参考訳) オフ政治アンサンブル強化学習(RL)法は,様々なRLベンチマークタスクにおいて顕著な結果を示した。 近年の研究は、専門家の政策を指導的手法で直接模倣することで、RLエージェントのより迅速な政策改善が可能になることを示唆している。 これらの知見により,本研究では,周期的アンサンブル内知識蒸留(PIEKD)を提案する。 PIEKDは、環境内での行動にポリシーのアンサンブルを使用する学習フレームワークであり、知識蒸留を通じて、アンサンブル内のポリシー間で定期的に知識を共有する。 実験により,PIEKDは,MuJoCoベンチマークタスクのサンプル効率において,最先端のRL法を改善した。 さらに,PIEKDの理解を深めるためにアブレーション研究を行った。

Off-policy ensemble reinforcement learning (RL) methods have demonstrated impressive results across a range of RL benchmark tasks. Recent works suggest that directly imitating experts' policies in a supervised manner before or during the course of training enables faster policy improvement for an RL agent. Motivated by these recent insights, we propose Periodic Intra-Ensemble Knowledge Distillation (PIEKD). PIEKD is a learning framework that uses an ensemble of policies to act in the environment while periodically sharing knowledge amongst policies in the ensemble through knowledge distillation. Our experiments demonstrate that PIEKD improves upon a state-of-the-art RL method in sample efficiency on several challenging MuJoCo benchmark tasks. Additionally, we perform ablation studies to better understand PIEKD.
翻訳日:2023-01-05 00:36:46 公開日:2020-02-01
# グラフハイパーネットワークによる分子特性の予測と分類

Molecule Property Prediction and Classification with Graph Hypernetworks ( http://arxiv.org/abs/2002.00240v1 )

ライセンス: Link先を確認
Eliya Nachmani, Lior Wolf(参考訳) グラフニューラルネットワークは現在、学習に基づく分子特性の予測と分類でパフォーマンスチャートをリードしている。 したがって計算化学は、汎用グラフニューラルネットワークや特殊なメッセージパッシング法において、顕著なテストベッドとなっている。 本稿では,基盤となるネットワークをハイパーネットワークに置き換えることで,パフォーマンスが向上し,様々なベンチマークで最先端の成果が得られることを実証する。 ハイパーネットワークの適用において大きな困難は、安定性の欠如である。 我々は、現在のメッセージと最初のメッセージを組み合わせることでこれに取り組む。 最近の研究は、メッセージパッシングネットワークのアクティベーション機能を低次のTaylor近似に置き換えることで、エラー訂正符号の文脈におけるハイパーネットワークのトレーニング不安定に対処している。 当社のジェネリックソリューションがこのドメイン固有のソリューションを置き換えられることを実証します。

Graph neural networks are currently leading the performance charts in learning-based molecule property prediction and classification. Computational chemistry has, therefore, become the a prominent testbed for generic graph neural networks, as well as for specialized message passing methods. In this work, we demonstrate that the replacement of the underlying networks with hypernetworks leads to a boost in performance, obtaining state of the art results in various benchmarks. A major difficulty in the application of hypernetworks is their lack of stability. We tackle this by combining the current message and the first message. A recent work has tackled the training instability of hypernetworks in the context of error correcting codes, by replacing the activation function of the message passing network with a low-order Taylor approximation of it. We demonstrate that our generic solution can replace this domain-specific solution.
翻訳日:2023-01-05 00:36:19 公開日:2020-02-01