このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200621となっている論文です。

PDF登録状況(公開日: 20200621)

TitleAuthorsAbstract論文公表日・翻訳日
# thouless energyは多体局在遷移のエルゴード側における熱化に挑戦する

Thouless Energy Challenges Thermalization on the Ergodic Side of the Many-Body Localization Transition ( http://arxiv.org/abs/2001.03990v2 )

ライセンス: Link先を確認
\'Angel L. Corps, Rafael A. Molina, and Armando Rela\~no(参考訳) 標準模型である不規則ハイゼンベルク量子スピンチェーンにおける多体局在遷移のエルゴード側の研究を行った。 遠距離スペクトル統計と全運動量分布変動のパワースペクトルから抽出したThouless Energyは、熱化を保証するには不十分であることを示す。 両推定値が一致し,非単調に振る舞うことにより,障害の中間値に強いピークが現れることがわかった。 さらに,非熱化初期条件はエルゴード相内では期待よりも大きな確率でよく発生することを示した。 最後に,thoulessエネルギーと異常事象の存在によって駆動される局所化相への移行機構を提案する。

We study the ergodic side of the many-body localization transition in its standard model, the disordered Heisenberg quantum spin chain. We show that the Thouless energy, extracted from long-range spectral statistics and the power-spectrum of the full momentum distribution fluctuations, is not large enough to guarantee thermalization. We find that both estimates coincide and behave non-monotonically, exhibiting a strong peak at an intermediate value of the disorder. Furthermore, we show that non-thermalizing initial conditions occur well within the ergodic phase with larger probability than expected. Finally, we propose a mechanism, driven by the Thouless energy and the presence of anomalous events, for the transition to the localized phase.
翻訳日:2023-01-12 04:57:08 公開日:2020-06-21
# メタスパース回帰のサンプル複雑性

The Sample Complexity of Meta Sparse Regression ( http://arxiv.org/abs/2002.09587v2 )

ライセンス: Link先を確認
Zhanyu Wang and Jean Honorio(参考訳) 本稿では,無限課題を持つ疎線形回帰におけるメタラーニング問題を扱う。 学習者はいくつかの類似したタスクにアクセスできると仮定する。 学習者のゴールは、以前のタスクから同じようなが新しいタスクに知識を移すことである。 p のパラメータに対して、タスク毎のサポートセット k と l のサンプルのサイズは、T \in O ((k log(p) ) /l ) タスクが全てのタスクの共通サポートを回復するのに十分であることを示す。 得られたサポートにより、新しいタスクのパラメータ、すなわち、T および p に関する l \in O (1) を推定する際のサンプルの複雑さを大幅に低減することができる。 また、私たちのレートがミニマックス最適であることも証明します。 メタ学習と古典的マルチタスク学習の主な違いは、メタ学習が新しいタスクのパラメータの回復のみに焦点を当てているのに対して、マルチタスク学習は全てのタスクのパラメータを推定する。 代わりに、我々の効率的なメタ学習推定器は、T に関して l を一定にすることができる(すなわち、少数ショット学習)。

This paper addresses the meta-learning problem in sparse linear regression with infinite tasks. We assume that the learner can access several similar tasks. The goal of the learner is to transfer knowledge from the prior tasks to a similar but novel task. For p parameters, size of the support set k , and l samples per task, we show that T \in O (( k log(p) ) /l ) tasks are sufficient in order to recover the common support of all tasks. With the recovered support, we can greatly reduce the sample complexity for estimating the parameter of the novel task, i.e., l \in O (1) with respect to T and p . We also prove that our rates are minimax optimal. A key difference between meta-learning and the classical multi-task learning, is that meta-learning focuses only on the recovery of the parameters of the novel task, while multi-task learning estimates the parameter of all tasks, which requires l to grow with T . Instead, our efficient meta-learning estimator allows for l to be constant with respect to T (i.e., few-shot learning).
翻訳日:2022-12-29 18:43:11 公開日:2020-06-21
# プライバシー保護のための深い四分法機能

Deep Quaternion Features for Privacy Protection ( http://arxiv.org/abs/2003.08365v2 )

ライセンス: Link先を確認
Hao Zhang, Yiting Chen, Liyao Xiang, Haotian Ma, Jie Shi, Quanshi Zhang(参考訳) 本研究では,中間層の特徴が入力情報を漏洩することを防止するため,ニューラルネットワークを改訂し,第4次評価ニューラルネットワーク(QNN)を構築する手法を提案する。 QNNは四元数値の特徴を使い、各要素は四元数である。 QNNは入力情報を四元数値の特徴のランダムな位相に隠す。 攻撃者がネットワークパラメータと中間層の特徴を得たとしても、ターゲットフェーズを知ることなく入力情報を抽出することはできない。 このようにして、QNNは入力プライバシーを効果的に保護することができる。 さらに、QNNの出力精度は従来のニューラルネットワークに比べてわずかに低下し、計算コストは他のプライバシ保存方法よりもはるかに低い。

We propose a method to revise the neural network to construct the quaternion-valued neural network (QNN), in order to prevent intermediate-layer features from leaking input information. The QNN uses quaternion-valued features, where each element is a quaternion. The QNN hides input information into a random phase of quaternion-valued features. Even if attackers have obtained network parameters and intermediate-layer features, they cannot extract input information without knowing the target phase. In this way, the QNN can effectively protect the input privacy. Besides, the output accuracy of QNNs only degrades mildly compared to traditional neural networks, and the computational cost is much less than other privacy-preserving methods.
翻訳日:2022-12-22 09:22:46 公開日:2020-06-21
# アンタングル表現による局所的顔面メイクアップ伝達

Local Facial Makeup Transfer via Disentangled Representation ( http://arxiv.org/abs/2003.12065v2 )

ライセンス: Link先を確認
Zhaoyang Sun, Wenxuan Liu, Feng Liu, Ryan Wen Liu, Shengwu Xiong(参考訳) 顔の同一性を保ちながら、任意のメイクに非メイクアップ顔画像を描画することを目的としている。 最も進んだ方法は、化粧スタイル情報を顔画像から切り離して化粧転写を実現する方法である。 しかしメイクスタイルには、いまだに絡み合っているいくつかの意味的明瞭なローカルスタイルが含まれている。 本稿では,顔画像の個人性,口唇化粧,アイメイクスタイル,顔メイクスタイルという4つの独立した構成要素に,顔画像をさらに分解する,新たな統合的敵意回避ネットワークを提案する。 メイクスタイルの広汎化に伴い,我々の手法はグローバルメイクスタイルの程度を制御できるだけでなく,他の方法ではできないローカルメイクスタイルの度合いを柔軟に制御できる。 化粧の逆工程として化粧の除去を行う他の方法とは異なり、化粧の除去と化粧の移動を一つの均一な枠組みに統合し、複数の化粧の除去結果を得る。 広範な実験により,本手法は最先端手法と比較して,よりリアルで正確なメイクアップ・トランスファー結果が得られることを実証した。

Facial makeup transfer aims to render a non-makeup face image in an arbitrary given makeup one while preserving face identity. The most advanced method separates makeup style information from face images to realize makeup transfer. However, makeup style includes several semantic clear local styles which are still entangled together. In this paper, we propose a novel unified adversarial disentangling network to further decompose face images into four independent components, i.e., personal identity, lips makeup style, eyes makeup style and face makeup style. Owing to the further disentangling of makeup style, our method can not only control the degree of global makeup style, but also flexibly regulate the degree of local makeup styles which any other approaches can't do. For makeup removal, different from other methods which regard makeup removal as the reverse process of makeup, we integrate the makeup transfer with the makeup removal into one uniform framework and obtain multiple makeup removal results. Extensive experiments have demonstrated that our approach can produce more realistic and accurate makeup transfer results compared to the state-of-the-art methods.
翻訳日:2022-12-19 05:03:35 公開日:2020-06-21
# AMPSO:人工マルチスワム粒子群最適化

AMPSO: Artificial Multi-Swarm Particle Swarm Optimization ( http://arxiv.org/abs/2004.07561v2 )

ライセンス: Link先を確認
Haohao Zhou, Zhi-Hui Zhan, Zhi-Xin Yang, Xiangzhi Wei(参考訳) 本稿では,探索群,人工的搾取群,人工収束群からなる新しい人工マルチスワムPSOを提案する。 探索群は粒子空間の周囲にランダムに分布する等サイズのサブスワームの集合であり、探査群は一定期間、探索群の最良粒子の摂動から人工的に生成され、収束群は、搾取群における最良粒子の摂動から、停止するにつれて人工的に生成される。 エクスプロイトの進化速度がしきい値より小さいか、イテレーションの最大回数に達するまで、探索およびエクスプロイト操作を代替的に行う。 適応的な慣性重み戦略を異なる群に応用し、探索と搾取の性能を保証する。 この結果の正確性を保証するために,粒子の位置と適合値に基づく新しい多様性スキームを提案し,群れの探索,搾取,収束過程を制御した。 多様性による非効率な問題を軽減するため、2つのスウォーム更新手法が提案されており、一定数のイテレーションで良い結果が得られるように、乱雑な粒子を取り除く。 AMPSOの有効性はCEC2015テストスイートのすべての機能に対して検証され、最新のPSOの変種や他のPSO以外の最適化アルゴリズムを含む16のアルゴリズムの集合と比較される。

In this paper we propose a novel artificial multi-swarm PSO which consists of an exploration swarm, an artificial exploitation swarm and an artificial convergence swarm. The exploration swarm is a set of equal-sized sub-swarms randomly distributed around the particles space, the exploitation swarm is artificially generated from a perturbation of the best particle of exploration swarm for a fixed period of iterations, and the convergence swarm is artificially generated from a Gaussian perturbation of the best particle in the exploitation swarm as it is stagnated. The exploration and exploitation operations are alternatively carried out until the evolution rate of the exploitation is smaller than a threshold or the maximum number of iterations is reached. An adaptive inertia weight strategy is applied to different swarms to guarantee their performances of exploration and exploitation. To guarantee the accuracy of the results, a novel diversity scheme based on the positions and fitness values of the particles is proposed to control the exploration, exploitation and convergence processes of the swarms. To mitigate the inefficiency issue due to the use of diversity, two swarm update techniques are proposed to get rid of lousy particles such that nice results can be achieved within a fixed number of iterations. The effectiveness of AMPSO is validated on all the functions in the CEC2015 test suite, by comparing with a set of comprehensive set of 16 algorithms, including the most recently well-performing PSO variants and some other non-PSO optimization algorithms.
翻訳日:2022-12-12 21:09:45 公開日:2020-06-21
# バイテンポラルSAR画像変化検出のための軽量畳み込みニューラルネットワーク

A Light-Weighted Convolutional Neural Network for Bitemporal SAR Image Change Detection ( http://arxiv.org/abs/2005.14376v2 )

ライセンス: Link先を確認
Rongfang Wang, Fan Ding, Licheng Jiao, Jia-Wei Chen, Bo Liu, Wenping Ma, Mi Wang(参考訳) 近年,多くの畳み込みニューラルネットワーク(CNN)がバイテンポラルSAR画像変化検出に成功している。 しかし、既存のネットワークのほとんどは重く、ストレージや計算のために大量のメモリを占有している。 そこで,本稿では,計算量と空間の複雑さを低減し,エッジデバイスにおける変化検出を容易にする軽量ニューラルネットワークを提案する。 提案するネットワークでは、通常の畳み込み層を、入力と出力の間の同じチャネル数を保持するボトルネック層に置き換える。 次に、畳み込み演算子の実行時間を減少させるいくつかの非ゼロエントリを持つ拡張畳み込みカーネルを用いる。 従来の畳み込みニューラルネットワークと比較すると、光重み付きニューラルネットワークはより少ないパラメータでより効率的になるでしょう。 4組のバイテンポラルsar画像を用いた軽量ニューラルネットワークの検証を行った。 実験の結果,提案するネットワークは従来のCNNよりも優れた性能を示し,特に複雑なシーンを持つ挑戦的データセットにおいて,モデル一般化が優れていることがわかった。

Recently, many Convolution Neural Networks (CNN) have been successfully employed in bitemporal SAR image change detection. However, most of the existing networks are too heavy and occupy a large volume of memory for storage and calculation. Motivated by this, in this paper, we propose a lightweight neural network to reduce the computational and spatial complexity and facilitate the change detection on an edge device. In the proposed network, we replace normal convolutional layers with bottleneck layers that keep the same number of channels between input and output. Next, we employ dilated convolutional kernels with a few non-zero entries that reduce the running time in convolutional operators. Comparing with the conventional convolutional neural network, our light-weighted neural network will be more efficient with fewer parameters. We verify our light-weighted neural network on four sets of bitemporal SAR images. The experimental results show that the proposed network can obtain better performance than the conventional CNN and has better model generalization, especially on the challenging datasets with complex scenes.
翻訳日:2022-11-26 23:48:45 公開日:2020-06-21
# AnalogNet: アナログ平面センサプロセッサにおける畳み込みニューラルネットワーク推論

AnalogNet: Convolutional Neural Network Inference on Analog Focal Plane Sensor Processors ( http://arxiv.org/abs/2006.01765v2 )

ライセンス: Link先を確認
Matthew Z. Wong (1), Benoit Guillard (2), Riku Murai (1), Sajad Saeedi (3), Paul H.J. Kelly (1) ((1) Imperial College London, (2) EPFL Swiss Federal Institute of Technology Lausanne, (3) Ryerson University)(参考訳) 本稿では,アナログFPSP(Focal Plane Sensor Processors)と呼ばれる,センサとプロセッサが同一のシリコンチップ上に組み合わさったユニークな種類のデバイスの機能を利用する,高速でエネルギー効率のよい畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 センサアレイが収集したデータを別のプロセッサに送信して処理する従来のビジョンシステムとは異なり、FPSPは撮像装置自体でデータを処理できる。 このユニークなアーキテクチャは、限られた処理資源と近似計算を犠牲にして、超高速画像処理と高エネルギー効率を可能にする。 本研究では、標準的なCNNをFPSPコードに変換する方法を示し、アナログ計算エラーに対するロバスト性を高めるためにネットワークをトレーニングする方法を示す。 提案するアーキテクチャはAnalogNetと呼ばれ,MNISTの手書き文字認識タスクにおいて,1フレームあたり0.7mJの速度で96.9%の精度で動作可能である。

We present a high-speed, energy-efficient Convolutional Neural Network (CNN) architecture utilising the capabilities of a unique class of devices known as analog Focal Plane Sensor Processors (FPSP), in which the sensor and the processor are embedded together on the same silicon chip. Unlike traditional vision systems, where the sensor array sends collected data to a separate processor for processing, FPSPs allow data to be processed on the imaging device itself. This unique architecture enables ultra-fast image processing and high energy efficiency, at the expense of limited processing resources and approximate computations. In this work, we show how to convert standard CNNs to FPSP code, and demonstrate a method of training networks to increase their robustness to analog computation errors. Our proposed architecture, coined AnalogNet, reaches a testing accuracy of 96.9% on the MNIST handwritten digits recognition task, at a speed of 2260 FPS, for a cost of 0.7 mJ per frame.
翻訳日:2022-11-26 00:22:02 公開日:2020-06-21
# 信号処理と機械学習におけるゼロ次最適化のプライマー

A Primer on Zeroth-Order Optimization in Signal Processing and Machine Learning ( http://arxiv.org/abs/2006.06224v2 )

ライセンス: Link先を確認
Sijia Liu, Pin-Yu Chen, Bhavya Kailkhura, Gaoyuan Zhang, Alfred Hero, Pramod K. Varshney(参考訳) zeroth-order (zo) optimizationは、多くの信号処理や機械学習アプリケーションで現れる勾配なし最適化のサブセットである。 勾配法と同様に最適化問題を解くために用いられる。 しかし、関数評価のみを使用して、勾配を必要としない。 具体的には、ZO最適化は、勾配推定、降下方向計算、解更新の3つの主要なステップを反復的に実行する。 本稿では,ZO最適化の総合的なレビューを行い,その基礎となる直観,最適化原理,収束解析の最近の進歩について述べる。 さらに,ブラックボックス深層学習モデルによるロバスト性の評価や説明生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を示す。

Zeroth-order (ZO) optimization is a subset of gradient-free optimization that emerges in many signal processing and machine learning applications. It is used for solving optimization problems similarly to gradient-based methods. However, it does not require the gradient, using only function evaluations. Specifically, ZO optimization iteratively performs three major steps: gradient estimation, descent direction computation, and solution update. In this paper, we provide a comprehensive review of ZO optimization, with an emphasis on showing the underlying intuition, optimization principles and recent advances in convergence analysis. Moreover, we demonstrate promising applications of ZO optimization, such as evaluating robustness and generating explanations from black-box deep learning models, and efficient online sensor management.
翻訳日:2022-11-22 13:05:54 公開日:2020-06-21
# 楽器認識のための視覚的注意

Visual Attention for Musical Instrument Recognition ( http://arxiv.org/abs/2006.09640v2 )

ライセンス: Link先を確認
Karn Watcharasupat, Siddharth Gururani and Alexander Lerch(参考訳) 音楽情報検索の分野では、ポリフォニック録音における複数の楽器の有無を同時に識別する作業は依然として難しい課題である。 先行研究は多言語マルチラベル設定における時間的注意を応用して楽器分類の改善に成功しており、また別の一連の研究は、楽器認識性能の向上におけるピッチと音色の役割も示唆している。 本研究は,弱ラベルデータを用いた楽器認識の性能向上を目的として,ティンブラル・テンポラル感覚の「a la visual attention」におけるアテンション機構の利用をさらに検討する。 この課題に対する2つのアプローチが検討されている。 第1のアプローチは,各音節時間的「インスタンス」に基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディングウインドウパラダイムに注意機構を適用した。 第2のアプローチは、ネットワークがスペクトログラムの一部にのみ出席し、限られた数の'glimpses'を与えられた場合、次に出席する場所を決定するという、視覚的注意のリカレントモデルに基づいている。

In the field of music information retrieval, the task of simultaneously identifying the presence or absence of multiple musical instruments in a polyphonic recording remains a hard problem. Previous works have seen some success in improving instrument classification by applying temporal attention in a multi-instance multi-label setting, while another series of work has also suggested the role of pitch and timbre in improving instrument recognition performance. In this project, we further explore the use of attention mechanism in a timbral-temporal sense, \`a la visual attention, to improve the performance of musical instrument recognition using weakly-labeled data. Two approaches to this task have been explored. The first approach applies attention mechanism to the sliding-window paradigm, where a prediction based on each timbral-temporal `instance' is given an attention weight, before aggregation to produce the final prediction. The second approach is based on a recurrent model of visual attention where the network only attends to parts of the spectrogram and decide where to attend to next, given a limited number of `glimpses'.
翻訳日:2022-11-19 21:40:32 公開日:2020-06-21
# 深層強化学習による光多層自動設計

Automated Optical Multi-layer Design via Deep Reinforcement Learning ( http://arxiv.org/abs/2006.11940v1 )

ライセンス: Link先を確認
Haozhu Wang, Zeyu Zheng, Chengang Ji, L. Jay Guo(参考訳) 光多層薄膜は、フォトニック設計を必要とする光学およびエネルギー応用に広く使われている。 エンジニアは物理的直感に基づいてこのような構造を設計することが多い。 しかし、人間の専門家のみに頼ることは時間のかかることがあり、特にデザインスペースが大きい場合、最適でない設計に繋がる可能性がある。 本研究では,多層光設計タスクをシーケンス生成問題として構成する。 光層配列を効率的に生成するディープシーケンス生成ネットワークを提案する。 近位ポリシー最適化を施したディープシーケンス生成ネットワークを訓練し,所望の特性を有する多層構造を生成する。 提案手法は2つのエネルギー応用に適用できる。 提案手法は,タスク1で人間の専門家が設計した高性能設計と,タスク2で最先端のメカティックアルゴリズムをうまく発見できた。

Optical multi-layer thin films are widely used in optical and energy applications requiring photonic designs. Engineers often design such structures based on their physical intuition. However, solely relying on human experts can be time-consuming and may lead to sub-optimal designs, especially when the design space is large. In this work, we frame the multi-layer optical design task as a sequence generation problem. A deep sequence generation network is proposed for efficiently generating optical layer sequences. We train the deep sequence generation network with proximal policy optimization to generate multi-layer structures with desired properties. The proposed method is applied to two energy applications. Our algorithm successfully discovered high-performance designs, outperforming structures designed by human experts in task 1, and a state-of-the-art memetic algorithm in task 2.
翻訳日:2022-11-18 12:52:46 公開日:2020-06-21
# 相互情報最大化による創発的協力

Emergent cooperation through mutual information maximization ( http://arxiv.org/abs/2006.11769v1 )

ライセンス: Link先を確認
Santiago Cuervo and Marco Alzate(参考訳) 人工知能システムが私たちの社会でユビキタスになるにつれ、その設計者はすぐにその社会的側面を考え始めなければなりません。 そこで本研究では,協調型マルチエージェントシステムの設計のための分散強化学習アルゴリズムを提案する。 本アルゴリズムは,協調システムの特徴として高度に相関した行動が挙げられる仮説に基づいており,学習問題におけるエージェントの行動間の相互情報を最大化するための補助目的の挿入を提案する。 本システムは,各エージェントの個人的目的の相違にもかかわらず,エージェントが協調してマクロなパフォーマンス関数を最大化する必要がある問題である,社会ジレンマに適用する。 提案システムの性能を補助目的を伴わないシステムと比較することにより,エージェント間の相互情報の最大化が社会的ジレンマにおける協調の出現を促進すると結論づける。

With artificial intelligence systems becoming ubiquitous in our society, its designers will soon have to start to consider its social dimension, as many of these systems will have to interact among them to work efficiently. With this in mind, we propose a decentralized deep reinforcement learning algorithm for the design of cooperative multi-agent systems. The algorithm is based on the hypothesis that highly correlated actions are a feature of cooperative systems, and hence, we propose the insertion of an auxiliary objective of maximization of the mutual information between the actions of agents in the learning problem. Our system is applied to a social dilemma, a problem whose optimal solution requires that agents cooperate to maximize a macroscopic performance function despite the divergent individual objectives of each agent. By comparing the performance of the proposed system to a system without the auxiliary objective, we conclude that the maximization of mutual information among agents promotes the emergence of cooperation in social dilemmas.
翻訳日:2022-11-18 12:44:07 公開日:2020-06-21
# 連続部分モジュラー最大化:DRサブモジュラリティを超えて

Continuous Submodular Maximization: Beyond DR-Submodularity ( http://arxiv.org/abs/2006.11726v1 )

ライセンス: Link先を確認
Moran Feldman and Amin Karbasi(参考訳) 本稿では,線形制約下での単調連続部分モジュラー最大化問題に対して,定数係数近似を保証する最初の連続最適化アルゴリズムを提案する。 最初に、バニラ座標上昇の単純な変種である coordinate-ascent+ が $(\frac{e-1}{2e-1}-\varepsilon)$-approximation guarantee を達成し、o(n/\varepsilon)$ イテレーションを実行し、各イテレーションの計算複雑性がおよそ $o(n/\sqrt{\varepsilon}+n\log n)$ であることを証明する(ここで、$n$ は最適化問題の次元を表す)。 次にCoordinate-Ascent++を提案し、同じイテレーション数を実行しながら、1-1/e-\varepsilon)$-approximationを保証するが、約$O(n^3/\varepsilon^{2.5} + n^3 \log n / \varepsilon^2)$の計算複雑性が高い。 しかし、Coordinate-Ascent++の各ラウンドの計算は容易に並列化でき、マシン当たりの計算コストは$O(n/\sqrt{\varepsilon}+n\log n)$になる。

In this paper, we propose the first continuous optimization algorithms that achieve a constant factor approximation guarantee for the problem of monotone continuous submodular maximization subject to a linear constraint. We first prove that a simple variant of the vanilla coordinate ascent, called Coordinate-Ascent+, achieves a $(\frac{e-1}{2e-1}-\varepsilon)$-approximation guarantee while performing $O(n/\varepsilon)$ iterations, where the computational complexity of each iteration is roughly $O(n/\sqrt{\varepsilon}+n\log n)$ (here, $n$ denotes the dimension of the optimization problem). We then propose Coordinate-Ascent++, that achieves the tight $(1-1/e-\varepsilon)$-approximation guarantee while performing the same number of iterations, but at a higher computational complexity of roughly $O(n^3/\varepsilon^{2.5} + n^3 \log n / \varepsilon^2)$ per iteration. However, the computation of each round of Coordinate-Ascent++ can be easily parallelized so that the computational cost per machine scales as $O(n/\sqrt{\varepsilon}+n\log n)$.
翻訳日:2022-11-18 12:43:27 公開日:2020-06-21
# 音声・ビデオ信号からの人間の感情検出

Human Emotion Detection from Audio and Video Signals ( http://arxiv.org/abs/2006.11871v1 )

ライセンス: Link先を確認
Sai Nikhil Chennoor, B.R.K. Madhur, Moujiz Ali, T. Kishore Kumar(参考訳) 第一の目的は、人間の感情について機械に教えることであり、それは社会知性の分野で必須の要件となり、人間と機械の相互作用の進行を早める。 機械が人間の感情を理解し、それに従って行動する能力は、今日の世界への大きな関心の選択である。 したがって、未来の世代のコンピュータは、人間と対話できなければならない。 例えば、自閉症の人は、自分の心の状態について誰かと話すことが難しいと感じることが多い。 このモデルは、問題を起こし、それを表現できないユーザーベースを明示的にターゲットしています。 また,このモデルの音声処理技術は,映像品質の低さや逆の場合には感情を推定する。

The primary objective is to teach a machine about human emotions, which has become an essential requirement in the field of social intelligence, also expedites the progress of human-machine interactions. The ability of a machine to understand human emotion and act accordingly has been a choice of great interest in today's world. The future generations of computers thus must be able to interact with a human being just like another. For example, people who have Autism often find it difficult to talk to someone about their state of mind. This model explicitly targets the userbase who are troubled and fail to express it. Also, this model's speech processing techniques provide an estimate of the emotion in the case of poor video quality and vice-versa.
翻訳日:2022-11-18 12:42:43 公開日:2020-06-21
# 量子バースト写真

Quanta Burst Photography ( http://arxiv.org/abs/2006.11840v1 )

ライセンス: Link先を確認
Sizhuo Ma, Shantanu Gupta, Arin C. Ulku, Claudio Bruschini, Edoardo Charbon, Mohit Gupta(参考訳) 単光子アバランシェダイオード(SPAD)は、個々の入射光を検知し、高いタイミング精度で到着時刻を計測できる新しいセンサー技術である。 これらのセンサは、過去には1ピクセルまたは低解像度のデバイスに限られていたが、最近では1MPixelまでの大きなSPADアレイが開発されている。 これらの単光子カメラ(SPC)は、リードノイズなしで2光子画像の高速なシーケンスをキャプチャすることができる。 超低光度や高速運動などの困難な条件下での受動撮像装置としてspcを利用する計算写真技術であるquanta burst photographyを提案する。 近年のバースト写真の成功に触発されて,spcで撮影された2値列を最小動きのぼかしやアーティファクト,高信号対雑音比(snr),高ダイナミックレンジのインテンシティ画像にアライメント・マージするアルゴリズムを設計した。 理論的には、量子バースト撮影のSNRおよびダイナミックレンジを分析し、それが大きな利点をもたらす画像構造を特定する。 本研究では,最近開発されたspadアレイを用いて,照明や複雑なジオメトリ,高ダイナミックレンジ,移動物体などに対して高品質な映像を生成できることを実証する。 SPADアレイの開発が進行中であるので、消費者写真と科学写真の両方に応用できる量子バースト写真が期待できる。

Single-photon avalanche diodes (SPADs) are an emerging sensor technology capable of detecting individual incident photons, and capturing their time-of-arrival with high timing precision. While these sensors were limited to single-pixel or low-resolution devices in the past, recently, large (up to 1 MPixel) SPAD arrays have been developed. These single-photon cameras (SPCs) are capable of capturing high-speed sequences of binary single-photon images with no read noise. We present quanta burst photography, a computational photography technique that leverages SPCs as passive imaging devices for photography in challenging conditions, including ultra low-light and fast motion. Inspired by recent success of conventional burst photography, we design algorithms that align and merge binary sequences captured by SPCs into intensity images with minimal motion blur and artifacts, high signal-to-noise ratio (SNR), and high dynamic range. We theoretically analyze the SNR and dynamic range of quanta burst photography, and identify the imaging regimes where it provides significant benefits. We demonstrate, via a recently developed SPAD array, that the proposed method is able to generate high-quality images for scenes with challenging lighting, complex geometries, high dynamic range and moving objects. With the ongoing development of SPAD arrays, we envision quanta burst photography finding applications in both consumer and scientific photography.
翻訳日:2022-11-18 12:41:12 公開日:2020-06-21
# 挑戦的条件下でのkiwifruit検出

Kiwifruit detection in challenging conditions ( http://arxiv.org/abs/2006.11729v1 )

ライセンス: Link先を確認
Mahla Nejati, Nicky Penhall, Henry Williams, Jamie Bell, JongYoon Lim, Ho Seok Ahn, Bruce MacDonald(参考訳) 精密で信頼性の高いキウイフルーツ検出は、選択的果実収穫ロボットを開発する上での最大の課題の1つだ。 果樹園ロボットの視覚システムは、動的照明条件や果実の閉塞といった困難に直面している。 本稿では, キャノピーの厳しい照明条件下でキウイフルーツを検出するための2つの新しい画像推定手法を用いたセマンティックセグメンテーション手法を提案する。 提案システムの性能は, 異なる照明条件(典型的, グレア, 過剰露光)下でのキウイフルーツの3次元実空間画像集合を用いて評価する。 セマンティックセグメンテーションアプローチは、典型的な照明画像セット上でF1_scoreの0.82を達成するが、F1_scoreの0.13で厳しい照明に苦しむ。 先行技術を利用することで、厳しい照明下での視覚システムはF1_score 0.42に改善される。 果実閉塞問題に対処するため, 全照明条件における非閉塞キウイフルーツ87.0%, 閉塞キウイフルーツ30.0%の検出が可能であった。

Accurate and reliable kiwifruit detection is one of the biggest challenges in developing a selective fruit harvesting robot. The vision system of an orchard robot faces difficulties such as dynamic lighting conditions and fruit occlusions. This paper presents a semantic segmentation approach with two novel image prepossessing techniques designed to detect kiwifruit under the harsh lighting conditions found in the canopy. The performance of the presented system is evaluated on a 3D real-world image set of kiwifruit under different lighting conditions (typical, glare, and overexposed). Alone the semantic segmentation approach achieves an F1_score of 0.82 on the typical lighting image set, but struggles with harsh lighting with an F1_score of 0.13. Utilising the prepossessing techniques the vision system under harsh lighting improves to an F1_score 0.42. To address the fruit occlusion challenge, the overall approach was found to be capable of detecting 87.0% of non-occluded and 30.0% of occluded kiwifruit across all lighting conditions.
翻訳日:2022-11-18 12:32:36 公開日:2020-06-21
# 改良エネルギー最適化に基づく視点テクスチャ合成

Perspective Texture Synthesis Based on Improved Energy Optimization ( http://arxiv.org/abs/2006.11851v1 )

ライセンス: Link先を確認
Syed Muhammad Arsalan Bashir and Farhan Ali Khan Ghouri(参考訳) 視線テクスチャ合成は,グローバルな特徴情報を読み,制御できることから,映像編集やシーンキャプチャなど多くの分野において重要である。 本稿では,視点テクスチャを合成する新しいサンプルベース,特にエネルギー最適化に基づくアルゴリズムを提案する。 エネルギー最適化技術はピクセルベースのアプローチであるため、時間を要する。 より高速な合成と高品質を実現するために、2つの側面から改善する。 まず、画素計算を小さなパッチで置き換えることで、このピクセルベースの手法を変更する。 第2に,エネルギー最適化における近傍探索を高速化する新しい手法を提案する。 k-は、検索を高速化する検索ツリーを構築するためのクラスタリング技術である。 そこで我々は主成分分析(PCA)技術を用いて入力ベクトルの次元を小さくする。 高品質の結果は、我々のアプローチが実現可能であることを証明します。 さらに,提案アルゴリズムは,他の類似手法と比較して短い時間を必要とする。

Perspective texture synthesis has great significance in many fields like video editing, scene capturing etc., due to its ability to read and control global feature information. In this paper, we present a novel example-based, specifically energy optimization-based algorithm, to synthesize perspective textures. Energy optimization technique is a pixel-based approach, so it is time-consuming. We improve it from two aspects with the purpose of achieving faster synthesis and high quality. Firstly, we change this pixel-based technique by replacing the pixel computation with a little patch. Secondly, we present a novel technique to accelerate searching nearest neighborhoods in energy optimization. Using k- means clustering technique to build a search tree to accelerate the search. Hence, we make use of principal component analysis (PCA) technique to reduce dimensions of input vectors. The high quality results prove that our approach is feasible. Besides, our proposed algorithm needs shorter time relative to other similar methods.
翻訳日:2022-11-18 12:31:55 公開日:2020-06-21
# Devanagari Script を用いた生成的敵対ネットワークの性能測定

Measuring Performance of Generative Adversarial Networks on Devanagari Script ( http://arxiv.org/abs/2007.06710v1 )

ライセンス: Link先を確認
Amogh G. Warkhandkar, Baasit Sharief and Omkar B. Bhambure(参考訳) 生成モデルを作成するための敵の哲学に従うニューラルネットワークの開発は、興味深い分野です。 複数の論文がすでにアーキテクチャの側面を調査しており、良い結果をもたらす可能性のあるシステムを提案するが、実際の例で実装する論文はほとんどない。 伝統的に、人々は有名なmnistデータセットをhello, worldとして使っています!例えば、generative adversarial networks (gan)の実装です。 本論文では手書き文字を使用する標準的な経路ではなく,より複雑な構造を持つデバナガリ文字を用いる。 生成モデルの性能を判断する従来の方法がないため、GANモデルの出力を判断する3つの追加の分類器が構築された。 下記の論文は、この実装が達成した成果を説明するものである。

The working of neural networks following the adversarial philosophy to create a generative model is a fascinating field. Multiple papers have already explored the architectural aspect and proposed systems with potentially good results however, very few papers are available which implement it on a real-world example. Traditionally, people use the famous MNIST dataset as a Hello, World! example for implementing Generative Adversarial Networks (GAN). Instead of going the standard route of using handwritten digits, this paper uses the Devanagari script which has a more complex structure. As there is no conventional way of judging how well the generative models perform, three additional classifiers were built to judge the output of the GAN model. The following paper is an explanation of what this implementation has achieved.
翻訳日:2022-11-18 12:31:20 公開日:2020-06-21
# より良いベースラインによる血縁認識の実現

Achieving Better Kinship Recognition Through Better Baseline ( http://arxiv.org/abs/2006.11739v1 )

ライセンス: Link先を確認
Andrei Shadrikov(参考訳) 顔画像を用いた血縁関係の認識は、追加の制限を伴う顔認識システムの応用と見なすことができる。 これらの制限は対処が難しいことが判明したが、近年の顔認証の進歩により、より多くのデータや新しいアイデアを使う必要があることが判明した。 その結果、顔認識は、ソースドメインとしてのキンシップ認識において、よりよいパフォーマンスを得るために知識を転送できる優れたソースドメインになります。 本稿では、顔登録のためのRetinaFace[1]とArcFace[2]顔認証モデルに基づく親類検索と自動親族認識タスクのための新しいベースラインを提案する。 上記のアプローチを基礎として,最近のRecognizing Families In the Wild Data Challengeにおいて,2トラックで最先端のパフォーマンスを実現するパイプラインを構築した。

Recognizing blood relations using face images can be seen as an application of face recognition systems with additional restrictions. These restrictions proved to be difficult to deal with, however, recent advancements in face verification show that there is still much to gain using more data and novel ideas. As a result face recognition is a great source domain from which we can transfer the knowledge to get better performance in kinship recognition as a source domain. We present a new baseline for an automatic kinship recognition task and relatives search based on RetinaFace[1] for face registration and ArcFace[2] face verification model. With the approach described above as the foundation, we constructed a pipeline that achieved state-of-the-art performance on two tracks in the recent Recognizing Families In the Wild Data Challenge.
翻訳日:2022-11-18 12:25:44 公開日:2020-06-21
# 仮想人間を用いた合成データセット構築手法

Methodology for Building Synthetic Datasets with Virtual Humans ( http://arxiv.org/abs/2006.11757v1 )

ライセンス: Link先を確認
Shubhajit Basak, Hossein Javidnia, Faisal Khan, Rachel McDonnell, Michael Schukat(参考訳) 近年のディープラーニング手法の進歩により,顔検出・認識システムの性能が向上している。 これらのモデルの精度は、トレーニングデータに提供される変動範囲に依存する。 データセットのサイズに応じてデータの品質の制御が減少するため、現実の顔のあらゆるバリエーションを表すデータセットを作成することは不可能である。 データの再現性は、実験室外で「実世界の」取得条件を正確に再現することはできないため、別の課題である。 本研究では,ツールチェインの一部として使用する顔データを生成するためのフレームワークを探索し,顔と環境の変動を高度に制御した,非常に大きな顔データセットを生成する。 このような大規模なデータセットは、ディープニューラルネットワークのトレーニングを改善するために使用できる。 特に,100個の合成idのデータセットにまたがる複数の2d画像のレンダリングに3dモーフィックな顔モデルを用い,ポーズや照明,背景などの画像のバリエーションを完全に制御する。

Recent advances in deep learning methods have increased the performance of face detection and recognition systems. The accuracy of these models relies on the range of variation provided in the training data. Creating a dataset that represents all variations of real-world faces is not feasible as the control over the quality of the data decreases with the size of the dataset. Repeatability of data is another challenge as it is not possible to exactly recreate 'real-world' acquisition conditions outside of the laboratory. In this work, we explore a framework to synthetically generate facial data to be used as part of a toolchain to generate very large facial datasets with a high degree of control over facial and environmental variations. Such large datasets can be used for improved, targeted training of deep neural networks. In particular, we make use of a 3D morphable face model for the rendering of multiple 2D images across a dataset of 100 synthetic identities, providing full control over image variations such as pose, illumination, and background.
翻訳日:2022-11-18 12:25:13 公開日:2020-06-21
# 逐次特徴フィルタリング分類器

Sequential Feature Filtering Classifier ( http://arxiv.org/abs/2006.11808v1 )

ライセンス: Link先を確認
Minseok Seo, Jaemin Lee, Jongchan Park, Dong-Geol Choi(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の簡易かつ効果的な分類法である逐次特徴フィルタリング分類器(FFC)を提案する。 シーケンシャルなLayerNormとReLUでは、FFCは低活性化単位をゼロにし、高活性化単位を保存する。 逐次的特徴フィルタリングプロセスは複数の特徴を生成し、複数の出力に対して共有分類器に入力する。 FFCは分類器を持つ任意のCNNに適用でき、無視できるオーバーヘッドで性能を大幅に改善する。 ImageNet-1K分類,MS COCO検出,Cityscapesセグメンテーション,HMDB51動作認識など,様々なタスクにおけるFFCの有効性を広く検証した。 さらに,ffcは注意モジュールや拡張技術など他の手法の性能をさらに向上できることを実証的に示す。 コードとモデルは一般公開される予定だ。

We propose Sequential Feature Filtering Classifier (FFC), a simple but effective classifier for convolutional neural networks (CNNs). With sequential LayerNorm and ReLU, FFC zeroes out low-activation units and preserves high-activation units. The sequential feature filtering process generates multiple features, which are fed into a shared classifier for multiple outputs. FFC can be applied to any CNNs with a classifier, and significantly improves performances with negligible overhead. We extensively validate the efficacy of FFC on various tasks: ImageNet-1K classification, MS COCO detection, Cityscapes segmentation, and HMDB51 action recognition. Moreover, we empirically show that FFC can further improve performances upon other techniques, including attention modules and augmentation techniques. The code and models will be publicly available.
翻訳日:2022-11-18 12:24:30 公開日:2020-06-21
# 複数ユーザ能動認証のための高速侵入者検出

Quickest Intruder Detection for Multiple User Active Authentication ( http://arxiv.org/abs/2006.11921v1 )

ライセンス: Link先を確認
Pramuditha Perera, Julian Fierrez, Vishal M. Patel(参考訳) 本稿では,複数のユーザを持つアクティブ認証(AA)システムに対して,低レイテンシで侵入者を検出する方法を検討する。 我々は、Quickest Change Detection (QCD)フレームワークをマルチユーザケースに拡張し、Multiple-user Quickest Intruder Detection (MQID)アルゴリズムを定式化する。 さらに,本アルゴリズムを,より少ないサンプルで侵入者検出を行うデータ効率のシナリオに拡張する。 顔のモダリティに基づく2つのAAデータセットに対する提案手法の有効性を評価する。

In this paper, we investigate how to detect intruders with low latency for Active Authentication (AA) systems with multiple-users. We extend the Quickest Change Detection (QCD) framework to the multiple-user case and formulate the Multiple-user Quickest Intruder Detection (MQID) algorithm. Furthermore, we extend the algorithm to the data-efficient scenario where intruder detection is carried out with fewer observation samples. We evaluate the effectiveness of the proposed method on two publicly available AA datasets on the face modality.
翻訳日:2022-11-18 12:24:17 公開日:2020-06-21
# テキスト検出と追跡を用いた歌詞ビデオ解析

Lyric Video Analysis Using Text Detection and Tracking ( http://arxiv.org/abs/2006.11933v1 )

ライセンス: Link先を確認
Shota Sakaguchi, Jun Kato, Masataka Goto, and Seiichi Uchida(参考訳) 我々は、歌詞の単語を歌詞ビデオで認識し追跡しようとする。 歌詞ビデオ(Lyric video)は、歌の歌詞を見せるミュージックビデオである。 歌詞ビデオの主な特徴は、歌詞の単語が音楽と同期してフレームに表示されることである。 歌詞の認識と追跡の難しさは、(1)語はしばしば装飾され、幾何学的に歪められ、(2)語はビデオフレーム内で任意に劇的に移動する。 本研究の目的は,自動歌詞ビデオ生成の第一段階として,歌詞映像中の歌詞単語の動きを分析することである。 歌詞語の動作を解析するために,まず各ビデオフレームに最先端のシーンテキスト検出器と認識器を適用する。 そして、歌詞・フレームマッチングを行い、歌詞語とフレームの最適な対応を確立する。 対応から個々の歌詞語の動き軌跡を固定した後,k-medoids clustering と dynamic time warping (dtw) により歌詞語の軌跡を解析した。

We attempt to recognize and track lyric words in lyric videos. Lyric video is a music video showing the lyric words of a song. The main characteristic of lyric videos is that the lyric words are shown at frames synchronously with the music. The difficulty of recognizing and tracking the lyric words is that (1) the words are often decorated and geometrically distorted and (2) the words move arbitrarily and drastically in the video frame. The purpose of this paper is to analyze the motion of the lyric words in lyric videos, as the first step of automatic lyric video generation. In order to analyze the motion of lyric words, we first apply a state-of-the-art scene text detector and recognizer to each video frame. Then, lyric-frame matching is performed to establish the optimal correspondence between lyric words and the frames. After fixing the motion trajectories of individual lyric words from correspondence, we analyze the trajectories of the lyric words by k-medoids clustering and dynamic time warping (DTW).
翻訳日:2022-11-18 12:24:07 公開日:2020-06-21
# 3次元CNNを用いた残差フレームを用いた動き表現

Motion Representation Using Residual Frames with 3D CNN ( http://arxiv.org/abs/2006.13017v1 )

ライセンス: Link先を確認
Li Tao, Xueting Wang, Toshihiko Yamasaki(参考訳) 近年,3次元畳み込みネットワーク(3D ConvNets)の動作認識性能が向上している。 しかし、性能向上のためにはまだ光学フローストリームが必要であり、そのコストは非常に高い。 本稿では,3D ConvNetの入力データとして残留フレームを利用する動画から,高速かつ効果的な動き特徴抽出手法を提案する。 従来のスタックされたrgbフレームを残りのフレームに置き換えることで、resnet-18モデルをスクラッチからトレーニングすると、トップ1の精度よりも35.6%と26.6%改善できる。 そして、このトレーニングモードで最先端の結果を達成しました。 分析の結果,RGBと比較すると,残差フレームを用いて良好な運動特徴を抽出できることがわかった。 簡単な外観パスと組み合わせることで,オプティカルフローストリームを用いた手法よりも優れた手法を提案する。

Recently, 3D convolutional networks (3D ConvNets) yield good performance in action recognition. However, optical flow stream is still needed to ensure better performance, the cost of which is very high. In this paper, we propose a fast but effective way to extract motion features from videos utilizing residual frames as the input data in 3D ConvNets. By replacing traditional stacked RGB frames with residual ones, 35.6% and 26.6% points improvements over top-1 accuracy can be obtained on the UCF101 and HMDB51 datasets when ResNet-18 models are trained from scratch. And we achieved the state-of-the-art results in this training mode. Analysis shows that better motion features can be extracted using residual frames compared to RGB counterpart. By combining with a simple appearance path, our proposal can be even better than some methods using optical flow streams.
翻訳日:2022-11-18 12:23:12 公開日:2020-06-21
# Match$^2$:類似質問識別のためのマッチングモデルに対するマッチング

Match$^2$: A Matching over Matching Model for Similar Question Identification ( http://arxiv.org/abs/2006.11719v1 )

ライセンス: Link先を確認
Zizhen Wang, Yixing Fan, Jiafeng Guo, Liu Yang, Ruqing Zhang, Yanyan Lan, Xueqi Cheng, Hui Jiang, Xiaozhao Wang(参考訳) コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。 サービスの効率を高めるため、cqaでは、新たな質問が求められた時に、アーカイブリポジトリから同様の質問を見つけることを目的とした、同様の質問識別がコアタスクとなる。 しかし、自然言語に固有のバリエーションがあるため、2つの質問の類似性を適切に測定することは長い間困難であり、同じ質問をしたり、同じ表現を共有する異なる質問をする方法が考えられる。 この問題を緩和するには、既存の回答をアーカイブされた質問の豊かさに巻き込むのが自然である。 従来の方法は通常、答えを対応する質問の拡張表現として活用する一方的な方法を取る。 残念ながらこれは、答えが長く多様であり、性能が劣るため、類似性計算に予期せぬノイズをもたらす可能性がある。 本研究では,この回答を2つの質問の橋渡しとして利用する2つの方法を提案する。 キーとなるアイデアは、同じような質問は回答の類似部分によって対処できるが、異なる質問はそうではない、という我々の見解に基づいている。 言い換えれば、2つの質問の一致するパターンを同じ回答で比較し、それらの類似性を測定することができる。 そこで本研究では,マッチングモデルであるMatch$^2$に対して,類似した問合せ識別のための2つの問合せ対のマッチングパターンを比較する。 2つのベンチマークデータセットでの実証実験により、同様の質問識別タスクにおいて、我々のモデルが以前の最先端の手法を大幅に上回ることができることを示した。

Community Question Answering (CQA) has become a primary means for people to acquire knowledge, where people are free to ask questions or submit answers. To enhance the efficiency of the service, similar question identification becomes a core task in CQA which aims to find a similar question from the archived repository whenever a new question is asked. However, it has long been a challenge to properly measure the similarity between two questions due to the inherent variation of natural language, i.e., there could be different ways to ask a same question or different questions sharing similar expressions. To alleviate this problem, it is natural to involve the existing answers for the enrichment of the archived questions. Traditional methods typically take a one-side usage, which leverages the answer as some expanded representation of the corresponding question. Unfortunately, this may introduce unexpected noises into the similarity computation since answers are often long and diverse, leading to inferior performance. In this work, we propose a two-side usage, which leverages the answer as a bridge of the two questions. The key idea is based on our observation that similar questions could be addressed by similar parts of the answer while different questions may not. In other words, we can compare the matching patterns of the two questions over the same answer to measure their similarity. In this way, we propose a novel matching over matching model, namely Match$^2$, which compares the matching patterns between two question-answer pairs for similar question identification. Empirical experiments on two benchmark datasets demonstrate that our model can significantly outperform previous state-of-the-art methods on the similar question identification task.
翻訳日:2022-11-18 12:22:55 公開日:2020-06-21
# 事前学習言語モデルを用いた明示的談話関係のラベル付け

Labeling Explicit Discourse Relations using Pre-trained Language Models ( http://arxiv.org/abs/2006.11852v1 )

ライセンス: Link先を確認
Murathan Kurfal{\i}(参考訳) 明示的な談話関係のラベル付けは、談話接続と議論の境界を識別することを目的とする浅層談話解析の最も難しい部分タスクの1つである。 最先端のモデルは手作りの機能を使ってf-scoreの45%をわずかに上回っている。 本稿では,本課題における事前学習言語モデルの有効性について検討する。 事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。 PDTB 2.0における本モデルの評価と,完全関係抽出における最先端結果の報告を行った。 モデルが言語的な特徴を使わずに知識集約型モデルを上回るのは、これが初めてです。

Labeling explicit discourse relations is one of the most challenging sub-tasks of the shallow discourse parsing where the goal is to identify the discourse connectives and the boundaries of their arguments. The state-of-the-art models achieve slightly above 45% of F-score by using hand-crafted features. The current paper investigates the efficacy of the pre-trained language models in this task. We find that the pre-trained language models, when finetuned, are powerful enough to replace the linguistic features. We evaluate our model on PDTB 2.0 and report the state-of-the-art results in the extraction of the full relation. This is the first time when a model outperforms the knowledge intensive models without employing any linguistic features.
翻訳日:2022-11-18 12:16:02 公開日:2020-06-21
# 深いゴール推論のための階層的強化学習:表現性分析

Hierarchical Reinforcement Learning for Deep Goal Reasoning: An Expressiveness Analysis ( http://arxiv.org/abs/2006.11704v1 )

ライセンス: Link先を確認
Weihang Yuan, H\'ector Mu\~noz-Avila(参考訳) 階層型DQN(h-DQN)は、フィードフォワードニューラルネットワークの2レベルアーキテクチャであり、メタレベルが目標を選択し、下位レベルが目標を達成するためにアクションを取る。 我々は、h-DQNで解決できないタスクを示し、このタイプの階層的フレームワーク(HF)の限界を実証する。 本稿では,リカレントニューラルネットワークを用いたアーキテクチャを一般化したrhf(recurrent hierarchical framework)について述べる。 文脈感性文法を用いてHFとRHFの表現性を解析する。 RHFはHFよりも表現力が高いことを示す。 rhfの実装と2つのhfベースラインを比較して実験を行い,理論的な結果と一致した。

Hierarchical DQN (h-DQN) is a two-level architecture of feedforward neural networks where the meta level selects goals and the lower level takes actions to achieve the goals. We show tasks that cannot be solved by h-DQN, exemplifying the limitation of this type of hierarchical framework (HF). We describe the recurrent hierarchical framework (RHF), generalizing architectures that use a recurrent neural network at the meta level. We analyze the expressiveness of HF and RHF using context-sensitive grammars. We show that RHF is more expressive than HF. We perform experiments comparing an implementation of RHF with two HF baselines; the results corroborate our theoretical findings.
翻訳日:2022-11-18 12:15:52 公開日:2020-06-21
# AI倫理の盲点:統計的予測における反脆弱性

A blindspot of AI ethics: anti-fragility in statistical prediction ( http://arxiv.org/abs/2006.11814v1 )

ライセンス: Link先を確認
Michele Loi and Lonneke van der Plas(参考訳) 本稿では,現在の議論で見過ごされているAI倫理の課題に課題を提起することを目的としている。 現在の議論は信頼性やバイアスといったトピックが中心ですが、私たちがフォーカスするべき問題は信頼性に関する議論とは正反対です。 私たちは、短期的な目標によって駆動され、エラーを避けるために最適化された現在支配的なaiシステムの過剰使用が、真の進歩に必要な多様性と柔軟性を失う社会につながることを恐れています。 我々は、反脆弱という用語に関する言論を軽視し、現在の意思決定方法が社会にどのような脅威をもたらすかを示す。

With this paper, we aim to put an issue on the agenda of AI ethics that in our view is overlooked in the current discourse. The current discussions are dominated by topics suchas trustworthiness and bias, whereas the issue we like to focuson is counter to the debate on trustworthiness. We fear that the overuse of currently dominant AI systems that are driven by short-term objectives and optimized for avoiding error leads to a society that loses its diversity and flexibility needed for true progress. We couch our concerns in the discourse around the term anti-fragility and show with some examples what threats current methods used for decision making pose for society.
翻訳日:2022-11-18 12:15:39 公開日:2020-06-21
# sparsely annotated datasetを用いた半教師付きオブジェクト検出

Semi-Supervised Object Detection with Sparsely Annotated Dataset ( http://arxiv.org/abs/2006.11692v1 )

ライセンス: Link先を確認
Jihun Yoon, Seungbum Hong, Sanha Jeong, Min-Kook Choi(参考訳) 畳み込みニューラルネットワークに基づく物体検出のトレーニングでは、トレーニングに有効な正の例の選択が重要である。 しかし,画像上のアノテーションの少ないアンカーベース検出器のトレーニングでは,効果的な陽性例を見つける努力がトレーニング性能を損なう可能性がある。 与えられたiouの下で正の例を集めるためにアンカーベースのトレーニングを使用する場合、現在のトレーニングクラスに他のクラスからのオブジェクトを含めることがしばしば可能であり、トレーニングが必要なオブジェクトは負の例としてしかサンプリングできない。 この問題を解決するのに 2つのアプローチを使いました 1)アンカーレス物体検出器の使用と 2)単一物体追跡装置を用いた半教師付き学習に基づく物体検出 提案手法は,逐次フレームの時間領域におけるアンカーとして疎アノテート境界ボックスを用いて,単一物体追跡を行う。 追跡結果から,画像の訓練のための濃密なアノテーションが自動生成され,物体検出装置の訓練に使用された。 提案したオブジェクト追跡に基づく半教師付き学習をEpic-Kitchensデータセットに適用した。 その結果,IoU > 0.5 の評価の下で,Epic-Kitchens 2020 オブジェクト検出課題のSeen セクションの初歩を達成しつつ,Unseen セクションで \textbf{runner-up} のパフォーマンスを達成できた。

In training object detector based on convolutional neural networks, selection of effective positive examples for training is an important factor. However, when training an anchor-based detectors with sparse annotations on an image, effort to find effective positive examples can hinder training performance. When using the anchor-based training for the ground truth bounding box to collect positive examples under given IoU, it is often possible to include objects from other classes in the current training class, or objects that are needed to be trained can only be sampled as negative examples. We used two approaches to solve this problem: 1) the use of an anchorless object detector and 2) a semi-supervised learning-based object detection using a single object tracker. The proposed technique performs single object tracking by using the sparsely annotated bounding box as an anchor in the temporal domain for successive frames. From the tracking results, dense annotations for training images were generated in an automated manner and used for training the object detector. We applied the proposed single object tracking-based semi-supervised learning to the Epic-Kitchens dataset. As a result, we were able to achieve \textbf{runner-up} performance in the Unseen section while achieving the first place in the Seen section of the Epic-Kitchens 2020 object detection challenge under IoU > 0.5 evaluation
翻訳日:2022-11-18 12:15:27 公開日:2020-06-21
# 高速かつ正確な顔アライメントのための構造コヒーレンスコンポーネント

Fast and Accurate: Structure Coherence Component for Face Alignment ( http://arxiv.org/abs/2006.11697v1 )

ライセンス: Link先を確認
Beier Zhu, Chunze Lin, Quan Wang, Renjie Liao, Chen Qian(参考訳) 本稿では,顔アライメントのための高速かつ正確な座標回帰法を提案する。 特徴写像をランドマーク座標に変換するために、通常は完全に連結された層を用いる既存の顔ランドマーク回帰法とは異なり、顔ランドマーク間の関係を明示的に考慮する構造コヒーレンス成分を提示する。 ヒトの顔の幾何学的構造のため、異なる顔部分間の構造的コヒーレンスは、顔のランドマークを効果的に位置づけするための重要な手がかりとなる。 しかし、完全連結層における密接な接続はそのようなコヒーレンスを過大に利用し、すべての接続と区別できない重要な手がかりとなる。 その代わり、我々の構造コヒーレンス成分は、動的スパースグラフ構造を利用して、最も関連するランドマークの中で特徴を渡す。 さらに, 精度を向上させるために, ソフトウイング損失と呼ばれる新しい目的関数を提案する。 WFLW, COFW, 300W の3つのベンチマークにおいて, 提案手法の有効性を実証し, 高速で最先端性能を実現する。 当社のアプローチは,cofwおよびwflwデータセットにおいて,極めて低い障害率(0%と2.88%)を実現した課題に対して,特に堅牢です。

In this paper, we propose a fast and accurate coordinate regression method for face alignment. Unlike most existing facial landmark regression methods which usually employ fully connected layers to convert feature maps into landmark coordinate, we present a structure coherence component to explicitly take the relation among facial landmarks into account. Due to the geometric structure of human face, structure coherence between different facial parts provides important cues for effectively localizing facial landmarks. However, the dense connection in the fully connected layers overuses such coherence, making the important cues unable to be distinguished from all connections. Instead, our structure coherence component leverages a dynamic sparse graph structure to passing features among the most related landmarks. Furthermore, we propose a novel objective function, named Soft Wing loss, to improve the accuracy. Extensive experiments on three popular benchmarks, including WFLW, COFW and 300W, demonstrate the effectiveness of the proposed method, achieving state-of-the-art performance with fast speed. Our approach is especially robust to challenging cases resulting in impressively low failure rate (0% and 2.88%) in COFW and WFLW datasets.
翻訳日:2022-11-18 12:14:59 公開日:2020-06-21
# 知覚的グループ化を支援する学習コンパクト一般化型ニューラルネットワーク表現

Learning compact generalizable neural representations supporting perceptual grouping ( http://arxiv.org/abs/2006.11716v1 )

ライセンス: Link先を確認
Vijay Veerabadran, Virginia R. de Sa(参考訳) 視覚科学と深層学習の交差点での作業は、視覚認識とセグメンテーションの根底にある知覚的グループ化問題の解決において、深層畳み込みネットワーク(DCN)と繰り返しネットワークの有効性を探求し始めている。 本稿では,DCNソリューションのコンパクト性と一般化性について検討し,輪郭積分を含む低レベルの知覚的グループ化ルーチンを学習する。 v1netは、皮質回路の至る所に存在する側方接続を組み込んだバイオインスパイアされたリカレントユニットである。 DCNのフィードフォワード畳み込み層をV1Netモジュールで置き換えることで、知覚的グループ化のためのコンテキスト視覚処理サポートを強化することができる。 我々は、V1Net-DCNの学習効率と精度を、MarkedLongの14の慎重に選択されたフィードフォワードおよびリカレントニューラルネットワーク(最先端DCNを含む)と比較する。 そこで我々は,PathFinderの学習を微調整したMarkedLongで学習した候補モデルの伝達学習性能を測定し,解の一般化性を測定した。 以上の結果から,V1Net-DCNはより訓練可能なパラメータの5倍から1000倍のパラメータを含む全比較モデルにおいて,テスト精度とサンプル効率を比較・比較し,V1Net-DCNがMarkedLongに対して最もコンパクトな一般化可能な解を学習することを示す。 V1Net-DCNの時間ダイナミクスの可視化は、MarkedLongを解くための解釈可能なグループ計算の利用を解明する。 V1Net-DCNのコンパクトでリッチな表現は、デバイス上のマシンビジョンアルゴリズムを構築するだけでなく、生物学的皮質回路の理解を深める上で有望な候補となる。

Work at the intersection of vision science and deep learning is starting to explore the efficacy of deep convolutional networks (DCNs) and recurrent networks in solving perceptual grouping problems that underlie primate visual recognition and segmentation. Here, we extend this line of work to investigate the compactness and generalizability of DCN solutions to learning low-level perceptual grouping routines involving contour integration. We introduce V1Net, a bio-inspired recurrent unit that incorporates lateral connections ubiquitous in cortical circuitry. Feedforward convolutional layers in DCNs can be substituted with V1Net modules to enhance their contextual visual processing support for perceptual grouping. We compare the learning efficiency and accuracy of V1Net-DCNs to that of 14 carefully selected feedforward and recurrent neural architectures (including state-of-the-art DCNs) on MarkedLong -- a synthetic forced-choice contour integration dataset of 800,000 images we introduce here -- and the previously published Pathfinder contour integration benchmarks. We gauged solution generalizability by measuring the transfer learning performance of our candidate models trained on MarkedLong that were fine-tuned to learn PathFinder. Our results demonstrate that a compact 3-layer V1Net-DCN matches or outperforms the test accuracy and sample efficiency of all tested comparison models which contain between 5x and 1000x more trainable parameters; we also note that V1Net-DCN learns the most compact generalizable solution to MarkedLong. A visualization of the temporal dynamics of a V1Net-DCN elucidates its usage of interpretable grouping computations to solve MarkedLong. The compact and rich representations of V1Net-DCN also make it a promising candidate to build on-device machine vision algorithms as well as help better understand biological cortical circuitry.
翻訳日:2022-11-18 12:14:17 公開日:2020-06-21
# Pose Trainer: Pose Estimation を用いた運動姿勢の修正

Pose Trainer: Correcting Exercise Posture using Pose Estimation ( http://arxiv.org/abs/2006.11718v1 )

ライセンス: Link先を確認
Steven Chen and Richard R. Yang(参考訳) フィットネスのエクササイズは、個人の健康やフィットネスにとって非常に有益であるが、ユーザーが誤って行えば、効果がなく、潜在的に危険であることもある。 エクササイズミスは、ユーザが適切なフォームやポーズを使用しない場合に発生する。 本研究では,ユーザの運動姿勢を検知し,ユーザのフォーム改善方法に関するパーソナライズされた詳細なレコメンデーションを提供するアプリケーションであるposits trainerを紹介する。 Pose Trainerは、ポーズ推定にポーズの状態を使用してユーザのポーズを検出し、エクササイズを通じてポーズのベクトル幾何学を評価し、有用なフィードバックを提供する。 100以上のエクササイズビデオのデータセットを個人のトレーニングガイドラインに基づいて記録し,幾何学的ヒューリスティックと機械学習による評価アルゴリズムを構築した。 Pose Trainerは4つの一般的なエクササイズで動作し、GPUを備えたWindowsまたはLinuxコンピュータをサポートする。

Fitness exercises are very beneficial to personal health and fitness; however, they can also be ineffective and potentially dangerous if performed incorrectly by the user. Exercise mistakes are made when the user does not use the proper form, or pose. In our work, we introduce Pose Trainer, an application that detects the user's exercise pose and provides personalized, detailed recommendations on how the user can improve their form. Pose Trainer uses the state of the art in pose estimation to detect a user's pose, then evaluates the vector geometry of the pose through an exercise to provide useful feedback. We record a dataset of over 100 exercise videos of correct and incorrect form, based on personal training guidelines, and build geometric-heuristic and machine learning algorithms for evaluation. Pose Trainer works on four common exercises and supports any Windows or Linux computer with a GPU.
翻訳日:2022-11-18 12:13:38 公開日:2020-06-21
# NOMAベースのMECにおけるフェデレーション学習のためのスケジューリングポリシーとパワーアロケーション

Scheduling Policy and Power Allocation for Federated Learning in NOMA Based MEC ( http://arxiv.org/abs/2006.13044v1 )

ライセンス: Link先を確認
Xiang Ma, Haijian Sun, Rose Qingyang Hu(参考訳) Federated Learning(FL)は、データ分散を維持しながらモデルを集中的にトレーニングできる、高度に追求された機械学習技術である。 分散計算は帯域幅の制限されたアプリケーション、特に無線通信においてflを魅力的にする。 中央パラメータサーバ(PS)に接続された多数の分散エッジデバイスがあり、PSへのデータを反復的にダウンロード/アップロードすることができる。 帯域幅が限られているため、接続されたデバイスのサブセットのみが各ラウンドでスケジュールできる。 ディープラーニングのような最先端の機械学習モデルには、通常数百万のパラメータがあり、計算の複雑さが高まり、トレーニングのためのデータの収集と配布に通信の負担がかかる。 通信効率を向上し,トレーニングモデルをより高速に収束させるため,非直交多重アクセス(NOMA)設定を用いた新たなスケジューリングポリシと電力割当方式を提案し,学習過程全体において,重み付き和データレートを最大化する。 NOMAは複数のユーザが同時に同じチャンネルで送信することができる。 ユーザスケジューリング問題は、グラフ理論を用いて解くことができる最大ウェイト独立セット問題に変換される。 シミュレーションの結果,提案するスケジューリングと電力割当方式は,既存の方式よりもnomaベースの無線ネットワークにおいて高いflテスト精度を達成することができることがわかった。

Federated learning (FL) is a highly pursued machine learning technique that can train a model centrally while keeping data distributed. Distributed computation makes FL attractive for bandwidth limited applications especially in wireless communications. There can be a large number of distributed edge devices connected to a central parameter server (PS) and iteratively download/upload data from/to the PS. Due to the limited bandwidth, only a subset of connected devices can be scheduled in each round. There are usually millions of parameters in the state-of-art machine learning models such as deep learning, resulting in a high computation complexity as well as a high communication burden on collecting/distributing data for training. To improve communication efficiency and make the training model converge faster, we propose a new scheduling policy and power allocation scheme using non-orthogonal multiple access (NOMA) settings to maximize the weighted sum data rate under practical constraints during the entire learning process. NOMA allows multiple users to transmit on the same channel simultaneously. The user scheduling problem is transformed into a maximum-weight independent set problem that can be solved using graph theory. Simulation results show that the proposed scheduling and power allocation scheme can help achieve a higher FL testing accuracy in NOMA based wireless networks than other existing schemes.
翻訳日:2022-11-18 12:06:12 公開日:2020-06-21
# 乳がん画像からの深層学習の教師なし学習

Unsupervised Learning of Deep-Learned Features from Breast Cancer Images ( http://arxiv.org/abs/2006.11843v1 )

ライセンス: Link先を確認
Sanghoon Lee, Colton Farley, Simon Shim, Yanjun Zhao, Wookjin Choi, Wook-Sung Yoo(参考訳) スライド画像全体において手動で癌を検出するには, 多大な時間と労力を要する。 近年のスライド画像解析の進歩は、がん疾患の診断における効率と有効性を改善する機械学習ベースのアプローチの成長と発展を刺激している。 本稿では,乳腺浸潤癌(BRCA)全スライド画像における癌検出のための教師なし学習手法を提案する。 提案手法は完全に自動化され,教師なし学習手順では人間の関与は不要である。 BRCAにおけるがん検出手法の有効性を実証し, 教師なし学習過程において, マシンが最適なクラスタを選択する方法を示す。 さらに,スライド画像全体において,グループに関連するすべての領域をマッピングする関連グループをユーザが選択できるプロトタイプアプリケーションを提案する。

Detecting cancer manually in whole slide images requires significant time and effort on the laborious process. Recent advances in whole slide image analysis have stimulated the growth and development of machine learning-based approaches that improve the efficiency and effectiveness in the diagnosis of cancer diseases. In this paper, we propose an unsupervised learning approach for detecting cancer in breast invasive carcinoma (BRCA) whole slide images. The proposed method is fully automated and does not require human involvement during the unsupervised learning procedure. We demonstrate the effectiveness of the proposed approach for cancer detection in BRCA and show how the machine can choose the most appropriate clusters during the unsupervised learning procedure. Moreover, we present a prototype application that enables users to select relevant groups mapping all regions related to the groups in whole slide images.
翻訳日:2022-11-18 12:05:52 公開日:2020-06-21
# 顔面フォージェリー検出のための一般化ゼロとFew-Shot転送

Generalized Zero and Few-Shot Transfer for Facial Forgery Detection ( http://arxiv.org/abs/2006.11863v1 )

ライセンス: Link先を確認
Shivangi Aneja and Matthias Nie{\ss}ner(参考訳) 本稿では,顔偽造検出の文脈におけるゼロおよび少数ショット転送の問題に対処する新しい伝達学習手法であるDeep Distribution Transfer (DDT)を提案する。 我々は,あるフォージェリ生成法で訓練されたモデルが,これまで見つからなかった操作手法や異なるデータセットに対して,いかに一般化するかを検討する。 この転送を容易にするために,ソースフォーガリー法の下位データのクラスカテゴリに対応するモードを用いて,マルチモーダル分布を学習する混合モデルに基づく損失定式化を提案する。 私たちの中核となる考え方は、まずエンコーダニューラルネットワークを事前訓練することであり、この分布の各モードを各クラスラベル、すなわちソースドメイン内の実または偽の画像にマッピングする。 このモデルを新しいドメインに転送するために、いくつかのターゲットサンプルと以前にトレーニングされたモードの1つを関連付ける。 さらに,領域間の一般化をさらに支援する空間ミックスアップ拡張戦略を提案する。 この学習戦略は従来の分類法や最先端のドメイン適応/ファウショット学習法と比較して驚くほど効果的である。 例えば、最良のベースラインと比較して、ゼロショットでは4.88%、faceforensics++からdessaデータセットに転送される数少ないケースでは8.38%の精度で分類精度を向上させる。

We propose Deep Distribution Transfer(DDT), a new transfer learning approach to address the problem of zero and few-shot transfer in the context of facial forgery detection. We examine how well a model (pre-)trained with one forgery creation method generalizes towards a previously unseen manipulation technique or different dataset. To facilitate this transfer, we introduce a new mixture model-based loss formulation that learns a multi-modal distribution, with modes corresponding to class categories of the underlying data of the source forgery method. Our core idea is to first pre-train an encoder neural network, which maps each mode of this distribution to the respective class labels, i.e., real or fake images in the source domain by minimizing wasserstein distance between them. In order to transfer this model to a new domain, we associate a few target samples with one of the previously trained modes. In addition, we propose a spatial mixup augmentation strategy that further helps generalization across domains. We find this learning strategy to be surprisingly effective at domain transfer compared to a traditional classification or even state-of-the-art domain adaptation/few-shot learning methods. For instance, compared to the best baseline, our method improves the classification accuracy by 4.88% for zero-shot and by 8.38% for the few-shot case transferred from the FaceForensics++ to Dessa dataset.
翻訳日:2022-11-18 12:05:40 公開日:2020-06-21
# 回転不変深部CBIR

Rotation Invariant Deep CBIR ( http://arxiv.org/abs/2006.13046v1 )

ライセンス: Link先を確認
Subhadip Maji and Smarajit Bose(参考訳) 畳み込みニューラルネットワークの導入は、ほぼすべての画像ベース問題の結果を改善し、コンテンツベースイメージ検索は例外ではない。 しかし、回転不変であるcnnの特徴は、回転不変なcbirシステムを構築するための問題を引き起こす。 回転不変機能は手動で行うことができるが、手動工学では低レベルの機能しか生成できないため、低レベルの機能とともに高レベルの機能を生成するディープラーニングモデルとは異なり、検索精度は非常に低い。 本稿では,CBIR特徴抽出モデルとともに深層学習方向角検出モデルを導入することにより,回転不変CBIRシステムを構築する新しい手法を提案する。 また、この回転不変な深部CBIRは、大規模データセットから画像をリアルタイムで取得できることを強調した。

Introduction of Convolutional Neural Networks has improved results on almost every image-based problem and Content-Based Image Retrieval is not an exception. But the CNN features, being rotation invariant, creates problems to build a rotation-invariant CBIR system. Though rotation-invariant features can be hand-engineered, the retrieval accuracy is very low because by hand engineering only low-level features can be created, unlike deep learning models that create high-level features along with low-level features. This paper shows a novel method to build a rotational invariant CBIR system by introducing a deep learning orientation angle detection model along with the CBIR feature extraction model. This paper also highlights that this rotation invariant deep CBIR can retrieve images from a large dataset in real-time.
翻訳日:2022-11-18 12:05:14 公開日:2020-06-21
# 深部像方位角検出

Deep Image Orientation Angle Detection ( http://arxiv.org/abs/2007.06709v1 )

ライセンス: Link先を確認
Subhadip Maji and Smarajit Bose(参考訳) 画像の向き角を推定して修正するのは、かなり難しい作業です。 初期の研究では、畳み込み型ニューラルネットワークを用いたディープラーニングの発明後、この問題に著しい改善が見られた。 しかし,CNNと特別に角度用に設計されたカスタム損失関数の組み合わせは,最先端の成果をもたらすことを示す。 これには、任意の程度(0から360度)の任意の画像や文書の向き角の推定が含まれる。

Estimating and rectifying the orientation angle of any image is a pretty challenging task. Initial work used the hand engineering features for this purpose, where after the invention of deep learning using convolution-based neural network showed significant improvement in this problem. However, this paper shows that the combination of CNN and a custom loss function specially designed for angles lead to a state-of-the-art results. This includes the estimation of the orientation angle of any image or document at any degree (0 to 360 degree),
翻訳日:2022-11-18 12:05:02 公開日:2020-06-21
# 小規模データ環境のためのデータ駆動市場シミュレータ

A Data-driven Market Simulator for Small Data Environments ( http://arxiv.org/abs/2006.14498v1 )

ライセンス: Link先を確認
Hans B\"uhler, Blanka Horvath, Terry Lyons, Imanol Perez Arribas, and Ben Wood(参考訳) ニューラルネットワークベースのデータ駆動市場シミュレーションは、基盤となる確率的ダイナミクスを前提にすることなく、金融時系列をモデリングする新しい柔軟な方法を公開する。 この意味では、生成市場シミュレーションはモデルフリーであるが、具体的なモデリングの選択はシミュレーションパスの特徴に対して決定的である。 金融時系列における現在使われている生成的モデリング手法と性能評価指標の概要を概観し、後者で良い結果を得るための課題をいくつか取り上げる。 また,市場シミュレーションの古典的手法と生成的モデリングに基づくシミュレーションを対比し,新しい手法の利点と落とし穴を浮き彫りにする。 ほとんどの生成モデルは大量のトレーニングデータに依存する傾向がありますが、ここでは利用可能なトレーニングデータの量が小さい環境で確実に機能する生成モデルを示します。 さらに,学習データが少ない環境において,大まかなパスパースペクティブと相似な変動オートエンコーダフレームワークが,財務時系列のエンコーディングと評価を行う強力な方法を提供することを示す。 最後に,金融時系列に適した性能評価指標を提案し,マーケットジェネレータとディープヘッジとの関係について考察する。

Neural network based data-driven market simulation unveils a new and flexible way of modelling financial time series without imposing assumptions on the underlying stochastic dynamics. Though in this sense generative market simulation is model-free, the concrete modelling choices are nevertheless decisive for the features of the simulated paths. We give a brief overview of currently used generative modelling approaches and performance evaluation metrics for financial time series, and address some of the challenges to achieve good results in the latter. We also contrast some classical approaches of market simulation with simulation based on generative modelling and highlight some advantages and pitfalls of the new approach. While most generative models tend to rely on large amounts of training data, we present here a generative model that works reliably in environments where the amount of available training data is notoriously small. Furthermore, we show how a rough paths perspective combined with a parsimonious Variational Autoencoder framework provides a powerful way for encoding and evaluating financial time series in such environments where available training data is scarce. Finally, we also propose a suitable performance evaluation metric for financial time series and discuss some connections of our Market Generator to deep hedging.
翻訳日:2022-11-18 12:04:57 公開日:2020-06-21
# 詳細関係を考慮した大規模事象知識グラフの強化

Enriching Large-Scale Eventuality Knowledge Graph with Entailment Relations ( http://arxiv.org/abs/2006.11824v1 )

ライセンス: Link先を確認
Changlong Yu, Hongming Zhang, Yangqiu Song, Wilfred Ng, Lifeng Shang(参考訳) 計算と認知の研究は、人間が日常の出来事を理解するのに、結果(活動、状態、出来事)の抽象化が不可欠であることを示唆している。 本稿では,「リンゴ」は「果物」を包含する)事象間の関係をモデル化するためのスケーラブルなアプローチを提案する。 その結果,1000万個の事象ノードと1億3300万個のエッジを持つ大規模事象包含グラフ(EEG)を構築した。 詳細な実験と分析は、提案手法の有効性と得られた知識グラフの品質を示す。 データセットとコードはhttps://github.com/HKUST-KnowComp/ASER-EEG.comで公開されています。

Computational and cognitive studies suggest that the abstraction of eventualities (activities, states, and events) is crucial for humans to understand daily eventualities. In this paper, we propose a scalable approach to model the entailment relations between eventualities ("eat an apple'' entails ''eat fruit''). As a result, we construct a large-scale eventuality entailment graph (EEG), which has 10 million eventuality nodes and 103 million entailment edges. Detailed experiments and analysis demonstrate the effectiveness of the proposed approach and quality of the resulting knowledge graph. Our datasets and code are available at https://github.com/HKUST-KnowComp/ASER-EEG.
翻訳日:2022-11-18 12:04:38 公開日:2020-06-21
# 共分散表現と時間的プルーニングを用いた行動認識のための部分空間クラスタリング

Subspace Clustering for Action Recognition with Covariance Representations and Temporal Pruning ( http://arxiv.org/abs/2006.11812v1 )

ライセンス: Link先を確認
Giancarlo Paoletti, Jacopo Cavazza, Cigdem Beyan and Alessio Del Bue(参考訳) 本稿では、骨格データから、どのアクションがトリミングシーケンスで表示されるかの分類として定義される人間の行動認識の問題に取り組む。 このアプリケーションのために設計された最先端のアプローチはすべて教師付きですが、この論文ではより難しい方向を追求しています。 そこで本研究では,行動の識別性を高めるために共分散行列を利用する新しいサブスペースクラスタリング法と,データの時間次元をよりよく扱えるタイムスタンプ・プルーニング手法を提案する。 幅広い実験による検証により,計算パイプラインが既存の教師なし手法を上回っており,教師なし手法に比べて良好な性能が得られることを示した。

This paper tackles the problem of human action recognition, defined as classifying which action is displayed in a trimmed sequence, from skeletal data. Albeit state-of-the-art approaches designed for this application are all supervised, in this paper we pursue a more challenging direction: Solving the problem with unsupervised learning. To this end, we propose a novel subspace clustering method, which exploits covariance matrix to enhance the action's discriminability and a timestamp pruning approach that allow us to better handle the temporal dimension of the data. Through a broad experimental validation, we show that our computational pipeline surpasses existing unsupervised approaches but also can result in favorable performances as compared to supervised methods.
翻訳日:2022-11-18 11:59:08 公開日:2020-06-21
# 粒子群最適化のモジュールハイブリッド化と微分進化

A Modular Hybridization of Particle Swarm Optimization and Differential Evolution ( http://arxiv.org/abs/2006.11886v1 )

ライセンス: Link先を確認
Rick Boks, Hao Wang, Thomas B\"ack(参考訳) スウォームインテリジェンスでは、多くの最適化タスクにおいて、Particle Swarm Optimization (PSO) と Differential Evolution (DE) がうまく適用されており、新しいアルゴリズム演算子やコンポーネントが実装された多くの変種が経験的性能を高めるために導入された。 本稿では,まず,各アルゴリズムをモジュール化し,その変形を対応するモジュールの異なる選択肢として組み込むことにより,psoやdeの変種を組み合わせることを提案する。 そこで, PSO と DE の内積の類似性を考慮すると, PSO と DE の変動演算子を持つ2つの集団を生成し, これら2つの集団から個人を選択することによって,アルゴリズムをハイブリダイズする。 psodeと呼ばれる新しいハイブリダイゼーションは、両サイドの最新の変種を包含しており、さらに重要なことは、モジュールの異なるインスタンス化によって、膨大な数のswarmアルゴリズムを生み出している。 具体的には,既存のpsoアルゴリズムとdeアルゴリズムから派生した16種類の変分演算子を考察し,4種類の選択演算子を組み合わせることで,ハイブリダイゼーションフレームワークが800個の新しいアルゴリズムを生成することを可能とした。 結果として得られたハイブリッドアルゴリズムと、考慮された演算子で生成できる30のPSOとDEアルゴリズムの組み合わせは、よく知られたCOCO/BBOBベンチマークスイートから、複数の関数群と次元にわたって24の問題をテストした。

In swarm intelligence, Particle Swarm Optimization (PSO) and Differential Evolution (DE) have been successfully applied in many optimization tasks, and a large number of variants, where novel algorithm operators or components are implemented, has been introduced to boost the empirical performance. In this paper, we first propose to combine the variants of PSO or DE by modularizing each algorithm and incorporating the variants thereof as different options of the corresponding modules. Then, considering the similarity between the inner workings of PSO and DE, we hybridize the algorithms by creating two populations with variation operators of PSO and DE respectively, and selecting individuals from those two populations. The resulting novel hybridization, called PSODE, encompasses most up-to-date variants from both sides, and more importantly gives rise to an enormous number of unseen swarm algorithms via different instantiations of the modules therein. In detail, we consider 16 different variation operators originating from existing PSO- and DE algorithms, which, combined with 4 different selection operators, allow the hybridization framework to generate 800 novel algorithms. The resulting set of hybrid algorithms, along with the combined 30 PSO- and DE algorithms that can be generated with the considered operators, is tested on the 24 problems from the well-known COCO/BBOB benchmark suite, across multiple function groups and dimensionalities.
翻訳日:2022-11-18 11:58:54 公開日:2020-06-21
# クープマンモード解析のニューラルネットワークへの応用

Applications of Koopman Mode Analysis to Neural Networks ( http://arxiv.org/abs/2006.11765v1 )

ライセンス: Link先を確認
Iva Manojlovi\'c, Maria Fonoberova, Ryan Mohr, Aleksandr Andrej\v{c}uk, Zlatko Drma\v{c}, Yannis Kevrekidis, Igor Mezi\'c(参考訳) 我々は,ニューラルネットワークのトレーニング過程を,高次元の重み空間に作用する力学系と考える。 各エポックは最適化アルゴリズムと損失関数によって誘導されるマップの応用である。 この誘導写像を用いて、重み空間に可観測物を適用し、それらの進化を測定することができる。 可観測物の進化は、誘導力学系に関連するクープマン作用素によって与えられる。 上記の目的を達成するために、koopman演算子のスペクトルとモードを使用する。 我々の手法は、優先順位によってネットワーク深さを決定するのに役立ち、ネットワークウェイトの初期化が悪いかどうかを判断し、トレーニングに時間がかかりすぎる前に再起動を可能にし、トレーニング時間を短縮する。 さらに,本手法は雑音の低減とロバスト性の向上に有効である。 アーキテクチャに必要なレイヤ数を決定するために、Koopmanスペクトルをどのように利用できるかを示す。 さらに、スペクトルを監視することにより、学習過程の収束と非収束を解明する方法、特に1周囲に集束する固有値の存在が学習過程の終了時期を決定する方法を示す。 また、Koopmanモードを使えば、ネットワークを選択的にプーンしてトレーニング手順を高速化できることを示す。 最後に、負のソボレフノルムに基づく損失関数を組み込むことで、非常に大量のノイズに汚染されたマルチスケール信号の再構成が可能となることを示す。

We consider the training process of a neural network as a dynamical system acting on the high-dimensional weight space. Each epoch is an application of the map induced by the optimization algorithm and the loss function. Using this induced map, we can apply observables on the weight space and measure their evolution. The evolution of the observables are given by the Koopman operator associated with the induced dynamical system. We use the spectrum and modes of the Koopman operator to realize the above objectives. Our methods can help to, a priori, determine the network depth; determine if we have a bad initialization of the network weights, allowing a restart before training too long; speeding up the training time. Additionally, our methods help enable noise rejection and improve robustness. We show how the Koopman spectrum can be used to determine the number of layers required for the architecture. Additionally, we show how we can elucidate the convergence versus non-convergence of the training process by monitoring the spectrum, in particular, how the existence of eigenvalues clustering around 1 determines when to terminate the learning process. We also show how using Koopman modes we can selectively prune the network to speed up the training procedure. Finally, we show that incorporating loss functions based on negative Sobolev norms can allow for the reconstruction of a multi-scale signal polluted by very large amounts of noise.
翻訳日:2022-11-18 11:57:16 公開日:2020-06-21
# Network Moments: 拡張とスムーズな攻撃

Network Moments: Extensions and Sparse-Smooth Attacks ( http://arxiv.org/abs/2006.11776v1 )

ライセンス: Link先を確認
Modar Alfadly, Adel Bibi, Emilio Botero, Salman Alsubaihi and Bernard Ghanem(参考訳) ディープニューラルネットワーク(DNN)の印象的な性能は、理論的にその効果を分析することを目的とした研究のラインを大幅に強化した。 これはDNNのノイズ入力に対する反応、すなわち敵の入力攻撃とこれらの攻撃に堅牢なDNNに繋がる戦略の研究を刺激している。 そこで本稿では,ガウス入力を受ける小片方向線形(PL)ネットワーク(Affine,ReLU,Affine)の第1モーメントと第2モーメント(平均と分散)の正確な解析式を導出する。 特に、Bibi et al. の第二モーメント表現を任意の入力ガウス分布に一般化し、ゼロ平均仮定を省略する。 新たな分散式を効率的に近似することができ,bibi等の予備結果に比べ,より厳密な分散推定が可能となった。 さらに,これらの表現はより深いPL-DNNの単純な線形化の下で厳密であることが実験的に示され,線形化感度がモーメント推定の精度に及ぼす影響について検討した。 最後に, この表現は, 知覚的に可能な入力攻撃につながる傾向のある, スパースかつスムースなガウス逆攻撃(標的と非標的)を構築できることを示す。

The impressive performance of deep neural networks (DNNs) has immensely strengthened the line of research that aims at theoretically analyzing their effectiveness. This has incited research on the reaction of DNNs to noisy input, namely developing adversarial input attacks and strategies that lead to robust DNNs to these attacks. To that end, in this paper, we derive exact analytic expressions for the first and second moments (mean and variance) of a small piecewise linear (PL) network (Affine, ReLU, Affine) subject to Gaussian input. In particular, we generalize the second-moment expression of Bibi et al. to arbitrary input Gaussian distributions, dropping the zero-mean assumption. We show that the new variance expression can be efficiently approximated leading to much tighter variance estimates as compared to the preliminary results of Bibi et al. Moreover, we experimentally show that these expressions are tight under simple linearizations of deeper PL-DNNs, where we investigate the effect of the linearization sensitivity on the accuracy of the moment estimates. Lastly, we show that the derived expressions can be used to construct sparse and smooth Gaussian adversarial attacks (targeted and non-targeted) that tend to lead to perceptually feasible input attacks.
翻訳日:2022-11-18 11:56:53 公開日:2020-06-21
# 選挙人ダビデ対ゴリアス:選挙人の空間集中は地方選挙にどのように影響するか?

Electoral David vs Goliath: How does the Spatial Concentration of Electors affect District-based Elections? ( http://arxiv.org/abs/2006.11865v1 )

ライセンス: Link先を確認
Adway Mitra(参考訳) 多くの民主国は、行政機関内の各地区に「議席」がある地区ベースの選挙を行っている。 各地区では、候補者が最大得票数を得る政党が対応する議席を獲得する。 選挙の結果は、異なる政党が獲得した議席数に基づいて決定される。 投票者(投票者)は自宅の地区でのみ投票を行うことができる。 したがって、異なる政党の支持率(投票者数)が変わらずであっても、選挙人の位置と選挙区の境界は選挙結果に重大な影響を及ぼす可能性がある。 このことが、選挙区が再選されるか、選挙人が特定の政党の議席を最大化するために移されるかに関するかなりの研究に繋がった。 本稿では,選挙人の空間分布を確率的設定で表し,異なる政党の支持者の空間集中度や党派に有利な選挙人の地区内分極を捉えるために,異なるモデルを探索する。 私たちのモデルは、異なる政党の支持者が特定の地区に集中する傾向があるインドの選挙にインスパイアされている。 インドで実施されている実選挙の統計特性を,我々のモデルで把握できることを示す。 我々は、予測した選挙結果に適合するパラメータ推定問題を考察する。 確率関数の解析的計算は複素モデルでは不可能であるため、近似ベイズ計算フレームワークの下でLikelihood-free Inference法を用いる。 このアプローチは非常に時間を要するため、ロジスティック回帰やディープニューラルネットワークを用いた教師付き回帰を用いて、それを高速化する方法を探る。 また,政党の支持率が一定であっても,有権者の空間分布を変化させることで選挙結果をどう変えるかを検討する。

Many democratic countries use district-based elections where there is a "seat" for each district in the governing body. In each district, the party whose candidate gets the maximum number of votes wins the corresponding seat. The result of the election is decided based on the number of seats won by the different parties. The electors (voters) can cast their votes only in the district of their residence. Thus, locations of the electors and boundaries of the districts may severely affect the election result even if the proportion of popular support (number of electors) of different parties remains unchanged. This has led to significant amount of research on whether the districts may be redrawn or electors may be moved to maximize seats for a particular party. In this paper, we frame the spatial distribution of electors in a probabilistic setting, and explore different models to capture the intra-district polarization of electors in favour of a party, or the spatial concentration of supporters of different parties. Our models are inspired by elections in India, where supporters of different parties tend to be concentrated in certain districts. We show with extensive simulations that our model can capture different statistical properties of real elections held in India. We frame parameter estimation problems to fit our models to the observed election results. Since analytical calculation of the likelihood functions are infeasible for our complex models, we use Likelihood-free Inference methods under the Approximate Bayesian Computation framework. Since this approach is highly time-consuming, we explore how supervised regression using Logistic Regression or Deep Neural Networks can be used to speed it up. We also explore how the election results can change by varying the spatial distributions of the voters, even when the proportions of popular support of the parties remain constant.
翻訳日:2022-11-18 11:56:15 公開日:2020-06-21
# エージェントのカースを破る:Q-Iterationを組み込んだ平均強化学習

Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration for Mean-Field Reinforcement Learning ( http://arxiv.org/abs/2006.11917v1 )

ライセンス: Link先を確認
Lingxiao Wang, Zhuoran Yang, Zhaoran Wang(参考訳) マルチエージェント強化学習(MARL)は経験的成功を収める。 しかし、MARLは多くのエージェントの呪いに苦しむ。 本稿では,MARLにおけるエージェントの対称性を利用する。 最も一般的な形で、平均場 MARL 問題を研究する。 そのような平均場 MARL は、連続空間上で支持される分布である平均場状態上で定義される。 分布の平均埋め込みに基づいて、平均場MARLを解くMF-FQIアルゴリズムを提案し、MF-FQIアルゴリズムの非漸近解析を確立する。 MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。

Multi-agent reinforcement learning (MARL) achieves significant empirical successes. However, MARL suffers from the curse of many agents. In this paper, we exploit the symmetry of agents in MARL. In the most generic form, we study a mean-field MARL problem. Such a mean-field MARL is defined on mean-field states, which are distributions that are supported on continuous space. Based on the mean embedding of the distributions, we propose MF-FQI algorithm that solves the mean-field MARL and establishes a non-asymptotic analysis for MF-FQI algorithm. We highlight that MF-FQI algorithm enjoys a "blessing of many agents" property in the sense that a larger number of observed agents improves the performance of MF-FQI algorithm.
翻訳日:2022-11-18 11:49:39 公開日:2020-06-21
# vaem:異種混合型データのための深い生成モデル

VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data ( http://arxiv.org/abs/2006.11941v1 )

ライセンス: Link先を確認
Chao Ma, Sebastian Tschiatschek, Jos\'e Miguel Hern\'andez-Lobato, Richard Turner, Cheng Zhang(参考訳) 深層生成モデルは、自然データセットの不均一性のため、実世界のアプリケーションではよく機能しない。 異質性は、異なる種類の特徴(カテゴリー、順序、連続など)を含むデータと、異なる境界分布を持つ同じタイプの特徴から生じる。 このような異種データを扱うためにVAEMと呼ばれる変分オートエンコーダの拡張を提案する。 VAEMは、第1段階がより均一なデータの表現を第2段階に提供し、不均一なデータによって引き起こされる問題をサイドステッピングするように、2段階的に訓練された深層生成モデルである。 VAEMの拡張により、部分的に観測されたデータを処理するとともに、データ生成、データ予測の欠如、シーケンシャルな特徴選択タスクのパフォーマンスを示す。 この結果から,VAEMは深層生成モデルをうまく展開できる現実世界のアプリケーションの範囲を広げることができた。

Deep generative models often perform poorly in real-world applications due to the heterogeneity of natural data sets. Heterogeneity arises from data containing different types of features (categorical, ordinal, continuous, etc.) and features of the same type having different marginal distributions. We propose an extension of variational autoencoders (VAEs) called VAEM to handle such heterogeneous data. VAEM is a deep generative model that is trained in a two stage manner such that the first stage provides a more uniform representation of the data to the second stage, thereby sidestepping the problems caused by heterogeneous data. We provide extensions of VAEM to handle partially observed data, and demonstrate its performance in data generation, missing data prediction and sequential feature selection tasks. Our results show that VAEM broadens the range of real-world applications where deep generative models can be successfully deployed.
翻訳日:2022-11-18 11:49:05 公開日:2020-06-21
# 適応サンプリングによる時空間テンソルスケッチ

Spatio-Temporal Tensor Sketching via Adaptive Sampling ( http://arxiv.org/abs/2006.11943v1 )

ライセンス: Link先を確認
Jing Ma, Qiuchen Zhang, Joyce C. Ho, Li Xiong(参考訳) 大規模な時空間データのマイニングは、都市容量計画、イベント管理、ソーシャルネットワーク分析など、さまざまな現実世界のアプリケーションに役立つ。 テンソル表現は空間と時間の間の相関を捉え、教師なしの方法で空間パターンと時間パターンの潜在構造を同時に利用するために用いられる。 しかし、時空間データの量の増加により、テンソル因子分解を用いた保存と分析は避けられないほど高価になっている。 本稿では,適応サンプリングを用いてテンソルを時間的ストリーミングで圧縮し,その基盤となるグローバル構造を保存する,新しいテンソル分解フレームワークであるSkeTenSmoothを提案する。 SkeTenSmoothは検出されたデータダイナミクスに従って、入力テンソルスライスを適応的にサンプリングする。 したがって、スケッチはテンソルの動的パターンをより代表的で情報的である。 さらに,スケッチされたテンソルを処理し,元のパターンを復元するロバストなテンソル分解法を提案する。 ニューヨーク市のYellow Taxiデータを用いた実験では、SkeTenSmoothはメモリコストを大幅に削減し、基礎となるパターンを保持するという点でランダムサンプリングと固定レートサンプリングの手法より優れていた。

Mining massive spatio-temporal data can help a variety of real-world applications such as city capacity planning, event management, and social network analysis. The tensor representation can be used to capture the correlation between space and time and simultaneously exploit the latent structure of the spatial and temporal patterns in an unsupervised fashion. However, the increasing volume of spatio-temporal data has made it prohibitively expensive to store and analyze using tensor factorization. In this paper, we propose SkeTenSmooth, a novel tensor factorization framework that uses adaptive sampling to compress the tensor in a temporally streaming fashion and preserves the underlying global structure. SkeTenSmooth adaptively samples incoming tensor slices according to the detected data dynamics. Thus, the sketches are more representative and informative of the tensor dynamic patterns. In addition, we propose a robust tensor factorization method that can deal with the sketched tensor and recover the original patterns. Experiments on the New York City Yellow Taxi data show that SkeTenSmooth greatly reduces the memory cost and outperforms random sampling and fixed rate sampling method in terms of retaining the underlying patterns.
翻訳日:2022-11-18 11:48:35 公開日:2020-06-21
# 視覚段落生成における変圧器のオフポリシー自己批判訓練

Off-Policy Self-Critical Training for Transformer in Visual Paragraph Generation ( http://arxiv.org/abs/2006.11714v1 )

ライセンス: Link先を確認
Shiyang Yan, Yang Hua, Neil M. Robertson(参考訳) 近年,言語生成問題に対するいくつかのアプローチが提案されている。 Transformerは現在、言語生成における最先端のSeq-to-seqモデルである。 強化学習(rl)は、seq-to-seq言語学習において、露出バイアスと非微分可能メトリクスの最適化を解決するのに有用である。 しかし、サンプリングに高価な計算リソースを必要とするため、トランスフォーマーとrlを組み合わせるのは困難である。 grusに代表される行動ポリシーがサンプリングを行うオフポリシーrl学習アルゴリズムを提案することで,この問題に取り組む。 本研究では,Truncated relative importance sample (TRIS) 技術とKullback-Leibler (KL) 制御の概念を適用し,重要度サンプリング(IS)の高分散化を図る。 TRISは単純だが効果的な手法であり、KL制御がISの分散を減らすのに役立つという理論的証明がある。 自己臨界シーケンストレーニングに基づいて、このオフポリティクスRLを定式化する。 具体的には,トランスフォーマーをベースとしたキャプションモデルを用いて,画像誘導言語自動エンコーダを行動ポリシーとして利用して環境を探索する。 提案アルゴリズムは,視覚的段落生成における最先端性能を実現し,画像キャプションの結果を改善した。

Recently, several approaches have been proposed to solve language generation problems. Transformer is currently state-of-the-art seq-to-seq model in language generation. Reinforcement Learning (RL) is useful in solving exposure bias and the optimisation on non-differentiable metrics in seq-to-seq language learning. However, Transformer is hard to combine with RL as the costly computing resource is required for sampling. We tackle this problem by proposing an off-policy RL learning algorithm where a behaviour policy represented by GRUs performs the sampling. We reduce the high variance of importance sampling (IS) by applying the truncated relative importance sampling (TRIS) technique and Kullback-Leibler (KL)-control concept. TRIS is a simple yet effective technique, and there is a theoretical proof that KL-control helps to reduce the variance of IS. We formulate this off-policy RL based on self-critical sequence training. Specifically, we use a Transformer-based captioning model as the target policy and use an image-guided language auto-encoder as the behaviour policy to explore the environment. The proposed algorithm achieves state-of-the-art performance on the visual paragraph generation and improved results on image captioning.
翻訳日:2022-11-18 11:47:33 公開日:2020-06-21
# 効率の良い整数-アリティメティック・オンリー畳み込みニューラルネットワーク

Efficient Integer-Arithmetic-Only Convolutional Neural Networks ( http://arxiv.org/abs/2006.11735v1 )

ライセンス: Link先を確認
Hengrui Zhao and Dong Liu and Houqiang Li(参考訳) Integer-arithmetic-onlyネットワークは計算コストを削減し、クロスプラットフォームの一貫性を確保するために有効である。 しかし、従来の研究では、よく訓練された浮動小数点数(FPN)ネットワークを整数ネットワークに変換する際の推論精度の低下を報告していた。 このフォノメノンを解析し、その減少は活性化量子化によるものであることを示す。 具体的には、従来のReLUを境界ReLUに置き換える場合、各ニューロンのバウンドを設定する方法が重要な問題である。 アクティベーション量子化誤差とネットワーク学習能力のトレードオフを考慮し、各境界ReLUの境界を調整するための経験則を設定した。 また,特徴マップの追加や特徴マップの連結といったケースを扱う機構を設計する。 提案手法に基づいて、トレーニングした8ビット整数ResNetは、GoogleのTensorFlowとNVIDIAのTensorRTの8ビットネットワークより優れた画像認識を行う。 また,画像超解像のためのVDSRと圧縮アーティファクト低減のためのVRCNNについても実験を行った。 我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4であり、現在のGPUでは2倍高速である。 私たちのコードとモデルはgithub.com/hengruiz/breluにあります。

Integer-arithmetic-only networks have been demonstrated effective to reduce computational cost and to ensure cross-platform consistency. However, previous works usually report a decline in the inference accuracy when converting well-trained floating-point-number (FPN) networks into integer networks. We analyze this phonomenon and find that the decline is due to activation quantization. Specifically, when we replace conventional ReLU with Bounded ReLU, how to set the bound for each neuron is a key problem. Considering the tradeoff between activation quantization error and network learning ability, we set an empirical rule to tune the bound of each Bounded ReLU. We also design a mechanism to handle the cases of feature map addition and feature map concatenation. Based on the proposed method, our trained 8-bit integer ResNet outperforms the 8-bit networks of Google's TensorFlow and NVIDIA's TensorRT for image recognition. We also experiment on VDSR for image super-resolution and on VRCNN for compression artifact reduction, both of which serve for regression tasks that natively require high inference accuracy. Our integer networks achieve equivalent performance as the corresponding FPN networks, but have only 1/4 memory cost and run 2x faster on modern GPUs. Our code and models can be found at github.com/HengRuiZ/brelu.
翻訳日:2022-11-18 11:47:10 公開日:2020-06-21
# リモートセンシングデータのパッチベース分類:2D-CNN, SVM, NN分類器の比較

Patch Based Classification of Remote Sensing Data: A Comparison of 2D-CNN, SVM and NN Classifiers ( http://arxiv.org/abs/2006.11767v1 )

ライセンス: Link先を確認
Mahesh Pal, Akshay, Himanshu Rohilla and B. Charan Teja(参考訳) 後方伝播ニューラルネットワーク(NN)やサポートベクターマシン(SVM)を含む画素ベースのアルゴリズムは、リモートセンシング画像分類に広く用いられている。 ここ数年のうちに、畳み込みニューラルネットワーク(2D-CNN)のようなディープラーニングベースの画像分類器が、これらの分類器の代替として人気になっている。 本稿では,パッチベースのSVMとNNの性能を,2D-CNNと完全連結層からなるディープラーニングアルゴリズムの性能と比較する。 画像パッチを利用してさらなる分類を行うCNNと同様に、SVMとNNの分類器で個々のピクセルの代わりにパッチを入力として用いることを提案する。 2つのデータセット, 1つのマルチスペクトルおよび他のハイパースペクトルデータを用いて, 異なる分類器の性能を比較した。 両データセットの結果から,パッチベースのSVMとNN分類器の有効性が示唆された。

Pixel based algorithms including back propagation neural networks (NN) and support vector machines (SVM) have been widely used for remotely sensed image classifications. Within last few years, deep learning based image classifier like convolution neural networks (2D-CNN) are becoming popular alternatives to these classifiers. In this paper, we compare performance of patch based SVM and NN with that of a deep learning algorithms comprising of 2D-CNN and fully connected layers. Similar to CNN which utilise image patches to derive features for further classification, we propose to use patches as an input in place of individual pixel with both SVM and NN classifiers. Two datasets, one multispectral and other hyperspectral data was used to compare the performance of different classifiers. Results with both datasets suggest the effectiveness of patch based SVM and NN classifiers in comparison to state of art 2D-CNN classifier.
翻訳日:2022-11-18 11:46:48 公開日:2020-06-21
# ガウス変換

The Gaussian Transform ( http://arxiv.org/abs/2006.11698v1 )

ライセンス: Link先を確認
Kun Jin, Facundo M\'emoli, Zhengchao Wan(参考訳) ガウス変換(gt, gaussian transform)は,データセット内の潜在構造を推論・拡張するための最適伝達法である。 内部では、GTは与えられたデータセット上の新しい距離関数(GT距離)を、データセットを個々の点にローカライズしたガウス密度推定値の間の$\ell^2$-Wasserstein距離を計算することによって生成する。 Our contribution is twofold: (1) theoretically, we establish firstly that GT is stable under perturbations and secondly that in the continuous case, each point possesses an asymptotically ellipsoidal neighborhood with respect to the GT distance; (2) computationally, we accelerate GT both by identifying a strategy for reducing the number of matrix square root computations inherent to the $\ell^2$-Wasserstein distance between Gaussian measures, and by avoiding redundant computations of GT distances between points via enhanced neighborhood mechanisms. また,gtは平均シフト法(ms法)の一般化と強化の両方であり,最近提案されたwaserstein変換法(wt法)の計算効率の良い特殊化でもある。 異なるシナリオでそれらの性能を比較する広範な実験を行う。

We introduce the Gaussian transform (GT), an optimal transport inspired iterative method for denoising and enhancing latent structures in datasets. Under the hood, GT generates a new distance function (GT distance) on a given dataset by computing the $\ell^2$-Wasserstein distance between certain Gaussian density estimates obtained by localizing the dataset to individual points. Our contribution is twofold: (1) theoretically, we establish firstly that GT is stable under perturbations and secondly that in the continuous case, each point possesses an asymptotically ellipsoidal neighborhood with respect to the GT distance; (2) computationally, we accelerate GT both by identifying a strategy for reducing the number of matrix square root computations inherent to the $\ell^2$-Wasserstein distance between Gaussian measures, and by avoiding redundant computations of GT distances between points via enhanced neighborhood mechanisms. We also observe that GT is both a generalization and a strengthening of the mean shift (MS) method, and it is also a computationally efficient specialization of the recently proposed Wasserstein Transform (WT) method. We perform extensive experimentation comparing their performance in different scenarios.
翻訳日:2022-11-18 11:40:42 公開日:2020-06-21
# ベイズ最適化における条件パラメータ空間に対する付加木構造共分散関数

Additive Tree-Structured Covariance Function for Conditional Parameter Spaces in Bayesian Optimization ( http://arxiv.org/abs/2006.11771v1 )

ライセンス: Link先を確認
Xingchen Ma, Matthew B. Blaschko(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、ブラックボックス関数に対する標本効率のよいグローバル最適化アルゴリズムである。 条件パラメータ空間におけるモデルに基づく最適化に関する既存の文献は通常木の上に構築される。 本研究では,木構造関数に対する付加的仮定を一般化し,改良された試料効率,適用性,柔軟性を示す付加的木構造共分散関数を提案する。 さらに、パラメータ空間の構造情報とboループにおける加法仮定を組み込むことにより、取得関数を最適化する並列アルゴリズムを開発し、この最適化を低次元空間で行うことができる。 SMAC, TPE, Jenatton et al. (2017) を含む条件パラメータ最適化のための手法として, 最適化ベンチマーク関数とニューラルネットワークモデル圧縮問題について検討し, 実験結果から, 条件パラメータ最適化技術の現状を著しく上回っていることを示す。

Bayesian optimization (BO) is a sample-efficient global optimization algorithm for black-box functions which are expensive to evaluate. Existing literature on model based optimization in conditional parameter spaces are usually built on trees. In this work, we generalize the additive assumption to tree-structured functions and propose an additive tree-structured covariance function, showing improved sample-efficiency, wider applicability and greater flexibility. Furthermore, by incorporating the structure information of parameter spaces and the additive assumption in the BO loop, we develop a parallel algorithm to optimize the acquisition function and this optimization can be performed in a low dimensional space. We demonstrate our method on an optimization benchmark function, as well as on a neural network model compression problem, and experimental results show our approach significantly outperforms the current state of the art for conditional parameter optimization including SMAC, TPE and Jenatton et al. (2017).
翻訳日:2022-11-18 11:40:04 公開日:2020-06-21
# Wasserstein Generative Adversarial Imputation Network を用いた欠失特徴再構成

Missing Features Reconstruction Using a Wasserstein Generative Adversarial Imputation Network ( http://arxiv.org/abs/2006.11783v1 )

ライセンス: Link先を確認
Magda Friedjungov\'a, Daniel Va\v{s}ata, Maksym Balatsko and Marcel Ji\v{r}ina(参考訳) データ不足は、最も一般的な前処理問題の1つです。 本稿では,生成モデルおよび非生成モデルを用いた特徴復元について実験的に検討する。 任意条件付き変分オートエンコーダ(VAEAC)とGAIN(Generative Adversarial Imputation Network)は生成モデルの代表として研究され,DAE(Denoising Autoencoder)は生成モデルを表す。 モデルの性能は、k-nearest neighbors(k-NN)やMICE(Multiple Imputation by Chained Equations)と比較される。 さらに,WGAIN を GAIN のワッサースタイン修飾法として導入し,欠損度が 30% 以下である場合に最も優れた計算モデルであることが判明した。 実験は、10%から50%の異なる特徴の異なるパーセンテージが欠落した、実世界のデータセットと人工データセットで実施された。 アルゴリズムの評価は、以前にデータセットでトレーニングされた分類モデルの精度を測定することによって行われた。 その結果, GAIN, 特にWGAINは, 条件によらず最も優れたインパルスであることがわかった。 一般的には、MICE、k-NN、DAE、VAEACよりも優れているか、あるいは比較されている。

Missing data is one of the most common preprocessing problems. In this paper, we experimentally research the use of generative and non-generative models for feature reconstruction. Variational Autoencoder with Arbitrary Conditioning (VAEAC) and Generative Adversarial Imputation Network (GAIN) were researched as representatives of generative models, while the denoising autoencoder (DAE) represented non-generative models. Performance of the models is compared to traditional methods k-nearest neighbors (k-NN) and Multiple Imputation by Chained Equations (MICE). Moreover, we introduce WGAIN as the Wasserstein modification of GAIN, which turns out to be the best imputation model when the degree of missingness is less than or equal to 30%. Experiments were performed on real-world and artificial datasets with continuous features where different percentages of features, varying from 10% to 50%, were missing. Evaluation of algorithms was done by measuring the accuracy of the classification model previously trained on the uncorrupted dataset. The results show that GAIN and especially WGAIN are the best imputers regardless of the conditions. In general, they outperform or are comparative to MICE, k-NN, DAE, and VAEAC.
翻訳日:2022-11-18 11:39:46 公開日:2020-06-21
# ユーザインタフェース実験のための日和見的バンドイットアプローチ

An Opportunistic Bandit Approach for User Interface Experimentation ( http://arxiv.org/abs/2006.11873v1 )

ライセンス: Link先を確認
Nader Bouacida, Amit Pande and Xin Liu(参考訳) オンラインのライバルとの競争が激化する中、小売業界はオンラインショッピングプラットフォームへの投資を増やし、顧客の忠誠を勝ち取ろうとしている。 このコンペティションではユーザエクスペリエンスが重要な役割を担っており、小売業者はユーザエクスペリエンスを改善するためにユーザインターフェースを継続的に実験し、最適化しています。 実験のコストは、顧客に最適なサービスを提供する機会コストによって支配されます。 本稿では,オンライン小売データを用いた実験をできるだけ安価にするために,オポチュニティ・バンディットの有効性を実証する。 実際に,ユーザインタフェース実験を,ユーザの特徴から抽出した要因の下で探索コストが変動する機会論的帯域幅問題としてモデル化する。 コストのかかる探索を緩和し、テストプロセスのガイドに役立つ余分なコンテキスト情報を提供することで、大きな後悔の低減を実現しています。 さらに,オンライン小売実験におけるオポチュニティ・バンディットの活用のメリットと課題を分析した。

Facing growing competition from online rivals, the retail industry is increasingly investing in their online shopping platforms to win the high-stake battle of customer' loyalty. User experience is playing an essential role in this competition, and retailers are continuously experimenting and optimizing their user interface for better user experience. The cost of experimentation is dominated by the opportunity cost of providing a suboptimal service to the customers. Through this paper, we demonstrate the effectiveness of opportunistic bandits to make the experiments as inexpensive as possible using real online retail data. In fact, we model user interface experimentation as an opportunistic bandit problem, in which the cost of exploration varies under a factor extracted from customer features. We achieve significant regret reduction by mitigating costly exploration and providing extra contextual information that helps to guide the testing process. Moreover, we analyze the advantages and challenges of using opportunistic bandits for online retail experimentation.
翻訳日:2022-11-18 11:38:59 公開日:2020-06-21
# 複数ラベル分類器の集合における集合について

On Aggregation in Ensembles of Multilabel Classifiers ( http://arxiv.org/abs/2006.11916v1 )

ライセンス: Link先を確認
Vu-Linh Nguyen and Eyke H\"ullermeier and Michael Rapp and Eneldo Loza Menc\'ia and Johannes F\"urnkranz(参考訳) マルチラベル分類のための様々なアンサンブル手法が文献に提案されているが、アンサンブルの個々のメンバーの予測をどのように集約するかという問題は、今のところほとんど注目されていない。 本稿では,アンサンブルのマルチラベル分類の形式的枠組みについて紹介する。この手法では,アンサンブルのメンバが次に合成した予測を最小化する"predict then combine" (ptc) と,各アンサンブルのメンバからマージンラベルの確率などの情報を最初に集約する"combine then predict" (ctp) の2つの主要なアプローチを区別し,その結果から予測を導出する。 どちらのアプローチも、マルチラベルアンサンブルによく使用される投票手法を一般化しているが、ターゲットのパフォーマンス指標を明示的に考慮することができる。 したがって、ctpとptcの具体化を具体的損失関数に合わせることができる。 実験により,標準投票手法はCTPとPTCの適切なインスタンス化によって実際に優れており,CTPが分解不能な損失関数に対して良好であることを示す。

While a variety of ensemble methods for multilabel classification have been proposed in the literature, the question of how to aggregate the predictions of the individual members of the ensemble has received little attention so far. In this paper, we introduce a formal framework of ensemble multilabel classification, in which we distinguish two principal approaches: "predict then combine" (PTC), where the ensemble members first make loss minimizing predictions which are subsequently combined, and "combine then predict" (CTP), which first aggregates information such as marginal label probabilities from the individual ensemble members, and then derives a prediction from this aggregation. While both approaches generalize voting techniques commonly used for multilabel ensembles, they allow to explicitly take the target performance measure into account. Therefore, concrete instantiations of CTP and PTC can be tailored to concrete loss functions. Experimentally, we show that standard voting techniques are indeed outperformed by suitable instantiations of CTP and PTC, and provide some evidence that CTP performs well for decomposable loss functions, whereas PTC is the better choice for non-decomposable losses.
翻訳日:2022-11-18 11:37:52 公開日:2020-06-21
# 機械学習モデルにおける個人公平性の検証

Verifying Individual Fairness in Machine Learning Models ( http://arxiv.org/abs/2006.11737v1 )

ライセンス: Link先を確認
Philips George John, Deepak Vijaykeerthy, Diptikalyan Saha(参考訳) 我々は、構造化データを扱う決定モデルが個別の公平性を持つかどうかという問題を考える。 Dwork の作業の後、モデルが個別にバイアス(または不公平)されるのは、互いに近い(適切な計量による)が、モデル(異なるクラスラベル、あるいは出力の大きな差)によって異なる扱いを受ける2つの有効な入力が存在する場合であり、そのようなペアが存在しない場合はバイアス(または不公平)である。 我々の目的は、与えられたモデルの個々人の公正性を証明するための検証器を構築することである。 線形分類器は健全だが完備ではない検証器と,多項式・ラディアル基底関数分類器の核化を行う。 また,提案アルゴリズムを公開データセット上で評価する実験結果について報告する。

We consider the problem of whether a given decision model, working with structured data, has individual fairness. Following the work of Dwork, a model is individually biased (or unfair) if there is a pair of valid inputs which are close to each other (according to an appropriate metric) but are treated differently by the model (different class label, or large difference in output), and it is unbiased (or fair) if no such pair exists. Our objective is to construct verifiers for proving individual fairness of a given model, and we do so by considering appropriate relaxations of the problem. We construct verifiers which are sound but not complete for linear classifiers, and kernelized polynomial/radial basis function classifiers. We also report the experimental results of evaluating our proposed algorithms on publicly available datasets.
翻訳日:2022-11-18 11:31:06 公開日:2020-06-21
# プライバシー保護のための回転同変ニューラルネットワーク

Rotation-Equivariant Neural Networks for Privacy Protection ( http://arxiv.org/abs/2006.13016v1 )

ライセンス: Link先を確認
Hao Zhang, Yiting Chen, Haotian Ma, Xu Cheng, Qihan Ren, Liyao Xiang, Jie Shi, Quanshi Zhang(参考訳) 本稿では,中間層特徴からの入力情報の漏洩を防止するため,従来のニューラルネットワークを回転同変ニューラルネットワーク(renn)に書き換える手法を提案する。 従来のニューラルネットワークと比較して、RENNはd-aryベクトル/テンソルを特徴として、各要素がd-ary数である。 これらのd-ary特徴は、暗号化プロセスとしてランダム角度で回転(d-dimensional vectorの回転と類似)することができる。 入力情報は、属性難読化のためのd-ary特徴のこのターゲットフェーズに隠される。 攻撃者がネットワークパラメータと中間層の特徴を得たとしても、ターゲットフェーズを知ることなく入力情報を抽出することはできない。 したがって、入力プライバシーは、RENNによって効果的に保護される。 さらに、RENNの出力精度は従来のニューラルネットワークと比較してわずかに低下するだけであり、計算コストは同型暗号よりも大幅に低い。

In order to prevent leaking input information from intermediate-layer features, this paper proposes a method to revise the traditional neural network into the rotation-equivariant neural network (RENN). Compared to the traditional neural network, the RENN uses d-ary vectors/tensors as features, in which each element is a d-ary number. These d-ary features can be rotated (analogous to the rotation of a d-dimensional vector) with a random angle as the encryption process. Input information is hidden in this target phase of d-ary features for attribute obfuscation. Even if attackers have obtained network parameters and intermediate-layer features, they cannot extract input information without knowing the target phase. Hence, the input privacy can be effectively protected by the RENN. Besides, the output accuracy of RENNs only degrades mildly compared to traditional neural networks, and the computational cost is significantly less than the homomorphic encryption.
翻訳日:2022-11-18 11:29:52 公開日:2020-06-21
# キャプションの有効利用による画像キャプションの改善

Improving Image Captioning with Better Use of Captions ( http://arxiv.org/abs/2006.11807v1 )

ライセンス: Link先を確認
Zhan Shi, Xu Zhou, Xipeng Qiu, Xiaodan Zhu(参考訳) 画像キャプションは、自然言語処理とコンピュータビジョンコミュニティの両方で広く注目を集めているマルチモーダル問題である。 本稿では,キャプションで利用可能なセマンティクスをよりよく探求し,画像表現とキャプション生成の両面を強化するための新しい画像キャプションアーキテクチャを提案する。 我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。 その表現は、そのテキストと視覚的特徴を持つ隣接ノードとコンテキストノードで拡張される。 生成中は、複数タスク学習を用いて、単語とオブジェクト/述語タグのシーケンスを共同で予測する。 MSCOCOデータセット上で広範囲な実験を行い、提案手法がベースラインを著しく上回り、その結果、幅広い評価基準下での最先端性能が得られることを示した。

Image captioning is a multimodal problem that has drawn extensive attention in both the natural language processing and computer vision community. In this paper, we present a novel image captioning architecture to better explore semantics available in captions and leverage that to enhance both image representation and caption generation. Our models first construct caption-guided visual relationship graphs that introduce beneficial inductive bias using weakly supervised multi-instance learning. The representation is then enhanced with neighbouring and contextual nodes with their textual and visual features. During generation, the model further incorporates visual relationships using multi-task learning for jointly predicting word and object/predicate tag sequences. We perform extensive experiments on the MSCOCO dataset, showing that the proposed framework significantly outperforms the baselines, resulting in the state-of-the-art performance under a wide range of evaluation metrics.
翻訳日:2022-11-18 11:29:38 公開日:2020-06-21
# sigmorphon 2020タスク0とタスク2のためのnyu-cuboulderシステム

The NYU-CUBoulder Systems for SIGMORPHON 2020 Task 0 and Task 2 ( http://arxiv.org/abs/2006.11830v1 )

ライセンス: Link先を確認
Assaf Singer and Katharina Kann(参考訳) 本稿では,sigmorphon 2020タスク0のnyu-cuboulderシステムについて,タイプ論的に多様な形態的変形について,教師なし形態的パラダイムの完成に関するタスク2について述べる。 前者は、レムマから形態的屈折を発生させ、対象形態を記述する形態的特徴の集合からなる。 後者は、原文のみから与えられた補題の集合のパラダイム全体を生成する必要がある。 入力は形態素タグを持つ補題の文字のシーケンスであり、出力は帰納形式の文字のシーケンスである。 まず、タスクにトランスフォーマーモデルを適用する。 第二に,インフレクション形式がほとんどの文字を補題と共有するので,入力文字のコピーを容易にするポインタ生成トランスフォーマモデルも提案する。 タスク0の最高のパフォーマンスシステムは、23のシステムのうち6番目に置かれます。 我々はさらに、タスク2のアプローチのサブコンポーネントとして、インフレクションシステムを使用します。 タスク2の最高のパフォーマンスシステムは、7つの投稿のうち2番目です。

We describe the NYU-CUBoulder systems for the SIGMORPHON 2020 Task 0 on typologically diverse morphological inflection and Task 2 on unsupervised morphological paradigm completion. The former consists of generating morphological inflections from a lemma and a set of morphosyntactic features describing the target form. The latter requires generating entire paradigms for a set of given lemmas from raw text alone. We model morphological inflection as a sequence-to-sequence problem, where the input is the sequence of the lemma's characters with morphological tags, and the output is the sequence of the inflected form's characters. First, we apply a transformer model to the task. Second, as inflected forms share most characters with the lemma, we further propose a pointer-generator transformer model to allow easy copying of input characters. Our best performing system for Task 0 is placed 6th out of 23 systems. We further use our inflection systems as subcomponents of approaches for Task 2. Our best performing system for Task 2 is the 2nd best out of 7 submissions.
翻訳日:2022-11-18 11:29:22 公開日:2020-06-21
# ユニオン境界に対する経験的プロセスアプローチ:組合せと線形帯域のための実践的アルゴリズム

An Empirical Process Approach to the Union Bound: Practical Algorithms for Combinatorial and Linear Bandits ( http://arxiv.org/abs/2006.11685v1 )

ライセンス: Link先を確認
Julian Katz-Samuels, Lalit Jain, Zohar Karnin, Kevin Jamieson(参考訳) 本稿では,固定信頼度と固定予算設定における純爆発線形バンディット問題に対する近似最適アルゴリズムを提案する。 経験的過程の超越の理論からアイデアを取り入れ、サンプルの複雑さがインスタンスの幾何学とスケールし、アームの数に有界な明示的な結合を避けるアルゴリズムを提供する。 最悪の場合の分散(例えば、最適設計)を最小化する以前の手法とは異なり、基礎となるアームセットのガウス幅に基づく実験的な設計目標を定義する。 この目的に関して、サンプルの複雑さにおけるその基本的な役割を強調する、新しい下限を提供する。 固定信頼アルゴリズムのサンプルの複雑さは、この下界と一致し、さらに、アームセットが指数関数的に寸法が大きいようなショートパス、マッチング、マトロイドなどの組合せクラスに対して計算的に効率的である。 最後に,固定予算設定における線形バンディットに対する最初のアルゴリズムを提案する。 その保証は我々の対数的要因に対する下限に合致する。

This paper proposes near-optimal algorithms for the pure-exploration linear bandit problem in the fixed confidence and fixed budget settings. Leveraging ideas from the theory of suprema of empirical processes, we provide an algorithm whose sample complexity scales with the geometry of the instance and avoids an explicit union bound over the number of arms. Unlike previous approaches which sample based on minimizing a worst-case variance (e.g. G-optimal design), we define an experimental design objective based on the Gaussian-width of the underlying arm set. We provide a novel lower bound in terms of this objective that highlights its fundamental role in the sample complexity. The sample complexity of our fixed confidence algorithm matches this lower bound, and in addition is computationally efficient for combinatorial classes, e.g. shortest-path, matchings and matroids, where the arm sets can be exponentially large in the dimension. Finally, we propose the first algorithm for linear bandits in the the fixed budget setting. Its guarantee matches our lower bound up to logarithmic factors.
翻訳日:2022-11-18 11:29:07 公開日:2020-06-21