このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211219となっている論文です。

PDF登録状況(公開日: 20211219)

TitleAuthorsAbstract論文公表日・翻訳日
# 知識グラフ強化マルチビューグラフ畳み込みによる医用テキストからの患者再送リスクの予測

Predicting Patient Readmission Risk from Medical Text via Knowledge Graph Enhanced Multiview Graph Convolution ( http://arxiv.org/abs/2201.02510v1 )

ライセンス: Link先を確認
Qiuhao Lu, Thien Huu Nguyen, Dejing Dou(参考訳) 非計画集中治療単位(ICU)寛容率は、病院医療の質を評価する上で重要な指標である。 ICU寛解リスクの効率的かつ正確な予測は、患者の不適切な退院や潜在的な危険を防ぐだけでなく、関連する医療費を削減できる。 本稿では,電子健康記録(EHR)の医療用テキストを予測に利用する新しい手法を提案する。 具体的には,患者の放電サマリーをEHRから抽出し,外部知識グラフによって強化されたマルチビューグラフで表現する。 グラフ畳み込みネットワークは、表現学習に使用される。 実験の結果,本手法の有効性が証明され,最新性能が得られた。

Unplanned intensive care unit (ICU) readmission rate is an important metric for evaluating the quality of hospital care. Efficient and accurate prediction of ICU readmission risk can not only help prevent patients from inappropriate discharge and potential dangers, but also reduce associated costs of healthcare. In this paper, we propose a new method that uses medical text of Electronic Health Records (EHRs) for prediction, which provides an alternative perspective to previous studies that heavily depend on numerical and time-series features of patients. More specifically, we extract discharge summaries of patients from their EHRs, and represent them with multiview graphs enhanced by an external knowledge graph. Graph convolutional networks are then used for representation learning. Experimental results prove the effectiveness of our method, yielding state-of-the-art performance for this task.
翻訳日:2022-01-16 16:18:28 公開日:2021-12-19
# (参考訳) I(A(x)を満たすファジィ含意を持つMISO階層推論エンジン y)。 z) = i(x, i(y, y) z) [全文訳有]

MISO hierarchical inference engine with fuzzy implication satisfying I(A(x, y), z) = I(x, I(y, z)) ( http://arxiv.org/abs/2112.12808v1 )

ライセンス: CC BY 4.0
Dechao Li, Qiannan Guo(参考訳) ファジィ推論エンジンはファジィ系の最も重要な構成要素の一つであり、ファジィ論理推論法を用いて入力空間上のファジィ集合とファジィ規則基底から有意義な出力を得ることができる。 本稿では,多入出力ファジィシステムにおけるファジィ推論エンジンの計算効率を向上させるために,集約関数(LIA)による輸入法則を満たすファジィ含意に基づく3つのMISOファジィ階層推論エンジンについて検討することを目的とする。 まず、よく知られたファジィ含意に対して、それらが満足する(LIA)アグリゲーション関数を見出す。 そして、所定の集約関数に対して、この集約関数に満足するファジィ含意(LIA)を特徴付ける。 最後に,上記の理論的展開を応用したmisoファジィシステムにおいて,ファジィ階層推論エンジンを3つ構成する。

Fuzzy inference engine, as one of the most important components of fuzzy systems, can obtain some meaningful outputs from fuzzy sets on input space and fuzzy rule base using fuzzy logic inference methods. In order to enhance the computational efficiency of fuzzy inference engine in multi-input-single-o utput (MISO) fuzzy systems, this paper aims mainly to investigate three MISO fuzzy hierarchial inference engines based on fuzzy implications satisfying the law of importation with aggregation functions (LIA). We firstly find some aggregation functions for well-known fuzzy implications such that they satisfy (LIA) with them. For a given aggregation function, the fuzzy implication which satisfies (LIA) with this aggregation function is then characterized. Finally, we construct three fuzzy hierarchical inference engines in MISO fuzzy systems applying aforementioned theoretical developments.
翻訳日:2022-01-02 10:14:31 公開日:2021-12-19
# (参考訳) m2dgr: 地上ロボットのためのマルチセンサおよびマルチスセナリオslamデータセット [全文訳有]

M2DGR: A Multi-sensor and Multi-scenario SLAM Dataset for Ground Robots ( http://arxiv.org/abs/2112.13659v1 )

ライセンス: CC BY 4.0
Jie Yin, Ang Li, Tao Li, Wenxian Yu, and Danping Zou(参考訳) M2DGRは6つの魚眼カメラと1つのスカイポイントRGBカメラ、赤外線カメラ、イベントカメラ、ビジュアル慣性センサー(VIセンサー)、慣性測定ユニット(IMU)、LiDAR、コンシューマグレードのグローバルナビゲーション衛星システム(GNSS)受信機、リアルタイムキネマティック(RTK)信号付きGNSS-IMUナビゲーションシステムを含む地上ロボットによって収集された新しい大規模データセットである。 これらのセンサーはすべてよく校正され、同期され、それらのデータは同時に記録された。 地上の真理軌道は、モーションキャプチャ装置、レーザー3Dトラッカー、RTK受信機で得られた。 データセットは、屋内環境と屋外環境の両方を含む様々なシナリオでキャプチャされた36のシーケンス(約1TB)から構成される。 M2DGRにおける最先端SLAMアルゴリズムの評価を行った。 その結果、既存のソリューションはいくつかのシナリオで性能が悪いことがわかった。 研究コミュニティの利益のために、私たちはデータセットとツールを公開しています。 プロジェクトのWebページはhttps://github.com/S JTU-ViSYS/M2DGRです。

We introduce M2DGR: a novel large-scale dataset collected by a ground robot with a full sensor-suite including six fish-eye and one sky-pointing RGB cameras, an infrared camera, an event camera, a Visual-Inertial Sensor (VI-sensor), an inertial measurement unit (IMU), a LiDAR, a consumer-grade Global Navigation Satellite System (GNSS) receiver and a GNSS-IMU navigation system with real-time kinematic (RTK) signals. All those sensors were well-calibrated and synchronized, and their data were recorded simultaneously. The ground truth trajectories were obtained by the motion capture device, a laser 3D tracker, and an RTK receiver. The dataset comprises 36 sequences (about 1TB) captured in diverse scenarios including both indoor and outdoor environments. We evaluate state-of-the-art SLAM algorithms on M2DGR. Results show that existing solutions perform poorly in some scenarios. For the benefit of the research community, we make the dataset and tools public. The webpage of our project is https://github.com/S JTU-ViSYS/M2DGR.
翻訳日:2022-01-02 09:53:15 公開日:2021-12-19
# 好きなように動く:Eコマースシナリオのイメージアニメーション

Move As You Like: Image Animation in E-Commerce Scenario ( http://arxiv.org/abs/2112.13647v1 )

ライセンス: Link先を確認
Borun Xu, Biao Wang, Jiale Tao, Tiezheng Ge, Yuning Jiang, Wen Li, Lixin Duan(参考訳) クリエイティブな画像アニメーションは、静止画からアニメーションを生成するインポート方法の1つであるeコマースアプリケーションで魅力的なものだ。 しかし、既存の方法では、人体や人間の顔以外の物体に動きを移すことは稀であり、現実的なシナリオではより少ない。 本研究では,実際の電子商取引シナリオにおけるTaobao製品イメージのモーショントランスファーを適用して,静的画像よりも魅力的なクリエイティブアニメーションを生成し,より多くのメリットをもたらす。 人形, 馬, おもちゃの恐竜のタオバオ生成物を, 運動伝達法を用いてアニメーション化し, 実験を行った。

Creative image animations are attractive in e-commerce applications, where motion transfer is one of the import ways to generate animations from static images. However, existing methods rarely transfer motion to objects other than human body or human face, and even fewer apply motion transfer in practical scenarios. In this work, we apply motion transfer on the Taobao product images in real e-commerce scenario to generate creative animations, which are more attractive than static images and they will bring more benefits. We animate the Taobao products of dolls, copper running horses and toy dinosaurs based on motion transfer method for demonstration.
翻訳日:2022-01-02 08:28:50 公開日:2021-12-19
# (参考訳) 分子通信システムに基づく機械学習における受信信号のモデリング:azure machine learningとpython toolsの比較 [全文訳有]

Modelling of Received Signals in Molecular Communication Systems based machine learning: Comparison of azure machine learning and Python tools ( http://arxiv.org/abs/2112.10214v1 )

ライセンス: CC BY 4.0
Soha Mohamed, Mahmoud S. Fayed(参考訳) ナノネットワーク上に実装された分子通信(mc)は、エネルギー効率、信頼性、ロバスト性の観点から非常に魅力的な特性を持つ。 しかし、非常に遅い分子拡散と高い変動環境の影響は未だ分かっていない。 通信システムの解析と設計は通常、通信チャネルを記述する数学的モデルの開発に依存している。 しかし、基礎となるチャネルモデルはMCシステムのような情報伝達に化学信号を用いるシステムでは未知数である。 これらの場合、新しい分析と設計の方法が必要となる。 本稿では,mc受信信号のモデル化をtまで行うというmcシステムの重要な側面に着目し,mlのツールを使うことで,チャネルモデルに関する情報を必要とせずに適切に動作可能な検出器を訓練できることを実証する。 機械学習(ML)は、ドメイン内で有望な結果を示すインテリジェントな方法論の1つである。 本稿では、フレキシブルな舗装維持レグレッション問題とソリューションにAzure Machine Learning(Azure ML)を適用する。 予測には、受信機半径、送信機半径、受信機と送信機の距離、拡散係数の4つのパラメータが入力として使用され、出力は受信信号のmAP(平均精度)である。 Azure MLは、データや経験から学び、コーディングせずにタスクを達成できるアルゴリズムを可能にする。 確立されたazure mlでは、決定木回帰、ベイズ線形回帰、ニューラルネットワーク、決定フォレスト回帰などの回帰アルゴリズムが選択される。 最適な性能は最適性基準として選択される。 最後に、ローカルPC上で開発者が使用するプログラムベースツール(Python)に対して、Azure MLツールの潜在的なメリットを示す比較を示す。

Molecular communication (MC) implemented on Nano networks has extremely attractive characteristics in terms of energy efficiency, dependability, and robustness. Even though, the impact of incredibly slow molecule diffusion and high variability environments remains unknown. Analysis and designs of communication systems usually rely on developing mathematical models that describe the communication channel. However, the underlying channel models are unknown in some systems, such as MC systems, where chemical signals are used to transfer information. In these cases, a new method to analyze and design is needed. In this paper, we concentrate on one critical aspect of the MC system, modelling MC received signal until time t , and demonstrate that using tools from ML makes it promising to train detectors that can be executed well without any information about the channel model. Machine learning (ML) is one of the intelligent methodologies that has shown promising results in the domain. This paper applies Azure Machine Learning (Azure ML) for flexible pavement maintenance regressions problems and solutions. For prediction, four parameters are used as inputs: the receiver radius, transmitter radius, distance between receiver and transmitter, and diffusion coefficient, while the output is mAP (mean average precision) of the received signal. Azure ML enables algorithms that can learn from data and experiences and accomplish tasks without having to be coded. In the established Azure ML, the regression algorithms such as, boost decision tree regression, Bayesian linear regression, neural network, and decision forest regression are selected. The best performance is chosen as an optimality criterion. Finally, a comparison that shows the potential benefits of Azure ML tool over programmed based tool (Python), used by developers on local PCs, is demonstrated
翻訳日:2021-12-26 09:19:55 公開日:2021-12-19
# (参考訳) Lerna: 短文と長文のゲノムシークエンシングのためのエラー訂正ツールを構成するトランスフォーマーアーキテクチャ [全文訳有]

Lerna: Transformer Architectures for Configuring Error Correction Tools for Short- and Long-Read Genome Sequencing ( http://arxiv.org/abs/2112.10068v1 )

ライセンス: CC BY 4.0
Atul Sharma, Pranjal Jain, Ashraf Mahgoub, Zihan Zhou, Kanak Mahadik, and Somali Chaterji(参考訳) シーケンス技術はエラーを起こしやすいため、下流アプリケーションにはエラー訂正(EC)が必要である。 ECツールは、最適なパフォーマンスのために手動で設定する必要がある。 最適なパラメータ(例えばk-merサイズ)はツールとデータセットの両方に依存しています。 さらに、特定のツールの性能評価(アライメントレートやゲイン)は、通常基準ゲノムに依存するが、品質基準ゲノムは必ずしも利用可能ではない。 我々は、k-merベースのecツールの自動構成にlernaを導入する。 Lernaはまず、訂正されていないゲノム読み込みの言語モデル(LM)を作成し、その後、パープレキシティメトリックを計算して、異なるパラメータの選択に対して修正された読み込みを評価する。 次に、基準ゲノムを使わずに最も高いアライメント率を生成するものを見つける。 提案手法の基本的な直観は、パープレキシティ計量が誤差補正後の組立の質と逆相関していることである。 結果: まず、最高のk-mer値は、同じecツールでも異なるデータセットで変更可能であることを示します。 第2に、そのコンポーネント注意に基づく変換器を用いて、LMの利得を示す。 本稿では,誤り訂正前後における過度指標の推定について述べる。 補正後のパープレキシティが低いほど、k-merサイズが良くなる。 また、補正された読み出しに対して算出されたアライメントレートと組立品質は、過度と強く負の相関関係にあり、エラー訂正のためのk-mer値の自動選択が可能となり、その結果、組立品質が向上することを示した。 さらに,アテンション機構の並列化と,gpu参照のためのjitコンパイルの利用により,アテンションベースモデルがパイプライン全体の実行時間を大幅に改善していることも分かりました。

Sequencing technologies are prone to errors, making error correction (EC) necessary for downstream applications. EC tools need to be manually configured for optimal performance. We find that the optimal parameters (e.g., k-mer size) are both tool- and dataset-dependent. Moreover, evaluating the performance (i.e., Alignment-rate or Gain) of a given tool usually relies on a reference genome, but quality reference genomes are not always available. We introduce Lerna for the automated configuration of k-mer-based EC tools. Lerna first creates a language model (LM) of the uncorrected genomic reads; then, calculates the perplexity metric to evaluate the corrected reads for different parameter choices. Next, it finds the one that produces the highest alignment rate without using a reference genome. The fundamental intuition of our approach is that the perplexity metric is inversely correlated with the quality of the assembly after error correction. Results: First, we show that the best k-mer value can vary for different datasets, even for the same EC tool. Second, we show the gains of our LM using its component attention-based transformers. We show the model's estimation of the perplexity metric before and after error correction. The lower the perplexity after correction, the better the k-mer size. We also show that the alignment rate and assembly quality computed for the corrected reads are strongly negatively correlated with the perplexity, enabling the automated selection of k-mer values for better error correction, and hence, improved assembly quality. Additionally, we show that our attention-based models have significant runtime improvement for the entire pipeline -- 18X faster than previous works, due to parallelizing the attention mechanism and the use of JIT compilation for GPU inferencing.
翻訳日:2021-12-26 09:07:57 公開日:2021-12-19
# DNN, CNN, RNNによるディープフィルタ

Deep Filtering with DNN, CNN and RNN ( http://arxiv.org/abs/2112.12616v1 )

ライセンス: Link先を確認
Bin Xie, Qing Zhang(参考訳) 本稿では,線形および非線形フィルタリングのための深層学習手法について述べる。 そのアイデアは、名目力学モデルから生成されたモンテカルロサンプルでニューラルネットワークをトレーニングすることにある。 次に、実際の動的モデルからモンテカルロサンプルにネットワークウェイトを適用する。 本稿では,3つの主要なニューラルネットワークアーキテクチャ(DNN,CNN,RNN)を持つディープフィルタに注目した。 ディープフィルタは,線形の場合では従来のカルマンフィルタと比較し,非線形の場合では拡張カルマンフィルタよりも優れる。 次に,ジャンプを伴うスイッチングモデルを用いて,深層フィルタリングの適応性とパワーを示す。 3つの主要なnnのうち、cnnは他のnnより平均上である。 しかし、RNNはフィルタリング問題には適していないようだ。 深層フィルタの利点の一つは、名目モデルと実モデルが異なる場合の頑健性である。 深層フィルタリングのもう1つの利点は、深層中立ネットワークを直接トレーニングするために、実データを使うことができることである。 したがって、モデルキャリブレーションは全体としてバイパスすることができる。

This paper is about a deep learning approach for linear and nonlinear filtering. The idea is to train a neural network with Monte Carlo samples generated from a nominal dynamic model. Then the network weights are applied to Monte Carlo samples from an actual dynamic model. A main focus of this paper is on the deep filters with three major neural network architectures (DNN, CNN, RNN). Our deep filter compares favorably to the traditional Kalman filter in linear cases and outperform the extended Kalman filter in nonlinear cases. Then a switching model with jumps is studied to show the adaptiveness and power of our deep filtering. Among the three major NNs, the CNN outperform the others on average. while the RNN does not seem to be suitable for the filtering problem. One advantage of the deep filter is its robustness when the nominal model and actual model differ. The other advantage of deep filtering is real data can be used directly to train the deep neutral network. Therefore, model calibration can be by-passed all together.
翻訳日:2021-12-24 16:20:09 公開日:2021-12-19
# (参考訳) List Autoencoder: ディープラーニングに基づくノイズチャネル上の信頼性の高い伝送を目指して [全文訳有]

List Autoencoder: Towards Deep Learning Based Reliable Transmission Over Noisy Channels ( http://arxiv.org/abs/2112.11920v1 )

ライセンス: CC BY 4.0
Hamid Saber, Homayoon Hatami and Jung Hyun Bae(参考訳) 近年,チャネルエンコーダとデコーダの設計を自動エンコーダ(AE)フレームワークで自動化することへの関心が高まっている。 本稿では,AEを設計するための新しいフレームワークを提案する。 具体的には、デコーダネットワークがデコードされたメッセージワード候補のリストを出力するAEフレームワーク、すなわちlistAEを示す。 デコーダの出力でゲニーが利用可能であると仮定し、GA-listAEの性能を最適化するために特定の損失関数を提案する。 ListAEは一般的なAEフレームワークであり、任意のネットワークアーキテクチャで使用することができる。 本稿では,受信した単語を成分コード列上に復号化してレートを低下させる,特定のエンドツーエンドネットワークアーキテクチャを提案する。 提案アーキテクチャに基づくリストAEは、インクリメンタル冗長リストAE (IR-listAE) と呼ばれ、GAデコードの下での低ブロック誤り率で最先端のAE性能を1dB向上させる。 次に循環冗長性チェック(cyclic redundancy check, crc)符号を用いてデコーダのジェニーを置換し, ga-listaeに比べてcrc-aided (ca)-listaeに性能損失を負わせた。 CA-listAEは、メッセージワードにCRCを付加することにより、わずかに減少する価格で有意義な符号化ゲインを示す。

There has been a growing interest in automating the design of channel encoders and decoders in an auto-encoder(AE) framework in recent years for reliable transmission of data over noisy channels. In this paper we present a new framework for designing AEs for this purpose. In particular, we present an AE framework, namely listAE, in which the decoder network outputs a list of decoded message word candidates. A genie is assumed to be available at the output of the decoder and specific loss functions are proposed to optimize the performance of the genie-aided (GA)-listAE. The listAE is a general AE framework and can be used with any network architecture. We propose a specific end-to-end network architecture which decodes the received word on a sequence of component codes with decreasing rates. The listAE based on the proposed architecture, referred to as incremental redundancy listAE (IR-listAE), improves the state-of-the-art AE performance by 1 dB at low block error rates under GA decoding. We then employ cyclic redundancy check (CRC) codes to replace the genie at the decoder, giving CRC-aided (CA)-listAE with negligible performance loss compared to the GA-listAE. The CA-listAE shows meaningful coding gain at the price of a slight decrease in the rate due to appending CRC to the message word.
翻訳日:2021-12-24 02:45:37 公開日:2021-12-19
# (参考訳) logarithmic unbiased quantization: ディープラーニングにおける実践的4ビットトレーニング [全文訳有]

Logarithmic Unbiased Quantization: Practical 4-bit Training in Deep Learning ( http://arxiv.org/abs/2112.10769v1 )

ライセンス: CC BY 4.0
Brian Chmiel, Ron Banner, Elad Hoffer, Hilla Ben Yaacov, Daniel Soudry(参考訳) 重みとアクティベーションの量子化は、ディープニューラルネットワーク(DNN)トレーニングの計算フットプリントを削減する主要な方法の1つである。 現在の方法は前フェーズの4ビット量子化を可能にする。 しかし、これはトレーニングプロセスの3分の1に過ぎない。 トレーニングプロセス全体の計算フットプリントを削減するには、中間的な神経層の出力に対する損失勾配というニューラルネットワーク勾配の量子化が必要である。 本研究では,量子化ニューラルネットワークトレーニングにおける非バイアス量子化の重要性,その維持方法,その方法について検討する。 これに基づいて、前と後の両方の位相を4ビットに定量化するための$\textit{logarithmic unbiased Quantization}$ (LUQ)法を提案する。 例えば、ImageNetのResNet50では、1.18%の劣化を達成した。 さらに, 高精度微調整と分散低減法を併用した単一エポック後の0.64%の劣化に改善し, いずれも従来提案した手法に匹敵するオーバヘッドを付加する。 最後に,学習過程の3分の2における乗算を避けるために,低精度の形式を用いる手法を提案し,乗算器が使用する面積を5倍削減する。

Quantization of the weights and activations is one of the main methods to reduce the computational footprint of Deep Neural Networks (DNNs) training. Current methods enable 4-bit quantization of the forward phase. However, this constitutes only a third of the training process. Reducing the computational footprint of the entire training process requires the quantization of the neural gradients, i.e., the loss gradients with respect to the outputs of intermediate neural layers. In this work, we examine the importance of having unbiased quantization in quantized neural network training, where to maintain it, and how. Based on this, we suggest a $\textit{logarithmic unbiased quantization}$ (LUQ) method to quantize both the forward and backward phase to 4-bit, achieving state-of-the-art results in 4-bit training without overhead. For example, in ResNet50 on ImageNet, we achieved a degradation of 1.18%. We further improve this to degradation of only 0.64% after a single epoch of high precision fine-tuning combined with a variance reduction method -- both add overhead comparable to previously suggested methods. Finally, we suggest a method that uses the low precision format to avoid multiplications during two-thirds of the training process, thus reducing by 5x the area used by the multiplier.
翻訳日:2021-12-23 02:36:22 公開日:2021-12-19
# マルチチャネルネットワークによるパターン認識のジャミング - ディープラーニングによるアプローチ

Jamming Pattern Recognition over Multi-Channel Networks: A Deep Learning Approach ( http://arxiv.org/abs/2112.11222v1 )

ライセンス: Link先を確認
Ali Pourranjbar, Georges Kaddoum and Walid Saad(参考訳) インテリジェントなジャマーの出現により、ジャミング攻撃は無線システムの性能にとってより深刻な脅威となっている。 インテリジェントなジャマーは、正当なノードによって追跡される可能性を最小限に抑えるためにポリシーを変更することができる。 このように、このような妨害に対処するためには、ジャミングポリシーを常に調整可能なジャミング防止機構が要求される。 驚くべきことに、既存のアンチジャミング手法は、主に不変ジャミングポリシーによるジャミング攻撃の緩和に焦点を当てており、知的ジャミングを逆境と考えることは滅多にないため、ここでは適用できない。 そこで,本稿では,ジャミング型認識技術とアンチジャミング手法を併用する手法を提案する。 提案手法では、ジャマーの占有チャネルを入力とし、ジャマーの型を出力する繰り返しニューラルネットワークを用いる。 このスキームの下では、まずリアルタイムのジャムマーポリシーを特定し、次に最も適切な対策を選択する。 これにより、新たなジャミングポリシーに適合した新たなアンチジャミング方式への迅速な切り替えが可能な認識技術により、ジャマーポリシーの変更を即座に検出することができる。 提案手法の性能を評価するために,ジャマーポリシー切替時間の関数として検出精度が導出される。 シミュレーションの結果、ジャマーが5つのタイムスロット毎にポリシーを切り替えると、すべてのユーザ数の検出精度が70%以上となり、ジャマーポリシー切替時間が45の場合には90%に向上することがわかった。

With the advent of intelligent jammers, jamming attacks have become a more severe threat to the performance of wireless systems. An intelligent jammer is able to change its policy to minimize the probability of being traced by legitimate nodes. Thus, an anti-jamming mechanism capable of constantly adjusting to the jamming policy is required to combat such a jammer. Remarkably, existing anti-jamming methods are not applicable here because they mainly focus on mitigating jamming attacks with an invariant jamming policy, and they rarely consider an intelligent jammer as an adversary. Therefore, in this paper, to employ a jamming type recognition technique working alongside an anti-jamming technique is proposed. The proposed recognition method employs a recurrent neural network that takes the jammer's occupied channels as inputs and outputs the jammer type. Under this scheme, the real-time jammer policy is first identified, and, then, the most appropriate countermeasure is chosen. Consequently, any changes to the jammer policy can be instantly detected with the proposed recognition technique allowing for a rapid switch to a new anti-jamming method fitted to the new jamming policy. To evaluate the performance of the proposed recognition method, the accuracy of the detection is derived as a function of the jammer policy switching time. Simulation results show the detection accuracy for all the considered users numbers is greater than 70% when the jammer switches its policy every 5 time slots and the accuracy raises to 90% when the jammer policy switching time is 45.
翻訳日:2021-12-22 15:38:40 公開日:2021-12-19
# (参考訳) 条件分布のwasserstein生成学習

Wasserstein Generative Learning of Conditional Distribution ( http://arxiv.org/abs/2112.10039v1 )

ライセンス: CC BY 4.0
Shiao Liu, Xingyu Zhou, Yuling Jiao and Jian Huang(参考訳) 条件分布は応答と予測器の関係を記述する基本的な量である。 条件分布学習のためのワッサーシュタイン生成手法を提案する。 提案手法では条件生成器を用いて既知の分布を対象条件分布に変換する。 これらのジョイント分布のばらつき尺度としてワッサースタイン距離を用いて条件付きジェネレータと目標ジョイント分布とのジョイント分布とを整合させて条件付きジェネレータを推定する。 提案手法によって生成された条件付サンプリング分布の非漸近誤差境界を確立し,低次元集合上でのデータ分布が支持されていることを仮定して,次元の呪いを緩和できることを示す。 提案手法の有効性を検証するための数値実験を行い, 条件付きサンプル生成, 非パラメトリック条件密度推定, 予測不確実性定量化, 二変量応答データ, 画像再構成, 画像生成への応用について述べる。

Conditional distribution is a fundamental quantity for describing the relationship between a response and a predictor. We propose a Wasserstein generative approach to learning a conditional distribution. The proposed approach uses a conditional generator to transform a known distribution to the target conditional distribution. The conditional generator is estimated by matching a joint distribution involving the conditional generator and the target joint distribution, using the Wasserstein distance as the discrepancy measure for these joint distributions. We establish non-asymptotic error bound of the conditional sampling distribution generated by the proposed method and show that it is able to mitigate the curse of dimensionality, assuming that the data distribution is supported on a lower-dimensional set. We conduct numerical experiments to validate proposed method and illustrate its applications to conditional sample generation, nonparametric conditional density estimation, prediction uncertainty quantification, bivariate response data, image reconstruction and image generation.
翻訳日:2021-12-22 07:47:10 公開日:2021-12-19
# (参考訳) ソーシャルメディア上でのメンタルヘルス分類のためのデータ拡張 [全文訳有]

Data Augmentation for Mental Health Classification on Social Media ( http://arxiv.org/abs/2112.10064v1 )

ライセンス: CC BY 4.0
Gunjan Ansari, Muskan Garg and Chandni Saxena(参考訳) オンラインユーザーの精神障害はソーシャルメディア投稿を用いて決定される。 このドメインにおける大きな課題は、ソーシャルメディアプラットフォームでユーザーが生成したテキストを使用する倫理的クリアランスを活用することである。 アカデミック・リサーチャーは、メンタルヘルス分類のための不十分でラベルのないデータの問題を特定した。 この問題に対処するため,我々は,メンタルヘルス分類のためのドメイン固有ユーザ生成テキストに対するデータ拡張手法の効果について検討した。 既存の高度に確立されたデータ拡張技術のうち,データ拡張 (eda) や条件付きbert,バック変換 (bt) は,分類器の性能を向上させるために追加テキストを生成する潜在的な技術である。 さらに、Random Forest(RF)、Support Vector Machine(SVM)、Logistic Regression(LR)の3つの異なる分類器を用いて、2つの公開ソーシャルメディアデータセットに対するデータ拡張の影響を分析する。 実験の結果, 拡張データを用いた学習では, 分類器の性能が有意に向上した。

The mental disorder of online users is determined using social media posts. The major challenge in this domain is to avail the ethical clearance for using the user generated text on social media platforms. Academic re searchers identified the problem of insufficient and unlabeled data for mental health classification. To handle this issue, we have studied the effect of data augmentation techniques on domain specific user generated text for mental health classification. Among the existing well established data augmentation techniques, we have identified Easy Data Augmentation (EDA), conditional BERT, and Back Translation (BT) as the potential techniques for generating additional text to improve the performance of classifiers. Further, three different classifiers Random Forest (RF), Support Vector Machine (SVM) and Logistic Regression (LR) are employed for analyzing the impact of data augmentation on two publicly available social media datasets. The experiments mental results show significant improvements in classifiers performance when trained on the augmented data.
翻訳日:2021-12-22 07:45:12 公開日:2021-12-19
# (参考訳) CORE:複雑な空間回帰と埋め込みによる知識グラフエンティティ型予測手法 [全文訳有]

CORE: A Knowledge Graph Entity Type Prediction Method via Complex Space Regression and Embedding ( http://arxiv.org/abs/2112.10067v1 )

ライセンス: CC BY 4.0
Xiou Ge, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo(参考訳) エンティティ型予測は知識グラフ(KG)研究において重要な問題である。 本研究では,CORE (Commplex space Regression and Embedding) と呼ばれる新しいKGエンティティ型予測手法を提案する。 提案手法は,2つの複素空間埋め込みモデル,すなわち RotatE と ComplEx の表現力を利用する。 RotatEかComplExを使って2つの異なる複雑な空間にエンティティと型を埋め込む。 次に、これらの2つの空間をリンクする複素回帰モデルを導出する。 最後に,埋め込みパラメータと回帰パラメータを共同で最適化する機構を導入する。 実験の結果,COREは代表的なKGエンティティ型推論データセットのベンチマーク手法よりも優れていた。 様々なエンティティ型予測手法の強みと弱みを分析した。

Entity type prediction is an important problem in knowledge graph (KG) research. A new KG entity type prediction method, named CORE (COmplex space Regression and Embedding), is proposed in this work. The proposed CORE method leverages the expressive power of two complex space embedding models; namely, RotatE and ComplEx models. It embeds entities and types in two different complex spaces using either RotatE or ComplEx. Then, we derive a complex regression model to link these two spaces. Finally, a mechanism to optimize embedding and regression parameters jointly is introduced. Experiments show that CORE outperforms benchmarking methods on representative KG entity type inference datasets. Strengths and weaknesses of various entity type prediction methods are analyzed.
翻訳日:2021-12-22 07:34:28 公開日:2021-12-19
# (参考訳) QU-BraTS: MICCAI BraTS 2020 Challenge on Quantifying Uncertainity in Brain tumor Segmentation -- Analysis of Ranking Metrics and Benchmarking Results

QU-BraTS: MICCAI BraTS 2020 Challenge on Quantifying Uncertainty in Brain Tumor Segmentation -- Analysis of Ranking Metrics and Benchmarking Results ( http://arxiv.org/abs/2112.10074v1 )

ライセンス: CC BY 4.0
Raghav Mehta, Angelos Filos, Ujjwal Baid, Chiharu Sako, Richard McKinley, Michael Rebsamen, Katrin D\"atwyler, Raphael Meier, Piotr Radojewski, Gowtham Krishnan Murugesan, Sahil Nalawade, Chandan Ganesh, Ben Wagner, Fang F. Yu, Baowei Fei, Ananth J. Madhuranthakam, Joseph A. Maldjian, Laura Daza, Catalina G\'omez, Pablo Arbel\'aez, Chengliang Dai, Shuo Wang, Hadrien Raynaud, Yuanhan Mo, Elsa Angelini, Yike Guo, Wenjia Bai, Subhashis Banerjee, Linmin Pei, Murat AK, Sarahi Rosas-Gonz\'alez, Illyess Zemmoura, Clovis Tauber, Minh H. Vu, Tufve Nyholm, Tommy L\"ofstedt, Laura Mora Ballestar, Veronica Vilaplana, Hugh McHugh, Gonzalo Maso Talou, Alan Wang, Jay Patel, Ken Chang, Katharina Hoebel, Mishka Gidwani, Nishanth Arun, Sharut Gupta, Mehak Aggarwal, Praveer Singh, Elizabeth R. Gerstner, Jayashree Kalpathy-Cramer, Nicolas Boutry, Alexis Huard, Lasitha Vidyaratne, Md Monibor Rahman, Khan M. Iftekharuddin, Joseph Chazalon, Elodie Puybareau, Guillaume Tochon, Jun Ma, Mariano Cabezas, Xavier Llado, Arnau Oliver, Liliana Valencia, Sergi Valverde, Mehdi Amian, Mohammadreza Soltaninejad, Andriy Myronenko, Ali Hatamizadeh, Xue Feng, Quan Dou, Nicholas Tustison, Craig Meyer, Nisarg A. Shah, Sanjay Talbar, Marc-Andr Weber, Abhishek Mahajan, Andras Jakab, Roland Wiest, Hassan M. Fathallah-Shaykh, Arash Nazeri, Mikhail Milchenko, Daniel Marcus, Aikaterini Kotrotsou, Rivka Colen, John Freymann, Justin Kirby, Christos Davatzikos, Bjoern Menze, Spyridon Bakas, Yarin Gal, Tal Arbel(参考訳) ディープラーニング(DL)モデルは、Brain tumor Segmentation(BraTS)チャレンジなど、さまざまな医療画像ベンチマークの課題において、最先端のパフォーマンスを提供する。 しかし、局所病理領域の多部分分割(腫瘍や病変のサブリージョンなど)の課題は特に困難であり、DLモデルの臨床ワークフローへの変換を妨げる可能性がある。 DLモデル予測の信頼性を不確実性の形で定量化することで、最も不確実な領域の臨床的レビューを可能にし、信頼の構築と臨床翻訳への道を開くことができる。 近年,dl医用画像分割タスクにおいて不確実性推定手法が数多く導入されている。 不確実性対策の評価と比較のためのメトリクスの開発は、エンドユーザがより情報的な決定を下すのに役立つだろう。 本研究では,不確実性定量化(QU-BraTS)に関するBraTS 2019-2020の課題において開発された指標を検討,評価し,脳腫瘍のマルチコンパートメントセグメンテーションにおける不確実性評価の評価とランク付けを目的とした。 本尺度は, 正しい主張に高い信頼をもたらす不確実性評価と, 誤った主張に低い信頼度を割り当てる評価を報いるとともに, 信頼度の低い主張により高い割合をもたらす不確実性対策を罰するものである。 我々はさらに、2020年のqu-bratsの独立した14チームによるセグメンテーションの不確実性をベンチマークし、それぞれがメインのブラッツセグメンテーションタスクに参加した。 全体として,不確実性推定がセグメンテーションアルゴリズムに与える重要性と補完的価値を確認し,医用画像解析における不確実性定量化の必要性を強調した。 評価コードはhttps://github.com/R agMeh11/QU-BraTS.com で公開されています。

Deep learning (DL) models have provided the state-of-the-art performance in a wide variety of medical imaging benchmarking challenges, including the Brain Tumor Segmentation (BraTS) challenges. However, the task of focal pathology multi-compartment segmentation (e.g., tumor and lesion sub-regions) is particularly challenging, and potential errors hinder the translation of DL models into clinical workflows. Quantifying the reliability of DL model predictions in the form of uncertainties, could enable clinical review of the most uncertain regions, thereby building trust and paving the way towards clinical translation. Recently, a number of uncertainty estimation methods have been introduced for DL medical image segmentation tasks. Developing metrics to evaluate and compare the performance of uncertainty measures will assist the end-user in making more informed decisions. In this study, we explore and evaluate a metric developed during the BraTS 2019-2020 task on uncertainty quantification (QU-BraTS), and designed to assess and rank uncertainty estimates for brain tumor multi-compartment segmentation. This metric (1) rewards uncertainty estimates that produce high confidence in correct assertions, and those that assign low confidence levels at incorrect assertions, and (2) penalizes uncertainty measures that lead to a higher percentages of under-confident correct assertions. We further benchmark the segmentation uncertainties generated by 14 independent participating teams of QU-BraTS 2020, all of which also participated in the main BraTS segmentation task. Overall, our findings confirm the importance and complementary value that uncertainty estimates provide to segmentation algorithms, and hence highlight the need for uncertainty quantification in medical image analyses. Our evaluation code is made publicly available at https://github.com/R agMeh11/QU-BraTS.
翻訳日:2021-12-22 07:24:17 公開日:2021-12-19
# (参考訳) 信用スコアの検証によるデータセットシフトの管理 [全文訳有]

Managing dataset shift by adversarial validation for credit scoring ( http://arxiv.org/abs/2112.10078v1 )

ライセンス: CC BY 4.0
Hongyi Qian, Baohui Wang, Ping Ma, Lei Peng, Songfeng Gao, You Song(参考訳) クレジットスコアリングのシナリオではデータセットのシフトが一般的であり、トレーニングデータと実際に予測する必要があるデータの分布の不整合は、モデルのパフォーマンスを低下させる可能性がある。 しかし、現在の研究のほとんどは、これを考慮しておらず、モデルをトレーニングする異なる期間のデータを直接混ぜている。 これは2つの問題を引き起こす。 第一に、データ漏洩のリスク、すなわち、過去の予測に将来のデータを使用する。 この結果、オフライン検証の結果は膨らむが、実用アプリケーションでは満足できない結果になる。 第二に、マクロ経済環境とリスクコントロール戦略は、異なる期間に異なる傾向があり、借主の行動パターンも変化する可能性がある。 過去のデータで訓練されたモデルは、最近の段階では適用できないかもしれない。 そこで本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。 本手法では, 予測データに最も近い分布を持つ部分トレーニングセットサンプルを, 逆検証によりクロスバリデーションに選択し, 予測サンプル上でのトレーニングモデルの一般化性能を確保する。 また、簡単なスプライシング手法により、テストデータ分布に矛盾するトレーニングデータのサンプルもクロスバリデーションのトレーニングプロセスに関与し、すべてのデータをフル活用し、さらにモデル性能を向上させる。 提案手法の有効性を検証するため,レンディングクラブのデータを用いて,他のデータ分割法との比較実験を行った。 実験結果から,クレジットスコアリング分野におけるデータセットシフトの重要性と,提案手法の優位性を示す。

Dataset shift is common in credit scoring scenarios, and the inconsistency between the distribution of training data and the data that actually needs to be predicted is likely to cause poor model performance. However, most of the current studies do not take this into account, and they directly mix data from different time periods when training the models. This brings about two problems. Firstly, there is a risk of data leakage, i.e., using future data to predict the past. This can result in inflated results in offline validation, but unsatisfactory results in practical applications. Secondly, the macroeconomic environment and risk control strategies are likely to be different in different time periods, and the behavior patterns of borrowers may also change. The model trained with past data may not be applicable to the recent stage. Therefore, we propose a method based on adversarial validation to alleviate the dataset shift problem in credit scoring scenarios. In this method, partial training set samples with the closest distribution to the predicted data are selected for cross-validation by adversarial validation to ensure the generalization performance of the trained model on the predicted samples. In addition, through a simple splicing method, samples in the training data that are inconsistent with the test data distribution are also involved in the training process of cross-validation, which makes full use of all the data and further improves the model performance. To verify the effectiveness of the proposed method, comparative experiments with several other data split methods are conducted with the data provided by Lending Club. The experimental results demonstrate the importance of dataset shift in the field of credit scoring and the superiority of the proposed method.
翻訳日:2021-12-22 07:22:24 公開日:2021-12-19
# (参考訳) MoCaNet: 標準化ネットワークによる移動再ターゲティング [全文訳有]

MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks ( http://arxiv.org/abs/2112.10082v1 )

ライセンス: CC BY-SA 4.0
Wentao Zhu, Zhuoqian Yang, Ziang Di, Wayne Wu, Yizhou Wang, Chen Change Loy(参考訳) 制御された環境からの3次元モーションリターゲティングタスクを現場のシナリオにもたらす新しいフレームワークを提案する。 特に,2次元モノクロ映像のキャラクタから3次元キャラクタへの体の動きを,モーションキャプチャシステムや3次元再構成手順を使わずに再ターゲットすることが可能である。 3dアノテーションやモーションボディーのペアリング情報のない、教師なしのトレーニングに巨大なオンラインビデオを活用するように設計されている。 提案手法は,2つの新しい正準化演算,構造正準化とビュー正準化に基づく。 正準化操作と導出正規化を併用して,本手法は骨格配列を3つの独立した意味空間,すなわち運動,構造,視角に分解する。 歪んだ表現は、高精度で2Dから3Dへの動き再ターゲティングを可能にする。 提案手法は, 運動伝達ベンチマークにおいて, 身体の変動が大きく, 挑戦的な動作で優れた性能を実現する。 特に、標準化された骨格配列は、行動分析と運動検索の恩恵を受ける人間の動きの歪んだ解釈可能な表現として機能する可能性がある。

We present a novel framework that brings the 3D motion retargeting task from controlled environments to in-the-wild scenarios. In particular, our method is capable of retargeting body motion from a character in a 2D monocular video to a 3D character without using any motion capture system or 3D reconstruction procedure. It is designed to leverage massive online videos for unsupervised training, needless of 3D annotations or motion-body pairing information. The proposed method is built upon two novel canonicalization operations, structure canonicalization and view canonicalization. Trained with the canonicalization operations and the derived regularizations, our method learns to factorize a skeleton sequence into three independent semantic subspaces, i.e., motion, structure, and view angle. The disentangled representation enables motion retargeting from 2D to 3D with high precision. Our method achieves superior performance on motion transfer benchmarks with large body variations and challenging actions. Notably, the canonicalized skeleton sequence could serve as a disentangled and interpretable representation of human motion that benefits action analysis and motion retrieval.
翻訳日:2021-12-22 07:04:54 公開日:2021-12-19
# (参考訳) アークフェイスも性別を知ってる! [全文訳有]

ArcFace Knows the Gender, Too! ( http://arxiv.org/abs/2112.10101v1 )

ライセンス: CC BY 4.0
Majid Farzaneh(参考訳) この論文の主な考え方は、もしモデルが誰かを認識することができるなら、もちろん、その人の性別も知る必要があるということである。 したがって、性別分類の新しいモデルを定義する代わりに、顔の特徴に基づいて性別を決定するためにArcFace機能を使用する。 アークフェイスには顔画像が与えられ、顔には512の特徴が得られる。 そして、従来の機械学習モデルの助けを借りて、性別を決定する。 Support Vector Machine (SVM)、Linear Discriminant、Logistic Regressionといった差別的手法は、ArcFaceから抽出された特徴が、性別クラスを著しく区別することを示している。 Gender Classification Datasetの実験によると、ガウスカーネルを持つSVMは、ArcFace機能を使用して96.4%の精度で性別を分類できる。

The main idea of this paper is that if a model can recognize a person, of course, it must be able to know the gender of that person, too. Therefore, instead of defining a new model for gender classification, this paper uses ArcFace features to determine gender, based on the facial features. A face image is given to ArcFace and 512 features are obtained for the face. Then, with the help of traditional machine learning models, gender is determined. Discriminative methods such as Support Vector Machine (SVM), Linear Discriminant, and Logistic Regression well demonstrate that the features extracted from the ArcFace create a remarkable distinction between the gender classes. Experiments on the Gender Classification Dataset show that SVM with Gaussian kernel is able to classify gender with an accuracy of 96.4% using ArcFace features.
翻訳日:2021-12-22 06:48:58 公開日:2021-12-19
# (参考訳) 雑音ロバスト音声認識のためのドメイン逆学習を用いた密結合畳み込みネットワークの検討 [全文訳有]

Investigation of Densely Connected Convolutional Networks with Domain Adversarial Learning for Noise Robust Speech Recognition ( http://arxiv.org/abs/2112.10108v1 )

ライセンス: CC BY 4.0
Chia Yu Li and Ngoc Thang Vu(参考訳) 雑音にロバストな音声認識のためのドメイン・コンボリューション・トレーニングにより,密結合畳み込み畳み込みネットワーク(densenets)とその拡張について検討した。 DenseNetは、非常に深くてコンパクトな畳み込みニューラルネットワークであり、コンピュータビジョンの最先端の結果よりも驚くほど改善されている。 実験の結果,ディープフィードフォワードニューラルネットワークや畳み込みニューラルネットワークなど,他のニューラルネットワークモデルよりも高密度ネットワークは雑音に対して頑健であることが判明した。 さらに、ドメイン敵対学習は、既知のノイズ条件と未知のノイズ条件の両方に対して、DenseNetsの堅牢性をさらに向上させることができる。

We investigate densely connected convolutional networks (DenseNets) and their extension with domain adversarial training for noise robust speech recognition. DenseNets are very deep, compact convolutional neural networks which have demonstrated incredible improvements over the state-of-the-art results in computer vision. Our experimental results reveal that DenseNets are more robust against noise than other neural network based models such as deep feed forward neural networks and convolutional neural networks. Moreover, domain adversarial learning can further improve the robustness of DenseNets against both, known and unknown noise conditions.
翻訳日:2021-12-22 06:43:02 公開日:2021-12-19
# (参考訳) 不均一SoCの熱散逸予測システム同定法の評価 [全文訳有]

Evaluating System Identification Methods for Predicting Thermal Dissipation of Heterogeneous SoCs ( http://arxiv.org/abs/2112.10121v1 )

ライセンス: CC BY 4.0
Joel \"Ohrling and S\'ebastien Lafond and Dragos Truscan(参考訳) 本稿では,ハードウェアを必要とせずに,異なる構成の温度を迅速に予測できる異種socプラットフォームの温度予測モデルを構築するためのシステム同定手法について評価する。 具体的には,各コアのクロック周波数と利用率に基づいて温度を予測できるモデリング手法に注目した。 本研究では, 多項式回帰器を用いた線形状態空間同定手法, NARXニューラルネット手法, FIRモデル構造に設定したリカレントニューラルネットワークアプローチの3つの手法について検討する。 本手法はExynos 5422 SoCを用いたOdroid-XU4基板上で評価した。 その結果, 多項式レグレッセプタに基づくモデルは, 1時間および6時間のデータで学習した場合, 他の2モデルを大きく上回った。

In this paper we evaluate the use of system identification methods to build a thermal prediction model of heterogeneous SoC platforms that can be used to quickly predict the temperature of different configurations without the need of hardware. Specifically, we focus on modeling approaches that can predict the temperature based on the clock frequency and the utilization percentage of each core. We investigate three methods with respect to their prediction accuracy: a linear state-space identification approach using polynomial regressors, a NARX neural network approach and a recurrent neural network approach configured in an FIR model structure. We evaluate the methods on an Odroid-XU4 board featuring an Exynos 5422 SoC. The results show that the model based on polynomial regressors significantly outperformed the other two models when trained with 1 hour and 6 hours of data.
翻訳日:2021-12-22 06:36:07 公開日:2021-12-19
# (参考訳) 二元化ニューラルネットワークのための弾性リンク [全文訳有]

Elastic-Link for Binarized Neural Network ( http://arxiv.org/abs/2112.10149v1 )

ライセンス: CC BY 4.0
Jie Hu, Wu Ziheng, Vince Tan, Zhilin Lu, Mengze Zeng, Enhua Wu(参考訳) 最近の研究によると、BNN(Binarized Neural Networks)は計算コストとメモリフットプリントを大幅に削減し、リソース制約のあるデバイスへのモデル展開を容易にする。 しかし、その完全精度と比較して、BNNは深刻な精度劣化に悩まされている。 この精度のギャップを減らすことを目的とした研究は、これまでのところ、1x1畳み込み層がほとんどない特定のネットワークアーキテクチャに重点を置いてきた。 1x1の畳み込みは現代のアーキテクチャ(例えば、GoogleNet、ResNet、DenseNet)の設計において一般的であるため、BNNがより広く採用されるように効果的に2項化する方法を開発することが重要である。 本研究では,その後の畳み込み出力機能に実値入力機能を適応的に付加することにより,BNN内の情報フローを充実させる"Elastic-Link" (EL) モジュールを提案する。 提案するELモジュールは容易に実装でき、他のBNNメソッドと併用することができる。 ELをBNNに追加することで、大規模なImageNetデータセットに大きな改善がもたらされることを示す。 例えば、二元化resnet26のtop-1精度を57.9%から64.0%に引き上げる。 ELはバイナライズされたMobileNetのトレーニングの収束を支援し、トップ1の精度は56.4%である。 最後に、ReActNetの統合により、71.9%の精度で新しい最先端の結果が得られる。

Recent work has shown that Binarized Neural Networks (BNNs) are able to greatly reduce computational costs and memory footprints, facilitating model deployment on resource-constrained devices. However, in comparison to their full-precision counterparts, BNNs suffer from severe accuracy degradation. Research aiming to reduce this accuracy gap has thus far largely focused on specific network architectures with few or no 1x1 convolutional layers, for which standard binarization methods do not work well. Because 1x1 convolutions are common in the design of modern architectures (e.g. GoogleNet, ResNet, DenseNet), it is crucial to develop a method to binarize them effectively for BNNs to be more widely adopted. In this work, we propose an "Elastic-Link" (EL) module to enrich information flow within a BNN by adaptively adding real-valued input features to the subsequent convolutional output features. The proposed EL module is easily implemented and can be used in conjunction with other methods for BNNs. We demonstrate that adding EL to BNNs produces a significant improvement on the challenging large-scale ImageNet dataset. For example, we raise the top-1 accuracy of binarized ResNet26 from 57.9% to 64.0%. EL also aids convergence in the training of binarized MobileNet, for which a top-1 accuracy of 56.4% is achieved. Finally, with the integration of ReActNet, it yields a new state-of-the-art result of 71.9% top-1 accuracy.
翻訳日:2021-12-22 06:27:10 公開日:2021-12-19
# (参考訳) ドリフトデータストリーム分類のためのアクティブ重み付け時効アンサンブル [全文訳有]

Active Weighted Aging Ensemble for Drifted Data Stream Classification ( http://arxiv.org/abs/2112.10150v1 )

ライセンス: CC BY 4.0
Micha{\l} Wo\'zniak, Pawe{\l} Zyblewski and Pawe{\l} Ksieniewicz(参考訳) ストリーミングデータ分類の重要な問題の1つは、分類タスクの確率的特性の変化からなる概念ドリフトの発生である。 この現象は分類モデルの性能を不安定にし、品質を著しく低下させる。 この現象に対処する適切な戦略は、分類器を確率特性の変化に適応させる必要がある。 このようなソリューションを実装する上で大きな問題の1つは、データラベルへのアクセスである。 通常は費用がかかるため、半教師付き学習に基づく学習戦略が提案されており、例えば、分類器の性能を向上させるためにラベル付けされる対象のどれが価値があるかを示すアクティブな学習手法が提案されている。 本稿では,任意のデータストリーム分類アルゴリズムに適用可能な限定予算を考慮した,分類子アンサンブル学習に基づく非定常データストリームのチャンクベース手法とアクティブラーニング戦略を提案する。 提案手法は実データストリームと生成データストリームの両方を用いてコンピュータ実験により評価されている。 その結果,提案アルゴリズムは最先端手法よりも高品質であることが確認された。

One of the significant problems of streaming data classification is the occurrence of concept drift, consisting of the change of probabilistic characteristics of the classification task. This phenomenon destabilizes the performance of the classification model and seriously degrades its quality. An appropriate strategy counteracting this phenomenon is required to adapt the classifier to the changing probabilistic characteristics. One of the significant problems in implementing such a solution is the access to data labels. It is usually costly, so to minimize the expenses related to this process, learning strategies based on semi-supervised learning are proposed, e.g., employing active learning methods indicating which of the incoming objects are valuable to be labeled for improving the classifier's performance. This paper proposes a novel chunk-based method for non-stationary data streams based on classifier ensemble learning and an active learning strategy considering a limited budget that can be successfully applied to any data stream classification algorithm. The proposed method has been evaluated through computer experiments using both real and generated data streams. The results confirm the high quality of the proposed algorithm over state-of-the-art methods.
翻訳日:2021-12-22 06:13:24 公開日:2021-12-19
# (参考訳) tecm:c-meansクラスタリングの伝達 [全文訳有]

TECM: Transfer Evidential C-means Clustering ( http://arxiv.org/abs/2112.10152v1 )

ライセンス: CC BY 4.0
Lianmeng Jiao, Feng Wang, Zhun-ga Liu, and Quan Pan(参考訳) クラスタリングはテキスト分析、自然言語処理、画像セグメンテーション、その他のデータマイニング分野で広く使われている。 有望なクラスタリングアルゴリズムとして、明らかなc-means(ECM)は、オブジェクトがいくつかのクラスのサブセットに属し、ハード、ファジィ、および確率的クラスタリングの拡張を可能にすることによって、データに対する深い洞察を提供することができる。 しかし、他の古典的な分割ベースのアルゴリズムよりも多くのパラメータを推定する必要があるため、利用可能なデータが十分で品質が良い場合にのみうまく機能する。 これらの欠点を克服するため,本論文では,トランスファー学習の戦略を導入することで,c-means (tecm) アルゴリズムを提案する。 TECMの目的関数は、ECMの目的関数に基づいて、ソース領域にバリセンタを導入し、その目的関数を解決するために反復最適化戦略を用いる。 さらに、TECMはソースドメインとターゲットドメインのクラスタ数が異なる状況に適応することができる。 提案アルゴリズムは合成および実世界のデータセット上で検証されている。 実験により,TECMが従来のECMと他の代表的マルチタスクや転送クラスタリングアルゴリズムと比較した場合の有効性が示された。

Clustering is widely used in text analysis, natural language processing, image segmentation, and other data mining fields. As a promising clustering algorithm, the evidential c-means (ECM) can provide a deeper insight on the data by allowing an object to belong to several subsets of classes, which extends those of hard, fuzzy, and possibilistic clustering. However, as it needs to estimate much more parameters than the other classical partition-based algorithms, it only works well when the available data is sufficient and of good quality. In order to overcome these shortcomings, this paper proposes a transfer evidential c-means (TECM) algorithm, by introducing the strategy of transfer learning. The objective function of TECM is obtained by introducing barycenters in the source domain on the basis of the objective function of ECM, and the iterative optimization strategy is used to solve the objective function. In addition, the TECM can adapt to situation where the number of clusters in the source domain and the target domain is different. The proposed algorithm has been validated on synthetic and real-world datasets. Experimental results demonstrate the effectiveness of TECM in comparison with the original ECM as well as other representative multitask or transfer clustering algorithms.
翻訳日:2021-12-22 05:48:43 公開日:2021-12-19
# (参考訳) relax: 表現学習の説明可能性 [全文訳有]

RELAX: Representation Learning Explainability ( http://arxiv.org/abs/2112.10161v1 )

ライセンス: CC BY 4.0
Kristoffer K. Wickstr{\o}m, Daniel J. Trosten, Sigurd L{\o}kse, Karl {\O}yvind Mikalsen, Michael C. Kampffmeyer, Robert Jenssen(参考訳) ラベルのないデータから学習する際、自己超越による表現学習が大幅に改善したにもかかわらず、学習した表現にどんな影響を及ぼすかを説明する方法が存在しない。 これは表現の帰属に基づく説明のための最初のアプローチです。 我々のアプローチは、信頼に値する説明を生み出すために不可欠である説明の不確実性もモデル化することができる。 RELAXは入力とマスクアウトされたバージョン間の表現空間の類似性を測定して表現を説明し、直感的な説明を提供し、勾配ベースのベースラインを大幅に上回る。 自由度の理論的な解釈を行い,教師なしおよび教師なし学習を用いて訓練された特徴抽出器の新しい分析を行い,異なる学習戦略への洞察を与える。 最後に,マルチビュークラスタリングにおけるリラックスのユーザビリティを説明し,不確実性の導入が低複雑さの説明に不可欠であることを強調し,表現を説明する上で重要な一歩を踏み出した。

Despite the significant improvements that representation learning via self-supervision has led to when learning from unlabeled data, no methods exist that explain what influences the learned representation. We address this need through our proposed approach, RELAX, which is the first approach for attribution-based explanations of representations. Our approach can also model the uncertainty in its explanations, which is essential to produce trustworthy explanations. RELAX explains representations by measuring similarities in the representation space between an input and masked out versions of itself, providing intuitive explanations and significantly outperforming the gradient-based baseline. We provide theoretical interpretations of RELAX and conduct a novel analysis of feature extractors trained using supervised and unsupervised learning, providing insights into different learning strategies. Finally, we illustrate the usability of RELAX in multi-view clustering and highlight that incorporating uncertainty can be essential for providing low-complexity explanations, taking a crucial step towards explaining representations.
翻訳日:2021-12-22 05:30:01 公開日:2021-12-19
# (参考訳) 英語) LUC at ComMA-2021 Shared Task: Multilingual Gender Biased and Communal Language Identification without using language features (英語) [全文訳有]

LUC at ComMA-2021 Shared Task: Multilingual Gender Biased and Communal Language Identification without using linguistic features ( http://arxiv.org/abs/2112.10189v1 )

ライセンス: CC BY 4.0
Rodrigo Cu\'ellar-Hidalgo, Julio de Jes\'us Guerrero-Zambrano, Dominic Forest, Gerardo Reyes-Salgado, Juan-Manuel Torres-Moreno(参考訳) この研究の目的は、確率的かつ最先端のベクトル空間モデリング(VSM)手法がよく知られた機械学習アルゴリズムに、攻撃的、性別に偏った、あるいは共用的に分類されるソーシャルネットワーク文書を特定する能力を評価することである。 この目的のために、まず、トレーニングと開発サンプルを用いて、複数のベクトル空間モデリングと確率的手法を用いて複数のアルゴリズムを訓練し、より情報に乏しい構成を破棄するため、探索段階が実行された。 これらのシステムはComMA@ICON'21 Workshop on Multilingual Gender Biased and Communal Language Identificationのコンペティションに提出された。

This work aims to evaluate the ability that both probabilistic and state-of-the-art vector space modeling (VSM) methods provide to well known machine learning algorithms to identify social network documents to be classified as aggressive, gender biased or communally charged. To this end, an exploratory stage was performed first in order to find relevant settings to test, i.e. by using training and development samples, we trained multiple algorithms using multiple vector space modeling and probabilistic methods and discarded the less informative configurations. These systems were submitted to the competition of the ComMA@ICON'21 Workshop on Multilingual Gender Biased and Communal Language Identification.
翻訳日:2021-12-22 05:12:50 公開日:2021-12-19
# (参考訳) マンダリン・イングリッシュコード切り換えのためのエンドツーエンド自動音声認識における知識の統合 [全文訳有]

Integrating Knowledge in End-to-End Automatic Speech Recognition for Mandarin-English Code-Switching ( http://arxiv.org/abs/2112.10202v1 )

ライセンス: CC BY 4.0
Chia-Yu Li and Ngoc Thang Vu(参考訳) コードスイッチング(英: code-switching, cs)は、多言語コミュニティにおける一般的な言語現象である。 本稿では,マンダリン英語cs音声のエンドツーエンド音声認識について検討する。 cs言語ペアにおける言語間の特性ミスマッチ,スイッチングポイントの予測不能な性質,データ不足といった,cs固有の問題を分析した。 我々は,非言語的記号の融合,階層的ソフトマックスを用いた言語識別の統合,サブワード単位のモデル化,発話率の人為的低下,および速度摂動技術と複数のモノリンガルデータセットを用いたデータ拡張により,CS音声だけでなく,モノリンガルベンチマーク上での最終的な性能向上を図り,実生活環境に適用できるようにする。 最後に,異なる言語モデル統合手法が提案モデルの性能に与える影響について検討する。 実験の結果,提案手法はすべて認識性能を向上させることがわかった。 最良の組み合わせシステムは、混合エラー率の点でベースラインシステムを最大35%改善し、単言語ベンチマークで許容できる性能を提供する。

Code-Switching (CS) is a common linguistic phenomenon in multilingual communities that consists of switching between languages while speaking. This paper presents our investigations on end-to-end speech recognition for Mandarin-English CS speech. We analyse different CS specific issues such as the properties mismatches between languages in a CS language pair, the unpredictable nature of switching points, and the data scarcity problem. We exploit and improve the state-of-the-art end-to-end system by merging nonlinguistic symbols, by integrating language identification using hierarchical softmax, by modeling sub-word units, by artificially lowering the speaking rate, and by augmenting data using speed perturbed technique and several monolingual datasets to improve the final performance not only on CS speech but also on monolingual benchmarks in order to make the system more applicable on real life settings. Finally, we explore the effect of different language model integration methods on the performance of the proposed model. Our experimental results reveal that all the proposed techniques improve the recognition performance. The best combined system improves the baseline system by up to 35% relatively in terms of mixed error rate and delivers acceptable performance on monolingual benchmarks.
翻訳日:2021-12-22 05:05:17 公開日:2021-12-19
# (参考訳) HVTR:ヒトアバター用ハイブリッドボリュームアートレンダリング [全文訳有]

HVTR: Hybrid Volumetric-Textural Rendering for Human Avatars ( http://arxiv.org/abs/2112.10203v1 )

ライセンス: CC BY 4.0
Tao Hu, Tao Yu, Zerong Zheng, He Zhang, Yebin Liu, Matthias Zwicker(参考訳) 任意のポーズから仮想人間のアバターを効率よく高品質に合成するニューラルレンダリングパイプラインHVTR(Hybrid Volumetric-Textural Rendering)を提案する。 まず,人体表面の高密度UV多様体上での人間の動きを符号化する。 複雑な動き(例えば自己閉塞)を扱うために、UV多様体上の符号化された情報を活用し、動的ポーズ条件のニューラル放射場に基づく3次元体積表現を構築する。 これにより、トポロジーを変更することで3dジオメトリを表現できるが、ボリュームレンダリングは計算量的に重い。 そこで我々は,低解像度で効率よくレンダリングできる,ポーズ条件付きダウンサンプリング型ニューラル放射場(PD-NeRF)を用いて,粗い体積表現のみを用いる。 さらに,画像空間にレンダリングされたボリューム特徴と融合した2次元テクスチャ特徴を学習する。 このアプローチの主な利点は、高速なGANベースのテキストレンダラーにより、融合した特徴を高解像度で高品質なアバターに変換することができることである。 ハイブリッドレンダリングによって,hvtrは複雑な動きを処理でき,ユーザの操作したポーズや形,あるいはゆるい衣服の下で高品質のアバターをレンダリングできる。 実験結果はまた,最先端の定量的結果を示した。

We propose a novel neural rendering pipeline, Hybrid Volumetric-Textural Rendering (HVTR), which synthesizes virtual human avatars from arbitrary poses efficiently and at high quality. First, we learn to encode articulated human motions on a dense UV manifold of the human body surface. To handle complicated motions (e.g., self-occlusions), we then leverage the encoded information on the UV manifold to construct a 3D volumetric representation based on a dynamic pose-conditioned neural radiance field. While this allows us to represent 3D geometry with changing topology, volumetric rendering is computationally heavy. Hence we employ only a rough volumetric representation using a pose-conditioned downsampled neural radiance field (PD-NeRF), which we can render efficiently at low resolutions. In addition, we learn 2D textural features that are fused with rendered volumetric features in image space. The key advantage of our approach is that we can then convert the fused features into a high resolution, high-quality avatar by a fast GAN-based textural renderer. We demonstrate that hybrid rendering enables HVTR to handle complicated motions, render high-quality avatars under user-controlled poses/shapes and even loose clothing, and most importantly, be fast at inference time. Our experimental results also demonstrate state-of-the-art quantitative results.
翻訳日:2021-12-22 04:50:31 公開日:2021-12-19
# (参考訳) 安定共形予測集合 [全文訳有]

Stable Conformal Prediction Sets ( http://arxiv.org/abs/2112.10224v1 )

ライセンス: CC BY 4.0
Eugene Ndiaye(参考訳) 変数列 $(x_1, y_1), ..., (x_n, y_n)$ を観測すると、共形予測は、データの分布が交換可能であると単純に仮定して、$y_{n+1}$ に対する信頼セットを推定できる方法論である。 魅力的である一方、そのような集合の計算は一般には不可能であることが判明し、例えば未知変数 $y_{n+1}$ が連続であるときなどである。 本稿では,共形予測手法をアルゴリズム的安定性境界と組み合わせて,単一のモデルに適合する計算可能な予測セットを導出する。 我々は,試料サイズが十分大きい場合,推定の厳密さを示す数値実験を行った。

When one observes a sequence of variables $(x_1, y_1), ..., (x_n, y_n)$, conformal prediction is a methodology that allows to estimate a confidence set for $y_{n+1}$ given $x_{n+1}$ by merely assuming that the distribution of the data is exchangeable. While appealing, the computation of such set turns out to be infeasible in general, e.g. when the unknown variable $y_{n+1}$ is continuous. In this paper, we combine conformal prediction techniques with algorithmic stability bounds to derive a prediction set computable with a single model fit. We perform some numerical experiments that illustrate the tightness of our estimation when the sample size is sufficiently large.
翻訳日:2021-12-22 04:27:01 公開日:2021-12-19
# (参考訳) SSDNet: 時系列予測のための状態空間分解ニューラルネットワーク [全文訳有]

SSDNet: State Space Decomposition Neural Network for Time Series Forecasting ( http://arxiv.org/abs/2112.10251v1 )

ライセンス: CC BY 4.0
Yang Lin, Irena Koprinska, Mashud Rana(参考訳) 本稿では,時系列予測のための新しい深層学習手法であるSSDNetを提案する。 SSDNetはTransformerアーキテクチャと状態空間モデルを組み合わせることで、トレンドや季節的なコンポーネントを含む確率的かつ解釈可能な予測と、予測に重要な以前の時間ステップを提供する。 Transformerアーキテクチャは、時間パターンを学習し、カルマンフィルタを必要とせずに、状態空間モデルのパラメータを直接効率的に推定するために使用される。 5つのデータセットにおけるssdnetの性能を総合的に評価し,ssdnetは精度と速度の面で有効な手法であり,最先端のディープラーニングと統計的手法を上回っており,有意義な傾向と季節性成分を提供できることを示した。

In this paper, we present SSDNet, a novel deep learning approach for time series forecasting. SSDNet combines the Transformer architecture with state space models to provide probabilistic and interpretable forecasts, including trend and seasonality components and previous time steps important for the prediction. The Transformer architecture is used to learn the temporal patterns and estimate the parameters of the state space model directly and efficiently, without the need for Kalman filters. We comprehensively evaluate the performance of SSDNet on five data sets, showing that SSDNet is an effective method in terms of accuracy and speed, outperforming state-of-the-art deep learning and statistical methods, and able to provide meaningful trend and seasonality components.
翻訳日:2021-12-22 04:14:12 公開日:2021-12-19
# (参考訳) 3次元スケール不変特徴変換アルゴリズムのgpu最適化と新しい簡易インスパイア3d高速ディスクリプタ [全文訳有]

GPU optimization of the 3D Scale-invariant Feature Transform Algorithm and a Novel BRIEF-inspired 3D Fast Descriptor ( http://arxiv.org/abs/2112.10258v1 )

ライセンス: CC BY 4.0
Jean-Baptiste Carluer, Laurent Chauvin, Jie Luo, William M. Wells III, Ines Machado, Rola Harmouche, Matthew Toews(参考訳) 本研究は,大規模医用画像データを用いた機械学習を目的とした3次元スケール不変特徴変換(sift)アルゴリズムの高効率実装について述べる。 3D SIFTコードの主要な操作は、畳み込み、サブサンプリング、スケールスペースピラミッドからの4Dピーク検出を含むグラフィックス処理ユニット(GPU)上に実装されている。 パフォーマンス改善は、異なる人の3D MRI人間の脳量を用いて、キーポイント検出と画像間マッチング実験で定量化される。 計算効率のよい3Dキーポイント記述子は、RRIEFと呼ばれる新しい記述子を含むバイナリロバスト独立基本特徴(BRIEF)に基づいて提案され、元の3DSIFT-Rank法と比較される。 GPUの実装により、最適化されたCPU実装を超えて約7倍のスピードアップが可能となり、計算時間は3Dボリューム(145, 174, 145)で約3000のキーポイントを持つ1.4秒から0.2秒に短縮される。 注目すべきスピードアップは畳み込み動作(20x)、4dピーク検出(3x)、サブサンプリング(3x)、ガウスピラミッド構造(2x)である。 効率的なディスクリプタは、標準的なSIFT-Rankディスクリプタと比較して2Xのスピードアップと6Xのメモリセーブを提供し、キーポイント対応の数を削減し、計算効率とアルゴリズム性能のトレードオフを明らかにする。 実装によって得られるスピードアップにより、より大きなデータセットをより効率的に分析することができます。 3D SIFT-Rank抽出器のGPU実装はhttps://github.com/C arluerJB/3D_SIFT_CUD Aで利用可能である。

This work details a highly efficient implementation of the 3D scale-invariant feature transform (SIFT) algorithm, for the purpose of machine learning from large sets of volumetric medical image data. The primary operations of the 3D SIFT code are implemented on a graphics processing unit (GPU), including convolution, sub-sampling, and 4D peak detection from scale-space pyramids. The performance improvements are quantified in keypoint detection and image-to-image matching experiments, using 3D MRI human brain volumes of different people. Computationally efficient 3D keypoint descriptors are proposed based on the Binary Robust Independent Elementary Feature (BRIEF) code, including a novel descriptor we call Ranked Robust Independent Elementary Features (RRIEF), and compared to the original 3D SIFT-Rank method\citep{toews2013efficient}. The GPU implementation affords a speedup of approximately 7X beyond an optimised CPU implementation, where computation time is reduced from 1.4 seconds to 0.2 seconds for 3D volumes of size (145, 174, 145) voxels with approximately 3000 keypoints. Notable speedups include the convolution operation (20X), 4D peak detection (3X), sub-sampling (3X), and difference-of-Gaussi an pyramid construction (2X). Efficient descriptors offer a speedup of 2X and a memory savings of 6X compared to standard SIFT-Rank descriptors, at a cost of reduced numbers of keypoint correspondences, revealing a trade-off between computational efficiency and algorithmic performance. The speedups gained by our implementation will allow for a more efficient analysis on larger data sets. Our optimized GPU implementation of the 3D SIFT-Rank extractor is available at https://github.com/C arluerJB/3D_SIFT_CUD A.
翻訳日:2021-12-22 03:56:28 公開日:2021-12-19
# (参考訳) 高次元比例ハザードモデルのための変分ベイズと遺伝子発現変数選択への応用

Variational Bayes for high-dimensional proportional hazards models with applications to gene expression variable selection ( http://arxiv.org/abs/2112.10270v1 )

ライセンス: CC BY 4.0
Michael Komodromos, Eric Aboagye, Marina Evangelou, Sarah Filippi, Kolyan Ray(参考訳) 本研究では,高次元生存データに対する予測と変動選択のための変分ベイズ比例ハザードモデルを提案する。 提案手法は平均場変分近似に基づいて, 有用な特徴を保持しつつ高い計算コストを克服し, 優れた点推定を提供し, 後方包含確率による変数選択の自然なメカニズムを提供する。 提案手法の性能を広範囲なシミュレーションにより評価し,他のベイズ変数選択法と比較し,同等あるいは優れた性能を示す。 最後に,本手法は,既存の生物学的解釈を用いた遺伝子同定を行う2つのトランスクリプトミクスデータセット上での可変選択に有用であることを示す。

We propose a variational Bayesian proportional hazards model for prediction and variable selection regarding high-dimensional survival data. Our method, based on a mean-field variational approximation, overcomes the high computational cost of MCMC whilst retaining the useful features, providing excellent point estimates and offering a natural mechanism for variable selection via posterior inclusion probabilities. The performance of our proposed method is assessed via extensive simulations and compared against other state-of-the-art Bayesian variable selection methods, demonstrating comparable or better performance. Finally, we demonstrate how the proposed method can be used for variable selection on two transcriptomic datasets with censored survival outcomes, where we identify genes with pre-existing biological interpretations.
翻訳日:2021-12-22 03:35:30 公開日:2021-12-19
# (参考訳) マルチモーダルプロキシを用いたマルチアスペクトオンラインレビューの因果効果の推定 [全文訳有]

Estimating Causal Effects of Multi-Aspect Online Reviews with Multi-Modal Proxies ( http://arxiv.org/abs/2112.10274v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ruocheng Guo, Huan Liu(参考訳) オンラインレビューは、消費者が企業と関わり、重要なフィードバックを提供する。 高次元テキストの複雑さのため、これらのレビューは、例えば格付けや感情スコアなど、単一の数値スコアとして単純化されることが多い。 本研究は,レストランの食品・サービスといった複数の側面を考慮し,ユーザ生成オンラインレビューの詳細なレベルに対する因果関係を実証的に検討する。 異なる側面に対する消費者の意見を理解することは、ビジネスパフォーマンスを詳細に評価し、ビジネスオペレーションを効果的に戦略化するのに役立ちます。 具体的には、品質w.r.t.のアスペクトサービスが10%向上すれば、レストランの人気はどうなるのか、といった介入的な疑問に答えることを目指している。 観察データによる因果推論の明確な課題は、例えば消費者の食品タイプへの嗜好を観察または測定することができない「共同設立者」の存在であり、推定された影響を偏見と高分散に反映させるものである。 この課題に対処するため、消費者プロファイル情報や消費者と企業間の相互作用といったマルチモーダルプロキシに言及する。 我々は、オンラインレビューに埋め込まれた複数の側面の因果効果を識別し推定するために、リッチな情報を効果的に活用する方法を示す。 人工的および実世界のデータに関する実証的な評価は,提案手法の有効性を裏付けるものである。

Online reviews enable consumers to engage with companies and provide important feedback. Due to the complexity of the high-dimensional text, these reviews are often simplified as a single numerical score, e.g., ratings or sentiment scores. This work empirically examines the causal effects of user-generated online reviews on a granular level: we consider multiple aspects, e.g., the Food and Service of a restaurant. Understanding consumers' opinions toward different aspects can help evaluate business performance in detail and strategize business operations effectively. Specifically, we aim to answer interventional questions such as What will the restaurant popularity be if the quality w.r.t. its aspect Service is increased by 10%? The defining challenge of causal inference with observational data is the presence of "confounder", which might not be observed or measured, e.g., consumers' preference to food type, rendering the estimated effects biased and high-variance. To address this challenge, we have recourse to the multi-modal proxies such as the consumer profile information and interactions between consumers and businesses. We show how to effectively leverage the rich information to identify and estimate causal effects of multiple aspects embedded in online reviews. Empirical evaluations on synthetic and real-world data corroborate the efficacy and shed light on the actionable insight of the proposed approach.
翻訳日:2021-12-22 03:34:07 公開日:2021-12-19
# (参考訳) 手指キーポイント検出のための深い監視を伴う並列マルチスケールネットワーク [全文訳有]

Parallel Multi-Scale Networks with Deep Supervision for Hand Keypoint Detection ( http://arxiv.org/abs/2112.10275v1 )

ライセンス: CC BY 4.0
Renjie Li, Son Tran, Saurabh Garg, Katherine Lawler, Jane Alty, Quan Bai(参考訳) キーポイント検出は幅広いアプリケーションにおいて重要な役割を果たす。 しかし、人間の手のような小さな物体のキーポイントを予測することは難しい問題である。 深層畳み込みニューラルネットワーク(cnns)のヒューズ特徴マップは、マルチレベル特徴統合またはマルチレゾリューションアグリゲーションを介して作成されている。 ある程度の成功にもかかわらず、機能融合アプローチはcnnの複雑さと不透明性を高める。 この問題に対処するため,我々は,階層から層への適応的特徴伝達のための注目マップを作成するために,異なるスケールで特徴マップを深層監視により学習する,Multi-Scale Deep Supervision Network (P-MSDSNet) という新しいCNNモデルを提案する。 P-MSDSNetはマルチステージアーキテクチャを備えており、空間的注意による深い監視によって各ステージにおける特徴学習への透明性が向上する。 P-MSDSNetは,パラメータの少ないベンチマークデータセットにおいて,最先端の手法よりも優れていることを示す。 また,P-MSDSNetを用いた手の動きの定量化についても検討した。

Keypoint detection plays an important role in a wide range of applications. However, predicting keypoints of small objects such as human hands is a challenging problem. Recent works fuse feature maps of deep Convolutional Neural Networks (CNNs), either via multi-level feature integration or multi-resolution aggregation. Despite achieving some success, the feature fusion approaches increase the complexity and the opacity of CNNs. To address this issue, we propose a novel CNN model named Multi-Scale Deep Supervision Network (P-MSDSNet) that learns feature maps at different scales with deep supervisions to produce attention maps for adaptive feature propagation from layers to layers. P-MSDSNet has a multi-stage architecture which makes it scalable while its deep supervision with spatial attention improves transparency to the feature learning at each stage. We show that P-MSDSNet outperforms the state-of-the-art approaches on benchmark datasets while requiring fewer number of parameters. We also show the application of P-MSDSNet to quantify finger tapping hand movements in a neuroscience study.
翻訳日:2021-12-22 03:15:30 公開日:2021-12-19
# 畳み込みニューラルネットワークを用いたAIGA-IACT画像の解析に関する予備的結果

The Preliminary Results on Analysis of TAIGA-IACT Images Using Convolutional Neural Networks ( http://arxiv.org/abs/2112.10168v1 )

ライセンス: Link先を確認
Elizaveta Gres and and Alexander Kryukov(参考訳) ブレアティア共和国のタンカ谷にあるチェレンコフ望遠鏡TAIGA-IACTは、短時間で大量のデータを蓄積し、効率的にかつ迅速に分析する必要がある。 このような分析の方法の1つは機械学習であり、近年多くの技術・科学分野でその効果が証明されている。 本研究の目的は,宇宙線の一次粒子の同定と物理パラメータの再構成という,大賀行為の課題を解決するための機械学習応用の可能性を検討することである。 この研究では、CORSIKAでシミュレートされたモンテカルロイベントの処理と解析に、畳み込みニューラルネットワーク(CNN)の手法を適用した。 また、処理のための様々なCNNアーキテクチャも検討された。 この方法では, エアショーア (EAS) の一次粒子の種類の決定とガンマ線エネルギーの再構成に良好な結果が得られた。 その結果, 立体視では有意に改善した。

The imaging Cherenkov telescopes TAIGA-IACT, located in the Tunka valley of the republic Buryatia, accumulate a lot of data in a short period of time which must be efficiently and quickly analyzed. One of the methods of such analysis is the machine learning, which has proven its effectiveness in many technological and scientific fields in recent years. The aim of the work is to study the possibility of the machine learning application to solve the tasks set for TAIGA-IACT: the identification of the primary particle of cosmic rays and reconstruction their physical parameters. In the work the method of Convolutional Neural Networks (CNN) was applied to process and analyze Monte-Carlo events simulated with CORSIKA. Also various CNN architectures for the processing were considered. It has been demonstrated that this method gives good results in the determining the type of primary particles of Extensive Air Shower (EAS) and the reconstruction of gamma-rays energy. The results are significantly improved in the case of stereoscopic observations.
翻訳日:2021-12-21 18:55:12 公開日:2021-12-19
# 畳み込みニューラルネットワークを用いたAIGA実験におけるHiSCOREシミュレーション事象の解析

Analysis of the HiSCORE Simulated Events in TAIGA Experiment Using Convolutional Neural Networks ( http://arxiv.org/abs/2112.10170v1 )

ライセンス: Link先を確認
Anna Vlaskina and Alexander Kryukov(参考訳) TAIGAは10TeVから複数のEeVまでの高エネルギーでのガンマ線天文学のハイブリッド天文台である。 TAIGA-IACT、TAIGA-HiSCOREなどの楽器で構成されている。 特にTAIGA-HiSCOREは、広角タイミングのチェレンコフ光ステーションのアレイである。 TAIGA-HiSCOREデータにより、エアシャワーエネルギー、到着方向、軸座標などのエアシャワー特性を再構築することができる。 本報告では,空気シャワー特性判定における畳み込みニューラルネットワークの利用について検討する。 畳み込みニューラルネットワーク(CNN)を用いて、HiSCOREイベントを分析し、それらを画像として扱う。 このため、日SCORE駅で記録されたイベントの時間と振幅が使用される。 この研究は、単純な畳み込みニューラルネットワークとそのトレーニングについて論じている。 また, シャワー軸の方向, 位置, 一次粒子のエネルギーなど, エアシャワーのパラメータの決定に関する予備的な結果を示し, 従来の方法による結果と比較した。

TAIGA is a hybrid observatory for gamma-ray astronomy at high energies in range from 10 TeV to several EeV. It consists of instruments such as TAIGA-IACT, TAIGA-HiSCORE, and others. TAIGA-HiSCORE, in particular, is an array of wide-angle timing Cherenkov light stations. TAIGA-HiSCORE data enable to reconstruct air shower characteristics, such as air shower energy, arrival direction, and axis coordinates. In this report, we propose to consider the use of convolution neural networks in task of air shower characteristics determination. We use Convolutional Neural Networks (CNN) to analyze HiSCORE events, treating them like images. For this, the times and amplitudes of events recorded at HiSCORE stations are used. The work discusses a simple convolutional neural network and its training. In addition, we present some preliminary results on the determination of the parameters of air showers such as the direction and position of the shower axis and the energy of the primary particle and compare them with the results obtained by the traditional method.
翻訳日:2021-12-21 18:54:55 公開日:2021-12-19
# 量子近似最適化アルゴリズムのバイナリパーセプトロンへの応用

Quantum Approximate Optimization Algorithm applied to the binary perceptron ( http://arxiv.org/abs/2112.10219v1 )

ライセンス: Link先を確認
Pietro Torta, Glen B. Mbeng, Carlo Baldassi, Riccardo Zecchina, Giuseppe E. Santoro(参考訳) 数値化量子アニーリング(qa)と量子近似最適化アルゴリズム(qaoa)を、ニューラルネットワークにおける教師付き学習のパラダイム的課題であるバイナリ・パーセプトロンのシナプス重みの最適化に適用する。 量子スピン鎖基底状態の準備において、MaxCutや量子スピン鎖に対する通常のQAOA応用と異なる場合、古典的ハミルトニアンは非常に非局所的なマルチスピン相互作用によって特徴づけられる。 しかし,同一問題の典型例間で移動可能なqaoaパラメータに対する最適平滑解が存在することを示すとともに,従来のqaに対するqaoaの性能向上を数値的に証明する。 また,この問題におけるQAOA最適化ランドスケープ形状の役割についても検討し,QAにおけるギャップ閉鎖遷移の有害効果が,当社のQAOA実装の性能に悪影響を及ぼしていることを示した。

We apply digitized Quantum Annealing (QA) and Quantum Approximate Optimization Algorithm (QAOA) to a paradigmatic task of supervised learning in artificial neural networks: the optimization of synaptic weights for the binary perceptron. At variance with the usual QAOA applications to MaxCut, or to quantum spin-chains ground state preparation, the classical Hamiltonian is characterized by highly non-local multi-spin interactions. Yet, we provide evidence for the existence of optimal smooth solutions for the QAOA parameters, which are transferable among typical instances of the same problem, and we prove numerically an enhanced performance of QAOA over traditional QA. We also investigate on the role of the QAOA optimization landscape geometry in this problem, showing that the detrimental effect of a gap-closing transition encountered in QA is also negatively affecting the performance of our implementation of QAOA.
翻訳日:2021-12-21 18:54:41 公開日:2021-12-19
# 動的ハイパーエッジのための表現学習

Representation Learning for Dynamic Hyperedges ( http://arxiv.org/abs/2112.10154v1 )

ライセンス: Link先を確認
Tony Gracious, Ambedkar Dukkipati(参考訳) 近年,インタラクションデータから情報を抽出することへの関心が高まっている。 従来の方法では、動的ネットワーク内の特定のタイミングでペアワイズインタラクションとしてモデル化する。 しかし、実世界の相互作用は2つ以上のノードを含むことがほとんどない。 文献では、この種のグループ相互作用はハイパーエッジ/ハイパーリンクによってモデル化される。 既存のハイパーエッジモデリングの作業は静的ネットワークのみに焦点を当てており、他のノードと相互作用するノードの時間的進化をモデル化することはできない。 また、どのタイプのインタラクションが次に発生し、いつインタラクションが生じるかといった、時間的なクエリに答えることはできない。 本稿では,これらの制約に対処するため,ハイパーリンク予測のための時間点プロセスモデルを開発する。 提案モデルでは,ノードの動的表現手法を用いて進化をモデル化し,この表現をニューラルポイントプロセスフレームワークを用いて推論を行う。 実世界の5つのインタラクションデータからモデルを評価し,静的モデルよりも動的モデルの方が高い性能を示した。 さらに,この手法が対相互作用モデリング技術よりも優れていることを示す。

Recently there has been a massive interest in extracting information from interaction data. Traditionally this is done by modeling it as pair-wise interaction at a particular time in a dynamic network. However, real-world interactions are seldom pair-wise; they can involve more than two nodes. In literature, these types of group interactions are modeled by hyperedges/hyperlink s. The existing works for hyperedge modeling focused only on static networks, and they cannot model the temporal evolution of nodes as they interact with other nodes. Also, they cannot answer temporal queries like which type of interaction will occur next and when the interaction will occur. To address these limitations, in this paper, we develop a temporal point process model for hyperlink prediction. Our proposed model uses dynamic representation techniques for nodes to model the evolution and uses this representation in a neural point process framework to make inferences. We evaluate our models on five real-world interaction data and show that our dynamic model has significant performance gain over the static model. Further, we also demonstrate the advantages of our technique over the pair-wise interaction modeling technique.
翻訳日:2021-12-21 18:27:13 公開日:2021-12-19
# fedni: 集団病予測のためのネットワークインペインティングを用いたフェデレーショングラフ学習

FedNI: Federated Graph Learning with Network Inpainting for Population-Based Disease Prediction ( http://arxiv.org/abs/2112.10166v1 )

ライセンス: Link先を確認
Liang Peng, Nan Wang, Nicha Dvornek, Xiaofeng Zhu, Xiaoxiao Li(参考訳) グラフ畳み込みニューラルネットワーク(GCN)はグラフ解析に広く用いられている。 特に医学的応用において、GCNは集団グラフ上の疾患予測に使用することができ、グラフノードは個人を表し、エッジは個々の類似性を表す。 しかし、gcnsは膨大なデータに依存しており、単一の医療機関のために収集することが困難である。 加えて、ほとんどの医療機関が直面している批判的な課題は、不完全なデータ情報によって隔離された病気の予測に対処することである。 これらの問題に対処するために、フェデレートラーニング(FL)は、孤立した地方機関がデータ共有なしでグローバルモデルを協調的にトレーニングすることを可能にする。 本研究では,ネットワーク・インパインティングと施設間データをflで活用するためのフレームワークfedniを提案する。 具体的には,まず,グラフ生成型adversarial network (gan) を用いて欠落ノードとエッジ予測器を連携訓練し,ローカルネットワークの欠落情報を完成させる。 次に、フェデレーショングラフ学習プラットフォームを使用して、機関間でグローバルgcnノード分類をトレーニングする。 この新しい設計により、フェデレートラーニングとグラフラーニングのアプローチを利用して、より正確な機械学習モデルを構築することができる。 2つの公開ニューロイメージングデータセットにおいて,フェデレーションモデルが局所的およびベースライン的なfl法よりも大きなマージンを持つことを示す。

Graph Convolutional Neural Networks (GCNs) are widely used for graph analysis. Specifically, in medical applications, GCNs can be used for disease prediction on a population graph, where graph nodes represent individuals and edges represent individual similarities. However, GCNs rely on a vast amount of data, which is challenging to collect for a single medical institution. In addition, a critical challenge that most medical institutions continue to face is addressing disease prediction in isolation with incomplete data information. To address these issues, Federated Learning (FL) allows isolated local institutions to collaboratively train a global model without data sharing. In this work, we propose a framework, FedNI, to leverage network inpainting and inter-institutional data via FL. Specifically, we first federatively train missing node and edge predictor using a graph generative adversarial network (GAN) to complete the missing information of local networks. Then we train a global GCN node classifier across institutions using a federated graph learning platform. The novel design enables us to build more accurate machine learning models by leveraging federated learning and also graph learning approaches. We demonstrate that our federated model outperforms local and baseline FL methods with significant margins on two public neuroimaging datasets.
翻訳日:2021-12-21 18:26:57 公開日:2021-12-19
# データフリー構造プルーニングにおける因果推論について

On Causal Inference for Data-free Structured Pruning ( http://arxiv.org/abs/2112.10229v1 )

ライセンス: Link先を確認
Martin Ferianc, Anush Sankaran, Olivier Mastropietro, Ehsan Saboori, Quentin Cappart(参考訳) ニューラルネットワーク(NN)は、研究と産業の両方に大きな影響を与えている。 それにもかかわらず、nnsの精度が向上すると、そのサイズ、必要な演算数、エネルギー消費量が拡大する。 リソース消費の増加は、NNの採用率の低下と現実世界の展開の非現実性をもたらす。 それゆえ、nnはより広いオーディエンスで利用できるように圧縮され、同時にランタイムのコストが削減される必要がある。 本研究では,因果推論の観点からこの課題にアプローチし,nnの構造的刈り取りを容易にするスコアリング機構を提案する。 このアプローチは、nnを介して順次伝播する最大エントロピー摂動下での相互情報の測定に基づいている。 提案手法は2つのデータセットと様々なNNサイズで性能を実証し,本手法が挑戦条件下での競合性能を実現することを示す。

Neural networks (NNs) are making a large impact both on research and industry. Nevertheless, as NNs' accuracy increases, it is followed by an expansion in their size, required number of compute operations and energy consumption. Increase in resource consumption results in NNs' reduced adoption rate and real-world deployment impracticality. Therefore, NNs need to be compressed to make them available to a wider audience and at the same time decrease their runtime costs. In this work, we approach this challenge from a causal inference perspective, and we propose a scoring mechanism to facilitate structured pruning of NNs. The approach is based on measuring mutual information under a maximum entropy perturbation, sequentially propagated through the NN. We demonstrate the method's performance on two datasets and various NNs' sizes, and we show that our approach achieves competitive performance under challenging conditions.
翻訳日:2021-12-21 18:26:35 公開日:2021-12-19
# 人工電磁材料設計のための逆ディープラーニング法とベンチマーク

Inverse deep learning methods and benchmarks for artificial electromagnetic material design ( http://arxiv.org/abs/2112.10254v1 )

ライセンス: Link先を確認
Simiao Ren, Ashwin Mahendra, Omar Khatib, Yang Deng, Willie J. Padilla and Jordan M. Malof(参考訳) ディープラーニング(DL)逆技術は、人工電磁材料(AEM)設計の速度を向上し、その結果のデバイスの品質を改善した。 多くのDL逆技術がAEM設計タスクに成功しているが、比較、コントラスト、評価を行うためには、逆問題の根底にある欠点を明らかにすることが重要である。 ここでは、最先端のアプローチを概観し、深層学習逆法および非可逆かつ条件付き可逆ニューラルネットワークをAEM設計に包括的に調査する。 我々は、容易にアクセス可能で迅速に実装可能なAMM設計ベンチマークを作成し、異なる設計課題を解決するのに最適なDLテクニックを効率的に決定するための方法論を提供する。 提案手法は, 繰り返しシミュレーションの制約と, AEM設計問題の相対的不備を表現するための簡易な統合計量によって導かれる。 問題がますます悪化するにつれて, 境界損失 (NA) を伴うニューラルアドジョイントは, シミュレーションの制約にかかわらず, より高速な解を生成する。 より単純なAEM設計タスクでは、シミュレーションが限定された場合、直接ニューラルネットワーク(NN)の方が良いが、混合密度ネットワーク(MDN)と条件付き変分オートエンコーダ(VAE)によって予測されるジオメトリは、サンプリングと再シミュレーションを継続することで改善できる。

Deep learning (DL) inverse techniques have increased the speed of artificial electromagnetic material (AEM) design and improved the quality of resulting devices. Many DL inverse techniques have succeeded on a number of AEM design tasks, but to compare, contrast, and evaluate assorted techniques it is critical to clarify the underlying ill-posedness of inverse problems. Here we review state-of-the-art approaches and present a comprehensive survey of deep learning inverse methods and invertible and conditional invertible neural networks to AEM design. We produce easily accessible and rapidly implementable AEM design benchmarks, which offers a methodology to efficiently determine the DL technique best suited to solving different design challenges. Our methodology is guided by constraints on repeated simulation and an easily integrated metric, which we propose expresses the relative ill-posedness of any AEM design problem. We show that as the problem becomes increasingly ill-posed, the neural adjoint with boundary loss (NA) generates better solutions faster, regardless of simulation constraints. On simpler AEM design tasks, direct neural networks (NN) fare better when simulations are limited, while geometries predicted by mixture density networks (MDN) and conditional variational auto-encoders (VAE) can improve with continued sampling and re-simulation.
翻訳日:2021-12-21 18:25:05 公開日:2021-12-19
# 画像空間情報に対する領域ベースセグメンテーション会計のための異方性メッシュ適応

Anisotropic mesh adaptation for region-based segmentation accounting for image spatial information ( http://arxiv.org/abs/2112.10138v1 )

ライセンス: Link先を確認
Matteo Giacomini and Simona Perotto(参考訳) 異方性メッシュ適応法により強化された有限要素ベース画像分割戦略を示す。 この手法は、領域ベースのエネルギー汎関数の最小化のための分割ブレグマンアルゴリズムと、メッシュ適応を駆動する異方性回復に基づく誤差推定に依存する。 より正確には、ベイズエネルギー汎関数は画像空間情報を考慮し、複雑な画像内の不均質な空間パターンを識別できるようにすると考えられている。 さらに、異方性メッシュ適応は、画像の背景と前景の間のインターフェースのシャープな検出を、自由度の減少とともに保証する。 得られた分割適応ブレグマンアルゴリズムは、ガウス、塩、唐辛子、スペックルノイズの存在下であっても、その手法の正確さと堅牢性を示す実画像に対して試験される。

A finite element-based image segmentation strategy enhanced by an anisotropic mesh adaptation procedure is presented. The methodology relies on a split Bregman algorithm for the minimisation of a region-based energy functional and on an anisotropic recovery-based error estimate to drive mesh adaptation. More precisely, a Bayesian energy functional is considered to account for image spatial information, ensuring that the methodology is able to identify inhomogeneous spatial patterns in complex images. In addition, the anisotropic mesh adaptation guarantees a sharp detection of the interface between background and foreground of the image, with a reduced number of degrees of freedom. The resulting split-adapt Bregman algorithm is tested on a set of real images showing the accuracy and robustness of the method, even in the presence of Gaussian, salt and pepper and speckle noise.
翻訳日:2021-12-21 18:23:43 公開日:2021-12-19
# 人間と機械のための新しい画像コーデックパラダイム

A New Image Codec Paradigm for Human and Machine Uses ( http://arxiv.org/abs/2112.10071v1 )

ライセンス: Link先を確認
Sien Chen, Jian Jin, Lili Meng, Weisi Lin, Zhuo Chen, Tsui-Shan Chang, Zhengguang Li, Huaxiang Zhang(参考訳) AI of Things(AIoT)開発では、画像やビデオなどの膨大なビジュアルデータが、日々の作業や生活の中で生成されます。 これらの視覚データは、人間の観察や理解だけでなく、機械分析や意思決定、例えばインテリジェントな監視、自動走行車、その他多くのスマートシティアプリケーションにも使用される。 この目的のために、人間と機械の両方で使用する新しいイメージコーデックパラダイムが提案されている。 まず、高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。 次に、インスタンスセグメンテーションマップを、提案する16ビットグレースケール表現のプロファイルとして表現する。 その後、16ビットのグレースケールプロファイルと信号機能は、損失のないコーデックでエンコードされる。 一方、画像予測器は16ビットのグレースケールプロファイルと信号特徴を持つ一般品質の画像再構成を実現するために設計・訓練されている。 最後に、原画像と予測画像との残差マップを、高品質な画像再構成に用いる損失コーデックで圧縮する。 このような設計では、異なる人間の消費の要件を満たすために、スケーラブルな画像圧縮を実現することができる一方、デコーダ側では、オブジェクトの分類、検出、セグメンテーションなど、デコードされた16ビットグレースケールプロファイルを用いて、複数のマシンビジョンタスクを直接達成することができる。 実験の結果,提案コーデックは学習ベースのコーデックと同等の結果を得られ,画像再構成のためのpsnrとms-ssimで従来のコーデック(例えば bpg と jpeg2000)を上回った。 同時に、オブジェクトの検出とセグメンテーションのmAPの観点から、既存のコーデックよりも優れています。

With the AI of Things (AIoT) development, a huge amount of visual data, e.g., images and videos, are produced in our daily work and life. These visual data are not only used for human viewing or understanding but also for machine analysis or decision-making, e.g., intelligent surveillance, automated vehicles, and many other smart city applications. To this end, a new image codec paradigm for both human and machine uses is proposed in this work. Firstly, the high-level instance segmentation map and the low-level signal features are extracted with neural networks. Then, the instance segmentation map is further represented as a profile with the proposed 16-bit gray-scale representation. After that, both 16-bit gray-scale profile and signal features are encoded with a lossless codec. Meanwhile, an image predictor is designed and trained to achieve the general-quality image reconstruction with the 16-bit gray-scale profile and signal features. Finally, the residual map between the original image and the predicted one is compressed with a lossy codec, used for high-quality image reconstruction. With such designs, on the one hand, we can achieve scalable image compression to meet the requirements of different human consumption; on the other hand, we can directly achieve several machine vision tasks at the decoder side with the decoded 16-bit gray-scale profile, e.g., object classification, detection, and segmentation. Experimental results show that the proposed codec achieves comparable results as most learning-based codecs and outperforms the traditional codecs (e.g., BPG and JPEG2000) in terms of PSNR and MS-SSIM for image reconstruction. At the same time, it outperforms the existing codecs in terms of the mAP for object detection and segmentation.
翻訳日:2021-12-21 17:55:46 公開日:2021-12-19
# 胸部x線写真を用いた肺結節検出のための深層学習ワークフロー

A Deep Learning Based Workflow for Detection of Lung Nodules With Chest Radiograph ( http://arxiv.org/abs/2112.10184v1 )

ライセンス: Link先を確認
Yang Tai(参考訳) PURPOSE:胸部X線写真(CXR)による肺結節の検出と局所化を目的とした深層学習ツールの開発を目的とした。 我々は,CXRの解釈効率を高め,肺癌の診断遅延の可能性を低減することを期待した。 資料と方法:NCKUHデータベースとオープンソースの医療画像データセットであるVBDからCXRをトレーニングおよび検証データとして収集した。 厚生労働省(MOHW)データベースのCXRがテストデータとして役立ちました。 CXRから肺領域を識別するセグメンテーションモデルを構築し,それを16個のパッチに分割した。 医師はパッチをクリックしてCXRにラベルを付けた。 これらのラベル付きパッチは、ディープニューラルネットワーク(dnn)モデルのトレーニングと微調整に使用され、パッチを正または負に分類した。 最後に,MOHWのCXRの肺パッチを用いてDNNモデルを検証した。 結果: 分画モデルはcxr全体から肺領域をよく同定した。 接地真理と分断結果の間の連合(IoU)のインターセクションは0.9228である。 さらに, 125例中98例において, DNNモデルは0.81, 0.82, AUROCは0.869であった。 他の27例では感度0.54、特異性0.494、AUROC 0.682であった。 感度0.78,特異性0.79,AUROC0.837を得た。 CONCLUSIONS: 我々の2段階のワークフローは、CXRから肺結節を局在させる感度と特異性において最先端のアルゴリズムに匹敵する。 特に,本ワークフローは,ラベル付き医用画像データの相対的希少性から,関連研究に有用なラベル付けを行うための効率的な方法である。

PURPOSE: This study aimed to develop a deep learning-based tool to detect and localize lung nodules with chest radiographs(CXRs). We expected it to enhance the efficiency of interpreting CXRs and reduce the possibilities of delayed diagnosis of lung cancer. MATERIALS AND METHODS: We collected CXRs from NCKUH database and VBD, an open-source medical image dataset, as our training and validation data. A number of CXRs from the Ministry of Health and Welfare(MOHW) database served as our test data. We built a segmentation model to identify lung areas from CXRs, and sliced them into 16 patches. Physicians labeled the CXRs by clicking the patches. These labeled patches were then used to train and fine-tune a deep neural network(DNN) model, classifying the patches as positive or negative. Finally, we test the DNN model with the lung patches of CXRs from MOHW. RESULTS: Our segmentation model identified the lung regions well from the whole CXR. The Intersection over Union(IoU) between the ground truth and the segmentation result was 0.9228. In addition, our DNN model achieved a sensitivity of 0.81, specificity of 0.82, and AUROC of 0.869 in 98 of 125 cases. For the other 27 difficult cases, the sensitivity was 0.54, specificity 0.494, and AUROC 0.682. Overall, we obtained a sensitivity of 0.78, specificity of 0.79, and AUROC 0.837. CONCLUSIONS: Our two-step workflow is comparable to state-of-the-art algorithms in the sensitivity and specificity of localizing lung nodules from CXRs. Notably, our workflow provides an efficient way for specialists to label the data, which is valuable for relevant researches because of the relative rarity of labeled medical image data.
翻訳日:2021-12-21 17:55:19 公開日:2021-12-19
# D-HAN:階層型アテンションネットワークを用いた動的ニュースレコメンデーション

D-HAN: Dynamic News Recommendation with Hierarchical Attention Network ( http://arxiv.org/abs/2112.10085v1 )

ライセンス: Link先を確認
Qinghua Zhao, Xu Chen, Hui Zhang, Shuai Ma(参考訳) ニュースレコメンデーションは現代社会における効果的な情報伝達ソリューションである。 近年、多くの有望なニュースレコメンデーションモデルが目撃されているが、主に文書レベルでのユーザと新規のインタラクションを静的に捉えている。 しかし、現実のシナリオでは、ニュースは非常に複雑で多様で、すべてのコンテンツを埋め込みベクターに盲目的に絞り込むと、ユーザの好みに合った情報を抽出するのに効果が低下する。 さらに、ニュースレコメンデーションシナリオにおけるユーザの好みは、非常にダイナミックであり、より優れたレコメンデーションパフォーマンスのために、カスタマイズされた動的メカニズムを設計する必要がある。 本稿では,新しい動的ニュース推薦モデルを提案する。 ニュースコンテンツをよりよく理解するために、注意機構を活用して、それぞれ文レベル、要素レベル、文書レベルからニュースを表現する。 ユーザの動的好みを捉えるために、連続時間情報は注意重みの計算にシームレスに組み込まれます。 より具体的には、下位層が異なる文や要素の重要性を学習し、上位層が以前に対話したニュースとターゲットニュースの相関関係をキャプチャする階層型注意ネットワークを設計する。 動的文字を包括的にモデル化するために,まず絶対時間情報と相対時間情報の両方を組み込むことにより,従来の注意機構を強化し,ユーザの暗黙的フィードバックを最適化する動的負サンプリング手法を提案する。 3つの実世界のデータセットに基づいて広範な実験を行い,モデルの有効性を実証した。 ソースコードと事前訓練された表現はhttps://github.com/l showway/D-HAN.orgで公開されている。

News recommendation is an effective information dissemination solution in modern society. While recent years have witnessed many promising news recommendation models, they mostly capture the user-news interactions on the document-level in a static manner. However, in real-world scenarios, the news can be quite complex and diverse, blindly squeezing all the contents into an embedding vector can be less effective in extracting information compatible with the personalized preference of the users. In addition, user preferences in the news recommendation scenario can be highly dynamic, and a tailored dynamic mechanism should be designed for better recommendation performance. In this paper, we propose a novel dynamic news recommender model. For better understanding the news content, we leverage the attention mechanism to represent the news from the sentence-, element- and document-levels, respectively. For capturing users' dynamic preferences, the continuous time information is seamlessly incorporated into the computing of the attention weights. More specifically, we design a hierarchical attention network, where the lower layer learns the importance of different sentences and elements, and the upper layer captures the correlations between the previously interacted and the target news. To comprehensively model the dynamic characters, we firstly enhance the traditional attention mechanism by incorporating both absolute and relative time information, and then we propose a dynamic negative sampling method to optimize the users' implicit feedback. We conduct extensive experiments based on three real-world datasets to demonstrate our model's effectiveness. Our source code and pre-trained representations are available at https://github.com/l showway/D-HAN.
翻訳日:2021-12-21 17:31:21 公開日:2021-12-19
# 効果的な質問スケジューリングのためのマスク付き深部q-recommender

Masked Deep Q-Recommender for Effective Question Scheduling ( http://arxiv.org/abs/2112.10125v1 )

ライセンス: Link先を確認
Keunhyung Chung, Daehan Kim, Sangheon Lee, Guik Jung(参考訳) 生徒の知識レベルに応じて適切な質問を行うことは、パーソナライズされた学習において必須である。 しかし,教師が生徒の知識状況を理解し,適切な質問を行うことには,多くの手作業が必要となる。 この問題に対処するために,強化学習(rl)を用いて学生の知識レベルを効果的に高める質問スケジューリングモデルを提案する。 提案手法はまず,知識追跡モデルを用いて,学生の概念レベルの知識を評価する。 学生の知識が予測された場合、RLベースの推薦者は各質問の利点を予測する。 カリキュラムの範囲制限と重複ペナルティにより、推薦者はあらかじめ定義された質問数に到達するまで質問を順次選択する。 2週間に1日20問の質問を行う学生シミュレータを用いた実験では,提案手法により推奨される質問は,専門家が設計したスケジュールベースラインよりも21.3%向上し,10%の学生知識レベルが向上した。

Providing appropriate questions according to a student's knowledge level is imperative in personalized learning. However, It requires a lot of manual effort for teachers to understand students' knowledge status and provide optimal questions accordingly. To address this problem, we introduce a question scheduling model that can effectively boost student knowledge level using Reinforcement Learning (RL). Our proposed method first evaluates students' concept-level knowledge using knowledge tracing (KT) model. Given predicted student knowledge, RL-based recommender predicts the benefits of each question. With curriculum range restriction and duplicate penalty, the recommender selects questions sequentially until it reaches the predefined number of questions. In an experimental setting using a student simulator, which gives 20 questions per day for two weeks, questions recommended by the proposed method increased average student knowledge level by 21.3%, superior to an expert-designed schedule baseline with a 10% increase in student knowledge levels.
翻訳日:2021-12-21 17:30:54 公開日:2021-12-19
# 多人数音声のストリーミング認識のためのマルチターンRNN-T

Multi-turn RNN-T for streaming recognition of multi-party speech ( http://arxiv.org/abs/2112.10200v1 )

ライセンス: Link先を確認
Ilya Sklyar, Anna Piunova, Xianrui Zheng, Yulan Liu(参考訳) 未知の話者数を持つ単一チャネル遠距離録音の音声認識(ASR)は、伝統的にカスケードモジュールによって取り組まれる。 近年の研究では、エンドツーエンド(e2e)マルチスピーカーasrモデルがモジュラーシステムよりも優れた認識精度を達成できることが示されている。 しかし、これらのモデルは完全なオーディオコンテキストに依存するため、リアルタイムな適用性が保証されない。 この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカーリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。 まず,訓練中にオンザフライオーバラップ音声シミュレーションを導入し,librispeechmixテストセットにおいて14%の相対単語誤り率(wer)改善を実現した。 第2に,モデルアーキテクチャの変更を伴わずに任意の話者に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。 学習中の最大話者数がmt-rnn-t性能に及ぼす影響について検討し,ms-rnn-tに対する28%の相対wer改善を報告した。 第3に,多人数音声の協調認識とセグメンテーションのためのリッチな転写戦略の実験を行った。 詳細な分析を通じて,提案システムの潜在的な落とし穴と今後の研究方向性について考察する。

Automatic speech recognition (ASR) of single channel far-field recordings with an unknown number of speakers is traditionally tackled by cascaded modules. Recent research shows that end-to-end (E2E) multi-speaker ASR models can achieve superior recognition accuracy compared to modular systems. However, these models do not ensure real-time applicability due to their dependency on full audio context. This work takes real-time applicability as the first priority in model design and addresses a few challenges in previous work on multi-speaker recurrent neural network transducer (MS-RNN-T). First, we introduce on-the-fly overlapping speech simulation during training, yielding 14% relative word error rate (WER) improvement on LibriSpeechMix test set. Second, we propose a novel multi-turn RNN-T (MT-RNN-T) model with an overlap-based target arrangement strategy that generalizes to an arbitrary number of speakers without changes in the model architecture. We investigate the impact of the maximum number of speakers seen during training on MT-RNN-T performance on LibriCSS test set, and report 28% relative WER improvement over the two-speaker MS-RNN-T. Third, we experiment with a rich transcription strategy for joint recognition and segmentation of multi-party speech. Through an in-depth analysis, we discuss potential pitfalls of the proposed system as well as promising future research directions.
翻訳日:2021-12-21 17:29:59 公開日:2021-12-19
# 無監督ブラインド画像デコンボリューションのためのウィナーガイドDIP

Wiener Guided DIP for Unsupervised Blind Image Deconvolution ( http://arxiv.org/abs/2112.10271v1 )

ライセンス: Link先を確認
Gustav Bredell, Ertunc Erdil, Bruno Weber, Ender Konukoglu(参考訳) ブラインド・デコンボリューション(英: Blind deconvolution)は、顕微鏡から天文学まで様々な分野で発生する不適切な問題である。 問題の性質の悪さは、望ましい解決策に到達するためには十分な事前情報を必要とする。 近年,教師なしのブラインドデコンボリューション最適化において,ディープラーニングアーキテクチャが画像生成の先駆けとして機能することが示されている。 本稿では,Wiener-Deconvolutio nを用いて,ガウスから始まる補助的なカーネル推定値を用いて,ぼかし画像のシャープ化版を提供することにより,最適化中の画像生成を導くことを提案する。 低周波特性と比較して, 脱畳の高周波アーティファクトが遅れて再生されることが観察された。 また、画像生成装置は、ぼやけた画像よりも、逆畳み画像の低周波特性を高速に再現する。 制約付き最適化フレームワークに計算処理を組み込んで,提案手法が複数のデータセットに対して高い安定性と性能をもたらすことを示す。 さらに、コードも提供します。

Blind deconvolution is an ill-posed problem arising in various fields ranging from microscopy to astronomy. The ill-posed nature of the problem requires adequate priors to arrive to a desirable solution. Recently, it has been shown that deep learning architectures can serve as an image generation prior during unsupervised blind deconvolution optimization, however often exhibiting a performance fluctuation even on a single image. We propose to use Wiener-deconvolution to guide the image generator during optimization by providing it a sharpened version of the blurry image using an auxiliary kernel estimate starting from a Gaussian. We observe that the high-frequency artifacts of deconvolution are reproduced with a delay compared to low-frequency features. In addition, the image generator reproduces low-frequency features of the deconvolved image faster than that of a blurry image. We embed the computational process in a constrained optimization framework and show that the proposed method yields higher stability and performance across multiple datasets. In addition, we provide the code.
翻訳日:2021-12-21 17:28:20 公開日:2021-12-19
# 行動認識のための前提条件と効果推論

Precondition and Effect Reasoning for Action Recognition ( http://arxiv.org/abs/2112.10057v1 )

ライセンス: Link先を確認
Yoo Hongsang, Li Haopeng, Ke Qiuhong, Liu Liangchen, Zhang Rui(参考訳) 近年、人間の行動認識は研究と応用の重要性から多くの注目を集めている。 アクション認識に関する研究の多くは、ビデオから効果的な空間時間的特徴を学習することに焦点を当てているが、事前条件、行動、効果の間の強い因果関係を無視している。 このような関係は、行動認識の正確性にも不可欠である。 本稿では,行動認識の性能向上のための前提条件と効果に基づく因果関係のモデル化を提案する。 具体的には,行動認識のための因果関係を捉えるために,サイクルリゾンモデルを提案する。 この目的のために,大規模アクションデータセットにプリコンディションと効果をアノテートする。 実験の結果,提案手法は,事前条件と効果を効果的に判断し,行動認識性能を向上させることができることがわかった。

Human action recognition has drawn a lot of attention in the recent years due to the research and application significance. Most existing works on action recognition focus on learning effective spatial-temporal features from videos, but neglect the strong causal relationship among the precondition, action and effect. Such relationships are also crucial to the accuracy of action recognition. In this paper, we propose to model the causal relationships based on the precondition and effect to improve the performance of action recognition. Specifically, a Cycle-Reasoning model is proposed to capture the causal relationships for action recognition. To this end, we annotate precondition and effect for a large-scale action dataset. Experimental results show that the proposed Cycle-Reasoning model can effectively reason about the precondition and effect and can enhance action recognition performance.
翻訳日:2021-12-21 16:36:26 公開日:2021-12-19
# LocFormer:ロング・アントリミング・ビデオにおけるテンポラルモーメント・ローカライゼーションを実現するためのトランスフォーマー

LocFormer: Enabling Transformers to Perform Temporal Moment Localization on Long Untrimmed Videos With a Feature Sampling Approach ( http://arxiv.org/abs/2112.10066v1 )

ライセンス: Link先を確認
Cristian Rodriguez-Opazo, Edison Marrese-Taylor, Basura Fernando, Hiroya Takamura, Qi Wu(参考訳) 本稿では,ビデオのフレーム数によらず,一定のメモリフットプリントで動作するトランスフォーマーベースのビデオグラウンドモデルであるLocFormerを提案する。 LocFormerは、長いビデオ全体を処理する必要があるタスクのために設計されており、その中核には2つの主な貢献がある。 まず,入力特徴列を一定数のセクションに分割し,確率的アプローチで各セクション毎に1つの特徴を選択する新しいサンプリング手法を取り入れ,メモリフットプリントを一定に保ちつつ,手元のタスクの映像コンテンツを代表する特徴サンプルセットを得る。 第2に,機能分離のためのモジュール設計を提案し,自己注意ヘッドを監督し,事前学習したテキストやビデオエンコーダを効果的に活用することで,帰納的バイアスを学習できるようにする。 ビデオグラウンティングのための関連するベンチマークデータセット上で提案手法を検証したところ,locformerはyoucookiiの最先端性能を含む優れた成果を得られるだけでなく,サンプリング技術が競合相手よりも効果的であること,また,平均時間iouでは最大3.13\%向上し,最終的にcharades-staの最先端性能に繋がることがわかった。

We propose LocFormer, a Transformer-based model for video grounding which operates at a constant memory footprint regardless of the video length, i.e. number of frames. LocFormer is designed for tasks where it is necessary to process the entire long video and at its core lie two main contributions. First, our model incorporates a new sampling technique that splits the input feature sequence into a fixed number of sections and selects a single feature per section using a stochastic approach, which allows us to obtain a feature sample set that is representative of the video content for the task at hand while keeping the memory footprint constant. Second, we propose a modular design that separates functionality, enabling us to learn an inductive bias via supervising the self-attention heads, while also effectively leveraging pre-trained text and video encoders. We test our proposals on relevant benchmark datasets for video grounding, showing that not only LocFormer can achieve excellent results including state-of-the-art performance on YouCookII, but also that our sampling technique is more effective than competing counterparts and that it consistently improves the performance of prior work, by up to 3.13\% in the mean temporal IoU, ultimately leading to a new state-of-the-art performance on Charades-STA.
翻訳日:2021-12-21 16:36:15 公開日:2021-12-19
# Occlusion-Robust Facial Landmark Localizationのための推論構造関係

Reasoning Structural Relation for Occlusion-Robust Facial Landmark Localization ( http://arxiv.org/abs/2112.10087v1 )

ライセンス: Link先を確認
Congcong Zhu, Xiaoqiang Li, Jide Li, Songmin Dai, Weiqin Tong(参考訳) 顔のランドマーク位置決めタスクでは、顔の特徴の部分的可観測性により、様々な咬合が位置決め精度を著しく低下させる。 本稿では, 咬合-ロバストランドマーク定位のための構造関係ネットワーク (srn) を提案する。 形状制約を単純に活用する既存の方法とは異なり、SRNは異なる顔成分間の構造的関係を捉えることを目的としている。 これらの関係は、閉塞に対するより強力な形状制約と見なすことができる。 これを実現するために、階層構造関係モジュール(HSRM)は、長距離および短距離空間依存の両方を表す構造関係を階層的に解析するように設計されている。 既存のネットワークアーキテクチャと比較して、HSRMはその幾何学的ネットワークアーキテクチャを利用して空間関係を効率的にモデル化することができる。 さらに、SRNは、隠蔽された顔の合成によってトレーニングデータを増強する。 閉鎖された映像データに対するSRNをさらに拡張するため,マルコフ決定過程(MDP)として隠蔽顔合成を定式化する。 具体的には、事前訓練されたSRNの性能劣化に伴う累積報酬に基づいて、動的閉塞運動を計画する。 この手順は強固な顔ランドマーク追跡のためのハードサンプルを増強する。 広汎な実験結果から,提案手法は隠蔽面とマスク面の優れた性能を実現することが示唆された。 コードはhttps://github.com/z huccly/SRNで入手できる。

In facial landmark localization tasks, various occlusions heavily degrade the localization accuracy due to the partial observability of facial features. This paper proposes a structural relation network (SRN) for occlusion-robust landmark localization. Unlike most existing methods that simply exploit the shape constraint, the proposed SRN aims to capture the structural relations among different facial components. These relations can be considered a more powerful shape constraint against occlusion. To achieve this, a hierarchical structural relation module (HSRM) is designed to hierarchically reason the structural relations that represent both long- and short-distance spatial dependencies. Compared with existing network architectures, HSRM can efficiently model the spatial relations by leveraging its geometry-aware network architecture, which reduces the semantic ambiguity caused by occlusion. Moreover, the SRN augments the training data by synthesizing occluded faces. To further extend our SRN for occluded video data, we formulate the occluded face synthesis as a Markov decision process (MDP). Specifically, it plans the movement of the dynamic occlusion based on an accumulated reward associated with the performance degradation of the pre-trained SRN. This procedure augments hard samples for robust facial landmark tracking. Extensive experimental results indicate that the proposed method achieves outstanding performance on occluded and masked faces. Code is available at https://github.com/z huccly/SRN.
翻訳日:2021-12-21 16:35:20 公開日:2021-12-19
# 教師なし人物再識別のためのカメラ対応スタイル分離とコントラスト学習

Camera-aware Style Separation and Contrastive Learning for Unsupervised Person Re-identification ( http://arxiv.org/abs/2112.10089v1 )

ライセンス: Link先を確認
Xue Li, Tengfei Liang, Yi Jin, Tao Wang, Yidong Li(参考訳) 教師なしの人物再識別(ReID)は、識別学習を導くためのデータアノテーションのない課題である。 既存の手法では、抽出した埋め込みをクラスタリングして擬似ラベルを生成する。 しかし、ほとんどの手法はカメラスタイルのばらつきによるクラス内ギャップを無視しており、カメラスタイルが特徴分布に与える影響を解消しようとするが、比較的複雑で間接的な方法もある。 そこで本研究では,カメラアウェア型アテンションモジュールを用いて,特徴空間におけるカメラスタイルを直接分離するカメラアウェア型分離・コントラスト学習法(ca-ureid)を提案する。 学習可能な機能をカメラ固有の部分とカメラに依存しない部分に明確に分割することで、異なるカメラの影響を低減できる。 さらに,カメラ間のギャップをさらに狭めるため,カメラ認識によるコントラスト中心損失をデザインし,各アイデンティティに対するより識別的な埋め込みを学習する。 集中的な実験は、教師なしのReIDタスクにおける最先端の手法よりも優れていることを示す。

Unsupervised person re-identification (ReID) is a challenging task without data annotation to guide discriminative learning. Existing methods attempt to solve this problem by clustering extracted embeddings to generate pseudo labels. However, most methods ignore the intra-class gap caused by camera style variance, and some methods are relatively complex and indirect although they try to solve the negative impact of the camera style on feature distribution. To solve this problem, we propose a camera-aware style separation and contrastive learning method (CA-UReID), which directly separates camera styles in the feature space with the designed camera-aware attention module. It can explicitly divide the learnable feature into camera-specific and camera-agnostic parts, reducing the influence of different cameras. Moreover, to further narrow the gap across cameras, we design a camera-aware contrastive center loss to learn more discriminative embedding for each identity. Extensive experiments demonstrate the superiority of our method over the state-of-the-art methods on the unsupervised person ReID task.
翻訳日:2021-12-21 16:34:59 公開日:2021-12-19
# SAGA:接触による確率的全体移植

SAGA: Stochastic Whole-Body Grasping with Contact ( http://arxiv.org/abs/2112.10103v1 )

ライセンス: Link先を確認
Yan Wu, Jiahao Wang, Yan Zhang, Siwei Zhang, Otmar Hilliges, Fisher Yu, Siyu Tang(参考訳) 人間の握り合成には、AR/VR、ビデオゲーム、ロボット工学など多くの応用がある。 オブジェクトの握りと操作のための現実的なハンドオブジェクトインタラクションを生成する方法が提案されているが、通常はオブジェクトと相互作用する手のみを考える。 本研究の目的は,全身把持動作を合成することである。 3Dオブジェクトが与えられたら、オブジェクトに接近して把握する多様な自然界の人体の動きを生成することを目指している。 この作業は、全身のダイナミックスとデクスタースの指の動きの両方をモデル化する必要があるため、困難である。 この目的のために,2つのキーコンポーネントからなるSAGA(StochAstic whole-body Grasping with contAct)を提案する。 (a)静的な全身把握ポーズ生成 具体的には,静的全身把持姿勢と対物接触を共同学習するマルチタスク生成モデルを提案する。 (b)動作インフィルングの把握。 動作の最初のポーズと生成した全身把持姿勢をそれぞれ動作の開始と終了のポーズとして与え、新しい接触認識型生成運動埋込みモジュールを設計し、多様な把持指向動作を生成する。 本手法は,非知覚物体に接近して把握する現実的で表現力のある全身運動を合成する最初の生成枠組みである。 https://jiahaoplus.g ithub.io/saga/saga.h tml。

Human grasping synthesis has numerous applications including AR/VR, video games, and robotics. While some methods have been proposed to generate realistic hand-object interaction for object grasping and manipulation, they typically only consider the hand interacting with objects. In this work, our goal is to synthesize whole-body grasping motion. Given a 3D object, we aim to generate diverse and natural whole-body human motions that approach and grasp the object. This task is challenging as it requires modeling both whole-body dynamics and dexterous finger movements. To this end, we propose SAGA (StochAstic whole-body Grasping with contAct) which consists of two key components: (a) Static whole-body grasping pose generation. Specifically, we propose a multi-task generative model, to jointly learn static whole-body grasping poses and human-object contacts. (b) Grasping motion infilling. Given an initial pose and the generated whole-body grasping pose as the starting and ending poses of the motion respectively, we design a novel contact-aware generative motion infilling module to generate a diverse set of grasp-oriented motions. We demonstrate the effectiveness of our method being the first generative framework to synthesize realistic and expressive whole-body motions that approach and grasp randomly placed unseen objects. The code and videos are available at: https://jiahaoplus.g ithub.io/SAGA/saga.h tml.
翻訳日:2021-12-21 16:34:43 公開日:2021-12-19
# 単眼カメラ画像からの道路ネットワーク推定のためのトポロジー

Topology Preserving Local Road Network Estimation from Single Onboard Camera Image ( http://arxiv.org/abs/2112.10155v1 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) 道路ネットワークのトポロジに関する知識は、自律的な計画とナビゲーションに不可欠である。 しかし、そのようなトポロジーを単一の画像から復元することは、一部しか研究されていない。 さらに、駆動動作が取られる地上面を参照する必要がある。 本稿では, 鳥眼ビュー(BEV)において, 複雑な都市環境下での局所道路ネットワークトポロジーの抽出を目的とする。 唯一の入力は、シングルオンボードの前方カメラ画像で構成されている。 道路トポロジを,道路の交点を用いて捉えた一組の有向車線曲線とその相互作用を用いて表現する。 トポロジーをよりよく捉えるために、 \emph{minimal cycles} の概念とその被覆を導入する。 最小サイクル(minimum cycle)は、有向曲線セグメント(二つの交点の間)によって形成される最小サイクルである。 被覆は、セグメンテーションが極小サイクルの形成に関与する曲線の集合である。 まず,道路トポロジを一意に表すのに十分であることを示す。 カバーは、レーンカーブの監督とともに、ディープニューラルネットワークを監督するために使用される。 これらは単一の入力画像から道路トポロジーを予測することを学ぶ。 NuScenes と Argoverse ベンチマークの結果は,ベースラインで得られたベンチマークよりもはるかに優れている。 私たちのソースコードは公開されます。

Knowledge of the road network topology is crucial for autonomous planning and navigation. Yet, recovering such topology from a single image has only been explored in part. Furthermore, it needs to refer to the ground plane, where also the driving actions are taken. This paper aims at extracting the local road network topology, directly in the bird's-eye-view (BEV), all in a complex urban setting. The only input consists of a single onboard, forward looking camera image. We represent the road topology using a set of directed lane curves and their interactions, which are captured using their intersection points. To better capture topology, we introduce the concept of \emph{minimal cycles} and their covers. A minimal cycle is the smallest cycle formed by the directed curve segments (between two intersections). The cover is a set of curves whose segments are involved in forming a minimal cycle. We first show that the covers suffice to uniquely represent the road topology. The covers are then used to supervise deep neural networks, along with the lane curve supervision. These learn to predict the road topology from a single input image. The results on the NuScenes and Argoverse benchmarks are significantly better than those obtained with baselines. Our source code will be made publicly available.
翻訳日:2021-12-21 16:34:21 公開日:2021-12-19
# 注意型動的パッチ融合による顔の年齢推定の改善

Improving Face-Based Age Estimation with Attention-Based Dynamic Patch Fusion ( http://arxiv.org/abs/2112.10167v1 )

ライセンス: Link先を確認
Haoyi Wang, Victor Sanchez, Chang-Tsun Li(参考訳) 畳み込みニューラルネットワーク(CNN)の普及に伴い、顔に基づく年齢推定に関する最近の研究は、これらのネットワークをバックボーンとして採用している。 しかし、最先端のcnnベースの方法は、それぞれの顔領域を等しく扱うため、年齢固有の情報を含むいくつかの顔パッチの重要性を完全に無視する。 本稿では,注意に基づく動的パッチ融合(adpf)と呼ばれる顔に基づく年齢推定フレームワークを提案する。 ADPFでは、AttentionNetとFusionNetという2つの別々のCNNが実装されている。 AttentionNetは、Ring-Guided Multi-Head Hybrid Attention (RMHHA)メカニズムを用いて、年齢別パッチを動的に見つけ、ランク付けする。 FusionNetは、発見したパッチと顔画像を使って被験者の年齢を予測する。 提案するrmhha機構は,その重要度に基づいて検出されたパッチを分類するので,フュージョンネット内の各パッチの学習経路の長さは,その情報量に比例する(長ければ長いほど重要)。 ADPFはまた、AttentionNetのトレーニングをガイドし、パッチ間の重複を減らし、多様な重要なパッチを発見するために、新しい多様性損失を導入した。 提案手法は,様々な年齢推定ベンチマークデータセットにおいて最先端手法よりも優れていることを示す。

With the increasing popularity of convolutional neural networks (CNNs), recent works on face-based age estimation employ these networks as the backbone. However, state-of-the-art CNN-based methods treat each facial region equally, thus entirely ignoring the importance of some facial patches that may contain rich age-specific information. In this paper, we propose a face-based age estimation framework, called Attention-based Dynamic Patch Fusion (ADPF). In ADPF, two separate CNNs are implemented, namely the AttentionNet and the FusionNet. The AttentionNet dynamically locates and ranks age-specific patches by employing a novel Ranking-guided Multi-Head Hybrid Attention (RMHHA) mechanism. The FusionNet uses the discovered patches along with the facial image to predict the age of the subject. Since the proposed RMHHA mechanism ranks the discovered patches based on their importance, the length of the learning path of each patch in the FusionNet is proportional to the amount of information it carries (the longer, the more important). ADPF also introduces a novel diversity loss to guide the training of the AttentionNet and reduce the overlap among patches so that the diverse and important patches are discovered. Through extensive experiments, we show that our proposed framework outperforms state-of-the-art methods on several age estimation benchmark datasets.
翻訳日:2021-12-21 16:34:04 公開日:2021-12-19
# 低レベルビジョンのための効率的な変圧器と画像事前学習について

On Efficient Transformer and Image Pre-training for Low-level Vision ( http://arxiv.org/abs/2112.10175v1 )

ライセンス: Link先を確認
Wenbo Li, Xin Lu, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia(参考訳) プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの芸術の状態を記録しているが、画像処理システムにおける事前トレーニングがどのように振舞うかを調べる試みは、ほとんど行われていない。 本稿では,画像の事前学習に関する詳細な研究を行う。 本研究は,まず,画像処理のための汎用的で費用対効果の高いトランスフォーマーベースのフレームワークを提案する。 制約付きパラメータと計算複雑性の下では、様々な低レベルのタスクに対して高い競争性能が得られる。 そして,この枠組みに基づいて,各タスクにおける画像事前学習を深刻かつ包括的に診断し,内部ネットワーク表現への影響を明らかにするための,一連の基本的評価ツールを設計する。 低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。 例えば、事前トレーニングは、スーパーレゾリューション(sr)の上位層により多くのローカル情報を導入し、大幅なパフォーマンス向上をもたらすが、事前トレーニングは、ノイズ発生時の内部特徴表現に影響を及ぼさないため、利益は少ない。 さらに,マルチタスク事前学習がより効果的でデータ効率が高いことを明らかにする。 すべてのコードとモデルはhttps://github.com/f englinglwb/edtでリリースされる。

Pre-training has marked numerous state of the arts in high-level computer vision, but few attempts have ever been made to investigate how pre-training acts in image processing systems. In this paper, we present an in-depth study of image pre-training. To conduct this study on solid ground with practical value in mind, we first propose a generic, cost-effective Transformer-based framework for image processing. It yields highly competitive performance across a range of low-level tasks, though under constrained parameters and computational complexity. Then, based on this framework, we design a whole set of principled evaluation tools to seriously and comprehensively diagnose image pre-training in different tasks, and uncover its effects on internal network representations. We find pre-training plays strikingly different roles in low-level tasks. For example, pre-training introduces more local information to higher layers in super-resolution (SR), yielding significant performance gains, while pre-training hardly affects internal feature representations in denoising, resulting in a little gain. Further, we explore different methods of pre-training, revealing that multi-task pre-training is more effective and data-efficient. All codes and models will be released at https://github.com/f englinglwb/EDT.
翻訳日:2021-12-21 16:33:40 公開日:2021-12-19
# UnweaveNet: アクティビティストーリーを解き放つ

UnweaveNet: Unweaving Activity Stories ( http://arxiv.org/abs/2112.10194v1 )

ライセンス: Link先を確認
Will Price, Carl Vondrick, Dima Damen(参考訳) 私たちの人生は、ある活動から別の活動に切り替え、達成を最大化し、あるいは我々の要求に応えて、複雑な活動の織り物と見なすことができる。 毎日のアクティビティのビデオを観察すると、ビデオはアンウィービングと呼ばれるプロセスを通じてそのアクティビティのスレッドに解析される。 これを実現するために,スレッドバンクと呼ばれるアクティビティスレッドを明示的にキャプチャするビデオ表現と,目標変化の検出と過去のアクティビティの再開が可能なニューラルコントローラを導入して,unweavenetを形成する。 我々は、エゴセントリックなデータセットEPIC-KITCHENSのシーケンスに基づいてUnweaveNetをトレーニングし、評価する。 我々は, unweavenet の自己管理による事前学習の有効性を提示する。

Our lives can be seen as a complex weaving of activities; we switch from one activity to another, to maximise our achievements or in reaction to demands placed upon us. Observing a video of unscripted daily activities, we parse the video into its constituent activity threads through a process we call unweaving. To accomplish this, we introduce a video representation explicitly capturing activity threads called a thread bank, along with a neural controller capable of detecting goal changes and resuming of past activities, together forming UnweaveNet. We train and evaluate UnweaveNet on sequences from the unscripted egocentric dataset EPIC-KITCHENS. We propose and showcase the efficacy of pretraining UnweaveNet in a self-supervised manner.
翻訳日:2021-12-21 16:33:17 公開日:2021-12-19
# 多カテゴリー3次元画像のエンドツーエンド学習と形状推定

End-to-End Learning of Multi-category 3D Pose and Shape Estimation ( http://arxiv.org/abs/2112.10196v1 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) 本稿では,そのキーポイントを用いて物体の形状と姿勢の表現について検討する。 そこで本研究では,画像から2Dキーポイントを同時に検出し,それらを3Dに引き上げるエンドツーエンド手法を提案する。 提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。 そこで本研究では, 強調型循環型自己スーパービジョンを用いて, ポーズと3次元形状を明示的に区別する新しい手法を初めて提案する。 画像から3D学習へのエンドツーエンド化に加えて、ニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。 画像の視覚的なコンテキストを要約するだけでなく、キーポイントを検出するためにトランスフォーマティブベースのアーキテクチャを使用します。 この視覚的なコンテキスト情報はキーポイントを3dに持ち上げるときに使用され、コンテキストベースの推論によりパフォーマンスが向上する。 持ち上げながら,基本形状の小さな集合と,そのスパースな非負係数を学習し,標準フレーム内の3次元形状を表現する。 本手法は様々なオブジェクトクラスと同様にオクルージョンを扱うことができる。 3つのベンチマーク実験により,本手法は最先端の手法よりも優れた性能を示した。 私たちのソースコードは公開されます。

In this paper, we study the representation of the shape and pose of objects using their keypoints. Therefore, we propose an end-to-end method that simultaneously detects 2D keypoints from an image and lifts them to 3D. The proposed method learns both 2D detection and 3D lifting only from 2D keypoints annotations. In this regard, a novel method that explicitly disentangles the pose and 3D shape by means of augmentation-based cyclic self-supervision is proposed, for the first time. In addition of being end-to-end in image to 3D learning, our method also handles objects from multiple categories using a single neural network. We use a Transformer-based architecture to detect the keypoints, as well as to summarize the visual context of the image. This visual context information is then used while lifting the keypoints to 3D, so as to allow the context-based reasoning for better performance. While lifting, our method learns a small set of basis shapes and their sparse non-negative coefficients to represent the 3D shape in canonical frame. Our method can handle occlusions as well as wide variety of object classes. Our experiments on three benchmarks demonstrate that our method performs better than the state-of-the-art. Our source code will be made publicly available.
翻訳日:2021-12-21 16:33:05 公開日:2021-12-19
# 認知アーキテクチャの要求と設計

Demanding and Designing Aligned Cognitive Architectures ( http://arxiv.org/abs/2112.10190v1 )

ライセンス: Link先を確認
Koen Holtman(参考訳) AIシステムがより強力で広く普及するにつれ、より広い目標と人類のニーズに合わせた行動を維持することについての議論が高まっている。 この多分野・多分野の議論は,多くの課題を解決しなければならない。 第一の課題は、AIシステムのデザイナに対して、ステークホルダーが何のために役に立つかを明らかにすることである。 認知アーキテクチャのフレーミングを利用することで、この技術的なトピックをよりアクセスしやすくします。 第2の課題は、有用な知能を報酬の最大化のみとして扱う分析的フレーミングを超えることである。 この動きをサポートするために、報酬の最大化とアライメントを改善するように設計された他の技術要素を組み合わせたいくつかのAI認知アーキテクチャを定義します。 第3の問題は、ステークホルダーが現代の機械学習研究者とのインタラクションをどのように調整すべきかだ。 機械学習の現在の流行が、技術や政策に関する議論の参加者が気付くべき物語の引き金を生み出し、それを補うことができると考えている。 我々は、AIアライメントを改善するための技術的に難解ないくつかの選択肢を特定します。

With AI systems becoming more powerful and pervasive, there is increasing debate about keeping their actions aligned with the broader goals and needs of humanity. This multi-disciplinary and multi-stakeholder debate must resolve many issues, here we examine three of them. The first issue is to clarify what demands stakeholders might usefully make on the designers of AI systems, useful because the technology exists to implement them. We make this technical topic more accessible by using the framing of cognitive architectures. The second issue is to move beyond an analytical framing that treats useful intelligence as being reward maximization only. To support this move, we define several AI cognitive architectures that combine reward maximization with other technical elements designed to improve alignment. The third issue is how stakeholders should calibrate their interactions with modern machine learning researchers. We consider how current fashions in machine learning create a narrative pull that participants in technical and policy discussions should be aware of, so that they can compensate for it. We identify several technically tractable but currently unfashionable options for improving AI alignment.
翻訳日:2021-12-21 16:18:44 公開日:2021-12-19
# 表現だけで十分: 高度なトラフィック状態表現によるトラフィック信号制御の改善

Expression is enough: Improving traffic signal control with advanced traffic state representation ( http://arxiv.org/abs/2112.10107v1 )

ライセンス: Link先を確認
Liang Zhang, Qiang Wu, Jun Shen, Linyuan L\"u, Jianqing Wu, Bo Du(参考訳) 近年,交通信号制御(TSC)の複雑なアルゴリズムよりも,交通状態表現の基本特性の発見が重要である。 In this paper, we (1) present a novel, flexible and straightforward method advanced max pressure (Advanced-MP), taking both running and queueing vehicles into consideration to decide whether to change current phase; (2) novelty design the traffic movement representation with the efficient pressure and effective running vehicles from Advanced-MP, namely advanced traffic state (ATS); (3) develop an RL-based algorithm template Advanced-XLight, by combining ATS with current RL approaches and generate two RL algorithms, "Advanced-MPLight&quo t; and "Advanced-CoLight&quo t;. 複数の実世界のデータセットに関する総合的な実験によると、(1)Advanced-MPは、デプロイに効率的で信頼性の高いベースラインメソッドよりも優れており、(2)Advanced-MPLightとAdvanced-CoLightは、新しい最先端を実現することができる。 私たちのコードはgithubでリリースされています。

Recently, finding fundamental properties for traffic state representation is more critical than complex algorithms for traffic signal control (TSC).In this paper, we (1) present a novel, flexible and straightforward method advanced max pressure (Advanced-MP), taking both running and queueing vehicles into consideration to decide whether to change current phase; (2) novelty design the traffic movement representation with the efficient pressure and effective running vehicles from Advanced-MP, namely advanced traffic state (ATS); (3) develop an RL-based algorithm template Advanced-XLight, by combining ATS with current RL approaches and generate two RL algorithms, "Advanced-MPLight&quo t; and "Advanced-CoLight&quo t;. Comprehensive experiments on multiple real-world datasets show that: (1) the Advanced-MP outperforms baseline methods, which is efficient and reliable for deployment; (2) Advanced-MPLight and Advanced-CoLight could achieve new state-of-the-art. Our code is released on Github.
翻訳日:2021-12-21 16:14:16 公開日:2021-12-19
# 人工知能としての情報フィールド理論

Information Field Theory as Artificial Intelligence ( http://arxiv.org/abs/2112.10133v1 )

ライセンス: Link先を確認
Torsten En{\ss}lin(参考訳) 情報場理論(英: Information Field theory、IFT)は、信号再構成と非パラメトリック逆問題のための数学的枠組みである。 ここで、体は空間(および時間)の関数として連続的に変化する物理量を表し、情報理論は関連するエントロピー情報測度を備えたベイズ確率論理を指す。 IFTによる信号再構成は、生成ニューラルネットワーク(GNN)のトレーニングと同様の計算問題である。 本稿では, IFT における推論を GNN トレーニングの観点から再構成し, IFT と機械学習における数値変分推論手法の交叉受精について述べる。 この議論は、IFT推論が人工知能の特定の形態と見なせることを示唆している。 従来のニューラルネットワークとは対照的に、IFTベースのGNNは、アーキテクチャに専門家の知識を取り入れることで、事前トレーニングなしで運用することができる。

Information field theory (IFT), the information theory for fields, is a mathematical framework for signal reconstruction and non-parametric inverse problems. Here, fields denote physical quantities that change continuously as a function of space (and time) and information theory refers to Bayesian probabilistic logic equipped with the associated entropic information measures. Reconstructing a signal with IFT is a computational problem similar to training a generative neural network (GNN). In this paper, the inference in IFT is reformulated in terms of GNN training and the cross-fertilization of numerical variational inference methods used in IFT and machine learning are discussed. The discussion suggests that IFT inference can be regarded as a specific form of artificial intelligence. In contrast to classical neural networks, IFT based GNNs can operate without pre-training thanks to incorporating expert knowledge into their architecture.
翻訳日:2021-12-21 16:13:17 公開日:2021-12-19
# 線形凸モデルを用いた連続時間エピソード強化学習のための探索・探索トレードオフ

Exploration-exploita tion trade-off for continuous-time episodic reinforcement learning with linear-convex models ( http://arxiv.org/abs/2112.10264v1 )

ライセンス: Link先を確認
Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang(参考訳) エピソディクス環境におけるモデルベース強化学習の分析のための確率論的枠組みを開発した。 次に,線形動力学を用いた有限時間地平線確率制御問題に適用し,未知の係数と凸,あるいは不規則な対象関数について検討した。 確率的表現を用いて、関連するコスト関数の正則性を調べ、推定値と真のモデルパラメータから導出した最適フィードバック制御との性能ギャップを正確に推定する。 我々は、この性能ギャップが二次的である条件を特定し、最近の研究(X. Guo, A. Hu, and Y. Zhang, arXiv preprint, arXiv:2104.09311, (2021)]における線形性能ギャップを改善する。 次に,探索と探索のトレードオフを最適化し,高い確率と期待でサブリニアな後悔を実現するための位相ベース学習アルゴリズムを提案する。 二次的な性能ギャップを保持するために必要となる仮定は、一般の場合、$\mathcal{O}(\sqrt{N} \ln N)$高確率後悔(英語版)、$$\mathcal{O}((\ln N)^2)$期待後悔(英語版)(英語版))を自己探索の場合、$N$回以上達成し、文献から得られる最良の結果と一致する。 解析には相関した連続時間観測のための新しい濃度不等式が必要である。

We develop a probabilistic framework for analysing model-based reinforcement learning in the episodic setting. We then apply it to study finite-time horizon stochastic control problems with linear dynamics but unknown coefficients and convex, but possibly irregular, objective function. Using probabilistic representations, we study regularity of the associated cost functions and establish precise estimates for the performance gap between applying optimal feedback control derived from estimated and true model parameters. We identify conditions under which this performance gap is quadratic, improving the linear performance gap in recent work [X. Guo, A. Hu, and Y. Zhang, arXiv preprint, arXiv:2104.09311, (2021)], which matches the results obtained for stochastic linear-quadratic problems. Next, we propose a phase-based learning algorithm for which we show how to optimise exploration-exploita tion trade-off and achieve sublinear regrets in high probability and expectation. When assumptions needed for the quadratic performance gap hold, the algorithm achieves an order $\mathcal{O}(\sqrt{N} \ln N)$ high probability regret, in the general case, and an order $\mathcal{O}((\ln N)^2)$ expected regret, in self-exploration case, over $N$ episodes, matching the best possible results from the literature. The analysis requires novel concentration inequalities for correlated continuous-time observations, which we derive.
翻訳日:2021-12-21 16:11:52 公開日:2021-12-19
# A-ESRGAN: 意識的U-Net判別器を用いた実世界ブラインド超解法学習

A-ESRGAN: Training Real-World Blind Super-Resolution with Attention U-Net Discriminators ( http://arxiv.org/abs/2112.10046v1 )

ライセンス: Link先を確認
Zihao Wei, Yidong Huang, Yuang Chen, Chenhao Zheng, Jinnan Gao(参考訳) ブラインド画像超解像(SR)は、未知の複雑な歪みに苦しむ低解像度画像の復元を目的としたCVにおける長年の課題である。 最近の研究は、現実世界の劣化をエミュレートするために、より複雑な劣化モデルを採用することに重点を置いている。 結果として得られたモデルは知覚的損失を突破し、知覚的に説得力のある結果をもたらす。 しかし、現在の生成的敵対的ネットワーク構造によってもたらされる制限は依然として重要であり、ピクセルを扱うことは、画像の構造的特徴を均等に無視し、ねじれた線や背景の過シャープ化やぼやけといったパフォーマンス上の欠点をもたらす。 本稿では,他のジェネレータとシームレスに統合可能なu-netベースのマルチスケール判別器を特徴とするブラインドsrタスク用ganモデルであるa-esrganを提案する。 我々の知る限り、GANの差別化要因として注目のU-Net構造を導入し、盲点SR問題を解くのはこれが初めてである。 また、本論文は、モデルにパフォーマンスブレークスルーをもたらすマルチスケール・アテンションu-netのメカニズムの解釈も提供する。 先行研究との比較実験を通じて,本モデルは非参照自然画像品質評価器の最先端性能を示す。 また,我々のアブレーション研究により,rrdbベースの生成器は,画像の構造的特徴を複数のスケールで活用することができ,その結果,従来よりも知覚的に現実的な高分解能画像が得られることを示した。

Blind image super-resolution(SR) is a long-standing task in CV that aims to restore low-resolution images suffering from unknown and complex distortions. Recent work has largely focused on adopting more complicated degradation models to emulate real-world degradations. The resulting models have made breakthroughs in perceptual loss and yield perceptually convincing results. However, the limitation brought by current generative adversarial network structures is still significant: treating pixels equally leads to the ignorance of the image's structural features, and results in performance drawbacks such as twisted lines and background over-sharpening or blurring. In this paper, we present A-ESRGAN, a GAN model for blind SR tasks featuring an attention U-Net based, multi-scale discriminator that can be seamlessly integrated with other generators. To our knowledge, this is the first work to introduce attention U-Net structure as the discriminator of GAN to solve blind SR problems. And the paper also gives an interpretation for the mechanism behind multi-scale attention U-Net that brings performance breakthrough to the model. Through comparison experiments with prior works, our model presents state-of-the-art level performance on the non-reference natural image quality evaluator metric. And our ablation studies have shown that with our discriminator, the RRDB based generator can leverage the structural features of an image in multiple scales, and consequently yields more perceptually realistic high-resolution images compared to prior works.
翻訳日:2021-12-21 16:10:10 公開日:2021-12-19
# バースト並列トレーニングによる効率的なストロングスケーリング

Efficient Strong Scaling Through Burst Parallel Training ( http://arxiv.org/abs/2112.10065v1 )

ライセンス: Link先を確認
Seo Jin Park, Joshua Fried, Sunghyun Kim, Mohammad Alizadeh, Adam Belay(参考訳) 新興のディープニューラルネットワーク(DNN)モデルのサイズが拡大するにつれて、DNNのトレーニングに大規模なGPUクラスタを使用することは、許容できるトレーニング時間を達成する上で必須の要件となっている。 本稿では,クラスタサイズが今後大きくなると,モデルトレーニングに使用可能なグローバルバッチサイズが基本的限界に達することを考察する: ある点を超えると,より大規模なグローバルバッチサイズがサンプル効率を低下させ,全体的な時間と精度を向上させる。 結果として、トレーニングパフォーマンスのさらなる改善を達成するには、グローバルバッチサイズを一定に保ち、各GPUに小さなバッチを割り当てる"強いスケーリング"戦略を検討する必要があります。 残念ながら、これはクラスタリソースを効率的に使うのを著しく難しくする。 この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。 まず、バースト並列性は多数のGPUを割り当て、バースト内のジョブをフォアグラウンドし、レイヤ間の並列性の不均一性を利用する。 第二に、GPUの多重化は前景のトレーニングジョブのスループットを優先し、バックグラウンドのトレーニングジョブをパックして未使用のGPUリソースを再利用し、クラスタ全体の利用を改善する。 これら2つのアイデアを組み合わせることで、deeppoolは、クラスタ規模が大きい場合に、単一のタスクで、標準的なデータ並列処理よりもクラスタ全体のスループットを2.2倍から2.4倍向上させることができる。

As emerging deep neural network (DNN) models continue to grow in size, using large GPU clusters to train DNNs is becoming an essential requirement to achieving acceptable training times. In this paper, we consider the case where future increases in cluster size will cause the global batch size that can be used to train models to reach a fundamental limit: beyond a certain point, larger global batch sizes cause sample efficiency to degrade, increasing overall time to accuracy. As a result, to achieve further improvements in training performance, we must instead consider "strong scaling" strategies that hold the global batch size constant and allocate smaller batches to each GPU. Unfortunately, this makes it significantly more difficult to use cluster resources efficiently. We present DeepPool, a system that addresses this efficiency challenge through two key ideas. First, burst parallelism allocates large numbers of GPUs to foreground jobs in bursts to exploit the unevenness in parallelism across layers. Second, GPU multiplexing prioritizes throughput for foreground training jobs, while packing in background training jobs to reclaim underutilized GPU resources, thereby improving cluster-wide utilization. Together, these two ideas enable DeepPool to deliver a 2.2 - 2.4x improvement in total cluster throughput over standard data parallelism with a single task when the cluster scale is large.
翻訳日:2021-12-21 16:09:44 公開日:2021-12-19
# 自己教師付き学習による金融時系列データのための分節ラベル

Denoised Labels for Financial Time-Series Data via Self-Supervised Learning ( http://arxiv.org/abs/2112.10139v1 )

ライセンス: Link先を確認
Yanqing Ma, Carmine Ventre, Maria Polukarov(参考訳) 電子取引プラットフォームの導入は、従来のシステム取引の組織を、見積もり駆動市場から注文駆動市場へと実質的に変えた。 その利便性は、金融時系列の低信号-雑音比と非定常性のために、将来的な価格予測に使用するのが困難である、指数関数的に増加する財務データに繋がった。 教師付き学習アルゴリズムを通じて将来の価格変動の方向を予測することを目指す、より単純な分類タスクは、十分に一般化するために十分な信頼性のあるラベルが必要である。 しかし、財務データの遅延は、他のドメインと比べてあまり明確に定義されていない。 既存のラベル付け手法では,ノイズ対策や学習アルゴリズムの改善効果が限定されている。 この研究は、取引における画像分類と自己監督学習の成功から着想を得ている。 本研究では,金融時系列にコンピュータビジョン技術を適用することで騒音の露光を低減し,適切なラベルを生成する方法を検討する。 ラベル生成を,自己教師付き学習手法のプリテキストタスクとして捉え,文献で一般的に使用されるナイーブラベル(およびノイズラベル)と,同一下流分類タスクでデノージングオートエンコーダが生成するラベルを比較した。 提案手法は,小データセットと大規模データセットの両方において,ダウンストリーム学習アルゴリズムの性能が向上することを示す。 さらに,我々が得るシグナルは,バイナリ戦略と効果的に取引できることを示す。 提案手法により,自己指導型学習は,市場の基本パターンを研究する上で有用な,金融ラベルを生成するための強力な枠組みとなることが示唆された。

The introduction of electronic trading platforms effectively changed the organisation of traditional systemic trading from quote-driven markets into order-driven markets. Its convenience led to an exponentially increasing amount of financial data, which is however hard to use for the prediction of future prices, due to the low signal-to-noise ratio and the non-stationarity of financial time series. Simpler classification tasks -- where the goal is to predict the directions of future price movement -- via supervised learning algorithms, need sufficiently reliable labels to generalise well. Labelling financial data is however less well defined than other domains: did the price go up because of noise or because of signal? The existing labelling methods have limited countermeasures against noise and limited effects in improving learning algorithms. This work takes inspiration from image classification in trading and success in self-supervised learning. We investigate the idea of applying computer vision techniques to financial time-series to reduce the noise exposure and hence generate correct labels. We look at the label generation as the pretext task of a self-supervised learning approach and compare the naive (and noisy) labels, commonly used in the literature, with the labels generated by a denoising autoencoder for the same downstream classification task. Our results show that our denoised labels improve the performances of the downstream learning algorithm, for both small and large datasets. We further show that the signals we obtain can be used to effectively trade with binary strategies. We suggest that with proposed techniques, self-supervised learning constitutes a powerful framework for generating "better" financial labels that are useful for studying the underlying patterns of the market.
翻訳日:2021-12-21 16:09:23 公開日:2021-12-19
# 単語関係分類としての統一名前付きエンティティ認識

Unified Named Entity Recognition as Word-Word Relation Classification ( http://arxiv.org/abs/2112.10070v1 )

ライセンス: Link先を確認
Jingye Li, Hao Fei, Jiang Liu, Shengqiong Wu, Meishan Zhang, Chong Teng, Donghong Ji, Fei Li(参考訳) これまで、名前付きエンティティ認識(NER)は、主に個別に研究されてきたフラット、オーバーラップ(別名ネスト)、不連続NERの3つの主要なタイプに関与してきた。 近年、統一NERへの関心が高まっており、上記の3つのジョブを1つの単一モデルで同時に扱うようになっている。 現在のベストパフォーマンス手法には、主にスパンベースとシーケンシャル・ツー・シーケンスモデルが含まれており、残念ながら、前者は境界同定にのみ焦点を合わせ、後者は露出バイアスに悩まされる。 本研究では,統一NERを単語関係分類(W^2NER)としてモデル化し,新しい手法を提案する。 このアーキテクチャは、Next-Neighboring-Wor d (NNW) とTail-Head-Word-* (THW-*) の関係を効果的にモデル化することにより、統一NERのカーネルボトルネックを解決する。 W^2NERスキームに基づいて,統一NERを単語対の2次元グリッドとしてモデル化するニューラルネットワークフレームワークを開発する。 次に,格子表現を改良するための多粒性2次元畳み込みを提案する。 最後に、単語関係を十分に推論するために、共予測器を用いる。 我々は、フラットで重複し、不連続なNER(8つの英語と6つの中国語のデータセット)のための14の広く使われているベンチマークデータセットに対して広範な実験を行い、我々のモデルは現在のトップパフォーマンスベースラインをすべて破り、統一されたNERの最先端のパフォーマンスを押し上げます。

So far, named entity recognition (NER) has been involved with three major types, including flat, overlapped (aka. nested), and discontinuous NER, which have mostly been studied individually. Recently, a growing interest has been built for unified NER, tackling the above three jobs concurrently with one single model. Current best-performing methods mainly include span-based and sequence-to-sequence models, where unfortunately the former merely focus on boundary identification and the latter may suffer from exposure bias. In this work, we present a novel alternative by modeling the unified NER as word-word relation classification, namely W^2NER. The architecture resolves the kernel bottleneck of unified NER by effectively modeling the neighboring relations between entity words with Next-Neighboring-Wor d (NNW) and Tail-Head-Word-* (THW-*) relations. Based on the W^2NER scheme we develop a neural framework, in which the unified NER is modeled as a 2D grid of word pairs. We then propose multi-granularity 2D convolutions for better refining the grid representations. Finally, a co-predictor is used to sufficiently reason the word-word relations. We perform extensive experiments on 14 widely-used benchmark datasets for flat, overlapped, and discontinuous NER (8 English and 6 Chinese datasets), where our model beats all the current top-performing baselines, pushing the state-of-the-art performances of unified NER.
翻訳日:2021-12-21 16:06:24 公開日:2021-12-19
# 転校学習における重み付けの重要性再考

Rethinking Importance Weighting for Transfer Learning ( http://arxiv.org/abs/2112.10157v1 )

ライセンス: Link先を確認
Nan Lu, Tianyi Zhang, Tongtong Fang, Takeshi Teshima, Masashi Sugiyama(参考訳) 教師あり学習における重要な前提は、トレーニングとテストデータが同じ確率分布に従うことである。 しかし、この基本的な仮定は、環境の変化、サンプル選択バイアス、プライバシの懸念、高いラベルコストなどによって、常に満たされるとは限らない。 伝達学習(TL)はこの仮定を緩和し、分布シフトの下で学習することができる。 古典的なTL法は通常重要度重み付けに依存するが、予測器は重要度に応じて重み付けされたトレーニング損失(テストオーバートレーニング密度比)に基づいて訓練される。 しかし、現実の機械学習タスクがますます複雑、高次元、動的になるにつれて、このような課題に対処するために新しいアプローチが検討されている。 本稿では、重要度重み付けに基づくTLの基礎導入後、共同および動的重要度予測器推定に基づく最近の進歩を概観する。 さらに,TLに因果構造を組み込んだ因果機構伝達法を提案する。 最後に,TL研究の今後の展望について述べる。

A key assumption in supervised learning is that training and test data follow the same probability distribution. However, this fundamental assumption is not always satisfied in practice, e.g., due to changing environments, sample selection bias, privacy concerns, or high labeling costs. Transfer learning (TL) relaxes this assumption and allows us to learn under distribution shift. Classical TL methods typically rely on importance-weighting -- a predictor is trained based on the training losses weighted according to the importance (i.e., the test-over-training density ratio). However, as real-world machine learning tasks are becoming increasingly complex, high-dimensional, and dynamical, novel approaches are explored to cope with such challenges recently. In this article, after introducing the foundation of TL based on importance-weighting , we review recent advances based on joint and dynamic importance-predictor estimation. Furthermore, we introduce a method of causal mechanism transfer that incorporates causal structure in TL. Finally, we discuss future perspectives of TL research.
翻訳日:2021-12-21 15:48:02 公開日:2021-12-19
# 機械学習によるセキュリティ関連バグレポートの早期検出:我々はどこまでいるのか?

Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We? ( http://arxiv.org/abs/2112.10123v1 )

ライセンス: Link先を確認
Arthur D. Sawadogo, Quentin Guimard, Tegawend\'e F. Bissyand\'e, Abdoul Kader Kabor\'e, Jacques Klein, Naouel Moha(参考訳) バグレポートはソフトウェア開発の一般的な成果物です。 ユーザーがソフトウェアプログラムのリリースバージョンを使用する際に遭遇する問題に関する情報を開発者に伝えるための主要なチャンネルとして機能する。 しかしながら、問題の説明では、ユーザーが意図的に脆弱性を公開するか否かを問わない。 典型的なメンテナンスシナリオでは、このようなセキュリティ関連のバグレポートは、修正パッチの作成時に開発チームによって優先される。 それでも、セキュリティ関連性が直ちに表現されない場合(例えばタグを通じて)、あるいはトリアージチームによって迅速に識別される場合、オープンなセキュリティ関連バグレポートは攻撃者がゼロデイ攻撃を実行するために利用できる機密情報の重大な漏洩となる可能性がある。 バグレポートをトリアージする実践者を支援するため、研究コミュニティはセキュリティ関連バグレポートの検出にいくつかのアプローチを提案している。 近年,機械学習に基づくこのような手法が,有望な性能で報告されている。 我々の研究はそのようなアプローチに焦点をあて、そのビルディングブロックを見直し、現在の成果を包括的に把握する。 そのために、我々は大規模な実験データセットを構築し、特徴セットと学習アルゴリズムのバリエーションで広範な実験を行った。 最終的に、我々の研究は、最高の性能の分類器を生み出す異なるアプローチ構成を強調した。

Bug reports are common artefacts in software development. They serve as the main channel for users to communicate to developers information about the issues that they encounter when using released versions of software programs. In the descriptions of issues, however, a user may, intentionally or not, expose a vulnerability. In a typical maintenance scenario, such security-relevant bug reports are prioritised by the development team when preparing corrective patches. Nevertheless, when security relevance is not immediately expressed (e.g., via a tag) or rapidly identified by triaging teams, the open security-relevant bug report can become a critical leak of sensitive information that attackers can leverage to perform zero-day attacks. To support practitioners in triaging bug reports, the research community has proposed a number of approaches for the detection of security-relevant bug reports. In recent years, approaches in this respect based on machine learning have been reported with promising performance. Our work focuses on such approaches, and revisits their building blocks to provide a comprehensive view on the current achievements. To that end, we built a large experimental dataset and performed extensive experiments with variations in feature sets and learning algorithms. Eventually, our study highlights different approach configurations that yield best performing classifiers.
翻訳日:2021-12-21 15:43:38 公開日:2021-12-19
# glocal knowledge 蒸留による深部グラフレベルの異常検出

Deep Graph-level Anomaly Detection by Glocal Knowledge Distillation ( http://arxiv.org/abs/2112.10063v1 )

ライセンス: Link先を確認
Rongrong Ma, Guansong Pang, Ling Chen, Anton van den Hengel(参考訳) graph-level anomaly detection (gad) は、他のグラフと比較して、その構造やノードの特徴に異常なグラフを検出する問題を記述する。 gadの課題の1つは、ローカルグラフとグローバルに分布するグラフの両方、すなわち細粒度(ノードレベル)または全体的(グラフレベル)特性において異常なグラフを検出するグラフ表現を考案することである。 この課題に取り組むために,グラフ表現とノード表現の連成ランダム蒸留により,豊富な大域的および局所的正規パターン情報を学習するgadのための新しい深部異常検出手法を提案する。 ランダム蒸留は、1つのGNNを訓練し、ランダムに初期化されたネットワーク重みを持つ別のGNNを予測する。 多様なドメインから16の現実世界のグラフデータセットを広範囲に実験した結果、我々のモデルは7つの最先端モデルを大きく上回っていることがわかった。 コードとデータセットはhttps://git.io/GLoca lKD.orgで公開されている。

Graph-level anomaly detection (GAD) describes the problem of detecting graphs that are abnormal in their structure and/or the features of their nodes, as compared to other graphs. One of the challenges in GAD is to devise graph representations that enable the detection of both locally- and globally-anomalous graphs, i.e., graphs that are abnormal in their fine-grained (node-level) or holistic (graph-level) properties, respectively. To tackle this challenge we introduce a novel deep anomaly detection approach for GAD that learns rich global and local normal pattern information by joint random distillation of graph and node representations. The random distillation is achieved by training one GNN to predict another GNN with randomly initialized network weights. Extensive experiments on 16 real-world graph datasets from diverse domains show that our model significantly outperforms seven state-of-the-art models. Code and datasets are available at https://git.io/GLoca lKD.
翻訳日:2021-12-21 14:57:07 公開日:2021-12-19
# RoboAssembly:新しいマルチロボットコンタクトリッチシミュレーション環境における汎用家具組み立てポリシーの学習

RoboAssembly: Learning Generalizable Furniture Assembly Policy in a Novel Multi-robot Contact-rich Simulation Environment ( http://arxiv.org/abs/2112.10143v1 )

ライセンス: Link先を確認
Mingxin Yu, Lin Shao, Zhehuan Chen, Tianhao Wu, Qingnan Fan, Kaichun Mo, Hao Dong(参考訳) 部品組み立てはロボット工学において典型的なが難しい作業であり、ロボットは個々の部品を完全な形に組み立てる。 本稿では,家具組立のためのロボット組立シミュレーション環境を開発した。 具体的強化学習問題として部品組立タスクを定式化し、多様な椅子を組み立てることを学ぶロボットのためのパイプラインを提案する。 実験により, 目立たない椅子を用いたテストでは, 対象中心設定で74.5%, フル設定で50.0%の成功率が得られた。 rrt-connectアルゴリズムをベースラインとして採用し,計算時間を大幅に延長した後に18.8%の成功率を達成した。 補助材料とビデオはプロジェクトのWebページで公開されている。

Part assembly is a typical but challenging task in robotics, where robots assemble a set of individual parts into a complete shape. In this paper, we develop a robotic assembly simulation environment for furniture assembly. We formulate the part assembly task as a concrete reinforcement learning problem and propose a pipeline for robots to learn to assemble a diverse set of chairs. Experiments show that when testing with unseen chairs, our approach achieves a success rate of 74.5% under the object-centric setting and 50.0% under the full setting. We adopt an RRT-Connect algorithm as the baseline, which only achieves a success rate of 18.8% after a significantly longer computation time. Supplemental materials and videos are available on our project webpage.
翻訳日:2021-12-21 14:56:35 公開日:2021-12-19
# 応答型ネットワーク圧縮における蒸留品質の制御

Controlling the Quality of Distillation in Response-Based Network Compression ( http://arxiv.org/abs/2112.10047v1 )

ライセンス: Link先を確認
Vibhas Vats and David Crandall(参考訳) 蒸留に基づく圧縮ネットワークの性能は蒸留の品質によって制御される。 大規模ネットワーク(教師)からより小さなネットワーク(学生)への準最適蒸留の理由は、与えられた教師と学生のペアの学習能力の欠如に起因している。 教師のすべての知識を蒸留することは難しいが、蒸留の質は高い範囲で制御でき、より良い性能を達成することができる。 実験の結果, 蒸留の質は教師の反応の質に大きく左右され, 反応における類似性情報の存在の影響を強く受けていることがわかった。 十分に訓練された大容量教師は、分類のためのきめ細かな判別特性を学習する過程でクラス間の類似性情報を失う。 類似性情報の欠如は、蒸留過程を1つの例-多類学習から1つの例-一類学習に還元し、教師からの多様な知識の流れを減速させる。 人工的な知識のみを蒸留できるという暗黙の仮定で、知識の蒸留プロセスのみに焦点を当てるのではなく、知識の計算過程を精査する。 教師と学生のペアの場合、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができると論じる。 我々はこの甘い場所を見つけるためのより良い蒸留法について論じる。 また, 蒸留プロセスの挙動を知識蒸留と正則化効果とを区別する蒸留仮説を提案する。 私たちは3つの異なるデータセットで全ての実験を行います。

The performance of a distillation-based compressed network is governed by the quality of distillation. The reason for the suboptimal distillation of a large network (teacher) to a smaller network (student) is largely attributed to the gap in the learning capacities of given teacher-student pair. While it is hard to distill all the knowledge of a teacher, the quality of distillation can be controlled to a large extent to achieve better performance. Our experiments show that the quality of distillation is largely governed by the quality of teacher's response, which in turn is heavily affected by the presence of similarity information in its response. A well-trained large capacity teacher loses similarity information between classes in the process of learning fine-grained discriminative properties for classification. The absence of similarity information causes the distillation process to be reduced from one example-many class learning to one example-one class learning, thereby throttling the flow of diverse knowledge from the teacher. With the implicit assumption that only the instilled knowledge can be distilled, instead of focusing only on the knowledge distilling process, we scrutinize the knowledge inculcation process. We argue that for a given teacher-student pair, the quality of distillation can be improved by finding the sweet spot between batch size and number of epochs while training the teacher. We discuss the steps to find this sweet spot for better distillation. We also propose the distillation hypothesis to differentiate the behavior of the distillation process between knowledge distillation and regularization effect. We conduct all our experiments on three different datasets.
翻訳日:2021-12-21 14:54:50 公開日:2021-12-19
# 顔面マニピュレーションに対するイニシアティブ・ディフェンス

Initiative Defense against Facial Manipulation ( http://arxiv.org/abs/2112.10098v1 )

ライセンス: Link先を確認
Qidong Huang, Jie Zhang, Wenbo Zhou, WeimingZhang, Nenghai Yu(参考訳) 顔操作は、gan(generative adversarial networks)の発展により、近年、学界と産業の両方で大きな進歩を遂げている。 エンターテイメントアプリケーションの増加に刺激を与えるだけでなく、個人のプライバシーや政治的セキュリティにも深刻な脅威をもたらす。 このようなリスクを軽減するため、多くの対策が提案されている。 しかし、大多数の手法は受動的に設計されており、広い伝播後に顔画像やビデオが改ざんされているかどうかを検出する。 これらの検出に基づく方法には致命的な制限があり、これは元法医学の分野に限られるが、悪意ある行動のエンゲージメントを防げない。 そこで本研究では,悪意のあるユーザによって制御される顔操作モデルの性能を低下させるイニシアティブディフェンスの新たな枠組みを提案する。 基本的な考え方は、操作前にターゲットの顔データに受容不能な毒を積極的に注入することである。 この目的のために,まずターゲット操作モデルをサロゲートモデルで模倣し,次に毒の摂動生成器を考案して所望の毒を得る。 さらに、交互トレーニング戦略を利用して、代理モデルと摂動発生器の両方を訓練する。 顔属性の編集と顔の再現の2つの典型的な顔操作タスクが,我々のイニシアティブ・ディフェンス・フレームワークで検討されている。 大規模な実験では、異なる設定でフレームワークの有効性と堅牢性を示す。 最後に、この取り組みが、より敵対的なシナリオに対するイニシアティブ対策に光を当てることを願っています。

Benefiting from the development of generative adversarial networks (GAN), facial manipulation has achieved significant progress in both academia and industry recently. It inspires an increasing number of entertainment applications but also incurs severe threats to individual privacy and even political security meanwhile. To mitigate such risks, many countermeasures have been proposed. However, the great majority methods are designed in a passive manner, which is to detect whether the facial images or videos are tampered after their wide propagation. These detection-based methods have a fatal limitation, that is, they only work for ex-post forensics but can not prevent the engendering of malicious behavior. To address the limitation, in this paper, we propose a novel framework of initiative defense to degrade the performance of facial manipulation models controlled by malicious users. The basic idea is to actively inject imperceptible venom into target facial data before manipulation. To this end, we first imitate the target manipulation model with a surrogate model, and then devise a poison perturbation generator to obtain the desired venom. An alternating training strategy are further leveraged to train both the surrogate model and the perturbation generator. Two typical facial manipulation tasks: face attribute editing and face reenactment, are considered in our initiative defense framework. Extensive experiments demonstrate the effectiveness and robustness of our framework in different settings. Finally, we hope this work can shed some light on initiative countermeasures against more adversarial scenarios.
翻訳日:2021-12-21 14:54:28 公開日:2021-12-19
# (参考訳) ボックスの外から見た3Dシーン

Looking Outside the Box to Ground Language in 3D Scenes ( http://arxiv.org/abs/2112.08879v2 )

ライセンス: CC BY 4.0
Ayush Jain, Nikolaos Gkanatsios, Ishita Mediratta, Katerina Fragkiadaki(参考訳) 事前訓練された検出器がシーン内のオブジェクトを提案し、モデルは元のイメージや3Dポイントクラウドに出席することなく、これらのボックスの提案から回答を選択することを学習する。 オブジェクト検出器は通常、オブジェクトや属性の固定された語彙で訓練されるが、これはオープンドメインの言語接地には制約が多すぎるため、発話は椅子、椅子の脚、椅子の前脚の先端など、様々な抽象レベルでの視覚実体を指すことがある。 我々は,boxの提案ボトルネックを回避し,3次元シーンにおける言語接地モデルを提案する。 i) 言語ストリーム、ポイントクラウド機能ストリーム、および3dボックスの提案全体での反復的な注意。 二 オブジェクト及び部分参照のための3Dボックスをデコードする非パラメトリックエンティティクエリを持つトランスフォーマーデコーダ 三 対象物検出を候補分類ラベルの一覧から成る参照発話の根拠として扱うことにより、3Dオブジェクトアノテーション及び言語基盤アノテーションからの共同監督 これらの革新は、一般的な3D言語グラウンドベンチマークに対する以前のアプローチに比べて、大きな量的向上(SR3Dベンチマークのプラス9%の改善)をもたらす。 私たちは、それぞれのイノベーションを省略して、モデルのパフォーマンスへの貢献を示しています。 マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作する。 コードとチェックポイントはhttps://github.com/n ickgkan/beauty_detrで公開される。

Existing language grounding models often use object proposal bottlenecks: a pre-trained detector proposes objects in the scene and the model learns to select the answer from these box proposals, without attending to the original image or 3D point cloud. Object detectors are typically trained on a fixed vocabulary of objects and attributes that is often too restrictive for open-domain language grounding, where an utterance may refer to visual entities at various levels of abstraction, such as a chair, the leg of a chair, or the tip of the front leg of a chair. We propose a model for grounding language in 3D scenes that bypasses box proposal bottlenecks with three main innovations: i) Iterative attention across the language stream, the point cloud feature stream and 3D box proposals. ii) Transformer decoders with non-parametric entity queries that decode 3D boxes for object and part referentials. iii) Joint supervision from 3D object annotations and language grounding annotations, by treating object detection as grounding of referential utterances comprised of a list of candidate category labels. These innovations result in significant quantitative gains (up to +9% absolute improvement on the SR3D benchmark) over previous approaches on popular 3D language grounding benchmarks. We ablate each of our innovations to show its contribution to the performance of the model. When applied on language grounding on 2D images with minor changes, it performs on par with the state-of-the-art while converges in half of the GPU time. The code and checkpoints will be made available at https://github.com/n ickgkan/beauty_detr
翻訳日:2021-12-21 11:21:07 公開日:2021-12-19
# 自己教師付き映像表現のための時空間前文学習

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation ( http://arxiv.org/abs/2112.08913v2 )

ライセンス: Link先を確認
Yujia Zhang, Lai-Man Po, Xuyuan Xu, Mengyang Liu, Yexin Wang, Weifeng Ou, Yuzhi Zhao, Wing-Yin Yu(参考訳) 時空間表現学習はビデオ自己教師あり表現に不可欠である。 最近のアプローチでは、主に対比学習と前文タスクを使用する。 しかし、これらの手法は、学習された表現の中間状態を無視しながら、潜在空間における特徴的類似性を通じてサンプルインスタンスを識別することで表現を学ぶ。 本研究では,サンプルインスタンスの類似度を中間状態として考慮し,新しいプレテキスト・タスク比時間重なり率(STOR)予測を提案する。 それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。 このタスクはモデルが2つの生成されたサンプルのSTORを識別して表現を学ぶことを奨励する。 さらに,前文課題と対比学習を組み合わせた協調最適化を行い,時空間表現学習をさらに強化する。 また,提案手法における各成分の相互影響についても検討した。 我々の提案するSTORタスクは、コントラスト学習とプレテキストタスクの両方に有利であることを示す。 協調最適化手法は映像理解における時空間表現を著しく改善することができる。 コードはhttps://github.com/K atou2/CSTPで公開されている。

Spatio-temporal representation learning is critical for video self-supervised representation. Recent approaches mainly use contrastive learning and pretext tasks. However, these approaches learn representation by discriminating sampled instances via feature similarity in the latent space while ignoring the intermediate state of the learned representations, which limits the overall performance. In this work, taking into account the degree of similarity of sampled instances as the intermediate state, we propose a novel pretext task - spatio-temporal overlap rate (STOR) prediction. It stems from the observation that humans are capable of discriminating the overlap rates of videos in space and time. This task encourages the model to discriminate the STOR of two generated samples to learn the representations. Moreover, we employ a joint optimization combining pretext tasks with contrastive learning to further enhance the spatio-temporal representation learning. We also study the mutual influence of each component in the proposed scheme. Extensive experiments demonstrate that our proposed STOR task can favor both contrastive learning and pretext tasks. The joint optimization scheme can significantly improve the spatio-temporal representation in video understanding. The code is available at https://github.com/K atou2/CSTP.
翻訳日:2021-12-21 11:19:12 公開日:2021-12-19