このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211018となっている論文です。

PDF登録状況(公開日: 20211018)

TitleAuthorsAbstract論文公表日・翻訳日
# iotセンサアルゴリズムに基づくスマートホームにおけるヒューマンアクティビティ認識に関する調査--分類学、課題、深層学習の機会について

A Survey of Human Activity Recognition in Smart Homes Based on IoT Sensors Algorithms: Taxonomies, Challenges, and Opportunities with Deep Learning ( http://arxiv.org/abs/2111.04418v1 )

ライセンス: Link先を確認
Damien Bouchabou (1), Sao Mai Nguyen (1), Christophe Lohr (1), Benoit Leduc, Ioannis Kanellos (1) ((1) Lab-STICC_RAMBO, IMT Atlantique - INFO)(参考訳) モノのインターネット(IoT)技術の最近の進歩とセンサコストの削減により、スマートホームなどのスマート環境の開発が促進されている。 スマートホームは、特に高齢者や依存者の生活の質、自律性、健康を改善するための在宅支援サービスを提供することができる。 このようなサービスを提供するためには、スマートホームが住民の日常的な活動を理解する必要がある。 スマートホームにおける人間の活動を認識する技術は日々進歩している。 しかし、毎日新しい課題が生まれている。 本稿では,環境センサを用いたスマートホームにおける人間行動認識の分野における最近のアルゴリズム,研究,課題,分類について述べる。 さらに、スマートホームにおける活動認識は若い分野であるため、特定の問題や欠落、貢献が必要となる。 しかし、この分野の進歩を加速するための方向性、研究機会、解決策も提案する。

Recent advances in Internet of Things (IoT) technologies and the reduction in the cost of sensors have encouraged the development of smart environments, such as smart homes. Smart homes can offer home assistance services to improve the quality of life, autonomy and health of their residents, especially for the elderly and dependent. To provide such services, a smart home must be able to understand the daily activities of its residents. Techniques for recognizing human activity in smart homes are advancing daily. But new challenges are emerging every day. In this paper, we present recent algorithms, works, challenges and taxonomy of the field of human activity recognition in a smart home through ambient sensors. Moreover, since activity recognition in smart homes is a young field, we raise specific problems, missing and needed contributions. But also propose directions, research opportunities and solutions to accelerate advances in this field.
翻訳日:2021-11-14 15:47:16 公開日:2021-10-18
# Zombieデータセットの問題:データセットの非推奨化フレームワーク

The Problem of Zombie Datasets:A Framework For Deprecating Datasets ( http://arxiv.org/abs/2111.04424v1 )

ライセンス: Link先を確認
Frances Corry, Hamsini Sridharan, Alexandra Sasha Luccioni, Mike Ananny, Jason Schultz, Kate Crawford(参考訳) マシンラーニングデータセットが法的、倫理的、技術的理由から廃止されるが、広く使用されている場合はどうなりますか? 本稿では,ImageNet,8000万Tiny Images,MS-Celeb-1M,D uke MTMC,Brainwash,HRT Transgenderなどの著名な非推奨データセットの公開後処理について検討し,より一貫性のある倫理的かつ説明可能なデータセットの非推奨化の枠組みについて述べる。 先行研究に基づいて、データセットの非推奨に関する情報の一貫性、透明性、集中的なソーシングが欠如していることが分かり、これらのデータセットとそのデリバティブが論文に引用され、オンラインに流通し続けている。 死なないデータセット — いわゆる“zombieデータセット” – は、技術的、法的、倫理的な課題を引き起こして、製品レベルのシステムの設計に引き続き通知します。 この分析に基づいて,機械学習コミュニティが適用・実装可能な,リスクの考慮,影響の緩和,アピール機構,タイムライン,ポスト推奨プロトコル,パブリッシングチェックを含むデータセット非推奨フレームワークを提案する。 データシートとチェックリストに関する作業に基づいて、さらに2つのサンプルデータセットの非推奨シートを提供し、どのデータセットが非推奨になったかを追跡し、NeurIPSのような会場の公開プロトコルに組み込むことができる集中型リポジトリを提案する。

What happens when a machine learning dataset is deprecated for legal, ethical, or technical reasons, but continues to be widely used? In this paper, we examine the public afterlives of several prominent deprecated or redacted datasets, including ImageNet, 80 Million Tiny Images, MS-Celeb-1M, Duke MTMC, Brainwash, and HRT Transgender, in order to inform a framework for more consistent, ethical, and accountable dataset deprecation. Building on prior research, we find that there is a lack of consistency, transparency, and centralized sourcing of information on the deprecation of datasets, and as such, these datasets and their derivatives continue to be cited in papers and circulate online. These datasets that never die -- which we term "zombie datasets" -- continue to inform the design of production-level systems, causing technical, legal, and ethical challenges; in so doing, they risk perpetuating the harms that prompted their supposed withdrawal, including concerns around bias, discrimination, and privacy. Based on this analysis, we propose a Dataset Deprecation Framework that includes considerations of risk, mitigation of impact, appeal mechanisms, timeline, post-deprecation protocol, and publication checks that can be adapted and implemented by the machine learning community. Drawing on work on datasheets and checklists, we further offer two sample dataset deprecation sheets and propose a centralized repository that tracks which datasets have been deprecated and could be incorporated into the publication protocols of venues like NeurIPS.
翻訳日:2021-11-14 15:47:03 公開日:2021-10-18
# (参考訳) BERMo: ELMoから何を学ぶことができますか? [全文訳有]

BERMo: What can BERT learn from ELMo? ( http://arxiv.org/abs/2110.15802v1 )

ライセンス: CC BY 4.0
Sangamesh Kodge and Kaushik Roy(参考訳) BERTのアーキテクチャ変更であるBERMoを提案し,表面・構文・意味言語の特徴の階層構造に基づいて予測を行う。 言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。 提案手法は,(1)各層が損失関数の勾配に直結しているため,下流タスクの勾配フローが向上し,(2)下流タスクに必要な浅層で学習した機能をもはやコピーする必要がなくなるため,代表パワーが向上する,という2つの利点がある。 さらに,ネットワーク内の各層に関連付けられた単一のスカラーパラメータが存在するため,パラメータのオーバーヘッドは無視できる。 SentEvalデータセットからの探索タスクの実験によると、我々のモデルはベースラインよりも4.65\%$精度が良く、セマンティックタスクでは平均2.67\%$が改善されている。 圧縮技術を適用すると、BERTモデルが一般的に分散するSST-2のような小さなデータセットを圧縮するための安定プルーニングが可能であることが分かる。 GLUEデータセットからMNLIおよびQQPタスクのベースラインよりも高速に1.67\times$と1.15\times$を収束する。 さらに,本手法により,QQPタスクに対するペナルティに基づくプルーニング手法のパラメータ効率が向上することを示した。

We propose BERMo, an architectural modification to BERT, which makes predictions based on a hierarchy of surface, syntactic and semantic language features. We use linear combination scheme proposed in Embeddings from Language Models (ELMo) to combine the scaled internal representations from different network depths. Our approach has two-fold benefits: (1) improved gradient flow for the downstream task as every layer has a direct connection to the gradients of the loss function and (2) increased representative power as the model no longer needs to copy the features learned in the shallower layer which are necessary for the downstream task. Further, our model has a negligible parameter overhead as there is a single scalar parameter associated with each layer in the network. Experiments on the probing task from SentEval dataset show that our model performs up to $4.65\%$ better in accuracy than the baseline with an average improvement of $2.67\%$ on the semantic tasks. When subject to compression techniques, we find that our model enables stable pruning for compressing small datasets like SST-2, where the BERT model commonly diverges. We observe that our approach converges $1.67\times$ and $1.15\times$ faster than the baseline on MNLI and QQP tasks from GLUE dataset. Moreover, our results show that our approach can obtain better parameter efficiency for penalty based pruning approaches on QQP task.
翻訳日:2021-11-07 14:59:09 公開日:2021-10-18
# (参考訳) フリーゲームにおけるゲーム再設計 [全文訳有]

Game Redesign in No-regret Game Playing ( http://arxiv.org/abs/2110.11763v1 )

ライセンス: CC BY 4.0
Yuzhe Ma, Young Wu, Xiaojin Zhu(参考訳) 本研究では,外部設計者が各ラウンドで支払関数を変更することができるが,元のゲームから逸脱する設計コストがかかるゲーム再設計問題について検討する。 プレイヤーは、制限されたフィードバックで変更したゲームを繰り返しプレイするために、非回帰学習アルゴリズムを適用する。 デザイナーの目標は (i) 特定のターゲットのアクションプロファイルを頻繁に行うよう、すべてのプレイヤーにインセンティブを与え、 (ii)少額の累積設計コストが発生する。 ターゲットアクションプロファイルがt-o(t)ラウンドで行われることを保証しつつ,o(t)累積設計コストのみを伴ってゲーム再設計アルゴリズムを提案する。 ゲームの再設計は、ポジティブなアプリケーションとネガティブなアプリケーションの両方を記述している: プレイヤーに、元のゲームのソリューションよりも優れた社会的厚生でターゲットアクションプロファイルを取るようインセンティブを与える好意的なデザイナー、または、ターゲットアクションプロファイルがプレイヤーに利益をもたらすが、プレイヤーには効果がない悪意のある攻撃者。 4つのクラシックゲームのシミュレーションにより,提案手法の有効性を確認した。

We study the game redesign problem in which an external designer has the ability to change the payoff function in each round, but incurs a design cost for deviating from the original game. The players apply no-regret learning algorithms to repeatedly play the changed games with limited feedback. The goals of the designer are to (i) incentivize all players to take a specific target action profile frequently; and (ii) incur small cumulative design cost. We present game redesign algorithms with the guarantee that the target action profile is played in T-o(T) rounds while incurring only o(T) cumulative design cost. Game redesign describes both positive and negative applications: a benevolent designer who incentivizes players to take a target action profile with better social welfare compared to the solution of the original game, or a malicious attacker whose target action profile benefits themselves but not the players. Simulations on four classic games confirm the effectiveness of our proposed redesign algorithms.
翻訳日:2021-11-01 08:25:40 公開日:2021-10-18
# (参考訳) SpecTNT:音楽オーディオのための時間周波数変換器 [全文訳有]

SpecTNT: a Time-Frequency Transformer for Music Audio ( http://arxiv.org/abs/2110.09127v1 )

ライセンス: CC BY 4.0
Wei-Tsung Lu, Ju-Chiang Wang, Minz Won, Keunwoo Choi and Xuchen Song(参考訳) トランスフォーマーは、自然言語処理やコンピュータビジョンで顕著な性能を示すことでミール分野で注目を集めている。 しかし、以前のオーディオ処理領域では、ほとんどの場合、RTNに似た機能を持つ時間的特徴集約器としてTransformerを使用していた。 本稿では,入力時間-周波数表現のスペクトル列と時間系列の両方をモデル化するトランスフォーマティブアーキテクチャであるspectntを提案する。 具体的には,Transformer-in-Tran sformer (TNT) アーキテクチャの新しいバリエーションを紹介する。 各SpecTNTブロックにおいて、スペクトル変換器は各フレームの周波数クラストークン(FCT)に周波数関連特徴を抽出する。 その後、FCTは線形に投影され、FCTから有用な情報を収集する時間埋め込み(TE)に追加される。 そして、テンポラリトランスがtesを処理して、タイム軸間で情報を交換する。 SpecTNTブロックを積み重ねることで、音楽信号の表現を学ぶためのSpecTNTモデルを構築する。 実験では、spectntは音楽のタギングや声のメロディ抽出における最先端のパフォーマンスを示し、コード認識における競争力を示す。 SpecTNTおよびその他の設計選択の有効性をアブレーション研究により検討した。

Transformers have drawn attention in the MIR field for their remarkable performance shown in natural language processing and computer vision. However, prior works in the audio processing domain mostly use Transformer as a temporal feature aggregator that acts similar to RNNs. In this paper, we propose SpecTNT, a Transformer-based architecture to model both spectral and temporal sequences of an input time-frequency representation. Specifically, we introduce a novel variant of the Transformer-in-Trans former (TNT) architecture. In each SpecTNT block, a spectral Transformer extracts frequency-related features into the frequency class token (FCT) for each frame. Later, the FCTs are linearly projected and added to the temporal embeddings (TEs), which aggregate useful information from the FCTs. Then, a temporal Transformer processes the TEs to exchange information across the time axis. By stacking the SpecTNT blocks, we build the SpecTNT model to learn the representation for music signals. In experiments, SpecTNT demonstrates state-of-the-art performance in music tagging and vocal melody extraction, and shows competitive performance for chord recognition. The effectiveness of SpecTNT and other design choices are further examined through ablation studies.
翻訳日:2021-11-01 08:06:13 公開日:2021-10-18
# (参考訳) 連続学習のための樹状自己組織化マップ [全文訳有]

Dendritic Self-Organizing Maps for Continual Learning ( http://arxiv.org/abs/2110.13611v1 )

ライセンス: CC BY 4.0
Kosmas Pinitas, Spyridon Chavlis, Panayiota Poirazi(参考訳) 現在のディープラーニングアーキテクチャは、大規模で制御されたデータセットでトレーニングすると驚くべきパフォーマンスを示す。 しかし、新しいクラスを段階的に学ぶと、これらのアーキテクチャの予測能力は大幅に低下する。 これは、以前に見られたデータから得られた知識を忘れる傾向があるためである。 一方、自己組織化マップ(SOM)は制約付きk-平均を用いて入力空間をモデル化し、過去の知識を維持することができる。 本稿では,生物ニューロンにヒントを得たDendSOM(DendSOM)と呼ばれる新しいアルゴリズムを提案する。 DendSOMは、入力空間の特定の領域からパターンを抽出し、一組のヒット行列、一組のSOMを伴い、単位とラベルの関係を推定する。 入力パターンのベストマッチングユニットは、最大コサイン類似性ルールを用いて選択され、ポイントワイズ相互情報がクラス推論に使用される。 DendSOMは、重みのターゲット更新にラベルを使用しないため、教師なしの特徴抽出を行う。 従来のSOMや、Split-MNISTやSplit-CIFAR-10のようなベンチマークデータセット上での最先端の連続学習アルゴリズムよりも優れている。 我々は,SOMsの神経特性の取り込みが破滅的忘れの予防に役立つことを示唆する。

Current deep learning architectures show remarkable performance when trained in large-scale, controlled datasets. However, the predictive ability of these architectures significantly decreases when learning new classes incrementally. This is due to their inclination to forget the knowledge acquired from previously seen data, a phenomenon termed catastrophic-forgett ing. On the other hand, Self-Organizing Maps (SOMs) can model the input space utilizing constrained k-means and thus maintain past knowledge. Here, we propose a novel algorithm inspired by biological neurons, termed Dendritic-Self-Organ izing Map (DendSOM). DendSOM consists of a single layer of SOMs, which extract patterns from specific regions of the input space accompanied by a set of hit matrices, one per SOM, which estimate the association between units and labels. The best-matching unit of an input pattern is selected using the maximum cosine similarity rule, while the point-wise mutual information is employed for class inference. DendSOM performs unsupervised feature extraction as it does not use labels for targeted updating of the weights. It outperforms classical SOMs and several state-of-the-art continual learning algorithms on benchmark datasets, such as the Split-MNIST and Split-CIFAR-10. We propose that the incorporation of neuronal properties in SOMs may help remedy catastrophic forgetting.
翻訳日:2021-11-01 07:38:30 公開日:2021-10-18
# SCENIC:コンピュータビジョン研究などのためのJAXライブラリ

SCENIC: A JAX Library for Computer Vision Research and Beyond ( http://arxiv.org/abs/2110.11403v1 )

ライセンス: Link先を確認
Mostafa Dehghani and Alexey Gritsenko and Anurag Arnab and Matthias Minderer and Yi Tay(参考訳) ScenicはオープンソースのJAXライブラリで、コンピュータビジョン研究などのためのTransformerベースのモデルにフォーカスしている。 このツールキットの目的は、新しいビジョンアーキテクチャとモデルの迅速な実験、プロトタイピング、研究を促進することである。 さまざまなビジョンタスク(分類、セグメンテーション、検出など)をサポートし、gpu/tpuによるマルチホスト、マルチデバイス大規模トレーニングのサポートとともに、マルチモーダル問題への取り組みを容易にする。 Scenicはまた、幅広いモダリティにまたがる最先端の研究モデルの最適化実装も提供している。 ランドスケープは多くのプロジェクトや論文の出版に成功し、新しい研究アイデアの迅速なプロトタイピングと出版に最適な図書館として機能し続けている。

Scenic is an open-source JAX library with a focus on Transformer-based models for computer vision research and beyond. The goal of this toolkit is to facilitate rapid experimentation, prototyping, and research of new vision architectures and models. Scenic supports a diverse range of vision tasks (e.g., classification, segmentation, detection)and facilitates working on multi-modal problems, along with GPU/TPU support for multi-host, multi-device large-scale training. Scenic also offers optimized implementations of state-of-the-art research models spanning a wide range of modalities. Scenic has been successfully used for numerous projects and published papers and continues serving as the library of choice for quick prototyping and publication of new research ideas.
翻訳日:2021-10-31 08:52:19 公開日:2021-10-18
# 先進的なAI/MLを導入して投資家が成功するのを助ける:Vanguard Reinforcement Learning for Financial Goal Planning

Embracing advanced AI/ML to help investors achieve success: Vanguard Reinforcement Learning for Financial Goal Planning ( http://arxiv.org/abs/2110.12003v1 )

ライセンス: Link先を確認
Shareefuddin Mohammed, Rusty Bealer, Jason Cohen(参考訳) アドバイスと金融計画の世界では、正しい答えはめったにない。 従来のアルゴリズムは線形問題を解くのに成功してきたが、その成功はデータセットから適切な機能を選択することに依存することが多い。 強化学習は、適切な機能を選択することはほぼ不可能である複雑なデータセットで使用できる機械学習アプローチである。 本稿では,機械学習による財務予測,経済指標の予測,貯蓄戦略の作成について検討する。 目標ベースの金融計画のためのvanguard mlアルゴリズムは、顧客の財務的成功を支援するために、複数の目標と収入源にまたがる最適な貯蓄率を特定する深層強化学習に基づいている。 バンガード学習アルゴリズムは、市場指標と行動を特定するために訓練され、公式やルールで捉えるには複雑すぎるが、代わりに投資家の財務的成功軌道と投資成果をマルコフ決定プロセスとしてモデル化する。 強化学習は、アドバイザーやエンドインベスターの価値を創造し、効率性、パーソナライズされた計画、そしてカスタマイズされたソリューションを可能にするデータを生み出すのに利用できると信じています。

In the world of advice and financial planning, there is seldom one right answer. While traditional algorithms have been successful in solving linear problems, its success often depends on choosing the right features from a dataset, which can be a challenge for nuanced financial planning scenarios. Reinforcement learning is a machine learning approach that can be employed with complex data sets where picking the right features can be nearly impossible. In this paper, we will explore the use of machine learning for financial forecasting, predicting economic indicators, and creating a savings strategy. Vanguard ML algorithm for goals-based financial planning is based on deep reinforcement learning that identifies optimal savings rates across multiple goals and sources of income to help clients achieve financial success. Vanguard learning algorithms are trained to identify market indicators and behaviors too complex to capture with formulas and rules, instead, it works to model the financial success trajectory of investors and their investment outcomes as a Markov decision process. We believe that reinforcement learning can be used to create value for advisors and end-investors, creating efficiency, more personalized plans, and data to enable customized solutions.
翻訳日:2021-10-31 08:52:06 公開日:2021-10-18
# 多クラスシナリオにおけるジェネレーティブ・ディバーショナル・ネットワークを用いた軌道予測

Trajectory Prediction using Generative Adversarial Network in Multi-Class Scenarios ( http://arxiv.org/abs/2110.11401v1 )

ライセンス: Link先を確認
Shilun Li, Tracy Cai, Jiayi Li(参考訳) 交通機関の軌道予測は自動操縦にとって重要な課題である。 軌道予測に関するほとんどの以前の研究は、単一の種類の道路エージェントしか考慮していない。 シーケンス・ツー・シーケンス・モデルを用いて、観測経路から将来の経路を予測し、抽出されたラベル表現を従来の位置入力と組み合わせることで、クラス情報をモデルに組み込む。 我々はLSTMとトランスフォーマーエンコーダの両方を用いて実験を行い、Social GANで導入された生成的敵ネットワークを用いて交通エージェントのマルチモーダル動作を学習する。 我々は6種類の道路エージェントを含むStanford Droneデータセットでモデルをトレーニングし、異なるモデルコンポーネントがマルチクラスのシーンにおける予測性能に与える影響を評価する。

Predicting traffic agents' trajectories is an important task for auto-piloting. Most previous work on trajectory prediction only considers a single class of road agents. We use a sequence-to-sequence model to predict future paths from observed paths and we incorporate class information into the model by concatenating extracted label representations with traditional location inputs. We experiment with both LSTM and transformer encoders and we use generative adversarial network as introduced in Social GAN to learn the multi-modal behavior of traffic agents. We train our model on Stanford Drone dataset which includes 6 classes of road agents and evaluate the impact of different model components on the prediction performance in multi-class scenes.
翻訳日:2021-10-31 08:51:08 公開日:2021-10-18
# nnkグラフを用いた畳み込みニューラルネットワークにおけるチャネル冗長性と重なり

Channel redundancy and overlap in convolutional neural networks with channel-wise NNK graphs ( http://arxiv.org/abs/2110.11400v1 )

ライセンス: Link先を確認
David Bonet, Antonio Ortega, Javier Ruiz-Hidalgo, Sarath Shekkizhar(参考訳) 畳み込みニューラルネットワーク(CNN)の深い層における特徴空間は、しばしば非常に高次元で解釈が難しい。 しかし、畳み込み層は、異なる種類の入力によって活性化される複数のチャネルで構成されており、チャネルとそれらの相互関係を研究することによって、より多くの洞察が得られることを示唆している。 本稿では,まず,チャネル間重なりの定量化を可能にするcw-nnk回帰グラフを理論的に解析し,間接的にデータ表現多様体の固有次元を明らかにした。 チャネル間の冗長性は、トレーニング中の層深さと正規化レベルによって大きく変化している。 さらに,最終畳み込み層におけるチャネル重なりと一般化性能との間には相関関係があることを観察する。 実験結果から,これらの手法が深部表現の理解を深める可能性が示唆された。

Feature spaces in the deep layers of convolutional neural networks (CNNs) are often very high-dimensional and difficult to interpret. However, convolutional layers consist of multiple channels that are activated by different types of inputs, which suggests that more insights may be gained by studying the channels and how they relate to each other. In this paper, we first analyze theoretically channel-wise non-negative kernel (CW-NNK) regression graphs, which allow us to quantify the overlap between channels and, indirectly, the intrinsic dimension of the data representation manifold. We find that redundancy between channels is significant and varies with the layer depth and the level of regularization during training. Additionally, we observe that there is a correlation between channel overlap in the last convolutional layer and generalization performance. Our experimental results demonstrate that these techniques can lead to a better understanding of deep representations.
翻訳日:2021-10-31 08:50:38 公開日:2021-10-18
# (参考訳) emds-7 マルチオブジェクト検出評価のための環境微生物画像データセット第7版 [全文訳有]

EMDS-7: Environmental Microorganism Image Dataset Seventh Version for Multiple Object Detection Evaluation ( http://arxiv.org/abs/2110.07723v2 )

ライセンス: CC BY 4.0
Hechen Yang, Chen Li, Xin Zhao, Bencheng Cai, Jiawei Zhang, Pingli Ma, Peng Zhao, Ao Chen, Tao Jiang, Hongzan Sun, Yueyang Teng, Shouliang Qi, Tao Jiang and Marcin Grzegorzek(参考訳) 環境微生物画像データセット第7版(emds-7)は、オリジナルの環境微生物画像(ems)と対応するオブジェクトラベリングファイルを「.xml」フォーマットファイルに含む顕微鏡画像データセットである。 EMDS-7データセットは41種類のEMで構成され、合計で2365の画像と13216のラベル付きオブジェクトを持つ。 EMDS-7データベースは主にオブジェクト検出に焦点を当てている。 EMDS-7の有効性を証明するため,最も一般的なディープラーニング手法(Faster-RCNN, YOLOv3, YOLOv4, SSD, RetinaNet)と評価指標を選択する。 emds-7は非商用目的のために無償で公開されている。 https://github.com/y anghechen/emds-7

The Environmental Microorganism Image Dataset Seventh Version (EMDS-7) is a microscopic image data set, including the original Environmental Microorganism images (EMs) and the corresponding object labeling files in ".XML" format file. The EMDS-7 data set consists of 41 types of EMs, which has a total of 2365 images and 13216 labeled objects. The EMDS-7 database mainly focuses on the object detection. In order to prove the effectiveness of EMDS-7, we select the most commonly used deep learning methods (Faster-RCNN, YOLOv3, YOLOv4, SSD and RetinaNet) and evaluation indices for testing and evaluation. EMDS-7 is freely published for non-commercial purpose at: https://github.com/y anghechen/EMDS-7
翻訳日:2021-10-24 13:39:09 公開日:2021-10-18
# ソーシャルロボットがソーシャルな手がかりを処理して、いつユーザを助けるかを検出する

Enabling a Social Robot to Process Social Cues to Detect when to Help a User ( http://arxiv.org/abs/2110.11075v1 )

ライセンス: Link先を確認
Jason R. Wilson, Phyo Thuta Aung, Isabelle Boucher(参考訳) 社会支援ロボットは、ユーザーがいつ助けを求めているかを認識できることが重要である。 このようなロボットは、人間のニーズをリアルタイムで認識して、タイムリーな支援を提供できる必要がある。 本稿では,ロボットが支援を行うべきタイミングを社会的手がかりを用いて判断するアーキテクチャを提案する。 視線と言語モダリティのマルチモーダル融合アプローチに基づいて,ロボット支援legoビルディングタスクで収集したデータに基づいて,アーキテクチャを訓練し,評価する。 社会的手がかりにフォーカスすることで、アーキテクチャは与えられたタスクの特定の部分への最小限の依存関係を持ち、多くの異なるコンテキストに適用できます。 ソーシャルロボットをソーシャルキューを通じてユーザのニーズを認識することは、ユーザの行動や嗜好に適応するのに役立ち、それによってユーザエクスペリエンスが向上する。

It is important for socially assistive robots to be able to recognize when a user needs and wants help. Such robots need to be able to recognize human needs in a real-time manner so that they can provide timely assistance. We propose an architecture that uses social cues to determine when a robot should provide assistance. Based on a multimodal fusion approach upon eye gaze and language modalities, our architecture is trained and evaluated on data collected in a robot-assisted Lego building task. By focusing on social cues, our architecture has minimal dependencies on the specifics of a given task, enabling it to be applied in many different contexts. Enabling a social robot to recognize a user's needs through social cues can help it to adapt to user behaviors and preferences, which in turn will lead to improved user experiences.
翻訳日:2021-10-22 18:26:20 公開日:2021-10-18
# 電子商取引におけるリストレコメンデーションのための複数属性を用いたシーケンスモデリング

Sequential Modeling with Multiple Attributes for Watchlist Recommendation in E-Commerce ( http://arxiv.org/abs/2110.11072v1 )

ライセンス: Link先を確認
Uriel Singer, Haggai Roitman, Yotam Eshel, Alexander Nus, Ido Guy, Or Levi, Idan Hasson and Eliyahu Kiperwasser(参考訳) 電子商取引において、ウォッチリストは、ユーザーが時間とともにアイテムを追跡することを可能にし、主要な特徴として現れ、ユーザのショッピング旅行において重要な役割を果たす。 ウォッチリストアイテムは通常、時間とともに値が変化する可能性のある複数の属性(例えば、価格、量)を持つ。 多くのユーザーはwatchlistに何十ものアイテムを蓄積し、ショッピングの意図は時間とともに変化するので、あるコンテキストでトップリストアイテムを推薦することは価値がある。 本研究では,eコマースにおけるwatchlistの機能を調査し,新しいwatchlistレコメンデーションタスクを導入する。 私たちのゴールは、ユーザーが次にクリックするアイテムを予測することで、次に注目すべきウォッチリスト項目を優先順位付けすることです。 我々は、このタスクを特別なシーケンシャルなレコメンデーションタスクとみなし、その特性について論じる。 提案する提案モデルであるTrans2DはTransformerアーキテクチャ上に構築されており,複数項目属性を持つシーケンシャルデータから複雑な項目属性,属性属性,項目属性パターンを学習可能な,新たな拡張注意機構(Attention2D)を提案する。 ebayの大規模なwatchlistデータセットを使用して、提案モデルを評価し、複数の最先端ベースラインと比較し、その多くがこのタスクに適合していることを示した。

In e-commerce, the watchlist enables users to track items over time and has emerged as a primary feature, playing an important role in users' shopping journey. Watchlist items typically have multiple attributes whose values may change over time (e.g., price, quantity). Since many users accumulate dozens of items on their watchlist, and since shopping intents change over time, recommending the top watchlist items in a given context can be valuable. In this work, we study the watchlist functionality in e-commerce and introduce a novel watchlist recommendation task. Our goal is to prioritize which watchlist items the user should pay attention to next by predicting the next items the user will click. We cast this task as a specialized sequential recommendation task and discuss its characteristics. Our proposed recommendation model, Trans2D, is built on top of the Transformer architecture, where we further suggest a novel extended attention mechanism (Attention2D) that allows to learn complex item-item, attribute-attribute and item-attribute patterns from sequential-data with multiple item attributes. Using a large-scale watchlist dataset from eBay, we evaluate our proposed model, where we demonstrate its superiority compared to multiple state-of-the-art baselines, many of which are adapted for this task.
翻訳日:2021-10-22 18:18:55 公開日:2021-10-18
# rl4rs:強化学習に基づくレコメンダシステムのための実世界ベンチマーク

RL4RS: A Real-World Benchmark for Reinforcement Learning based Recommender System ( http://arxiv.org/abs/2110.11073v1 )

ライセンス: Link先を確認
Kai Wang, Zhene Zou, Qilin Deng, Yue Shang, Minghao Zhao, Runze Wu, Xudong Shen, Tangjie Lyu, Changjie Fan(参考訳) 強化学習に基づく推薦システム (RL-based RS) は,複数の収集データから適切なポリシを学習することを目的として,複数ステップの意思決定タスクに逐次レコメンデーションを投入する。 しかしながら、現在のRLベースのRSベンチマークは、人工的なRLデータセットや半シミュレートされたRSデータセットを含むため、一般的に大きな現実的なギャップがあり、トレーニングされたポリシーはシミュレーション環境で直接評価される。 現実の状況では、すべての推奨問題が強化学習問題に変換されるのに適しているわけではない。 従来の学術的なRL研究とは異なり、RSは外挿誤差と展開前に十分な検証が難しい。 本稿では,rl4rs(reinforcement learning for recommender systems)ベンチマークについて紹介する。rlアルゴリズムを訓練し評価するために,産業アプリケーションから収集された新しいリソースである。 これには、2つのデータセット、チューニングされたシミュレーション環境、関連するRLベースライン、データ理解ツール、および対実的なポリシー評価アルゴリズムが含まれる。 RL4RSスーツはhttps://github.com/f uxiAIlab/RL4RSで見ることができる。 rlベースのレコメンダシステムに加えて,強化学習とニューラルコンビネート最適化の研究にリソースが寄与することを期待している。

Reinforcement learning based recommender systems (RL-based RS) aims at learning a good policy from a batch of collected data, with casting sequential recommendation to multi-step decision-making tasks. However, current RL-based RS benchmarks commonly have a large reality gap, because they involve artificial RL datasets or semi-simulated RS datasets, and the trained policy is directly evaluated in the simulation environment. In real-world situations, not all recommendation problems are suitable to be transformed into reinforcement learning problems. Unlike previous academic RL researches, RL-based RS suffer from extrapolation error and the difficulties of being well validated before deployment. In this paper, we introduce the RL4RS (Reinforcement Learning for Recommender Systems) benchmark - a new resource fully collected from industrial applications to train and evaluate RL algorithms with special concerns on the above issues. It contains two datasets, tuned simulation environments, related advanced RL baselines, data understanding tools, and counterfactual policy evaluation algorithms. The RL4RS suit can be found at https://github.com/f uxiAIlab/RL4RS. In addition to the RL-based recommender systems, we expect the resource to contribute to research in reinforcement learning and neural combinatorial optimization.
翻訳日:2021-10-22 18:18:31 公開日:2021-10-18
# フェイクニュース記事の検出に関するシステムレビュー

A Systematic Review on the Detection of Fake News Articles ( http://arxiv.org/abs/2110.11240v1 )

ライセンス: Link先を確認
Nathaniel Hoy, Theodora Koulouri(参考訳) 偽ニュースや偽情報の拡散は、選挙の結果に影響を与えることや、新型コロナウイルス(COVID-19)のパンデミック対策への取り組みを妨げることなど、世界中の社会に脅威をもたらすと論じられている。 この脅威に対処するため、自然言語処理(NLP)アプローチが開発されている。 これらは、さまざまなデータセット、特徴抽出/選択技術、機械学習(ML)アルゴリズムを活用して、拡散前にフェイクニュースを検出する。 これらの手法は文書化されているが、この領域での有効性に関する証拠は少ない。 論文を体系的にレビューすることで、最もパフォーマンスの高い偽ニュース検出のアプローチを明確にし、既存のアプローチによる制限を特定し、これらを緩和する方法を提案する。 その結果,ニュースコンテンツとソーシャル機能の組み合わせを用いたアンサンブル手法が現在最も効果的であることが示された。 最後に、将来の研究は、汎用性の問題(一部は現在のデータセットの制限から生じる)、説明可能性、バイアスに対処するアプローチの開発に焦点を当てるべきである。

It has been argued that fake news and the spread of false information pose a threat to societies throughout the world, from influencing the results of elections to hindering the efforts to manage the COVID-19 pandemic. To combat this threat, a number of Natural Language Processing (NLP) approaches have been developed. These leverage a number of datasets, feature extraction/selection techniques and machine learning (ML) algorithms to detect fake news before it spreads. While these methods are well-documented, there is less evidence regarding their efficacy in this domain. By systematically reviewing the literature, this paper aims to delineate the approaches for fake news detection that are most performant, identify limitations with existing approaches, and suggest ways these can be mitigated. The analysis of the results indicates that Ensemble Methods using a combination of news content and socially-based features are currently the most effective. Finally, it is proposed that future research should focus on developing approaches that address generalisability issues (which, in part, arise from limitations with current datasets), explainability and bias.
翻訳日:2021-10-22 13:35:31 公開日:2021-10-18
# (参考訳) 胸部X線リブ抑制のためのGANによる逆絡学習 [全文訳有]

GAN-based disentanglement learning for chest X-ray rib suppression ( http://arxiv.org/abs/2110.09134v1 )

ライセンス: CC BY 4.0
Luyi Han, Yuanyuan Lyu, Cheng Peng, S.Kevin Zhou(参考訳) 臨床的証拠は、胸部X線(CXR)が肺疾患の診断の信頼性を向上させることを示している。 しかしながら、リブ抑制cxrの生成に関する以前のアプローチでは、詳細の保存とリブ残基の除去が課題となっている。 本稿では,非対位コンピュータ断層撮影(CT)画像に埋め込まれた解剖学的知識を活用することにより,リブ抑制学習フレームワークであるリブ抑制学習(RSGAN)を提案する。 本手法では,cxrとそれに対応するリブ抑制結果の強度差を特徴付けるために残差マップを用いる。 我々は,CXR領域の残像を構造的特徴とコントラスト的特徴に分解し,CTで計算したデジタル再構成ラジオグラフィー(DRR)からリブ構造を転送する。 さらに,リブ残基の抑制と詳細の保存に適応的損失を付加した。 我々は1,673個のCTボリュームと4つのベンチマークCXRデータセットに基づく広範囲な実験を行い、合計120K以上の画像を用いてそれを実証した。 (i)提案したRSGANは,最先端のリブ抑制法に比べて画質が優れている。 (ii)cxrとリブ抑制効果を組み合わせると,肺疾患の分類と結核領域の検出が改善する。

Clinical evidence has shown that rib-suppressed chest X-rays (CXRs) can improve the reliability of pulmonary disease diagnosis. However, previous approaches on generating rib-suppressed CXR face challenges in preserving details and eliminating rib residues. We hereby propose a GAN-based disentanglement learning framework called Rib Suppression GAN, or RSGAN, to perform rib suppression by utilizing the anatomical knowledge embedded in unpaired computed tomography (CT) images. In this approach, we employ a residual map to characterize the intensity difference between CXR and the corresponding rib-suppressed result. To predict the residual map in CXR domain, we disentangle the image into structure- and contrast-specific features and transfer the rib structural priors from digitally reconstructed radiographs (DRRs) computed by CT. Furthermore, we employ additional adaptive loss to suppress rib residue and preserve more details. We conduct extensive experiments based on 1,673 CT volumes, and four benchmarking CXR datasets, totaling over 120K images, to demonstrate that (i) our proposed RSGAN achieves superior image quality compared to the state-of-the-art rib suppression methods; (ii) combining CXR with our rib-suppressed result leads to better performance in lung disease classification and tuberculosis area detection.
翻訳日:2021-10-22 13:34:10 公開日:2021-10-18
# (参考訳) CT画像における身体部分回帰

Body Part Regression for CT Images ( http://arxiv.org/abs/2110.09148v1 )

ライセンス: CC BY-SA 4.0
Sarah Schuhegger(参考訳) 医療画像領域における最大の課題の1つは、ディープラーニングモデルを臨床に導入することである。 モデルは特定の身体領域で訓練されることが多いため、診療所へのロバストな移動は、未知の領域での偽陽性の予測を避けるためにアルゴリズムに適合する身体領域での画像の選択を必要とする。 手動で定義した画像メタデータが不十分で不正確であるため、自動体部認識は医学的深層学習モデルの普及と普及の鍵となる要素である。 この課題に対するいくつかのアプローチは過去に提示されてきたが、細粒度体部認識のためのロバストなアルゴリズムの構築と評価は依然として困難である。 医療用CT(CT)ボリュームの走査体範囲を判定するためには,これまで使い易い方法が存在しない。 本論文では、CTボリュームの自己教師付き身体部分回帰モデルを開発し、異種CT研究のコレクションに基づいて訓練する。 さらに, このアルゴリズムが医療モデルの病院への堅牢かつ信頼性の高い移行にどのように貢献するかを示す。 最後に、医療プラットフォームツールキットKaapanaに統合し、https://github.com/M IC-DKFZ/BodyPartRegr essionでpythonパッケージとして提供することにより、開発手法の容易な適用が保証される。

One of the greatest challenges in the medical imaging domain is to successfully transfer deep learning models into clinical practice. Since models are often trained on a specific body region, a robust transfer into the clinic necessitates the selection of images with body regions that fit the algorithm to avoid false-positive predictions in unknown regions. Due to the insufficient and inaccurate nature of manually-defined imaging meta-data, automated body part recognition is a key ingredient towards the broad and reliable adoption of medical deep learning models. While some approaches to this task have been presented in the past, building and evaluating robust algorithms for fine-grained body part recognition remains challenging. So far, no easy-to-use method exists to determine the scanned body range of medical Computed Tomography (CT) volumes. In this thesis, a self-supervised body part regression model for CT volumes is developed and trained on a heterogeneous collection of CT studies. Furthermore, it is demonstrated how the algorithm can contribute to the robust and reliable transfer of medical models into the clinic. Finally, easy application of the developed method is ensured by integrating it into the medical platform toolkit Kaapana and providing it as a python package at https://github.com/M IC-DKFZ/BodyPartRegr ession .
翻訳日:2021-10-22 13:02:34 公開日:2021-10-18
# (参考訳) RLなし、シミュレーションなし:ナビゲートなしでナビゲートを学ぶ [全文訳有]

No RL, No Simulation: Learning to Navigate without Navigating ( http://arxiv.org/abs/2110.09470v1 )

ライセンス: CC BY 4.0
Meera Hahn, Devendra Chaplot, Shubham Tulsiani, Mustafa Mukadam, James M. Rehg, Abhinav Gupta(参考訳) ナビゲーションポリシーを学習するためには、オンラインポリシーのインタラクションが必要であり、報酬のために地道な地図に依存するため、シミュレーション環境へのアクセスが必要である。 しかし,シミュレータの構築は費用がかかる(各シーンごとに手作業が必要)ため,実世界のロボットプラットフォームに学習方針を移す際の課題が生じる。 本稿では,画像ゴールナビゲーションの課題を解決するために,アクティブなインタラクション,地動地図,あるいは強化学習(RL)も本当に必要か,という簡単な疑問を提起する。 我々は,ローミングの受動的映像のみからナビゲートを学ぶための自己教師付きアプローチを提案する。 我々のアプローチであるNo RL,No Simulator (NRNS)はシンプルでスケーラブルだが、非常に効果的である。 NRNSはRLベースの定式化を著しく上回る。 NRNSをRLやシミュレーションを用いた将来の画像ベースのナビゲーションタスクの強力なベースラインとして提示する。

Most prior methods for learning navigation policies require access to simulation environments, as they need online policy interaction and rely on ground-truth maps for rewards. However, building simulators is expensive (requires manual effort for each and every scene) and creates challenges in transferring learned policies to robotic platforms in the real-world, due to the sim-to-real domain gap. In this paper, we pose a simple question: Do we really need active interaction, ground-truth maps or even reinforcement-learni ng (RL) in order to solve the image-goal navigation task? We propose a self-supervised approach to learn to navigate from only passive videos of roaming. Our approach, No RL, No Simulator (NRNS), is simple and scalable, yet highly effective. NRNS outperforms RL-based formulations by a significant margin. We present NRNS as a strong baseline for any future image-based navigation tasks that use RL or Simulation.
翻訳日:2021-10-22 12:04:48 公開日:2021-10-18
# (参考訳) 自己教師型事前学習とマルチタスクファインタニングによる音声表現学習 [全文訳有]

Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning ( http://arxiv.org/abs/2110.09930v1 )

ライセンス: CC BY 4.0
Yi-Chen Chen, Shu-wen Yang, Cheng-Kuang Lee, Simon See, Hung-yi Lee(参考訳) 音声表現学習は音声処理において重要な役割を果たす。 その中で,自己指導型学習(SSL)が重要な研究方向となっている。 音声処理の下流タスクにおいて,SSL事前学習モデルが優れた性能を発揮することが示されている。 一方、教師付きマルチタスク学習(MTL)は、コンピュータビジョン(CV)と自然言語処理(NLP)において有効であることが証明された別の表現学習パラダイムである。 しかし、音声処理において、教師付きMTLによって訓練された汎用表現学習モデルに関する体系的な研究はない。 本稿では,MTLの微調整によりSSLプリトレーニングをさらに改善できることを示す。 教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。

Speech representation learning plays a vital role in speech processing. Among them, self-supervised learning (SSL) has become an important research direction. It has been shown that an SSL pretraining model can achieve excellent performance in various downstream tasks of speech processing. On the other hand, supervised multi-task learning (MTL) is another representation learning paradigm, which has been proven effective in computer vision (CV) and natural language processing (NLP). However, there is no systematic research on the general representation learning model trained by supervised MTL in speech processing. In this paper, we show that MTL finetuning can further improve SSL pretraining. We analyze the generalizability of supervised MTL finetuning to examine if the speech representation learned by MTL finetuning can generalize to unseen new tasks.
翻訳日:2021-10-21 05:31:04 公開日:2021-10-18
# (参考訳) 認知能力の指標としての固有行動 [全文訳有]

Eigenbehaviour as an Indicator of Cognitive Abilities ( http://arxiv.org/abs/2110.09525v1 )

ライセンス: CC BY 4.0
Angela Botros, Narayan Sch\"utz, Christina R\"ocke, Robert Weibel, Mike Martin, Ren\'e M\"uri and Tobias Nef(参考訳) 機械学習アルゴリズムと医療アプリケーションにおけるビッグデータの利用の増加に伴い、デジタルバイオマーカーはこれらのアプリケーションの成功を確実にするための重要な機能となっている。 本稿では,高齢者の認知能力の長期連続モニタリングという,重要なユースケースの1つに注目する。 認知能力は、単独で生活する人々の長期モニタリングと臨床研究の結果の両方の要因である。 本研究では,非接触環境センサから得られる位置固有行動に基づく認知能力のための新しいデジタルバイオマーカーを提案する。 受動赤外線センサから得られる屋内位置情報を用いて、数週間の計測をカバーした位置行列を構築する。 この行列の固有ベクトルに基づいて、様々な使用固有ベクトルについて再構成誤差を算出する。 再構成誤差は、線形回帰を用いてベースラインで収集された認知能力スコアを予測するために用いられる。 さらに、支持ベクトル機械を用いて、正常と病的認知レベルの分類を行う。 予測性能は高いレベルの認知能力では強いが、低いレベルの認知能力では弱くなる。 正常と病理学的認知能力の分類は AUC = 0.94 で高い精度に達する。 無接触環境センサに基づく不明瞭な測定方法により、認知能力のデジタルバイオマーカーを容易に得ることができる。 再構成誤りの使用は、二項分類のための強力なデジタルバイオマーカーであり、より詳細な認識の個人間差の予測である。

With growing usage of machine learning algorithms and big data in health applications, digital biomarkers have become an important key feature to ensure the success of those applications. In this paper, we focus on one important use-case, the long-term continuous monitoring of the cognitive ability of older adults. The cognitive ability is a factor both for long-term monitoring of people living alone as well as an outcome in clinical studies. In this work, we propose a new digital biomarker for cognitive abilities based on location eigenbehaviour obtained from contactless ambient sensors. Indoor location information obtained from passive infrared sensors is used to build a location matrix covering several weeks of measurement. Based on the eigenvectors of this matrix, the reconstruction error is calculated for various numbers of used eigenvectors. The reconstruction error is used to predict cognitive ability scores collected at baseline, using linear regression. Additionally, classification of normal versus pathological cognition level is performed using a support-vector-machi ne. Prediction performance is strong for high levels of cognitive ability, but grows weaker for low levels of cognitive ability. Classification into normal versus pathological cognitive ability level reaches high accuracy with a AUC = 0.94. Due to the unobtrusive method of measurement based on contactless ambient sensors, this digital biomarker of cognitive ability is easily obtainable. The usage of the reconstruction error is a strong digital biomarker for the binary classification and, to a lesser extent, for more detailed prediction of interindividual differences in cognition.
翻訳日:2021-10-21 05:19:48 公開日:2021-10-18
# (参考訳) 全二重系における自己干渉モデリングのためのハイブリッド層ニューラルネットワークアーキテクチャ

Hybrid-Layers Neural Network Architectures for Modeling the Self-Interference in Full-Duplex Systems ( http://arxiv.org/abs/2110.09997v1 )

ライセンス: CC BY-SA 4.0
Mohamed Elsayed, Ahmad A. Aziz El-Banna, Octavia A. Dobre, Wanyi Shiu, and Peiwei Wang(参考訳) FD(Full-duplex)システムは、同一の周波数リソース上で情報を同時送信することで、第5世代の無線ネットワークに高いデータレートを提供するために導入された。 しかし、FDシステムの動作は自己干渉(SI)によって実質的に制限され、効率的なSIキャンセラがFDシステムの実現を可能にする。 通常、多項式ベースのキャンセル器はSIを緩和するために使用されるが、それでも高い複雑さに悩まされている。 本稿では,低複雑性でSIをキャンセルする2つの新しいハイブリッド層ニューラルネットワーク(NN)アーキテクチャを提案する。 第1のアーキテクチャはHCRNN(Hybrid-convolu tional recurrent NN)、第2のアーキテクチャはHCRDNN(Hybrid-convol utional recurrent dense NN)と呼ばれる。 SIモデリングに高密度または再帰的な層を用いる最先端のNNとは対照的に、提案されたNNは、新しい方法で異なる隠れた層(例えば、畳み込み、再帰および/または高密度)を組み合わせて、SIを多項式や最先端のNNベースのキャンセラよりも低い計算複雑性でモデル化する。 ハイブリッドレイヤを使用することの背景にある重要なアイデアは、アーキテクチャで採用されるさまざまなレイヤの特性を活用するNNモデルを構築することだ。 より具体的には、HCRNNでは、ネットワークスケールを縮小して入力データの特徴を抽出するために畳み込み層を用いる。 さらに、畳み込み層の局所化特徴写像から入力信号の時間的挙動の学習を支援するために、繰り返し層を適用する。 HCRDNNでは、キャンセル性能と計算複雑性の最良の妥協を達成するために、追加の高密度層を利用して、NN設定を適用するための別の自由度を追加する。 複雑度解析と数値シミュレーションを行い,提案アーキテクチャの優位性を証明する。

Full-duplex (FD) systems have been introduced to provide high data rates for beyond fifth-generation wireless networks through simultaneous transmission of information over the same frequency resources. However, the operation of FD systems is practically limited by the self-interference (SI), and efficient SI cancelers are sought to make the FD systems realizable. Typically, polynomial-based cancelers are employed to mitigate the SI; nevertheless, they suffer from high complexity. This article proposes two novel hybrid-layers neural network (NN) architectures to cancel the SI with low complexity. The first architecture is referred to as hybrid-convolutional recurrent NN (HCRNN), whereas the second is termed as hybrid-convolutional recurrent dense NN (HCRDNN). In contrast to the state-of-the-art NNs that employ dense or recurrent layers for SI modeling, the proposed NNs exploit, in a novel manner, a combination of different hidden layers (e.g., convolutional, recurrent, and/or dense) in order to model the SI with lower computational complexity than the polynomial and the state-of-the-art NN-based cancelers. The key idea behind using hybrid layers is to build an NN model, which makes use of the characteristics of the different layers employed in its architecture. More specifically, in the HCRNN, a convolutional layer is employed to extract the input data features using a reduced network scale. Moreover, a recurrent layer is then applied to assist in learning the temporal behavior of the input signal from the localized feature map of the convolutional layer. In the HCRDNN, an additional dense layer is exploited to add another degree of freedom for adapting the NN settings in order to achieve the best compromise between the cancellation performance and computational complexity. Complexity analysis and numerical simulations are provided to prove the superiority of the proposed architectures.
翻訳日:2021-10-21 05:08:20 公開日:2021-10-18
# (参考訳) 3次元磁気共鳴画像の条件分解 [全文訳有]

Conditional De-Identification of 3D Magnetic Resonance Images ( http://arxiv.org/abs/2110.09927v1 )

ライセンス: CC BY 4.0
Lennart Alexander Van der Goten, Tobias Hepp, Zeynep Akata, Kevin Smith(参考訳) 医療画像データのプライバシー保護は困難である。 メタデータが削除されたとしても、顔のレンダリングと顔画像データベースにマッチする攻撃に対して、脳スキャンは脆弱である。 顔の一部の難読化や除去によって、診断スキャンを識別するソリューションが開発されている。 しかし、これらのソリューションは患者の身元を確実に隠すことができず、あるいは攻撃的であるため、さらなる分析を損なう。 本稿では,顔の特徴を除去する代わりに,顔の特徴をモデル化する新しい非識別手法を提案する。 我々のソリューションは条件付きマルチスケールGANアーキテクチャに依存しています。 患者のMRIスキャンを入力として、患者の脳に条件付けられた3Dボリュームを生成します。 提案手法は,下流の医療分析を損なうことなく,従来の手法よりもはるかにプライバシーを保護できることを実証する。 解析はoasis-3とadni corporaで行われた。

Privacy protection of medical image data is challenging. Even if metadata is removed, brain scans are vulnerable to attacks that match renderings of the face to facial image databases. Solutions have been developed to de-identify diagnostic scans by obfuscating or removing parts of the face. However, these solutions either fail to reliably hide the patient's identity or are so aggressive that they impair further analyses. We propose a new class of de-identification techniques that, instead of removing facial features, remodels them. Our solution relies on a conditional multi-scale GAN architecture. It takes a patient's MRI scan as input and generates a 3D volume conditioned on the patient's brain, which is preserved exactly, but where the face has been de-identified through remodeling. We demonstrate that our approach preserves privacy far better than existing techniques, without compromising downstream medical analyses. Analyses were run on the OASIS-3 and ADNI corpora.
翻訳日:2021-10-21 05:06:25 公開日:2021-10-18
# (参考訳) 広帯域・エントロピー対応深部ソフトビット量子化 [全文訳有]

Wideband and Entropy-Aware Deep Soft Bit Quantization ( http://arxiv.org/abs/2110.09541v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Jonathan I. Tamir(参考訳) 近年,エンド・ツー・エンドの性能向上のために,デジタル通信システムにおける物理層処理にディープラーニングが適用されている。 本稿では,広帯域チャネル間のソフトビット量子化のための新しいディープラーニングソリューションを提案する。 提案手法は,損失関数に対する量子化およびエントロピー認識の強化によるエンドツーエンドの訓練を行い,音源符号化と併用して広帯域チャネル上でのほぼ最適圧縮ゲインを実現する。 提案手法を効果的に学習するために,固定された特徴空間量子化スキームが十分であることを示す。 トレーニング中に見つからなかったチャネル分布をテストすると,提案手法は従来の最先端手法と比較して,高SNR方式で最大10 \%の圧縮ゲインが得られる。 再現可能な研究を促進するため、我々の実装はhttps://github.com/u tcsilab/wideband-llr -deepで公開されています。

Deep learning has been recently applied to physical layer processing in digital communication systems in order to improve end-to-end performance. In this work, we introduce a novel deep learning solution for soft bit quantization across wideband channels. Our method is trained end-to-end with quantization- and entropy-aware augmentations to the loss function and is used at inference in conjunction with source coding to achieve near-optimal compression gains over wideband channels. To efficiently train our method, we prove and verify that a fixed feature space quantization scheme is sufficient for efficient learning. When tested on channel distributions never seen during training, the proposed method achieves a compression gain of up to $10 \%$ in the high SNR regime versus previous state-of-the-art methods. To encourage reproducible research, our implementation is publicly available at https://github.com/u tcsilab/wideband-llr -deep.
翻訳日:2021-10-21 04:46:38 公開日:2021-10-18
# (参考訳) BGaitR-Net:時間制約付き歩行認識モデルを用いた歩行系列再構成 [全文訳有]

BGaitR-Net: Occluded Gait Sequence reconstructionwith temporally constrained model for gait recognition ( http://arxiv.org/abs/2110.09564v1 )

ライセンス: CC BY 4.0
Somnath Sendhil Kumara, Pratik Chattopadhyaya, Lipo Wang(参考訳) 近年の計算資源と深層学習手法の進歩は、知的視覚に基づく監視アプリケーションの開発に大きく貢献している。 咬合の存在下での歩行認識は、この分野で難しい研究テーマの1つであり、研究者がこれまで提案してきた解決策は堅牢性が欠如しており、実用的な適用性を制限するいくつかの非現実的な制約にも依存している。 本稿では,入力列内のオクルードされたフレームを識別する新しいディープラーニングアルゴリズムを開発し,さらに,歩行列に存在する時空間情報を活用してこれらのオクルードされたフレームを再構築する。 本研究で採用されている多段階パイプラインは,キーポーズマッピング,咬合検出と再構成,最後に歩行認識からなる。 制約付きkmeansクラスタリングおよびグラフソートアルゴリズムを用いて、キーポーズマッピング及びオクルージョン検出フェーズを%で行う一方、双方向長短記憶を用いた歩行シーケンスに含まれる時空間情報とともに、前段のキーポーズ固有情報を用いてオクルードフレームの再構成を行う。 CASIA-B と OU-ISIR のデータを用いて,このオクルージョン再構成モデルを訓練し,双方向歩行再構成ネットワーク BGait-R-Net と呼ぶ。 LSTMモデルでは,歩行周期の周期パターンと時間的に一致したフレームを同時に保持しながら,咬合を再構成し,フレームを生成する。

Recent advancements in computational resources and Deep Learning methodologies has significantly benefited development of intelligent vision-based surveillance applications. Gait recognition in the presence of occlusion is one of the challenging research topics in this area, and the solutions proposed by researchers to date lack in robustness and also dependent of several unrealistic constraints, which limits their practical applicability. We improve the state-of-the-art by developing novel deep learning-based algorithms to identify the occluded frames in an input sequence and next reconstruct these occluded frames by exploiting the spatio-temporal information present in the gait sequence. The multi-stage pipeline adopted in this work consists of key pose mapping, occlusion detection and reconstruction, and finally gait recognition. While the key pose mapping and occlusion detection phases are done %using Constrained KMeans Clustering and via a graph sorting algorithm, reconstruction of occluded frames is done by fusing the key pose-specific information derived in the previous step along with the spatio-temporal information contained in a gait sequence using a Bi-Directional Long Short Time Memory. This occlusion reconstruction model has been trained using synthetically occluded CASIA-B and OU-ISIR data, and the trained model is termed as Bidirectional Gait Reconstruction Network BGait-R-Net. Our LSTM-based model reconstructs occlusion and generates frames that are temporally consistent with the periodic pattern of a gait cycle, while simultaneously preserving the body structure.
翻訳日:2021-10-21 04:35:25 公開日:2021-10-18
# (参考訳) NMTのための多言語ドメイン適応:言語とドメイン情報をアダプタで分離する [全文訳有]

Multilingual Domain Adaptation for NMT: Decoupling Language and Domain Information with Adapters ( http://arxiv.org/abs/2110.09574v1 )

ライセンス: CC BY 4.0
Asa Cooper Stickland, Alexandre B\'erard, Vassilina Nikoulina(参考訳) アダプタ層は軽量で学習可能なユニットであり、トランスフォーマー層の間に挿入される。 最近の研究は、ニューラルネットワーク翻訳(NMT)にそのようなレイヤを使用して、トレーニング済みモデルを新しいドメインまたは言語ペアに適応させ、新しい設定(言語ペアまたはドメイン)毎に小さなパラメータセットのみをトレーニングする。 本研究では,機械翻訳の文脈で言語とドメインアダプタの構成性について検討する。 研究を目標としています 1)複数のドメインや言語へのパラメータ効率の同時適応(フルリソースシナリオ) 2) 並列データが特定の言語ペア(部分的リソースシナリオ)で使用できない領域における言語間転送。 部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば、欠落した言語の‘破滅的な忘れ方’をもたらす。 我々は、この問題を緩和し、言語間移動を最大化するためにアダプタを組み合わせる他の方法を研究する。 最適なアダプタの組み合わせにより、ドメイン内データを持たないソース言語に対して平均3~4BLEUの改善が得られる。 ドメイン内データを持たないターゲット言語の場合、アダプタとバックトランスレーションを組み合わせることで同様の改善を達成します。 追加資料はhttps://tinyurl.com/ r66stbxjで入手できる。

Adapter layers are lightweight, learnable units inserted between transformer layers. Recent work explores using such layers for neural machine translation (NMT), to adapt pre-trained models to new domains or language pairs, training only a small set of parameters for each new setting (language pair or domain). In this work we study the compositionality of language and domain adapters in the context of Machine Translation. We aim to study, 1) parameter-efficient adaptation to multiple domains and languages simultaneously (full-resource scenario) and 2) cross-lingual transfer in domains where parallel data is unavailable for certain language pairs (partial-resource scenario). We find that in the partial resource scenario a naive combination of domain-specific and language-specific adapters often results in `catastrophic forgetting' of the missing languages. We study other ways to combine the adapters to alleviate this issue and maximize cross-lingual transfer. With our best adapter combinations, we obtain improvements of 3-4 BLEU on average for source languages that do not have in-domain data. For target languages without in-domain data, we achieve a similar improvement by combining adapters with back-translation. Supplementary material is available at https://tinyurl.com/ r66stbxj
翻訳日:2021-10-21 04:15:47 公開日:2021-10-18
# (参考訳) 生成的対向ネットワークを用いた足音効果のニューラル合成 [全文訳有]

Neural Synthesis of Footsteps Sound Effects with Generative Adversarial Networks ( http://arxiv.org/abs/2110.09605v1 )

ライセンス: CC BY 4.0
Marco Comunit\`a, Huy Phan, Joshua D. Reiss(参考訳) フットステップはマルチメディアアプリケーションで最もユビキタスな音効果の一つである。 音響的特徴の理解とフットステップ音響効果の合成モデルの開発には,かなりの研究がある。 本稿では,本課題にニューラルシンセシスを適用した最初の試みを提案する。 GANアーキテクチャを2つ実装し、実際の録音結果と従来の6つの音声合成手法を比較した。 私たちのアーキテクチャは、記録されたサンプルよりも高いリアリズムスコアに達しました。

Footsteps are among the most ubiquitous sound effects in multimedia applications. There is substantial research into understanding the acoustic features and developing synthesis models for footstep sound effects. In this paper, we present a first attempt at adopting neural synthesis for this task. We implemented two GAN-based architectures and compared the results with real recordings as well as six traditional sound synthesis methods. Our architectures reached realism scores as high as recorded samples, showing encouraging results for the task at hand.
翻訳日:2021-10-21 03:25:08 公開日:2021-10-18
# (参考訳) 機械学習モデルを用いたCOVID-19臨床データの効率的な分析 [全文訳有]

Efficient Analysis of COVID-19 Clinical Data using Machine Learning Models ( http://arxiv.org/abs/2110.09606v1 )

ライセンス: CC0 1.0
Sarwan Ali, Yijing Zhou, Murray Patterson(参考訳) 新型コロナウイルス(covid-19)が世界中のほぼすべての地域に急速に拡散しているため、膨大なデータとケーススタディが利用可能になり、研究者はそのようなビッグデータを活用することで、これまでにないようなトレンドを見つけ、発見する機会を研究者に与えている。 このデータは多種多様であり、正確さ、不正確さ、不確かさ、欠如など、さまざまなレベルの検証性を持つため、そのようなデータから重要な情報を抽出することは困難である。 しかし、新型コロナウイルス(covid-19)の継続的な成長と進化に関するデータの効率的な分析は、ウイルスの拡散をコントロールし、緩和し、最終的に避けるために必要な適切な手段をリアルタイムで知らせる上で重要である。 機械学習ベースのアルゴリズムをこのビッグデータに適用することは、このようなデータに迅速にスケールし、多様性と異なるレベルの妥当性の存在下で関連する情報を抽出できるため、この目的を達成するための自然なアプローチである。 これは新型コロナウイルス、将来のパンデミック全般にとって重要である。 本稿では,臨床データ(分類属性)を固定長特徴ベクトル表現に簡単に符号化し,その表現から効率的な特徴選択を行うモデルを提案する。 このアプローチをcovid-19患者の2つの臨床データセットに適用し,分類目的で下流の異なる機械学習アルゴリズムを適用する。 効率的な特徴選択アルゴリズムにより,ほとんどの場合,予測精度が90%以上になることを示す。 また、情報ゲインを用いてデータセット内の異なる属性の重要性を計算した。 このことは、政策立案者が患者の結果にあまり意味のない複数のランダムな要因に注目するのではなく、この疾患を研究する目的のために特定の属性のみに焦点を合わせるのに役立つ。

Because of the rapid spread of COVID-19 to almost every part of the globe, huge volumes of data and case studies have been made available, providing researchers with a unique opportunity to find trends and make discoveries like never before, by leveraging such big data. This data is of many different varieties, and can be of different levels of veracity e.g., precise, imprecise, uncertain, and missing, making it challenging to extract important information from such data. Yet, efficient analyses of this continuously growing and evolving COVID-19 data is crucial to inform -- often in real-time -- the relevant measures needed for controlling, mitigating, and ultimately avoiding viral spread. Applying machine learning based algorithms to this big data is a natural approach to take to this aim, since they can quickly scale to such data, and extract the relevant information in the presence of variety and different levels of veracity. This is important for COVID-19, and for potential future pandemics in general. In this paper, we design a straightforward encoding of clinical data (on categorical attributes) into a fixed-length feature vector representation, and then propose a model that first performs efficient feature selection from such representation. We apply this approach on two clinical datasets of the COVID-19 patients and then apply different machine learning algorithms downstream for classification purposes. We show that with the efficient feature selection algorithm, we can achieve a prediction accuracy of more than 90\% in most cases. We also computed the importance of different attributes in the dataset using information gain. This can help the policy makers to focus on only certain attributes for the purposes of studying this disease rather than focusing on multiple random factors that may not be very informative to patient outcomes.
翻訳日:2021-10-21 03:14:39 公開日:2021-10-18
# (参考訳) ソースコード解析のための機械学習技術に関する調査

A Survey on Machine Learning Techniques for Source Code Analysis ( http://arxiv.org/abs/2110.09610v1 )

ライセンス: CC BY 4.0
Tushar Sharma, Maria Kechagia, Stefanos Georgiou, Rohit Tiwari, Federica Sarro(参考訳) コンテキスト: 機械学習技術の進歩は、テストや脆弱性検出などのソースコード分析を使用する無数のソフトウェアエンジニアリングタスクに、これらの技術を適用するように研究者に促した。 多くの研究が、現在の風景を理解するためにコミュニティに挑戦している。 目的: ソースコード解析のための応用機械学習の分野における現在の知識を要約すること。 方法: ソフトウェア工学タスクの12のカテゴリとそれに対応する機械学習技術,ツール,およびそれを解決するために適用されたデータセットについて検討する。 そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。 我々は,特定した研究の助けを借りて,観察と発見をまとめる。 結果: ソースコード解析タスクにおける機械学習技術の利用が一貫して増加していることが示唆された。 一般的に使用されるステップとタスク全体のワークフローを合成し、使用する機械学習技術を要約する。 さらに、このコンテキストで利用可能なデータセットとツールの包括的なリストを照合します。 最後に、標準データセットの可用性、再現性と複製性、ハードウェアリソースなど、この分野における認識された課題を要約する。

Context: The advancements in machine learning techniques have encouraged researchers to apply these techniques to a myriad of software engineering tasks that use source code analysis such as testing and vulnerabilities detection. A large number of studies poses challenges to the community to understand the current landscape. Objective: We aim to summarize the current knowledge in the area of applied machine learning for source code analysis. Method: We investigate studies belonging to twelve categories of software engineering tasks and corresponding machine learning techniques, tools, and datasets that have been applied to solve them. To do so, we carried out an extensive literature search and identified 364 primary studies published between 2002 and 2021. We summarize our observations and findings with the help of the identified studies. Results: Our findings suggest that the usage of machine learning techniques for source code analysis tasks is consistently increasing. We synthesize commonly used steps and the overall workflow for each task, and summarize the employed machine learning techniques. Additionally, we collate a comprehensive list of available datasets and tools useable in this context. Finally, we summarize the perceived challenges in this area that include availability of standard datasets, reproducibility and replicability, and hardware resources.
翻訳日:2021-10-21 03:01:00 公開日:2021-10-18
# (参考訳) 無限確率混合によるサンプリングと変分推論の補間 [全文訳有]

Interpolating between sampling and variational inference with infinite stochastic mixtures ( http://arxiv.org/abs/2110.09618v1 )

ライセンス: CC BY 4.0
Richard D. Lange, Ari Benjamin, Ralf M. Haefner, Xaq Pitkow(参考訳) サンプリングと変分推論(VI)は相補的な強度を持つ近似推論の方法の2つの大きなファミリーである。 サンプリング法は任意の確率分布の近似に優れるが、非効率である。 VI法は効率的であるが、確率分布が複雑であれば失敗する。 本稿では,サンプリングとviの強度のバランスをとる中間アルゴリズムを構築するためのフレームワークを開発した。 どちらも単純な成分分布の混合を用いて確率分布を近似し、サンプリングでは各成分がデルタ関数で確率的に選択され、標準VIではばらつきを最小化するために単一の成分が選択される。 サンプリングとviは混合分布上の最適化問題の特別な場合として出現し、中間近似は1つのパラメータを変化させることで生じる。 次に,混合を確率的に構築する変動パラメータ上の閉形式サンプリングダイナミクスを導出する。 最後に、計算予算が与えられたサンプリングとVIの最適妥協を選択する方法について論じる。 この研究は、サンプリングとVIの相補的な強みを組み合わせた、非常に柔軟で単純な推論手法の族への第一歩である。

Sampling and Variational Inference (VI) are two large families of methods for approximate inference with complementary strengths. Sampling methods excel at approximating arbitrary probability distributions, but can be inefficient. VI methods are efficient, but can fail when probability distributions are complex. Here, we develop a framework for constructing intermediate algorithms that balance the strengths of both sampling and VI. Both approximate a probability distribution using a mixture of simple component distributions: in sampling, each component is a delta-function and is chosen stochastically, while in standard VI a single component is chosen to minimize divergence. We show that sampling and VI emerge as special cases of an optimization problem over a mixing distribution, and intermediate approximations arise by varying a single parameter. We then derive closed-form sampling dynamics over variational parameters that stochastically build a mixture. Finally, we discuss how to select the optimal compromise between sampling and VI given a computational budget. This work is a first step towards a highly flexible yet simple family of inference methods that combines the complementary strengths of sampling and VI.
翻訳日:2021-10-21 02:59:53 公開日:2021-10-18
# (参考訳) SARS-CoV-2変数の効率的なクラスタリングのためのロバスト表現と効率的な特徴選択 [全文訳有]

Robust Representation and Efficient Feature Selection Allows for Effective Clustering of SARS-CoV-2 Variants ( http://arxiv.org/abs/2110.09622v1 )

ライセンス: CC0 1.0
Zahra Tayebi, Sarwan Ali, Murray Patterson(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、SARS-CoV-2ウイルス上の大量のゲノムデータが広範囲に利用可能になったことで、研究者はウイルス以前のどのウイルスよりも詳細なレベルでこの病気を分析する機会を得た。 ひとつは、新型コロナウイルスの感染拡大を制御するために、生物学者や政策立案者、その他の当局が適時かつ適切な判断を下すのに役立つことだ。 一方で、こうした研究は、将来のパンデミックの可能性をより効果的に扱うのに役立つだろう。 SARS-CoV-2ウイルスは異なる変種を含むため、それぞれ異なる変異を持ち、そのようなデータの解析は難しい課題となる。 sars-cov-2ゲノムの変異の多くは、スパイクタンパク質(s)をコードする比較的短い領域であるゲノム配列のスパイク領域において不釣り合いに起こることが知られている。 そこで本稿では,世界中で非常に高い速度で増加している既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスター化する手法を提案する。 まず,k-mers法を用いてスパイク列の固定長特徴ベクトル表現を生成する。 次に、適切な特徴選択により、異なる変種に基づいてスパイクシーケンスを効率的かつ効果的にクラスタ化できることを示す。 sars-cov-2スパイクシーケンスの公開セットを用いて,ハードクラスタリングとソフトクラスタリングの2つの手法を用いて,これらのシーケンスのクラスタリングを行い,特徴選択手法により,クラスタのf1スコアを高めることができることを示す。

The widespread availability of large amounts of genomic data on the SARS-CoV-2 virus, as a result of the COVID-19 pandemic, has created an opportunity for researchers to analyze the disease at a level of detail unlike any virus before it. One one had, this will help biologists, policy makers and other authorities to make timely and appropriate decisions to control the spread of the coronavirus. On the other hand, such studies will help to more effectively deal with any possible future pandemic. Since the SARS-CoV-2 virus contains different variants, each of them having different mutations, performing any analysis on such data becomes a difficult task. It is well known that much of the variation in the SARS-CoV-2 genome happens disproportionately in the spike region of the genome sequence -- the relatively short region which codes for the spike protein(s). Hence, in this paper, we propose an approach to cluster spike protein sequences in order to study the behavior of different known variants that are increasing at very high rate throughout the world. We use a k-mers based approach to first generate a fixed-length feature vector representation for the spike sequences. We then show that with the appropriate feature selection, we can efficiently and effectively cluster the spike sequences based on the different variants. Using a publicly available set of SARS-CoV-2 spike sequences, we perform clustering of these sequences using both hard and soft clustering methods and show that with our feature selection methods, we can achieve higher F1 scores for the clusters.
翻訳日:2021-10-21 02:36:01 公開日:2021-10-18
# (参考訳) メタエリアソナーリングのための資源の理想的分割 [全文訳有]

Ideal Partition of Resources for Metareasoning ( http://arxiv.org/abs/2110.09624v1 )

ライセンス: CC BY-SA 4.0
Eric Horvitz and John Breese(参考訳) 我々は,解を実行する前に,基礎レベルの問題解決の性質や程度をメタ推論することで,計算値の大幅な向上を実現することができる。 しかし、メタ推論に不当にコミットされているリソースは、ソリューションの実行には利用できない。 したがって、メタ推論や制御に適用したいリソースの一部を決定することは、ソリューションプランの実行よりも重要である。 近年,機械のメタレゾン化による資源消費抑制の重要性が注目されている。 問題に対する解決策の実行に資源を適用するのに対して、コストのかかる推論資源を計画計画に理想的に割り当てる問題である。 メタレゾン化時間と異なる問題クラスに対する実行時間の関係を探索するために, 原型メタレソン化分割モデルを訓練する。 最後に,機能解析の文脈におけるメタレゾニングの価値を検討する。

We can achieve significant gains in the value of computation by metareasoning about the nature or extent of base-level problem solving before executing a solution. However, resources that are irrevocably committed to metareasoning are not available for executing a solution. Thus, it is important to determine the portion of resources we wish to apply to metareasoning and control versus to the execution of a solution plan. Recent research on rational agency has highlighted the importance of limiting the consumption of resources by metareasoning machinery. We shall introduce the metareasoning-partit ion problem--the problem of ideally apportioning costly reasoning resources to planning a solution versus applying resource to executing a solution to a problem. We exercise prototypical metareasoning-partit ion models to probe the relationships between time allocated to metareasoning and to execution for different problem classes. Finally, we examine the value of metareasoning in the context of our functional analyses.
翻訳日:2021-10-21 02:24:05 公開日:2021-10-18
# (参考訳) 関係性ニューラルマルコフ確率場 [全文訳有]

Relational Neural Markov Random Fields ( http://arxiv.org/abs/2110.09647v1 )

ライセンス: CC BY 4.0
Yuqiao Chen, Sriraam Natarajan, Nicholas Ruozzi(参考訳) 統計的関係学習(SRL)モデルは、不確実性に対処しながら複雑なデータをモデル化する能力によって大きな注目を集めている。 しかし、これらのモデルのほとんどは、ポテンシャル関数が限られているため、離散領域に限定されている。 複雑なリレーショナルハイブリッドドメインの処理を可能にするリレーショナルニューラルネットワークマルコフランダムフィールド(RN-MRF)を導入する。 モデルの主な利点は、データ分散の仮定を最小限にし、ポテンシャルや関係ルールを通じて人間の知識をシームレスに可能にすることです。 そこで本研究では,ニューラルポテンシャルパラメータのトレーニングに重要なサンプリングを施した擬似的推定に基づく学習アルゴリズムを提案する。 画像処理やリレーショナルオブジェクトマッピングなど,さまざまな領域にわたる実証的評価は,神経以外の領域に対する効果を明らかに示している。

Statistical Relational Learning (SRL) models have attracted significant attention due to their ability to model complex data while handling uncertainty. However, most of these models have been limited to discrete domains due to their limited potential functions. We introduce Relational Neural Markov Random Fields (RN-MRFs) which allow for handling of complex relational hybrid domains. The key advantage of our model is that it makes minimal data distributional assumptions and can seamlessly allow for human knowledge through potentials or relational rules. We propose a maximum pseudolikelihood estimation-based learning algorithm with importance sampling for training the neural potential parameters. Our empirical evaluations across diverse domains such as image processing and relational object mapping, clearly demonstrate its effectiveness against non-neural counterparts.
翻訳日:2021-10-21 02:14:59 公開日:2021-10-18
# (参考訳) ROC曲線における$f$-divergenceとロス関数 [全文訳有]

The $f$-divergence and Loss Functions in ROC Curve ( http://arxiv.org/abs/2110.09651v1 )

ライセンス: CC BY 4.0
Song Liu(参考訳) 2つのデータ分布とテストスコア関数が与えられたとき、受信者動作特性(ROC)曲線は、そのようなスコアがいかに2つの分布を分離するかを示す。 しかし、ROC曲線は2つの分布の相違の尺度として使用できるか? 本稿では, テストスコアとしてデータ確率比を用いると, ROC曲線の弧長が2つのデータ分布の差を測る新しい$f$-divergenceを生じることを示す。 この弧長を変動目的と経験的サンプルを用いて近似すると、以前は未知の損失関数を持つ経験的リスク最小化につながる。 我々は,ラグランジュ双対目標を提案し,推定問題にカーネルモデルを導入する。 本研究では, この推定器の非パラメトリック収束率について検討し, 実アークタンジェント密度比関数の穏やかな平滑性条件下では, 収束率は$o_p(n^{-\beta/4})$ (\beta \in (0,1]$) であることを示した。

Given two data distributions and a test score function, the Receiver Operating Characteristic (ROC) curve shows how well such a score separates two distributions. However, can the ROC curve be used as a measure of discrepancy between two distributions? This paper shows that when the data likelihood ratio is used as the test score, the arc length of the ROC curve gives rise to a novel $f$-divergence measuring the differences between two data distributions. Approximating this arc length using a variational objective and empirical samples leads to empirical risk minimization with previously unknown loss functions. We provide a Lagrangian dual objective and introduce kernel models into the estimation problem. We study the non-parametric convergence rate of this estimator and show under mild smoothness conditions of the real arctangent density ratio function, the rate of convergence is $O_p(n^{-\beta/4})$ ($\beta \in (0,1]$ depends on the smoothness).
翻訳日:2021-10-21 02:01:28 公開日:2021-10-18
# ディープニューラルネットワークの最小マルチ層修正

Minimal Multi-Layer Modifications of Deep Neural Networks ( http://arxiv.org/abs/2110.09929v1 )

ライセンス: Link先を確認
Idan Refaeli and Guy Katz(参考訳) 近年、ディープニューラルネットワーク(DNN)はますます人気が高まっている。 しかし、多くの成功にもかかわらず、DNNは、自律運転、診断、空中衝突回避システムなどの安全上重要な設定において、不正で致命的なアウトプットを発生させる可能性がある。 テストや検証などを通じて、DNNのこのような誤動作を検出する作業が数多く行われているが、検出後にこれらのエラーを取り除くことにはあまり注意が払われていない。 ここでは、与えられたDNNに対して \textsc{3M-DNN} と呼ばれる新しいツールを提示する。 textsc{3M-DNN}で実装された新しい修復手順は、ネットワークの重みの修正を計算し、その振る舞いを補正し、バックエンドのブラックボックスDNN検証エンジンへの一連の呼び出しによってこの変更を最小化しようとする。 私たちの知る限りでは、複数のレイヤを同時に修正することでネットワークを修復できる最初の方法です。 これはネットワークをサブネットワークに分割し、各コンポーネントに単層補修技術を適用することで実現される。 我々は,幅広いベンチマークのセットを用いて,textsc{3M-DNN}ツールを評価し,有望な結果を得た。 データ可用性のステートメント: アーティファクトはEasyChair ID 60の下でAECに提出されます。

Deep neural networks (DNNs) have become increasingly popular in recent years. However, despite their many successes, DNNs may also err and produce incorrect and potentially fatal outputs in safety-critical settings, such as autonomous driving, medical diagnosis, and airborne collision avoidance systems. Much work has been put into detecting such erroneous behavior in DNNs, e.g., via testing or verification, but removing these errors after their detection has received lesser attention. We present here a new tool, called \textsc{3M-DNN}, for \emph{repairing} a given DNN, which is known to err on some set of inputs. The novel repair procedure implemented in \textsc{3M-DNN} computes a modification to the network's weights that corrects its behavior, and attempts to minimize this change via a sequence of calls to a backend, black-box DNN verification engine. To the best of our knowledge, our method is the first one that allows repairing the network by simultaneously modifying multiple layers. This is achieved by splitting the network into sub-networks, and applying a single-layer repairing technique to each component. We evaluated \textsc{3M-DNN} tool on an extensive set of benchmarks, obtaining promising results. Data Availability Statement: An artifact will be submitted to the AEC under EasyChair ID 60.
翻訳日:2021-10-20 15:10:38 公開日:2021-10-18
# 異なる録音装置の音響シーン分類における対向領域適応とペア例

Adversarial Domain Adaptation with Paired Examples for Acoustic Scene Classification on Different Recording Devices ( http://arxiv.org/abs/2110.09598v1 )

ライセンス: Link先を確認
Stanis{\l}aw Kacprzak and Konrad Kowalczyk(参考訳) 分類タスクでは、異なる領域にデータが収集されると分類精度が低下する。 この問題に対処するため,本稿では,ドメイン適応(DA)の敵対モデルとその音響シーン分類タスクへの影響について検討する。 研究されたモデルには、異なる損失関数を持つGAN(Generative Adversarial Network)と、2つの相互接続GANモデルからなるいわゆるサイクルGANが含まれる。 実験はDCASE20チャレンジタスク1Aデータセット上で行われ、異なるデバイス、すなわちソースとターゲットドメインの記録を使用して記録されたデータのペア例を利用することができる。 実験の結果,目標ドメイン装置の精度が66%向上するサイクルGANを用いて,最も優れたドメイン適応が得られ,ソースドメインの精度が66%低下した。 さらに, ペア化データを用いて, モデルトレーニングの計算コストを低減しつつ, より大きな未ペア化データセットを用いてトレーニングしたモデルに対して, 全体的な精度を向上させることができる。

In classification tasks, the classification accuracy diminishes when the data is gathered in different domains. To address this problem, in this paper, we investigate several adversarial models for domain adaptation (DA) and their effect on the acoustic scene classification task. The studied models include several types of generative adversarial networks (GAN), with different loss functions, and the so-called cycle GAN which consists of two interconnected GAN models. The experiments are performed on the DCASE20 challenge task 1A dataset, in which we can leverage the paired examples of data recorded using different devices, i.e., the source and target domain recordings. The results of performed experiments indicate that the best performing domain adaptation can be obtained using the cycle GAN, which achieves as much as 66% relative improvement in accuracy for the target domain device, while only 6\% relative decrease in accuracy on the source domain. In addition, by utilizing the paired data examples, we are able to improve the overall accuracy over the model trained using larger unpaired data set, while decreasing the computational cost of the model training.
翻訳日:2021-10-20 15:06:49 公開日:2021-10-18
# パーソナライズされた音声強調:新しいモデルと包括的評価

Personalized Speech Enhancement: New Models and Comprehensive Evaluation ( http://arxiv.org/abs/2110.09625v1 )

ライセンス: Link先を確認
Sefik Emre Eskimez, Takuya Yoshioka, Huaming Wang, Xiaofei Wang, Zhuo Chen, Xuedong Huang(参考訳) パーソナライズド音声強調(pse)モデルは、d-vectorのような話者埋め込みなどの追加のヒントを利用して、バックグラウンドノイズを除去し、音声をリアルタイムに干渉することにより、様々な音響シナリオにおけるオンラインビデオ会議システムの音声品質を向上させる。 本研究では,従来提案されていたVoiceFilterよりも優れた性能を実現する2つのPSEニューラルネットワークを提案する。 さらに,ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成する。 さらに,対象話者の過剰抑制(TSOS)問題を測定するための新しい指標を提案する。 また,音声認識バックエンドを用いたマルチタスクトレーニングを提案する。 その結果,提案モデルではベースラインモデルよりも音声認識精度,音声理解性,知覚品質が向上し,マルチタスクトレーニングでは音声認識精度の向上に加えて,tsos問題も軽減できることがわかった。

Personalized speech enhancement (PSE) models utilize additional cues, such as speaker embeddings like d-vectors, to remove background noise and interfering speech in real-time and thus improve the speech quality of online video conferencing systems for various acoustic scenarios. In this work, we propose two neural networks for PSE that achieve superior performance to the previously proposed VoiceFilter. In addition, we create test sets that capture a variety of scenarios that users can encounter during video conferencing. Furthermore, we propose a new metric to measure the target speaker over-suppression (TSOS) problem, which was not sufficiently investigated before despite its critical importance in deployment. Besides, we propose multi-task training with a speech recognition back-end. Our results show that the proposed models can yield better speech recognition accuracy, speech intelligibility, and perceptual quality than the baseline models, and the multi-task training can alleviate the TSOS issue in addition to improving the speech recognition accuracy.
翻訳日:2021-10-20 15:06:32 公開日:2021-10-18
# クープマン演算子近似の系ノルム正規化法

System Norm Regularization Methods for Koopman Operator Approximation ( http://arxiv.org/abs/2110.09658v1 )

ライセンス: Link先を確認
Steven Dahdah and James Richard Forbes(参考訳) データからクープマン作用素を近似することは、多くの昇降関数を考えるとき、数値的に難しい。 低次元のシステムでさえ不安定あるいは不調な結果が高次元のリフト空間に生じることがある。 本稿では,線形行列不等式制約付き凸最適化問題として,コップマン演算子を近似する2つの一般的な手法である拡張MDDとMDDの制御を行う。 ハード漸近安定性の制約とシステムノルム正則化は、近似クープマン作用素の数値条件付けを改善する方法と見なされる。 特に、$\mathcal{h}_\infty$ノルムは、クープマン作用素によって定義される線形システムの入出力ゲインをペナライズするための正規化として用いられる。 重み付け関数は、特定の周波数でシステムの利得をペナライズするために適用される。

Approximating the Koopman operator from data is numerically challenging when many lifting functions are considered. Even low-dimensional systems can yield unstable or ill-conditioned results in a high-dimensional lifted space. In this paper, Extended DMD and DMD with control, two popular methods for approximating the Koopman operator, are reformulated as convex optimization problems with linear matrix inequality constraints. Both hard asymptotic stability constraints and system norm regularizers are considered as methods to improve the numerical conditioning of the approximate Koopman operator. In particular, the $\mathcal{H}_\infty$ norm is used as a regularizer to penalize the input-output gain of the linear system defined by the Koopman operator. Weighting functions are then applied to penalize the system gain at particular frequencies.
翻訳日:2021-10-20 15:05:05 公開日:2021-10-18
# CycleFlow: サイクル損失による情報要因の浄化

CycleFlow: Purify Information Factors by Cycle Loss ( http://arxiv.org/abs/2110.09928v1 )

ライセンス: Link先を確認
Haoran Sun and Chen Chen and Lantian Li and Dong Wang(参考訳) SpeechFlowは情報ボトルネック(IB)に基づく強力な分解モデルであり,その有効性はいくつかの研究によって報告されている。 しかし、SpeechFlowの潜在的な問題は、IBチャネルが十分に設計されていない場合、結果の因子が適切に絡み合えないことである。 本研究では,この問題を解決するためにランダム因子置換とサイクル損失を組み合わせたCycleFlowモデルを提案する。 音声変換タスクの実験は、この単純な手法が個々の要因間の相互情報を効果的に低減し、IBベースのSpeechFlowよりも明らかに優れた変換を実現できることを示した。 CycleFlowは、音声編集の強力なツールとしても使える。 この使用法を感情知覚実験によって実証する。

SpeechFlow is a powerful factorization model based on information bottleneck (IB), and its effectiveness has been reported by several studies. A potential problem of SpeechFlow, however, is that if the IB channels are not well designed, the resultant factors cannot be well disentangled. In this study, we propose a CycleFlow model that combines random factor substitution and cycle loss to solve this problem. Experiments on voice conversion tasks demonstrate that this simple technique can effectively reduce mutual information among individual factors, and produce clearly better conversion than the IB-based SpeechFlow. CycleFlow can also be used as a powerful tool for speech editing. We demonstrate this usage by an emotion perception experiment.
翻訳日:2021-10-20 15:04:26 公開日:2021-10-18
# BEV-SGD:アグリゲーションに基づくビザンチン系攻撃者に対するフェデレーション学習のためのベストエフォート投票SGD

BEV-SGD: Best Effort Voting SGD for Analog Aggregation Based Federated Learning against Byzantine Attackers ( http://arxiv.org/abs/2110.09660v1 )

ライセンス: Link先を確認
Xin Fan, Yue Wang, Yan Huo, and Zhi Tian(参考訳) 有望な分散学習技術として、アナログアグリゲーションに基づくFLOA(Federated Learning over the Air)は、エッジコンピューティングパラダイムにおける通信効率とプライバシ提供を提供する。 全てのエッジデバイス(作業者)が共通に共有される時間周波数リソースを通じてパラメータサーバ(PS)にローカル更新を同時にアップロードすると、PSは個々のローカル更新よりも平均更新しか取得できない。 その結果、このような同時送信と集約方式は通信のレイテンシとコストを低減させるが、FLOAをビザンティン攻撃に脆弱にし、FLOA性能を低下させる。 ビザンチン耐性FLOAの設計には,既存のFLOA文献で広く使われているチャネル反転(CI)電力制御機構の解析から着手する。 我々の理論的分析は、CIは非攻撃シナリオで優れた学習性能を達成できるが、ビザンチン攻撃に対する防御能力の制限がうまく機能しないことを示している。 そこで我々は,確率勾配降下(SGD)と統合されたBEV電力制御政策という新しい防衛方式を提案する。 当社のbev-sgdは,全作業員が最大送信電力でローカルアップデートを送信できるようにすることで,ビザンチン攻撃に対するフローアの堅牢性を向上させる。 最強の攻撃状況下では、それぞれFLOAとCI、BEVの電力制御ポリシーの収束率が期待される。 速度比較の結果,bev-sgdは,実験シミュレーションにより検証された収束挙動において,ciに匹敵する値を示した。

As a promising distributed learning technology, analog aggregation based federated learning over the air (FLOA) provides high communication efficiency and privacy provisioning in edge computing paradigm. When all edge devices (workers) simultaneously upload their local updates to the parameter server (PS) through the commonly shared time-frequency resources, the PS can only obtain the averaged update rather than the individual local ones. As a result, such a concurrent transmission and aggregation scheme reduces the latency and costs of communication but makes FLOA vulnerable to Byzantine attacks which then degrade FLOA performance. For the design of Byzantine-resilient FLOA, this paper starts from analyzing the channel inversion (CI) power control mechanism that is widely used in existing FLOA literature. Our theoretical analysis indicates that although CI can achieve good learning performance in the non-attacking scenarios, it fails to work well with limited defensive capability to Byzantine attacks. Then, we propose a novel defending scheme called best effort voting (BEV) power control policy integrated with stochastic gradient descent (SGD). Our BEV-SGD improves the robustness of FLOA to Byzantine attacks, by allowing all the workers to send their local updates at their maximum transmit power. Under the strongest-attacking circumstance, we derive the expected convergence rates of FLOA with CI and BEV power control policies, respectively. The rate comparison reveals that our BEV-SGD outperforms its counterpart with CI in terms of better convergence behavior, which is verified by experimental simulations.
翻訳日:2021-10-20 15:04:13 公開日:2021-10-18
# GNN計算グラフを理解する: 協調計算、IO、メモリパースペクティブ

Understanding GNN Computational Graph: A Coordinated Computation, IO, and Memory Perspective ( http://arxiv.org/abs/2110.09524v1 )

ライセンス: Link先を確認
Hengrui Zhang, Zhongming Yu, Guohao Dai, Guyue Huang, Yufei Ding, Yuan Xie, Yu Wang(参考訳) グラフニューラルネットワーク(GNN)は、様々な領域で広く使われており、高度な計算グラフを持つGNNは、より高いレイテンシとメモリ消費をもたらす。 GNN計算グラフの最適化は、(1)冗長なニューラル演算子計算に悩まされる。 同じデータはグラフ構造を通じて伝播され、gnnで同じニューラルネットワーク操作を複数回実行し、総オペレータの92.4%を占める冗長な計算に繋がる。 2) 一貫性のないスレッドマッピング。 頂点中心演算子とエッジ中心演算子の効率的なスレッドマッピングスキームは異なる。 この矛盾は、メモリIOを減らす演算子融合を禁止している。 (3)過剰な中間データ。 通常推論と並行して実行されるGNNトレーニングでは、中間データを後方パスに格納し、総メモリ要求の91.9%を消費しなければならない。 これらの課題に対処するために,新しい協調計算,IO,メモリの観点からGNN計算グラフを最適化する設計を提案する。 伝搬前に演算子を再編成してニューラル演算を行い、冗長計算を除去する。 (2)融合のための統一スレッドマッピング。 本稿では,頂点演算子と辺中心演算子を統一したスレッドマッピング方式を提案する。 (3)中間データ再計算。 中間データは後方パス中に再計算され、全メモリ消費が減少する。 3つの典型的なGNNモデルの大規模な実験結果から、最先端のフレームワークよりも最大2.75倍のスピードアップ、6.89倍のメモリIO、7.73倍のメモリ消費を実現した。

Graph Neural Networks (GNNs) have been widely used in various domains, and GNNs with sophisticated computational graph lead to higher latency and larger memory consumption. Optimizing the GNN computational graph suffers from: (1) Redundant neural operator computation. The same data are propagated through the graph structure to perform the same neural operation multiple times in GNNs, leading to redundant computation which accounts for 92.4% of total operators. (2) Inconsistent thread mapping. Efficient thread mapping schemes for vertex-centric and edge-centric operators are different. This inconsistency prohibits operator fusion to reduce memory IO. (3) Excessive intermediate data. For GNN training which is usually performed concurrently with inference, intermediate data must be stored for the backward pass, consuming 91.9% of the total memory requirement. To tackle these challenges, we propose following designs to optimize the GNN computational graph from a novel coordinated computation, IO, and memory perspective: (1) Propagation-postpone d operator reorganization. We reorganize operators to perform neural operations before the propagation, thus the redundant computation is eliminated. (2) Unified thread mapping for fusion. We propose a unified thread mapping scheme for both vertex- and edge-centric operators to enable fusion and reduce IO. (3) Intermediate data recomputation. Intermediate data are recomputed during the backward pass to reduce the total memory consumption. Extensive experimental results on three typical GNN models show that, we achieve up to 2.75x end-to-end speedup, 6.89x less memory IO, and 7.73x less memory consumption over state-of-the-art frameworks.
翻訳日:2021-10-20 14:34:16 公開日:2021-10-18
# ReLUを用いた深部ニューラルネットワークの置換不変性

Permutation Invariance of Deep Neural Networks with ReLUs ( http://arxiv.org/abs/2110.09578v1 )

ライセンス: Link先を確認
Diganta Mukhopadhyay (1), Kumar Madhukar (2), Mandayam Srivas (3) (Chennai Mathematical Institute (1), TCS Research (2))(参考訳) 侵入者との衝突を避けるために航空機が旋回しなければならない方向を示唆するために使用されるディープニューラルネットワーク(dnn)を考える。 非公式には、侵入者が左(右)から近づくと、自船に右(左)に曲がるように頼むと、そのようなネットワークはうまく機能する。 契約ブリッジのゲームでプレイヤーに割り当てられたカードの4つの入力を受け取り、どのチームがゲームに入札できるかを決定する別のネットワークを考えてみよう。 粗雑な言い方をすれば、パートナー(北と南、東と西)の手を交換しても、決定は変わらない。 しかし、例えば、北の手を東と交換すれば、それは変わるだろう。 この置換不変性は、入力層と出力層の特定の置換に対して、これらのネットワークの正しさと頑健性の中心である。 本稿では、ReLUをアクティベーション関数とするDNNにおける変分不変性を確立するための、音響的抽象化に基づく手法を提案する。 この手法は到達可能な状態の過剰な近似と安全な状態の最小化を計算し、この情報を前方と後方の両方の層に伝播する。 提案手法の目新しさは,前方伝播に有用なタイクラス解析と,後方伝播時の領域数の指数関数的ブローアップを回避したスケーラブルな2-ポリトープ近似法である。 実験により,ネットワークの2つのコピー上でのFFNN検証を用いて,置換不変性を2つのセーフティ特性として検証するアルゴリズムの効率性を示す。

Consider a deep neural network (DNN) that is being used to suggest the direction in which an aircraft must turn to avoid a possible collision with an intruder aircraft. Informally, such a network is well-behaved if it asks the own ship to turn right (left) when an intruder approaches from the left (right). Consider another network that takes four inputs -- the cards dealt to the players in a game of contract bridge -- and decides which team can bid game. Loosely speaking, if you exchange the hands of partners (north and south, or east and west), the decision would not change. However, it will change if, say, you exchange north's hand with east. This permutation invariance property, for certain permutations at input and output layers, is central to the correctness and robustness of these networks. This paper proposes a sound, abstraction-based technique to establish permutation invariance in DNNs with ReLU as the activation function. The technique computes an over-approximation of the reachable states, and an under-approximation of the safe states, and propagates this information across the layers, both forward and backward. The novelty of our approach lies in a useful tie-class analysis, that we introduce for forward propagation, and a scalable 2-polytope under-approximation method that escapes the exponential blow-up in the number of regions during backward propagation. An experimental comparison shows the efficiency of our algorithm over that of verifying permutation invariance as a two-safety property (using FFNN verification over two copies of the network).
翻訳日:2021-10-20 14:33:50 公開日:2021-10-18
# transfusion:3次元ポーズ推定のためのtransfusionとtransformerのクロスビュー融合

TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2110.09554v1 )

ライセンス: Link先を確認
Haoyu Ma, Liangjian Chen, Deying Kong, Zhe Wang, Xingwei Liu, Hao Tang, Xiangyi Yan, Yusheng Xie, Shih-Yao Lin, Xiaohui Xie(参考訳) 各ビューにおける2次元のポーズの推定は、通常、マルチビューの3dポーズのキャリブレーションの最初のステップである。 しかし、2dポーズ検出器の性能は、咬合や斜め視角などの困難な状況に苦しむ。 これらの課題に対処するために、先行研究はエピポーラ幾何から異なる視点間のポイント・ツー・ポイント対応を導出し、対応を利用して予測ヒートマップや特徴表現をマージする。 ここでは、予測後マージ/校正の代わりに、異なる視点からの情報を統合して個々の2次元予測器を直接改善することを目的とした、多視点3次元ポーズ推定のためのトランスフォーマーフレームワークを導入する。 従来のマルチモーダルトランスフォーマーに触発されて、transfusionという統一トランスフォーマーアーキテクチャを設計し、現在のビューと隣り合うビューの両方からヒントを得る。 さらに,3次元位置情報をトランスモデルに符号化するためのエピポーラ場の概念を提案する。 エピポーラフィールドによって誘導される3D位置符号化は、異なるビューの画素間の対応を効率的に符号化する方法を提供する。 ヒト3.6mおよびスキー場における実験により,本手法はより効率的で,他の融合法と比較して一貫した改良が得られた。 具体的には、256 x 256の解像度で5Mパラメータしか持たないHuman 3.6Mで25.8mmMPJPEを達成する。

Estimating the 2D human poses in each view is typically the first step in calibrated multi-view 3D pose estimation. But the performance of 2D pose detectors suffers from challenging situations such as occlusions and oblique viewing angles. To address these challenges, previous works derive point-to-point correspondences between different views from epipolar geometry and utilize the correspondences to merge prediction heatmaps or feature representations. Instead of post-prediction merge/calibration, here we introduce a transformer framework for multi-view 3D pose estimation, aiming at directly improving individual 2D predictors by integrating information from different views. Inspired by previous multi-modal transformers, we design a unified transformer architecture, named TransFusion, to fuse cues from both current views and neighboring views. Moreover, we propose the concept of epipolar field to encode 3D positional information into the transformer model. The 3D position encoding guided by the epipolar field provides an efficient way of encoding correspondences between pixels of different views. Experiments on Human 3.6M and Ski-Pose show that our method is more efficient and has consistent improvements compared to other fusion methods. Specifically, we achieve 25.8 mm MPJPE on Human 3.6M with only 5M parameters on 256 x 256 resolution.
翻訳日:2021-10-20 14:08:14 公開日:2021-10-18
# ハンドオフ:covid-19脅威制御のためのハンドシェイクインタラクション検出とローカライズモデル

Hands Off: A Handshake Interaction Detection and Localization Model for COVID-19 Threat Control ( http://arxiv.org/abs/2110.09571v1 )

ライセンス: Link先を確認
A.S. Jameel Hassan and Suren Sritharan and Gihan Jayatilaka and Roshan I. Godaliyadda and Parakrama B. Ekanayake and Vijitha Herath and Janaka B. Ekanayake(参考訳) 新型コロナウイルス(COVID-19)の感染拡大は世界中の何百万人もの人々に影響を与え、拡大を続けている。 ウイルスの拡散を制御するための多くのステップのうち、社会的距離の確保は重要かつ効果的な実践であった。 しかし、近年の社会的距離違反の報告は、公共空間の安全を確保するために非侵入的検出技術の必要性を示唆している。 本論文では,シーン内の複数の人との現実的なシナリオの範囲内でのハンドシェイクインタラクションをリアルタイムに検出し,複数のインタラクションを1フレームで検出するモデルを提案する。 これは、複数人の設定でdyadicインタラクションローカライゼーションを実行する最初の作品である。 提案モデルの有効性を3200フレーム以上の2つの異なるデータセットで評価し,異なる環境におけるロバストなローカライゼーションモデルを実現する。 提案手法は,複数対人環境における最初のダイアディック・インタラクション・ローカライザであり,公共空間においてハンドシェイク・インタラクションを識別し,ウイルス感染の特定と軽減に利用することができる。

The COVID-19 outbreak has affected millions of people across the globe and is continuing to spread at a drastic scale. Out of the numerous steps taken to control the spread of the virus, social distancing has been a crucial and effective practice. However, recent reports of social distancing violations suggest the need for non-intrusive detection techniques to ensure safety in public spaces. In this paper, a real-time detection model is proposed to identify handshake interactions in a range of realistic scenarios with multiple people in the scene and also detect multiple interactions in a single frame. This is the first work that performs dyadic interaction localization in a multi-person setting. The efficacy of the proposed model was evaluated across two different datasets on more than 3200 frames, thus enabling a robust localization model in different environments. The proposed model is the first dyadic interaction localizer in a multi-person setting, which enables it to be used in public spaces to identify handshake interactions and thereby identify and mitigate COVID-19 transmission.
翻訳日:2021-10-20 14:07:51 公開日:2021-10-18
# 半教師付き領域適応のための動的特徴アライメント

Dynamic Feature Alignment for Semi-supervised Domain Adaptation ( http://arxiv.org/abs/2110.09641v1 )

ライセンス: Link先を確認
Yu Zhang, Gongbo Liang, Nathan Jacobs(参考訳) ドメイン適応に関するほとんどの研究は、対象ドメインのラベル付き例がない純粋に教師なしの設定に焦点を当てている。 しかし、多くの現実世界のシナリオでは、少量のラベル付きターゲットデータが利用可能であり、適応性を改善するために使用できる。 この半教師付き設定に対処し、動的特徴アライメントを用いてドメイン間の差とドメイン内差に対処することを提案する。 ミニバッチ内でソースとターゲットの機能を調整する従来のアプローチとは異なり、ターゲット機能を動的に更新された一連のクラスプロトタイプにアライメントすることを提案し、ダイバージェンスと擬似ラベルの最小化に使用する。 クラスプロトタイプに基づいて更新することで、クラスの不均衡による以前のアプローチで発生する問題を回避する。 広範なチューニングや敵対的なトレーニングを必要としないこのアプローチは、半教師ありドメイン適応の技術を著しく改善します。 本研究では、DomainNetとOffice-Homeという2つの標準データセットの定量的評価と性能分析を行う。

Most research on domain adaptation has focused on the purely unsupervised setting, where no labeled examples in the target domain are available. However, in many real-world scenarios, a small amount of labeled target data is available and can be used to improve adaptation. We address this semi-supervised setting and propose to use dynamic feature alignment to address both inter- and intra-domain discrepancy. Unlike previous approaches, which attempt to align source and target features within a mini-batch, we propose to align the target features to a set of dynamically updated class prototypes, which we use both for minimizing divergence and pseudo-labeling. By updating based on class prototypes, we avoid problems that arise in previous approaches due to class imbalances. Our approach, which doesn't require extensive tuning or adversarial training, significantly improves the state of the art for semi-supervised domain adaptation. We provide a quantitative evaluation on two standard datasets, DomainNet and Office-Home, and performance analysis.
翻訳日:2021-10-20 14:07:33 公開日:2021-10-18
# A-Optimal Active Learning

A-Optimal Active Learning ( http://arxiv.org/abs/2110.09585v1 )

ライセンス: Link先を確認
Tue Boesen, Eldad Haber(参考訳) 本稿では,アクティブラーニングの問題について議論する。 本稿では,不適切な問題の最適実験設計に基づくアプローチを示し,それを部分的に検出することでデータセットを最適にラベル付けし,深層ネットワークを訓練する方法を示す。 データセット上で異なる仮定を行う2つのアプローチを提案する。 1つは、事前分布に使用されるグラフラプラシアンの半教師付き学習問題のベイズ的解釈に基づいており、2つ目は、ラベルの回復に基づくバイアス項の推定を更新する頻繁なアプローチに基づいている。 このアプローチはラベルの推定や深層ネットワークのトレーニングに非常に効果的であることを実証する。

In this work we discuss the problem of active learning. We present an approach that is based on A-optimal experimental design of ill-posed problems and show how one can optimally label a data set by partially probing it, and use it to train a deep network. We present two approaches that make different assumptions on the data set. The first is based on a Bayesian interpretation of the semi-supervised learning problem with the graph Laplacian that is used for the prior distribution and the second is based on a frequentist approach, that updates the estimation of the bias term based on the recovery of the labels. We demonstrate that this approach can be highly efficient for estimating labels and training a deep network.
翻訳日:2021-10-20 14:03:47 公開日:2021-10-18
# jaccard indexのさらなる一般化

Further Generalizations of the Jaccard Index ( http://arxiv.org/abs/2110.09619v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 2つの集合の類似性を定量化することは、集合論を含むいくつかの理論および応用問題において特に興味深く有用な操作となる。 2つの集合の類似性を定量化するために、jaccardインデックスは最も多様な種類の問題で広く使われ、またそれぞれの一般化の動機にもなっている。 この指標のさらなる一般化には、集合の内部性のレベルも説明できる偶然指数への修正、連続ベクトル空間における集合の拡張、関連する集合要素に関連する重みの考慮、密度への一般化と一般的なスカラー場、およびランダム変数間の結合相互依存性の定量化などが含まれる。 また、2つ以上の集合を考慮に入れた興味深い可能性として、3つの集合間の連鎖のレベルを定量化できる指標の記述がある。 記述および提案された一般化のいくつかは、数値ケースの例に関して説明されている。 また、これらの指標は、モデリングアプローチやパターン認識活動におけるデータセットの分析と統合において重要な役割を果たす可能性がある。

Quantifying the similarity between two sets constitutes a particularly interesting and useful operation in several theoretical and applied problems involving set theory. Aimed at quantifying the similarity between two sets, the Jaccard index has been extensively used in the most diverse types of problems, also motivating respective generalizations. The present work addressew further generalizations of this index, including its modification into a coincidence index capable of accounting also for the level of interiority of the sets, an extension for sets in continuous vector spaces, the consideration of weights associated to the involved set elements, the generalization to densities and generic scalar fields, as well as a means to quantify the joint interdependence between random variables. The also interesting possibility to take into account more than two sets was also addressed, including the description of an index capable of quantifying the level of chaining between three sets. Several of the described and suggested generalizations have been illustrated with respect to numeric case examples. It is also posited that these indices can play an important role while analyzing and integrating datasets in modeling approaches and pattern recognition activities.
翻訳日:2021-10-20 14:03:35 公開日:2021-10-18
# 加法モデルデータへの決定木適用に関する注意物語--一般化下界について

A cautionary tale on fitting decision trees to data from additive models: generalization lower bounds ( http://arxiv.org/abs/2110.09626v1 )

ライセンス: Link先を確認
Yan Shuo Tan, Abhineet Agarwal, Bin Yu(参考訳) 決定木は高い意思決定が可能な解釈可能なモデルとして重要であり、ランダム森林や勾配上昇などのアンサンブル手法の構築ブロックとして重要である。 しかし、その統計的な性質はよく分かっていない。 最も引用された先行研究は、古典的な非パラメトリック回帰設定におけるCARTの点方向の整合性保証の導出に焦点を当てている。 我々は異なるアプローチを採り、異なる生成回帰モデルに関して決定木の一般化性能を研究することを提唱する。 これにより、アルゴリズムが新しいデータに一般化する(あるいはしない)という仮定を導出することで、実践者がいつ、どのようにこれらの手法を適用するかを導くことができます。 本稿では,低統計的複雑度と非パラメトリックな柔軟性を有するスパース加法生成モデルに焦点をあてる。 我々は,$c^1$成分関数を持つスパース加法モデルに適合する大クラス決定木アルゴリズムに対して,シャープな二乗誤差一般化を下限として証明する。 この境界は、そのような疎加法モデルを推定するミニマックス速度よりも驚くほど悪い。 この非効率性は、例えば階層的な縮小によって木に基づくアルゴリズムを改善する機会を示唆する観察である、各葉に対してのみ反応を平均化するときに、グローバルな構造を検出する能力の喪失によるものである。 これらの限界を証明するため,情報理論のサブ分野である決定木推定とレート歪曲理論の新たな関係を確立するため,新しい技術機械を開発した。

Decision trees are important both as interpretable models amenable to high-stakes decision-making, and as building blocks of ensemble methods such as random forests and gradient boosting. Their statistical properties, however, are not well understood. The most cited prior works have focused on deriving pointwise consistency guarantees for CART in a classical nonparametric regression setting. We take a different approach, and advocate studying the generalization performance of decision trees with respect to different generative regression models. This allows us to elicit their inductive bias, that is, the assumptions the algorithms make (or do not make) to generalize to new data, thereby guiding practitioners on when and how to apply these methods. In this paper, we focus on sparse additive generative models, which have both low statistical complexity and some nonparametric flexibility. We prove a sharp squared error generalization lower bound for a large class of decision tree algorithms fitted to sparse additive models with $C^1$ component functions. This bound is surprisingly much worse than the minimax rate for estimating such sparse additive models. The inefficiency is due not to greediness, but to the loss in power for detecting global structure when we average responses solely over each leaf, an observation that suggests opportunities to improve tree-based algorithms, for example, by hierarchical shrinkage. To prove these bounds, we develop new technical machinery, establishing a novel connection between decision tree estimation and rate-distortion theory, a sub-field of information theory.
翻訳日:2021-10-20 13:56:30 公開日:2021-10-18
# 高次元回帰と低次元埋め込みのための十分な次元縮小:チュートリアルとサーベイ

Sufficient Dimension Reduction for High-Dimensional Regression and Low-Dimensional Embedding: Tutorial and Survey ( http://arxiv.org/abs/2110.09620v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本論文は,SDR(Sufficient Dimension Reduction)の様々な方法に関するチュートリアルおよび調査論文である。 これらの手法を,統計的な高次元回帰視点と機械学習による次元低減手法の両方でカバーする。 まず, Sliced Inverse Regression (SIR), Sliced Average Variance Estimation (SAVE), contour regression, directional regression, principal Fitted Components (PFC), Likelihood Acquired Direction (LAD), graphical regression などの逆回帰手法を導入する。 次に,主ヘシアン方向(pHd),最小平均分散推定(MAVE),条件変数推定(CVE),深部SDR法などの前方回帰手法を紹介する。 最後に、教師なしおよび教師なし学習のためのカーネル次元削減(KDR)について説明する。 また, 教師付きKDRと教師付きPCAは等価であることを示す。

This is a tutorial and survey paper on various methods for Sufficient Dimension Reduction (SDR). We cover these methods with both statistical high-dimensional regression perspective and machine learning approach for dimensionality reduction. We start with introducing inverse regression methods including Sliced Inverse Regression (SIR), Sliced Average Variance Estimation (SAVE), contour regression, directional regression, Principal Fitted Components (PFC), Likelihood Acquired Direction (LAD), and graphical regression. Then, we introduce forward regression methods including Principal Hessian Directions (pHd), Minimum Average Variance Estimation (MAVE), Conditional Variance Estimation (CVE), and deep SDR methods. Finally, we explain Kernel Dimension Reduction (KDR) both for supervised and unsupervised learning. We also show that supervised KDR and supervised PCA are equivalent.
翻訳日:2021-10-20 13:51:36 公開日:2021-10-18
# 低資源多言語関係分類のためのデータブートストラップ法

A Data Bootstrapping Recipe for Low Resource Multilingual Relation Classification ( http://arxiv.org/abs/2110.09570v1 )

ライセンス: Link先を確認
Arijit Nag, Bidisha Samanta, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti(参考訳) 関係分類(しばしば「抽出」と呼ばれる)は、微調整された大きな言語モデルや評価のために信頼できるデータセットを必要とする。 インドの言語では、構文上、形態上は多様であり、英語のようなリソース豊富な言語とは異なるため、データ収集は困難である。 インド語の深い生成モデルに対する近年の関心にもかかわらず、関係分類は依然として公開データセットではあまり役に立たない。 IndoREは3つのインド語と英語で、21Kエンティティと関係付けされた金の文をタグ付けしたデータセットである。 マルチリンガルBERT (mBERT) ベースのシステムからスタートし、エンティティのスパン位置と型情報をキャプチャし、競合するモノリンガル関係の分類を提供する。 本システムを用いて,言語間の伝達機構を探索・比較する。 特に,高価な金インスタンスと翻訳された'シルバー'インスタンスの精度のトレードオフについて検討した。 将来の研究のためのデータセットをリリースします。

Relation classification (sometimes called 'extraction') requires trustworthy datasets for fine-tuning large language models, as well as for evaluation. Data collection is challenging for Indian languages, because they are syntactically and morphologically diverse, as well as different from resource-rich languages like English. Despite recent interest in deep generative models for Indian languages, relation classification is still not well served by public data sets. In response, we present IndoRE, a dataset with 21K entity and relation tagged gold sentences in three Indian languages, plus English. We start with a multilingual BERT (mBERT) based system that captures entity span positions and type information and provides competitive monolingual relation classification. Using this system, we explore and compare transfer mechanisms between languages. In particular, we study the accuracy efficiency tradeoff between expensive gold instances vs. translated and aligned 'silver' instances. We release the dataset for future research.
翻訳日:2021-10-20 13:51:17 公開日:2021-10-18
# チャンク方向の並べ替えと精細化による単調同時翻訳

Monotonic Simultaneous Translation with Chunk-wise Reordering and Refinement ( http://arxiv.org/abs/2110.09646v1 )

ライセンス: Link先を確認
HyoJung Han, Seokchan Ahn, Yoonjung Choi, Insoo Chung, Sangha Kim, Kyunghyun Cho(参考訳) 機械翻訳における最近の研究は、従来の全文翻訳コーパスでしばしば訓練されており、単語の順序が著しく異なる言語対を扱う場合、過度なレイテンシや非誤りな単語を予測する必要が生じる。 これは、翻訳される文の文法性を犠牲にしてほとんど単調翻訳を行う人間の同時翻訳者とは異なる。 そこで本研究では,単語アライメントと非自己回帰型ニューラルマシン翻訳を用いて,ソース文とターゲット文の単語/フレーズが単調に並べられるように,全文翻訳コーパスのターゲット側を並べ替え,洗練するアルゴリズムを提案する。 そして、この再注文されたコーパス上で、広く使用されるwait-k同時翻訳モデルを訓練する。 提案手法はBLEUのスコアを改良し,結果の翻訳により文の単調性が向上する。

Recent work in simultaneous machine translation is often trained with conventional full sentence translation corpora, leading to either excessive latency or necessity to anticipate as-yet-unarrived words, when dealing with a language pair whose word orders significantly differ. This is unlike human simultaneous interpreters who produce largely monotonic translations at the expense of the grammaticality of a sentence being translated. In this paper, we thus propose an algorithm to reorder and refine the target side of a full sentence translation corpus, so that the words/phrases between the source and target sentences are aligned largely monotonically, using word alignment and non-autoregressive neural machine translation. We then train a widely used wait-k simultaneous translation model on this reordered-and-refine d corpus. The proposed approach improves BLEU scores and resulting translations exhibit enhanced monotonicity with source sentences.
翻訳日:2021-10-20 13:19:25 公開日:2021-10-18
# 経路正規化:並列ReLUネットワークにおける凸性と疎結合による正規化

Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks ( http://arxiv.org/abs/2110.09548v1 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) いくつかの試みにもかかわらず、ディープニューラルネットワークの成功の背後にある基本的なメカニズムはまだ解明されていない。 そこで我々は,ディープニューラルネットワークのトレーニングにおいて,隠れ凸性を明らかにするための新しい分析フレームワークを提案する。 我々は、複数のreluサブネットワークを持つ並列アーキテクチャを検討し、その特殊なケースとして、多くの標準ディープアーキテクチャとresnetを含む。 そこで,経路正則化に関する学習問題は,高次元空間における単一凸最適化問題として適用可能であることを示す。 さらに,同値凸プログラムが群間隔誘導ノルムを介して正規化されることを証明した。 したがって、ReLUサブネットワークを用いた経路正規化並列アーキテクチャは、高次元における擬似特徴選択法とみなすことができる。 さらに、等価凸問題を大域的に最適化するために必要な計算複雑性は、データサンプルの数や特徴次元に関して多項式時間であることを示す。 そこで我々は,大域的最適性保証を持つ経路正規化深層reluネットワークの多項式時間学習精度を証明した。 また,この理論を裏付ける数値実験もいくつか実施する。

Despite several attempts, the fundamental mechanisms behind the success of deep neural networks still remain elusive. To this end, we introduce a novel analytic framework to unveil hidden convexity in training deep neural networks. We consider a parallel architecture with multiple ReLU sub-networks, which includes many standard deep architectures and ResNets as its special cases. We then show that the training problem with path regularization can be cast as a single convex optimization problem in a high-dimensional space. We further prove that the equivalent convex program is regularized via a group sparsity inducing norm. Thus, a path regularized parallel architecture with ReLU sub-networks can be viewed as a parsimonious feature selection method in high-dimensions. More importantly, we show that the computational complexity required to globally optimize the equivalent convex problem is polynomial-time with respect to the number of data samples and feature dimension. Therefore, we prove exact polynomial-time trainability for path regularized deep ReLU networks with global optimality guarantees. We also provide several numerical experiments corroborating our theory.
翻訳日:2021-10-20 13:18:40 公開日:2021-10-18
# ラベル記述パターンと分類誤差のキャラクタリゼーションへの応用

Label-Descriptive Patterns and their Application to Characterizing Classification Errors ( http://arxiv.org/abs/2110.09599v1 )

ライセンス: Link先を確認
Michael Hedderich, Jonas Fischer, Dietrich Klakow and Jilles Vreeken(参考訳) 最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。 これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。 本稿では,予測の正確性に応じて分割された入力データを簡潔に記述するパターン群をマイニングすることにより,任意の分類器に対してそれを可能にする手法を提案する。 これはより一般的なラベル記述問題の例であり、最小記述長原理を用いて定式化する。 優れたパターン集合を発見するために、我々は、効率的でハイパーパラメータフリーなPremiseアルゴリズムを提案する。このアルゴリズムは、合成データと実世界のデータの両方で広範な実験によって、実際に非常によく機能する。 2つの実世界のケーススタディを通して、Premiseが現代のNLP分類器による体系的誤りについて明確かつ実用的な洞察を与えることを確認した。

State-of-the-art deep learning methods achieve human-like performance on many tasks, but make errors nevertheless. Characterizing these errors in easily interpretable terms gives insight into whether a model is prone to making systematic errors, but also gives a way to act and improve the model. In this paper we propose a method that allows us to do so for arbitrary classifiers by mining a small set of patterns that together succinctly describe the input data that is partitioned according to correctness of prediction. We show this is an instance of the more general label description problem, which we formulate in terms of the Minimum Description Length principle. To discover good pattern sets we propose the efficient and hyperparameter-free Premise algorithm, which through an extensive set of experiments we show on both synthetic and real-world data performs very well in practice; unlike existing solutions it ably recovers ground truth patterns, even on highly imbalanced data over many unique items, or where patterns are only weakly associated to labels. Through two real-world case studies we confirm that Premise gives clear and actionable insight into the systematic errors made by modern NLP classifiers.
翻訳日:2021-10-20 13:16:15 公開日:2021-10-18
# sparse progressive distillation:pretrai n-and-finetuneパラダイム下でのオーバーフィッティングの解決

Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetun e Paradigm ( http://arxiv.org/abs/2110.08190v2 )

ライセンス: Link先を確認
Shaoyi Huang, Dongkuan Xu, Ian E.H. Yen, Sung-en Chang, Bingbing Li, Shiyang Chen, Mimi Xie, Hang Liu, Caiwen Ding(参考訳) トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。 従来の考え方では、プルーニングはモデル表現力を減らすため、元のモデルよりも過剰に適合するよりも不適合になりがちである。 しかし,モデルが下流タスクから学ばなければならない情報量を増やし,相対的なデータ不足を生じさせるため,微調整段階での刈り込みを行うと,刈り込みは過剰フィッティングのリスクを増大させる,という傾向が強い。 本稿では,先進的知識蒸留(KD)とスパースプルーニング(スパースプルーニング)を用いて,プレトレイン・アンド・ファネチューンパラダイムの下でのオーバーフィッティング問題に対処することを目的とする。 さらに, 学習率, 熟成, 蒸留の異なる戦略間の干渉を軽減するために, 3段階学習フレームワークを提案する。 オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。 GLUEベンチマークの複数のデータセットを用いた実験により,提案手法は,異なるプルーニング比の制約にまたがって,最先端の競合相手に対して高い競合的なプルーニング性能を達成できることを示した。

Various pruning approaches have been proposed to reduce the footprint requirements of Transformer-based language models. Conventional wisdom is that pruning reduces the model expressiveness and thus is more likely to underfit than overfit compared to the original model. However, under the trending pretrain-and-finetun e paradigm, we argue that pruning increases the risk of overfitting if pruning was performed at the fine-tuning phase, as it increases the amount of information a model needs to learn from the downstream task, resulting in relative data deficiency. In this paper, we aim to address the overfitting issue under the pretrain-and-finetun e paradigm to improve pruning performance via progressive knowledge distillation (KD) and sparse pruning. Furthermore, to mitigate the interference between different strategies of learning rate, pruning and distillation, we propose a three-stage learning framework. We show for the first time that reducing the risk of overfitting can help the effectiveness of pruning under the pretrain-and-finetun e paradigm. Experiments on multiple datasets of GLUE benchmark show that our method achieves highly competitive pruning performance over the state-of-the-art competitors across different pruning ratio constraints.
翻訳日:2021-10-20 11:34:55 公開日:2021-10-18
# (参考訳) フェデレーションエッジコンピューティングのためのマルチエージェント強化ネットワークにおけるSim-to-Real転送 [全文訳有]

Sim-to-Real Transfer in Multi-agent Reinforcement Networking for Federated Edge Computing ( http://arxiv.org/abs/2110.08952v1 )

ライセンス: CC BY-SA 4.0
Pinyarash Pinyoanuntapong, Tagore Pothuneedi, Ravikumar Balakrishnan, Minwoo Lee, Chen Chen, Pu Wang(参考訳) 無線マルチホップエッジコンピューティングネットワーク(すなわちマルチホップfl)上でのフェデレーション学習(federated learning, fl)は、コスト効率の高い分散オンデバイスディープラーニングパラダイムである。 本稿では,マルチホップFLシステムの高速プロトタイピング,sim-to-realコード,知識伝達を可能にする,高忠実なLinuxベースシミュレータであるFedEdgeシミュレータを提案する。 FedEdgeシミュレータはハードウェア指向のFedEdge実験フレームワーク上に構築されており、リアルな物理層エミュレータを新たに拡張している。 このエミュレータはトレースベースのチャネルモデリングと動的リンクスケジューリングを利用して、シミュレータと物理的テストベッドの間の現実のギャップを最小限にする。 実験では,強化学習最適化マルチホップflにおいて,feededgeシミュレータの忠実度とsim-to-real知識伝達の優れた性能を示す。

Federated Learning (FL) over wireless multi-hop edge computing networks, i.e., multi-hop FL, is a cost-effective distributed on-device deep learning paradigm. This paper presents FedEdge simulator, a high-fidelity Linux-based simulator, which enables fast prototyping, sim-to-real code, and knowledge transfer for multi-hop FL systems. FedEdge simulator is built on top of the hardware-oriented FedEdge experimental framework with a new extension of the realistic physical layer emulator. This emulator exploits trace-based channel modeling and dynamic link scheduling to minimize the reality gap between the simulator and the physical testbed. Our initial experiments demonstrate the high fidelity of the FedEdge simulator and its superior performance on sim-to-real knowledge transfer in reinforcement learning-optimized multi-hop FL.
翻訳日:2021-10-20 07:28:41 公開日:2021-10-18
# (参考訳) 不確実性を考慮した半監督型ショットセグメンテーション [全文訳有]

Uncertainty-Aware Semi-Supervised Few Shot Segmentation ( http://arxiv.org/abs/2110.08954v1 )

ライセンス: CC BY 4.0
Soopil Kim, Philip Chikontwe, Sang Hyun Park(参考訳) 少ないショットセグメンテーション(FSS)は、いくつかのアノテーション付きサポートサンプルを使用して、クエリ画像中の対象オブジェクトのピクセルレベルの分類を学習することを目的としている。 これは、ターゲットオブジェクトの外観のバリエーションと、限られた情報でクエリーとサポート画像の間の様々な視覚的な手がかりをモデル化する必要があるため、困難である。 この問題に対処するために,不確実性にガイドされた擬似ラベルリファインメントを備えたラベル付き画像から,新たなプロトタイプを活用する半教師付きFSS戦略を提案する。 ラベルのない画像から信頼できるプロトタイプを得るため、ニューラルネットワークをメタトレーニングし、セグメンテーションを共同で予測し、予測の不確かさを推定する。 我々は,疑似ラベル構築のための不確実度の高い予測を除外し,改良された疑似ラベルに基づく追加プロトタイプを得るために不確実性推定を用いる。 推論中、クエリのセグメンテーションは、クエリイメージの低レベル機能を含む、サポートとラベルなしイメージの両方のプロトタイプを使用して予測される。 我々のアプローチはエンドツーエンドであり、ラベルなしサンプルを使用するための追加のトレーニングを必要とせずに既存のアプローチを簡単に補うことができる。 PASCAL-$5^i$およびCOCO-$20^i$の大規模な実験により,我々のモデルは疑似ラベルを洗練するための信頼性の低い予測を効果的に除去し,最先端の性能を大幅に向上させることができることを示した。

Few shot segmentation (FSS) aims to learn pixel-level classification of a target object in a query image using only a few annotated support samples. This is challenging as it requires modeling appearance variations of target objects and the diverse visual cues between query and support images with limited information. To address this problem, we propose a semi-supervised FSS strategy that leverages additional prototypes from unlabeled images with uncertainty guided pseudo label refinement. To obtain reliable prototypes from unlabeled images, we meta-train a neural network to jointly predict segmentation and estimate the uncertainty of predictions. We employ the uncertainty estimates to exclude predictions with high degrees of uncertainty for pseudo label construction to obtain additional prototypes based on the refined pseudo labels. During inference, query segmentation is predicted using prototypes from both support and unlabeled images including low-level features of the query images. Our approach is end-to-end and can easily supplement existing approaches without the requirement of additional training to employ unlabeled samples. Extensive experiments on PASCAL-$5^i$ and COCO-$20^i$ demonstrate that our model can effectively remove unreliable predictions to refine pseudo labels and significantly improve upon state-of-the-art performances.
翻訳日:2021-10-20 07:17:17 公開日:2021-10-18
# (参考訳) 対向訓練による電力系統制御のための強化学習のロバスト性向上 [全文訳有]

Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training ( http://arxiv.org/abs/2110.08956v1 )

ライセンス: CC BY 4.0
Alexander Pan, Yongkyun (Daniel) Lee, Huan Zhang, Yize Chen, Yuanyuan Shi(参考訳) 再生可能エネルギーの増殖と本質的な断続性と確率性により、現在の電力システムは厳しい運用上の課題に直面している。 データ駆動による強化学習(RL)による意思決定アルゴリズムはクリーンエネルギーシステムを効率的に運用するためのソリューションを提供する。 rlアルゴリズムはモデルベースの制御モデルと比較して有望な性能を発揮するが、安全性クリティカルな物理システムにおけるrlの堅牢性に関する調査は限られている。 本研究では,電力系統制御のために提案された競争に勝る最先端のRLエージェントが,敵攻撃に対して脆弱であることを示す。 具体的には,攻撃方針を学習するために敵対的マルコフ決定プロセスを使用し,ホワイトボックスおよびブラックボックス攻撃設定下で,学習から複数の勝利エージェントを攻撃し,パワーネットワーク(l2rpn)チャレンジを実行することにより,攻撃の威力を示す。 次に,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。 我々の知る限り、我々の研究はグリッド制御RLアルゴリズムの脆弱性を初めて強調し、その堅牢性とセキュリティを改善するための効果的な防御スキームに貢献する。

Due to the proliferation of renewable energy and its intrinsic intermittency and stochasticity, current power systems face severe operational challenges. Data-driven decision-making algorithms from reinforcement learning (RL) offer a solution towards efficiently operating a clean energy system. Although RL algorithms achieve promising performance compared to model-based control models, there has been limited investigation of RL robustness in safety-critical physical systems. In this work, we first show that several competition-winning, state-of-the-art RL agents proposed for power system control are vulnerable to adversarial attacks. Specifically, we use an adversary Markov Decision Process to learn an attack policy, and demonstrate the potency of our attack by successfully attacking multiple winning agents from the Learning To Run a Power Network (L2RPN) challenge, under both white-box and black-box attack settings. We then propose to use adversarial training to increase the robustness of RL agent against attacks and avoid infeasible operational decisions. To the best of our knowledge, our work is the first to highlight the fragility of grid control RL algorithms, and contribute an effective defense scheme towards improving their robustness and security.
翻訳日:2021-10-20 07:03:51 公開日:2021-10-18
# (参考訳) SS-MAIL:自己監督型マルチエージェント模倣学習 [全文訳有]

SS-MAIL: Self-Supervised Multi-Agent Imitation Learning ( http://arxiv.org/abs/2110.08963v1 )

ライセンス: CC BY 4.0
Akshay Dharmavaram, Tejus Gupta, Jiachen Li, Katia P. Sycara(参考訳) マルチエージェント・エキスパート模倣の現在の展望は、行動クローニング(bc)と敵対的模倣学習(ail)の2つのアルゴリズムによって広く支配されている。 bcアプローチは、軌道生成問題の逐次的決定性を無視しているため、エラーの複合化に苦しむ。 さらに、マルチモーダルな振る舞いを効果的にモデル化することはできない。 AIL法は複合的なエラーやマルチモーダルなポリシートレーニングの問題を解決するが、トレーニングダイナミクスの不安定さに悩まされている。 本研究では,よりリッチな報酬関数を識別する新たな自己監督的損失を導入することで,この問題に対処する。 我々は,学習された潜伏相互作用グラフに基づいて,集中型ポリシーを学習するグラフベースのマルチエージェントアクタ批判アーキテクチャを訓練する。 提案手法は,実世界の予測タスクやカスタムデザインによる合成実験において,事前の最先端手法よりも優れていることを示す。 SS-MAILはコスト調整型見習い学習に理論的に関係があることを実証する。 さらに, 自己指導式を活用し, 生成する軌道長を段階的に増やし, サンプル効率を向上させる新しい教員強制型カリキュラム(軌道強制)を導入する。 ss-mailフレームワークは、ポリシトレーニングの安定化、報酬シェーピング機能の改善、マルチモーダルトラジェクタのモデリング機能を提供することで、マルチエージェント模倣能力を向上させる。

The current landscape of multi-agent expert imitation is broadly dominated by two families of algorithms - Behavioral Cloning (BC) and Adversarial Imitation Learning (AIL). BC approaches suffer from compounding errors, as they ignore the sequential decision-making nature of the trajectory generation problem. Furthermore, they cannot effectively model multi-modal behaviors. While AIL methods solve the issue of compounding errors and multi-modal policy training, they are plagued with instability in their training dynamics. In this work, we address this issue by introducing a novel self-supervised loss that encourages the discriminator to approximate a richer reward function. We employ our method to train a graph-based multi-agent actor-critic architecture that learns a centralized policy, conditioned on a learned latent interaction graph. We show that our method (SS-MAIL) outperforms prior state-of-the-art methods on real-world prediction tasks, as well as on custom-designed synthetic experiments. We prove that SS-MAIL is part of the family of AIL methods by providing a theoretical connection to cost-regularized apprenticeship learning. Moreover, we leverage the self-supervised formulation to introduce a novel teacher forcing-based curriculum (Trajectory Forcing) that improves sample efficiency by progressively increasing the length of the generated trajectory. The SS-MAIL framework improves multi-agent imitation capabilities by stabilizing the policy training, improving the reward shaping capabilities, as well as providing the ability for modeling multi-modal trajectories.
翻訳日:2021-10-20 06:49:47 公開日:2021-10-18
# (参考訳) 屋外環境における3次元4次元ランドマーク構築による高精度でロバストなオブジェクト指向SLAM [全文訳有]

Accurate and Robust Object-oriented SLAM with 3D Quadric Landmark Construction in Outdoor Environment ( http://arxiv.org/abs/2110.08977v1 )

ライセンス: CC BY 4.0
Rui Tian, Yunzhou Zhang, Yonghui Feng, Linghao Yang, Zhenzhong Cao, Sonya Coleman, Dermot Kerr(参考訳) オブジェクト指向SLAMは自律走行とロボット工学で一般的な技術である。 本稿では,ロバストな2次ランドマーク表現を用いた立体視SLAMを提案する。 このシステムは、ディープラーニング検出、オブジェクト指向データアソシエーション、二重二次ランドマーク初期化、オブジェクトベースのポーズ最適化を含む4つのコンポーネントで構成されている。 最先端のquadric-based slamアルゴリズムは常に観測関連の問題に直面し、観測ノイズに敏感である。 そこで本研究では,観測ノイズに対するロバスト性を向上させるために,二次パラメータ法の分離に基づく二次初期化法を提案する。 十分なオブジェクトデータアソシエーションアルゴリズムと複数のキューによるオブジェクト指向最適化は、局所観測にロバストな高精度なオブジェクトポーズ推定を可能にする。 実験結果から, 提案システムは観測騒音に対してより頑健であり, 屋外環境での最先端手法よりも優れていた。 また,提案システムではリアルタイムな性能を示す。

Object-oriented SLAM is a popular technology in autonomous driving and robotics. In this paper, we propose a stereo visual SLAM with a robust quadric landmark representation method. The system consists of four components, including deep learning detection, object-oriented data association, dual quadric landmark initialization and object-based pose optimization. State-of-the-art quadric-based SLAM algorithms always face observation related problems and are sensitive to observation noise, which limits their application in outdoor scenes. To solve this problem, we propose a quadric initialization method based on the decoupling of the quadric parameters method, which improves the robustness to observation noise. The sufficient object data association algorithm and object-oriented optimization with multiple cues enables a highly accurate object pose estimation that is robust to local observations. Experimental results show that the proposed system is more robust to observation noise and significantly outperforms current state-of-the-art methods in outdoor environments. In addition, the proposed system demonstrates real-time performance.
翻訳日:2021-10-20 06:36:33 公開日:2021-10-18
# (参考訳) FEANet: RGB-Thermal Real-time Semantic Segmentationのための機能強化アテンションネットワーク [全文訳有]

FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation ( http://arxiv.org/abs/2110.08988v1 )

ライセンス: CC BY 4.0
Fuqin Deng, Hua Feng, Mingjian Liang, Hongmin Wang, Yong Yang, Yuan Gao, Junfeng Chen, Junjie Hu, Xiyue Guo, and Tin Lun Lam(参考訳) セマンティックセグメンテーションのためのRGB-Thermal (RGB-T) 情報は近年広く研究されている。 しかし、既存のRGB-Tセマンティックセマンティックセグメンテーションは、通常、空間分解能を妥協してリアルタイムの推論速度を達成し、性能が低下する。 詳細な空間情報を抽出するため,rgb-tセマンティクスセグメンテーションタスクのための2段階特徴強調アテンションネットワーク(feanet)を提案する。 具体的には、チャネルビューと空間ビューの両方からマルチレベル特徴を発掘・拡張するための機能拡張注意モジュール(FEAM)を導入する。 提案する FEAM モジュールに特化して,FEANet は空間情報を保存し,融合した RGB-T 画像から高分解能な特徴に注目する。 都市景観データセットの大規模な実験により、我々のFEANetは、客観的な指標と主観的視覚比較(グローバルmAccでは+2.6%、グローバルmIoUでは+0.8%)の観点から、他の最先端(SOTA)RGB-T法よりも優れていることが示された。 480 x 640 RGB-Tテスト画像の場合、当社のFEANetはNVIDIA GeForce RTX 2080 Tiカード上でリアルタイムに実行できます。

The RGB-Thermal (RGB-T) information for semantic segmentation has been extensively explored in recent years. However, most existing RGB-T semantic segmentation usually compromises spatial resolution to achieve real-time inference speed, which leads to poor performance. To better extract detail spatial information, we propose a two-stage Feature-Enhanced Attention Network (FEANet) for the RGB-T semantic segmentation task. Specifically, we introduce a Feature-Enhanced Attention Module (FEAM) to excavate and enhance multi-level features from both the channel and spatial views. Benefited from the proposed FEAM module, our FEANet can preserve the spatial information and shift more attention to high-resolution features from the fused RGB-T images. Extensive experiments on the urban scene dataset demonstrate that our FEANet outperforms other state-of-the-art (SOTA) RGB-T methods in terms of objective metrics and subjective visual comparison (+2.6% in global mAcc and +0.8% in global mIoU). For the 480 x 640 RGB-T test images, our FEANet can run with a real-time speed on an NVIDIA GeForce RTX 2080 Ti card.
翻訳日:2021-10-20 06:24:31 公開日:2021-10-18
# (参考訳) 選択的推論による多次元多重変化点の統計的検証

Valid and Exact Statistical Inference for Multi-dimensional Multiple Change-Points by Selective Inference ( http://arxiv.org/abs/2110.08989v1 )

ライセンス: CC BY 4.0
Ryota Sugiyama, Hiroki Toda, Vo Nguyen Le Duy, Yu Inatsu, Ichiro Takeuchi(参考訳) 本稿では,多次元配列における変化点(CP)の統計的推測について検討する。 多次元配列からのCP検出では、位置を検出するだけでなく、変化が起こるコンポーネントのサブセットを特定することも望ましい。 このような問題に対していくつかのアルゴリズムが提案されているが、検出された位置や成分の統計的信頼性を評価するための正確な推測法は確立されていない。 本研究では,検出された変化の位置と成分の両方の統計的信頼性を保証する手法を提案する。 提案手法の有効性を,ゲノム異常の同定と人間の行動解析の問題点に適用することで実証する。

In this paper, we study statistical inference of change-points (CPs) in multi-dimensional sequence. In CP detection from a multi-dimensional sequence, it is often desirable not only to detect the location, but also to identify the subset of the components in which the change occurs. Several algorithms have been proposed for such problems, but no valid exact inference method has been established to evaluate the statistical reliability of the detected locations and components. In this study, we propose a method that can guarantee the statistical reliability of both the location and the components of the detected changes. We demonstrate the effectiveness of the proposed method by applying it to the problems of genomic abnormality identification and human behavior analysis.
翻訳日:2021-10-20 06:10:53 公開日:2021-10-18
# (参考訳) Wasserstein Barycenter の次元化

Dimensionality Reduction for Wasserstein Barycenter ( http://arxiv.org/abs/2110.08991v1 )

ライセンス: CC BY 4.0
Zachary Izzo, Sandeep Silwal, Samson Zhou(参考訳) wasserstein barycenterは、確率分布間の中心性の概念を捉えた幾何学的構成であり、機械学習に多くの応用がある。 しかし、近似的なバリーセンターを見つけるアルゴリズムの多くは、分布の基底空間の次元 $d$ に指数関数的に依存する。 この「次元の曲線」に対処するために,ワッサースタイン・バリセンター問題の次元性低減手法について検討した。 barycenter が $n$ の大きさのサポートに制限されている場合、ランダム化された次元の縮小は、その問題を $d$ と $k$ の両方に依存しない次元 $o(\log n)$ の空間にマッピングするのに使用され、縮小次元にある \emph{any} の解は元の空間における任意の小さな誤差までコストが保たれることを示した。 縮小次元の大きさの上限値と下限値とを一致させて,本手法が定数因子まで最適であることを示す。 また,wasserstein barycenter問題に対するコアセット構成も提供し,入力分布の数を大幅に減少させる。 コアセットはランダムなプロジェクションと組み合わせて使用することができ、計算時間をさらに改善することができる。 最後に, ソリューションの品質を維持しつつ, 次元減少によるスピードアップを検証した。

The Wasserstein barycenter is a geometric construct which captures the notion of centrality among probability distributions, and which has found many applications in machine learning. However, most algorithms for finding even an approximate barycenter suffer an exponential dependence on the dimension $d$ of the underlying space of the distributions. In order to cope with this "curse of dimensionality," ; we study dimensionality reduction techniques for the Wasserstein barycenter problem. When the barycenter is restricted to support of size $n$, we show that randomized dimensionality reduction can be used to map the problem to a space of dimension $O(\log n)$ independent of both $d$ and $k$, and that \emph{any} solution found in the reduced dimension will have its cost preserved up to arbitrary small error in the original space. We provide matching upper and lower bounds on the size of the reduced dimension, showing that our methods are optimal up to constant factors. We also provide a coreset construction for the Wasserstein barycenter problem that significantly decreases the number of input distributions. The coresets can be used in conjunction with random projections and thus further improve computation time. Lastly, our experimental results validate the speedup provided by dimensionality reduction while maintaining solution quality.
翻訳日:2021-10-20 06:09:44 公開日:2021-10-18
# (参考訳) NYU-VPR:ビュー方向とデータ匿名化の影響を考慮した長期視覚的位置認識ベンチマーク [全文訳有]

NYU-VPR: Long-Term Visual Place Recognition Benchmark with View Direction and Data Anonymization Influences ( http://arxiv.org/abs/2110.09004v1 )

ライセンス: CC BY 4.0
Diwei Sheng, Yuxiang Chai, Xinru Li, Chen Feng, Jianzhe Lin, Claudio Silva, John-Ross Rizzo(参考訳) 視覚的位置認識(VPR)は、自律走行車両の局所化とマッピングだけでなく、視覚障害者のための補助ナビゲーションにも重要である。 大規模な長期VPRシステムを実現するには、いくつかの課題に取り組む必要がある。 まず、異なるアプリケーションでは、自動運転車のフロントビューや低視野の人々のためのサイドビューなど、異なるイメージビューの方向が必要になる可能性がある。 第二に、大都市圏のVPRは、VPRクエリやデータベース構築の前にデータ匿名化の必要性を訴える歩行者や車両の識別情報のイメージングによって、しばしばプライバシー上の懸念を引き起こす。 どちらの要因も、まだよく理解されていないVPRパフォーマンスのバリエーションにつながる可能性がある。 これらの影響を研究するため、ニューヨーク大学キャンパス近くの2km×2kmの領域に20万枚以上の画像を含むNYU-VPRデータセットを2016年中に公開した。 我々は,いくつかの一般的なvprアルゴリズムにおいて,データ匿名化の影響がほぼ無視できる一方で,サイドビューが現在のvpr法よりも著しく困難であることを示すベンチマーク結果を示す。

Visual place recognition (VPR) is critical in not only localization and mapping for autonomous driving vehicles, but also assistive navigation for the visually impaired population. To enable a long-term VPR system on a large scale, several challenges need to be addressed. First, different applications could require different image view directions, such as front views for self-driving cars while side views for the low vision people. Second, VPR in metropolitan scenes can often cause privacy concerns due to the imaging of pedestrian and vehicle identity information, calling for the need for data anonymization before VPR queries and database construction. Both factors could lead to VPR performance variations that are not well understood yet. To study their influences, we present the NYU-VPR dataset that contains more than 200,000 images over a 2km by 2km area near the New York University campus, taken within the whole year of 2016. We present benchmark results on several popular VPR algorithms showing that side views are significantly more challenging for current VPR methods while the influence of data anonymization is almost negligible, together with our hypothetical explanations and in-depth analysis.
翻訳日:2021-10-20 06:08:35 公開日:2021-10-18
# (参考訳) 注意ネットワークを用いた異常機能グリッドマップ認識 [全文訳有]

Abnormal Occupancy Grid Map Recognition using Attention Network ( http://arxiv.org/abs/2110.09047v1 )

ライセンス: CC BY 4.0
Fuqin Deng, Hua Feng, Mingjian Liang, Qi Feng, Ningbo Yi, Yong Yang, Yuan Gao, Junfeng Chen, and Tin Lun Lam(参考訳) 占有グリッドマップは、他の多くのシステムの性能がそれに依存するため、移動ロボットシステムにおける自律的な位置決めとナビゲーションの重要な構成要素である。 占有グリッドマップの品質を保証するために、研究者は長い間、面倒な手動認識を行わなければならなかった。 本研究は、残差ニューラルネットワークと新しいアテンション機構モジュールを用いた、自動異常占有グリッドマップ認識に焦点を当てる。 階層的特徴を生成するための残差ブロックを含む効果的なチャネルおよび空間残留SE(csRSE)アテンションモジュールを提案し,それに続いて,チャネルと空間経路に沿った十分な情報抽出のためのチャネルSE(cSE)ブロックと空間SE(sSE)ブロックを提案する。 占有グリッドマップの特性をさらに要約し,csrseアテンションモジュールを用いて実験を行うため,occupancy grid map dataset (ogmd) というデータセットを構築した。 このOGMDテストデータセットを用いて,提案した構造の変種を試験し,他の注意機構と比較した。 実験の結果,提案した注意ネットワークは,異常占有格子地図認識の精度96.23%で異常地図を推定できることがわかった。

The occupancy grid map is a critical component of autonomous positioning and navigation in the mobile robotic system, as many other systems' performance depends heavily on it. To guarantee the quality of the occupancy grid maps, researchers previously had to perform tedious manual recognition for a long time. This work focuses on automatic abnormal occupancy grid map recognition using the residual neural networks and a novel attention mechanism module. We propose an effective channel and spatial Residual SE(csRSE) attention module, which contains a residual block for producing hierarchical features, followed by both channel SE (cSE) block and spatial SE (sSE) block for the sufficient information extraction along the channel and spatial pathways. To further summarize the occupancy grid map characteristics and experiment with our csRSE attention modules, we constructed a dataset called occupancy grid map dataset (OGMD) for our experiments. On this OGMD test dataset, we tested few variants of our proposed structure and compared them with other attention mechanisms. Our experimental results show that the proposed attention network can infer the abnormal map with state-of-the-art (SOTA) accuracy of 96.23% for abnormal occupancy grid map recognition.
翻訳日:2021-10-20 05:56:59 公開日:2021-10-18
# (参考訳) 発見と選択:弱監視対象検出のための最適複数インスタンス学習を目指して [全文訳有]

Discovery-and-Select ion: Towards Optimal Multiple Instance Learning for Weakly Supervised Object Detection ( http://arxiv.org/abs/2110.09060v1 )

ライセンス: CC BY 4.0
Shiwei Zhang, Wei Ke, Lin Yang, Qixiang Ye, Xiaopeng Hong, Yihong Gong, Tong Zhang(参考訳) 弱教師付きオブジェクト検出(WSOD)は、画像カテゴリラベルの監督の下で、オブジェクト分類器を同時に学習し、オブジェクトの位置を推定する必要がある課題である。 WSODメソッドのメインラインは、イメージを例のバッグと見なす複数のインスタンス学習に根ざし、各バッグから正のインスタンスを選択して検出器を学習する。 しかし、検出器が物体全体ではなく物体の識別的な部分に収束するにつれ、大きな課題が生じる。 本稿では,局所ミニマに最適解が組み込まれているという仮説の下で,複数インスタンス学習(DS-MIL)と融合した探索・選択手法を提案する。 DS-MILを実装するために、注目モジュールは特徴マップによってより多くのコンテキスト情報をキャプチャし、トレーニング中により価値のある提案を収集できるように設計されている。 提案候補では、オブジェクト検出トレーニングのインフォメーションインスタンスを選択するように再ランクモジュールが設計されている。 評価実験の結果,DS-MIL の手法はベースラインを常に改善し,最先端の性能を報告できることがわかった。

Weakly supervised object detection (WSOD) is a challenging task that requires simultaneously learn object classifiers and estimate object locations under the supervision of image category labels. A major line of WSOD methods roots in multiple instance learning which regards images as bags of instance and selects positive instances from each bag to learn the detector. However, a grand challenge emerges when the detector inclines to converge to discriminative parts of objects rather than the whole objects. In this paper, under the hypothesis that optimal solutions are included in local minima, we propose a discoveryand-selecti on approach fused with multiple instance learning (DS-MIL), which finds rich local minima and select optimal solutions from multiple local minima. To implement DS-MIL, an attention module is designed so that more context information can be captured by feature maps and more valuable proposals can be collected during training. With proposal candidates, a re-rank module is designed to select informative instances for object detector training. Experimental results on commonly used benchmarks show that our proposed DS-MIL approach can consistently improve the baselines, reporting state-of-the-art performance.
翻訳日:2021-10-20 05:44:41 公開日:2021-10-18
# (参考訳) 長期カプセル内視鏡映像の時間分割のための教師なしショット境界検出 [全文訳有]

Unsupervised Shot Boundary Detection for Temporal Segmentation of Long Capsule Endoscopy Videos ( http://arxiv.org/abs/2110.09067v1 )

ライセンス: CC BY 4.0
Sodiq Adewole, Philip Fernandes, James Jablonski, Andrew Copland, Michael Porter, Sana Syed, Donald Brown(参考訳) 医師は、疾患や異常の消化管全体を検査するために、非侵襲的かつ非外科的処置としてカプセル内視鏡(ce)を使用する。 1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。 医師は診断する前に、ビデオ全体をレビューして分析し、異常や疾患を特定する必要がある。 このレビュータスクは非常に退屈で、時間がかかり、エラーを起こしやすい。 医師の最終的な診断に関係のある有用な内容は、単一のフレームでのみ取得できるが、小さな腸領域をカバーしているフレームは、最大で5万の可能性がある。 本稿では,医師のレビュー時間と労力を最小限に抑えるために,長期CEビデオを自動的に均一かつ識別可能なビデオセグメントに分割する,教師なしかつ効率的な時間分割手法を提案する。 しかし, 高次元フレーム特徴行列を用いた長期ビデオにおける時間境界探索は, 実際の臨床応用において計算的に禁止され, 実行不可能である。 そこで,ビデオ中の空間的情報と時間的情報を利用して,まず事前学習したCNNモデルを用いて高階フレームの特徴を抽出し,高次元フレーム特徴行列を投影し,低次元埋め込みを行った。 この1次元シーケンス埋め込みを用いて,pruned exact linear time (pelt) アルゴリズムを適用し,正規フレームから異常フレームへの遷移点を示す時間境界の探索を行った。 複数の実患者によるceビデオを用いて実験を行い,専門家が提供したラベルに対する複数のテストビデオで66\%のaucを達成した。

Physicians use Capsule Endoscopy (CE) as a non-invasive and non-surgical procedure to examine the entire gastrointestinal (GI) tract for diseases and abnormalities. A single CE examination could last between 8 to 11 hours generating up to 80,000 frames which is compiled as a video. Physicians have to review and analyze the entire video to identify abnormalities or diseases before making diagnosis. This review task can be very tedious, time consuming and prone to error. While only as little as a single frame may capture useful content that is relevant to the physicians' final diagnosis, frames covering the small bowel region alone could be as much as 50,000. To minimize physicians' review time and effort, this paper proposes a novel unsupervised and computationally efficient temporal segmentation method to automatically partition long CE videos into a homogeneous and identifiable video segments. However, the search for temporal boundaries in a long video using high dimensional frame-feature matrix is computationally prohibitive and impracticable for real clinical application. Therefore, leveraging both spatial and temporal information in the video, we first extracted high level frame features using a pretrained CNN model and then projected the high-dimensional frame-feature matrix to lower 1-dimensional embedding. Using this 1-dimensional sequence embedding, we applied the Pruned Exact Linear Time (PELT) algorithm to searched for temporal boundaries that indicates the transition points from normal to abnormal frames and vice-versa. We experimented with multiple real patients' CE videos and our model achieved an AUC of 66\% on multiple test videos against expert provided labels.
翻訳日:2021-10-20 05:23:58 公開日:2021-10-18
# (参考訳) 協調型知的輸送システムのための半同期階層型連合学習 [全文訳有]

Semi-asynchronous Hierarchical Federated Learning for Cooperative Intelligent Transportation Systems ( http://arxiv.org/abs/2110.09073v1 )

ライセンス: CC BY-SA 4.0
Qimei Chen and Zehua You and Hao Jiang(参考訳) C-ITS(Cooperative Intelligent Transport System)は、自動運転車や道路インフラの安全、効率、持続可能性、快適なサービスを提供するための有望なネットワークである。 しかし、C-ITSのコンポーネントは通常大量のデータを生成するため、データサイエンスを探索することは困難である。 現在、訓練された参加者の利益を共同で得るための魅力的なアプローチとして、連合学習が提案されている。 そこで本稿では,データセンシングによるクラウドモデルアグリゲーションを実現するために,c-itsのための半同期階層型階層型連合学習(shfl)フレームワークを提案する。 さらに,提案するshflの枠組みに基づき,共用エッジノードの関連付けと資源配分の問題も定式化し,異種道路車両のパーソナリティの防止と通信効率の向上を図る。 提案する混合整数非線形プログラミング (minlp) 問題に対処するために, 乗算器 (admm)-ブロック座標更新 (bcu) の分散交互方向法を提案する。 このアルゴリズムにより、トレーニング精度と送信遅延のトレードオフが導出された。 シミュレーションにより,提案アルゴリズムの利点を訓練のオーバーヘッドとモデル性能の観点から示す。

Cooperative Intelligent Transport System (C-ITS) is a promising network to provide safety, efficiency, sustainability, and comfortable services for automated vehicles and road infrastructures by taking advantages from participants. However, the components of C-ITS usually generate large amounts of data, which makes it difficult to explore data science. Currently, federated learning has been proposed as an appealing approach to allow users to cooperatively reap the benefits from trained participants. Therefore, in this paper, we propose a novel Semi-asynchronous Hierarchical Federated Learning (SHFL) framework for C-ITS that enables elastic edge to cloud model aggregation from data sensing. We further formulate a joint edge node association and resource allocation problem under the proposed SHFL framework to prevent personalities of heterogeneous road vehicles and achieve communication-effici ency. To deal with our proposed Mixed integer nonlinear programming (MINLP) problem, we introduce a distributed Alternating Direction Method of Multipliers (ADMM)-Block Coordinate Update (BCU) algorithm. With this algorithm, a tradeoff between training accuracy and transmission latency has been derived. Numerical results demonstrate the advantages of the proposed algorithm in terms of training overhead and model performance.
翻訳日:2021-10-20 05:07:18 公開日:2021-10-18
# (参考訳) 連合学習における全般的深部リークに向けて [全文訳有]

Towards General Deep Leakage in Federated Learning ( http://arxiv.org/abs/2110.09074v1 )

ライセンス: CC BY 4.0
Jiahui Geng, Yongli Mou, Feifei Li, Qing Li, Oya Beyan, Stefan Decker, Chunming Rong(参考訳) 従来の中央トレーニングとは異なり、フェデレーション学習(fl)は、ユーザのプライバシを保護するためにローカルデータではなく、ローカルモデルを共有して集約することで、グローバルモデルのパフォーマンスを向上させる。 このトレーニングアプローチは安全に見えるが、ある研究では、攻撃者が共有勾配情報に基づいてプライベートデータを復元できることが示されている。 このオンザフライの再構築攻撃は、モデルトレーニングの開始時でも終了時でも、トレーニングのどの段階でも起こり得るため、深く研究されるべきである。 我々は、このレコンストラクション攻撃を幅広いシナリオに適用するための非現実的な仮定と制限を突破する。 本研究では,feedsgd と fedavg の使用シナリオに対応して,共有勾配や重み付けからトレーニングデータを再構成する手法を提案する。 バッチ内に重複ラベルがあってもラベルを復元するゼロショット手法を提案する。 ラベルと画像復元の関係について検討する。 また,バッチ画像が同一のラベルを持つ場合,その画像の融合として対応する画像が復元されることも確認した。 CIFAR-10 や ImageNet など,従来の画像ベンチマークによるアプローチの評価を行った。 バッチサイズ、画像品質、および我々のアプローチのラベル分布の適応性は、最先端のgradinversionのそれを超える。

Unlike traditional central training, federated learning (FL) improves the performance of the global model by sharing and aggregating local models rather than local data to protect the users' privacy. Although this training approach appears secure, some research has demonstrated that an attacker can still recover private data based on the shared gradient information. This on-the-fly reconstruction attack deserves to be studied in depth because it can occur at any stage of training, whether at the beginning or at the end of model training; no relevant dataset is required and no additional models need to be trained. We break through some unrealistic assumptions and limitations to apply this reconstruction attack in a broader range of scenarios. We propose methods that can reconstruct the training data from shared gradients or weights, corresponding to the FedSGD and FedAvg usage scenarios, respectively. We propose a zero-shot approach to restore labels even if there are duplicate labels in the batch. We study the relationship between the label and image restoration. We find that image restoration fails even if there is only one incorrectly inferred label in the batch; we also find that when batch images have the same label, the corresponding image is restored as a fusion of that class of images. Our approaches are evaluated on classic image benchmarks, including CIFAR-10 and ImageNet. The batch size, image quality, and the adaptability of the label distribution of our approach exceed those of GradInversion, the state-of-the-art.
翻訳日:2021-10-20 04:48:01 公開日:2021-10-18
# (参考訳) テンポラル翻訳による映像逆転例の転送性向上 [全文訳有]

Boosting the Transferability of Video Adversarial Examples via Temporal Translation ( http://arxiv.org/abs/2110.09075v1 )

ライセンス: CC BY 4.0
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) ディープラーニングに基づくビデオ認識モデルは目覚ましい成功を収めているが、クリーンなビデオサンプルに人間の知覚できない摂動を加えることで生じる敵の例には弱い。 最近の研究で示されているように、敵の例は転送可能であり、現実世界のアプリケーションではブラックボックス攻撃が可能である。 しかしながら、既存のほとんどの敵攻撃手法は、他のビデオモデルを攻撃する場合の転送性が劣る。 そこで本研究では,ビデオ認識モデルに対するブラックボックス攻撃に対するビデオ逆転例の転送可能性を高めることを提案する。 広汎な分析により、異なる映像認識モデルは異なる識別的時間パターンに依存しており、ビデオ対向例の移動性が低いことが判明した。 これにより,時間的変換ビデオクリップの対向的摂動を最適化する時間的翻訳攻撃手法を導入することができる。 翻訳ビデオ上の敵の例を生成することで、結果の敵の例は攻撃対象のホワイトボックスモデルに存在する時間パターンに敏感ではなく、よりよい転送が可能となる。 Kinetics-400 データセットと UCF-101 データセットの大規模な実験により,本手法がビデオ対向例の転送可能性を大幅に向上することを示した。 動画認識モデルに対する転送ベースの攻撃では、キネティクス400で平均61.56%、UCF-101で平均48.60%となる。

Although deep-learning based video recognition models have achieved remarkable success, they are vulnerable to adversarial examples that are generated by adding human-imperceptible perturbations on clean video samples. As indicated in recent studies, adversarial examples are transferable, which makes it feasible for black-box attacks in real-world applications. Nevertheless, most existing adversarial attack methods have poor transferability when attacking other video models and transfer-based attacks on video models are still unexplored. To this end, we propose to boost the transferability of video adversarial examples for black-box attacks on video recognition models. Through extensive analysis, we discover that different video recognition models rely on different discriminative temporal patterns, leading to the poor transferability of video adversarial examples. This motivates us to introduce a temporal translation attack method, which optimizes the adversarial perturbations over a set of temporal translated video clips. By generating adversarial examples over translated videos, the resulting adversarial examples are less sensitive to temporal patterns existed in the white-box model being attacked and thus can be better transferred. Extensive experiments on the Kinetics-400 dataset and the UCF-101 dataset demonstrate that our method can significantly boost the transferability of video adversarial examples. For transfer-based attack against video recognition models, it achieves a 61.56% average attack success rate on the Kinetics-400 and 48.60% on the UCF-101.
翻訳日:2021-10-20 04:35:15 公開日:2021-10-18
# (参考訳) ViraPart: ペルシアのASRおよびNLPタスクのためのテキストリファインメントフレームワーク [全文訳有]

ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian ( http://arxiv.org/abs/2110.09086v1 )

ライセンス: CC BY 4.0
Narges Farokhshad, Milad Molazadeh, Saman Jamalabbasi, Hamed Babaei Giglou, Saeed Bibak(参考訳) ペルシア語は屈折型SOV言語である。 この事実はペルシア語をより不確実な言語にする。 しかし、zwnj認識、句読点復元、ペルシャのezafe構築などの技術を使用することで、より理解しやすく正確な言語につながります。 ペルシアのほとんどの作品において、これらの技法は個別に扱われている。 それにもかかわらず、ペルシア語のテキストの洗練には、これらすべてのタスクが必要であると信じています。 そこで本研究では,テキストの明確化に組込みparsbertを用いたvirapartフレームワークを提案する。 まず、分類手順の分類レイヤーに従って、ペルシャのBERT変種を使用した。 次に、モデル出力を組み合わせてcleartextを出力する。 提案したZWNJ認識モデル,句読点復元モデル,ペルシャ・エザフ構成モデルは,それぞれ96.90\%,92.13\%,98.5 0\%の平均F1マクロスコアを実行する。 実験の結果,提案手法はペルシャ語のテキストの洗練に非常に有効であることがわかった。

The Persian language is an inflectional SOV language. This fact makes Persian a more uncertain language. However, using techniques such as ZWNJ recognition, punctuation restoration, and Persian Ezafe construction will lead us to a more understandable and precise language. In most of the works in Persian, these techniques are addressed individually. Despite that, we believe that for text refinement in Persian, all of these tasks are necessary. In this work, we proposed a ViraPart framework that uses embedded ParsBERT in its core for text clarifications. First, used the BERT variant for Persian following by a classifier layer for classification procedures. Next, we combined models outputs to output cleartext. In the end, the proposed model for ZWNJ recognition, punctuation restoration, and Persian Ezafe construction performs the averaged F1 macro scores of 96.90\%, 92.13\%, and 98.50\%, respectively. Experimental results show that our proposed approach is very effective in text refinement for the Persian language.
翻訳日:2021-10-20 04:22:52 公開日:2021-10-18
# (参考訳) LDNet:合成音声のMOS予測における統一リスナー依存モデル [全文訳有]

LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech ( http://arxiv.org/abs/2110.09103v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Erica Cooper, Junichi Yamagishi, Tomoki Toda(参考訳) 合成音声の主観評価を自動的に予測する効果的なアプローチは、人間の注釈付きスコアでリスニングテストデータセットでトレーニングすることだ。 データセット内の各音声サンプルは、複数のリスナーによって評価されるが、以前のほとんどの研究では、平均スコアのみをトレーニングターゲットとして使用していた。 本研究では,入力音声と聴取者の同一性から,聞き手が知覚する品質を予測する,平均評価スコア(MOS)予測のための統合フレームワークLDNetを提案する。 我々は、モデルアーキテクチャの設計選択を含む最近のLDモデリングの進歩を反映し、より安定した結果と効率的な計算を提供する2つの推論手法を提案する。 我々は,音声変換チャレンジ(VCC)2018ベンチマークと,新たに収集した大規模MOSデータセットの体系的な実験を行い,提案フレームワークの詳細な分析を行った。 その結果, 平均聴取者推定法は, 平均聴取者推定法よりも有効であることが示唆された。

An effective approach to automatically predict the subjective rating for synthetic speech is to train on a listening test dataset with human-annotated scores. Although each speech sample in the dataset is rated by several listeners, most previous works only used the mean score as the training target. In this work, we present LDNet, a unified framework for mean opinion score (MOS) prediction that predicts the listener-wise perceived quality given the input speech and the listener identity. We reflect recent advances in LD modeling, including design choices of the model architecture, and propose two inference methods that provide more stable results and efficient computation. We conduct systematic experiments on the voice conversion challenge (VCC) 2018 benchmark and a newly collected large-scale MOS dataset, providing an in-depth analysis of the proposed framework. Results show that the mean listener inference method is a better way to utilize the mean scores, whose effectiveness is more obvious when having more ratings per sample.
翻訳日:2021-10-20 04:11:36 公開日:2021-10-18
# (参考訳) 長いカプセル内視鏡映像における異常局在を弱めるグラフ畳み込みニューラルネットワーク [全文訳有]

Graph Convolution Neural Network For Weakly Supervised Abnormality Localization In Long Capsule Endoscopy Videos ( http://arxiv.org/abs/2110.09110v1 )

ライセンス: CC BY 4.0
Sodiq Adewole, Philip Fernandes, James Jablonski, Andrew Copland, Michael Porter, Sana Syed, Donald Brown(参考訳) 長時間ビデオにおける時間的活動のローカライゼーションは重要な問題である。 長い無線カプセル内視鏡(WCE)ビデオのフレームレベルラベルを取得するコストは禁じられている。 本稿では,弱いビデオレベルラベルのみを用いた長時間WCEビデオの終端時間的異常局所化を提案する。 医師は、疾患や異常を診断するために、非外科的かつ非侵襲的に消化器全体を検査する方法としてカプセル内視鏡(ce)を使用する。 CEは従来の内視鏡手術に革命をもたらしたが、CE検査では最大8時間で10万フレームが生成される可能性がある。 医師は、関連する異常を捉えたフレームを特定するために、フレームごとにビデオ全体をレビューする必要がある。 これは、単に1フレームしか持たない場合もある。 この非常に高い冗長性を考えると、長いceビデオの分析は非常に退屈で時間がかかり、エラーも起こりやすい。 本稿では、弱いビデオラベルのみを用いて、長ビデオにおける興味の異常を捉えたターゲットフレームのエンドツーエンドローカライズのための新しいマルチステップ手法を提案する。 まず,映像を均一で均質で識別可能なセグメントに時間分割するための変化点検出手法を用いた時間分割の自動生成法を開発した。 次に,各映像セグメントの表現を学ぶために,グラフ畳み込みニューラルネットワーク(gcnn)を用いた。 弱いビデオセグメントラベルを用いて、少なくとも1つの異常フレームを含む場合、各ビデオセグメントが異常であると認識するようにGCNNモデルを訓練した。 最後に、トレーニングしたgcnnモデルのパラメータを利用して、ネットワークの最終層をテンポラリプール層に置き換え、各異常映像セグメント内の関連する異常フレームをローカライズした。 本手法は, グラフ分類タスクにおいて89.9\%, 異常フレーム位置決めタスクでは97.5\%の精度を達成した。

Temporal activity localization in long videos is an important problem. The cost of obtaining frame level label for long Wireless Capsule Endoscopy (WCE) videos is prohibitive. In this paper, we propose an end-to-end temporal abnormality localization for long WCE videos using only weak video level labels. Physicians use Capsule Endoscopy (CE) as a non-surgical and non-invasive method to examine the entire digestive tract in order to diagnose diseases or abnormalities. While CE has revolutionized traditional endoscopy procedures, a single CE examination could last up to 8 hours generating as much as 100,000 frames. Physicians must review the entire video, frame-by-frame, in order to identify the frames capturing relevant abnormality. This, sometimes could be as few as just a single frame. Given this very high level of redundancy, analyzing long CE videos can be very tedious, time consuming and also error prone. This paper presents a novel multi-step method for an end-to-end localization of target frames capturing abnormalities of interest in the long video using only weak video labels. First we developed an automatic temporal segmentation using change point detection technique to temporally segment the video into uniform, homogeneous and identifiable segments. Then we employed Graph Convolutional Neural Network (GCNN) to learn a representation of each video segment. Using weak video segment labels, we trained our GCNN model to recognize each video segment as abnormal if it contains at least a single abnormal frame. Finally, leveraging the parameters of the trained GCNN model, we replaced the final layer of the network with a temporal pool layer to localize the relevant abnormal frames within each abnormal video segment. Our method achieved an accuracy of 89.9\% on the graph classification task and a specificity of 97.5\% on the abnormal frames localization task.
翻訳日:2021-10-20 04:02:36 公開日:2021-10-18
# (参考訳) 署名ネットワークにおけるwikipediaメンバーシップデータセットの解析と未接続ノードの予測 [全文訳有]

Analyzing Wikipedia Membership Dataset and PredictingUnconnecte d Nodes in the Signed Networks ( http://arxiv.org/abs/2110.09111v1 )

ライセンス: CC BY 4.0
Zhihao Wu, Taoran Li, Ray Roman(参考訳) デジタルインタラクションの時代において、ソーシャルメディアに存在する対人関係は、オフラインに存在する全く同じ相互作用とは異なるかもしれない。 ここでは、Precison-Recall曲線とROCの下の領域を用いて、ソーシャルネットワーク内の2人の未接続の人々間の関係を予測する方法について検討する。 ソーシャル・ネットワークをサイン付きグラフとしてモデル化し、三進モデル、相対情報モデル、感情モデルを比較し、それらを用いてピアとピアの相互作用を予測する。 我々のモデルはランダムモデルよりもはるかに優れており、異なるケースで相互に補完することができる。

In the age of digital interaction, person-to-person relationships existing on social media may be different from the very same interactions that exist offline. Examining potential or spurious relationships between members in a social network is a fertile area of research for computer scientists -- here we examine how relationships can be predicted between two unconnected people in a social network by using area under Precison-Recall curve and ROC. Modeling the social network as a signed graph, we compare Triadic model,Latent Information model and Sentiment model and use them to predict peer to peer interactions, first using a plain signed network, and second using a signed network with comments as context. We see that our models are much better than random model and could complement each other in different cases.
翻訳日:2021-10-20 03:34:30 公開日:2021-10-18
# (参考訳) MVPポイントクラウド登録のための融合戦略を用いた深層モデル [全文訳有]

Deep Models with Fusion Strategies for MVP Point Cloud Registration ( http://arxiv.org/abs/2110.09129v1 )

ライセンス: CC BY 4.0
Lifa Zhu, Changwei Lin, Dongrui Liu, Xin Li, Francisco G\'omez-Fern\'andez(参考訳) Multi-View partial (MVP) Challenge 2021のポイントクラウド登録の主な目標は、ポイントクラウドペアを整合させる厳格な変換を見積もることである。 このコンペティションのペアは、低重なり、非一様密度、制限のない回転、曖昧さという特性を持ち、登録作業に大きな課題となる。 本稿では,ROPNetとPreDATORの2つのディープラーニングモデルと,カスタマイズしたアンサンブル戦略を融合した登録タスクのソリューションを紹介する。 最後に,rot\_error,trans\_e rror,mseの指標で2.96546,0.02632,0.07 808の計2位を達成した。

The main goal of point cloud registration in Multi-View Partial (MVP) Challenge 2021 is to estimate a rigid transformation to align a point cloud pair. The pairs in this competition have the characteristics of low overlap, non-uniform density, unrestricted rotations and ambiguity, which pose a huge challenge to the registration task. In this report, we introduce our solution to the registration task, which fuses two deep learning models: ROPNet and PREDATOR, with customized ensemble strategies. Finally, we achieved the second place in the registration track with 2.96546, 0.02632 and 0.07808 under the the metrics of Rot\_Error, Trans\_Error and MSE, respectively.
翻訳日:2021-10-20 03:23:21 公開日:2021-10-18
# (参考訳) AMR解析のためのグラフ予測の組込み [全文訳有]

Ensembling Graph Predictions for AMR Parsing ( http://arxiv.org/abs/2110.09131v1 )

ライセンス: CC BY 4.0
Hoang Thanh Lam, Gabriele Picco, Yufang Hou, Young-Suk Lee, Lam M. Nguyen, Dzung T. Phan, Vanessa L\'opez, Ramon Fernandez Astudillo(参考訳) 多くの機械学習タスクでは、モデルはグラフのような構造データを予測するように訓練される。 例えば自然言語処理では、テキストを依存木や抽象的意味表現(AMR)グラフにパースすることが一般的である。 一方、アンサンブル法は、複数のモデルからの予測を組み合わせて、個々の予測よりも堅牢で正確である新しいモデルを作成する。 文献では,分類や回帰問題に対して多くのセンシング手法が提案されているが,アンサンブルグラフの予測は十分に研究されていない。 本研究では,グラフ予測の収集によって最も支持される最大のグラフをマイニングすることで,この問題を定式化する。 問題はnpハードであるため,最適解を近似する効率的なヒューリスティックアルゴリズムを提案する。 提案手法を検証するため,AMR解析問題の実験を行った。 実験の結果,提案手法は最先端のAMR解析器の強度を組み合わせることで,5つの標準ベンチマークデータセットのどのモデルよりも精度の高い新しい予測を作成できることがわかった。

In many machine learning tasks, models are trained to predict structure data such as graphs. For example, in natural language processing, it is very common to parse texts into dependency trees or abstract meaning representation (AMR) graphs. On the other hand, ensemble methods combine predictions from multiple models to create a new one that is more robust and accurate than individual predictions. In the literature, there are many ensembling techniques proposed for classification or regression problems, however, ensemble graph prediction has not been studied thoroughly. In this work, we formalize this problem as mining the largest graph that is the most supported by a collection of graph predictions. As the problem is NP-Hard, we propose an efficient heuristic algorithm to approximate the optimal solution. To validate our approach, we carried out experiments in AMR parsing problems. The experimental results demonstrate that the proposed approach can combine the strength of state-of-the-art AMR parsers to create new predictions that are more accurate than any individual models in five standard benchmark datasets.
翻訳日:2021-10-20 03:15:05 公開日:2021-10-18
# (参考訳) BEAMetrics: 言語生成評価評価のためのベンチマーク [全文訳有]

BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation ( http://arxiv.org/abs/2110.09147v1 )

ライセンス: CC BY 4.0
Thomas Scialom and Felix Hill(参考訳) 自然言語処理(NLP)システムは、応答の分類よりもオープンなテキストを生成するように訓練されている。 これにより、コンテキストやヒューマンリファレンス応答によってシステム出力をスコアする機能である生成言語の評価メトリクスの研究が重要な意味を持つ。 しかし、異なるメトリクスは異なる強みとバイアスを持ち、人間の直観を他のタスクよりもよく反映する。 現在、代表的タスク全体にわたってメトリクスを比較し、分析し、評価する、シンプルで統一的な方法はありません。 ここでは、新しいメトリクス自体を評価しやすくするリソースであるBEAMetrics(Benchmark to Evaluate Automatic Metrics)について説明する。 BEAMetricsのユーザは、既存のメトリクスと新しいメトリクスを、さまざまなタスク、品質次元(頻度対コヒーレンス対情報性など)、言語で人間の判断と素早く比較することができます。 ジェネレーションの専門家が予想するとおり、beametricsは既存のメトリクス間のタスク依存的な違いを明らかにし、複雑な回答空間や一般的な知識への依存度が高いタスクのパフォーマンスを一貫して低下させる。 この分析は、現在の研究慣行に直面する重要な問題を浮き彫りにしていますが、BEAMetricsは、より良いメトリクスの研究を促進することで、その解決にも貢献しています。 BEAMetricsはMITライセンス下で利用可能である。

Natural language processing (NLP) systems are increasingly trained to generate open-ended text rather than classifying between responses. This makes research on evaluation metrics for generated language -- functions that score system output given the context and/or human reference responses -- of critical importance. However, different metrics have different strengths and biases, and reflect human intuitions better on some tasks than others. There is currently no simple, unified way to compare, analyse or evaluate metrics across a representative set of tasks. Here, we describe the Benchmark to Evaluate Automatic Metrics (BEAMetrics), a resource to make research into new metrics itself easier to evaluate. BEAMetrics users can quickly compare existing and new metrics with human judgements across a diverse set of tasks, quality dimensions (fluency vs. coherence vs. informativeness etc), and languages. As generation experts might predict, BEAMetrics reveals stark task-dependent differences between existing metrics, and consistently poor performance on tasks with complex answer spaces or high reliance on general knowledge. While this analysis highlights a critical issue facing current research practice, BEAMetrics also contribute to its resolution by facilitating research into better metrics -- particularly those that can account for the complex interaction between context and general knowledge inherent to many modern NLP applications. BEAMetrics is available under the MIT License: https://github.com/T homasScialom/BEAMetr ics
翻訳日:2021-10-20 02:58:21 公開日:2021-10-18
# (参考訳) 日々のニュース消費におけるメディアバイアスを効果的に識別・伝達する方法 [全文訳有]

How to Effectively Identify and Communicate Person-Targeting Media Bias in Daily News Consumption? ( http://arxiv.org/abs/2110.09151v1 )

ライセンス: CC BY 4.0
Felix Hamborg and Timo Spinde and Kim Heinser and Karsten Donnay and Bela Gipp(参考訳) スラムニュースは世論に強く影響を及ぼす。 これは政治や関連する問題についての報道に特に当てはまり、ニュースのバイアスが選挙やその他の集団的な決定に影響を及ぼす可能性があることが研究で示されている。 その重要性から、ニュース報道は長い間社会科学で研究され、それを説明するための包括的なモデルと、コンテンツ分析のような効果的かつ費用のかかる分析方法を生み出してきた。 本稿では,政策問題を報告したニュース記事において,個人を対象とする偏見を明らかにするために,コンテンツ分析のマニュアル手順を自動化したニュースレコメンデーションシステムを提案する。 大規模ユーザスタディでは,この学際研究の方向性について非常に有望な結果が得られた。 我々の推薦者は、個々のニュース記事に実際に存在している重要なフレームを検出し、明らかにする。 対照的に、先行作業はバイアスの視認性を高めるだけであり、例えば、左右のアウトレットを区別するなどである。 さらに,イベントの異なる設定のニュース記事の推薦が,バイアスに対する意識を著しく向上させることを示す。

Slanted news coverage strongly affects public opinion. This is especially true for coverage on politics and related issues, where studies have shown that bias in the news may influence elections and other collective decisions. Due to its viable importance, news coverage has long been studied in the social sciences, resulting in comprehensive models to describe it and effective yet costly methods to analyze it, such as content analysis. We present an in-progress system for news recommendation that is the first to automate the manual procedure of content analysis to reveal person-targeting biases in news articles reporting on policy issues. In a large-scale user study, we find very promising results regarding this interdisciplinary research direction. Our recommender detects and reveals substantial frames that are actually present in individual news articles. In contrast, prior work rather only facilitates the visibility of biases, e.g., by distinguishing left- and right-wing outlets. Further, our study shows that recommending news articles that differently frame an event significantly improves respondents' awareness of bias.
翻訳日:2021-10-20 02:32:31 公開日:2021-10-18
# (参考訳) ナノスケールシステムのためのリフティングDecPOMDP -- 研究の進展 [全文訳有]

Lifting DecPOMDPs for Nanoscale Systems -- A Work in Progress ( http://arxiv.org/abs/2110.09152v1 )

ライセンス: CC BY 4.0
Tanya Braun, Stefan Fischer, Florian Lau, Ralf M\"oller(参考訳) dnaベースのナノネットワークは、特に医学の分野で、幅広い有望なユースケースを持っている。 多数のエージェントセット、部分的に観測可能な確率的環境、そしてノイズの多い観測により、そのようなナノスケールシステムは分散化された部分観測可能なマルコフ決定過程(decpomdp)としてモデル化することができる。 エージェントセットが支配因子であるので、この論文は i)DecPOMDPを持ち上げ、エージェントセットを識別不能なエージェントセットに分割し、最悪のケーススペースを減らし、 (ii)ナノスケール医療システムを応用すること。 今後の作業は、解き放たれたDecPOMDPの解決と実装に変わります。

DNA-based nanonetworks have a wide range of promising use cases, especially in the field of medicine. With a large set of agents, a partially observable stochastic environment, and noisy observations, such nanoscale systems can be modelled as a decentralised, partially observable, Markov decision process (DecPOMDP). As the agent set is a dominating factor, this paper presents (i) lifted DecPOMDPs, partitioning the agent set into sets of indistinguishable agents, reducing the worst-case space required, and (ii) a nanoscale medical system as an application. Future work turns to solving and implementing lifted DecPOMDPs.
翻訳日:2021-10-20 02:03:49 公開日:2021-10-18
# (参考訳) newsalyze: ニュース記事における個人指向バイアスの効果的なコミュニケーション [全文訳有]

Newsalyze: Effective Communication of Person-Targeting Biases in News Articles ( http://arxiv.org/abs/2110.09158v1 )

ライセンス: CC BY 4.0
Felix Hamborg and Kim Heinser and Anastasia Zhukova and Karsten Donnay and Bela Gipp(参考訳) メディアバイアスとその極端な形態、フェイクニュースは、世論に決定的に影響を及ぼす可能性がある。 特に政策問題について報告する場合、スランドニュースの報道は民主的な選挙など社会的な決定に強く影響を及ぼす可能性がある。 私たちの論文はこの問題に3つの貢献をしています。 まず,自然言語理解から最先端の手法を組み合わせたバイアス識別システムを提案する。 第2に,非専門家のニュース消費者にニュース記事のバイアスを伝えるために,バイアスに敏感な可視化を考案する。 第3に,私たちの主な貢献は,毎日のニュースの消費を近似する設定におけるバイアス認識を測定する大規模ユーザ調査です。 我々は, 可視化がバイアス認識に与える影響を計測するだけでなく, コンジョイントデザインを用いることで, 可視化の個々の構成要素に与える影響を特定できる。 バイアスに敏感な概観は、回答者のバイアス意識を強力かつ著しく高めます。 さらに,本手法は,個々のニュース記事に有意な偏りがあるため,同様に傾斜したニュース記事のグループを検出することを示唆する。 対照的に、レビューされた事前の作業は、例えば左と右のアウトレットを区別することによってバイアスの可視性を促進するだけである。

Media bias and its extreme form, fake news, can decisively affect public opinion. Especially when reporting on policy issues, slanted news coverage may strongly influence societal decisions, e.g., in democratic elections. Our paper makes three contributions to address this issue. First, we present a system for bias identification, which combines state-of-the-art methods from natural language understanding. Second, we devise bias-sensitive visualizations to communicate bias in news articles to non-expert news consumers. Third, our main contribution is a large-scale user study that measures bias-awareness in a setting that approximates daily news consumption, e.g., we present respondents with a news overview and individual articles. We not only measure the visualizations' effect on respondents' bias-awareness, but we can also pinpoint the effects on individual components of the visualizations by employing a conjoint design. Our bias-sensitive overviews strongly and significantly increase bias-awareness in respondents. Our study further suggests that our content-driven identification method detects groups of similarly slanted news articles due to substantial biases present in individual news articles. In contrast, the reviewed prior work rather only facilitates the visibility of biases, e.g., by distinguishing left- and right-wing outlets.
翻訳日:2021-10-20 01:49:45 公開日:2021-10-18
# (参考訳) AIによるファミラスアートの継続:条件付き敵対的ネットワークのアプローチ [全文訳有]

Continuation of Famous Art with AI: A Conditional Adversarial Network Inpainting Approach ( http://arxiv.org/abs/2110.09170v1 )

ライセンス: CC BY 4.0
Jordan J. Bird(参考訳) 実際のアートワークにインスパイアされた画像合成の最先端技術の多くは、フィルターされたランダムノイズによって完全に生成されるか、スタイルの伝達にインスパイアされる。 本研究は,画像インペインティングを応用して,有名な美術品を継続し,コンディショナルGANで生成芸術を制作するものである。 過程の訓練段階では、画像の境界線が収穫され、中心だけが残る。 塗装されたganは、逆差と絶対差の損失を最小化することで、中心の作物から元の画像を再構築する学習を行う。 ネットワークがトレーニングされると、画像はトリミングではなく再サイズされ、ジェネレータへの入力として表示される。 学習プロセスの後、ジェネレータは元の部品の端から連続して新しい画像を生成する。 4766点の風景画(印象派とロマン主義)、1167点の浮世絵、4968点の抽象画のデータセットを用いて3つの実験を行った。 以上の結果から, 空や雲, 水, 陸(丘陵や山を含む), 草, 花などの景観だけでなく, 幾何学やテクスチャ(キャンバスやペンキなど)も, 実際の美術品を伸ばす際に, ジェネレータによって実現されていることがわかった。 また, 浮世絵実験では, 原画像が存在しない場合においても, テキストなどの特徴が, 入力画像内に未表示境界が存在するために生成されていることが観察された。

Much of the state-of-the-art in image synthesis inspired by real artwork are either entirely generative by filtered random noise or inspired by the transfer of style. This work explores the application of image inpainting to continue famous artworks and produce generative art with a Conditional GAN. During the training stage of the process, the borders of images are cropped, leaving only the centre. An inpainting GAN is then tasked with learning to reconstruct the original image from the centre crop by way of minimising both adversarial and absolute difference losses. Once the network is trained, images are then resized rather than cropped and presented as input to the generator. Following the learning process, the generator then creates new images by continuing from the edges of the original piece. Three experiments are performed with datasets of 4766 landscape paintings (impressionism and romanticism), 1167 Ukiyo-e works from the Japanese Edo period, and 4968 abstract artworks. Results show that geometry and texture (including canvas and paint) as well as scenery such as sky, clouds, water, land (including hills and mountains), grass, and flowers are implemented by the generator when extending real artworks. In the Ukiyo-e experiments, it was observed that features such as written text were generated even in cases where the original image did not have any, due to the presence of an unpainted border within the input image.
翻訳日:2021-10-20 01:24:31 公開日:2021-10-18
# (参考訳) 継承機能付きMDP抽象化 [全文訳有]

MDP Abstraction with Successor Features ( http://arxiv.org/abs/2110.09196v1 )

ライセンス: CC0 1.0
Dongge Han, Michael Wooldridge, Sebastian Tschiatschek(参考訳) 抽象化は知識とスキルの一般化において重要な役割を担い、効率的な学習と計画のサンプリングの鍵となる。 多くの複雑な問題に対して、まず抽象的な計画を作り、次に必要な低レベルの詳細を埋めてインスタンス化する。 このような抽象的な計画は、しばしば関連する新しい問題によく当てはまる。 我々は,エージェントが状態または時間的抽象化を行う強化学習の文脈で抽象について研究する。 時間的抽象化 オプションは、オプションポリシーの形式で時間的に拡張されたアクションを表す。 しかし、一般的に取得されたオプションポリシーは、状態空間や遷移ダイナミクスの変化のため、直接新しい環境に転送することはできない。 さらに、多くの既存の状態抽象化スキームは状態と時間的抽象化の相関を無視している。 本稿では,後継機能に基づく新しい抽象化スキームである後継抽象化を提案する。 これには、さまざまな環境にまたがる抽象オプションのエンコーディングとインスタンス化のためのアルゴリズムと、抽象オプションに基づいた状態抽象化メカニズムが含まれる。 我々の後継抽象化は、抽象オプションのエンコーディングとインスタンス化によって、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。 実証的には,一連のベンチマークタスクにおいて,技術ベースラインの関連状況と比較して,よりよい転送と性能向上を実現している。

Abstraction plays an important role for generalisation of knowledge and skills, and is key to sample efficient learning and planning. For many complex problems an abstract plan can be formed first, which is then instantiated by filling in the necessary low-level details. Often, such abstract plans generalize well to related new problems. We study abstraction in the context of reinforcement learning, in which agents may perform state or temporal abstractions. Temporal abstractions aka options represent temporally-extended actions in the form of option policies. However, typically acquired option policies cannot be directly transferred to new environments due to changes in the state space or transition dynamics. Furthermore, many existing state abstraction schemes ignore the correlation between state and temporal abstraction. In this work, we propose successor abstraction, a novel abstraction scheme building on successor features. This includes an algorithm for encoding and instantiation of abstract options across different environments, and a state abstraction mechanism based on the abstract options. Our successor abstraction allows us to learn abstract environment models with semantics that are transferable across different environments through encoding and instantiation of abstract options. Empirically, we achieve better transfer and improved performance on a set of benchmark tasks as compared to relevant state of the art baselines.
翻訳日:2021-10-20 01:10:30 公開日:2021-10-18
# (参考訳) リフテッド動的ジャンクションツリーアルゴリズムの完全性と複雑性について [全文訳有]

On the Completness and Complexity of the Lifted Dynamic Junction Tree Algorithm ( http://arxiv.org/abs/2110.09197v1 )

ライセンス: CC BY 4.0
Marcel Gehrke(参考訳) lifted inferenceは多項式時間 w.r.t. ドメインサイズでの推論を可能にする。 解き上げられたアルゴリズムに対して、完全性は解き上げられた解を計算することが保証されるモデルクラスを調べる。 我々は,時間的昇降アルゴリズム,いわゆる昇降動的ジャンクションツリーアルゴリズム(LDJT)の最初の完全性と複雑性の解析に,私たちの知る限り貢献する。 LDJTは、時間を第一級市民として扱うために、いくつかの制約を導入する。 これらの制約から、持ち上げ可能なモデルのクラスを分析する。 さらに、LDJTは、命題時間推定アルゴリズムw.r.t.ドメインサイズと比較して複雑さの観点から多くの利点があることを示す。 したがって、LDJTは現実的な観点からだけでなく、理論的観点からも合理的に推論タスクを解くことができるモデルの数を推し進める。

Lifted inference allows to perform inference in polynomial time w.r.t. domain sizes. For a lifted algorithm, completeness investigates model classes for which the algorithm is guaranteed to compute a lifted solution. We contribute, to the best of our knowledge, the first completeness and complexity analysis for a temporal lifted algorithm, the so-called lifted dynamic junction tree algorithm (LDJT). To treat time as a first class citizen, LDJT introduces some constraints. Given these constraints, we analyse the classes of liftable models. Further, we show that LDJT has many advantages from a complexity point of view compared to a propositional temporal inference algorithm w.r.t. domain sizes. Therefore, LDJT advances the number of models for which inference tasks can be solved in reasonable time not only from a practically point of view, but also from a theoretical point of view.
翻訳日:2021-10-20 00:31:14 公開日:2021-10-18
# (参考訳) 自己注意による強い重力レンズの発見 [全文訳有]

Finding Strong Gravitational Lenses Through Self-Attention ( http://arxiv.org/abs/2110.09202v1 )

ライセンス: CC BY 4.0
Hareesh Thuruthipilly, Adam Zadrozny, and Agnieszka Pollo(参考訳) 今後の大規模調査では、現在よりも多くのオーダーのデータを分析することで、約10^5$の強い重力系が見つかると予想されている。 このシナリオでは、非自動化技術は非常に困難で時間がかかります。 我々は,強い重力レンズを求めるために,自己着眼原理に基づく新しい自動化アーキテクチャを提案する。 畳み込みニューラルネットワークに対する自己アテンションに基づくエンコーダモデルの利点を調査し,エンコーダモデルを解析して性能を最適化する。 ボローニャレンズチャレンジから重力レンズを識別するために,21個の自己注意型エンコーダモデルと4つの畳み込みニューラルネットワークを構築した。 各モデルは、18,000のシミュレートされたイメージを使用して個別にトレーニングされ、20000のイメージを使用してクロスバリデーションされ、100000のイメージを持つテストセットに適用される。 評価には,分類精度,受信機動作特性曲線(AUROC)以下の面積,TPR_0$スコア,TPR_{10}$スコアの4つの指標を用いた。 この課題に参加した自己注意型エンコーダモデルとCNNのパフォーマンスを比較した。 エンコーダモデルはCNNより優れており、ボローニャレンズチャレンジに参加したCNNモデルよりも高いマージンで$TPR_0$と$TPR_{10}$を上回りました。 AUROCでは、エンコーダモデルが上位のCNNモデルと等価であり、CNNの6分の1のパラメータしか使用していない。 セルフアテンションベースのモデルは、単純なcnnと比較して明らかな利点がある。 計算コストと複雑さが低く、現在使われている残留ニューラルネットワークと非常に競合するアーキテクチャとなっている。 さらに, エンコーダ層の導入により, CNN が持つ過度に適合する問題にも, 効果的なフィルタとして機能させることで対処できる。

The upcoming large scale surveys are expected to find approximately $10^5$ strong gravitational systems by analyzing data of many orders of magnitude than the current era. In this scenario, non-automated techniques will be highly challenging and time-consuming. We propose a new automated architecture based on the principle of self-attention to find strong gravitational lensing. The advantages of self-attention based encoder models over convolution neural networks are investigated and encoder models are analyzed to optimize performance. We constructed 21 self-attention based encoder models and four convolution neural networks trained to identify gravitational lenses from the Bologna Lens Challenge. Each model is trained separately using 18,000 simulated images, cross-validated using 2 000 images, and then applied to a test set with 100 000 images. We used four different metrics for evaluation: classification accuracy, the area under the receiver operating characteristic curve (AUROC), the $TPR_0$ score and the $TPR_{10}$ score. The performance of the self-attention based encoder models and CNN's participated in the challenge are compared. The encoder models performed better than the CNNs and surpassed the CNN models that participated in the bologna lens challenge by a high margin for the $TPR_0$ and $TPR_{10}$. In terms of the AUROC, the encoder models scored equivalent to the top CNN model by only using one-sixth parameters to that of the CNN. Self-Attention based models have a clear advantage compared to simpler CNNs. A low computational cost and complexity make it a highly competing architecture to currently used residual neural networks. Moreover, introducing the encoder layers can also tackle the over-fitting problem present in the CNN's by acting as effective filters.
翻訳日:2021-10-20 00:17:17 公開日:2021-10-18
# (参考訳) シンドロミックサーベイランスのための相関に基づく疾患パターンの発見 [全文訳有]

Correlation-based Discovery of Disease Patterns for Syndromic Surveillance ( http://arxiv.org/abs/2110.09208v1 )

ライセンス: CC BY 4.0
Michael Rapp and Moritz Kulessa and Eneldo Loza Menc\'ia and Johannes F\"urnkranz(参考訳) 早期発生の検出は感染症の封じ込めにおける重要な側面であり、感染した個体の同定と隔離を可能にして、より多くの個体に感染する。 感染の予期せぬ増加を検出する代わりに、シナドロミック監視は早期の症状を検知することを目的としており、アウトブレイクのよりタイムリーな開示を可能にしている。 しかし、これらの疾患パターンの定義は、多くの場合、初期の症状が多くの疾患で共有され、特定の疾患が感染の初期段階でいくつかの臨床像を持つため、しばしば困難である。 疫学者が信頼できる疾患パターンを定義する過程を支援するために,歴史データからそのようなパターンを発見するための新しいデータ駆動アプローチを提案する。 重要な考え方は、健康関連データソース内の指標と、各地域における感染の報告数との相関を考慮に入れることである。 実験評価では,いくつかの救急部門からのデータを用いて3つの感染症の疾患パターンを検索した。 以上の結果から,本手法は報告された感染症と相関するパターンを見出し,各疾患に関連する指標を同定できる可能性が示唆された。

Early outbreak detection is a key aspect in the containment of infectious diseases, as it enables the identification and isolation of infected individuals before the disease can spread to a larger population. Instead of detecting unexpected increases of infections by monitoring confirmed cases, syndromic surveillance aims at the detection of cases with early symptoms, which allows a more timely disclosure of outbreaks. However, the definition of these disease patterns is often challenging, as early symptoms are usually shared among many diseases and a particular disease can have several clinical pictures in the early phase of an infection. To support epidemiologists in the process of defining reliable disease patterns, we present a novel, data-driven approach to discover such patterns in historic data. The key idea is to take into account the correlation between indicators in a health-related data source and the reported number of infections in the respective geographic region. In an experimental evaluation, we use data from several emergency departments to discover disease patterns for three infectious diseases. Our results suggest that the proposed approach is able to find patterns that correlate with the reported infections and often identifies indicators that are related to the respective diseases.
翻訳日:2021-10-19 23:43:48 公開日:2021-10-18
# (参考訳) multi-objective swarm optimizer と multi-level histogram thresholding を用いたカラー画像分割 [全文訳有]

Color Image Segmentation Using Multi-Objective Swarm Optimizer and Multi-level Histogram Thresholding ( http://arxiv.org/abs/2110.09217v1 )

ライセンス: CC BY 4.0
Mohammadreza Naderi Boldaji, Samaneh Hosseini Semnani(参考訳) swarm intelligenceオプティマイザとコンピュータ処理能力の急速な発展により、より正確で安定したカラーイメージセグメンテーションのための総合的な手法を設計する機会が生まれる。 本稿では,色画像の3次元ヒストグラムに,ヒストグラム閾値法(カプールのエントロピー法と大津の手法)と異なる多目的群知能アルゴリズム(MOPSO,MOGWO,MSSA,MO ALO)を組み合わせることで,教師なし画像セグメンテーションの新たな手法を提案する。 より正確には、この方法は、まず従来のしきい値化アルゴリズムの目的関数を結合して包括的目的関数を設計後、設計された目的関数の最適化中に最適なしきい値を見つけるために多目的オプティマイザを使用する。 また、3次元空間におけるベクトル目的関数を用いて、同じ閾値で画像色チャネル全体のセグメンテーションを同時に処理できる。 このベクトル目的関数を最適化するために、複数の目的関数を同時に最適化できる多目的Swarmオプティマイザを用いる。 そこで本手法では,カラーチャネルの目的関数(ベクトル目的関数)を同時に満たすしきい値を求めるために,チャネル間の依存性を検討する。 同じしきい値で色チャネル全体を分割することは、提案手法が他のしきい値アルゴリズムよりも画像のセグメンテーションに必要なしきい値が少ないという事実からも恩恵を受ける。 多くの画像を多くのリージョンに分割したい場合、非常に役立ちます。 主観的および客観的な結果から,カラー画像のヒストグラムを分離した従来のしきい値法よりも優れていることが示された。

Rapid developments in swarm intelligence optimizers and computer processing abilities make opportunities to design more accurate, stable, and comprehensive methods for color image segmentation. This paper presents a new way for unsupervised image segmentation by combining histogram thresholding methods (Kapur's entropy and Otsu's method) and different multi-objective swarm intelligence algorithms (MOPSO, MOGWO, MSSA, and MOALO) to thresholding 3D histogram of a color image. More precisely, this method first combines the objective function of traditional thresholding algorithms to design comprehensive objective functions then uses multi-objective optimizers to find the best thresholds during the optimization of designed objective functions. Also, our method uses a vector objective function in 3D space that could simultaneously handle the segmentation of entire image color channels with the same thresholds. To optimize this vector objective function, we employ multiobjective swarm optimizers that can optimize multiple objective functions at the same time. Therefore, our method considers dependencies between channels to find the thresholds that satisfy objective functions of color channels (which we name as vector objective function) simultaneously. Segmenting entire color channels with the same thresholds also benefits from the fact that our proposed method needs fewer thresholds to segment the image than other thresholding algorithms; thus, it requires less memory space to save thresholds. It helps a lot when we want to segment many images to many regions. The subjective and objective results show the superiority of this method to traditional thresholding methods that separately threshold histograms of a color image.
翻訳日:2021-10-19 23:26:46 公開日:2021-10-18
# (参考訳) 分散検出のための単層予測正規化最大確率 [全文訳有]

Single Layer Predictive Normalized Maximum Likelihood for Out-of-Distribution Detection ( http://arxiv.org/abs/2110.09246v1 )

ライセンス: CC BY 4.0
Koby Bibas, Meir Feder, Tal Hassner(参考訳) out-of-distribution (ood) サンプルの検出は、重要な安全システムのための機械学習ベースのモデルの開発に不可欠である。 OOD検出の一般的なアプローチは、実際のシナリオでは利用できないトレーニング中のOODサンプルへのアクセスを前提としている。 代わりに、テストされた入力に対して仮定を行わない {\em predict normalized maximum likelihood} (pnml) 学習者を利用する。 我々は,単層ニューラルネットワーク(NN)に対するpNMLの明示的な表現とその一般化誤差を導出する。 この学習者が一般化することを示す。 (i)試験ベクトルは、訓練データの経験的相関行列の大きな固有値に関連付けられた固有ベクトルにまたがる部分空間に存在するか。 (ii) テストサンプルは決定境界から遠く離れている。 さらに,前層に明示的なpNMLを用い,続いてソフトマックス関数を用いて,抽出したpNML後悔を事前訓練したディープNNに適用する方法を述べる。 deep nnに派生した後悔を適用するには、追加の調整可能なパラメータや余分なデータを必要としない。 CIFAR-100, CIFAR-10, SVHN, ImageNet-30 でトレーニングした DenseNet-100, ResNet-34, WideResNet-40 モデルを用いた74 OOD 検出ベンチマークのアプローチを広範に評価した。

Detecting out-of-distribution (OOD) samples is vital for developing machine learning based models for critical safety systems. Common approaches for OOD detection assume access to some OOD samples during training which may not be available in a real-life scenario. Instead, we utilize the {\em predictive normalized maximum likelihood} (pNML) learner, in which no assumptions are made on the tested input. We derive an explicit expression of the pNML and its generalization error, denoted as the {\em regret}, for a single layer neural network (NN). We show that this learner generalizes well when (i) the test vector resides in a subspace spanned by the eigenvectors associated with the large eigenvalues of the empirical correlation matrix of the training data, or (ii) the test sample is far from the decision boundary. Furthermore, we describe how to efficiently apply the derived pNML regret to any pretrained deep NN, by employing the explicit pNML for the last layer, followed by the softmax function. Applying the derived regret to deep NN requires neither additional tunable parameters nor extra data. We extensively evaluate our approach on 74 OOD detection benchmarks using DenseNet-100, ResNet-34, and WideResNet-40 models trained with CIFAR-100, CIFAR-10, SVHN, and ImageNet-30 showing a significant improvement of up to 15.6\% over recent leading methods.
翻訳日:2021-10-19 23:12:15 公開日:2021-10-18
# (参考訳) 低資源言語のための事前学習埋め込みを用いたインテント分類 [全文訳有]

Intent Classification Using Pre-Trained Embeddings For Low Resource Languages ( http://arxiv.org/abs/2110.09264v1 )

ライセンス: CC0 1.0
Hemant Yadav, Akshat Gupta, Sai Krishna Rallabandi, Alan W Black, Rajiv Ratn Shah(参考訳) 言語固有の音声認識(ASR)に依存しない音声言語理解(SLU)システムの構築は,言語処理において重要な課題である。 本稿では,低資源シナリオにおけるSLUを実現するために,事前学習した音響モデルを用いた比較研究を提案する。 具体的には,(1)電話(2)パンホン,(3)アロ埋め込みという,事前学習された普遍的電話デコーダであるallosaurusを用いて抽出した3種類の組込みを用いる。 これらの埋め込みは、話し言葉の意図を特定するのに使用される。 私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。 本システムでは,Sinhalaでは約2.11%,Tamilでは7.00%の精度でSOTA(State-of-the-ar t)の分類精度が向上し,英語での競争結果が得られる。 さらに,本研究では,意図ごとのトレーニング例数を用いて,パフォーマンスのスケールを定量的に分析する。

Building Spoken Language Understanding (SLU) systems that do not rely on language specific Automatic Speech Recognition (ASR) is an important yet less explored problem in language processing. In this paper, we present a comparative study aimed at employing a pre-trained acoustic model to perform SLU in low resource scenarios. Specifically, we use three different embeddings extracted using Allosaurus, a pre-trained universal phone decoder: (1) Phone (2) Panphone, and (3) Allo embeddings. These embeddings are then used in identifying the spoken intent. We perform experiments across three different languages: English, Sinhala, and Tamil each with different data sizes to simulate high, medium, and low resource scenarios. Our system improves on the state-of-the-art (SOTA) intent classification accuracy by approximately 2.11% for Sinhala and 7.00% for Tamil and achieves competitive results on English. Furthermore, we present a quantitative analysis of how the performance scales with the number of training examples used per intent.
翻訳日:2021-10-19 22:51:30 公開日:2021-10-18
# (参考訳) セマンティックレイアウト予測による画像出力向上 [全文訳有]

Boosting Image Outpainting with Semantic Layout Prediction ( http://arxiv.org/abs/2110.09267v1 )

ライセンス: CC BY 4.0
Ye Ma, Jin Ma, Min Zhou, Quan Chen, Tiezheng Ge, Yuning Jiang, Tong Lin(参考訳) 画像出力の目的は、画像電流境界を拡張し、既知の領域に基づいて新しい領域を生成することである。 従来の手法では、GAN(Generative Adversarial Network)を用いて現実的な画像を合成する。 しかし、明示的な意味表現の欠如は、露光領域が複雑で様々なオブジェクトを持つ場合、ぼやけや異常な画像画素につながる。 本研究では,アウトペインティングタスクを2段階に分解する。 まず、ganをトレーニングして、イメージドメインではなくセマンティックセグメンテーションドメインの領域を拡張する。 第二に、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するために別のganモデルを訓練する。 第1のモデルはサイズやクラスなどの低頻度なコンテキストに注目し、第2のモデルは色やテクスチャといった高頻度なコンテキストに注目します。 この設計により、我々の手法は意味的手がかりをより容易に扱えるようになり、複雑なシナリオにおいてよりうまく機能する。 各種データセットのフレームワークを評価し,定量的かつ定性的な分析を行う。 実験により,合理的に拡張されたセマンティクスレイアウトと画像を生成し,最先端モデルよりも優れることを示す。

The objective of image outpainting is to extend image current border and generate new regions based on known ones. Previous methods adopt generative adversarial networks (GANs) to synthesize realistic images. However, the lack of explicit semantic representation leads to blurry and abnormal image pixels when the outpainting areas are complex and with various objects. In this work, we decompose the outpainting task into two stages. Firstly, we train a GAN to extend regions in semantic segmentation domain instead of image domain. Secondly, another GAN model is trained to synthesize real images based on the extended semantic layouts. The first model focuses on low frequent context such as sizes, classes and other semantic cues while the second model focuses on high frequent context like color and texture. By this design, our approach can handle semantic clues more easily and hence works better in complex scenarios. We evaluate our framework on various datasets and make quantitative and qualitative analysis. Experiments demonstrate that our method generates reasonable extended semantic layouts and images, outperforming state-of-the-art models.
翻訳日:2021-10-19 22:43:33 公開日:2021-10-18
# (参考訳) pygrank: グラフノードのランキングのためのpythonパッケージ [全文訳有]

pygrank: A Python Package for Graph Node Ranking ( http://arxiv.org/abs/2110.09274v1 )

ライセンス: CC BY 4.0
Emmanouil Krasanakis, Symeon Papadopoulos, Ioannis Kompatsiaris, Andreas Symeonidis(参考訳) ノードランキングアルゴリズムを定義し,実行し,評価するための,オープンソースのpythonパッケージであるpygrankを紹介する。 我々は,グラフフィルタ,ポストプロセッサ,測定器,ベンチマーク,オンラインチューニングなど,オブジェクト指向かつ広範囲にユニットテストされたアルゴリズムコンポーネントを提供する。 計算はnumpy、tensorflow、pytorchバックエンドに委譲でき、バックプロパゲーションパイプラインに適合する。 クラスは相互運用可能な複雑なアルゴリズムを定義するために結合することができる。 本稿では,パッケージと関連する代替品を比較し,その柔軟性と使いやすさをコード例と比較した。

We introduce pygrank, an open source Python package to define, run and evaluate node ranking algorithms. We provide object-oriented and extensively unit-tested algorithm components, such as graph filters, post-processors, measures, benchmarks and online tuning. Computations can be delegated to numpy, tensorflow or pytorch backends and fit in back-propagation pipelines. Classes can be combined to define interoperable complex algorithms. Within the context of this paper we compare the package with related alternatives and demonstrate its flexibility and ease of use with code examples.
翻訳日:2021-10-19 22:29:57 公開日:2021-10-18
# (参考訳) 高アンサンプデータからカラー画像と映像を復元するためのDCTに基づくテンソル補完手法 [全文訳有]

A DCT-based Tensor Completion Approach for Recovering Color Images and Videos from Highly Undersampled Data ( http://arxiv.org/abs/2110.09298v1 )

ライセンス: CC0 1.0
Chenjian Pan and Chen Ling and Hongjin He and Liqun Qi and Yanwei Xu(参考訳) 高度にアンサンプされたデータからカラー画像やビデオを復元することは、顔認識とコンピュータビジョンの基本的な課題である。 本稿では,カラー画像とビデオの多次元的な性質から,離散コサイン変換(DCT)の下でテンソルデータの空間性を効率的に探索できる新しいテンソル補完手法を提案する。 具体的には、2つのDCTベースのテンソル補完モデルと2つの実装可能なアルゴリズムを導入する。 1つ目は、DCTベースの重み付き核ノルム最小化モデルである。 2つ目はDCTベースの$p$-shrinking Tenor completion modelと呼ばれ、これはデータの低ランク化を促進するために$p$-shrinkageマッピングを利用する非凸モデルである。 さらに,基礎となる最適化モデルを解くための拡張ラグランジアンアルゴリズムを2つ提案する。 カラー画像やMRI画像のインペイントやビデオデータリカバリなどの数値実験により,提案手法は既存の多くのテンソル完成法,特に欠落データの比率が高い場合よりも優れた性能を示した。

Recovering color images and videos from highly undersampled data is a fundamental and challenging task in face recognition and computer vision. By the multi-dimensional nature of color images and videos, in this paper, we propose a novel tensor completion approach, which is able to efficiently explore the sparsity of tensor data under the discrete cosine transform (DCT). Specifically, we introduce two DCT-based tensor completion models as well as two implementable algorithms for their solutions. The first one is a DCT-based weighted nuclear norm minimization model. The second one is called DCT-based $p$-shrinking tensor completion model, which is a nonconvex model utilizing $p$-shrinkage mapping for promoting the low-rankness of data. Moreover, we accordingly propose two implementable augmented Lagrangian-based algorithms for solving the underlying optimization models. A series of numerical experiments including color and MRI image inpainting and video data recovery demonstrate that our proposed approach performs better than many existing state-of-the-art tensor completion methods, especially for the case when the ratio of missing data is high.
翻訳日:2021-10-19 22:24:06 公開日:2021-10-18
# (参考訳) モンテカルロシミュレーションによる微細構造進化の異常粒成長予測のためのニューラルメッセージパッシング [全文訳有]

Neural message passing for predicting abnormal grain growth in Monte Carlo simulations of microstructural evolution ( http://arxiv.org/abs/2110.09326v1 )

ライセンス: CC BY 4.0
Ryan Cohn, Elizabeth Holm(参考訳) 異常な粒成長は、加工中の材料の特性を著しく変化させることができる。 このことは、同一の処理経路を施された種内飼料成分の特性と性能に大きな変化をもたらす可能性がある。 異常粒成長の理解と制御は, この現象の確率的性質により解明されている。 しかし、近年のディープラーニングの進歩は、この現象を理解するための従来の実験的および物理学的手法に代わる有望な代替手段を提供する。 ニューラルメッセージパッシングは、素材内の粒構造のグラフ表現を含む不規則な入力にディープラーニングを適用することができる。 本研究では,理想化システムにおける異常粒成長のモンテカルロシミュレーションの大規模データベースを生成する。 入力としてシステムの初期状態のみを用いて,これらのシミュレーションにおいて異常粒成長の発生を予測するためにメッセージパッシングニューラルネットワークを適用した。 コンピュータビジョンモデルは、比較のために同じタスクのために訓練される。 予備結果は, メッセージパッシング手法がコンピュータビジョン法を上回り, 75%の予測精度を達成したことを示す。 モンテカルロシミュレーションにおける不確実性の解析は、このプロジェクトの進行中の作業のロードマップを提供する。

Abnormal grain growth can significantly alter the properties of materials during processing. This can cause significant variation in the properties and performance of in-spec feedstock components subjected to identical processing paths. Understanding and controlling abnormal grain growth has proved to be elusive due to the stochastic nature of this phenomenon. However, recent advances in deep learning provide a promising alternative to traditional experimental and physics-based methods for understanding this phenomenon. Neural message passing allows deep learning to be applied to irregular inputs including graph representations of grain structures in a material. In this study we generate a large database of Monte Carlo simulations of abnormal grain growth in an idealized system. We apply message passing neural networks to predict the occurrence of abnormal grain growth in these simulations using only the initial state of the system as input. A computer vision model is also trained for the same task for comparison. The preliminary results indicate that the message passing approach outperforms the computer vision method and achieved 75% prediction accuracy, significantly better than random guessing. Analysis of the uncertainty in the Monte Carlo simulations provides a road map for ongoing work on this project.
翻訳日:2021-10-19 21:58:46 公開日:2021-10-18
# (参考訳) FMFCC-A:合成音声検出のための干渉マンダリンデータセット [全文訳有]

FMFCC-A: A Challenging Mandarin Dataset for Synthetic Speech Detection ( http://arxiv.org/abs/2110.09441v1 )

ライセンス: CC BY 4.0
Zhenyu Zhang, Yewei Gu, Xiaowei Yi, Xianfeng Zhao(参考訳) tts(text-to-speech)やvc(voice conversion)技術の発展に伴い、合成音声の検出が劇的に進んでいる。 マンダリン TTS と VC 技術に対する合成音声検出モデルの開発を促進するため,我々は,マンダリンの挑戦的データセットを構築し,中国画像・グラフィックス協会(FMFCC-A)の最初のフェイクメディア法医学的課題の音声トラックを整理した。 このデータセットは、11のMandarin TTSシステムと2つのMandarin VCシステムによって生成される4万の合成マンダリン発話と、58人の話者から収集された1万の真正マンダリン発話を含む。 FMFCC-Aデータセットは、様々な未知の音声合成システムや音声後処理操作の下で合成されたマンダリン音声の検出の研究に使用されるトレーニング、開発、評価セットに分けられる。 fmfcc-aデータセットの構築について述べることに加えて、fmfcc-aデータセットの有用性と課題を示す2つのベースラインメソッドとfmfcc-aからの上位パフォーマンス提案について詳細な分析を行う。 FMFCC-Aデータセットが、合成音声検出のためのマンダリンデータセットの欠如のギャップを埋めることを期待している。

As increasing development of text-to-speech (TTS) and voice conversion (VC) technologies, the detection of synthetic speech has been suffered dramatically. In order to promote the development of synthetic speech detection model against Mandarin TTS and VC technologies, we have constructed a challenging Mandarin dataset and organized the accompanying audio track of the first fake media forensic challenge of China Society of Image and Graphics (FMFCC-A). The FMFCC-A dataset is by far the largest publicly-available Mandarin dataset for synthetic speech detection, which contains 40,000 synthesized Mandarin utterances that generated by 11 Mandarin TTS systems and two Mandarin VC systems, and 10,000 genuine Mandarin utterances collected from 58 speakers. The FMFCC-A dataset is divided into the training, development and evaluation sets, which are used for the research of detection of synthesized Mandarin speech under various previously unknown speech synthesis systems or audio post-processing operations. In addition to describing the construction of the FMFCC-A dataset, we provide a detailed analysis of two baseline methods and the top-performing submissions from the FMFCC-A, which illustrates the usefulness and challenge of FMFCC-A dataset. We hope that the FMFCC-A dataset can fill the gap of lack of Mandarin datasets for synthetic speech detection.
翻訳日:2021-10-19 21:44:58 公開日:2021-10-18
# セルレス大規模MIMOシステムの深層学習による電力制御

Deep Learning-Based Power Control for Uplink Cell-Free Massive MIMO Systems ( http://arxiv.org/abs/2110.09001v1 )

ライセンス: Link先を確認
Yongshun Zhang, Jiayi Zhang, Yu Jin, Stefano Buzzi, Bo Ai(参考訳) 本稿では、アップリンクセルレス大規模マルチインプットマルチアウトプット(CF mMIMO)システムにおいて、最大、最大、最大、最大、最大を最適化するためのディープラーニングに基づく電力制御手法の一般的なフレームワークを提案する。 教師あり学習を用いる代わりに,提案手法は教師なし学習に依存する。 より具体的には、ディープニューラルネットワーク(DNN)を使用して、フェーディング係数とパワー係数のマップを短時間で学習し、計算複雑性を低くする。 提案手法を用いたcf mmimoシステムのスペクトル効率は,max-min最適化の以前の最適化手法よりも優れており,max-sum-rate と max-product optimization の両方に適合する。

In this paper, a general framework for deep learning-based power control methods for max-min, max-product and max-sum-rate optimization in uplink cell-free massive multiple-input multiple-output (CF mMIMO) systems is proposed. Instead of using supervised learning, the proposed method relies on unsupervised learning, in which optimal power allocations are not required to be known, and thus has low training complexity. More specifically, a deep neural network (DNN) is trained to learn the map between fading coefficients and power coefficients within short time and with low computational complexity. It is interesting to note that the spectral efficiency of CF mMIMO systems with the proposed method outperforms previous optimization methods for max-min optimization and fits well for both max-sum-rate and max-product optimizations.
翻訳日:2021-10-19 21:31:33 公開日:2021-10-18
# 話者検証のための実付加マージンソフトマックス

Real Additive Margin Softmax for Speaker Verification ( http://arxiv.org/abs/2110.09116v1 )

ライセンス: Link先を確認
Lantian Li and Ruiqian Nai and Dong Wang(参考訳) 付加限界ソフトマックス(AM-Softmax)損失は、話者検証において顕著な性能をもたらした。 AM-Softmaxの振る舞いは、ターゲットロジットに重点を置くことでクラス内の変動を縮小し、それによってターゲットクラスと非ターゲットクラスのマージンが向上する。 本稿では,am-softmax損失の挙動を注意深く解析し,この損失が実際のmax-marginトレーニングを実践していないことを示す。 この観測に基づいて,ソフトマックストレーニングにおける真のマージン関数を含むリアルAM-Softmax損失を示す。 VoxCeleb1、SITW、CNCelebで行った実験では、補正されたAM-Softmaxの損失は元の損失よりも一貫して優れていた。 コードはhttps://gitlab.com/c sltstu/sunineでリリースされた。

The additive margin softmax (AM-Softmax) loss has delivered remarkable performance in speaker verification. A supposed behavior of AM-Softmax is that it can shrink within-class variation by putting emphasis on target logits, which in turn improves margin between target and non-target classes. In this paper, we conduct a careful analysis on the behavior of AM-Softmax loss, and show that this loss does not implement real max-margin training. Based on this observation, we present a Real AM-Softmax loss which involves a true margin function in the softmax training. Experiments conducted on VoxCeleb1, SITW and CNCeleb demonstrated that the corrected AM-Softmax loss consistently outperforms the original one. The code has been released at https://gitlab.com/c sltstu/sunine.
翻訳日:2021-10-19 21:29:53 公開日:2021-10-18
# 理論的保証付き多目的進化アルゴリズムによる結果の多様化

Result Diversification by Multi-objective Evolutionary Algorithms with Theoretical Guarantees ( http://arxiv.org/abs/2110.09332v1 )

ライセンス: Link先を確認
Chao Qian, Dan-Xuan Liu, Zhi-Hua Zhou(参考訳) 結果の多様化問題は、いくつかの制約を満たすとともに、高い「品質」と「多様性」のサブセットを選択することを目的としている。 ウェブベースの検索、文書要約、特徴選択など、様々な現実世界の人工知能アプリケーションに現れ、計算幾何学、データベース、ファイナンス、オペレーション研究など他の分野にも応用されている。 従来のアルゴリズムは主に欲求や局所探索に基づいている。 本稿では,二目的最大化問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA),すなわちGSEMOを用いて解くことを提案する。 我々はGSEMOが静的環境と動的環境の両方において(漸近的に)最適な理論的保証を達成できることを理論的に証明する。 濃度制約に対して、GSEMO は最適多項式時間近似比 1/2$ を達成することができる。 より一般的なマットロイドの制約に対して、GSEMO は漸近的に最適な多項式時間近似比 1/2-\epsilon/(4n)$ を達成することができる。 さらに、目的関数(すなわち品質と多様性の線形結合)が動的に変化するとき、GSEMOはこの近似比を多項式実行時間で維持することができ、ボロディンらによって提案された開問題に対処することができる。 これはまた、局所探索による動的最適化問題の解法よりもEAの優位性を示し、EAの突然変異演算子の動的変化に対する堅牢性を明らかにする。 web-based search, multi-label feature selection, document summarizationの応用実験では,静的および動的環境下でのgsemoの性能が最先端のアルゴリズム(すなわちgreedyアルゴリズムとローカル検索)よりも優れていることが示されている。

Given a ground set of items, the result diversification problem aims to select a subset with high "quality" and "diversity" while satisfying some constraints. It arises in various real-world artificial intelligence applications, such as web-based search, document summarization and feature selection, and also has applications in other areas, e.g., computational geometry, databases, finance and operations research. Previous algorithms are mainly based on greedy or local search. In this paper, we propose to reformulate the result diversification problem as a bi-objective maximization problem, and solve it by a multi-objective evolutionary algorithm (EA), i.e., the GSEMO. We theoretically prove that the GSEMO can achieve the (asymptotically) optimal theoretical guarantees under both static and dynamic environments. For cardinality constraints, the GSEMO can achieve the optimal polynomial-time approximation ratio, $1/2$. For more general matroid constraints, the GSEMO can achieve the asymptotically optimal polynomial-time approximation ratio, $1/2-\epsilon/(4n)$. Furthermore, when the objective function (i.e., a linear combination of quality and diversity) changes dynamically, the GSEMO can maintain this approximation ratio in polynomial running time, addressing the open question proposed by Borodin et al. This also theoretically shows the superiority of EAs over local search for solving dynamic optimization problems for the first time, and discloses the robustness of the mutation operator of EAs against dynamic changes. Experiments on the applications of web-based search, multi-label feature selection and document summarization show the superior performance of the GSEMO over the state-of-the-art algorithms (i.e., the greedy algorithm and local search) under both static and dynamic environments.
翻訳日:2021-10-19 21:29:39 公開日:2021-10-18
# (参考訳) GARCHモデルとニューラルネットワークを用いたセクタ変動予測性能 [全文訳有]

Sector Volatility Prediction Performance Using GARCH Models and Artificial Neural Networks ( http://arxiv.org/abs/2110.09489v1 )

ライセンス: CC BY 4.0
Curtis Nybo(参考訳) 近年、人工ニューラルネットワーク(ANN)はボラティリティ予測に成功しているが、一般的なGARCHモデルではなく、ANNをどこで使用するべきかについての文献が分かれている。 本研究の目的は、低, 中, 高ボラティリティプロファイルを有する株に適用した場合のANNおよびGARCHモデルのボラティリティ予測性能を比較することである。 このアプローチは、各ケースで使用するモデルを特定することを目的としている。 ボラティリティのプロファイルは、2005年から2020年まで米国株式市場の全株式をカバーする5つのセクターで構成されている。 3つのGARCH仕様と3つのANNアーキテクチャを各セクターで検討し、予測に最も適したモデルを選択した。 その結果,annモデルは低ボラティリティプロファイルの資産のボラティリティ予測に利用すべきであり,garchモデルは中高ボラティリティ資産のボラティリティ予測に使用するべきであることがわかった。

Recently artificial neural networks (ANNs) have seen success in volatility prediction, but the literature is divided on where an ANN should be used rather than the common GARCH model. The purpose of this study is to compare the volatility prediction performance of ANN and GARCH models when applied to stocks with low, medium, and high volatility profiles. This approach intends to identify which model should be used for each case. The volatility profiles comprise of five sectors that cover all stocks in the U.S stock market from 2005 to 2020. Three GARCH specifications and three ANN architectures are examined for each sector, where the most adequate model is chosen to move on to forecasting. The results indicate that the ANN model should be used for predicting volatility of assets with low volatility profiles, and GARCH models should be used when predicting volatility of medium and high volatility assets.
翻訳日:2021-10-19 21:28:41 公開日:2021-10-18
# Arjun: 効率的な独立支援計算手法とそのカウントとサンプリングへの応用

Arjun: An Efficient Independent Support Computation Technique and its Applications to Counting and Sampling ( http://arxiv.org/abs/2110.09026v1 )

ライセンス: Link先を確認
Mate Soos and Kuldeep S. Meel(参考訳) x$ と射影集合 $\mathcal{p} \subseteq x$ 上のブール式 $\varphi$ が与えられたとき、変数のサブセット $\mathcal{i}$ が$\mathcal{p}$ の独立サポートであるなら、2つの解が$\mathcal{i}$ に一致するなら、$\mathcal{p}$ についても同意する。 独立支持の概念は1901年にさかのぼる古典的な定義と関係しており、数十年にわたって研究されてきた。 近年,ハッシュに基づくカウント・サンプリング手法の独立サポートの重要性から,与えられた式に対する独立サポートを決定する計算問題の重要性が高まっている。 本稿では,実世界のベンチマークから生じる公式を処理可能な効率的でスケーラブルな独立サポート計算手法を考案する。 我々のアルゴリズムフレームワークはArjunと呼ばれ、暗黙的かつ明示的な定義可能性の概念を採用しており、ゲート識別技術と仮定に基づくフレームワークの密接な統合に基づいている。 我々は,arjun による art model counter approxmc4 と sampler unigen3 の強化により,性能が大幅に向上することを示す。 特に、Arjunで強化されたApproxMC4は1896年から387のベンチマークを数え、Arjunで強化されたUniGen3は319のベンチマークを同じ時間内に追加する。

Given a Boolean formula $\varphi$ over the set of variables $X$ and a projection set $\mathcal{P} \subseteq X$, a subset of variables $\mathcal{I}$ is independent support of $\mathcal{P}$ if two solutions agree on $\mathcal{I}$, then they also agree on $\mathcal{P}$. The notion of independent support is related to the classical notion of definability dating back to 1901, and have been studied over the decades. Recently, the computational problem of determining independent support for a given formula has attained importance owing to the crucial importance of independent support for hashing-based counting and sampling techniques. In this paper, we design an efficient and scalable independent support computation technique that can handle formulas arising from real-world benchmarks. Our algorithmic framework, called Arjun, employs implicit and explicit definability notions, and is based on a tight integration of gate-identification techniques and assumption-based framework. We demonstrate that augmenting the state of the art model counter ApproxMC4 and sampler UniGen3 with Arjun leads to significant performance improvements. In particular, ApproxMC4 augmented with Arjun counts 387 more benchmarks out of 1896 while UniGen3 augmented with Arjun samples 319 more benchmarks within the same time limit.
翻訳日:2021-10-19 21:06:38 公開日:2021-10-18
# 部分関数線形モデルのためのカーネルベース推定:ミニマックスレートとランダム化スケッチ

Kernel-based estimation for partially functional linear model: Minimax rates and randomized sketches ( http://arxiv.org/abs/2110.09042v1 )

ライセンス: Link先を確認
Shaogao Lv and Xin He and Junhui Wang(参考訳) 本稿では,すべての予測特徴が関数共変量と高次元スカラーベクトルからなる部分汎関数線形モデル(pflm)を考える。 無限次元再生核ヒルベルト空間上で、提案されたPFLMの推定は、関数ノルムと$\ell_1$-ノルムの2つの混合正規化を持つ最小二乗アプローチである。 本研究の主な課題は,PFLMのミニマックス速度を高次元設定で確立することであり,カーネルクラスの解析に経験的プロセス理論の様々な手法を用いて推定の最適ミニマックス速度を確立することである。 さらに,カーネル行列のランダム化スケッチに基づく効率的な数値アルゴリズムを提案する。 本手法と最適化戦略をサポートするため,いくつかの数値実験を行った。

This paper considers the partially functional linear model (PFLM) where all predictive features consist of a functional covariate and a high dimensional scalar vector. Over an infinite dimensional reproducing kernel Hilbert space, the proposed estimation for PFLM is a least square approach with two mixed regularizations of a function-norm and an $\ell_1$-norm. Our main task in this paper is to establish the minimax rates for PFLM under high dimensional setting, and the optimal minimax rates of estimation is established by using various techniques in empirical process theory for analyzing kernel classes. In addition, we propose an efficient numerical algorithm based on randomized sketches of the kernel matrix. Several numerical experiments are implemented to support our method and optimization strategy.
翻訳日:2021-10-19 21:06:08 公開日:2021-10-18
# 欠落データを用いた回帰 : ランダム森林に基づく手法の比較研究

Regression with Missing Data, a Comparison Study of TechniquesBased on Random Forests ( http://arxiv.org/abs/2110.09333v1 )

ライセンス: Link先を確認
Irving G\'omez-M\'endez and Emilien Joly(参考訳) 本稿では,サンプルの許容値に対処する新しいランダムフォレストアルゴリズムの実用的利点について述べる。 この研究の目的は、不足する値をランダムな森林で処理する様々なソリューションを比較し、新しいアルゴリズムの性能とアルゴリズムの複雑さを説明することである。 様々な値のメカニズム(mcar、mar、mnarなど)が考慮され、シミュレーションされている。 本稿では,2次誤差とバイアスオブユールアルゴリズムについて検討し,文献において最もよく使われている無作為な森林アルゴリズムと比較する。 特に,これらの手法を回帰と予測の両方に比較する。 この研究は、この新しいアルゴリズムの一貫性に関するGomez-Mendez and Joly (2020)の最初の論文に従う。

In this paper we present the practical benefits of a new random forest algorithm to deal withmissing values in the sample. The purpose of this work is to compare the different solutionsto deal with missing values with random forests and describe our new algorithm performanceas well as its algorithmic complexity. A variety of missing value mechanisms (such as MCAR,MAR, MNAR) are considered and simulated. We study the quadratic errors and the bias ofour algorithm and compare it to the most popular missing values random forests algorithms inthe literature. In particular, we compare those techniques for both a regression and predictionpurpose. This work follows a first paper Gomez-Mendez and Joly (2020) on the consistency ofthis new algorithm.
翻訳日:2021-10-19 21:05:55 公開日:2021-10-18
# 教師なし学習カルマンフィルタリング

Unsupervised Learned Kalman Filtering ( http://arxiv.org/abs/2110.09005v1 )

ライセンス: Link先を確認
Guy Revach, Nir Shlezinger, Timur Locher, Xiaoyong Ni, Ruud J. G. van Sloun, and Yonina C. Eldar(参考訳) 本稿では,最近提案された深層ニューラルネットワーク(DNN)支援システムであるKalmanNetを,モデルベースカルマンフィルタ(KF)の動作に準じたアーキテクチャで適用し,そのマッピングを教師なしの方法で学習する。 教師なし適応は、KFの次の観測を内部的に予測するKalmanNetのハイブリッドモデルベース/データ駆動アーキテクチャを活用することで達成される。 これらの内部機能は、システムの出力における状態推定よりも損失を計算するために使用される。 教師なし学習の能力により、隠れた状態を追跡するだけでなく、状態空間(SS)モデルのバリエーションに適応するためにもKalmanNetを使用することができる。 我々は、ノイズ統計が未知の場合、教師なしのKalmanNetが教師なしの学習でKalmanNetと同じような性能を達成することを数値的に示す。 また,事前学習したkalmannetを,教師なしの機能による追加データの提供なしにssモデルに変更できることを示した。

In this paper we adapt KalmanNet, which is a recently pro-posed deep neural network (DNN)-aided system whose architecture follows the operation of the model-based Kalman filter (KF), to learn its mapping in an unsupervised manner, i.e., without requiring ground-truth states. The unsupervised adaptation is achieved by exploiting the hybrid model-based/data-dri ven architecture of KalmanNet, which internally predicts the next observation as the KF does. These internal features are then used to compute the loss rather than the state estimate at the output of the system. With the capability of unsupervised learning, one can use KalmanNet not only to track the hidden state, but also to adapt to variations in the state space (SS) model. We numerically demonstrate that when the noise statistics are unknown, unsupervised KalmanNet achieves a similar performance to KalmanNet with supervised learning. We also show that we can adapt a pre-trained KalmanNet to changing SS models without providing additional data thanks to the unsupervised capabilities.
翻訳日:2021-10-19 20:56:50 公開日:2021-10-18
# 線形確率帯域はいつ攻撃可能か?

When Are Linear Stochastic Bandits Attackable? ( http://arxiv.org/abs/2110.09008v1 )

ライセンス: Link先を確認
Huazheng Wang, Haifeng Xu, Hongning Wang(参考訳) 我々は,線形確率的包帯に対する敵対的攻撃,レコメンデータシステム,オンライン広告,医療治療などにおいて,多くの重要な応用において逐次決定問題について検討する。 報酬を操作することで、敵はバンディットアルゴリズムの動作を制御することを目指す。 おそらく、まず最初に、いくつかの攻撃目標が達成できないことを示す。 これは文脈自由確率バンディットとは対照的であり、本質的には線形確率バンディットの腕間の相関によるものである。 本研究は,この観察に動機づけられ,$k$の線形バンディット環境の攻撃性について検討した。 まず,コンテキストベクトルの幾何学に基づく攻撃可能性の完全必要性と十分性について述べる。 次に,LinUCBとロバスト相除去に対する2段階攻撃法を提案する。 この方法はまず、現在の環境が攻撃可能かどうかを断定し、もしそうなら、アルゴリズムがサブ線形コストのみを使用して目標のアームを線形に引くように報酬を変更する。 数値実験により,提案手法の有効性とコスト効率がさらに検証された。

We study adversarial attacks on linear stochastic bandits, a sequential decision making problem with many important applications in recommender systems, online advertising, medical treatment, and etc. By manipulating the rewards, an adversary aims to control the behaviour of the bandit algorithm. Perhaps surprisingly, we first show that some attack goals can never be achieved. This is in sharp contrast to context-free stochastic bandits, and is intrinsically due to the correlation among arms in linear stochastic bandits. Motivated by this observation, this paper studies the attackability of a $k$-armed linear bandit environment. We first provide a full necessity and sufficiency characterization of attackability based on the geometry of the context vectors. We then propose a two-stage attack method against LinUCB and Robust Phase Elimination. The method first asserts whether the current environment is attackable, and if Yes, modifies the rewards to force the algorithm to pull a target arm linear times using only a sublinear cost. Numerical experiments further validate the effectiveness and cost-efficiency of the proposed method.
翻訳日:2021-10-19 20:56:31 公開日:2021-10-18
# データ駆動・可視化に基づく意思決定木を用いた大学ランキング改善のための戦略

Data Driven and Visualization based Strategization for University Rank Improvement using Decision Trees ( http://arxiv.org/abs/2110.09050v1 )

ライセンス: Link先を確認
Nishi Doshi and Samhitha Gundam and Bhaskar Chaudhury(参考訳) 高等教育機関の年次ランキング(HEIs)は世界的な現象であり、過去の研究では高等教育の景観に大きな影響を与えることが示されている。 このようなランキング制度の目標、方法論、成果に関する批判にもかかわらず、これまでの研究では、ほとんどの大学がランキング結果に注意を払っており、そのランク向上を楽しみにしている。 一般に、各ランキングフレームワークは独自のパラメータセットを使用し、個々のメトリクスのデータは、ランクを決定するために単一の最終スコアに凝縮され、複雑な多変量問題となる。 相当なリソースや努力、正確な計画が必要となるため、優れたランクを維持し、ランキングを上昇させることは難しい課題である。 本研究では、相関ヒートマップとボックスプロットを用いた探索データ分析(EDA)が、ランキングデータの幅広い傾向を理解するのにどのように役立つかを示すが、EDAに基づくランク改善の制度的決定は困難である。 本稿では,Decision Tree (DT) に基づくアルゴリズムを用いてランキングデータを分類し,データ可視化技術を用いてランク改善のための決定経路を求める。 確率推定にラプラス補正を用いると、解釈可能なDTモデルから得られる異なる決定経路に付随する確実性の量を定量化する。 提案手法は,HEIが改善の範囲を定量的に評価し,詳細な長期行動計画と適切な道路マップを作成するのに役立つ。

Annual ranking of higher educational institutes (HEIs) is a global phenomena and past research shows that they have significant impact on higher education landscape. In spite of criticisms regarding the goals, methodologies and outcomes of such ranking systems, previous studies reveal that most of the universities pay close attention to ranking results and look forward to improving their ranks. Generally, each ranking framework uses its own set of parameters and the data for individual metrics are condensed into a single final score for determining the rank thereby making it a complex multivariate problem. Maintaining a good rank and ascending in the rankings is a difficult task because it requires considerable resources, efforts and accurate planning. In this work, we show how exploratory data analysis (EDA) using correlation heatmaps and box plots can aid in understanding the broad trends in the ranking data, however it is challenging to make institutional decisions for rank improvements completely based on EDA. We present a novel idea of classifying the rankings data using Decision Tree (DT) based algorithms and retrieve decision paths for rank improvement using data visualization techniques. Using Laplace correction to the probability estimate, we quantify the amount of certainty attached with different decision paths obtained from interpretable DT models . The proposed methodology can aid HEIs to quantitatively asses the scope of improvement, adumbrate a fine-grained long-term action plan and prepare a suitable road-map.
翻訳日:2021-10-19 20:56:14 公開日:2021-10-18
# 二次最適化に基づく適応モーメントを用いた深層ニューラルネットワークの学習

Training Deep Neural Networks with Adaptive Momentum Inspired by the Quadratic Optimization ( http://arxiv.org/abs/2110.09057v1 )

ライセンス: Link先を確認
Tao Sun, Huaming Ling, Zuoqiang Shi, Dongsheng Li, Bao Wang(参考訳) 重い球運動量は、(確率的な)勾配に基づく機械学習最適化アルゴリズムの高速化に不可欠である。 既存の重い球運動量は通常、過度のチューニングに依存する均一なハイパーパラメータによって重み付けされる。 さらに、キャリブレーションされた固定ハイパーパラメータは最適性能に繋がらない。 本稿では,運動量関連ハイパーパラメータのチューニングの労力をなくすため,重球運動量の最適選択に触発された新しい適応運動量を提案する。 提案する適応重球運動量は,確率勾配降下 (sgd) とadamを改善できる。 新たに設計された適応運動量を持つSGDとAdamは、大きな学習率に対してより堅牢であり、より早く収束し、ベースラインよりも良く一般化する。 画像分類,言語モデリング,機械翻訳など,広範な機械学習ベンチマークにおいて,新たな適応運動量を用いてsgdとadamの効率を検証した。 最後に,提案する適応運動量を用いてsgdとadamの収束保証を提供する。

Heavy ball momentum is crucial in accelerating (stochastic) gradient-based optimization algorithms for machine learning. Existing heavy ball momentum is usually weighted by a uniform hyperparameter, which relies on excessive tuning. Moreover, the calibrated fixed hyperparameter may not lead to optimal performance. In this paper, to eliminate the effort for tuning the momentum-related hyperparameter, we propose a new adaptive momentum inspired by the optimal choice of the heavy ball momentum for quadratic optimization. Our proposed adaptive heavy ball momentum can improve stochastic gradient descent (SGD) and Adam. SGD and Adam with the newly designed adaptive momentum are more robust to large learning rates, converge faster, and generalize better than the baselines. We verify the efficiency of SGD and Adam with the new adaptive momentum on extensive machine learning benchmarks, including image classification, language modeling, and machine translation. Finally, we provide convergence guarantees for SGD and Adam with the proposed adaptive momentum.
翻訳日:2021-10-19 20:55:50 公開日:2021-10-18
# EmbRace: NLPニューラルネットワークの分散トレーニングのためのスパース通信の高速化

EmbRace: Accelerating Sparse Communication for Distributed Training of NLP Neural Networks ( http://arxiv.org/abs/2110.09132v1 )

ライセンス: Link先を確認
Shengwei Li, Zhiquan Lai, Dongsheng Li, Xiangyu Ye, Yabo Duan(参考訳) 分散データ並列トレーニングは自然言語処理(NLP)ニューラルネットワークモデルに広く利用されている。 しかし、NLPモデルの埋め込みテーブルは、パラメータの大部分を保持し、通信に劇的な空間性をもたらすため、分散トレーニングを効率的にスケールすることが大きな課題である。 現在の分散トレーニングフレームワークは、主に高密度モデルに重点を置いているが、NLPモデルの空間性を無視しているため、通信オーバーヘッドが大きくなり、スケーラビリティが比較的低い。 本稿では,分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。 EmbRaceは、AlltoAllとAllReduceを組み合わせて、NLPモデルにおける疎密なデータに対する通信オーバーヘッドを最適化する、スパシティ対応のハイブリッド通信を導入した。 embraceはさらに、モデル計算手順を最適化し、埋め込みの依存性を緩和し、優先キューで通信をスケジューリングすることで、計算とコミュニケーションを徹底的に重複させる2次元通信スケジューリングアプローチを導入している。 我々はPyTorchとHorovodに基づくEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。 実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。

Distributed data-parallel training has been widely used for natural language processing (NLP) neural network models. However, the embedding tables in NLP models, holding a large portion of parameters and bringing dramatic sparsity in communication, make it a big challenge to efficiently scale the distributed training. Current distributed training frameworks mainly concentrate on dense models but neglect the sparsity of NLP models, resulting in significant communication overhead and relatively poor scalability. In this paper, we propose EmbRace, an efficient communication framework designed to accelerate sparse communication of distributed NLP model training. EmbRace introduces Sparsity-aware Hybrid Communication, which combines AlltoAll and AllReduce to optimize the communication overhead for sparse and dense data in NLP models. EmbRace further introduces a 2D Communication Scheduling approach to thoroughly overlap communication with computation by optimizing model computation procedure, relaxing the dependency of embeddings, and scheduling communication with a priority queue. We implement EmbRace based on PyTorch and Horovod, and conduct comprehensive evaluations with four representative NLP models on two high-performance GPU clusters. Experimental results show that EmbRace achieves up to 30.66X speedup on 16 GPUs clusters among four popular distributed training baselines.
翻訳日:2021-10-19 20:55:36 公開日:2021-10-18
# 状態空間制約はアルゴリズムタスクにおける微分可能なニューラルネットワークの一般化を改善する

State-Space Constraints Improve the Generalization of the Differentiable Neural Computer in some Algorithmic Tasks ( http://arxiv.org/abs/2110.09138v1 )

ライセンス: Link先を確認
Patrick Ofner and Roman Kern(参考訳) メモリ型ニューラルネットワーク(mann)はソートのようなアルゴリズム的なタスクを解決できる。 しかし、訓練段階では見られない入力シーケンスの長さに一般化しないことが多い。 そこで本研究では,ネットワークコントローラの状態空間を制約し,状態圧縮と状態正規化という,分散サイズの入力シーケンスへの一般化を改善する2つの手法を提案する。 両手法は, 特定の種類のMANN, 微分可能ニューラルネットワーク(DNC)の一般化能力を向上し, アルゴリズム上のステートフルかつステートレスな制御器と比較できることを示す。 さらに,両手法を組み合わせることで,事前学習したdncをより大きなメモリでポストホックに拡張できることを示す。 提案手法では,より短い入力シーケンスを用いてDNCを訓練し,計算資源を節約できる。 さらに、一般化の能力は状態空間のループ構造を伴うことが多く、これはアルゴリズムのループ構造に対応する可能性がある。

Memory-augmented neural networks (MANNs) can solve algorithmic tasks like sorting. However, they often do not generalize to lengths of input sequences not seen in the training phase. Therefore, we introduce two approaches constraining the state-space of the network controller to improve the generalization to out-of-distribution- sized input sequences: state compression and state regularization. We show that both approaches can improve the generalization capability of a particular type of MANN, the differentiable neural computer (DNC), and compare our approaches to a stateful and a stateless controller on a set of algorithmic tasks. Furthermore, we show that especially the combination of both approaches can enable a pre-trained DNC to be extended post hoc with a larger memory. Thus, our introduced approaches allow to train a DNC using shorter input sequences and thus save computational resources. Moreover, we observed that the capability for generalization is often accompanied by loop structures in the state-space, which could correspond to looping constructs in algorithms.
翻訳日:2021-10-19 20:55:15 公開日:2021-10-18
# イランにおけるグラフに基づく地域気候分類

Graph-based Local Climate Classification in Iran ( http://arxiv.org/abs/2110.09209v1 )

ライセンス: Link先を確認
Neda Akrami, Koorush Ziarati, and Soumyabrata Dev(参考訳) 本稿では,地域の気候に類似した地域を分類するグラフベースの新しい手法を提案する。 本稿では,提案手法をGPBM (Graph Partition Based Method) と呼ぶ。 提案手法は,現状の文学的手法の欠点を克服しようとするものである。 使用可能な変数の数に制限がなく、気候データの性質も保持している。 提案アルゴリズムの能力を説明するため,その性能を他の最先端の気候分類手法と比較した。 気候データは、イラン南部ファース州の24の総合観測所から収集される。 このデータには1951年から2017年までの7つの気候変数が含まれている。 その結果,提案手法は計算時間が少なく,より現実的な気候分類が可能となった。 気候分類の過程でより多くの情報を節約できるため、さらなるデータ分析において効率的である。 さらに,本手法を用いることで,季節変動をよりよく調査できる季節グラフを導入することができる。 我々の知る限りでは,提案手法は最初のグラフベースの気候分類システムである。

In this paper, we introduce a novel graph-based method to classify the regions with similar climate in a local area. We refer our proposed method as Graph Partition Based Method (GPBM). Our proposed method attempts to overcome the shortcomings of the current state-of-the-art methods in the literature. It has no limit on the number of variables that can be used and also preserves the nature of climate data. To illustrate the capability of our proposed algorithm, we benchmark its performance with other state-of-the-art climate classification techniques. The climate data is collected from 24 synoptic stations in Fars province in southern Iran. The data includes seven climate variables stored as time series from 1951 to 2017. Our results exhibit that our proposed method performs a more realistic climate classification with less computational time. It can save more information during the climate classification process and is therefore efficient in further data analysis. Furthermore, using our method, we can introduce seasonal graphs to better investigate seasonal climate changes. To the best of our knowledge, our proposed method is the first graph-based climate classification system.
翻訳日:2021-10-19 20:54:58 公開日:2021-10-18
# 点クラウド幾何圧縮のためのパッチベースディープオートエンコーダ

Patch-Based Deep Autoencoder for Point Cloud Geometry Compression ( http://arxiv.org/abs/2110.09109v1 )

ライセンス: Link先を確認
Kang You, Pan Gao(参考訳) ますます増加する3Dアプリケーションは、クラウドの圧縮を前例のないほど重要で必要としている。 本稿では,損失点のクラウド幾何圧縮に着目し,ディープラーニングを用いたパッチベースの圧縮プロセスを提案する。 ポイントクラウド全体の機能抽出と再構築を行う既存のポイントクラウド圧縮ネットワークとは異なり、ポイントクラウドをパッチに分割し、各パッチを個別に圧縮する。 復号処理では、最終的に圧縮されたパッチを完全な点クラウドに組み立てる。 さらに,パッチからパッチへの基準,すなわち局所再構成損失を最適化に利用してネットワークを訓練し,グローバル再構築の最適性を近似する。 提案手法は,特に低ビットレートでの速度歪み性能において,最先端の手法よりも優れる。 さらに,提案した圧縮処理は,入力と同じ数の点を生成することを保証できる。 この手法のネットワークモデルは、アップサンプリングのような他の点雲再構成問題にも容易に適用できる。

The ever-increasing 3D application makes the point cloud compression unprecedentedly important and needed. In this paper, we propose a patch-based compression process using deep learning, focusing on the lossy point cloud geometry compression. Unlike existing point cloud compression networks, which apply feature extraction and reconstruction on the entire point cloud, we divide the point cloud into patches and compress each patch independently. In the decoding process, we finally assemble the decompressed patches into a complete point cloud. In addition, we train our network by a patch-to-patch criterion, i.e., use the local reconstruction loss for optimization, to approximate the global reconstruction optimality. Our method outperforms the state-of-the-art in terms of rate-distortion performance, especially at low bitrates. Moreover, the compression process we proposed can guarantee to generate the same number of points as the input. The network model of this method can be easily applied to other point cloud reconstruction problems, such as upsampling.
翻訳日:2021-10-19 20:54:07 公開日:2021-10-18
# mtp:マルチハイポテーゼ追跡と誤差伝播の予測

MTP: Multi-Hypothesis Tracking and Prediction for Reduced Error Propagation ( http://arxiv.org/abs/2110.09481v1 )

ライセンス: Link先を確認
Xinshuo Weng and Boris Ivanovic and Marco Pavone(参考訳) 近年では、検出、追跡、他のエージェントの軌道予測、エゴエージェントの軌道計画など、標準的な知覚計画ロボット自律パイプラインの個々のモジュールの開発が著しく進展している。 それでも、特にカスケードエラーのキャラクタリゼーションと緩和の観点から、これらのコンポーネントの原則的な統合にはあまり注意が払われていない。 本稿では,追跡モジュールと予測モジュールの結合に着目し,カスケードエラーの問題に対処する。 まず,最先端のトラッキングと予測ツールを用いて,追跡に起因する重大なエラーが予測性能に与える影響を総合的に評価する。 KITTI と nuScenes のデータセットでは,トラックトラジェクトリを入力として消費する予測(実際は典型例)が,地上の真実を過去のトラジェクトリを入力として使用する理想的な設定と比較して,顕著な(たとえ桁違いであっても)性能低下を経験できることがわかった。 この問題に対処するために,多仮説追跡・予測フレームワークを提案する。 予測のために単一の追跡結果セットに頼るのではなく、複数の追跡結果セットを同時に考慮し、予測への入力として正確な追跡結果を含める可能性を高める。 このフレームワークは、nuScenesデータセットで標準の単一仮説追跡予測パイプラインの全体的な予測性能を最大34.2%向上させ、評価をアイデンティティスイッチとフラグメントを含む困難なシナリオに制限した場合、さらに大きな改善(最大70%)を行う。

Recently, there has been tremendous progress in developing each individual module of the standard perception-planning robot autonomy pipeline, including detection, tracking, prediction of other agents' trajectories, and ego-agent trajectory planning. Nevertheless, there has been less attention given to the principled integration of these components, particularly in terms of the characterization and mitigation of cascading errors. This paper addresses the problem of cascading errors by focusing on the coupling between the tracking and prediction modules. First, by using state-of-the-art tracking and prediction tools, we conduct a comprehensive experimental evaluation of how severely errors stemming from tracking can impact prediction performance. On the KITTI and nuScenes datasets, we find that predictions consuming tracked trajectories as inputs (the typical case in practice) can experience a significant (even order of magnitude) drop in performance in comparison to the idealized setting where ground truth past trajectories are used as inputs. To address this issue, we propose a multi-hypothesis tracking and prediction framework. Rather than relying on a single set of tracking results for prediction, our framework simultaneously reasons about multiple sets of tracking results, thereby increasing the likelihood of including accurate tracking results as inputs to prediction. We show that this framework improves overall prediction performance over the standard single-hypothesis tracking-prediction pipeline by up to 34.2% on the nuScenes dataset, with even more significant improvements (up to ~70%) when restricting the evaluation to challenging scenarios involving identity switches and fragments -- all with an acceptable computation overhead.
翻訳日:2021-10-19 20:52:51 公開日:2021-10-18
# (参考訳) ベイズ深層学習によるロバスト網膜症スクリーニングのための段階的クロスドメイン適応 [全文訳有]

Incremental Cross-Domain Adaptation for Robust Retinopathy Screening via Bayesian Deep Learning ( http://arxiv.org/abs/2110.09319v1 )

ライセンス: CC BY 4.0
Taimur Hassan and Bilal Hassan and Muhammad Usman Akram and Shahrukh Hashmi and Abdel Hakim Taguri and Naoufel Werghi(参考訳) 網膜症は、タイムリーに治療されないと、深刻な視覚障害や失明を引き起こす網膜疾患のグループである。 多くの研究者が、眼底および光コヒーレンス断層撮影(OCT)画像を通して網膜症を認識する自律システムを開発した。 しかし、これらのフレームワークの多くは従来の転写学習と微調整のアプローチを採用しており、正確な診断性能を得るためには十分な量のトレーニングデータが必要である。 そこで本研究では,任意の深層分類モデルを用いて10進法および眼底画像の異常網膜病理を段階的に学習できる新しい増分的クロスドメイン適応器を提案する。 さらに, 提案手法は, ベイジアン多目的関数を駆使して, 逐次学習中に学習した知識の保持を候補分類ネットワークに強制するだけでなく, 学習した病理組織の構造的, 意味的関係をネットワークが理解し, 疾患のカテゴリを新たに加えたことにより, 推論段階で効果的に認識できるようにする。 3つの異なるスキャナーで取得した6つの公開データセットで評価し、13の網膜の病理をスクリーニングし、全体的な精度とf1スコアを0.9826と0.9846で比較した。

Retinopathy represents a group of retinal diseases that, if not treated timely, can cause severe visual impairments or even blindness. Many researchers have developed autonomous systems to recognize retinopathy via fundus and optical coherence tomography (OCT) imagery. However, most of these frameworks employ conventional transfer learning and fine-tuning approaches, requiring a decent amount of well-annotated training data to produce accurate diagnostic performance. This paper presents a novel incremental cross-domain adaptation instrument that allows any deep classification model to progressively learn abnormal retinal pathologies in OCT and fundus imagery via few-shot training. Furthermore, unlike its competitors, the proposed instrument is driven via a Bayesian multi-objective function that not only enforces the candidate classification network to retain its prior learned knowledge during incremental training but also ensures that the network understands the structural and semantic relationships between previously learned pathologies and newly added disease categories to effectively recognize them at the inference stage. The proposed framework, evaluated on six public datasets acquired with three different scanners to screen thirteen retinal pathologies, outperforms the state-of-the-art competitors by achieving an overall accuracy and F1 score of 0.9826 and 0.9846, respectively.
翻訳日:2021-10-19 20:48:34 公開日:2021-10-18
# HDR+バースト復調法の解析と実装

An Analysis and Implementation of the HDR+ Burst Denoising Method ( http://arxiv.org/abs/2110.09354v1 )

ライセンス: Link先を確認
Antoine Monod, Julie Delon, Thomas Veit(参考訳) HDR+は2016年にGoogleが発表した画像処理パイプラインである。 その核となるのは、生画像のバーストを使って1つの高品質な画像を生成するデノイジングアルゴリズムである。 スマートフォンのカメラの汎用的なソリューションとして設計されているため、必ずしも標準の分別メトリクスの最大化ではなく、自然で視覚的なイメージの制作を目的としている。 本稿では,hdr+バースト雑音化アルゴリズムアーキテクチャとそのパラメータの影響について検討・解析する。 この発表では、インタラクティブなデモとともに、アルゴリズムのオープンソースPython実装を提供しています。

HDR+ is an image processing pipeline presented by Google in 2016. At its core lies a denoising algorithm that uses a burst of raw images to produce a single higher quality image. Since it is designed as a versatile solution for smartphone cameras, it does not necessarily aim for the maximization of standard denoising metrics, but rather for the production of natural, visually pleasing images. In this article, we specifically discuss and analyze the HDR+ burst denoising algorithm architecture and the impact of its various parameters. With this publication, we provide an open source Python implementation of the algorithm, along with an interactive demo.
翻訳日:2021-10-19 20:11:08 公開日:2021-10-18
# FAST3D:3次元物体検出のためのフローアウェア・セルフトライニング

FAST3D: Flow-Aware Self-Training for 3D Object Detectors ( http://arxiv.org/abs/2110.09355v1 )

ライセンス: Link先を確認
Christian Fruhwirth-Reisinger, Michael Opitz, Horst Possegger, Horst Bischof(参考訳) 自律運転の分野では、LiDARベースの3Dオブジェクト検出器における分散シフトを軽減するために、自己学習が広く適用されている。 これにより、環境が変わるたびに高価な高品質のラベル(地理的位置、センサーの設定、気象条件など)が不要になる。 しかし、最先端の自己学習アプローチは、自動運転データの時間的性質をほとんど無視する。 そこで本研究では,連続lidar点雲上の3次元物体検出器に対する教師なし領域適応を実現するフローアウェア自己学習手法を提案する。 疑似ラベルを確実に取得するために,シーンフローを利用して時間的検出を行う。 特に,フローベースマルチターゲットトラッカーを導入し,フローの整合性を利用してトラックのフィルタと精細化を行う。 出現した正確な擬似ラベルはモデル再トレーニングの基礎となる。 トレーニング済みのKITTIモデルから開始し、Waymo Open Datasetを試行して、我々のアプローチの有効性を実証する。 対象とするドメイン知識がなければ、我々の結果は最先端技術よりも大幅に改善される。

In the field of autonomous driving, self-training is widely applied to mitigate distribution shifts in LiDAR-based 3D object detectors. This eliminates the need for expensive, high-quality labels whenever the environment changes (e.g., geographic location, sensor setup, weather condition). State-of-the-art self-training approaches, however, mostly ignore the temporal nature of autonomous driving data. To address this issue, we propose a flow-aware self-training method that enables unsupervised domain adaptation for 3D object detectors on continuous LiDAR point clouds. In order to get reliable pseudo-labels, we leverage scene flow to propagate detections through time. In particular, we introduce a flow-based multi-target tracker, that exploits flow consistency to filter and refine resulting tracks. The emerged precise pseudo-labels then serve as a basis for model re-training. Starting with a pre-trained KITTI model, we conduct experiments on the challenging Waymo Open Dataset to demonstrate the effectiveness of our approach. Without any prior target domain knowledge, our results show a significant improvement over the state-of-the-art.
翻訳日:2021-10-19 20:10:57 公開日:2021-10-18
# NeuralBlox:ロバストボリュームマッピングのためのリアルタイム神経表現融合

NeuralBlox: Real-Time Neural Representation Fusion for Robust Volumetric Mapping ( http://arxiv.org/abs/2110.09415v1 )

ライセンス: Link先を確認
Stefan Lionar, Lukas Schmid, Cesar Cadena, Roland Siegwart, Andrei Cramariuc(参考訳) 本稿では,ニューラル暗黙表現の最近の進歩を活かした新しい3次元マッピング手法を提案する。 既存の最先端のニューラル暗示表現法は、オブジェクトレベルの再構成に限られており、新しいデータに対して漸進的に更新を行うことはできない。 本研究では,逐次的な部分的観測から大きなシーンの再構築を可能にする神経暗黙的表現を漸進的に構築し,更新するための融合戦略と訓練パイプラインを提案する。 任意の大きさのシーンを遅延符号のグリッドとして表現し、遅延空間で直接更新を行うことにより、CPU上でもインクリメンタルに構築された占有マップをリアルタイムで得ることを示す。 tsdfs(truncated signed distance fields)のような従来のアプローチと比較して、我々のマップ表現はノイズの多い入力に対してより優れたシーン完全性をもたらすのにかなり頑丈です。 提案手法の性能を実世界のデータセットで実験的に検証し,追加ポーズノイズの程度を検証した。

We present a novel 3D mapping method leveraging the recent progress in neural implicit representation for 3D reconstruction. Most existing state-of-the-art neural implicit representation methods are limited to object-level reconstructions and can not incrementally perform updates given new data. In this work, we propose a fusion strategy and training pipeline to incrementally build and update neural implicit representations that enable the reconstruction of large scenes from sequential partial observations. By representing an arbitrarily sized scene as a grid of latent codes and performing updates directly in latent space, we show that incrementally built occupancy maps can be obtained in real-time even on a CPU. Compared to traditional approaches such as Truncated Signed Distance Fields (TSDFs), our map representation is significantly more robust in yielding a better scene completeness given noisy inputs. We demonstrate the performance of our approach in thorough experimental validation on real-world datasets with varying degrees of added pose noise.
翻訳日:2021-10-19 20:10:25 公開日:2021-10-18
# (参考訳) 自然属性に基づくシフト検出 [全文訳有]

Natural Attribute-based Shift Detection ( http://arxiv.org/abs/2110.09276v1 )

ライセンス: CC BY 4.0
Jeonghoon Park, Jimin Hong, Radhika Dua, Daehoon Gwak, Yixuan Li, Jaegul Choo, Edward Choi(参考訳) ビジョン、言語、医療におけるディープネットワークの素晴らしいパフォーマンスにもかかわらず、トレーニングディストリビューションとは異なる分布のサンプルに対する予測不可能な振る舞いは、デプロイメントにおいて深刻な問題を引き起こします。 ニューラルネットワークに基づく分類器の信頼性を向上させるために,新たなタスクであるnas(natural attribute-based shift)検出を定義し,被験者の年齢や画像の明るさなどの自然属性によってトレーニング分布からシフトしたサンプルを検出する。 既存のデータセットに存在する自然属性を用いて,nas検出のための視覚,言語,医学におけるベンチマークデータセットを導入する。 さらに,NASデータセットに対する先行代表出力検出法(OOD)の広範な評価を行い,その性能の矛盾を観察する。 そこで本稿では,特徴空間におけるNASサンプルの位置と距離と信頼度に基づくOOD検出手法の性能の関係について分析する。 本分析に基づいて,NAS試料を3つのカテゴリに分割し,さらにトレーニング対象に簡単な修正を加えて,NAS試料を全カテゴリから検出できる改良型OOD検出法を提案する。

Despite the impressive performance of deep networks in vision, language, and healthcare, unpredictable behaviors on samples from the distribution different than the training distribution cause severe problems in deployment. For better reliability of neural-network-based classifiers, we define a new task, natural attribute-based shift (NAS) detection, to detect the samples shifted from the training distribution by some natural attribute such as age of subjects or brightness of images. Using the natural attributes present in existing datasets, we introduce benchmark datasets in vision, language, and medical for NAS detection. Further, we conduct an extensive evaluation of prior representative out-of-distribution (OOD) detection methods on NAS datasets and observe an inconsistency in their performance. To understand this, we provide an analysis on the relationship between the location of NAS samples in the feature space and the performance of distance- and confidence-based OOD detection methods. Based on the analysis, we split NAS samples into three categories and further suggest a simple modification to the training objective to obtain an improved OOD detection method that is capable of detecting samples from all NAS categories.
翻訳日:2021-10-19 20:07:22 公開日:2021-10-18
# (参考訳) X線溶接画像の符号に対する軽量かつ高精度な認識フレームワーク [全文訳有]

A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld Images ( http://arxiv.org/abs/2110.09278v1 )

ライセンス: CC BY 4.0
Moyun Liu, Jingming Xie, Jing Hao, Yang Zhang, Xuzhan Chen, Youping Chen(参考訳) x線画像は、品質検査業界におけるデバイスのセキュリティを確保するために一般的に使用される。 x線溶接画像に印刷された標識の認識は、製造業界のデジタルトレーサビリティシステムにおいて重要な役割を果たす。 しかし, 溶接画像では物体のスケールが大きく異なり, 良好な認識が得られにくい。 本稿では,溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。 提案するフレームワークは,まず画像のポーズを補正する浅い分類網を含む。 さらに,上記の課題に対処するために,新たな空間・チャネル拡張(sce)モジュールを提案する。 このモジュールはマルチスケールの機能を統合し、各機能ソースの重みを適応的に割り当てる。 SCEモジュールをベースとした狭帯域ネットワークは最終溶接情報認識のために設計されている。 フレームワークの実用性を高めるため、いくつかのパラメータと計算でフレームワークのアーキテクチャを慎重に設計します。 実験の結果,本フレームワークは分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では90.0平均平均平均精度(mAP)が176.1フレーム/秒(FPS)で達成された。

X-ray images are commonly used to ensure the security of devices in quality inspection industry. The recognition of signs printed on X-ray weld images plays an essential role in digital traceability system of manufacturing industry. However, the scales of objects vary different greatly in weld images, and it hinders us to achieve satisfactory recognition. In this paper, we propose a signs recognition framework based on convolutional neural networks (CNNs) for weld images. The proposed framework firstly contains a shallow classification network for correcting the pose of images. Moreover, we present a novel spatial and channel enhancement (SCE) module to address the above scale problem. This module can integrate multi-scale features and adaptively assign weights for each feature source. Based on SCE module, a narrow network is designed for final weld information recognition. To enhance the practicability of our framework, we carefully design the architecture of framework with a few parameters and computations. Experimental results show that our framework achieves 99.7% accuracy with 1.1 giga floating-point of operations (GFLOPs) on classification stage, and 90.0 mean average precision (mAP) with 176.1 frames per second (FPS) on recognition stage.
翻訳日:2021-10-19 19:46:02 公開日:2021-10-18
# (参考訳) フェアツリー学習 [全文訳有]

Fair Tree Learning ( http://arxiv.org/abs/2110.09295v1 )

ライセンス: CC BY 4.0
Ant\'onio Pereira Barata, Cor J. Veenman(参考訳) 自動データ駆動意思決定におけるセンシティブなデータを扱う場合、重要な関心事は、偏りのあるデータから生じる性別や人種などのセンシティブな属性に対する識別を最小限に抑えながら、クラスラベルに対して高いパフォーマンスの予測器を学習することである。 分類性能と公正度を組み合わせた様々なハイブリッド最適化基準が存在する。 しかしながら、従来の分類モデルの性能測定の標準はROC-AUCであるが、現在の公正決定木法は、分類タスクと公平度測定の両方で一定の閾値を最適化するのみである。 さらに、現在のツリー学習フレームワークでは、複数のカテゴリや複数の機密属性に関して公平な扱いができない。 最後に、公正モデルのエンドユーザーは、特定の倫理的、法的、社会的ニーズに応じて公正さと分類性能のバランスをとることができるべきである。 本稿では,一様人口的平等というしきい値非依存の公平度尺度と,SCAFF - Splitting Criterion AUC for Fairness(公正のための分割基準AUC)と題する分割基準を,タグ付きおよび強化されたフレームワークに拡張した公正決定木学習に向けて提案することで,これらの欠点に対処する。 1) 分類器の性能と公平性は, しばしば任意に決定しきい値に依存するのではなく, 連続的に定義され, (2) 複数の機密属性を同時に活用し, その値が多カテゴリー化されうること, (3) 学習中, 避けられない性能・フェアネストレードオフが調整可能であること, の3つの利点がある。 実験では,SCAFFがクラスラベルに対して高い予測性能を達成し,二項・多分類・複数機密属性に対する低識別性を実証し,さらにその主張を裏付ける。

When dealing with sensitive data in automated data-driven decision-making, an important concern is to learn predictors with high performance towards a class label, whilst minimising for the discrimination towards some sensitive attribute, like gender or race, induced from biased data. Various hybrid optimisation criteria exist which combine classification performance with a fairness metric. However, while the threshold-free ROC-AUC is the standard for measuring traditional classification model performance, current fair decision tree methods only optimise for a fixed threshold on both the classification task as well as the fairness metric. Moreover, current tree learning frameworks do not allow for fair treatment with respect to multiple categories or multiple sensitive attributes. Lastly, the end-users of a fair model should be able to balance fairness and classification performance according to their specific ethical, legal, and societal needs. In this paper we address these shortcomings by proposing a threshold-independen t fairness metric termed uniform demographic parity, and a derived splitting criterion entitled SCAFF -- Splitting Criterion AUC for Fairness -- towards fair decision tree learning, which extends to bagged and boosted frameworks. Compared to the state-of-the-art, our method provides three main advantages: (1) classifier performance and fairness are defined continuously instead of relying upon an, often arbitrary, decision threshold; (2) it leverages multiple sensitive attributes simultaneously, of which the values may be multicategorical; and (3) the unavoidable performance-fairness trade-off is tunable during learning. In our experiments, we demonstrate how SCAFF attains high predictive performance towards the class label and low discrimination with respect to binary, multicategorical, and multiple sensitive attributes, further substantiating our claims.
翻訳日:2021-10-19 19:30:37 公開日:2021-10-18
# (参考訳) 対照的自己教師付き学習における次元崩壊の理解 [全文訳有]

Understanding Dimensional Collapse in Contrastive Self-supervised Learning ( http://arxiv.org/abs/2110.09348v1 )

ライセンス: CC0 1.0
Li Jing, Pascal Vincent, Yann LeCun, Yuandong Tian(参考訳) 自己教師付き視覚表現学習は、人間のアノテーションに頼らずに有用な表現を学ぶことを目的としている。 共同埋め込みアプローチは、同じ画像の異なるビューからの埋め込みベクトル間の一致を最大化する。 全ての埋め込みベクトルが自明な定数解に崩壊するという崩壊問題の解法が提案されている。 これらの方法のうち、対照学習は負のサンプルペアによる崩壊を防ぐ。 次元崩壊(英語版)により、埋め込みベクトルは、利用可能な埋め込み空間全体ではなく、低次元の部分空間にまたがることになる。 ここでは, 次元的崩壊も対照的な学習で起こることを示す。 本稿では,次元の崩壊につながる対照的な学習において,遊びの力学に光を当てる。 この理論に触発されて,学習可能なプロジェクタに頼らずに表現空間を直接最適化するdirectclrと呼ばれる新しいコントラスト学習法を提案する。 実験の結果、DirectCLRはImageNet上でトレーニング可能な線形プロジェクタでSimCLRより優れています。

Self-supervised visual representation learning aims to learn useful representations without relying on human annotations. Joint embedding approach bases on maximizing the agreement between embedding vectors from different views of the same image. Various methods have been proposed to solve the collapsing problem where all embedding vectors collapse to a trivial constant solution. Among these methods, contrastive learning prevents collapse via negative sample pairs. It has been shown that non-contrastive methods suffer from a lesser collapse problem of a different nature: dimensional collapse, whereby the embedding vectors end up spanning a lower-dimensional subspace instead of the entire available embedding space. Here, we show that dimensional collapse also happens in contrastive learning. In this paper, we shed light on the dynamics at play in contrastive learning that leads to dimensional collapse. Inspired by our theory, we propose a novel contrastive learning method, called DirectCLR, which directly optimizes the representation space without relying on a trainable projector. Experiments show that DirectCLR outperforms SimCLR with a trainable linear projector on ImageNet.
翻訳日:2021-10-19 19:16:51 公開日:2021-10-18
# (参考訳) 二元および優先ベイズ最適化における効率的な探索 [全文訳有]

Efficient Exploration in Binary and Preferential Bayesian Optimization ( http://arxiv.org/abs/2110.09361v1 )

ライセンス: CC BY 4.0
Tristan Fauvel and Matthew Chalk(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数を最適化する効果的な手法であり、エクスプロイト(最大値が予想されるパラメータを選択する)と探索(目的関数について不確実なパラメータを選択する)のトレードオフを求める。 実世界の多くの状況では、目的関数の直接測定は不可能であり、成功/失敗や対数比較のような二元計測のみが利用可能である。 この環境で効率的な探索を行うためには, BOアルゴリズムが, 不確実性, 目的関数の不確かさ, および, ノイズの多い観測から生じるアレタリック不確実性など, 異なる種類の不確実性を見分けることが重要である。 事実上、効率的な探査には前者だけが重要である。 そこで本研究では,2進および優先BOにおける最先端のヒューリスティックよりも高速で実装が容易な新しい獲得関数を提案する。 次に、これらの取得ルールをバッチ学習に一般化し、複数のクエリを同時に実行する。

Bayesian optimization (BO) is an effective approach to optimize expensive black-box functions, that seeks to trade-off between exploitation (selecting parameters where the maximum is likely) and exploration (selecting parameters where we are uncertain about the objective function). In many real-world situations, direct measurements of the objective function are not possible, and only binary measurements such as success/failure or pairwise comparisons are available. To perform efficient exploration in this setting, we show that it is important for BO algorithms to distinguish between different types of uncertainty: epistemic uncertainty, about the unknown objective function, and aleatoric uncertainty, which comes from noisy observations and cannot be reduced. In effect, only the former is important for efficient exploration. Based on this, we propose several new acquisition functions that outperform state-of-the-art heuristics in binary and preferential BO, while being fast to compute and easy to implement. We then generalize these acquisition rules to batch learning, where multiple queries are performed simultaneously.
翻訳日:2021-10-19 19:00:48 公開日:2021-10-18
# (参考訳) Ortho-Shot:Few-Shot学習のためのデータ拡張による低変位ランク正規化 [全文訳有]

Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation for Few-Shot Learning ( http://arxiv.org/abs/2110.09374v1 )

ライセンス: CC BY 4.0
Uche Osahor, Nasser M. Nasrabadi(参考訳) 少数ショット分類では、主な目標は、新しいクラスをうまく一般化したいくつかのサンプルから表現を学ぶことである。 本稿では,2重ブロックtoeplitz (dbt) 行列構造に基づく,数発分類器の畳み込み層に直交正規化を課す手法である,オルソショットと呼ばれる効率的な低変位ランク (ldr) 正規化戦略を提案する。 数ショット分類器の正規化畳み込み層は、数ショット学習に不可欠なモデル一般化とクラス内特徴埋め込みを強化する。 データ多様性の欠如は適切なモデル推論を阻害し、少数の学習者の新しいクラスへの分類精度を弱めている。 この点に関して、数発の分類器のパイプラインを分解し、サポート、クエリ、タスクデータの増大がネットワークの過度な適合を緩和することを確立した。 その結果,DBTベースの低ランク直交正規化器とデータ拡張戦略を組み合わせることで,数ショットの分類器の性能が著しく向上することを示した。 最先端と比較して約5倍の性能を持つminiImagenet、CIFAR-FS、Stanfordデータセットで実験を行った。

In few-shot classification, the primary goal is to learn representations from a few samples that generalize well for novel classes. In this paper, we propose an efficient low displacement rank (LDR) regularization strategy termed Ortho-Shot; a technique that imposes orthogonal regularization on the convolutional layers of a few-shot classifier, which is based on the doubly-block toeplitz (DBT) matrix structure. The regularized convolutional layers of the few-shot classifier enhances model generalization and intra-class feature embeddings that are crucial for few-shot learning. Overfitting is a typical issue for few-shot models, the lack of data diversity inhibits proper model inference which weakens the classification accuracy of few-shot learners to novel classes. In this regard, we broke down the pipeline of the few-shot classifier and established that the support, query and task data augmentation collectively alleviates overfitting in networks. With compelling results, we demonstrated that combining a DBT-based low-rank orthogonal regularizer with data augmentation strategies, significantly boosts the performance of a few-shot classifier. We perform our experiments on the miniImagenet, CIFAR-FS and Stanford datasets with performance values of about 5\% when compared to state-of-the-art
翻訳日:2021-10-19 18:39:18 公開日:2021-10-18
# 大規模並列ベイズ最適化へのポートフォリオアプローチ

A portfolio approach to massively parallel Bayesian optimization ( http://arxiv.org/abs/2110.09334v1 )

ライセンス: Link先を確認
Mickael Binois, Nicholson Collier (ANL), Jonathan Ozik (ANL)(参考訳) 最適化研究の実施時間を短縮する一つの方法は、一度に1回ではなく、並列に設計を評価することである。 高価な評価ブラックボックスでは、ベイズ最適化のバッチバージョンが提案されている。 それらはブラックボックスのサロゲートモデルを構築することで動作し、インフィル基準によって効率的に評価するデザインを選択することができる。 それでも、高いレベルの並列化が利用可能になると、数十回の並列評価で機能する戦略は制限され、特に、より多くの評価を選択するのが複雑になる。 ブラックボックスがうるさい場合にはさらに重要であり、より多くの評価と繰り返しの実験が必要である。 ここでは,大規模なバッチ処理をネイティブに処理し,探索/探索のトレードオフとポートフォリオ割り当てに着目したスケーラブルな戦略を提案する。 このアプローチを,モノおよび多目的最適化タスクにおける決定論的およびノイズ関数に関する関連する手法と比較する。 これらの実験は既存の方法と同等または優れた性能を示すが、桁違いに高速である。

One way to reduce the time of conducting optimization studies is to evaluate designs in parallel rather than just one-at-a-time. For expensive-to-evaluat e black-boxes, batch versions of Bayesian optimization have been proposed. They work by building a surrogate model of the black-box that can be used to select the designs to evaluate efficiently via an infill criterion. Still, with higher levels of parallelization becoming available, the strategies that work for a few tens of parallel evaluations become limiting, in particular due to the complexity of selecting more evaluations. It is even more crucial when the black-box is noisy, necessitating more evaluations as well as repeating experiments. Here we propose a scalable strategy that can keep up with massive batching natively, focused on the exploration/exploita tion trade-off and a portfolio allocation. We compare the approach with related methods on deterministic and noisy functions, for mono and multiobjective optimization tasks. These experiments show similar or better performance than existing methods, while being orders of magnitude faster.
翻訳日:2021-10-19 18:20:25 公開日:2021-10-18
# 近似組換えを用いた注意モデルの効率よい系列学習

Efficient Sequence Training of Attention Models using Approximative Recombination ( http://arxiv.org/abs/2110.09245v1 )

ライセンス: Link先を確認
Nils-Philipp Wynands and Wilfried Michel and Jan Rosendahl and Ralf Schl\"uter and Hermann Ney(参考訳) シーケンス判別訓練は、自動音声認識システムの性能を向上させるための優れたツールである。 しかし、実際には計算が困難である全ての可能な単語列に対して和を必要とする。 有限ラベル文脈を持つ現在の最先端システムは、ビームサーチから得られる関連する競合仮説のn-bestリストに和を限定することでこの問題を回避する。 本研究は,ビーム探索中に仮説の再結合を(近似的に)行うことを提案する。 近似によって生じる誤差を解析し, この手法を用いて計算量を大幅に増加させることなく, 有効ビームサイズを数桁増加させることができることを示した。 最後に,本手法は,librispeechタスクにおける注意に基づくエンコーダ・デコーダ音響モデルのシーケンス識別訓練を効果的に行うことができることを示した。

Sequence discriminative training is a great tool to improve the performance of an automatic speech recognition system. It does, however, necessitate a sum over all possible word sequences, which is intractable to compute in practice. Current state-of-the-art systems with unlimited label context circumvent this problem by limiting the summation to an n-best list of relevant competing hypotheses obtained from beam search. This work proposes to perform (approximative) recombinations of hypotheses during beam search, if they share a common local history. The error that is incurred by the approximation is analyzed and it is shown that using this technique the effective beam size can be increased by several orders of magnitude without significantly increasing the computational requirements. Lastly, it is shown that this technique can be used to effectively perform sequence discriminative training for attention-based encoder-decoder acoustic models on the LibriSpeech task.
翻訳日:2021-10-19 18:19:49 公開日:2021-10-18
# サブワード依存モデル尺度の自動学習

Automatic Learning of Subword Dependent Model Scales ( http://arxiv.org/abs/2110.09324v1 )

ライセンス: Link先を確認
Felix Meyer and Wilfried Michel and Mohammad Zeineldeen and Ralf Schl\"uter and Hermann Ney(参考訳) 最先端の自動音声認識システムの性能向上には,言語モデルや事前修正などの外部知識源を組み込むことが一般的である。 これは通常、各モデルごとに別々のスケーリングパラメータを使用して、ログ-線形モデルの組み合わせによって行われる。 一般的にこれらのパラメータは、いくつかの保留データに手動で最適化される。 本研究では,ニューラルネットワークモデルパラメータとよく似た,自動微分と確率勾配によるスケーリングパラメータの最適化を提案する。 librispeech(lbs)とswitchboard(swb)コーポラ(コーポラ)に対して,注意に基づくエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールが,手作業によるチューニングと同じくらい効果的に学習できることを示す。 さらに本手法を,手作業では調整できないサブワード依存モデル尺度に拡張し,LBSは7%,SWBは3%改善した。 また,スケールとモデルパラメータの協調トレーニングが可能であり,LBSでは6%の改善が見られた。

To improve the performance of state-of-the-art automatic speech recognition systems it is common practice to include external knowledge sources such as language models or prior corrections. This is usually done via log-linear model combination using separate scaling parameters for each model. Typically these parameters are manually optimized on some held-out data. In this work we propose to optimize these scaling parameters via automatic differentiation and stochastic gradient decent similar to the neural network model parameters. We show on the LibriSpeech (LBS) and Switchboard (SWB) corpora that the model scales for a combination of attentionbased encoder-decoder acoustic model and language model can be learned as effectively as with manual tuning. We further extend this approach to subword dependent model scales which could not be tuned manually which leads to 7% improvement on LBS and 3% on SWB. We also show that joint training of scales and model parameters is possible and gives additional 6% improvement on LBS.
翻訳日:2021-10-19 18:19:34 公開日:2021-10-18
# 非凸間隔正規化を用いた定常フレームレット変換に基づく塩と唐辛子ノイズ除去法

Salt and pepper noise removal method based on stationary Framelet transform with non-convex sparsity regularization ( http://arxiv.org/abs/2110.09113v1 )

ライセンス: Link先を確認
Yingpin Chen, Lingzhi Wang, Huiying Huang, Jianhua Song, Chaoqun Yu, Yanping Xu(参考訳) ソルトとペッパーのノイズ除去は画像処理において一般的な逆問題であり,高品質で画像情報を復元することを目的としている。 伝統的な塩分とコショウ分別法には2つの制限がある。 まず、ノイズ特性が正確に記述されないことが多い。 例えば、ノイズ位置情報は無視されることが多く、塩と唐辛子音の空間性はしばしばL1ノルムによって説明され、スパース変数を明確に説明できない。 第2に、従来の方法では、汚染された画像を復元された画像とノイズ部分とに分離し、不満足な滑らかな部分と詳細部分の像を復元する。 本研究では,雑音の位置を決定するためのノイズ検出手法を導入し,Lp準ノルムで表される非凸間隔正規化を用いてノイズの疎度を記述することにより,第1の制限に対処する。 静止フレームレット変換を伴う形態素成分分析フレームワークを用いて、処理された画像をマンガ、テクスチャ、ノイズ部品に分解し、第2の制限を解決する。 このフレームワークでは、パラメータの異なる静止フレームレット正規化が漫画やテクスチャ部品の復元を制御する。 このようにして、2つの部品は相互干渉を避けるために別々に回収される。 次に,乗算器の交互方向法 (ADMM) を用いて提案モデルの解法を提案する。 最後に,提案手法を検証し,現在最先端の復調法と比較する実験を行った。 実験の結果,提案手法は処理画像の細部を保存しつつ,塩と唐辛子ノイズを除去できることがわかった。

Salt and pepper noise removal is a common inverse problem in image processing, and it aims to restore image information with high quality. Traditional salt and pepper denoising methods have two limitations. First, noise characteristics are often not described accurately. For example, the noise location information is often ignored and the sparsity of the salt and pepper noise is often described by L1 norm, which cannot illustrate the sparse variables clearly. Second, conventional methods separate the contaminated image into a recovered image and a noise part, thus resulting in recovering an image with unsatisfied smooth parts and detail parts. In this study, we introduce a noise detection strategy to determine the position of the noise, and a non-convex sparsity regularization depicted by Lp quasi-norm is employed to describe the sparsity of the noise, thereby addressing the first limitation. The morphological component analysis framework with stationary Framelet transform is adopted to decompose the processed image into cartoon, texture, and noise parts to resolve the second limitation. In this framework, the stationary Framelet regularizations with different parameters control the restoration of the cartoon and texture parts. In this way, the two parts are recovered separately to avoid mutual interference. Then, the alternating direction method of multipliers (ADMM) is employed to solve the proposed model. Finally, experiments are conducted to verify the proposed method and compare it with some current state-of-the-art denoising methods. The experimental results show that the proposed method can remove salt and pepper noise while preserving the details of the processed image.
翻訳日:2021-10-19 18:12:44 公開日:2021-10-18
# (参考訳) データ異常の予測的説明について [全文訳有]

On Predictive Explanation of Data Anomalies ( http://arxiv.org/abs/2110.09467v1 )

ライセンス: CC BY 4.0
Nikolaos Myrtakis, Ioannis Tsamardinos, Vassilis Christophides(参考訳) 異常(異常、新規性)を教師なしで検出するアルゴリズムが多数提案されている。 残念なことに、一般に、あるサンプル(記録)がなぜ異常であるとラベル付けされ、したがって根本原因を診断されるのかを理解することは自明ではない。 そこで本研究では, 検出モデルと, 少数の特徴量のみを用いる他のモデルとを近似した, 検出決定のための下記の縮小次元モデル手法を提案する。 その後、人間の理解のためにこの低次元空間でサンプルを視覚化することができる。 この目的のために,不均衡なデータセットの特徴選択に特化して設計されたサロゲートモデルを生成するAutoMLパイプラインであるProteusを開発した。 proteus surrogateモデルでは、トレーニングデータだけでなく、アウト・オブ・サンプル(unseen)データも説明できる。 言い換えると、プロテウスは教師なし検出器の決定面を近似して予測的な説明を生成する。 PROTEUSは、近似の品質の指標となるために、サンプル外予測性能の正確な見積もりを返すように設計されている。 計算実験により、プロテウスは、異なる種類の検出器の予測説明を生成し、その予測性能を確実に推定する。 いくつかのアドホック特徴量法とは異なり、プロテウスは高次元データに対して頑健である。

Numerous algorithms have been proposed for detecting anomalies (outliers, novelties) in an unsupervised manner. Unfortunately, it is not trivial, in general, to understand why a given sample (record) is labelled as an anomaly and thus diagnose its root causes. We propose the following reduced-dimensionali ty, surrogate model approach to explain detector decisions: approximate the detection model with another one that employs only a small subset of features. Subsequently, samples can be visualized in this low-dimensionality space for human understanding. To this end, we develop PROTEUS, an AutoML pipeline to produce the surrogate model, specifically designed for feature selection on imbalanced datasets. The PROTEUS surrogate model can not only explain the training data, but also the out-of-sample (unseen) data. In other words, PROTEUS produces predictive explanations by approximating the decision surface of an unsupervised detector. PROTEUS is designed to return an accurate estimate of out-of-sample predictive performance to serve as a metric of the quality of the approximation. Computational experiments confirm the efficacy of PROTEUS to produce predictive explanations for different families of detectors and to reliably estimate their predictive performance in unseen data. Unlike several ad-hoc feature importance methods, PROTEUS is robust to high-dimensional data.
翻訳日:2021-10-19 18:10:45 公開日:2021-10-18
# EMルーティングを用いたカプセルグラフニューラルネットワーク

Capsule Graph Neural Networks with EM Routing ( http://arxiv.org/abs/2110.09039v1 )

ライセンス: Link先を確認
Yu Lei, Jing Zhang(参考訳) グラフインスタンスを効果的に分類するには、グラフニューラルネットワークはグラフに存在する部分と全体の関係をキャプチャする能力を持つ必要がある。 カプセルは、実体の複雑な特性を表すニューロンのグループであり、従来の畳み込みニューラルネットワークにおいてその利点を示している。 本稿では,EMルーティング機構(CapsGNNEM)を用いて高品質なグラフ埋め込みを生成する新しいカプセルグラフニューラルネットワークを提案する。 多くの実世界のグラフデータセットにおける実験結果は、グラフ分類タスクにおいて、提案手法が9つの最先端モデルを上回ることを示している。

To effectively classify graph instances, graph neural networks need to have the capability to capture the part-whole relationship existing in a graph. A capsule is a group of neurons representing complicated properties of entities, which has shown its advantages in traditional convolutional neural networks. This paper proposed novel Capsule Graph Neural Networks that use the EM routing mechanism (CapsGNNEM) to generate high-quality graph embeddings. Experimental results on a number of real-world graph datasets demonstrate that the proposed CapsGNNEM outperforms nine state-of-the-art models in graph classification tasks.
翻訳日:2021-10-19 17:50:36 公開日:2021-10-18
# オンラインサイン識別:しきい値帯における誤り回数の最小化

Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits ( http://arxiv.org/abs/2110.09133v1 )

ライセンス: Link先を確認
Reda Ouhamma, R\'emy Degenne, Pierre Gaillard, Vianney Perchet(参考訳) 固定予算しきい値バンディット問題において、アルゴリズムは予算化されたサンプル数を異なる分布に順次割り当てる。 そして、各分布の平均が与えられた閾値よりも大きいか低いかを予測する。 本稿では,Frank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群(既存のアルゴリズム群を含む)を導入し,その性能を網羅的かつ総合的に分析する。 これにより、幅広い種類の問題に対して新しい明示的アルゴリズムを構築することができ、その損失は非適応的なオラクルの小さな定数要素の範囲内である。 興味深いことに、私たちは、アダプティブメソッドが経験上、非適応オラクルよりも大幅に優れており、後悔の最小化のような標準的なオンライン学習設定では珍しい行動であると観察しました。 私たちはこの驚くべき現象を洞察に富んだおもちゃの問題に説明します。

In the fixed budget thresholding bandit problem, an algorithm sequentially allocates a budgeted number of samples to different distributions. It then predicts whether the mean of each distribution is larger or lower than a given threshold. We introduce a large family of algorithms (containing most existing relevant ones), inspired by the Frank-Wolfe algorithm, and provide a thorough yet generic analysis of their performance. This allowed us to construct new explicit algorithms, for a broad class of problems, whose losses are within a small constant factor of the non-adaptive oracle ones. Quite interestingly, we observed that adaptive methods empirically greatly out-perform non-adaptive oracles, an uncommon behavior in standard online learning settings, such as regret minimization. We explain this surprising phenomenon on an insightful toy problem.
翻訳日:2021-10-19 17:50:24 公開日:2021-10-18
# dnnにおける高速化バックプロパゲーション:メモリ付き近似外積

Speeding-Up Back-Propagation in DNN: Approximate Outer Product with Memory ( http://arxiv.org/abs/2110.09164v1 )

ライセンス: Link先を確認
Eduin E. Hernandez, Stefano Rini, Tolga M. Duman(参考訳) 本稿では,dnnトレーニングにおけるバックプロパゲーションの近似評価アルゴリズムについて検討し,メモリ付き外積勾配降下(mem-aop-gd)と呼ぶ。 Mem-AOP-GDアルゴリズムは、バックプロパゲーションを含む行列乗算に関わる外部積のサブセットのみを考慮し、確率勾配勾配の近似を実装する。 この近似の固有のバイアスを補正するために、アルゴリズムは近似に使われない外部積の蓄積を記憶に残している。 2つの設計パラメータの下で,提案アルゴリズムの性能をDNNトレーニング損失の観点から検討する。 (i)近似に用いる外積の数、及び (二)これらの外産品の選択に用いた政策 我々は,Mem-AOPGDにより計算複雑性と精度の大幅な改善が実際に達成できることを実験的に示した。

In this paper, an algorithm for approximate evaluation of back-propagation in DNN training is considered, which we term Approximate Outer Product Gradient Descent with Memory (Mem-AOP-GD). The Mem-AOP-GD algorithm implements an approximation of the stochastic gradient descent by considering only a subset of the outer products involved in the matrix multiplications that encompass backpropagation. In order to correct for the inherent bias in this approximation, the algorithm retains in memory an accumulation of the outer products that are not used in the approximation. We investigate the performance of the proposed algorithm in terms of DNN training loss under two design parameters: (i) the number of outer products used for the approximation, and (ii) the policy used to select such outer products. We experimentally show that significant improvements in computational complexity as well as accuracy can indeed be obtained through Mem-AOPGD.
翻訳日:2021-10-19 17:50:10 公開日:2021-10-18
# グラフ上の半教師付き学習のためのグラフパートナーニューラルネットワーク

Graph Partner Neural Networks for Semi-Supervised Learning on Graphs ( http://arxiv.org/abs/2110.09182v1 )

ライセンス: Link先を確認
Langzhang Liang, Cuiyun Gao, Shiyi Chen, Shishi Duan, Yu pan, Junjin Zheng, Lei Wang, Zenglin Xu(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ構造化データを処理するのに強力であり、ノード分類、リンク予測、グラフ分類などのタスクで最先端のパフォーマンスを達成した。 しかし、深いGCNは、グラフの畳み込み操作を繰り返した後にノードの表現が区別できないという過度な問題に悩まされることは避けられない。 この問題に対処するために,パラメータ分割GCNとパラメータ共有MLPを組み合わせたグラフパートナーニューラルネットワーク(GPNN)を提案する。 提案するMLPパートナーが適切な滑らかさの恩恵を受けながら過度なスムース化に取り組む上での有効性を実証するための実証的および理論的証拠を提供する。 さらに,学習プロセスの過度な対応と制御のために,よく設計された一貫性の対比的損失とklの分岐損失を導入する。 さらに,グラフのエッジ全体の品質を向上させるためのグラフ拡張手法を提案する。 ほとんどのGCNは浅いアーキテクチャでのみ動作するが、GPNNはモデル深度を増大させることでより良い結果を得ることができる。 各種ノード分類タスクの実験により,GPNNの最先端性能が実証された。 また, オーバースムーシングへの取り組みと性能向上における各成分の寄与を検討するため, 広範なアブレーション研究を行った。

Graph Convolutional Networks (GCNs) are powerful for processing graph-structured data and have achieved state-of-the-art performance in several tasks such as node classification, link prediction, and graph classification. However, it is inevitable for deep GCNs to suffer from an over-smoothing issue that the representations of nodes will tend to be indistinguishable after repeated graph convolution operations. To address this problem, we propose the Graph Partner Neural Network (GPNN) which incorporates a de-parameterized GCN and a parameter-sharing MLP. We provide empirical and theoretical evidence to demonstrate the effectiveness of the proposed MLP partner on tackling over-smoothing while benefiting from appropriate smoothness. To further tackle over-smoothing and regulate the learning process, we introduce a well-designed consistency contrastive loss and KL divergence loss. Besides, we present a graph enhancement technique to improve the overall quality of edges in graphs. While most GCNs can work with shallow architecture only, GPNN can obtain better results through increasing model depth. Experiments on various node classification tasks have demonstrated the state-of-the-art performance of GPNN. Meanwhile, extensive ablation studies are conducted to investigate the contributions of each component in tackling over-smoothing and improving performance.
翻訳日:2021-10-19 17:49:56 公開日:2021-10-18
# ドメインの一般化を促進するためのドメイン特長の爆発

Exploiting Domain-Specific Features to Enhance Domain Generalization ( http://arxiv.org/abs/2110.09410v1 )

ライセンス: Link先を確認
Manh-Ha Bui, Toan Tran, Anh Tuan Tran, Dinh Phung(参考訳) ドメイン一般化(dg:domain generalization)とは、複数の観測されたソースドメインからモデルをトレーニングすることを目的としている。 一般化能力を得るために、従来のDGアプローチでは、ソース間でのドメイン不変情報を抽出して対象ドメインを一般化することに重点を置いているが、個々のドメインのラベルと強く相関する有用なドメイン固有情報は通常無視される。 本稿では,メタドメイン固有ドメイン不変量(メタドメイン固有ドメイン不変量)(mDSDI)を提案する。 私たちの重要な洞察は、統一フレームワークでドメイン不変機能とドメイン固有機能の両方を共同学習しながら、潜在空間の機能を分離することです。 ドメイン固有の表現は、ソースドメインから適応するためにメタ学習フレームワークによって最適化され、見えないドメインの堅牢な一般化を目標としている。 我々は,mDSDIがDGの最先端技術と競合する結果をもたらすことを実証的に示す。 生成したデータセットである background-Colored-M NIST によるさらなるアブレーション研究により、ドメイン固有性は必須であるという仮説が確定し、ドメイン不変性のみを使用する場合と比較してより良い結果が得られた。

Domain Generalization (DG) aims to train a model, from multiple observed source domains, in order to perform well on unseen target domains. To obtain the generalization capability, prior DG approaches have focused on extracting domain-invariant information across sources to generalize on target domains, while useful domain-specific information which strongly correlates with labels in individual domains and the generalization to target domains is usually ignored. In this paper, we propose meta-Domain Specific-Domain Invariant (mDSDI) - a novel theoretically sound framework that extends beyond the invariance view to further capture the usefulness of domain-specific information. Our key insight is to disentangle features in the latent space while jointly learning both domain-invariant and domain-specific features in a unified framework. The domain-specific representation is optimized through the meta-learning framework to adapt from source domains, targeting a robust generalization on unseen domains. We empirically show that mDSDI provides competitive results with state-of-the-art techniques in DG. A further ablation study with our generated dataset, Background-Colored-M NIST, confirms the hypothesis that domain-specific is essential, leading to better results when compared with only using domain-invariant.
翻訳日:2021-10-19 17:47:42 公開日:2021-10-18
# 構成的注意:検索と検索を遠ざける

Compositional Attention: Disentangling Search and Retrieval ( http://arxiv.org/abs/2110.09419v1 )

ライセンス: Link先を確認
Sarthak Mittal, Sharath Chandra Raparthy, Irina Rish, Yoshua Bengio and Guillaume Lajoie(参考訳) マルチヘッドキーバリューアテンションは、広く成功したTransformerモデルとそのバリエーションのバックボーンである。 このアテンション機構は、複数の並列キー値アテンションブロック(ヘッドと呼ばれる)を使用しており、それぞれが(1)クエリーキーインタラクションを介して集合から関連するエンティティを検索する、(2)検索する、(2)選択されたエンティティから値マトリックスを介して関連する特徴を抽出する、という2つの基本的な計算を行う。 重要なのは、標準注意ヘッドが検索と検索の間の厳格なマッピングを学ぶことだ。 この研究で最初に強調するのは、このペアリングの静的な性質についてである。 a)特定のタスクにおける冗長なパラメータの学習につながる、そして b)一般化を妨げる。 この問題を軽減するため,本研究では,標準の頭部構造に代えて構成的注意と呼ばれる新しい注意機構を提案する。 提案機構は,検索と検索を動的かつ柔軟かつコンテキストに依存した方法で構成し,クエリキーの組み合わせと値ペアリングのソフトコンペティションの段階を付加する。 数値実験の結果,分散環境を含む様々なタスクにおいて,マルチヘッドの標準的な注目度を上回っていることがわかった。 定性的な分析を通して、構成的注意が、必要な検索の種類に基づいて動的特殊化につながることを示す。 提案機構は,マルチヘッドアテンションを一般化し,検索と検索の独立スケーリングを可能にし,任意のネットワークアーキテクチャにおいて標準的なアテンションヘッドの代わりに容易に実装できる。

Multi-head, key-value attention is the backbone of the widely successful Transformer model and its variants. This attention mechanism uses multiple parallel key-value attention blocks (called heads), each performing two fundamental computations: (1) search - selection of a relevant entity from a set via query-key interactions, and (2) retrieval - extraction of relevant features from the selected entity via a value matrix. Importantly, standard attention heads learn a rigid mapping between search and retrieval. In this work, we first highlight how this static nature of the pairing can potentially: (a) lead to learning of redundant parameters in certain tasks, and (b) hinder generalization. To alleviate this problem, we propose a novel attention mechanism, called Compositional Attention, that replaces the standard head structure. The proposed mechanism disentangles search and retrieval and composes them in a dynamic, flexible and context-dependent manner through an additional soft competition stage between the query-key combination and value pairing. Through a series of numerical experiments, we show that it outperforms standard multi-head attention on a variety of tasks, including some out-of-distribution settings. Through our qualitative analysis, we demonstrate that Compositional Attention leads to dynamic specialization based on the type of retrieval needed. Our proposed mechanism generalizes multi-head attention, allows independent scaling of search and retrieval, and can easily be implemented in lieu of standard attention heads in any network architecture.
翻訳日:2021-10-19 17:47:20 公開日:2021-10-18
# 効率的なFew-Shot学習のためのバックボーン特徴分布の最大化

Squeezing Backbone Feature Distributions to the Max for Efficient Few-Shot Learning ( http://arxiv.org/abs/2110.09446v1 )

ライセンス: Link先を確認
Yuqing Hu, Vincent Gripon, St\'ephane Pateux(参考訳) ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。 過去数年間、事前学習された特徴抽出器を用いてしばしば達成される、以前に解決されたタスクで獲得した知識を転送するという共通の目的により、多くの方法が提案されてきた。 本稿では,ガウス分布に近づき,精度が向上する特徴ベクトルの処理を目的とした,新しい転送方式を提案する。 非ラベルテストサンプルがトレーニング中に使用可能なトランスダクティブな少数ショット学習の場合、さらに、達成したパフォーマンスをさらに高めるために、最適なトランスポートインスパイアアルゴリズムも導入する。 標準化されたビジョンベンチマークを用いて、様々なデータセット、バックボーンアーキテクチャ、少数ショット設定で最先端の精度を達成するための提案手法の能力を示す。

Few-shot classification is a challenging problem due to the uncertainty caused by using few labelled samples. In the past few years, many methods have been proposed with the common aim of transferring knowledge acquired on a previously solved task, what is often achieved by using a pretrained feature extractor. Following this vein, in this paper we propose a novel transfer-based method which aims at processing the feature vectors so that they become closer to Gaussian-like distributions, resulting in increased accuracy. In the case of transductive few-shot learning where unlabelled test samples are available during training, we also introduce an optimal-transport inspired algorithm to boost even further the achieved performance. Using standardized vision benchmarks, we show the ability of the proposed methodology to achieve state-of-the-art accuracy with various datasets, backbone architectures and few-shot settings.
翻訳日:2021-10-19 17:46:55 公開日:2021-10-18
# SPAP:新都市における電気自動車充電器の同時需要予測と計画

SPAP: Simultaneous Demand Prediction and Planning for Electric Vehicle Chargers in a New City ( http://arxiv.org/abs/2110.09452v1 )

ライセンス: Link先を確認
Yizong Wang, Dong Zhao, Yajie Ren, Desheng Zhang, and Huadong Ma(参考訳) 電気自動車(EV)の普及に力を入れている新都市では、充電需要が高い公共充電インフラを計画することが重要である。 しかし、運用データ不足によるEV充電器の実際の展開前に充電要求を予測することは困難であり、結果としてデッドロックが発生する。 直接のアイデアは、都市移動学習のパラダイムを活用して、ソースシティから知識を学び、それを利用して充電需要を予測し、一方、ターゲット都市における充電ステーションの場所と速度の遅い充電器の量を決定することである。 しかし、需要予測と充電器計画は互いに依存しており、各充電器計画における都市間の負の移動を排除するために予測モデルを再訓練する必要があるため、許容できない時間の複雑さが生じる。 そこで本研究では,マルチソースデータから識別的特徴を抽出し,都市間需要予測のための空間時空間都市ドメイン適応ネットワーク(AST-CDAN)に入力し,AST-CDANと充電器計画微調整アルゴリズムを反復的に活用して,新しいトランスファーイテレーティブ最適化(TIO)アルゴリズムを設計する。 中国3都市から収集した実世界のデータセットに関する大規模な実験により、SPAPの有効性と効率が検証された。 特にSPAPは、現実世界の充電器の展開と比較して、少なくとも72.5%の収益を上げている。

For a new city that is committed to promoting Electric Vehicles (EVs), it is significant to plan the public charging infrastructure where charging demands are high. However, it is difficult to predict charging demands before the actual deployment of EV chargers for lack of operational data, resulting in a deadlock. A direct idea is to leverage the urban transfer learning paradigm to learn the knowledge from a source city, then exploit it to predict charging demands, and meanwhile determine locations and amounts of slow/fast chargers for charging stations in the target city. However, the demand prediction and charger planning depend on each other, and it is required to re-train the prediction model to eliminate the negative transfer between cities for each varied charger plan, leading to the unacceptable time complexity. To this end, we propose the concept and an effective solution of Simultaneous Demand Prediction And Planning (SPAP): discriminative features are extracted from multi-source data, and fed into an Attention-based Spatial-Temporal City Domain Adaptation Network (AST-CDAN) for cross-city demand prediction; a novel Transfer Iterative Optimization (TIO) algorithm is designed for charger planning by iteratively utilizing AST-CDAN and a charger plan fine-tuning algorithm. Extensive experiments on real-world datasets collected from three cities in China validate the effectiveness and efficiency of SPAP. Specially, SPAP improves at most 72.5% revenue compared with the real-world charger deployment.
翻訳日:2021-10-19 17:46:41 公開日:2021-10-18
# Vega: DNNアクセラレーションとMRAMベースのステートリテンティブスリープモードによる認知ウェイクアップを備えたIoTエンドノード用の10コアSoC

Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode ( http://arxiv.org/abs/2110.09101v1 )

ライセンス: Link先を確認
Davide Rossi, Francesco Conti, Manuel Eggimann, Alfio Di Mauro, Giuseppe Tagliavini, Stefan Mach, Marco Guermandi, Antonio Pullini, Igor Loi, Jie Chen, Eric Flamand, Luca Benini(参考訳) インターネット・オブ・シング(Internet-of-Things) は、バッテリー寿命の長い超低消費電力常時オン機能を備えたエンドノードと、複雑で高速に進化するニアセンサー分析アルゴリズム(NSAAs)を扱うための高性能、エネルギー効率、極端な柔軟性を必要とする。 私たちは、モバイルDNN推論、1.6MBのステートリテンションSRAM、および4MBの非揮発性MRAMなどを含む、NSAAのフルリテンション認知睡眠モードから32.2 GOPS (@ 49.4 mW)ピークパフォーマンスまで、スケールアップ可能なIoTエンドノードSoCであるVegaを紹介します。 NSAAのパフォーマンスと柔軟性の要件を満たすため、SoCは10のRISC-Vコア、すなわちSoCとIO管理のためのコアと、マルチ精度SIMD整数と浮動小数点演算をサポートする9コアクラスタを備えている。 ベガは8ビットINT計算において615 GOPS/WのSoAリード効率を達成する(ハードウェアアクセラレーションによる8ビットDNN推論では1.3TOPS/Wとなる)。 浮動小数点 (FP) 演算では、それぞれ32ビットFPと16ビットFPで79と129のGFLOPS/WのSoAリード効率を達成する。 2つのプログラム可能な機械学習アクセラレーターは、それぞれ認知睡眠と活動状態のエネルギー効率を高める。

The Internet-of-Things requires end-nodes with ultra-low-power always-on capability for a long battery lifetime, as well as high performance, energy efficiency, and extreme flexibility to deal with complex and fast-evolving near-sensor analytics algorithms (NSAAs). We present Vega, an IoT end-node SoC capable of scaling from a 1.7 $\mathrm{\mu}$W fully retentive cognitive sleep mode up to 32.2 GOPS (@ 49.4 mW) peak performance on NSAAs, including mobile DNN inference, exploiting 1.6 MB of state-retentive SRAM, and 4 MB of non-volatile MRAM. To meet the performance and flexibility requirements of NSAAs, the SoC features 10 RISC-V cores: one core for SoC and IO management and a 9-cores cluster supporting multi-precision SIMD integer and floating-point computation. Vega achieves SoA-leading efficiency of 615 GOPS/W on 8-bit INT computation (boosted to 1.3TOPS/W for 8-bit DNN inference with hardware acceleration). On floating-point (FP) compuation, it achieves SoA-leading efficiency of 79 and 129 GFLOPS/W on 32- and 16-bit FP, respectively. Two programmable machine-learning (ML) accelerators boost energy efficiency in cognitive sleep and active states, respectively.
翻訳日:2021-10-19 17:43:14 公開日:2021-10-18
# Projected Model Counting: 独立したサポートを超えて

Projected Model Counting: Beyond Independent Support ( http://arxiv.org/abs/2110.09171v1 )

ライセンス: Link先を確認
Jiong Yang, Supratik Chakraborty, Kuldeep S. Meel(参考訳) 過去10年間、予測されたモデルカウントの実用技術への関心が高まっている。 しかし、著しい進歩にもかかわらず、パフォーマンス・スケーリングはこの分野のアキレスのヒールのままである。 現代のカウンターで使われる重要なアイデアは、射影集合の小さな部分集合、すなわち我々が射影したい元の変数の集合である \emph{independent support} 上に投影されたモデルを数えることである。 このアイデアはパフォーマンスのスケーリングに有効であるが、プロジェクションセットを超えて変数に投影されるモデルを数えることにメリットがあるかどうかという問題は検討されていない。 本稿では,この問題を考察し,直観に反し,射影集合を超えて変数を射影することは有益であることを示す。 二項化ニューラルネットワークの検証、情報フローの定量化、電力グリッドの信頼性などのアプリケーションでは、予測されたモデル数の上限が十分であることが多い。 いくつかの場合において、上界サポート (UBS) と呼ばれる変数の集合は、必ずしも射影集合の部分集合ではないが、UBS上に射影されたモデルを数えることは、真の射影されたモデル数の上界を保証する。 理論的には、UBSは最小の独立支持よりも指数的に小さくすることができる。 私たちの実験では、ubsベースの投影計数が独立したサポートベースの投影計数よりも効率的であると同時に、非常に高品質な境界が得られることが示されています。 広範な実験により、ubsベースの投影カウントは、最先端の独立サポートベースの投影モデルカウンタの範囲を超えた多くの問題インスタンスを解決できることが判明した。

The past decade has witnessed a surge of interest in practical techniques for projected model counting. Despite significant advancements, however, performance scaling remains the Achilles' heel of this field. A key idea used in modern counters is to count models projected on an \emph{independent support} that is often a small subset of the projection set, i.e. original set of variables on which we wanted to project. While this idea has been effective in scaling performance, the question of whether it can benefit to count models projected on variables beyond the projection set, has not been explored. In this paper, we study this question and show that contrary to intuition, it can be beneficial to project on variables beyond the projection set. In applications such as verification of binarized neural networks, quantification of information flow, reliability of power grids etc., a good upper bound of the projected model count often suffices. We show that in several such cases, we can identify a set of variables, called upper bound support (UBS), that is not necessarily a subset of the projection set, and yet counting models projected on UBS guarantees an upper bound of the true projected model count. Theoretically, a UBS can be exponentially smaller than the smallest independent support. Our experiments show that even otherwise, UBS-based projected counting can be more efficient than independent support-based projected counting, while yielding bounds of very high quality. Based on extensive experiments, we find that UBS-based projected counting can solve many problem instances that are beyond the reach of a state-of-the-art independent support-based projected model counter.
翻訳日:2021-10-19 17:42:41 公開日:2021-10-18
# 高階論理における抽象論の定式化

A Formalisation of Abstract Argumentation in Higher-Order Logic ( http://arxiv.org/abs/2110.09174v1 )

ライセンス: Link先を確認
Alexander Steen and David Fuenmayor(参考訳) 本稿では,古典高階論理へのエンコーディングに基づく抽象的議論フレームワークの表現手法を提案する。 対話型および自動推論ツールを用いた抽象的議論フレームワークのコンピュータ支援評価のための一様フレームワークを提供する。 これにより、メタ理論的特性の形式的分析と検証と、よく知られた議論意味論に関する拡張やラベルの柔軟な生成が可能になる。

We present an approach for representing abstract argumentation frameworks based on an encoding into classical higher-order logic. This provides a uniform framework for computer-assisted assessment of abstract argumentation frameworks using interactive and automated reasoning tools. This enables the formal analysis and verification of meta-theoretical properties as well as the flexible generation of extensions and labellings with respect to well-known argumentation semantics.
翻訳日:2021-10-19 17:42:16 公開日:2021-10-18
# (参考訳) FacialGAN: 合成顔におけるスタイル伝達と属性操作 [全文訳有]

FacialGAN: Style Transfer and Attribute Manipulation on Synthetic Faces ( http://arxiv.org/abs/2110.09425v1 )

ライセンス: CC0 1.0
Ricard Durall, Jireh Jam, Dominik Strassel, Moi Hoon Yap, Janis Keuper(参考訳) 顔画像操作は、顔の属性やスタイルの観点から、出力された顔が目的のターゲット方向に移動する生成タスクである。 近年の作品は、スタイル転送や属性翻訳といった様々な編集技術で大きな成功を収めている。 しかし、現在のアプローチは純粋スタイルの転送、あるいは制限された相互作用性を持つ事前定義された属性セットの翻訳に焦点を当てている。 この問題に対処するために,我々は,リッチなスタイル転送とインタラクティブな顔属性操作を同時に可能にする新しいフレームワークであるfaceganを提案する。 ソースイメージのアイデンティティを維持しながら、ターゲットイメージの多様なスタイルをソースイメージに転送します。 次に,セグメンテーションマスクの形状情報を組み込んで,顔属性の細かな操作を行う。 最後に、各タスクの損失を最適化するために、多目的学習戦略を導入する。 celebamask-hqをセマンティックマスクラベルとするceleba-hqデータセットの実験では,スタイル転送,属性操作,多様性,顔認証といった視覚的に魅力的な結果を生成する上で,モデルの能力を示す。 再現性を高めるために,顔の操作を行うインタラクティブなオープンソースツールと,モデルのPytorch実装を提供する。

Facial image manipulation is a generation task where the output face is shifted towards an intended target direction in terms of facial attribute and styles. Recent works have achieved great success in various editing techniques such as style transfer and attribute translation. However, current approaches are either focusing on pure style transfer, or on the translation of predefined sets of attributes with restricted interactivity. To address this issue, we propose FacialGAN, a novel framework enabling simultaneous rich style transfers and interactive facial attributes manipulation. While preserving the identity of a source image, we transfer the diverse styles of a target image to the source image. We then incorporate the geometry information of a segmentation mask to provide a fine-grained manipulation of facial attributes. Finally, a multi-objective learning strategy is introduced to optimize the loss of each specific tasks. Experiments on the CelebA-HQ dataset, with CelebAMask-HQ as semantic mask labels, show our model's capacity in producing visually compelling results in style transfer, attribute manipulation, diversity and face verification. For reproducibility, we provide an interactive open-source tool to perform facial manipulations, and the Pytorch implementation of the model.
翻訳日:2021-10-19 17:40:41 公開日:2021-10-18
# Sin指数回帰モデルによる残差終点予測

Predicting Rebar Endpoints using Sin Exponential Regression Model ( http://arxiv.org/abs/2110.08955v1 )

ライセンス: Link先を確認
Jong-Chan Park, Hye-Youn Lim, and Dae-Seong Kang(参考訳) 現在,レバー工場の加工工程における不良品製造時のレバー生産の損失率とキャリブレーションの時間と精度を最小化するために無人自動化研究が進められている。 本稿では、ylo(you only look once)v3に基づいて、機械ビジョンカメラに入力されるリバーエンドポイント画像の検出と追跡を行い、取得した座標のsin指数回帰を用いて予めリバーエンドポイントを予測する手法を提案する。 提案手法は,oppdet(object position prediction detection)モデルにおいて,rebarエンドポイントが遠方にあるフレーム位置に対する大きな予測誤差率の問題を解決し,sin指数回帰予測点において0.23~0.52%の誤差率を向上させた。

Currently, unmanned automation studies are underway to minimize the loss rate of rebar production and the time and accuracy of calibration when producing defective products in the cutting process of processing rebar factories. In this paper, we propose a method to detect and track rebar endpoint images entering the machine vision camera based on YOLO (You Only Look Once)v3, and to predict rebar endpoint in advance with sin exponential regression of acquired coordinates. The proposed method solves the problem of large prediction error rates for frame locations where rebar endpoints are far away in OPPDet (Object Position Prediction Detect) models, which prepredict rebar endpoints with improved results showing 0.23 to 0.52% less error rates at sin exponential regression prediction points.
翻訳日:2021-10-19 17:24:32 公開日:2021-10-18
# CMTR:可視赤外線人物識別用クロスモーダルトランス

CMTR: Cross-modality Transformer for Visible-infrared Person Re-identification ( http://arxiv.org/abs/2110.08994v1 )

ライセンス: Link先を確認
Tengfei Liang, Yi Jin, Yajun Gao, Wu Liu, Songhe Feng, Tao Wang, Yidong Li(参考訳) 可視赤外クロスモダリティ 人物再識別は、異種可視性と赤外線のモダリティの間で同一のアイデンティティの画像を検索し、一致させることを目的としている、挑戦的なreidタスクである。 したがって、このタスクのコアは、これらの2つのモードの間の大きなギャップを埋めることである。 既存の畳み込みニューラルネットワークベースの手法は、主にモダリティの情報認識不足の問題に直面しており、その性能を制限する識別的モダリティ不変埋め込みを学習できない。 そこで本稿では,これらの問題を解決するために,可視赤外人物再同定タスクのためのクロスモダリティトランスフォーマティブ(cmtr)を提案する。 具体的には、モダリティの特性を捉えるために、モダリティの情報をエンコードするためにトークン埋め込みと融合した新しいモダリティ埋め込みを設計する。 さらに,モダリティ埋め込みの表現を強化し,組込み分布のマッチングを調整するために,学習したモダリティ情報に基づくモダリティ認識強調損失を提案し,クラス間距離を削減し,クラス間距離を拡大する。 我々の知る限り、これはトランスフォーマーネットワークをモダリティ再識別タスクに適用する最初の作業である。 我々は、公開SYSU-MM01とRegDBデータセットに関する広範な実験を行い、提案したCMTRモデルの性能は既存のCNNベースの手法を大幅に上回っている。

Visible-infrared cross-modality person re-identification is a challenging ReID task, which aims to retrieve and match the same identity's images between the heterogeneous visible and infrared modalities. Thus, the core of this task is to bridge the huge gap between these two modalities. The existing convolutional neural network-based methods mainly face the problem of insufficient perception of modalities' information, and can not learn good discriminative modality-invariant embeddings for identities, which limits their performance. To solve these problems, we propose a cross-modality transformer-based method (CMTR) for the visible-infrared person re-identification task, which can explicitly mine the information of each modality and generate better discriminative features based on it. Specifically, to capture modalities' characteristics, we design the novel modality embeddings, which are fused with token embeddings to encode modalities' information. Furthermore, to enhance representation of modality embeddings and adjust matching embeddings' distribution, we propose a modality-aware enhancement loss based on the learned modalities' information, reducing intra-class distance and enlarging inter-class distance. To our knowledge, this is the first work of applying transformer network to the cross-modality re-identification task. We implement extensive experiments on the public SYSU-MM01 and RegDB datasets, and our proposed CMTR model's performance significantly surpasses existing outstanding CNN-based methods.
翻訳日:2021-10-19 17:22:58 公開日:2021-10-18
# 木点雲に基づくボクセル薄片を用いた高速木骨格抽出

Fast tree skeleton extraction using voxel thinning based on tree point cloud ( http://arxiv.org/abs/2110.09028v1 )

ライセンス: Link先を確認
Jingqian Sun, Pei Wang, Ronghao Li, Mei Zhou(参考訳) 樹木骨格は樹木構造解析、森林の在庫管理、生態系モニタリングにおいて重要な役割を担っている。 しかし、複雑な枝を持つ木点雲から骨格を抽出することは困難である。 本稿では, ボクセルの微細化に基づく自動かつ高速な木骨格抽出法 (FTSEM) を提案する。 本手法では,木葉の分類アルゴリズムを導入し,葉の干渉を減少させるために葉点をフィルタし,木質のボクセルを薄くして生の骨格を迅速に抽出し,切断点接続アルゴリズムを用いて骨格の接続性と完全性を向上させた。 実験は北京のハイディアンパークで行われ、24本の木をスキャンして処理し、木の骨格を得た。 グラフ探索アルゴリズム(GSA)は、同じデータセットに基づいて木の骨格を抽出するために用いられる。 GSA法と比較して、FTSEM法はより完全な木の骨格を得た。 そして、ランタイムと時間 per million points (tpmp) を用いてftsemメソッドの時間コストを評価する。 FTSEMのランタイムは1.0 sから13.0 s、GSAのランタイムは6.4 sから309.3 sである。 TPMPの平均値はFTSEMが1.8秒、GSAが22.3秒である。 実験の結果,提案手法は木骨格抽出において有効であり,頑健で高速であることが判明した。

Tree skeleton plays an important role in tree structure analysis, forest inventory and ecosystem monitoring. However, it is a challenge to extract a skeleton from a tree point cloud with complex branches. In this paper, an automatic and fast tree skeleton extraction method (FTSEM) based on voxel thinning is proposed. In this method, a wood-leaf classification algorithm was introduced to filter leaf points for the reduction of the leaf interference on tree skeleton generation, tree voxel thinning was adopted to extract raw tree skeleton quickly, and a breakpoint connection algorithm was used to improve the skeleton connectivity and completeness. Experiments were carried out in Haidian Park, Beijing, in which 24 trees were scanned and processed to obtain tree skeletons. The graph search algorithm (GSA) is used to extract tree skeletons based on the same datasets. Compared with GSA method, the FTSEM method obtained more complete tree skeletons. And the time cost of the FTSEM method is evaluated using the runtime and time per million points (TPMP). The runtime of FTSEM is from 1.0 s to 13.0 s, and the runtime of GSA is from 6.4 s to 309.3 s. The average value of TPMP is 1.8 s for FTSEM, and 22.3 s for GSA respectively. The experimental results demonstrate that the proposed method is feasible, robust, and fast with a good potential on tree skeleton extraction.
翻訳日:2021-10-19 17:22:31 公開日:2021-10-18
# 顔提示検出のための非対称モダリティ変換

Asymmetric Modality Translation For Face Presentation Attack Detection ( http://arxiv.org/abs/2110.09108v1 )

ライセンス: Link先を確認
Zhi Li, Haoliang Li, Xin Luo, Yongjian Hu, Kwok-Yan Lam, Alex C. Kot(参考訳) 顔提示攻撃検出(PAD)は、悪意のあるユーザによって顔認識システムが偽造されることを防ぎ、学術と産業の両方から大きな注目を集めている。 既存手法のほとんどは所望の性能をある程度達成できるが、クロスドメイン設定による顔提示攻撃検出の一般化問題(例えば、未発見のアタックの設定や照明の相違など)は未解決のままである。 本稿では,バイモダリティシナリオにおける顔提示攻撃検出のための非対称モダリティ変換に基づく新しいフレームワークを提案する。 本フレームワークでは,顔の2つのモダリティ画像間の接続を確立する。 具体的には、1つのモダリティの像が非対称なモダリティ変換器を介してもう1つのモダリティに変換され、対応するペア画像と融合する新しいモダリティ融合スキームを示す。 融合結果は、推論のための判別器への入力として供給される。 翻訳者の訓練は非対称なモダリティ翻訳損失によって監督される。 また、局所重力力パターン(PLGF)表現に基づく照明正規化モジュールを用いて、照明変動の影響を低減する。 我々は3つの公開データセットに対して広範な実験を行い、本手法が様々な種類の攻撃を検出するのに有効であることを示す。

Face presentation attack detection (PAD) is an essential measure to protect face recognition systems from being spoofed by malicious users and has attracted great attention from both academia and industry. Although most of the existing methods can achieve desired performance to some extent, the generalization issue of face presentation attack detection under cross-domain settings (e.g., the setting of unseen attacks and varying illumination) remains to be solved. In this paper, we propose a novel framework based on asymmetric modality translation for face presentation attack detection in bi-modality scenarios. Under the framework, we establish connections between two modality images of genuine faces. Specifically, a novel modality fusion scheme is presented that the image of one modality is translated to the other one through an asymmetric modality translator, then fused with its corresponding paired image. The fusion result is fed as the input to a discriminator for inference. The training of the translator is supervised by an asymmetric modality translation loss. Besides, an illumination normalization module based on Pattern of Local Gravitational Force (PLGF) representation is used to reduce the impact of illumination variation. We conduct extensive experiments on three public datasets, which validate that our method is effective in detecting various types of attacks and achieves state-of-the-art performance under different evaluation protocols.
翻訳日:2021-10-19 17:22:06 公開日:2021-10-18
# SynCoLFinGer: 合成接触レス指紋発生装置

SynCoLFinGer: Synthetic Contactless Fingerprint Generator ( http://arxiv.org/abs/2110.09144v1 )

ライセンス: Link先を確認
Jannis Priesnitz, Christian Rathgeb, Nicolas Buchmann, Christoph Busch(参考訳) 本稿では,SynCoLFinGerと呼ばれる接触のない指紋画像の合成法について述べる。 この目的のために、SFinGeアルゴリズムを用いて合成したリッジパターンに、被写体特性、環境影響に関する接触指紋画像の構成成分をモデル化し、適用する。 提案手法は1本の指に対応する異なる合成サンプルを生成でき、様々な品質の接触指紋画像を生成するためにパラメータ化することができる。 合成された非接触指紋と実際の指紋との類似性は、適応されたNFIQ 2.0アルゴリズムと最先端の非接触指紋認識システムを用いて生体試料品質を評価することにより確認する。

We present the first method for synthetic generation of contactless fingerprint images, referred to as SynCoLFinGer. To this end, the constituent components of contactless fingerprint images regarding capturing, subject characteristics, and environmental influences are modeled and applied to a synthetically generated ridge pattern using the SFinGe algorithm. The proposed method is able to generate different synthetic samples corresponding to a single finger and it can be parameterized to generate contactless fingerprint images of various quality levels. The resemblance of the synthetically generated contactless fingerprints to real fingerprints is confirmed by evaluating biometric sample quality using an adapted NFIQ 2.0 algorithm and biometric utility using a state-of-the-art contactless fingerprint recognition system.
翻訳日:2021-10-19 17:21:46 公開日:2021-10-18
# 対面アンチ・スプーフィングのための二段階特徴学習による遠方表現

Disentangled Representation with Dual-stage Feature Learning for Face Anti-spoofing ( http://arxiv.org/abs/2110.09157v1 )

ライセンス: Link先を確認
Yu-Chun Wang, Chien-Yi Wang, Shang-Hong Lai(参考訳) 顔認識は様々なセキュリティクリティカルなアプリケーションで広く使われているため、フェイスアンチスプーフィング(fas)の研究がますます注目を集めている。 テストデータ中の攻撃タイプがトレーニングデータと同じである場合、いくつかのFASメソッドは有望なパフォーマンスを実現している。 事前に定義されたspoof攻撃タイプへの過剰適合を防ぐために、より汎用的で識別的な特徴を学ぶことが不可欠である。 本稿では,無関係な特徴からspoof関連特徴を効率的に解き放つことができる,新しい二段階不等角表現学習法を提案する。 従来のfasディストレングルメントと一段階のアーキテクチャでは違い,デュアルステージのトレーニング設計ではトレーニングの安定性が向上し,目に見えない攻撃タイプを検出する機能を効果的にエンコードできることが判明した。 提案手法は,複数種類のFASベンチマークにおける最先端手法よりも精度が高いことを示す。

As face recognition is widely used in diverse security-critical applications, the study of face anti-spoofing (FAS) has attracted more and more attention. Several FAS methods have achieved promising performances if the attack types in the testing data are the same as training data, while the performance significantly degrades for unseen attack types. It is essential to learn more generalized and discriminative features to prevent overfitting to pre-defined spoof attack types. This paper proposes a novel dual-stage disentangled representation learning method that can efficiently untangle spoof-related features from irrelevant ones. Unlike previous FAS disentanglement works with one-stage architecture, we found that the dual-stage training design can improve the training stability and effectively encode the features to detect unseen attack types. Our experiments show that the proposed method provides superior accuracy than the state-of-the-art methods on several cross-type FAS benchmarks.
翻訳日:2021-10-19 17:19:28 公開日:2021-10-18
# サブビットニューラルネットワーク:バイナリニューラルネットワークの圧縮と高速化のための学習

Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks ( http://arxiv.org/abs/2110.09195v1 )

ライセンス: Link先を確認
Yikai Wang, Yi Yang, Fuchun Sun, Anbang Yao(参考訳) 低ビット量子化の分野では、トレーニングバイナリニューラルネットワーク(BNN)は、リソース制約されたデバイスへのディープモデルのデプロイを容易にする極端なソリューションであり、32ビット浮動小数点演算と比較して、ストレージコストが低く、ビット幅演算が大幅に安い。 本稿では,BNNの圧縮と高速化に適した新しいバイナリ量子化設計であるSub-bit Neural Networks(SNN)を紹介する。 SNNは経験的な観察にインスパイアされ、BNNモデルの畳み込み層で学んだバイナリカーネルがカーネルサブセットに分散されることが示されている。 その結果、既存の重み付けを1つずつ行う方法とは異なり、snsはカーネルアウェア最適化フレームワークで訓練され、きめ細かい畳み込み型カーネル空間でバイナリ量子化を利用する。 具体的には、カーネル空間の層固有のサブセットを生成するランダムサンプリングステップと、最適化によってこれらのバイナリカーネルのサブセットを調整する改良ステップとを含む。 ビジュアル認識ベンチマークの実験とFPGA上のハードウェア展開は、SNNの大きな可能性を検証する。 例えば、ImageNetでは、0.56ビット重みを持つResNet-18/ResNet-34のSNNは、従来のBNNよりも3.13/3.33倍の高速化と1.8倍の圧縮を実現している。 snnを重みとアクティベーションの両方を二元化するときにも有望な結果が得られる。 私たちのコードはhttps://github.com/y ikaiw/snnで入手できる。

In the low-bit quantization field, training Binary Neural Networks (BNNs) is the extreme solution to ease the deployment of deep models on resource-constrained devices, having the lowest storage cost and significantly cheaper bit-wise operations compared to 32-bit floating-point counterparts. In this paper, we introduce Sub-bit Neural Networks (SNNs), a new type of binary quantization design tailored to compress and accelerate BNNs. SNNs are inspired by an empirical observation, showing that binary kernels learnt at convolutional layers of a BNN model are likely to be distributed over kernel subsets. As a result, unlike existing methods that binarize weights one by one, SNNs are trained with a kernel-aware optimization framework, which exploits binary quantization in the fine-grained convolutional kernel space. Specifically, our method includes a random sampling step generating layer-specific subsets of the kernel space, and a refinement step learning to adjust these subsets of binary kernels via optimization. Experiments on visual recognition benchmarks and the hardware deployment on FPGA validate the great potentials of SNNs. For instance, on ImageNet, SNNs of ResNet-18/ResNet-34 with 0.56-bit weights achieve 3.13/3.33 times runtime speed-up and 1.8 times compression over conventional BNNs with moderate drops in recognition accuracy. Promising results are also obtained when applying SNNs to binarize both weights and activations. Our code is available at https://github.com/y ikaiw/SNN.
翻訳日:2021-10-19 17:19:12 公開日:2021-10-18
# 機械用ビデオ符号化:知的協調分析のためのコンパクトな視覚表現圧縮

Video Coding for Machine: Compact Visual Representation Compression for Intelligent Collaborative Analytics ( http://arxiv.org/abs/2110.09241v1 )

ライセンス: Link先を確認
Wenhan Yang, Haofeng Huang, Yueyu Hu, Ling-Yu Duan, Jiaying Liu(参考訳) Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジし、高精度マシンビジョンと完全忠実人間のビジョンの統一的な視点から、コンパクト性と効率を両立させようとしている。 本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。 vcmの開発は一般的なレート分散最適化に従い、キーモジュールやテクニックの分類が確立される。 従来の研究から、機械と人間の視覚タスクを扱う際に、スケーラブルな表現の性質をビットで明らかにしようとする研究はあったが、低ビットレートの表現の一般性、そしてそれに応じて様々な視覚分析タスクをどのようにサポートするかについては、稀な研究が残されている。 そこで本研究では,複数タスクから抽出したコンパクトな視覚的表現の能力を強化するために,解析分類問題に対する新しい視覚情報圧縮法について検討する。 タスク間の関係と圧縮に関する新しい視点を再検討する。 異なるマシンビジョンタスク間の転送可能性(例えば、ハイレベル意味論とミッドレベル幾何関係)を念頭に置いて、我々は、低ビットレートで複数のタスクを共同でサポートすることを目指している。 特に、画素から抽出されたニューラルネットワーク生成特徴と様々なマシンビジョン特徴/ラベル(シーンクラス、セグメンテーションラベルなど)の寸法差を狭めるために、コードブックハイパープライアは、ニューラルネットワーク生成特徴を圧縮するように設計されている。 実験で示したように、この超優先モデルでは、より正確に信号エントロピーを推定することで、異なるタスク間でコンパクトな特徴を抽象化する粒度をさらに調査できるため、特徴圧縮効率の向上が期待されている。

Video Coding for Machines (VCM) is committed to bridging to an extent separate research tracks of video/image compression and feature compression, and attempts to optimize compactness and efficiency jointly from a unified perspective of high accuracy machine vision and full fidelity human vision. In this paper, we summarize VCM methodology and philosophy based on existing academia and industrial efforts. The development of VCM follows a general rate-distortion optimization, and the categorization of key modules or techniques is established. From previous works, it is demonstrated that, although existing works attempt to reveal the nature of scalable representation in bits when dealing with machine and human vision tasks, there remains a rare study in the generality of low bit rate representation, and accordingly how to support a variety of visual analytic tasks. Therefore, we investigate a novel visual information compression for the analytics taxonomy problem to strengthen the capability of compact visual representations extracted from multiple tasks for visual analytics. A new perspective of task relationships versus compression is revisited. By keeping in mind the transferability among different machine vision tasks (e.g. high-level semantic and mid-level geometry-related), we aim to support multiple tasks jointly at low bit rates. In particular, to narrow the dimensionality gap between neural network generated features extracted from pixels and a variety of machine vision features/labels (e.g. scene class, segmentation labels), a codebook hyperprior is designed to compress the neural network-generated features. As demonstrated in our experiments, this new hyperprior model is expected to improve feature compression efficiency by estimating the signal entropy more accurately, which enables further investigation of the granularity of abstracting compact features among different tasks.
翻訳日:2021-10-19 17:18:44 公開日:2021-10-18
# ヒューマンメッシュ回復のためのMoCapデータの活用

Leveraging MoCap Data for Human Mesh Recovery ( http://arxiv.org/abs/2110.09243v1 )

ライセンス: Link先を確認
Fabien Baradel, Thibault Groueix, Philippe Weinzaepfel, Romain Br\'egier, Yannis Kalantidis, Gr\'egory Rogez(参考訳) 人体ポーズや画像やビデオからの形状回復のための最先端モデルのトレーニングには、それに対応するアノテーションを備えたデータセットが必要です。 本研究の目的は、3Dモーションキャプチャ(MoCap)データからのポーズを画像ベースおよびビデオベースのヒューマンメッシュリカバリ手法の改善に利用できるかどうかを検討することである。 MoCapデータから合成レンダリングを施した微調整画像ベースモデルでは,より多様なポーズやテクスチャ,背景を提供することで,パフォーマンスの向上が期待できる。 実際、モデルのバッチ正規化層を微調整するだけで大きな利益が得られることを示す。 さらに,ビデオにおけるmocapデータの利用について検討し,ポーズパラメータを直接レグレッションし,マスクモデリングによってトレーニングするトランスフォーマーモジュールであるposebertを紹介した。 シンプルで汎用的で、時間的情報を活用するビデオベースモデルに変換するために、最先端の画像ベースモデルの上にプラグインすることができる。 実験の結果,提案手法は3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB, AIST など,様々なデータセットの最先端性能に到達していることがわかった。 テストコードとモデルも近く提供される予定だ。

Training state-of-the-art models for human body pose and shape recovery from images or videos requires datasets with corresponding annotations that are really hard and expensive to obtain. Our goal in this paper is to study whether poses from 3D Motion Capture (MoCap) data can be used to improve image-based and video-based human mesh recovery methods. We find that fine-tune image-based models with synthetic renderings from MoCap data can increase their performance, by providing them with a wider variety of poses, textures and backgrounds. In fact, we show that simply fine-tuning the batch normalization layers of the model is enough to achieve large gains. We further study the use of MoCap data for video, and introduce PoseBERT, a transformer module that directly regresses the pose parameters and is trained via masked modeling. It is simple, generic and can be plugged on top of any state-of-the-art image-based model in order to transform it in a video-based model leveraging temporal information. Our experimental results show that the proposed approaches reach state-of-the-art performance on various datasets including 3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB and AIST. Test code and models will be available soon.
翻訳日:2021-10-19 17:18:12 公開日:2021-10-18
# スカースデータを用いた汎用低ショット医用画像分割のための統一フレームワーク

A Unified Framework for Generalized Low-Shot Medical Image Segmentation with Scarce Data ( http://arxiv.org/abs/2110.09260v1 )

ライセンス: Link先を確認
Hengji Cui, Dong Wei, Kai Ma, Shi Gu, and Yefeng Zheng(参考訳) 医用画像分割はディープニューラルネットワーク(dnn)を用いて著しく進歩した。 しかし、DNNはトレーニングのために大量のデータとアノテーションを必要とすることが多く、どちらも入手が困難でコストがかかる。 本研究では,距離メトリック学習(dml)に基づく一般化された医療画像分割のための統一フレームワークを提案する。 大量のデータを想定しながら、アノテーションの欠如に対処する既存の方法とは異なり、我々のフレームワークは、稀な疾患に理想的な、両方の極端な不足に対処する。 DMLでは,各カテゴリの多モード混合表現を学習し,画素の深層埋め込みとカテゴリ表現との間の余弦距離に基づいて密接な予測を行う。 マルチモーダル表現は、オブジェクト間の類似性とクラス内変動を効果的に利用し、非常に限られたデータによるオーバーフィッティングを克服する。 また,多モード混合分布に対する適応混合係数を提案し,現在の入力に適したモードを適応的に強調する。 表現はfc層の重みとして暗黙的に埋め込まれ、コサイン距離は前方伝播によって効率的に計算できる。 脳MRIと腹部CTデータセットを用いた実験では,標準DNN(3D U-Net)法と古典登録(ANT)法に対する低ショットセグメンテーションにおいて,単一のトレーニングサンプルを用いた脳組織/腹部多臓器セグメンテーションの平均Dice係数を平均81%/69%とし,U-NetとANTsで52%/31%,72%/35%とした。

Medical image segmentation has achieved remarkable advancements using deep neural networks (DNNs). However, DNNs often need big amounts of data and annotations for training, both of which can be difficult and costly to obtain. In this work, we propose a unified framework for generalized low-shot (one- and few-shot) medical image segmentation based on distance metric learning (DML). Unlike most existing methods which only deal with the lack of annotations while assuming abundance of data, our framework works with extreme scarcity of both, which is ideal for rare diseases. Via DML, the framework learns a multimodal mixture representation for each category, and performs dense predictions based on cosine distances between the pixels' deep embeddings and the category representations. The multimodal representations effectively utilize the inter-subject similarities and intraclass variations to overcome overfitting due to extremely limited data. In addition, we propose adaptive mixing coefficients for the multimodal mixture distributions to adaptively emphasize the modes better suited to the current input. The representations are implicitly embedded as weights of the fc layer, such that the cosine distances can be computed efficiently via forward propagation. In our experiments on brain MRI and abdominal CT datasets, the proposed framework achieves superior performances for low-shot segmentation towards standard DNN-based (3D U-Net) and classical registration-based (ANTs) methods, e.g., achieving mean Dice coefficients of 81%/69% for brain tissue/abdominal multiorgan segmentation using a single training sample, as compared to 52%/31% and 72%/35% by the U-Net and ANTs, respectively.
翻訳日:2021-10-19 17:17:48 公開日:2021-10-18
# 自己スーパービジョンによる単一視点からの多面体画像の学習

Learning multiplane images from single views with self-supervision ( http://arxiv.org/abs/2110.09380v1 )

ライセンス: Link先を確認
Gustavo Sutter P. Carvalho, Diogo C. Luvizon, Antonio Joia, Andre G. C. Pacheco, Otavio A. B. Penatti(参考訳) すでにキャプチャされた画像から静的にノベルなビューを生成することは、コンピュータビジョンやグラフィックス、特に1つの入力画像が人や動くオブジェクトのような動的な部分を持っている場合、難しい作業である。 本稿では,自己スーパービジョンのための巡回学習戦略を通じて,単一画像から多面画像表現を学習できる新しいフレームワークであるcyclempiを提案することで,この問題に取り組む。 我々のフレームワークは、トレーニングのためにステレオデータを必要としないため、インターネットから大量のビジュアルデータでトレーニングすることが可能であり、非常に困難な場合であっても、より良い一般化能力が得られる。 本手法は, 監視のためにステレオデータを必要としないが, ゼロショットシナリオにおいて, 技術状況に匹敵するステレオデータセットの結果が得られる。 本手法をrealestate10kおよびmannequin challengeデータセットで評価し,places iiデータセットの質的評価を行った。

Generating static novel views from an already captured image is a hard task in computer vision and graphics, in particular when the single input image has dynamic parts such as persons or moving objects. In this paper, we tackle this problem by proposing a new framework, called CycleMPI, that is capable of learning a multiplane image representation from single images through a cyclic training strategy for self-supervision. Our framework does not require stereo data for training, therefore it can be trained with massive visual data from the Internet, resulting in a better generalization capability even for very challenging cases. Although our method does not require stereo data for supervision, it reaches results on stereo datasets comparable to the state of the art in a zero-shot scenario. We evaluated our method on RealEstate10K and Mannequin Challenge datasets for view synthesis and presented qualitative results on Places II dataset.
翻訳日:2021-10-19 17:17:16 公開日:2021-10-18
# HRFormer:密度予測のための高分解能トランス

HRFormer: High-Resolution Transformer for Dense Prediction ( http://arxiv.org/abs/2110.09408v1 )

ライセンス: Link先を確認
Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang(参考訳) 高分解能トランスフォーマ(hrt)は高密度予測タスクの高分解能表現を学習し,低分解能表現を生成し,高いメモリと計算コストを有するオリジナルビジョントランスとは対照的に,高分解能トランスフォーマ(hrt)を提案する。 高分解能畳み込みネットワーク(hrnet)で導入されたマルチレゾリューション並列設計と、小さな非オーバーラップ画像ウィンドウ上でセルフアテンションを実行するローカルウィンドウ自己アテンションを活用し、メモリと計算効率を向上させる。 さらに、オフ接続画像ウィンドウ間で情報交換を行うためにFFNに畳み込みを導入する。 例えば、HRTは、COCOのポーズ推定において、50\%$パラメータを減らし、30\%$FLOPsを減らし、Swin変換器を1.3$APで上回り、人間のポーズ推定とセマンティックセマンティックセグメンテーションタスクにおける高分解能トランスフォーマーの有効性を示す。 コードは、https://github.com/H RNet/HRFormer.comで入手できる。

We present a High-Resolution Transformer (HRT) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRT outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/H RNet/HRFormer.
翻訳日:2021-10-19 17:17:01 公開日:2021-10-18
# 内部特徴融合による自己教師付き単眼深度推定

Self-Supervised Monocular DepthEstimation with Internal Feature Fusion ( http://arxiv.org/abs/2110.09482v1 )

ライセンス: Link先を確認
Hang Zhou, David Greenwood, Sarah Taylor(参考訳) 深度推定のための自己教師あり学習は、監視のために画像列の幾何を使い、有望な結果を示す。 多くのコンピュータビジョンタスクと同様に、深度ネットワークの性能は画像から正確な空間的および意味的表現を学習する能力によって決定される。 したがって,深度推定のためにセマンティックセグメンテーションネットワークを利用するのは自然である。 本研究では, セマンティックセグメンテーションネットワークHRNetをベースとして, ダウン・アップサンプリング処理における意味情報の利用が可能な新しい深度推定ネットワークDIFFNetを提案する。 特徴融合と注意機構を適用することで,提案手法はkittiベンチマークにおける最先端の単眼深度推定法を上回っている。 また,本手法は高分解能トレーニングデータに大きな可能性を示す。 本稿では,標準ベンチマークから実証的に導出した難易度テストセットを確立することにより,さらなる拡張評価戦略を提案する。

Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation networkDIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.
翻訳日:2021-10-19 17:15:33 公開日:2021-10-18
# 深部画像を用いた教師なし画像融合

Unsupervised Image Fusion Using Deep Image Priors ( http://arxiv.org/abs/2110.09490v1 )

ライセンス: Link先を確認
Xudong Ma, Alin Achim, Paul Hill(参考訳) 最近、多くの研究者が画像融合に深層学習法を適用している。 しかし、これらの作業の多くは大量のトレーニングデータを必要とするか、事前訓練されたモデルやフレームワークに依存している。 これは必然的に、トレーニングデータの不足や、フレームワークと実際の問題とのミスマッチに直面する。 近年,Deep Image Prior(DIP)手法の公開により,画像復元が完全にトレーニングデータ無しで行えるようになった。 しかし、DIPの本来の設計は、マルチイメージ処理問題に一般化することは困難である。 本稿では,画像融合を逆問題として定式化しながら,新たな損失計算構造をDIPの枠組みで紹介する。 これにより、ディップの一般的なマルチセンサー/マルチフォーカス画像融合問題への拡張が可能になる。 次に,ディップの効果を改善するためのマルチチャネル手法を提案する。 最後に,複数の画像融合評価指標を用いて評価を行う。 その結果,従来の画像融合法とディープラーニング画像融合法を比較した。 提案手法は,様々な測定値に対して従来の手法を上回っている。 特に、医療画像に適用された場合、ほとんどの指標に最適な客観的結果をもたらすことが示される。

A significant number of researchers have recently applied deep learning methods to image fusion. However, most of these works either require a large amount of training data or depend on pre-trained models or frameworks. This inevitably encounters a shortage of training data or a mismatch between the framework and the actual problem. Recently, the publication of Deep Image Prior (DIP) method made it possible to do image restoration totally training-data-free. However, the original design of DIP is hard to be generalized to multi-image processing problems. This paper introduces a novel loss calculation structure, in the framework of DIP, while formulating image fusion as an inverse problem. This enables the extension of DIP to general multisensor/multifoc us image fusion problems. Secondly, we propose a multi-channel approach to improve the effect of DIP. Finally, an evaluation is conducted using several commonly used image fusion assessment metrics. The results are compared with state-of-the-art traditional and deep learning image fusion methods. Our method outperforms previous techniques for a range of metrics. In particular, it is shown to provide the best objective results for most metrics when applied to medical images.
翻訳日:2021-10-19 17:15:19 公開日:2021-10-18
# 末梢血細胞分類のための深部CNN

Deep CNNs for Peripheral Blood Cell Classification ( http://arxiv.org/abs/2110.09508v1 )

ライセンス: Link先を確認
Ekta Gavas and Kaustubh Olpadkar(参考訳) 医療領域への機械学習技術の応用は、精度の必要なレベルと、微小エラーによる大きなリスクの発生のため、特に困難である。 これらのテクニックを血液学的診断のより複雑なサブドメインに応用することは、血液型を自動的に同定することで、血液学的疾患の検出に役立てることができる。 本稿では、顕微鏡下末梢血球画像データセットを用いた27種類の高頻度深層畳み込みニューラルネットワークアーキテクチャをベンチマークする。 このデータセットは公開されており、CellaVision DM96アナライザを用いて取得され、専門家の病理学者によって8種類の細胞タイプに識別される多くの正常末梢血細胞がある。 血液細胞分類のためのImageNetデータセットに事前トレーニングされた最先端画像分類モデルを微調整する。 学習中のデータ拡張手法を活用し,過剰フィッティングを回避し,一般化を実現する。 トップパフォーマンスモデルのアンサンブルは、過去の出版作品よりも大幅に改善され、99.51%の分類精度で最先端の結果が得られる。 本研究は、顕微鏡的末梢血球認識タスクのための標準ディープラーニングアーキテクチャに関する経験的ベースラインとベンチマークを提供する。

The application of machine learning techniques to the medical domain is especially challenging due to the required level of precision and the incurrence of huge risks of minute errors. Employing these techniques to a more complex subdomain of hematological diagnosis seems quite promising, with automatic identification of blood cell types, which can help in detection of hematologic disorders. In this paper, we benchmark 27 popular deep convolutional neural network architectures on the microscopic peripheral blood cell images dataset. The dataset is publicly available, with large number of normal peripheral blood cells acquired using the CellaVision DM96 analyzer and identified by expert pathologists into eight different cell types. We fine-tune the state-of-the-art image classification models pre-trained on the ImageNet dataset for blood cell classification. We exploit data augmentation techniques during training to avoid overfitting and achieve generalization. An ensemble of the top performing models obtains significant improvements over past published works, achieving the state-of-the-art results with a classification accuracy of 99.51%. Our work provides empirical baselines and benchmarks on standard deep-learning architectures for microscopic peripheral blood cell recognition task.
翻訳日:2021-10-19 17:15:05 公開日:2021-10-18
# (参考訳) Multi-Colorspace fused EfficientNet を用いた自然画像とコンピュータ画像の識別 [全文訳有]

Distinguishing Natural and Computer-Generated Images using Multi-Colorspace fused EfficientNet ( http://arxiv.org/abs/2110.09428v1 )

ライセンス: CC BY 4.0
Manjary P Gangan, Anoop K, and Lajish V L(参考訳) 自然画像とフォトリアリスティックなコンピュータ生成画像とを区別する問題は、自然画像とコンピュータグラフィックス、あるいは自然画像とgan画像を同時に扱うことである。 しかし,実世界の画像法医学的なシナリオでは,画像生成が未知な場合が多いため,画像生成のすべてのカテゴリを考慮することが極めて重要である。 我々は,自然画像と写真リアルなコンピュータ生成画像とを区別する問題を,自然,コンピュータグラフィックス,GAN画像を分類する3つの分類課題として,初めてアプローチした。 本研究では,各ネットワークが異なる色空間(RGB, LCH, HSV)で動作している移動学習手法に追従する3つの効率的なネットワークを並列に融合させることにより,多色空間融合効率ネットモデルを提案する。 我々のモデルは、精度、後処理に対する堅牢性、および他のデータセットに対する一般化性の観点から、ベースラインよりも優れています。 我々は、自然、コンピュータグラフィックス、GAN画像がいかに正確に区別できるかを理解するための心理物理学実験を行い、これらの画像、特にコンピュータ生成画像の分類が困難であることを観察し、タスクに必要な計算アルゴリズムの必要性を示す。 また、モデルの決定に寄与する健全な領域を理解するための視覚的説明を通じてモデルの振る舞いを分析し、モデルの強力な性質を示す説明の両方において、決定を有意に行うための類似性を観察できる領域マーキングの形式で、人間の手による説明と比較する。

The problem of distinguishing natural images from photo-realistic computer-generated ones either addresses natural images versus computer graphics or natural images versus GAN images, at a time. But in a real-world image forensic scenario, it is highly essential to consider all categories of image generation, since in most cases image generation is unknown. We, for the first time, to our best knowledge, approach the problem of distinguishing natural images from photo-realistic computer-generated images as a three-class classification task classifying natural, computer graphics, and GAN images. For the task, we propose a Multi-Colorspace fused EfficientNet model by parallelly fusing three EfficientNet networks that follow transfer learning methodology where each network operates in different colorspaces, RGB, LCH, and HSV, chosen after analyzing the efficacy of various colorspace transformations in this image forensics problem. Our model outperforms the baselines in terms of accuracy, robustness towards post-processing, and generalizability towards other datasets. We conduct psychophysics experiments to understand how accurately humans can distinguish natural, computer graphics, and GAN images where we could observe that humans find difficulty in classifying these images, particularly the computer-generated images, indicating the necessity of computational algorithms for the task. We also analyze the behavior of our model through visual explanations to understand salient regions that contribute to the model's decision making and compare with manual explanations provided by human participants in the form of region markings, where we could observe similarities in both the explanations indicating the powerful nature of our model to take the decisions meaningfully.
翻訳日:2021-10-19 17:10:14 公開日:2021-10-18
# 金融ドメインにおける自然言語処理を用いた顧客呼び出しの背後にある理由と動機の理解

Using Natural Language Processing to Understand Reasons and Motivators Behind Customer Calls in Financial Domain ( http://arxiv.org/abs/2110.09094v1 )

ライセンス: Link先を確認
Ankit Patil, Ankush Chopra, Sohom Ghosh, Vamshi Vadla(参考訳) このデジタル情報の豊富な時代において、顧客満足度は、あらゆるビジネスの成功の顕著な要因の1つとなっている。 顧客はほとんどすべてに対してワンクリックでソリューションを望んでいる。 オンラインでできることについて電話する必要がある場合、彼らは不満を抱く傾向があります。 さらに、入呼はあらゆるビジネスにとってコストの高いコンポーネントです。 したがって、顧客呼び出しの背後にある理由や動機を掘り起こせるフレームワークを開発することが不可欠である。 本稿では2つのモデルを提案する。 まず、注意に基づく2方向の短期記憶ネットワーク、続いて階層的クラスタリングにより、インバウンド呼び出しの書き起こしからこれらの理由を抽出する。 第二に、Support Vector MachinesとLogistic Regressionの確率に基づくアンサンブルモデルのセット。 これらの呼び出しにつながる要因を検出することができる。 大規模な評価はこれらのモデルの有効性を証明する。

In this era of abundant digital information, customer satisfaction has become one of the prominent factors in the success of any business. Customers want a one-click solution for almost everything. They tend to get unsatisfied if they have to call about something which they could have done online. Moreover, incoming calls are a high-cost component for any business. Thus, it is essential to develop a framework capable of mining the reasons and motivators behind customer calls. This paper proposes two models. Firstly, an attention-based stacked bidirectional Long Short Term Memory Network followed by Hierarchical Clustering for extracting these reasons from transcripts of inbound calls. Secondly, a set of ensemble models based on probabilities from Support Vector Machines and Logistic Regression. It is capable of detecting factors that led to these calls. Extensive evaluation proves the effectiveness of these models.
翻訳日:2021-10-19 16:42:14 公開日:2021-10-18
# アクセント認識のためのフランス語音声韻律の解析

Analysis of French Phonetic Idiosyncrasies for Accent Recognition ( http://arxiv.org/abs/2110.09179v1 )

ライセンス: Link先を確認
Pierre Berjon, Avishek Nag, and Soumyabrata Dev(参考訳) 音声認識システムはここ数十年で飛躍的な進歩を遂げた。 彼らは話者の発話を識別するために大きく発展してきた。 しかし,話者のニュアンスやアクセントを識別するためには,音声認識システムの改善の範囲がある。 特定の自然言語が少なくとも1つのアクセントを持つことは知られている。 同じ単語の音声構成にもかかわらず、異なるアクセントで発音される場合、音波は互いに異なる。 アクセントやイントネーションにおける発音の違いは、音声認識の最も一般的な問題の一つである。 言語に多くのアクセントがある場合、それぞれのアコースティックモデルを別々に作成する必要があります。 アクセントの正確な分類において,問題を体系的に解析する。 従来の機械学習手法と畳み込みニューラルネットワークを用いて,従来の手法ではこの問題を十分に解決できないことを示す。 音声信号のスペクトログラムを用いて,アクセント認識のための多クラス分類フレームワークを提案する。 本稿では,フランス語アクセントに注目した。 また,フランスの慣用句がスペクトルに与える影響を理解することによって,その限界を同定する。

Speech recognition systems have made tremendous progress since the last few decades. They have developed significantly in identifying the speech of the speaker. However, there is a scope of improvement in speech recognition systems in identifying the nuances and accents of a speaker. It is known that any specific natural language may possess at least one accent. Despite the identical word phonemic composition, if it is pronounced in different accents, we will have sound waves, which are different from each other. Differences in pronunciation, in accent and intonation of speech in general, create one of the most common problems of speech recognition. If there are a lot of accents in language we should create the acoustic model for each separately. We carry out a systematic analysis of the problem in the accurate classification of accents. We use traditional machine learning techniques and convolutional neural networks, and show that the classical techniques are not sufficiently efficient to solve this problem. Using spectrograms of speech signals, we propose a multi-class classification framework for accent recognition. In this paper, we focus our attention on the French accent. We also identify its limitation by understanding the impact of French idiosyncrasies on its spectrograms.
翻訳日:2021-10-19 16:42:04 公開日:2021-10-18
# アラビア語並列性コーパス2.0:拡張と分析

The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses ( http://arxiv.org/abs/2110.09216v1 )

ライセンス: Link先を確認
Bashar Alhafni, Nizar Habash, Houda Bouamor(参考訳) 自然言語処理(NLP)アプリケーションにおけるジェンダーバイアス、特に機械翻訳は注目されている。 この問題に関する多くの研究は、英語のnlpモデルとシステムにおけるジェンダーバイアスの緩和に焦点を当てている。 リソース不足、および/または形態学的にリッチな言語でのこの問題への対処は、主にデータセットとリソースの欠如によって、遅れている。 本稿では,1人ないし2人の対象ユーザ(Iおよび/またはYou)が関係する文脈において,ジェンダー識別と書き直しを行うための新しいコーパスを提案する。 アラビア語は形態学的に豊かな言語である。 コーパスには複数の並列成分があり、女性と男性による文法的性別の1人目と2人目の組み合わせ、英語とアラビア語の機械翻訳出力の4つがある。 このコーパスはhabash et al. (2019) の arabic parallel gender corpus (apgc v1.0) に拡張され、2人目のターゲットを追加し、6.5回以上の文の総数を増加させ、590万語以上に達する。 我々の新しいデータセットは、NLPアプリケーションをパーソナライズし、文法的な性別嗜好に基づいて正しい出力をユーザに提供できる性別識別、制御されたテキスト生成、編集後書き換えシステムの研究開発を支援する。 我々は、アラビア語並列性コーパス(apgc v2.0)を一般公開する。

Gender bias in natural language processing (NLP) applications, particularly machine translation, has been receiving increasing attention. Much of the research on this issue has focused on mitigating gender bias in English NLP models and systems. Addressing the problem in poorly resourced, and/or morphologically rich languages has lagged behind, largely due to the lack of datasets and resources. In this paper, we introduce a new corpus for gender identification and rewriting in contexts involving one or two target users (I and/or You) -- first and second grammatical persons with independent grammatical gender preferences. We focus on Arabic, a gender-marking morphologically rich language. The corpus has multiple parallel components: four combinations of 1st and 2nd person in feminine and masculine grammatical genders, as well as English, and English to Arabic machine translation output. This corpus expands on Habash et al. (2019)'s Arabic Parallel Gender Corpus (APGC v1.0) by adding second person targets as well as increasing the total number of sentences over 6.5 times, reaching over 590K words. Our new dataset will aid the research and development of gender identification, controlled text generation, and post-editing rewrite systems that could be used to personalize NLP applications and provide users with the correct outputs based on their grammatical gender preferences. We make the Arabic Parallel Gender Corpus (APGC v2.0) publicly available.
翻訳日:2021-10-19 16:41:50 公開日:2021-10-18
# 価値のアライメント: 形式的なアプローチ

Value alignment: a formal approach ( http://arxiv.org/abs/2110.09240v1 )

ライセンス: Link先を確認
Carles Sierra and Nardine Osman and Pablo Noriega and Jordi Sabater-Mir and Antoni Perell\'o(参考訳) 自律型AIシステムを管理するべき原則。 基本的に、システムの目標と振る舞いは人間の価値観と一致すべきである。 しかし、どのようにバリューアライメントを確保するか? 本稿では,まず,選好を通じて価値を表現する形式モデルと,価値集約を計算する方法,すなわちエージェント群に対する選好,あるいは値の集合に対する選好について述べる。 次に、値アライメントが定義され、与えられた値に関して与えられたノルムに対して、世界の将来の状態の選好をもたらすという増減を通じて計算される。 我々は、行動を支配する規範であるノルムに焦点をあて、与えられたシステムと与えられた値のアラインメントは、システムが従うノルムによって決定される。

principles that should govern autonomous AI systems. It essentially states that a system's goals and behaviour should be aligned with human values. But how to ensure value alignment? In this paper we first provide a formal model to represent values through preferences and ways to compute value aggregations; i.e. preferences with respect to a group of agents and/or preferences with respect to sets of values. Value alignment is then defined, and computed, for a given norm with respect to a given value through the increase/decrease that it results in the preferences of future states of the world. We focus on norms as it is norms that govern behaviour, and as such, the alignment of a given system with a given value will be dictated by the norms the system follows.
翻訳日:2021-10-19 16:38:46 公開日:2021-10-18
# 生成的対向ニューラルネットワークによる動的相互作用における非言語的社会的信号の予測

Forecasting Nonverbal Social Signals during Dyadic Interactions with Generative Adversarial Neural Networks ( http://arxiv.org/abs/2110.09378v1 )

ライセンス: Link先を確認
Nguyen Tan Viet Tuyen, Oya Celiktutan(参考訳) 私たちは、教育、医療、仕事、個人的利用など、私たちの日常生活の多くの面で、ソーシャルロボットが徐々に普及する未来に近づいています。 このような実践的な応用には、人間とロボットは、社会的相互作用が避けられない環境において協力する必要がある。 言語コミュニケーションと並行して、成功した社会的相互作用は、非言語的な知覚と、視線行動の観察やそれらの注意の追従といった行動メカニズムの相互作用と密接に結びついており、手のジェスチャーの形態と機能を調整する。 人間は本能的で適応的な方法で非言語コミュニケーションを行う。 ロボットが私たちの社会的景観で成功するためには、自律性のレベルが増大するにつれて、人間のような方法で社会的な相互作用を行う必要がある。 特に、非言語的ジェスチャーは、発話を強調したり、意図を示す能力を持つ社会ロボットを養うことが期待されている。 今回の研究は、社会的相互作用における人間の振る舞いをモデル化することに焦点を当て、特に、人間の非言語的社会的シグナルをダイアド的相互作用の間に予測することを目的としています。 このようなアプローチは、ロボットジェスチャにエンコードされたメッセージが、facileで透明な方法で相互作用するパートナーによって認識されることを確実にする。

We are approaching a future where social robots will progressively become widespread in many aspects of our daily lives, including education, healthcare, work, and personal use. All of such practical applications require that humans and robots collaborate in human environments, where social interaction is unavoidable. Along with verbal communication, successful social interaction is closely coupled with the interplay between nonverbal perception and action mechanisms, such as observation of gaze behaviour and following their attention, coordinating the form and function of hand gestures. Humans perform nonverbal communication in an instinctive and adaptive manner, with no effort. For robots to be successful in our social landscape, they should therefore engage in social interactions in a humanlike way, with increasing levels of autonomy. In particular, nonverbal gestures are expected to endow social robots with the capability of emphasizing their speech, or showing their intentions. Motivated by this, our research sheds a light on modeling human behaviors in social interactions, specifically, forecasting human nonverbal social signals during dyadic interactions, with an overarching goal of developing robotic interfaces that can learn to imitate human dyadic interactions. Such an approach will ensure the messages encoded in the robot gestures could be perceived by interacting partners in a facile and transparent manner, which could help improve the interacting partner perception and makes the social interaction outcomes enhanced.
翻訳日:2021-10-19 16:38:33 公開日:2021-10-18
# (参考訳) DBSegment: 深部脳構造の高速かつ堅牢なセグメンテーション -取得ドメイン間の輸送性の評価- [全文訳有]

DBSegment: Fast and robust segmentation of deep brain structures -- Evaluation of transportability across acquisition domains ( http://arxiv.org/abs/2110.09473v1 )

ライセンス: CC BY-SA 4.0
Mehri Baniasadi, Mikkel V. Petersen, Jorge Goncalves, Andreas Horn, Vanja Vlasov, Frank Hertel, Andreas Husch(参考訳) 磁気共鳴画像から深部脳構造を分割することは、患者の診断、手術計画、研究に重要である。 現在の最先端ソリューションのほとんどはセグメンテーション・バイ・レジゲーションのアプローチに従っており、対象MRIは明確に定義されたセグメンテーションを持つテンプレートにマッピングされる。 しかし、登録ベースのパイプラインは時間がかかり、臨床使用が制限される。 本稿では、ディープラーニングを用いて、堅牢で効率的な深層脳セグメンテーションソリューションを提供する。 この方法は、すべてのMRI画像を同じ向きに適合させる前処理ステップと、nnU-Netフレームワークを使用した畳み込みニューラルネットワークで構成される。 研究と臨床の両方で合計14のデータセットを使用します。 これらのうち7つが訓練と検証に使われ、7つが独立したテストに残った。 我々は、登録ベースのアプローチから生成されたラベルを用いて、30の深層脳構造と脳マスクをセグメントするネットワークを訓練した。 ネットワークの一般化性を評価するため, 外部データセットの相互検証と広範囲なテストを行った。 さらに,異なる領域で結果を別々に評価することで,クロスドメイントランスポート性を評価した。 登録ベースのゴールド標準と比較して,独立したテストデータセットでの平均dscは 0.89$\pm$ 0.04 であった。 テストシステムでは,参照登録ベースパイプラインの計算時間は42分から1分に短縮した。 提案手法は高速で堅牢で,信頼性の高い一般化を行う。 他の脳構造の分節にまで拡張することができる。 このメソッドはGitHubで公開されており、便利なpipパッケージが提供されている。

Segmenting deep brain structures from magnetic resonance images is important for patient diagnosis, surgical planning, and research. Most current state-of-the-art solutions follow a segmentation-by-regi stration approach, where subject MRIs are mapped to a template with well-defined segmentations. However, registration-based pipelines are time-consuming, thus, limiting their clinical use. This paper uses deep learning to provide a robust and efficient deep brain segmentation solution. The method consists of a pre-processing step to conform all MRI images to the same orientation, followed by a convolutional neural network using the nnU-Net framework. We use a total of 14 datasets from both research and clinical collections. Of these, seven were used for training and validation and seven were retained for independent testing. We trained the network to segment 30 deep brain structures, as well as a brain mask, using labels generated from a registration-based approach. We evaluated the generalizability of the network by performing a leave-one-dataset-ou t cross-validation, and extensive testing on external datasets. Furthermore, we assessed cross-domain transportability by evaluating the results separately on different domains. We achieved an average DSC of 0.89 $\pm$ 0.04 on the independent testing datasets when compared to the registration-based gold standard. On our test system, the computation time decreased from 42 minutes for a reference registration-based pipeline to 1 minute. Our proposed method is fast, robust, and generalizes with high reliability. It can be extended to the segmentation of other brain structures. The method is publicly available on GitHub, as well as a pip package for convenient usage.
翻訳日:2021-10-19 16:28:59 公開日:2021-10-18
# (参考訳) 外挿にともなう高次元の学習 [全文訳有]

Learning in High Dimension Always Amounts to Extrapolation ( http://arxiv.org/abs/2110.09485v1 )

ライセンス: CC BY 4.0
Randall Balestriero, Jerome Pesenti, Yann LeCun(参考訳) 補間と外挿の概念は、ディープラーニングから関数近似まで様々な分野において基本である。 補間は、このサンプルが与えられたデータセットの凸包の内部または境界に落ちると、サンプル$x$ に対して行われる。 外挿は、凸殻の外側に$x$が落ちるときに起こる。 基本的な(ミス)概念の1つは、トレーニングデータを正しく補間できるため、最先端のアルゴリズムがうまく機能するということである。 第二の(ミス)概念は、補間はタスクやデータセットを通して起こり、実際には多くの直観や理論はその仮定に依存しているということである。 経験的かつ理論的にこれら2つの点を議論し、任意の高次元($100)データセットにおいて、補間は決して起こらないことを実証する。 これらの結果は、一般化性能の指標として、現在の補間/外挿定義の有効性に挑戦する。

The notion of interpolation and extrapolation is fundamental in various fields from deep learning to function approximation. Interpolation occurs for a sample $x$ whenever this sample falls inside or on the boundary of the given dataset's convex hull. Extrapolation occurs when $x$ falls outside of that convex hull. One fundamental (mis)conception is that state-of-the-art algorithms work so well because of their ability to correctly interpolate training data. A second (mis)conception is that interpolation happens throughout tasks and datasets, in fact, many intuitions and theories rely on that assumption. We empirically and theoretically argue against those two points and demonstrate that on any high-dimensional ($>$100) dataset, interpolation almost surely never happens. Those results challenge the validity of our current interpolation/extrap olation definition as an indicator of generalization performances.
翻訳日:2021-10-19 15:56:28 公開日:2021-10-18
# (参考訳) 最小$\ell_{1}$-norm補間器:正確な漸近性と多重降下

Minimum $\ell_{1}$-norm interpolators: Precise asymptotics and multiple descent ( http://arxiv.org/abs/2110.09502v1 )

ライセンス: CC BY 4.0
Yue Li, Yuting Wei(参考訳) 機械学習の研究の進化は、補間推定器(トレーニングエラーをゼロにするもの)が必ずしも有害ではないことを示唆する経験的証拠を観察する。 本稿では,最小値$\ell_{1}$-norm補間器の理論的理解を追求する。これは,複数の学習アルゴリズムが,過パラメータ化方式における低値$\ell_1$-norm解を好んでいるという観測から導かれる。 具体的には,ガウス設計下でのノイズ分散回帰モデルについて,線形スパース性および高次元漸近性に着目して考察する(特徴数とスパースレベルがサンプルサイズに比例するように)。 すなわち、最小の$\ell_1$-norm補間器の一般化リスクは、モデル容量を増加させるにつれて、複数の(おそらく2つ以上)降下相と上昇相となる。 この現象は、最小$\ell_1$-norm補間器の特別な構造と、過パラメータ化比とスパーシティの間の微妙な相互作用に起因し、最小$\ell_2$-norm補間器から幾何の基本的な区別を明らかにする。 我々の発見は、2つの未知の非線形方程式からなる2つのシステムによって制御されるリスク行動の正確な特徴に基づいている。

An evolving line of machine learning works observe empirical evidence that suggests interpolating estimators -- the ones that achieve zero training error -- may not necessarily be harmful. This paper pursues theoretical understanding for an important type of interpolators: the minimum $\ell_{1}$-norm interpolator, which is motivated by the observation that several learning algorithms favor low $\ell_1$-norm solutions in the over-parameterized regime. Concretely, we consider the noisy sparse regression model under Gaussian design, focusing on linear sparsity and high-dimensional asymptotics (so that both the number of features and the sparsity level scale proportionally with the sample size). We observe, and provide rigorous theoretical justification for, a curious multi-descent phenomenon; that is, the generalization risk of the minimum $\ell_1$-norm interpolator undergoes multiple (and possibly more than two) phases of descent and ascent as one increases the model capacity. This phenomenon stems from the special structure of the minimum $\ell_1$-norm interpolator as well as the delicate interplay between the over-parameterized ratio and the sparsity, thus unveiling a fundamental distinction in geometry from the minimum $\ell_2$-norm interpolator. Our finding is built upon an exact characterization of the risk behavior, which is governed by a system of two non-linear equations with two unknowns.
翻訳日:2021-10-19 15:43:59 公開日:2021-10-18
# ネットワークラッソを用いたマルチタスク学習へのベイズ的アプローチ

A Bayesian approach to multi-task learning with network lasso ( http://arxiv.org/abs/2110.09040v1 )

ライセンス: Link先を確認
Kaito Shimamura, Shuichi Kawano(参考訳) ネットワークラッソ(Network lasso)は、正規化最大度法を用いてマルチタスク学習問題を解決する方法である。 ネットワークラッソの特徴は、サンプル毎に異なるモデルを設定することである。 モデル間の関係は関係係数によって表される。 ネットワークラッソにおける重要な問題は、これらの関係係数に対して適切な値を提供することである。 本稿では,ネットワークラッソによるマルチタスク学習問題を解決するベイズ手法を提案する。 このアプローチにより、ベイズ推定により関係係数を客観的に決定できる。 本手法の有効性はシミュレーション研究と実データ解析で示される。

Network lasso is a method for solving a multi-task learning problem through the regularized maximum likelihood method. A characteristic of network lasso is setting a different model for each sample. The relationships among the models are represented by relational coefficients. A crucial issue in network lasso is to provide appropriate values for these relational coefficients. In this paper, we propose a Bayesian approach to solve multi-task learning problems by network lasso. This approach allows us to objectively determine the relational coefficients by Bayesian estimation. The effectiveness of the proposed method is shown in a simulation study and a real data analysis.
翻訳日:2021-10-19 15:37:39 公開日:2021-10-18
# UMAPツアーとディープニューラルネットの比較

Comparing Deep Neural Nets with UMAP Tour ( http://arxiv.org/abs/2110.09431v1 )

ライセンス: Link先を確認
Mingwei Li, Carlos Scheidegger(参考訳) ニューラルネットワークは人間に解釈されるべきである。 特に、レイヤで学んだ概念やレイヤ間の類似性への関心が高まっています。 本研究では、実世界のニューラルネットワークモデルの内部動作を、よく整列したインスタンスレベルの表現を用いて視覚的に検査し比較するためのツールであるumap tourを構築した。 可視化に使用される手法は、ニューラルネットワーク層間の新しい類似性尺度も含んでいる。 ビジュアルツールと類似度測定を用いて、最先端のモデルで学んだ概念と、GoogLeNetやResNetのようなそれらの相違点を見つける。

Neural networks should be interpretable to humans. In particular, there is a growing interest in concepts learned in a layer and similarity between layers. In this work, a tool, UMAP Tour, is built to visually inspect and compare internal behavior of real-world neural network models using well-aligned, instance-level representations. The method used in the visualization also implies a new similarity measure between neural network layers. Using the visual tool and the similarity measure, we find concepts learned in state-of-the-art models and dissimilarities between them, such as GoogLeNet and ResNet.
翻訳日:2021-10-19 15:34:02 公開日:2021-10-18
# (参考訳) アノニマススピーチを保護する:テキスト中のスタイリスティックインジケータを除去するための生成的adversarial network方法論 [全文訳有]

Protecting Anonymous Speech: A Generative Adversarial Network Methodology for Removing Stylistic Indicators in Text ( http://arxiv.org/abs/2110.09495v1 )

ライセンス: CC BY 4.0
Rishi Balakrishnan, Stephen Sloan and Anil Aswani(参考訳) インターネットユーザーは、ブログ、メール、ソーシャルメディアの投稿など、常にテキストの痕跡を残しているため、匿名で書き、抗議する能力は、人工知能が以前の研究のサンプルを与えられた場合、数百の候補の中から著者とテキストを一致させることができるため、侵食されている。 著者名匿名化に対する既存のアプローチは、著者名難読化(authorship obfuscation)とも呼ばれる。 難読化のアイデンティティにフォーカスする人でさえ、手動によるフィードバックを必要とし、元の文の一貫性を失うか、限られた著者のサブセットだけをうまく実行する。 本稿では,アイデンティティを保護し,匿名性,流動性,コンテンツ保存に対応する3つの異なる損失を最適化する生成的敵ネットワークを構築することにより,著者の匿名化に新たなアプローチを提案する。 完全自動方式は, コンテンツ保存や流布において他の手法と同等の結果を得るが, 匿名化においてはベースラインよりも優れていた。 さらに,オープンセットの文脈にうまく一般化し,これまでに遭遇したことのない著者の文章を匿名化することができる。

With Internet users constantly leaving a trail of text, whether through blogs, emails, or social media posts, the ability to write and protest anonymously is being eroded because artificial intelligence, when given a sample of previous work, can match text with its author out of hundreds of possible candidates. Existing approaches to authorship anonymization, also known as authorship obfuscation, often focus on protecting binary demographic attributes rather than identity as a whole. Even those that do focus on obfuscating identity require manual feedback, lose the coherence of the original sentence, or only perform well given a limited subset of authors. In this paper, we develop a new approach to authorship anonymization by constructing a generative adversarial network that protects identity and optimizes for three different losses corresponding to anonymity, fluency, and content preservation. Our fully automatic method achieves comparable results to other methods in terms of content preservation and fluency, but greatly outperforms baselines in regards to anonymization. Moreover, our approach is able to generalize well to an open-set context and anonymize sentences from authors it has not encountered before.
翻訳日:2021-10-19 15:28:21 公開日:2021-10-18
# MEMO: 適応と拡張によるテスト時間のロバスト性

MEMO: Test Time Robustness via Adaptation and Augmentation ( http://arxiv.org/abs/2110.09506v1 )

ライセンス: Link先を確認
Marvin Zhang, Sergey Levine, Chelsea Finn(参考訳) ディープニューラルネットワークは、分散テストポイントにおいて高い精度を達成できるが、多くのアプリケーションは、入力の予期せぬ摂動、ドメインの変化、あるいは他の分散シフトの源である場合でさえ、堅牢性を必要とする。 テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。 近年, テスト時間適応手法が提案されているが, 複数のテストポイントへのアクセスなど, 広く普及するのを防ぐ追加の仮定が導入されている。 本研究では,モデル学習過程を想定せず,テスト時に広く適用可能な手法を研究し,考案することを目的とする。 モデルが確率的かつ適応可能な任意のテスト設定で使用できる単純なアプローチを提案する。 テスト例を示した場合、データポイントで異なるデータ拡張を実行し、モデルの平均値(または限界値)のエントロピーを最小化し、モデルのパラメータを適応(すべて)する。 直感的には、この目的はモデルに対して、異なる拡張にまたがって同じ予測を行うことを奨励し、これらの拡張に符号化された不変性を強制すると同時に、その予測に対する信頼性を維持する。 本実験では,本手法がロバストなresnetモデルと視覚トランスフォーマーモデルを一貫して改善し,標準モデル評価よりも1~8%の精度向上を達成し,また,従来の拡張戦略や適応戦略を概ね上回っていることを実証する。 画像汚損(ImageNet-C)、共通オブジェクトの回帰(ImageNet-R)、ResNet-50モデルのうち、逆選択された自然例(ImageNet-A)について、最先端の結果を得る。

While deep neural networks can attain good accuracy on in-distribution test points, many applications require robustness even in the face of unexpected perturbations in the input, changes in the domain, or other sources of distribution shift. We study the problem of test time robustification, i.e., using the test input to improve model robustness. Recent prior works have proposed methods for test time adaptation, however, they each introduce additional assumptions, such as access to multiple test points, that prevent widespread adoption. In this work, we aim to study and devise methods that make no assumptions about the model training process and are broadly applicable at test time. We propose a simple approach that can be used in any test setting where the model is probabilistic and adaptable: when presented with a test example, perform different data augmentations on the data point, and then adapt (all of) the model parameters by minimizing the entropy of the model's average, or marginal, output distribution across the augmentations. Intuitively, this objective encourages the model to make the same prediction across different augmentations, thus enforcing the invariances encoded in these augmentations, while also maintaining confidence in its predictions. In our experiments, we demonstrate that this approach consistently improves robust ResNet and vision transformer models, achieving accuracy gains of 1-8% over standard model evaluation and also generally outperforming prior augmentation and adaptation strategies. We achieve state-of-the-art results for test shifts caused by image corruptions (ImageNet-C), renditions of common objects (ImageNet-R), and, among ResNet-50 models, adversarially chosen natural examples (ImageNet-A).
翻訳日:2021-10-19 15:12:41 公開日:2021-10-18
# 教師なしの微調整

Unsupervised Finetuning ( http://arxiv.org/abs/2110.09510v1 )

ライセンス: Link先を確認
Suichan Li and Dongdong Chen and Yinpeng Chen and Lu Yuan and Lei Zhang and Qi Chu and Bin Liu and Nenghai Yu(参考訳) 本稿では,よく知られた「教師なし微調整」の対称問題である「教師なし微調整」について述べる。 事前訓練されたモデルと小規模な未ラベルのターゲットデータにより、教師なし微調整は、ソースドメインから対象ドメインに事前訓練された表現を適応させることにより、より良い転送性能を得ることができる。 小規模のターゲットデータの低データ密度は教師なし学習には適さないため、事前学習された表現と対象領域での貧弱な表現の損傷につながるため、この問題は教師なしデータよりも難しい。 本稿では、微調整パラダイムを監督者から監督者へシフトさせる際には、ソースデータの重要性が指摘され、ソースデータとターゲットデータを教師なしの微調整に組み合わせる2つのシンプルかつ効果的な戦略が提案されている。 前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加して、ターゲットデータをより小さなコンパクトな空間に配置することであり、後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことである。 提案する ‘unsupervised finetuning' 戦略の有効性を示すために,複数のターゲットデータセットを対象とした広範囲な実験を行い,naive 戦略よりも優れた転送性能を示す。

This paper studies "unsupervised finetuning", the symmetrical problem of the well-known "supervised finetuning". Given a pretrained model and small-scale unlabeled target data, unsupervised finetuning is to adapt the representation pretrained from the source domain to the target domain so that better transfer performance can be obtained. This problem is more challenging than the supervised counterpart, as the low data density in the small-scale target data is not friendly for unsupervised learning, leading to the damage of the pretrained representation and poor representation in the target domain. In this paper, we find the source data is crucial when shifting the finetuning paradigm from supervise to unsupervise, and propose two simple and effective strategies to combine source and target data into unsupervised finetuning: "sparse source data replaying", and "data mixing". The motivation of the former strategy is to add a small portion of source data back to occupy their pretrained representation space and help push the target data to reside in a smaller compact space; and the motivation of the latter strategy is to increase the data density and help learn more compact representation. To demonstrate the effectiveness of our proposed ``unsupervised finetuning'' strategy, we conduct extensive experiments on multiple different target datasets, which show better transfer performance than the naive strategy.
翻訳日:2021-10-19 15:12:09 公開日:2021-10-18
# ディープラーニングを用いたfMRIからの自然画像再構成

Natural Image Reconstruction from fMRI using Deep Learning: A Survey ( http://arxiv.org/abs/2110.09006v1 )

ライセンス: Link先を確認
Zarina Rakhimberdina, Quentin Jodelet, Xin Liu, Tsuyoshi Murata(参考訳) 脳イメージング技術や機械学習ツールの出現により、人間の脳における視覚情報のエンコーディングを捉える計算モデルの構築に多くの努力が費やされてきた。 最も難しい課題の1つは、機能的磁気共鳴画像(fmri)による脳活動から知覚される自然画像の正確な再構成である。 本研究では,fMRIによる自然画像再構成のための最新の深層学習手法について検討する。 これらの手法をアーキテクチャ設計、ベンチマークデータセット、評価メトリクスの観点から検討し、標準化された評価メトリクスにまたがって公正な性能評価を行う。 最後に,既存研究の強みと限界,今後の方向性について考察する。

With the advent of brain imaging techniques and machine learning tools, much effort has been devoted to building computational models to capture the encoding of visual information in the human brain. One of the most challenging brain decoding tasks is the accurate reconstruction of the perceived natural images from brain activities measured by functional magnetic resonance imaging (fMRI). In this work, we survey the most recent deep learning methods for natural image reconstruction from fMRI. We examine these methods in terms of architectural design, benchmark datasets, and evaluation metrics and present a fair performance evaluation across standardized evaluation metrics. Finally, we discuss the strengths and limitations of existing studies and present potential future directions.
翻訳日:2021-10-19 15:11:21 公開日:2021-10-18
# 難解なセル分解による強化学習に基づく被覆経路計画

Reinforcement Learning-Based Coverage Path Planning with Implicit Cellular Decomposition ( http://arxiv.org/abs/2110.09018v1 )

ライセンス: Link先を確認
Javad Heydari and Olimpiya Saha and Viswanath Ganapathy(参考訳) 一般的な既知の環境における被覆経路計画はNPハードであることが示されている。 環境が未知になると、ロボットはその経路を計画するために、カバー中に構築されたオンラインマップ情報に頼る必要があるため、より困難になる。 重要な研究は、合理的な性能を達成するヒューリスティックまたは近似アルゴリズムの設計に焦点を当てている。 このようなアルゴリズムは、範囲やカバーコスト、例えばカバレッジ時間やエネルギー消費をカバーして、準最適性能を持つ。 本稿では,カバレッジ問題に関する体系的な分析を行い,それに基づいて,カバレッジ性能とコストのトレードオフを明示的に考慮した最適な停止時間問題として定式化する。 次に、強化学習(RL)技術を用いて問題を計算的に解くことを実証する。 この目的のために、RLアルゴリズムの適用を容易にし、解の効率を改善するための技術的および実践的な考察を提供する。 最後に,グリッド・ワールド環境とガゼボ・シミュレータを用いた実験を通じて,強化学習に基づくアルゴリズムが現実的未知の屋内環境を効率的にカバーし,現在のアートを上回っていることを示す。

Coverage path planning in a generic known environment is shown to be NP-hard. When the environment is unknown, it becomes more challenging as the robot is required to rely on its online map information built during coverage for planning its path. A significant research effort focuses on designing heuristic or approximate algorithms that achieve reasonable performance. Such algorithms have sub-optimal performance in terms of covering the area or the cost of coverage, e.g., coverage time or energy consumption. In this paper, we provide a systematic analysis of the coverage problem and formulate it as an optimal stopping time problem, where the trade-off between coverage performance and its cost is explicitly accounted for. Next, we demonstrate that reinforcement learning (RL) techniques can be leveraged to solve the problem computationally. To this end, we provide some technical and practical considerations to facilitate the application of the RL algorithms and improve the efficiency of the solutions. Finally, through experiments in grid world environments and Gazebo simulator, we show that reinforcement learning-based algorithms efficiently cover realistic unknown indoor environments, and outperform the current state of the art.
翻訳日:2021-10-19 15:04:11 公開日:2021-10-18
# Edge RewiringがNeuralに:ポリシグラディエントによるネットワークレジリエンス向上

Edge Rewiring Goes Neural: Boosting Network Resilience via Policy Gradient ( http://arxiv.org/abs/2110.09035v1 )

ライセンス: Link先を確認
Shanchao Yang, Kaili Ma, Baoxiang Wang, Hongyuan Zha(参考訳) ネットワークのレジリエンス向上は、自然災害や悪意のある攻撃からシステムを保護します。 これは一般的に新しいエッジを導入することで実現されるが、ノードが維持できる最大コネクション数を超える可能性がある。 多くの研究はリウィリングの次数保存操作に頼り、既存のエッジを$AC, BD$から新しいエッジを$AB, CD$に置き換える。 ネットワークユーティリティ損失、局所最適性、およびトランスダクティビティの3つの制限を残しながら、理論的および実践的な結果のためのこの技術に焦点を当てた研究の行程である。 本稿では,ResiNetを提案する。Regressed Learning(RL)ベースのフレームワークで,災害や攻撃に対する耐性ネットワークトポロジを発見する。 ResiNetは客観的非依存であり、目的関数に組み込むことでユーティリティのバランスをとることができる。 局所最適性は、通常、欲求アルゴリズムに見られるもので、累積レジリエンスゲインをステップワイズという逐次的な決定プロセスに投入することで解決される。 トランスダクティビティ(transductivity)は、各入力グラフに対して計算集約的な最適化を実行する必要があることを言及し、自動回帰置換不変な可変アクション空間を持つRLの変種によって持ち上げられる。 ResiNetは私たちの技術革新であるFiltration enhanced GNN(FireGNN)によって武装されています。 したがって、ResiNetは局所的な構造変化を捉え、その決定を連続グラフに適応させることが可能である。 広範な実験により、resinetは少数のリワイリング操作によって、既存のアプローチに比べて大きなマージンで、ユーティリティのバランスを保ちながら、複数のグラフでほぼ最適のレジリエンス向上を実現することが示されている。

Improving the resilience of a network protects the system from natural disasters and malicious attacks. This is typically achieved by introducing new edges, which however may reach beyond the maximum number of connections a node could sustain. Many studies then resort to the degree-preserving operation of rewiring, which swaps existing edges $AC, BD$ to new edges $AB, CD$. A significant line of studies focuses on this technique for theoretical and practical results while leaving three limitations: network utility loss, local optimality, and transductivity. In this paper, we propose ResiNet, a reinforcement learning (RL)-based framework to discover resilient network topologies against various disasters and attacks. ResiNet is objective agnostic which allows the utility to be balanced by incorporating it into the objective function. The local optimality, typically seen in greedy algorithms, is addressed by casting the cumulative resilience gain into a sequential decision process of step-wise rewiring. The transductivity, which refers to the necessity to run a computationally intensive optimization for each input graph, is lifted by our variant of RL with auto-regressive permutation-invarian t variable action space. ResiNet is armed by our technical innovation, Filtration enhanced GNN (FireGNN), which distinguishes graphs with minor differences. It is thus possible for ResiNet to capture local structure changes and adapt its decision among consecutive graphs, which is known to be infeasible for GNN. Extensive experiments demonstrate that with a small number of rewiring operations, ResiNet achieves a near-optimal resilience gain on multiple graphs while balancing the utility, with a large margin compared to existing approaches.
翻訳日:2021-10-19 15:03:53 公開日:2021-10-18
# ジョブショップスケジューリング問題を解決する深層再帰エージェントを用いたアクター-クリティックアルゴリズム

An actor-critic algorithm with deep double recurrent agents to solve the job shop scheduling problem ( http://arxiv.org/abs/2110.09076v1 )

ライセンス: Link先を確認
Marta Monaci, Valerio Agasucci and Giorgio Grani(参考訳) 機械学習技術の統合や最適化による最適化の課題解決への関心が高まっている。 本研究では,ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。 目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学ぶことができる、欲張りのようなヒューリスティックを構築することである。 高速なスケジューリング手法の必要性はよく知られており、交通から医療に至るまで、多くの領域で発生する。 我々はjsspをマルコフ決定プロセスとしてモデル化し,強化学習の有効性を生かして問題を解決した。 エージェントが行う行動は,状態値関数に関する政策的考察の影響を受け,アクター批判的手法を採用する。 この手順はjsspの困難な性質を考慮に入れるために適用され、状態とアクション空間は各インスタンスに対してだけでなく、各決定の後にも変化する。 入力中のジョブ数と操作数の変化に対処するため,我々は,特殊なタイプのディープニューラルネットワークであるインシデントlstmモデルを用いてエージェントをモデル化した。 実験により、アルゴリズムは短時間で良い解に到達し、学習ベースの方法論から新しい欲求的ヒューリスティックを生成できることが証明された。 ベンチマークは商用のソルバcplexと比較して生成されている。 予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。

There is a growing interest in integrating machine learning techniques and optimization to solve challenging optimization problems. In this work, we propose a deep reinforcement learning methodology for the job shop scheduling problem (JSSP). The aim is to build up a greedy-like heuristic able to learn on some distribution of JSSP instances, different in the number of jobs and machines. The need for fast scheduling methods is well known, and it arises in many areas, from transportation to healthcare. We model the JSSP as a Markov Decision Process and then we exploit the efficacy of reinforcement learning to solve the problem. We adopt an actor-critic scheme, where the action taken by the agent is influenced by policy considerations on the state-value function. The procedures are adapted to take into account the challenging nature of JSSP, where the state and the action space change not only for every instance but also after each decision. To tackle the variability in the number of jobs and operations in the input, we modeled the agent using two incident LSTM models, a special type of deep neural network. Experiments show the algorithm reaches good solutions in a short time, proving that is possible to generate new greedy heuristics just from learning-based methodologies. Benchmarks have been generated in comparison with the commercial solver CPLEX. As expected, the model can generalize, to some extent, to larger problems or instances originated by a different distribution from the one used in training.
翻訳日:2021-10-19 15:03:18 公開日:2021-10-18
# コールドスタートシーケンシャルレコメンデーションを学ぶための学習

Learning to Learn a Cold-start Sequential Recommender ( http://arxiv.org/abs/2110.09083v1 )

ライセンス: Link先を確認
Xiaowen Huang, Jitao Sang, Jian Yu, Changsheng Xu(参考訳) コールドスタート勧告は、現代のオンラインアプリケーションにおいて緊急の問題である。 行動が文字通り、可能な限り正確なレコメンデーションと疎結合なユーザーに提供することを目的としている。 広く使われている行列分解のような多くのデータ駆動アルゴリズムは、データスパース性のために性能が劣る。 この研究は、ユーザのコールドスタートレコメンデーション問題を解決するためにメタラーニングの考え方を採用する。 metacsrと呼ばれるメタラーニングベースのコールドスタートシーケンシャルレコメンデーションフレームワークを提案する。3つの主なコンポーネントは、インタラクショングラフ上で情報拡散を通じてより良いユーザ/テーマ埋め込みを学ぶためのディフュージョンレコメンデーション、振る舞いシーケンスの一時的な依存関係をキャプチャするシーケンシャルレコメンデーション、以前のユーザの転送可能な知識を抽出、伝達し、新規ユーザのために適切な初期化を学ぶメタラーナである。 MetaCSRは、通常のユーザの動作から共通パターンを学習し、初期化を最適化する機能を備えており、モデルが1ないし数回の勾配更新後に新しいユーザに迅速に適応し、最適なパフォーマンスを実現する。 広く使われている3つのデータセットに対する大規模な定量的実験は、ユーザコールドスタート問題に対処するメタCSRの顕著な性能を示している。 一方、一連の定性的解析は、提案されたメタCSRが優れた一般化を持つことを示す。

The cold-start recommendation is an urgent problem in contemporary online applications. It aims to provide users whose behaviors are literally sparse with as accurate recommendations as possible. Many data-driven algorithms, such as the widely used matrix factorization, underperform because of data sparseness. This work adopts the idea of meta-learning to solve the user's cold-start recommendation problem. We propose a meta-learning based cold-start sequential recommendation framework called metaCSR, including three main components: Diffusion Representer for learning better user/item embedding through information diffusion on the interaction graph; Sequential Recommender for capturing temporal dependencies of behavior sequences; Meta Learner for extracting and propagating transferable knowledge of prior users and learning a good initialization for new users. metaCSR holds the ability to learn the common patterns from regular users' behaviors and optimize the initialization so that the model can quickly adapt to new users after one or a few gradient updates to achieve optimal performance. The extensive quantitative experiments on three widely-used datasets show the remarkable performance of metaCSR in dealing with user cold-start problem. Meanwhile, a series of qualitative analysis demonstrates that the proposed metaCSR has good generalization.
翻訳日:2021-10-19 15:02:54 公開日:2021-10-18
# 畳み込みニューラルネットワークの次元性低減手法

A Dimensionality Reduction Approach for Convolutional Neural Networks ( http://arxiv.org/abs/2110.09163v1 )

ライセンス: Link先を確認
Laura Meneghetti and Nicola Demo and Gianluigi Rozza(参考訳) 本稿では, アクティブ部分空間や固有直交分解などの古典的モデルオーダー削減手法をディープニューラルネットワークに適用することに焦点を当てた。 本稿では,上記の次元性低減手法と,多項式カオス展開やフィードフォワードニューラルネットワークといった入出力マッピングを組み合わせることで,事前学習したネットワークの層数を削減する汎用手法を提案する。 既存の畳み込みニューラルネットワークのアーキテクチャを圧縮する必要性は、特定のストレージ制約のある組み込みシステムへの応用によって動機付けられる。 実験の結果, 得られたネットは, メモリ割り当てを節約しながら, 元の畳み込みニューラルネットワークと同様の精度が得られることがわかった。

The focus of this paper is the application of classical model order reduction techniques, such as Active Subspaces and Proper Orthogonal Decomposition, to Deep Neural Networks. We propose a generic methodology to reduce the number of layers of a pre-trained network by combining the aforementioned techniques for dimensionality reduction with input-output mappings, such as Polynomial Chaos Expansion and Feedforward Neural Networks. The necessity of compressing the architecture of an existing Convolutional Neural Network is motivated by its application in embedded systems with specific storage constraints. Our experiment shows that the reduced nets obtained can achieve a level of accuracy similar to the original Convolutional Neural Network under examination, while saving in memory allocation.
翻訳日:2021-10-19 15:01:54 公開日:2021-10-18
# energon:動的スパース注意を用いた変圧器の効率的な高速化に向けて

Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention ( http://arxiv.org/abs/2110.09310v1 )

ライセンス: Link先を確認
Zhe Zhou and Junlin Liu and Zhenyu Gu and Guangyu Sun(参考訳) 近年、トランスフォーマーモデルは自然言語処理(nlp)に革命をもたらし、コンピュータビジョン(cv)タスクでも有望な性能を示している。 その効果にもかかわらず、トランスフォーマーの注意操作は複雑なデータ移動と二次計算の複雑さのために加速しにくく、リソース制約のあるエッジコンピューティングプラットフォームでのリアルタイム推論を禁止している。 この課題に対処するために,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。 注意結果がいくつかの重要なクエリキーペアのみに依存するという観測から,実行時にそのペアを動的に識別するマルチラウンドフィルタリングアルゴリズムを提案する。 各フィルタリングラウンドに低ビット幅を採用し、注意段階の高精度テンソルのみを用いて、全体的な複雑さを低減する。 この方法では、計算コストを無視できる精度損失で大幅に軽減する。 より低レイテンシでエネルギー効率のよいアルゴリズムを実現するために,Energonコプロセッサアーキテクチャを提案する。 実験パイプラインと特別な最適化により、性能が向上し、消費電力が減少する。 nlpとcvのベンチマークでの広範な実験により、energonは161\times$と8.4\times$ geo-mean speedup、最大10^4\times$と10^3\times$ energy reductionをintel xeon 5220 cpuとnvidia v100 gpuと比較した。 最先端の注目アクセラレータSpAttenや$A^3$と比較して、Energonは1.7\times、1.25\times$ Speedup、1.6 \times、1.1.5\times$高エネルギー効率を実現している。

In recent years, transformer models have revolutionized Natural Language Processing (NLP) and also show promising performance on Computer Vision (CV) tasks. Despite their effectiveness, transformers' attention operations are hard to accelerate due to complicated data movement and quadratic computational complexity, prohibiting the real-time inference on resource-constrained edge-computing platforms. To tackle this challenge, we propose Energon, an algorithm-architectu re co-design approach that accelerates various transformers using dynamic sparse attention. With the observation that attention results only depend on a few important query-key pairs, we propose a multi-round filtering algorithm to dynamically identify such pairs at runtime. We adopt low bitwidth in each filtering round and only use high-precision tensors in the attention stage to reduce overall complexity. By this means, we significantly mitigate the computational cost with negligible accuracy loss. To enable such an algorithm with lower latency and better energy-efficiency, we also propose an Energon co-processor architecture. Elaborated pipelines and specialized optimizations jointly boost the performance and reduce power consumption. Extensive experiments on both NLP and CV benchmarks demonstrate that Energon achieves $161\times$ and $8.4\times$ geo-mean speedup and up to $10^4\times$ and $10^3\times$ energy reduction compared with Intel Xeon 5220 CPU and NVIDIA V100 GPU. Compared to state-of-the-art attention accelerators SpAtten and $A^3$, Energon also achieves $1.7\times, 1.25\times$ speedup and $1.6 \times, 1.5\times $ higher energy efficiency.
翻訳日:2021-10-19 15:01:41 公開日:2021-10-18
# (参考訳) ガウス過程と確率的条件生成学習を用いた機械学習モデルによる液体燃料特性の予測 [全文訳有]

Prediction of liquid fuel properties using machine learning models with Gaussian processes and probabilistic conditional generative learning ( http://arxiv.org/abs/2110.09360v1 )

ライセンス: CC BY 4.0
Rodolfo S. M. Freitas, \'Agatha P. F. Lima, Cheng Chen, Fernando A. Rochinha, Daniel Mira, Xi Jiang(参考訳) 代替燃料の利用には, 様々な圧力および温度条件における複合混合物の燃料特性の精密決定が不可欠である。 本研究の目的は、代替燃料の物理特性を予測するためにクロージャ方程式として機能する安価な計算機械学習モデルを構築することである。 これらのモデルは、MDシミュレーションのデータベースや、データ融合忠実度アプローチによる実験的な測定を用いて訓練することができる。 ここではガウス過程(GP)と確率的生成モデルを採用する。 GPは補助的モデルを構築するための非パラメトリックベイズ的アプローチとして人気がある。 生成モデルは、同じ意図で使用されるディープニューラルネットワークの能力を示している。 この研究では、ML分析は特定の性質、すなわち燃料密度に焦点を当てるが、他の物理化学的性質にも拡張することができる。 本研究では,マルチ忠実度データを扱うMLモデルの汎用性について検討する。 その結果,MLモデルでは,幅広い圧力および温度条件の燃料特性を正確に予測できることがわかった。

Accurate determination of fuel properties of complex mixtures over a wide range of pressure and temperature conditions is essential to utilizing alternative fuels. The present work aims to construct cheap-to-compute machine learning (ML) models to act as closure equations for predicting the physical properties of alternative fuels. Those models can be trained using the database from MD simulations and/or experimental measurements in a data-fusion-fidelity approach. Here, Gaussian Process (GP) and probabilistic generative models are adopted. GP is a popular non-parametric Bayesian approach to build surrogate models mainly due to its capacity to handle the aleatory and epistemic uncertainties. Generative models have shown the ability of deep neural networks employed with the same intent. In this work, ML analysis is focused on a particular property, the fuel density, but it can also be extended to other physicochemical properties. This study explores the versatility of the ML models to handle multi-fidelity data. The results show that ML models can predict accurately the fuel properties of a wide range of pressure and temperature conditions.
翻訳日:2021-10-19 14:58:12 公開日:2021-10-18
# 非定常MDPにおける最適政策最適化の有効性

Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs ( http://arxiv.org/abs/2110.08984v1 )

ライセンス: Link先を確認
Han Zhong, Zhuoran Yang, Zhaoran Wang Csaba Szepesv\'ari(参考訳) 非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)について検討した。 この設定では、報酬関数と遷移核は、与えられた特徴写像に対して線形であり、それぞれのパラメータの変動が特定の変動予算を超えない限り、時間とともに変化することが許される。 線形関数近似を用いた楽観的ポリシー最適化アルゴリズムである,$\underline{\text{p}}$eriodically $\underline{\text{r}}$estarted $\underline{\text{o}}$ptimistic $\underline{\text{p}}$olicy $\underline{\text{o}}$ptimization algorithm (PROPO)を提案する。 PROPOはスライディングウインドウに基づく政策評価と周期的再起動に基づく政策改善の2つのメカニズムを特徴としている。 また,スライディングウインドウの手法を利用するだけで,値イテレーションアルゴリズムを提案する。 提案手法の動的上界と,提案手法の(近距離)最適性を示す最小最小下界のマッチングを定式化する。 私たちの知る限り、propoは非定常性を扱う最初の有効なポリシー最適化アルゴリズムです。

We study episodic reinforcement learning (RL) in non-stationary linear kernel Markov decision processes (MDPs). In this setting, both the reward function and the transition kernel are linear with respect to the given feature maps and are allowed to vary over time, as long as their respective parameter variations do not exceed certain variation budgets. We propose the $\underline{\text{p}}$eriodically $\underline{\text{r}}$estarted $\underline{\text{o}}$ptimistic $\underline{\text{p}}$olicy $\underline{\text{o}}$ptimization algorithm (PROPO), which is an optimistic policy optimization algorithm with linear function approximation. PROPO features two mechanisms: sliding-window-based policy evaluation and periodic-restart-bas ed policy improvement, which are tailored for policy optimization in a non-stationary environment. In addition, only utilizing the technique of sliding window, we propose a value-iteration algorithm. We establish dynamic upper bounds for the proposed methods and a matching minimax lower bound which shows the (near-) optimality of the proposed methods. To our best knowledge, PROPO is the first provably efficient policy optimization algorithm that handles non-stationarity.
翻訳日:2021-10-19 14:36:00 公開日:2021-10-18
# メタラーニングのためのプロトタイプ指向集合表現の学習

Learning Prototype-oriented Set Representations for Meta-Learning ( http://arxiv.org/abs/2110.09140v1 )

ライセンス: Link先を確認
Dandan Guo, Long Tian, Minghe Zhang, Mingyuan Zhou, Hongyuan Zha(参考訳) 集合構造データからの学習は、集合入力を扱うために一連の要約ネットワークを導入し、近年注目を集めている基本的な問題である。 実際、多くのメタ学習問題はセット入力タスクとして扱うことができる。 既存の要約ネットワークの多くは、置換不変性を強制するために入力セットの異なるアーキテクチャを設計することを目的としている。 しかし、メタ分布における異なる集合が密接に関連し、ある統計的性質を共有する場合において、注意が払われている。 本稿では,各集合をグローバルプロトタイプの集合上の分布として捉え,既存のサマリーネットワークを改善するための新しい最適輸送(ot)方式を提案する。 グローバルプロトタイプ上での分布を学習するために、そのot距離をデータポイント上の経験的分布まで最小化し、サマリーネットワークを改善する自然な教師なしの方法を提供する。 我々のプラグイン・アンド・プレイ・フレームワークは多くのメタ学習問題に適用できるので、少数ショットの分類や暗黙のメタ生成モデリングの事例にも当てはまる。 広範な実験により,既存のサマリネットワークにおいて,集合からより強力なサマリ統計を学習し,メトリクスベースのマイナショット分類および生成モデリングアプリケーションにうまく統合できることが示され,集合入力およびメタラーニング問題に対処する有望なツールが提供された。

Learning from set-structured data is a fundamental problem that has recently attracted increasing attention, where a series of summary networks are introduced to deal with the set input. In fact, many meta-learning problems can be treated as set-input tasks. Most existing summary networks aim to design different architectures for the input set in order to enforce permutation invariance. However, scant attention has been paid to the common cases where different sets in a meta-distribution are closely related and share certain statistical properties. Viewing each set as a distribution over a set of global prototypes, this paper provides a novel optimal transport (OT) based way to improve existing summary networks. To learn the distribution over the global prototypes, we minimize its OT distance to the set empirical distribution over data points, providing a natural unsupervised way to improve the summary network. Since our plug-and-play framework can be applied to many meta-learning problems, we further instantiate it to the cases of few-shot classification and implicit meta generative modeling. Extensive experiments demonstrate that our framework significantly improves the existing summary networks on learning more powerful summary statistics from sets and can be successfully integrated into metric-based few-shot classification and generative modeling applications, providing a promising tool for addressing set-input and meta-learning problems.
翻訳日:2021-10-19 14:35:34 公開日:2021-10-18
# RKHS-SHAP:カーネルメソッドの共有値

RKHS-SHAP: Shapley Values for Kernel Methods ( http://arxiv.org/abs/2110.09167v1 )

ライセンス: Link先を確認
Siu Lun Chau, Javier Gonzalez, Dino Sejdinovic(参考訳) カーネルメソッドの機能帰属はしばしばヒューリスティックであり、予測ごとに個別化されない。 この問題に対処するため、我々は、線形モデル、ツリーアンサンブル、ディープネットワークなど、これまでさまざまな機械学習モデル解釈タスクに適用されてきた連立ゲーム理論フレームワークであるShapley値の概念に目を向ける。 関数的観点からShapley値を分析することにより,カーネル平均分布埋め込みを用いて,\emph{Interventional} と \emph{Observational Shapley値の両方を効率的に計算できるカーネルマシンの属性法である \textsc{RKHS-SHAP} を提案する。 理論的には、この手法は局所摂動に関して頑健であり、解釈可能性に関してしばしば見過ごされるデシデラタムである。 さらに,一般的な経験的リスク最小化フレームワークに適用可能な \emph{shapley regulariser} を提案する。 そこで本研究では,Shapley正規化によって,与えられた特徴の変動に頑健な学習と,感性のある特徴のShapley値を制御する公平な学習を可能にした。

Feature attribution for kernel methods is often heuristic and not individualised for each prediction. To address this, we turn to the concept of Shapley values, a coalition game theoretical framework that has previously been applied to different machine learning model interpretation tasks, such as linear models, tree ensembles and deep networks. By analysing Shapley values from a functional perspective, we propose \textsc{RKHS-SHAP}, an attribution method for kernel machines that can efficiently compute both \emph{Interventional} and \emph{Observational Shapley values} using kernel mean embeddings of distributions. We show theoretically that our method is robust with respect to local perturbations - a key yet often overlooked desideratum for interpretability. Further, we propose \emph{Shapley regulariser}, applicable to a general empirical risk minimisation framework, allowing learning while controlling the level of specific feature's contributions to the model. We demonstrate that the Shapley regulariser enables learning which is robust to covariate shift of a given feature and fair learning which controls the Shapley values of sensitive features.
翻訳日:2021-10-19 14:35:11 公開日:2021-10-18
# 位相正規化データ埋め込み

Topologically Regularized Data Embeddings ( http://arxiv.org/abs/2110.09193v1 )

ライセンス: Link先を確認
Robin Vandaele, Bo Kang, Jefrey Lijffijt, Tijl De Bie, Yvan Saeys(参考訳) 教師なし特徴学習はしばしば、複雑なデータの構造をキャプチャする低次元埋め込みを見つける。 専門的なトポロジカルな知識が利用できるタスクでは、これを学習した表現に組み込むことで、より高い品質の埋め込みにつながる可能性がある。 例えば、与えられた数のクラスタにデータを組み込む場合や、モデル上で直接データ分布を導出することを妨げるノイズに適応する場合には、これがより効果的に学習される場合があります。 しかし、異なる事前位相知識を埋め込みに統合するための一般的なツールが欠如している。 微分可能位相層は,事前定義された位相モデルへの埋め込みを(再)形作ることができるが,表現学習には2つの重要な制限がある。 まず、現在示唆されている位相的損失は、クラスタやフレアのような単純なモデルを自然な方法で表現できない。 第二に、これらの損失は、学習に有用なデータの構造的情報(例えば近隣情報)をすべて無視する。 これらの制約を克服するために、新しいトポロジカルな損失のセットを導入し、トポロジカルにデータ埋め込みを正規化し、自然に指定されたモデルを表現する方法として使用することを提案する。 我々は、高次元単細胞データのモデリングからグラフ埋め込みまで、このアプローチの有用性と汎用性を強調する合成データおよび実データに関する徹底的な実験を含む。

Unsupervised feature learning often finds low-dimensional embeddings that capture the structure of complex data. For tasks for which expert prior topological knowledge is available, incorporating this into the learned representation may lead to higher quality embeddings. For example, this may help one to embed the data into a given number of clusters, or to accommodate for noise that prevents one from deriving the distribution of the data over the model directly, which can then be learned more effectively. However, a general tool for integrating different prior topological knowledge into embeddings is lacking. Although differentiable topology layers have been recently developed that can (re)shape embeddings into prespecified topological models, they have two important limitations for representation learning, which we address in this paper. First, the currently suggested topological losses fail to represent simple models such as clusters and flares in a natural manner. Second, these losses neglect all original structural (such as neighborhood) information in the data that is useful for learning. We overcome these limitations by introducing a new set of topological losses, and proposing their usage as a way for topologically regularizing data embeddings to naturally represent a prespecified model. We include thorough experiments on synthetic and real data that highlight the usefulness and versatility of this approach, with applications ranging from modeling high-dimensional single cell data, to graph embedding.
翻訳日:2021-10-19 14:34:48 公開日:2021-10-18
# 連続最適化によるベイズネットワーク構造学習に向けて

Towards Federated Bayesian Network Structure Learning with Continuous Optimization ( http://arxiv.org/abs/2110.09356v1 )

ライセンス: Link先を確認
Ignavier Ng, Kun Zhang(参考訳) 伝統的に、ベイズネットワーク構造学習は、すべてのデータが収集される中央のサイトで行われることが多い。 しかし実際には、データはベイズネットワークを集合的に学習しようとする異なるパーティ(企業、デバイスなど)に分散されるが、プライバシやセキュリティ上の懸念からデータに関連する情報を開示する意思はない。 本研究では,異なるパーティ間で水平に分割されたデータからベイズネットワークの構造を推定するクロスサイロフェデレーション学習手法を提案する。 最適化過程においてモデルパラメータのみを交換できるように,乗算器(admm)の交互方向法を用いて,連続最適化に基づく分散構造学習手法を開発した。 線形ケースと非線形ケースの両方に適用することで,このアプローチの柔軟性を実証する。 合成データと実データを用いた実験の結果,クライアント数が比較的多く,サンプルサイズが制限された場合には,他の手法よりも性能が向上することが示されている。

Traditionally, Bayesian network structure learning is often carried out at a central site, in which all data is gathered. However, in practice, data may be distributed across different parties (e.g., companies, devices) who intend to collectively learn a Bayesian network, but are not willing to disclose information related to their data owing to privacy or security concerns. In this work, we present a cross-silo federated learning approach to estimate the structure of Bayesian network from data that is horizontally partitioned across different parties. We develop a distributed structure learning method based on continuous optimization, using the alternating direction method of multipliers (ADMM), such that only the model parameters have to be exchanged during the optimization process. We demonstrate the flexibility of our approach by adopting it for both linear and nonlinear cases. Experimental results on synthetic and real datasets show that it achieves an improved performance over the other methods, especially when there is a relatively large number of clients and each has a limited sample size.
翻訳日:2021-10-19 14:34:26 公開日:2021-10-18
# 非パラメトリック混合モデルによるカーネルクラスタリングの回復保証

Recovery Guarantees for Kernel-based Clustering under Non-parametric Mixture Models ( http://arxiv.org/abs/2110.09476v1 )

ライセンス: Link先を確認
Leena Chennuru Vankadara, Sebastian Bordt, Ulrike von Luxburg, Debarghya Ghoshdastidar(参考訳) カーネルベースのクラスタリングはユビキタスだが、データ生成プロセスにおいて強い構造的前提を考える設定以外には、驚くほど少ない統計的な保証が存在する。 本研究では,非パラメトリック混合モデルにおけるカーネルベースのクラスタリングアルゴリズムの統計的性能を調べることにより,このギャップを埋めるための一歩を踏み出す。 これらのアルゴリズムが根底にある真のクラスタリングを継続的に回復できる必要十分かつ十分な分離性条件を提供する。 本分析は,カーネルクラスタリング手法がコンポーネント分布の形式に関する構造的仮定を伴わない保証を提供する。 さらに,カーネルベースのデータクラスタリングとカーネル密度ベースのクラスタリングとの間に重要な等価性を確立する。 これにより、非パラメトリック混合モデルのカーネルベース推定器の整合性を保証することができる。 この接続は理論的な意味合いとともに、クラスタリングの文脈でガウスカーネルの帯域幅を体系的に選択するなど、実用的な意味を持つ可能性がある。

Despite the ubiquity of kernel-based clustering, surprisingly few statistical guarantees exist beyond settings that consider strong structural assumptions on the data generation process. In this work, we take a step towards bridging this gap by studying the statistical performance of kernel-based clustering algorithms under non-parametric mixture models. We provide necessary and sufficient separability conditions under which these algorithms can consistently recover the underlying true clustering. Our analysis provides guarantees for kernel clustering approaches without structural assumptions on the form of the component distributions. Additionally, we establish a key equivalence between kernel-based data-clustering and kernel density-based clustering. This enables us to provide consistency guarantees for kernel-based estimators of non-parametric mixture models. Along with theoretical implications, this connection could have practical implications, including in the systematic choice of the bandwidth of the Gaussian kernel in the context of clustering.
翻訳日:2021-10-19 14:34:10 公開日:2021-10-18
# 証明可能な階層型メタ強化学習

Provable Hierarchy-Based Meta-Reinforcement Learning ( http://arxiv.org/abs/2110.09507v1 )

ライセンス: Link先を確認
Kurtland Chua, Qi Lei, Jason D. Lee(参考訳) 階層的強化学習(HRL)は、複雑なモジュラー動作の抽出可能な学習方法として広く関心を集めている。 しかしながら、既存の作業では、エキスパート構成階層へのアクセスを想定するか、証明可能な保証なしで階層学習ヒューリスティックを使用するかのどちらかである。 このギャップに対処するために、学習者が下流タスクで使用するメタトレーニング中に潜在階層構造を学習するメタRL設定でHRLを解析する。 遷移ダイナミクスに自然な階層構造が埋め込まれた表的な設定を考える。 教師付きメタラーニング理論と同様に、我々は、扱いやすい楽観主義に基づくアルゴリズムとともに、この自然な階層のサンプル効率の回復を保証する「多様性条件」を提供する。 さらに,学習者に対して,回収した階層を用いてメタテストタスクを解くための後悔の限度を与える。 我々の境界は、時間的・状態/行動的抽象化のようなHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。

Hierarchical reinforcement learning (HRL) has seen widespread interest as an approach to tractable learning of complex modular behaviors. However, existing work either assume access to expert-constructed hierarchies, or use hierarchy-learning heuristics with no provable guarantees. To address this gap, we analyze HRL in the meta-RL setting, where a learner learns latent hierarchical structure during meta-training for use in a downstream task. We consider a tabular setting where natural hierarchical structure is embedded in the transition dynamics. Analogous to supervised meta-learning theory, we provide "diversity conditions" which, together with a tractable optimism-based algorithm, guarantee sample-efficient recovery of this natural hierarchy. Furthermore, we provide regret bounds on a learner using the recovered hierarchy to solve a meta-test task. Our bounds incorporate common notions in HRL literature such as temporal and state/action abstractions, suggesting that our setting and analysis capture important features of HRL in practice.
翻訳日:2021-10-19 14:33:57 公開日:2021-10-18
# ノイズラベルによる学習を改善する自己監督機能

Demystifying How Self-Supervised Features Improve Training from Noisy Labels ( http://arxiv.org/abs/2110.09022v1 )

ライセンス: Link先を確認
Hao Cheng, Zhaowei Zhu, Xing Sun, Yang Liu(参考訳) 自己教師付き学習(SSL)の進歩は、研究者がノイズラベルによる学習など他のタスクにSSLを適用する動機となっている。 近年の文献では、ssl機能に基づく手法がノイズラベルを用いた学習性能を著しく向上させることが示唆されている。 それでも、SSL機能がノイズの多いラベルからのトレーニングに(そしてどのように)役立つのかは理解されていない。 本稿では,理論的解析と数値実験の両方を用いてラベルノイズに対する自己教師機能の効果について検討する。 その結果,SSLから事前学習した品質エンコーダでは,クロスエントロピー損失によって訓練された単純な線形層が対称ラベルノイズに対して理論的に堅牢であることがわかった。 さらに、SSL機能から抽出した知識が過度に適合する問題を緩和する方法についての洞察を提供する。 私たちの研究は、自己教師型学習の観点からノイズの多いラベルによる学習をより深く理解し、さらなる研究のガイドラインとして役立つことを願っています。 コードはgithub.com/UCSC-REAL /SelfSup_NoisyLabelで入手できる。

The advancement of self-supervised learning (SSL) motivates researchers to apply SSL on other tasks such as learning with noisy labels. Recent literature indicates that methods built on SSL features can substantially improve the performance of learning with noisy labels. Nonetheless, the deeper reasons why (and how) SSL features benefit the training from noisy labels are less understood. In this paper, we study why and how self-supervised features help networks resist label noise using both theoretical analyses and numerical experiments. Our result shows that, given a quality encoder pre-trained from SSL, a simple linear layer trained by the cross-entropy loss is theoretically robust to symmetric label noise. Further, we provide insights for how knowledge distilled from SSL features can alleviate the over-fitting problem. We hope our work provides a better understanding for learning with noisy labels from the perspective of self-supervised learning and can potentially serve as a guideline for further research. Code is available at github.com/UCSC-REAL /SelfSup_NoisyLabel.
翻訳日:2021-10-19 14:30:51 公開日:2021-10-18
# 摂動オプティマイザを用いた微分レンダリング

Differentiable Rendering with Perturbed Optimizers ( http://arxiv.org/abs/2110.09107v1 )

ライセンス: Link先を確認
Quentin Le Lidec, Ivan Laptev, Cordelia Schmid, Justin Carpentier(参考訳) 2d画像投影から3dシーンを推論することは、コンピュータビジョンの重要な問題の1つだ。 この逆で不適切な問題の解は、通常、観測された画像データを説明するモデルの探索を伴う。 特に、画像は観察されたシーンの性質と画像形成過程の両方に依存する。 したがって、画像の説明に最適化技術を用いる場合、3Dシーンを画像に投影するための微分可能関数を設計することが重要である。 微分可能レンダリングに対する以前のアプローチは、通常、微分不可能操作を滑らかな近似で置き換え、その後の3次元推定に影響を与える。 本稿では,より一般的な手法を採用し,ランダム化最適化のプリズムと摂動最適化の関連する概念を通して微分可能レンダラについて検討する。 特に,よく知られた微分可能レンダラとランダムに平滑化されたオプティマイザとのリンクを強調し,微分可能な摂動レンダラを導入する。 また、摂動オプティマイザに固有の計算負荷を軽減する分散低減機構を提案し、レンダリングプロセスの平滑化パラメータを自動的に調整する適応スキームを導入する。 本手法を3次元シーン再構成に適用し,6次元ポーズ推定と3次元メッシュ再構成の課題にその利点を示す。 強力な監視信号として使用できる情報的勾配を提供することにより、滑らかな勾配近似を用いた最先端の代替品と比較してより正確な解を得るための摂動レンダラーの利点を実証する。

Reasoning about 3D scenes from their 2D image projections is one of the core problems in computer vision. Solutions to this inverse and ill-posed problem typically involve a search for models that best explain observed image data. Notably, images depend both on the properties of observed scenes and on the process of image formation. Hence, if optimization techniques should be used to explain images, it is crucial to design differentiable functions for the projection of 3D scenes into images, also known as differentiable rendering. Previous approaches to differentiable rendering typically replace non-differentiable operations by smooth approximations, impacting the subsequent 3D estimation. In this paper, we take a more general approach and study differentiable renderers through the prism of randomized optimization and the related notion of perturbed optimizers. In particular, our work highlights the link between some well-known differentiable renderer formulations and randomly smoothed optimizers, and introduces differentiable perturbed renderers. We also propose a variance reduction mechanism to alleviate the computational burden inherent to perturbed optimizers and introduce an adaptive scheme to automatically adjust the smoothing parameters of the rendering process. We apply our method to 3D scene reconstruction and demonstrate its advantages on the tasks of 6D pose estimation and 3D mesh reconstruction. By providing informative gradients that can be used as a strong supervisory signal, we demonstrate the benefits of perturbed renderers to obtain more accurate solutions when compared to the state-of-the-art alternatives using smooth gradient approximations.
翻訳日:2021-10-19 14:30:33 公開日:2021-10-18
# 年齢層間での表情認識のためのドメイン一般化

Domain Generalisation for Apparent Emotional Facial Expression Recognition across Age-Groups ( http://arxiv.org/abs/2110.09168v1 )

ライセンス: Link先を確認
Rafael Poyiadzi, Jie Shen, Stavros Petridis, Yujiang Wang, and Maja Pantic(参考訳) 感情的な表情認識は近年,多くの研究が注目されている。 しかし、ほとんどのアプローチは年齢差を無視し、すべての年齢のジェネリックモデルを訓練する。 本研究では,異なる年齢群を用いた表情認識モデルの訓練効果について検討した。 そこで本研究では,異なる年齢層にまたがる顔画像から感情的表情認識の文脈における領域一般化について検討する。 まず、複数のドメイン一般化アルゴリズムをドメイン外一般化に基づいて比較し、クラス条件型ドメイン逆ニューラルネットワーク(cdann)アルゴリズムが最適な性能を有することを観察する。 次に,訓練中に用いた年齢集団の多様さと年齢集団の多様さが年齢集団の一般化に及ぼす影響について検討し,訓練対象年齢集団の増加が年齢集団の表情認識能力を高める傾向にあることを示した。 また,訓練中の年齢集団の排除は,近隣年齢集団のパフォーマンスに影響を及ぼす傾向がみられた。

Apparent emotional facial expression recognition has attracted a lot of research attention recently. However, the majority of approaches ignore age differences and train a generic model for all ages. In this work, we study the effect of using different age-groups for training apparent emotional facial expression recognition models. To this end, we study Domain Generalisation in the context of apparent emotional facial expression recognition from facial imagery across different age groups. We first compare several domain generalisation algorithms on the basis of out-of-domain-genera lisation, and observe that the Class-Conditional Domain-Adversarial Neural Networks (CDANN) algorithm has the best performance. We then study the effect of variety and number of age-groups used during training on generalisation to unseen age-groups and observe that an increase in the number of training age-groups tends to increase the apparent emotional facial expression recognition performance on unseen age-groups. We also show that exclusion of an age-group during training tends to affect more the performance of the neighbouring age groups.
翻訳日:2021-10-19 14:30:08 公開日:2021-10-18
# 異なるサイズの半規則メッシュのためのメッシュ畳み込みオートエンコーダ

Mesh Convolutional Autoencoder for Semi-Regular Meshes of Different Sizes ( http://arxiv.org/abs/2110.09401v1 )

ライセンス: Link先を確認
Sara Hahner and Jochen Garcle(参考訳) 変形する3次元表面メッシュの解析は、低次元埋め込みを用いて基礎となるダイナミクスを可視化するため、オートエンコーダによって加速される。 しかし、最先端のメッシュ畳み込みオートエンコーダは、オートエンコーダが処理するすべての入力メッシュを固定接続する必要がある。 これはスペクトル畳み込み層を使用するか、メッシュ依存プーリング操作を使用するためである。 したがって、学習可能なデータセットの種類は限られており、学習した知識を同様の振る舞いを示す他のデータセットに転送することはできない。 これを解決するために、曲面の離散化を、局所的に正規接続を持ち、メッシュが階層的な半規則メッシュに変換する。 これにより、同じ空間畳み込みフィルタを局所的に適用し、任意の半規則メッシュに適用可能なプーリング演算子を定義することができる。 我々は、同じメッシュオートエンコーダを異なるデータセットに適用し、再構築エラーは、各メッシュに対して個別にトレーニングする必要がある最先端モデルのエラーよりも50%以上低い。 さらに,メッシュの異なるクラスでトレーニングされたオートエンコーダを用いて,未知のメッシュシーケンスの基盤となるダイナミクスを可視化する。

The analysis of deforming 3D surface meshes is accelerated by autoencoders since the low-dimensional embeddings can be used to visualize underlying dynamics. But, state-of-the-art mesh convolutional autoencoders require a fixed connectivity of all input meshes handled by the autoencoder. This is due to either the use of spectral convolutional layers or mesh dependent pooling operations. Therefore, the types of datasets that one can study are limited and the learned knowledge cannot be transferred to other datasets that exhibit similar behavior. To address this, we transform the discretization of the surfaces to semi-regular meshes that have a locally regular connectivity and whose meshing is hierarchical. This allows us to apply the same spatial convolutional filters to the local neighborhoods and to define a pooling operator that can be applied to every semi-regular mesh. We apply the same mesh autoencoder to different datasets and our reconstruction error is more than 50% lower than the error from state-of-the-art models, which have to be trained for every mesh separately. Additionally, we visualize the underlying dynamics of unseen mesh sequences with an autoencoder trained on different classes of meshes.
翻訳日:2021-10-19 14:29:53 公開日:2021-10-18
# (参考訳) スマートホーム環境における音声からの認知状態の測定 [全文訳有]

Measuring Cognitive Status from Speech in a Smart Home Environment ( http://arxiv.org/abs/2110.09421v1 )

ライセンス: CC BY 4.0
Kathleen C. Fraser and Majid Komeili(参考訳) 人口は高齢化しており、テクノロジーに精通している。 国連は、2050年までに世界の6人に1人が65歳以上になると予測している(2019年には11人に1人)。 一方、スマートフォンを持っている65人以上のアメリカ人の比率は2013年から2017年にかけて24ポイント上昇し、大多数は自宅にインターネットを持っている。 スマートデバイスとスマートホームテクノロジーは、人々の年齢、後年独立して生きる能力、そしてケアの輪との相互作用を変革する大きな可能性を秘めている。 認知的健康は、高齢者の自立と幸福の鍵となる要素であり、スマートホームは、継続的な、控えめな方法で認知状態を測定する多くの機会を提供する。 本稿では,認知的健康の計測手段としての音声に着目した。 既存の認知評価手法は、スマートホーム音声認識技術によって対処できるいくつかの制限に悩まされている。 興味のある読者のための有用なオープンソースソフトウェアツールボックスへのポインタを含む、音声からの認知状態測定に関する簡単なチュートリアルから始める。 次に,認知的健康度測定のための能動的および受動的スマートホーム音声センシングに関するパイロット研究から得られた予備的結果の概要を述べるとともに,この領域における次の仕事の波について,技術的および倫理的障壁を克服するための提言と挑戦をまとめる。

The population is aging, and becoming more tech-savvy. The United Nations predicts that by 2050, one in six people in the world will be over age 65 (up from one in 11 in 2019), and this increases to one in four in Europe and Northern America. Meanwhile, the proportion of American adults over 65 who own a smartphone has risen 24 percentage points from 2013-2017, and the majority have Internet in their homes. Smart devices and smart home technology have profound potential to transform how people age, their ability to live independently in later years, and their interactions with their circle of care. Cognitive health is a key component to independence and well-being in old age, and smart homes present many opportunities to measure cognitive status in a continuous, unobtrusive manner. In this article, we focus on speech as a measurement instrument for cognitive health. Existing methods of cognitive assessment suffer from a number of limitations that could be addressed through smart home speech sensing technologies. We begin with a brief tutorial on measuring cognitive status from speech, including some pointers to useful open-source software toolboxes for the interested reader. We then present an overview of the preliminary results from pilot studies on active and passive smart home speech sensing for the measurement of cognitive health, and conclude with some recommendations and challenge statements for the next wave of work in this area, to help overcome both technical and ethical barriers to success.
翻訳日:2021-10-19 14:29:07 公開日:2021-10-18
# ランダムバイナリネットワーク内のすべてを見つける

Finding Everything within Random Binary Networks ( http://arxiv.org/abs/2110.08996v1 )

ライセンス: Link先を確認
Kartik Sreenivasan, Shashank Rajput, Jy-yong Sohn and Dimitris Papailiopoulos(参考訳) ramanujan et al. (2020) による最近の研究は、十分に過小評価されたランダムニューラルネットワークには、いくつかの予測タスクで最先端の精度を達成する訓練されていないサブネットワークが含まれているという重要な実証的証拠を提供している。 理論的な研究の続行は、わずかに過度にパラメータ化されたニューラルネットワークが、一般的に使用される連続的な値のランダム初期化は、実際に任意のターゲットネットワークを近似するために切断できることを証明することによって、これらの発見を正当化する。 本研究では、これらのランダムな重みの振幅が重要でないことを示す。 任意の対象ネットワークは、対象ネットワークより広く深い多対数因子である2元$\{\pm1\}$重みのランダムネットワークを単に刈り取ることによって、任意の精度で近似可能であることが証明される。

A recent work by Ramanujan et al. (2020) provides significant empirical evidence that sufficiently overparameterized, random neural networks contain untrained subnetworks that achieve state-of-the-art accuracy on several predictive tasks. A follow-up line of theoretical work provides justification of these findings by proving that slightly overparameterized neural networks, with commonly used continuous-valued random initializations can indeed be pruned to approximate any target network. In this work, we show that the amplitude of those random weights does not even matter. We prove that any target network can be approximated up to arbitrary accuracy by simply pruning a random network of binary $\{\pm1\}$ weights that is only a polylogarithmic factor wider and deeper than the target network.
翻訳日:2021-10-19 14:14:46 公開日:2021-10-18
# 証拠蓄積クラスタリングを用いた耐雑音アンサンブル学習

Noise-Resilient Ensemble Learning using Evidence Accumulation Clustering ( http://arxiv.org/abs/2110.09212v1 )

ライセンス: Link先を確認
Ga\"elle Candel, David Naccache(参考訳) Ensemble Learningメソッドは同じタスクを実行する複数のアルゴリズムを組み合わせて、優れた品質のグループを構築する。 これらのシステムは、ネットワークの各ピアまたはマシンが1つのアルゴリズムをホストし、その結果をそのピアに伝達する分散セットアップによく適合する。 アンサンブル学習法は,アンサンブルの冗長性により,複数のピアが存在しないことで自然に回復する。 しかし、ネットワークが破損し、ピアの予測精度が変化し、アンサンブル品質に悪影響を及ぼす可能性がある。 本稿では,雑音耐性アンサンブル分類法を提案する。 このアプローチは、アンサンブルの分類に適応したエビデンス蓄積クラスタリングにインスパイアされている。 我々はこれを、4つのマルチクラスデータセット上の単純投票モデルと比較した。 モデルでは高い反発性を示し、非常に高い騒音下で予測を回復することができた。 さらに,本手法はエビデンス蓄積クラスタリングに基づくため,分類器と異なるラベル定義を組み合わせられるため,非常に柔軟な手法である。

Ensemble Learning methods combine multiple algorithms performing the same task to build a group with superior quality. These systems are well adapted to the distributed setup, where each peer or machine of the network hosts one algorithm and communicate its results to its peers. Ensemble learning methods are naturally resilient to the absence of several peers thanks to the ensemble redundancy. However, the network can be corrupted, altering the prediction accuracy of a peer, which has a deleterious effect on the ensemble quality. In this paper, we propose a noise-resilient ensemble classification method, which helps to improve accuracy and correct random errors. The approach is inspired by Evidence Accumulation Clustering , adapted to classification ensembles. We compared it to the naive voter model over four multi-class datasets. Our model showed a greater resilience, allowing us to recover prediction under a very high noise level. In addition as the method is based on the evidence accumulation clustering, our method is highly flexible as it can combines classifiers with different label definitions.
翻訳日:2021-10-19 14:12:45 公開日:2021-10-18
# イントラクションフリーグラフミックスアップ

Intrusion-Free Graph Mixup ( http://arxiv.org/abs/2110.09344v1 )

ライセンス: Link先を確認
Hongyu Guo and Yongyi Mao(参考訳) グラフニューラルネットワーク(GNN)の一般化を改善するために,単純かつ効果的な補間ベース正規化手法を提案する。 視覚とテキストのためのMixup regularizerの最近の進歩を利用して、ランダムなサンプルペアとそのラベルを補間して、トレーニング用の合成サンプルを作成する。 グリッド形式や線形列形式を持つ画像や自然文とは異なり、グラフは任意の構造とトポロジを持ち、グラフの意味情報において重要な役割を果たす。 したがって、グラフから1つのエッジを削除または追加しても、その意味を劇的に変えることができる。 これは、ランダムグラフペアを混合することで、自然に同じ構造であるが異なるラベルを持つグラフを作成でき、多様体の侵入問題を引き起こすため、グラフ入力の補間が非常に難しい。 この障害に対処するために,グラフ上のミックスアップのための最初の入力混合スキーマを提案する。 理論的には、混合戦略が混合グラフからソースグラフを回復できることを証明し、混合グラフが多様体侵入自由であることを保証する。 また,本手法はグラフ分類学習を効果的に規則化し,一般的なグラフ拡張ベースラインよりも優れた予測精度が得られることを示す。

We present a simple and yet effective interpolation-based regularization technique to improve the generalization of Graph Neural Networks (GNNs). We leverage the recent advances in Mixup regularizer for vision and text, where random sample pairs and their labels are interpolated to create synthetic samples for training. Unlike images or natural sentences, which embrace a grid or linear sequence format, graphs have arbitrary structure and topology, which play a vital role on the semantic information of a graph. Consequently, even simply deleting or adding one edge from a graph can dramatically change its semantic meanings. This makes interpolating graph inputs very challenging because mixing random graph pairs may naturally create graphs with identical structure but with different labels, causing the manifold intrusion issue. To cope with this obstacle, we propose the first input mixing schema for Mixup on graph. We theoretically prove that our mixing strategy can recover the source graphs from the mixed graph, and guarantees that the mixed graphs are manifold intrusion free. We also empirically show that our method can effectively regularize the graph classification learning, resulting in superior predictive accuracy over popular graph augmentation baselines.
翻訳日:2021-10-19 14:12:29 公開日:2021-10-18
# ハイパーグラフ世界モデルにおける最適経路を用いたゴール予測計画

Goal Agnostic Planning using Maximum Likelihood Paths in Hypergraph World Models ( http://arxiv.org/abs/2110.09442v1 )

ライセンス: Link先を確認
Christopher Robinson(参考訳) 本稿では,ハイパーグラフに基づく機械学習アルゴリズム,データ構造駆動型メンテナンス手法,およびDijkstraのアルゴリズムの確率的応用に基づく計画アルゴリズムを提案する。 これらを組み合わせて、従来の機械学習と従来の人工知能の両方の利点を組み込んだ、自律学習エージェントのための目標に依存しない自動計画エンジンを形成する。 このアルゴリズムが問題空間内の最適解、数学的に有界な学習性能を判定し、学習曲線、目標達成率、抽象と不確実性に対する応答の明確な予測を時間を通して解析する数学的モデルを提供する。 性能を検証するために,複合階層型ドメインを含む3つの古型計画問題に対してエージェントを適用し,分析で明らかな特性を示す経験的知見を強調する。

In this paper, we present a hypergraph--based machine learning algorithm, a datastructure--drive n maintenance method, and a planning algorithm based on a probabilistic application of Dijkstra's algorithm. Together, these form a goal agnostic automated planning engine for an autonomous learning agent which incorporates beneficial properties of both classical Machine Learning and traditional Artificial Intelligence. We prove that the algorithm determines optimal solutions within the problem space, mathematically bound learning performance, and supply a mathematical model analyzing system state progression through time yielding explicit predictions for learning curves, goal achievement rates, and response to abstractions and uncertainty. To validate performance, we exhibit results from applying the agent to three archetypal planning problems, including composite hierarchical domains, and highlight empirical findings which illustrate properties elucidated in the analysis.
翻訳日:2021-10-19 14:12:09 公開日:2021-10-18
# 一言で言えば、人間はこれに求めた: 時間的仕様に従うための潜在目標

In a Nutshell, the Human Asked for This: Latent Goals for Following Temporal Specifications ( http://arxiv.org/abs/2110.09461v1 )

ライセンス: Link先を確認
Borja G. Le\'on, Murray Shanahan, Francesco Belardinelli(参考訳) 深部強化学習(DRL)を用いて,時間論理(TL)で表されるマルチタスク命令を満足させることを目標とするエージェント構築の問題に対処する。 近年の研究では、深層学習アーキテクチャがDRLエージェントにTLのOODタスクを解くための重要な特徴であることを示す。 しかし、パフォーマンスに関する研究はまだ限られている。 本研究では,tlで表される安全対応タスクを一般化する際に,リレーショナルレイヤやソフトアテンション機構,階層構成などの一般化機構を含む様々な最先端(sota)アーキテクチャを分析する。 最も重要なのは、人間の指示と環境からの現在の観察の両方から、エージェントに現在の目標の潜在表現を誘導する新しいディープラーニングアーキテクチャを提案することである。 提案した構成をSOTAアーキテクチャに適用すると,OOD環境で新しいタスクを実行する際の性能が大幅に向上することがわかった。

We address the problem of building agents whose goal is to satisfy out-of distribution (OOD) multi-task instructions expressed in temporal logic (TL) by using deep reinforcement learning (DRL). Recent works provided evidence that the deep learning architecture is a key feature when teaching a DRL agent to solve OOD tasks in TL. Yet, the studies on their performance are still limited. In this work, we analyse various state-of-the-art (SOTA) architectures that include generalisation mechanisms such as relational layers, the soft-attention mechanism, or hierarchical configurations, when generalising safety-aware tasks expressed in TL. Most importantly, we present a novel deep learning architecture that induces agents to generate latent representations of their current goal given both the human instruction and the current observation from the environment. We find that applying our proposed configuration to SOTA architectures yields significantly stronger performance when executing new tasks in OOD environments.
翻訳日:2021-10-19 14:11:53 公開日:2021-10-18
# (参考訳) sentimentarcs: sotaトランスフォーマーがナラティブアークを見つけるのに苦労する時系列の自己教師付き感情分析法

SentimentArcs: A Novel Method for Self-Supervised Sentiment Analysis of Time Series Shows SOTA Transformers Can Struggle Finding Narrative Arcs ( http://arxiv.org/abs/2110.09454v1 )

ライセンス: CC BY 4.0
Jon Chun(参考訳) SOTA TransformerとDNNの短いテキスト感情分類器はIMDBの映画レビューのような狭い領域で97%の精度を報告している。 従来のモデルがベンチマークを過小評価し、異なるまたはそれ以上のオープンドメインテキストに一般化するため、実世界のパフォーマンスは大幅に低下する。 本稿では、従来の教師付き感情分析の主な2つの制約、限定ラベル付きトレーニングデータセットと低一般化に対処する、新しい自己教師付き時系列感情分析手法であるSentimentArcsを紹介する。 多様なモデルの大規模なアンサンブルは、自己教師付き学習のための合成基底真理を提供する。 新しいメトリクスは、すべての可能なコーパスをまたいで徹底的な検索を共同で最適化する:モデルの組み合わせ。 コーパスとモデルの両方に対する共同最適化は一般化問題を解く。 単純な視覚化は物語の時間構造を利用するので、ドメインの専門家はトレンドを素早く見つけ、重要な特徴を特定し、数百の弧と数百万のデータポイントの異常に注意する。 我々の知る限り、これは時系列感情分析のための初めての自己指導的手法であり、長文物語における実世界のモデルパフォーマンスを直接比較した最大の調査である。

SOTA Transformer and DNN short text sentiment classifiers report over 97% accuracy on narrow domains like IMDB movie reviews. Real-world performance is significantly lower because traditional models overfit benchmarks and generalize poorly to different or more open domain texts. This paper introduces SentimentArcs, a new self-supervised time series sentiment analysis methodology that addresses the two main limitations of traditional supervised sentiment analysis: limited labeled training datasets and poor generalization. A large ensemble of diverse models provides a synthetic ground truth for self-supervised learning. Novel metrics jointly optimize an exhaustive search across every possible corpus:model combination. The joint optimization over both the corpus and model solves the generalization problem. Simple visualizations exploit the temporal structure in narratives so domain experts can quickly spot trends, identify key features, and note anomalies over hundreds of arcs and millions of data points. To our knowledge, this is the first self-supervised method for time series sentiment analysis and the largest survey directly comparing real-world model performance on long-form narratives.
翻訳日:2021-10-19 14:10:31 公開日:2021-10-18
# deep transfer learning & beyond - 情報システム研究におけるトランスフォーマー言語モデル

Deep Transfer Learning & Beyond: Transformer Language Models in Information Systems Research ( http://arxiv.org/abs/2110.08975v1 )

ライセンス: Link先を確認
Ross Gruetzemacher, David Paradice(参考訳) AIはビジネスを変革するための手段として広く考えられているが、この変革のスコープに対する現在の認識はミオピックかもしれない。 トランスフォーマー言語モデル(tlms)を含む自然言語処理の最近の進歩は、ai駆動のビジネスと社会的なトランスフォーメーションの潜在的な道のりを示しており、現在の予測範囲を超えている。 本稿では,この最近の進歩とテキストマイニングを活用した最近の文献について概説し,これらの新しい手法から研究がどのような効果を得られるのかを概説する。 既存のis文献のレビューから,サブオプティカルテキストマイニング技術が普及しており,さらに高度なtlmがテキストデータに関する研究に応用され,新たなis研究トピックが実現され,研究コミュニティにさらなる価値がもたらされることが明らかとなった。 これらの技術は、非常に強力なカスタムシステムの開発を容易にし、その性能が幅広いタスクやアプリケーションのために既存の方法よりも優れているため、これは可能である。 さらに、多言語言語モデルは、複数の言語の研究のために高品質なテキスト分析を可能にする。 また、言語ユーザインタフェースのような、将来の研究にさらに大きな可能性をもたらす、is研究の新たな道筋も特定しています。

AI is widely thought to be poised to transform business, yet current perceptions of the scope of this transformation may be myopic. Recent progress in natural language processing involving transformer language models (TLMs) offers a potential avenue for AI-driven business and societal transformation that is beyond the scope of what most currently foresee. We review this recent progress as well as recent literature utilizing text mining in top IS journals to develop an outline for how future IS research can benefit from these new techniques. Our review of existing IS literature reveals that suboptimal text mining techniques are prevalent and that the more advanced TLMs could be applied to enhance and increase IS research involving text data, and to enable new IS research topics, thus creating more value for the research community. This is possible because these techniques make it easier to develop very powerful custom systems and their performance is superior to existing methods for a wide range of tasks and applications. Further, multilingual language models make possible higher quality text analytics for research in multiple languages. We also identify new avenues for IS research, like language user interfaces, that may offer even greater potential for future IS research.
翻訳日:2021-10-19 14:07:23 公開日:2021-10-18
# hate withmohの廃止:ヒンディー語-英語コード切り換え言語におけるヘイトスピーチ検出

Ceasing hate withMoH: Hate Speech Detection in Hindi-English Code-Switched Language ( http://arxiv.org/abs/2110.09393v1 )

ライセンス: Link先を確認
Arushi Sharma, Anubha Kabra, Minni Jain(参考訳) ソーシャルメディアは、人々が世界中で意見を聞くための基盤になっている。 匿名性機能による自由感の高まりにより、オンラインでの社会的礼儀を無視し、深刻な結果に直面することなく他人を攻撃し、必然的にヘイトスピーチを広めることができる。 オンラインコンテンツをふるいにかけ、憎しみの拡散を相殺する現在の措置は十分ではない。 この要因の1つは、ソーシャルメディアにおける地域言語の普及と、言語フレキシブルなヘイトスピーチ検出器のpaucityである。 本研究はヒンズー語-英語コード切り換え言語におけるヘイトスピーチの分析に焦点を当てている。 本手法は,正確なテキスト表現を捉える変換手法を提案する。 データの構造を包含し、既存のアルゴリズムで使用するために、ヒンディー語で「愛」を意味するMoHまたはMap Only Hindiを開発した。 mohパイプラインは、ローマ語からデヴァナガリ・ヒンディー語への翻訳、ローマ語のヒンディー語の知識ベースから成り立っている。 最後に、微調整されたMultilingual BertとMulil言語モデルを採用している。 我々は,3つのデータセットの定量的実験を行い,精度,リコール,F1測定値を用いて評価を行った。 最初の実験では、MoHは古典的な機械学習モデルを用いてテキストのパフォーマンスをマッピングし、F1スコアの平均13%の増加を示した。 2つ目は、提案された作品のスコアとベースラインモデルのスコアを比較し、パフォーマンスを6%向上させる。 最後に,提案したMoH技術に,既存の翻訳ライブラリを用いて様々なデータシミュレーションを行った。 ここでは、MoHは残りの15%を上回ります。 以上の結果から,3つのデータセットにおける最先端スコアの大幅な改善が示された。

Social media has become a bedrock for people to voice their opinions worldwide. Due to the greater sense of freedom with the anonymity feature, it is possible to disregard social etiquette online and attack others without facing severe consequences, inevitably propagating hate speech. The current measures to sift the online content and offset the hatred spread do not go far enough. One factor contributing to this is the prevalence of regional languages in social media and the paucity of language flexible hate speech detectors. The proposed work focuses on analyzing hate speech in Hindi-English code-switched language. Our method explores transformation techniques to capture precise text representation. To contain the structure of data and yet use it with existing algorithms, we developed MoH or Map Only Hindi, which means "Love" in Hindi. MoH pipeline consists of language identification, Roman to Devanagari Hindi transliteration using a knowledge base of Roman Hindi words. Finally, it employs the fine-tuned Multilingual Bert and MuRIL language models. We conducted several quantitative experiment studies on three datasets and evaluated performance using Precision, Recall, and F1 metrics. The first experiment studies MoH mapped text's performance with classical machine learning models and shows an average increase of 13% in F1 scores. The second compares the proposed work's scores with those of the baseline models and offers a rise in performance by 6%. Finally, the third reaches the proposed MoH technique with various data simulations using the existing transliteration library. Here, MoH outperforms the rest by 15%. Our results demonstrate a significant improvement in the state-of-the-art scores on all three datasets.
翻訳日:2021-10-19 14:07:00 公開日:2021-10-18
# normformer: 余分な正規化によるトランスプレトレーニングの改善

NormFormer: Improved Transformer Pretraining with Extra Normalization ( http://arxiv.org/abs/2110.09456v1 )

ライセンス: Link先を確認
Sam Shleifer, Jason Weston, Myle Ott(参考訳) プリトレーニング中、プレレイヤーノルムトランスフォーマーは勾配等級のミスマッチに苦しめられ、初期層の勾配は後段の層よりもはるかに大きい。 提案するノルムフォーマーアーキテクチャでは,各レイヤに3つの正規化操作を付加する。自己注意後のレイヤノルム,自己注意アウトプットのヘッドワイズスケーリング,第1の完全接続層後のレイヤノルムである。 余分な操作は計算コスト(+0.4%のパラメータ増加)を伴いますが、125万から270億のパラメータを持つ因果的言語モデルとマスク付き言語モデルの両方において、事前トレーニングのパープレキシティとダウンストリームタスクパフォーマンスを改善します。 例えば、最強の1.3Bパラメーターベースラインの上にNormFormerを追加すると、同じ計算予算で同等のパープレキシティが24%速くなり、0.27パープレキシティがより良く収束する。 このモデルはGPT3-Large (1.3B)ゼロショット性能を60%高速化した。 マスク付き言語モデリングでは、normformerは平均で1.9%改善されている。 normformerモデルのトレーニングコードはfairseq https://github.com/p ytorch/fairseq/tree/ main/examples/normfo rmerで利用可能である。

During pretraining, the Pre-LayerNorm transformer suffers from a gradient magnitude mismatch: gradients at early layers are much larger than at later layers. These issues can be alleviated by our proposed NormFormer architecture, which adds three normalization operations to each layer: a Layer Norm after self attention, head-wise scaling of self-attention outputs, and a Layer Norm after the first fully connected layer. The extra operations incur negligible compute cost (+0.4% parameter increase), but improve pretraining perplexity and downstream task performance for both causal and masked language models ranging from 125 Million to 2.7 Billion parameters. For example, adding NormFormer on top of our strongest 1.3B parameter baseline can reach equal perplexity 24% faster, or converge 0.27 perplexity better in the same compute budget. This model reaches GPT3-Large (1.3B) zero shot performance 60% faster. For masked language modeling, NormFormer improves fine-tuned GLUE performance by 1.9% on average. Code to train NormFormer models is available in fairseq https://github.com/p ytorch/fairseq/tree/ main/examples/normfo rmer .
翻訳日:2021-10-19 14:06:33 公開日:2021-10-18
# 変圧器に基づくコード混合テキストにおける文脈ヘイト音声検出

Contextual Hate Speech Detection in Code Mixed Text using Transformer Based Approaches ( http://arxiv.org/abs/2110.09338v1 )

ライセンス: Link先を確認
Ravindra Nayak and Raviraj Joshi(参考訳) 過去、ソーシャルメディアプラットフォームは、人々がより広いオーディエンスとつながり、コミュニケーションするのを助けてきた。 しかし、これはまた、サイバーいじめの劇的な増加につながった。 ソーシャルメディアプラットフォームの健全性を維持するためにはヘイトスピーチの検出と抑制が不可欠である。 また、これらのプラットフォームでは複数の言語を含むコード混合テキストが頻繁に使用される。 そこで本稿では,廃Twitterのコード混在テキストにおけるヘイトスピーチ検出の自動化手法を提案する。 具体的には、英語とヒンディー語の混成テキストとトランスフォーマーベースのアプローチに焦点を当てる。 通常のアプローチでは、テキストを個別に分析するが、親ツイートの形でコンテンツテキストも活用する。 我々は,多言語BERTとIndic-BERTの性能を,シングルエンコーダとデュアルエンコーダ設定で評価する。 最初のアプローチは、セパレータトークンを使用してターゲットテキストとコンテキストテキストを結合し、BERTモデルから単一の表現を取得することである。 2つ目のアプローチは、2つのテキストを独立に双対 bert エンコーダを使ってエンコードし、対応する表現を平均化する。 独立表現を用いたデュアルエンコーダ方式により性能が向上することを示す。 また、簡単なアンサンブル法を用いてパフォーマンスをさらに向上する。 これらの手法を用いて,HASOC 2021 ICHCL符号混成データセットにおいて,最高のF1スコアの73.07%を達成できた。

In the recent past, social media platforms have helped people in connecting and communicating to a wider audience. But this has also led to a drastic increase in cyberbullying. It is essential to detect and curb hate speech to keep the sanity of social media platforms. Also, code mixed text containing more than one language is frequently used on these platforms. We, therefore, propose automated techniques for hate speech detection in code mixed text from scraped Twitter. We specifically focus on code mixed English-Hindi text and transformer-based approaches. While regular approaches analyze the text independently, we also make use of content text in the form of parent tweets. We try to evaluate the performances of multilingual BERT and Indic-BERT in single-encoder and dual-encoder settings. The first approach is to concatenate the target text and context text using a separator token and get a single representation from the BERT model. The second approach encodes the two texts independently using a dual BERT encoder and the corresponding representations are averaged. We show that the dual-encoder approach using independent representations yields better performance. We also employ simple ensemble methods to further improve the performance. Using these methods we were able to achieve the best F1 score of 73.07% on the HASOC 2021 ICHCL code mixed data set.
翻訳日:2021-10-19 13:59:46 公開日:2021-10-18
# StyleNeRF:高解像度画像合成のためのスタイルベース3Dアウェアジェネレータ

StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis ( http://arxiv.org/abs/2110.08985v1 )

ライセンス: Link先を確認
Jiatao Gu, Lingjie Liu, Peng Wang and Christian Theobalt(参考訳) 本研究では,非構造化2次元画像で訓練可能な高画質画像合成のための3次元認識生成モデルであるstylenerfを提案する。 既存のアプローチでは、細部で高精細な画像を合成できないか、3D非一貫性のアーティファクトを生成できない。 さらに、スタイル属性や明示的な3Dカメラのポーズをコントロールできないものも多い。 StyleNeRFは、前述の課題、すなわち高解像度画像生成のためのレンダリング効率の改善と3D整合性に取り組むために、ニューラルネットワーク(NeRF)をスタイルベースのジェネレータに統合する。 ボリュームレンダリングを行い、低解像度の特徴マップを作成し、2次元のアップサンプリングを段階的に適用し、最初の問題に対処する。 2次元アップサンプリングによる不整合を軽減するため,より優れたアップサンプリングと新たな正規化損失を含む複数の設計を提案する。 これらの設計により、StyleNeRFは高解像度画像をインタラクティブレートで合成でき、高品質な3D一貫性を保っている。 StyleNeRFはまた、カメラのポーズと異なるレベルのスタイルのコントロールを可能にし、見えないビューに一般化することができる。 ズームイン・アンド・アウト、スタイルミキシング、インバージョン、セマンティック編集など、困難なタスクもサポートする。

We propose StyleNeRF, a 3D-aware generative model for photo-realistic high-resolution image synthesis with high multi-view consistency, which can be trained on unstructured 2D images. Existing approaches either cannot synthesize high-resolution images with fine details or yield noticeable 3D-inconsistent artifacts. In addition, many of them lack control over style attributes and explicit 3D camera poses. StyleNeRF integrates the neural radiance field (NeRF) into a style-based generator to tackle the aforementioned challenges, i.e., improving rendering efficiency and 3D consistency for high-resolution image generation. We perform volume rendering only to produce a low-resolution feature map and progressively apply upsampling in 2D to address the first issue. To mitigate the inconsistencies caused by 2D upsampling, we propose multiple designs, including a better upsampler and a new regularization loss. With these designs, StyleNeRF can synthesize high-resolution images at interactive rates while preserving 3D consistency at high quality. StyleNeRF also enables control of camera poses and different levels of styles, which can generalize to unseen views. It also supports challenging tasks, including zoom-in and-out, style mixing, inversion, and semantic editing.
翻訳日:2021-10-19 13:59:28 公開日:2021-10-18
# 小学校理科の質問に対する回答のランク付け

Ranking Facts for Explaining Answers to Elementary Science Questions ( http://arxiv.org/abs/2110.09036v1 )

ライセンス: Link先を確認
Jennifer D'Souza and Isaiah Onando Mulang' and Soeren Auer(参考訳) 複数選択試験では、学生は通常4つの選択の中から1つの答えを選択し、なぜその選択をしたのかを説明することができる。 学生は自然言語の質問を理解するのが得意で、ドメインの知識に基づいて、様々な関連する事実にまたがって「点をつなげる」ことで簡単に質問の答えを推測することができる。 小学校理科の質問応答における自動推論を考慮し,人間公認事実から解答の説明を生成する新しい課題に対処する。 そこで本研究では,ドメインをターゲットとした手作り機能を活用した機能豊富なサポートベクトルマシンの実用的拡張性について検討する。 説明は、WorldTree corpus内の5000近い候補事実の人間による注釈付きセットから作成されます。 本研究の目的は, 事実候補に対する質問の正解に対する説明の有効事実について, より優れたマッチングを得ることである。 この目的のために、我々の機能は包括的言語的・意味的統一パラダイムを提供する。 機械学習の問題は事実の優先順序であり、ポイントワイド回帰とペアワイド学習を比較検討する。 本研究は,(1)2つの選好順序付け手法を体系的に比較するケーススタディ,(2)BERTに基づくリグレードモデルの変種を克服する実用的なアプローチ,(3)人間工学的特徴により,タスクの解釈可能な機械学習モデルとなっている。

In multiple-choice exams, students select one answer from among typically four choices and can explain why they made that particular choice. Students are good at understanding natural language questions and based on their domain knowledge can easily infer the question's answer by 'connecting the dots' across various pertinent facts. Considering automated reasoning for elementary science question answering, we address the novel task of generating explanations for answers from human-authored facts. For this, we examine the practically scalable framework of feature-rich support vector machines leveraging domain-targeted, hand-crafted features. Explanations are created from a human-annotated set of nearly 5,000 candidate facts in the WorldTree corpus. Our aim is to obtain better matches for valid facts of an explanation for the correct answer of a question over the available fact candidates. To this end, our features offer a comprehensive linguistic and semantic unification paradigm. The machine learning problem is the preference ordering of facts, for which we test pointwise regression versus pairwise learning-to-rank. Our contributions are: (1) a case study in which two preference ordering approaches are systematically compared; (2) it is a practically competent approach that can outperform some variants of BERT-based reranking models; and (3) the human-engineered features make it an interpretable machine learning model for the task.
翻訳日:2021-10-19 13:59:08 公開日:2021-10-18
# (参考訳) グラフ上のベルトラミ流と神経拡散 [全文訳有]

Beltrami Flow and Neural Diffusion on Graphs ( http://arxiv.org/abs/2110.09443v1 )

ライセンス: CC BY 4.0
Benjamin Paul Chamberlain, James Rowbottom, Davide Eynard, Francesco Di Giovanni, Xiaowen Dong, Michael M Bronstein(参考訳) 我々は,非ユークリッド拡散PDEである離散ベルトラミ流に基づく新しいグラフニューラルネットワークのクラスを提案する。 本モデルでは,ノードの特徴をグラフトポロジから導出した位置エンコーディングを補足し,ベルトラミ流によって共同で進化させ,連続的な特徴学習とトポロジの進化をもたらす。 得られたモデルは、多くの人気のあるグラフニューラルネットワークを一般化し、いくつかのベンチマークで最先端の結果を得る。

We propose a novel class of graph neural networks based on the discretised Beltrami flow, a non-Euclidean diffusion PDE. In our model, node features are supplemented with positional encodings derived from the graph topology and jointly evolved by the Beltrami flow, producing simultaneously continuous feature learning and topology evolution. The resulting model generalises many popular graph neural networks and achieves state-of-the-art results on several benchmarks.
翻訳日:2021-10-19 13:56:46 公開日:2021-10-18
# 世界モデルによる目標の発見と達成

Discovering and Achieving Goals via World Models ( http://arxiv.org/abs/2110.09514v1 )

ライセンス: Link先を確認
Russell Mendonca, Oleh Rybkin, Kostas Daniilidis, Danijar Hafner, Deepak Pathak(参考訳) 人工エージェントは、何の監督もなく複雑な視覚環境において、様々なタスクをいかにして解決するか? 我々はこの問題を,新たな目標の発見と,それらを確実に達成するための学習という2つの問題に分解する。 我々は、画像入力から世界モデルを学習し、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する、これらに対する統一的なソリューションであるLatent Explorer Achiever(LEXA)を紹介する。 以前に訪れた州に到達して探索する以前の方法とは異なり、探検家は予見によって目に見えない驚くべき州を発見することを計画している。 教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。 LEXAは、以前のベンチマークと4つの標準的なロボット操作とロコモーションドメインにまたがる合計40のテストタスクを備えた新しい挑戦的なベンチマークの両方において、教師なしの目標達成に対する従来のアプローチを大幅に上回っている。 LEXAはさらに、シーケンス内の複数のオブジェクトとの相互作用を必要とする目標を達成する。 最後に、LEXAのスケーラビリティと汎用性を示すために、4つの異なる環境にまたがる1つの汎用エージェントを訓練する。 コードとビデオ: https://orybkin.gith ub.io/lexa/

How can artificial agents learn to solve many diverse tasks in complex visual environments in the absence of any supervision? We decompose this question into two problems: discovering new goals and learning to reliably achieve them. We introduce Latent Explorer Achiever (LEXA), a unified solution to these that learns a world model from image inputs and uses it to train an explorer and an achiever policy from imagined rollouts. Unlike prior methods that explore by reaching previously visited states, the explorer plans to discover unseen surprising states through foresight, which are then used as diverse targets for the achiever to practice. After the unsupervised phase, LEXA solves tasks specified as goal images zero-shot without any additional learning. LEXA substantially outperforms previous approaches to unsupervised goal-reaching, both on prior benchmarks and on a new challenging benchmark with a total of 40 test tasks spanning across four standard robotic manipulation and locomotion domains. LEXA further achieves goals that require interacting with multiple objects in sequence. Finally, to demonstrate the scalability and generality of LEXA, we train a single general agent across four distinct environments. Code and videos at https://orybkin.gith ub.io/lexa/
翻訳日:2021-10-19 13:31:14 公開日:2021-10-18
# 私の顔で私を判断しない : 非同期求人ビデオインタビューにおけるマルチモーダルニューラル表現からの感性情報除去のための間接的敵対的アプローチ

Don't Judge Me by My Face : An Indirect Adversarial Approach to Remove Sensitive Information From Multimodal Neural Representation in Asynchronous Job Video Interviews ( http://arxiv.org/abs/2110.09424v1 )

ライセンス: Link先を確認
L\'eo Hemamou, Arthur Guillon, Jean-Claude Martin and Chlo\'e Clavel(参考訳) se of machine learning for automatic analysis of job interview videoは最近、関心が高まっている。 候補者の性別や民族性などのセンシティブな情報に関する公正なアウトプットの主張にもかかわらず、現在のアプローチでは、偏見のない意思決定の証拠となることはめったにない。 近年,ニューラルネットワークの潜在表現からセンシティブな情報を効果的に除去する方法が実証されている。 しかし、これらの方法は明確にラベル付けされた保護された変数(例えば、性別)の使用に依存しており、一部の国(例えばフランス)でのリクルートの文脈では収集できない。 本稿では,ニューラルネットワークの潜伏表現からセンシティブな情報を取り除き,センシティブな変数を収集する必要がない新しい敵対的手法を提案する。 インタビューのほんの数フレームだけを使用して、モデルの内層における求人面接に関連する候補者の顔を見つけることができないようにモデルを訓練する。 これにより、これらのレイヤから関連するプライベートな情報を削除できます。 公開データセットの標準ベースラインに対する我々のアプローチと、性別や民族のアノテーションを比較し、本ネットワークからセンシティブな情報を効果的に除去することを示した。 さらに,本手法は,ビデオジョブ面接の文脈において,マルチモーダルフェア表現を得るための敵手法を初めて応用した手法である。 要旨は,求職者の対等性を考慮した面接ビデオの自動処理方式の公平性の向上をめざしたものである。

se of machine learning for automatic analysis of job interview videos has recently seen increased interest. Despite claims of fair output regarding sensitive information such as gender or ethnicity of the candidates, the current approaches rarely provide proof of unbiased decision-making, or that sensitive information is not used. Recently, adversarial methods have been proved to effectively remove sensitive information from the latent representation of neural networks. However, these methods rely on the use of explicitly labeled protected variables (e.g. gender), which cannot be collected in the context of recruiting in some countries (e.g. France). In this article, we propose a new adversarial approach to remove sensitive information from the latent representation of neural networks without the need to collect any sensitive variable. Using only a few frames of the interview, we train our model to not be able to find the face of the candidate related to the job interview in the inner layers of the model. This, in turn, allows us to remove relevant private information from these layers. Comparing our approach to a standard baseline on a public dataset with gender and ethnicity annotations, we show that it effectively removes sensitive information from the main network. Moreover, to the best of our knowledge, this is the first application of adversarial techniques for obtaining a multimodal fair representation in the context of video job interviews. In summary, our contributions aim at improving fairness of the upcoming automatic systems processing videos of job interviews for equality in job selection.
翻訳日:2021-10-19 13:28:08 公開日:2021-10-18
# アクティブ機械学習による品質保証--自動車産業におけるバーチャルカーレンダリングを事例として

Utilizing Active Machine Learning for Quality Assurance: A Case Study of Virtual Car Renderings in the Automotive Industry ( http://arxiv.org/abs/2110.09023v1 )

ライセンス: Link先を確認
Patrick Hemmer, Niklas K\"uhl, Jakob Sch\"offer(参考訳) 自動車モデルのコンピュータ生成画像は、自動車メーカーの広告コンセプトに欠かせない部分となっている。 例えば、自動車設定装置で使用されており、顧客は自分の好みに応じてオンラインで車を設定することができる。 しかし、車種が複雑化しているため、人間主導の品質保証は大量視覚検査に追随する課題に直面している。 多くの視覚検査タスクへの機械学習の適用は大きな成功を収めているが、大規模なラベル付きデータセットの必要性は、実際にこのようなシステムを使用する上での中心的な障壁である。 本稿では,性能を損なうことなく仮想車レンダリングの欠陥を特定するためにラベル付きインスタンスを著しく少なくする,アクティブな機械学習ベースの品質保証システムを提案する。 このシステムをドイツの自動車メーカーに導入することにより、起動困難を克服し、検査工程の効率を向上し、経済的優位性を実現することができる。

Computer-generated imagery of car models has become an indispensable part of car manufacturers' advertisement concepts. They are for instance used in car configurators to offer customers the possibility to configure their car online according to their personal preferences. However, human-led quality assurance faces the challenge to keep up with high-volume visual inspections due to the car models' increasing complexity. Even though the application of machine learning to many visual inspection tasks has demonstrated great success, its need for large labeled data sets remains a central barrier to using such systems in practice. In this paper, we propose an active machine learning-based quality assurance system that requires significantly fewer labeled instances to identify defective virtual car renderings without compromising performance. By employing our system at a German automotive manufacturer, start-up difficulties can be overcome, the inspection process efficiency can be increased, and thus economic advantages can be realized.
翻訳日:2021-10-19 13:26:15 公開日:2021-10-18
# ニューロシンボリックフォワード推論

Neuro-Symbolic Forward Reasoning ( http://arxiv.org/abs/2110.09383v1 )

ライセンス: Link先を確認
Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting(参考訳) 推論は人間の知能の重要な部分であり、人工知能研究において長年の目標であった。 近年のディープラーニングの成功により、深層学習システムによる推論、すなわちニューロシンボリックAIが主要な関心分野となっている。 本稿では,一階述語論理を用いた可変フォワードチェインを用いたタスク推論手法であるNuro-Symbolic Forward Reasoner (NSFR)を提案する。 重要なのは、微分可能な前方連鎖推論とオブジェクト中心(深層)学習を組み合わせることだ。 微分可能前方連鎖推論は論理的含意をスムーズに計算し、すなわち与えられた事実や規則から微分可能な方法で新しい事実を推論する。 オブジェクト中心学習アプローチは、オブジェクトの観点から生の入力を表現に分解する。 これにより、生入力から前方連鎖推論を実行するための一貫したフレームワークを提供することができます。 NSFRは生の入力を対象中心の表現に分解し、確率的基底原子に変換し、最終的に重み付けされた推論規則を用いて微分可能な前方鎖推論を行う。 我々は,オブジェクト中心推論データセット,2次元カンディンスキーパターン,および3次元clevr-hansに関する包括的評価を行い,提案手法の有効性と利点を示した。

Reasoning is an essential part of human intelligence and thus has been a long-standing goal in artificial intelligence research. With the recent success of deep learning, incorporating reasoning with deep learning systems, i.e., neuro-symbolic AI has become a major field of interest. We propose the Neuro-Symbolic Forward Reasoner (NSFR), a new approach for reasoning tasks taking advantage of differentiable forward-chaining using first-order logic. The key idea is to combine differentiable forward-chaining reasoning with object-centric (deep) learning. Differentiable forward-chaining reasoning computes logical entailments smoothly, i.e., it deduces new facts from given facts and rules in a differentiable manner. The object-centric learning approach factorizes raw inputs into representations in terms of objects. Thus, it allows us to provide a consistent framework to perform the forward-chaining inference from raw inputs. NSFR factorizes the raw inputs into the object-centric representations, converts them into probabilistic ground atoms, and finally performs differentiable forward-chaining inference using weighted rules for inference. Our comprehensive experimental evaluations on object-centric reasoning data sets, 2D Kandinsky patterns and 3D CLEVR-Hans, and a variety of tasks show the effectiveness and advantage of our approach.
翻訳日:2021-10-19 13:26:01 公開日:2021-10-18
# TLDR:次元化のための双対学習

TLDR: Twin Learning for Dimensionality Reduction ( http://arxiv.org/abs/2110.09455v1 )

ライセンス: Link先を確認
Yannis Kalantidis, Carlos Lassance, Jon Almazan, Diane Larlus(参考訳) 次元性還元法は、初期空間のいくつかの性質、通常「近傍」の概念が保存されている低次元空間を学習する教師なしのアプローチである。 それらは、視覚化、圧縮、インデックス化、検索など、さまざまなタスクの重要なコンポーネントである。 全く異なる目的のために、自己教師付き視覚表現学習は、手作り画像変換のセットなど、人工的に生成された歪みに不変性をエンコードするモデルを学習することによって、伝達可能な表現関数を生成することが示されている。 大規模なk-NNグラフや複雑な最適化ソルバ上での伝搬を必要とする多様体学習法とは異なり、自己教師型学習アプローチはよりシンプルでスケーラブルな学習フレームワークに依存している。 本稿では,この2つのアプローチを,多様体学習の角度から統一し,バーロウ双生児の単純自己教師付き学習フレームワークを手による歪みの適切なセットを定義するのが困難か不可能かの条件に移植する汎用入力空間の次元性低減法tldrを提案する。 学習セットからペアを構築するために最寄りの近傍を用いて,自己教師付き文献から借用した冗長性低減損失を用いて,ペア間で不変な表現を生成するエンコーダを学習する。 TLDRは、簡単に実装し、訓練し、幅広い適用性を持つ方法であり、高度に近似できるオフライン近傍の計算ステップと、対比、固有分解、および煩雑な最適化解決のために負のサンプルをマイニングする必要のない簡単な学習プロセスから構成される。 128次元のPCAをTLDRに置き換えることで、GeM-APの性能を4%向上させ、その性能を16倍の次元で維持することができる。

Dimensionality reduction methods are unsupervised approaches which learn low-dimensional spaces where some properties of the initial space, typically the notion of "neighborhood", are preserved. They are a crucial component of diverse tasks like visualization, compression, indexing, and retrieval. Aiming for a totally different goal, self-supervised visual representation learning has been shown to produce transferable representation functions by learning models that encode invariance to artificially created distortions, e.g. a set of hand-crafted image transformations. Unlike manifold learning methods that usually require propagation on large k-NN graphs or complicated optimization solvers, self-supervised learning approaches rely on simpler and more scalable frameworks for learning. In this paper, we unify these two families of approaches from the angle of manifold learning and propose TLDR, a dimensionality reduction method for generic input spaces that is porting the simple self-supervised learning framework of Barlow Twins to a setting where it is hard or impossible to define an appropriate set of distortions by hand. We propose to use nearest neighbors to build pairs from a training set and a redundancy reduction loss borrowed from the self-supervised literature to learn an encoder that produces representations invariant across such pairs. TLDR is a method that is simple, easy to implement and train, and of broad applicability; it consists of an offline nearest neighbor computation step that can be highly approximated, and a straightforward learning process that does not require mining negative samples to contrast, eigendecompositions, or cumbersome optimization solvers. By replacing PCA with TLDR, we are able to increase the performance of GeM-AP by 4% mAP for 128 dimensions, and to retain its performance with 16x fewer dimensions.
翻訳日:2021-10-19 13:25:00 公開日:2021-10-18
# 最適等式分類器の学習

Learning Optimal Conformal Classifiers ( http://arxiv.org/abs/2110.09192v1 )

ライセンス: Link先を確認
David Stutz, Krishnamurthy (Dj) Dvijotham, Ali Taylan Cemgil, Arnaud Doucet(参考訳) 現代のディープラーニングベースの分類器は、テストデータに対して非常に高い精度を示すが、特に医療診断などの高度なAIアプリケーションにおいて、安全なデプロイメントを保証するには不十分である。 通常、予測は信頼できる不確実性推定や正式な保証なしで得られる。 整形予測(CP)は、分類器の確率推定を用いて、真のクラスを含む信頼度をユーザ特定確率で予測する。 しかし、訓練後の別の処理ステップとしてCPを使用すると、基礎となるモデルが信頼セットの予測に適応しない。 そこで本稿では,コンフォーマルラッパーを用いたトレーニングモデルを用いて,トレーニング中のcpを識別する手法について検討する。 コンフォメーショントレーニング (ConfTr) では, トレーニング中のミニバッチ上でのコンフォメーションの「シミュレート」を行う。 平均信頼度セットサイズ(非効率性)を小さくすることで,最新のCP手法よりも高い精度で分類できることを示す。 さらに、テスト時に予測される信頼セットを"形作る"ことが可能であり、標準CPでは難しい。 いくつかのデータセットを用いた実験では、ConfTrはクラス間で非効率性がどのように分散されているかに影響を与え、CPの保証を維持しながら、含んでいるクラスの観点から信頼度セットの構成を導くことができる。

Modern deep learning based classifiers show very high accuracy on test data but this does not provide sufficient guarantees for safe deployment, especially in high-stake AI applications such as medical diagnosis. Usually, predictions are obtained without a reliable uncertainty estimate or a formal guarantee. Conformal prediction (CP) addresses these issues by using the classifier's probability estimates to predict confidence sets containing the true class with a user-specified probability. However, using CP as a separate processing step after training prevents the underlying model from adapting to the prediction of confidence sets. Thus, this paper explores strategies to differentiate through CP during training with the goal of training model with the conformal wrapper end-to-end. In our approach, conformal training (ConfTr), we specifically "simulate" conformalization on mini-batches during training. We show that CT outperforms state-of-the-art CP methods for classification by reducing the average confidence set size (inefficiency). Moreover, it allows to "shape" the confidence sets predicted at test time, which is difficult for standard CP. On experiments with several datasets, we show ConfTr can influence how inefficiency is distributed across classes, or guide the composition of confidence sets in terms of the included classes, while retaining the guarantees offered by CP.
翻訳日:2021-10-19 13:23:48 公開日:2021-10-18
# 自己監督型表現学習 : 導入,進歩,課題

Self-Supervised Representation Learning: Introduction, Advances and Challenges ( http://arxiv.org/abs/2110.09327v1 )

ライセンス: Link先を確認
Linus Ericsson, Henry Gouk, Chen Change Loy, and Timothy M. Hospedales(参考訳) 自己教師付き表現学習手法は,大規模な注釈付きデータセットを必要とせず,強力な機能学習を提供することを目的としている。 これらの手法は近年急速に進歩し、画像、ビデオ、音声、テキスト、グラフなど、さまざまなデータモダリティにわたって、完全に教師付き事前学習の選択肢を上回っている。 本稿では、この活気ある領域について、鍵となる概念、アプローチの4つの主要なファミリーと関連する技術の状態、そして、データの多様性に自己監督手法を適用する方法について紹介する。 さらに,ワークフローや表現転送性,計算コストといった実用的考察についても論じる。 最後に, 将来の作業に豊かな基盤を提供する分野における, オープンな課題について調査する。

Self-supervised representation learning methods aim to provide powerful deep feature learning without the requirement of large annotated datasets, thus alleviating the annotation bottleneck that is one of the main barriers to practical deployment of deep learning today. These methods have advanced rapidly in recent years, with their efficacy approaching and sometimes surpassing fully supervised pre-training alternatives across a variety of data modalities including image, video, sound, text and graphs. This article introduces this vibrant area including key concepts, the four main families of approach and associated state of the art, and how self-supervised methods are applied to diverse modalities of data. We further discuss practical considerations including workflows, representation transferability, and compute cost. Finally, we survey the major open challenges in the field that provide fertile ground for future work.
翻訳日:2021-10-19 13:23:27 公開日:2021-10-18
# 生成データによるロバスト性の向上

Improving Robustness using Generated Data ( http://arxiv.org/abs/2110.09468v1 )

ライセンス: Link先を確認
Sven Gowal, Sylvestre-Alvise Rebuffi, Olivia Wiles, Florian Stimberg, Dan Andrei Calian, Timothy Mann(参考訳) 最近の研究は、堅牢なトレーニングは標準分類に必要なデータセットよりもはるかに大きなデータセットを必要とすると主張している。 CIFAR-10とCIFAR-100では、オリジナルのトレーニングセットのデータのみに基づいてトレーニングされたモデルと、"80 Million Tiny Images"データセット(TI-80M)から抽出された追加データでトレーニングされたモデルの間に、大きな堅牢な精度のギャップが生じる。 本稿では,オリジナルトレーニングセットのみにトレーニングされた生成モデルを用いて,オリジナルトレーニングセットのサイズを人工的に向上し,対向ロバスト性を向上させる方法について検討する。 生成したデータを追加することでロバスト性を向上できる十分な条件を特定し、実データを追加するモデルに対するロバスト-精度ギャップを著しく低減できることを示す。 驚くべきことに、非現実的ランダムデータ(ガウスサンプリングによって生成される)を付加してもロバスト性は向上する。 我々は, CIFAR-10, CIFAR-100, SVHN, TinyImageNetにおける, $\ell_\infty$ と $\ell_2$ の標準有界摂動に対して, $\epsilon = 8/255$ と $\epsilon = 128/255$ をそれぞれ評価した。 従来の最先端手法に比べてロバスト精度が大幅に向上した。 標準値$\ell_\infty$ $\epsilon = 8/255$に対して、我々のモデルはCIFAR-10とCIFAR-100でそれぞれ66.10%と33.49%の堅牢な精度を達成する(+8.96%、+3.29%)。 CIFAR-10(+3.81%)では、$\ell_2$ 標準束縛されたサイズ $\epsilon = 128/255$に対して、我々のモデルは78.31%に達する。 これらの結果は、外部データを使用する以前の作業の多くを上回ります。

Recent work argues that robust training requires substantially larger datasets than those required for standard classification. On CIFAR-10 and CIFAR-100, this translates into a sizable robust-accuracy gap between models trained solely on data from the original training set and those trained with additional data extracted from the "80 Million Tiny Images" dataset (TI-80M). In this paper, we explore how generative models trained solely on the original training set can be leveraged to artificially increase the size of the original training set and improve adversarial robustness to $\ell_p$ norm-bounded perturbations. We identify the sufficient conditions under which incorporating additional generated data can improve robustness, and demonstrate that it is possible to significantly reduce the robust-accuracy gap to models trained with additional real data. Surprisingly, we even show that even the addition of non-realistic random data (generated by Gaussian sampling) can improve robustness. We evaluate our approach on CIFAR-10, CIFAR-100, SVHN and TinyImageNet against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $\epsilon = 8/255$ and $\epsilon = 128/255$, respectively. We show large absolute improvements in robust accuracy compared to previous state-of-the-art methods. Against $\ell_\infty$ norm-bounded perturbations of size $\epsilon = 8/255$, our models achieve 66.10% and 33.49% robust accuracy on CIFAR-10 and CIFAR-100, respectively (improving upon the state-of-the-art by +8.96% and +3.29%). Against $\ell_2$ norm-bounded perturbations of size $\epsilon = 128/255$, our model achieves 78.31% on CIFAR-10 (+3.81%). These results beat most prior works that use external data.
翻訳日:2021-10-19 13:23:12 公開日:2021-10-18
# (参考訳) P-Tuning v2: Prompt Tuningは、スケールやタスク全体にわたって微調整できる [全文訳有]

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks ( http://arxiv.org/abs/2110.07602v2 )

ライセンス: CC BY 4.0
Xiao Liu, Kaixuan Ji, Yicheng Fu, Zhengxiao Du, Zhilin Yang, Jie Tang(参考訳) 言語モデルで連続的なプロンプトのみをチューニングするプロンプトチューニングは、トレーニング時のタスク単位のストレージとメモリ使用量を大幅に削減する。 しかし、NLUの文脈では、先行研究により、プロンプトチューニングは通常のサイズの事前訓練モデルではうまく機能しないことが明らかになった。 また,既存のプロンプトチューニング手法ではハードシーケンスタグ付けタスクを処理できないこと,普遍性の欠如が確認された。 本稿では,最適化されたプロンプトチューニングが,幅広いモデルスケールとnluタスクにおいて普遍的に有効であることを示す。 0.1\%-3\%のチューニングパラメータしか持たないが、微調整の性能に合致する。 p-tuning v2 は新しい手法ではなく、nlu に最適化・適合したプレフィックスチューニング \cite{li2021prefix} のバージョンである。 P-Tuning v2の普遍性と単純性を考えると、これはファインチューニングの代替となり、将来の研究の強力なベースラインとなると信じている。

Prompt tuning, which only tunes continuous prompts with a frozen language model, substantially reduces per-task storage and memory usage at training. However, in the context of NLU, prior work reveals that prompt tuning does not perform well for normal-sized pre-trained models. We also find that existing methods of prompt tuning cannot handle hard sequence tagging tasks, indicating a lack of universality. We present a novel empirical finding that properly optimized prompt tuning can be universally effective across a wide range of model scales and NLU tasks. It matches the performance of fine-tuning while having only 0.1\%-3\% tuned parameters. Our method P-Tuning v2 is not a new method, but a version of prefix-tuning \cite{li2021prefix} optimized and adapted for NLU. Given the universality and simplicity of P-Tuning v2, we believe it can serve as an alternative to fine-tuning and a strong baseline for future research.
翻訳日:2021-10-19 12:59:40 公開日:2021-10-18
# (参考訳) NeRS: 野生でのスパークビュー3次元再構成のためのニューラルリフレクタンス表面 [全文訳有]

NeRS: Neural Reflectance Surfaces for Sparse-view 3D Reconstruction in the Wild ( http://arxiv.org/abs/2110.07604v3 )

ライセンス: CC BY-SA 4.0
Jason Y. Zhang, Gengshan Yang, Shubham Tulsiani, Deva Ramanan(参考訳) 最近の歴史では、Neural Radiance Fields (NeRF)を通じて一般化された幾何学と放射の暗黙的な表現を探求する研究が著しく増えている。 このような作品は、基本的には(単純に)占有力の体積表現に基づいており、半透明な物体や大気汚染物質を含む多様なシーン構造をモデル化することができる。 しかし、現実世界のシーンの大部分はよく定義された表面で構成されているため、ニューラルリフレクタンス・サーフェス(Neural Reflectance Surfaces, NeRS)と呼ばれる暗黙的なモデルの表面アナログを導入する。 NeRSは、球に微分される閉じた表面の神経形状の表現を学び、水密な再構成を保証する。 さらに重要なことは、表面のパラメータ化により、NeRSは視野依存的な外観を環境照明、拡散色(アルベド)、および特異な「輝き」に分解する双方向表面反射関数(BRDF)を学習することができることである。 最後に、人工的なシーンで結果を図示したり、ラボ内で操作する代わりに、オンラインマーケットプレースから商品を販売するために、マルチビュー画像の新しいデータセットを組み立てます。 このような「野生の」マルチビュー画像セットは、未知/粗いカメラ推定を持つ少数のビューを含む多くの課題を提起する。 このようなデータから学習可能な表面ベースニューラル再構成は,体積的ニューラルレンダリングに基づく再構成よりも優れていることを示す。 私たちはNeRSが、現実世界の形状、素材、照明のスケーラブルで高品質なライブラリを構築するための第一歩になることを期待しています。 コードとビデオビジュアライゼーションを備えたプロジェクトページはhttps://jasonyzhang. com/ners.com/nersにある。

Recent history has seen a tremendous growth of work exploring implicit representations of geometry and radiance, popularized through Neural Radiance Fields (NeRF). Such works are fundamentally based on a (implicit) volumetric representation of occupancy, allowing them to model diverse scene structure including translucent objects and atmospheric obscurants. But because the vast majority of real-world scenes are composed of well-defined surfaces, we introduce a surface analog of such implicit models called Neural Reflectance Surfaces (NeRS). NeRS learns a neural shape representation of a closed surface that is diffeomorphic to a sphere, guaranteeing water-tight reconstructions. Even more importantly, surface parameterizations allow NeRS to learn (neural) bidirectional surface reflectance functions (BRDFs) that factorize view-dependent appearance into environmental illumination, diffuse color (albedo), and specular "shininess." Finally, rather than illustrating our results on synthetic scenes or controlled in-the-lab capture, we assemble a novel dataset of multi-view images from online marketplaces for selling goods. Such "in-the-wild" multi-view image sets pose a number of challenges, including a small number of views with unknown/rough camera estimates. We demonstrate that surface-based neural reconstructions enable learning from such data, outperforming volumetric neural rendering-based reconstructions. We hope that NeRS serves as a first step toward building scalable, high-quality libraries of real-world shape, materials, and illumination. The project page with code and video visualizations can be found at https://jasonyzhang. com/ners.
翻訳日:2021-10-19 12:43:05 公開日:2021-10-18
# (参考訳) 無注意キーワードスポッティング [全文訳有]

Attention-Free Keyword Spotting ( http://arxiv.org/abs/2110.07749v2 )

ライセンス: CC BY-SA 4.0
Mashrur M. Morshed, Ahmad Omar Ahsan(参考訳) 現在、注意に基づくモデルはキーワードスポッティング問題領域で大きな成功を収めている。 しかし,近年の深層学習の進歩を踏まえて,自己認識が音声キーワード認識において本当に不可能かどうかが問題となっている。 そこで我々は,キーワードスポッティングタスクにおいて,視覚タスクにおけるトランスフォーマの代替品として従来示されていたゲート型mlpの使用法を検討する。 我々は,google speech command v2-35データセットに対する我々のアプローチを検証し,自己注意の明確な使用なしに,最先端技術に匹敵するパフォーマンスを得ることができることを示す。

Till now, attention-based models have been used with great success in the keyword spotting problem domain. However, in light of recent advances in deep learning, the question arises whether self-attention is truly irreplaceable for recognizing speech keywords. We thus explore the usage of gated MLPs -- previously shown to be alternatives to transformers in vision tasks -- for the keyword spotting task. We verify our approach on the Google Speech Commands V2-35 dataset and show that it is possible to obtain performance comparable to the state of the art without any apparent usage of self-attention.
翻訳日:2021-10-19 12:21:56 公開日:2021-10-18
# (参考訳) 未知の対応による低ランク行列復元 [全文訳有]

Low-rank Matrix Recovery With Unknown Correspondence ( http://arxiv.org/abs/2110.07959v2 )

ライセンス: CC BY 4.0
Zhiwei Tang, Tsung-Hui Chang, Xiaojing Ye, Hongyuan Zha(参考訳) 観測行列が $M_o=[A,\tilde P B]$ ならば、$\tilde P$ は未知の置換行列であり、基礎となる行列が $M=[A,B]$ である。 このような問題は、例えばプライバシー上の懸念から、異種データが利用され、それらの間の対応が不明な多くのアプリケーションで一般的に発生する。 我々は、M$の回復のために証明不可能な非漸近誤差を伴い、M$の適切な低ランク条件下で核ノルム最小化問題を解くことで、M$を回復可能であることを示す。 我々は,この組合せ問題を連続的ミニマックス最適化問題として再キャストし,max-oracle による近位勾配を用いて解くアルゴリズム $\text{m}^3\text{o}$ (min-max 最適化による行列リカバリ)を提案する。 また、$\text{m}^3\text{o}$ は、$m_o$ のエントリが不足しているより一般的なシナリオにも適用できます。 シミュレーションデータ、MovieLens 100Kデータセット、Yale Bデータベースの実験によると、$\text{M}^3\text{O}$は、いくつかのベースラインで最先端のパフォーマンスを実現し、高精度で地上の真実対応を回復できる。

We study a matrix recovery problem with unknown correspondence: given the observation matrix $M_o=[A,\tilde P B]$, where $\tilde P$ is an unknown permutation matrix, we aim to recover the underlying matrix $M=[A,B]$. Such problem commonly arises in many applications where heterogeneous data are utilized and the correspondence among them are unknown, e.g., due to privacy concerns. We show that it is possible to recover $M$ via solving a nuclear norm minimization problem under a proper low-rank condition on $M$, with provable non-asymptotic error bound for the recovery of $M$. We propose an algorithm, $\text{M}^3\text{O}$ (Matrix recovery via Min-Max Optimization) which recasts this combinatorial problem as a continuous minimax optimization problem and solves it by proximal gradient with a Max-Oracle. $\text{M}^3\text{O}$ can also be applied to a more general scenario where we have missing entries in $M_o$ and multiple groups of data with distinct unknown correspondence. Experiments on simulated data, the MovieLens 100K dataset and Yale B database show that $\text{M}^3\text{O}$ achieves state-of-the-art performance over several baselines and can recover the ground-truth correspondence with high accuracy.
翻訳日:2021-10-19 12:11:43 公開日:2021-10-18
# PTQ-SL: サブレイヤワイズ後量子化の探索

PTQ-SL: Exploring the Sub-layerwise Post-training Quantization ( http://arxiv.org/abs/2110.07809v2 )

ライセンス: Link先を確認
Zhihang Yuan, Yiqi Chen, Chenhao Xue, Chenguang Zhang, Qiankun Wang, Guangyu Sun(参考訳) ネットワーク量子化は畳み込みニューラルネットワークを圧縮する強力な技術である。 量子化の粒度は、ネットワーク量子化の性能に影響を与える重みのスケーリング要素を共有する方法を決定する。 既存のアプローチのほとんどは、畳み込み層の量子化のために層状またはチャネル的にスケーリング係数を共有する。 チャネルワイド量子化と層ワイド量子化は様々な用途で広く利用されている。 しかし、他の量子化の粒度はまれである。 本稿では,複数の入力チャネルと出力チャネルにまたがるスケーリング係数を共有するサブレイヤの粒度について検討する。 サブレイヤー粒度(ptq-sl)における高効率後トレーニング量子化法を提案する。 次に,様々な粒度を体系的に実験し,量子化ニューラルネットワークの予測精度と粒度との相関が強いことを観測した。 さらに,チャネルの位置の調整により,サブ層量子化の性能が向上することが判明した。 そこで本研究では,サブ層量子化のためのチャネルを並べ替える手法を提案する。 実験により、適切なチャネル再順序付けを伴うサブレイヤーワイズ量子化がチャネルワイズ量子化を上回ることを証明した。

Network quantization is a powerful technique to compress convolutional neural networks. The quantization granularity determines how to share the scaling factors in weights, which affects the performance of network quantization. Most existing approaches share the scaling factors layerwisely or channelwisely for quantization of convolutional layers. Channelwise quantization and layerwise quantization have been widely used in various applications. However, other quantization granularities are rarely explored. In this paper, we will explore the sub-layerwise granularity that shares the scaling factor across multiple input and output channels. We propose an efficient post-training quantization method in sub-layerwise granularity (PTQ-SL). Then we systematically experiment on various granularities and observe that the prediction accuracy of the quantized neural network has a strong correlation with the granularity. Moreover, we find that adjusting the position of the channels can improve the performance of sub-layerwise quantization. Therefore, we propose a method to reorder the channels for sub-layerwise quantization. The experiments demonstrate that the sub-layerwise quantization with appropriate channel reordering can outperform the channelwise quantization.
翻訳日:2021-10-19 11:24:14 公開日:2021-10-18
# magnet: 再訓練を行わないディープジェネレーティブネットワーク多様体からの均一サンプリング

MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining ( http://arxiv.org/abs/2110.08009v2 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk(参考訳) Deep Generative Networks (DGNs) は、GAN(Generative Adversarial Networks)、VAE(VAEs)、およびデータ多様体の近似やその多様体上のデータ分布に広く利用されている。 しかし、トレーニングサンプルは、例えば、celebaデータセットの笑顔の顔の比率やffhqの黒髪の個人の割合など、経験的データ分散において、好み、コスト、利便性に基づいて得られることが多い。 これらの矛盾は、公正性、データ拡張、異常検出、ドメイン適応など、はるかに大きな可能性を持つトレーニングされたDGNからのサンプリングによって再現される。 これに反応して、DGNが訓練された場合、学習多様体上に一様に分布するサンプルを生成する、微分幾何学に基づくサンプル(MaGNET)を開発する。 本手法は, トレーニング集合分布によらず, 多様体上の一様分布を生成できることを理論的および実証的に証明する。 さまざまなデータセットやDGNでさまざまな実験を行います。 FFHQデータセットでトレーニングされた最先端のStyleGAN2では、MaGNETによる一様サンプリングが分布精度を4.1%と3.0%増加させ、ラベルや再トレーニングを必要とせずに性別バイアスを41.2%減少させる。

Deep Generative Networks (DGNs) are extensively employed in Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and their variants to approximate the data manifold, and data distribution on that manifold. However, training samples are often obtained based on preferences, costs, or convenience producing artifacts in the empirical data distribution e.g., the large fraction of smiling faces in the CelebA dataset or the large fraction of dark-haired individuals in FFHQ. These inconsistencies will be reproduced when sampling from the trained DGN, which has far-reaching potential implications for fairness, data augmentation, anomaly detection, domain adaptation, and beyond. In response, we develop a differential geometry based sampler -- coined MaGNET -- that, given any trained DGN, produces samples that are uniformly distributed on the learned manifold. We prove theoretically and empirically that our technique produces a uniform distribution on the manifold regardless of the training set distribution. We perform a range of experiments on various datasets and DGNs. One of them considers the state-of-the-art StyleGAN2 trained on FFHQ dataset, where uniform sampling via MaGNET increases distribution precision and recall by 4.1% & 3.0% and decreases gender bias by 41.2%, without requiring labels or retraining.
翻訳日:2021-10-19 11:23:58 公開日:2021-10-18
# FlexConv: 異なるカーネルサイズを持つ継続的カーネルの畳み込み

FlexConv: Continuous Kernel Convolutions with Differentiable Kernel Sizes ( http://arxiv.org/abs/2110.08059v2 )

ライセンス: Link先を確認
David W. Romero, Robert-Jan Bruintjes, Jakub M. Tomczak, Erik J. Bekkers, Mark Hoogendoorn, Jan C. van Gemert(参考訳) 畳み込みニューラルネットワーク(CNN)を設計する場合、トレーニング前に畳み込みカーネルのサイズを選択する必要がある。 最近の研究によると、CNNは異なるレイヤの異なるカーネルサイズから恩恵を受けているが、実際にはすべての組み合わせを探索することは不可能である。 より効率的なアプローチは、トレーニング中にカーネルサイズを学ぶことだ。 しかし、カーネルサイズを学ぶ既存の作品は帯域幅が限られている。 これらのアプローチは、拡張によってカーネルをスケールし、記述できる詳細は限られている。 本稿では,学習可能なカーネルサイズの高い帯域幅畳み込みカーネルを一定のパラメータコストで学習可能な,新しい畳み込み演算flexconvを提案する。 FlexNetsは、プーリングを使わずに長期的な依存関係をモデル化し、いくつかのシーケンシャルなデータセットで最先端のパフォーマンスを達成し、学んだカーネルサイズで最近の成果を上回り、画像ベンチマークデータセット上でずっと深いResNetsと競合する。 さらに、flexnetsはトレーニング中に見られるものよりも高い解像度でデプロイできる。 エイリアシングを避けるために,カーネルの周波数を解析的に制御できる新しいカーネルパラメータ化を提案する。 我々の新しいカーネルパラメタライゼーションは、既存のパラメタライゼーションよりも高い記述力と高速な収束速度を示している。 これにより、分類精度が大幅に向上する。

When designing Convolutional Neural Networks (CNNs), one must select the size of the convolutional kernels before training. Recent works show CNNs benefit from different kernel sizes at different layers, but exploring all possible combinations is unfeasible in practice. A more efficient approach is to learn the kernel size during training. However, existing works that learn the kernel size have a limited bandwidth. These approaches scale kernels by dilation, and thus the detail they can describe is limited. In this work, we propose FlexConv, a novel convolutional operation with which high bandwidth convolutional kernels of learnable kernel size can be learned at a fixed parameter cost. FlexNets model long-term dependencies without the use of pooling, achieve state-of-the-art performance on several sequential datasets, outperform recent works with learned kernel sizes, and are competitive with much deeper ResNets on image benchmark datasets. Additionally, FlexNets can be deployed at higher resolutions than those seen during training. To avoid aliasing, we propose a novel kernel parameterization with which the frequency of the kernels can be analytically controlled. Our novel kernel parameterization shows higher descriptive power and faster convergence speed than existing parameterizations. This leads to important improvements in classification accuracy.
翻訳日:2021-10-19 11:23:30 公開日:2021-10-18
# 量子アニーリングを用いたミラーリングダブルラウンドロビントーナメントにおける大破れ最小化問題の解法

Solving Large Break Minimization Problems in a Mirrored Double Round-robin Tournament Using Quantum Annealing ( http://arxiv.org/abs/2110.07239v2 )

ライセンス: Link先を確認
Michiya Kuramata, Ryota Katsuki, Kazuhide Nakata(参考訳) 量子アニール(QA)は、物流、スケジューリング、ファイナンスに多くの応用がある組合せ最適化問題に適用できるため、注目されている。 近年,それらを用いた組合せ最適化問題を解く研究が加速されている。 しかし、研究者たちは実用的な組合せ最適化問題を見つけるのに苦労しており、量子アニーラーは他の数学的最適化解法よりも優れている。 さらに、量子アニーラーの性能を、gurobiやcplexのような最も洗練された数学的最適化解法の一つと比較する研究はごくわずかである。 そこで本研究では,ミラーリングラウンドロビントーナメント(MDRRT)におけるブレーク最小化問題において,QAが解法よりも優れた性能を示した。 また,変数間の疎相互作用と制約のない問題に対するQAの望ましい性能についても説明する。 本稿では,MDRRTにおけるブレーク最小化問題を4正規グラフとして表現できることを実証する。 計算実験により,最新の量子アニーラーD-WaveAdvantageと高度な数学的最適化解法であるGurobiを用いて,QA法と2整数プログラミング法を用いてこの問題を解く。 さらに,解の質と計算時間を比較する。 QAは20チームでの問題に対して0.05秒で正確なソリューションを決定できた。 36チームの場合、整数プログラミング法が目的関数値に達するのに84.8秒かかり、これは0.05秒の量子アニールによって得られた。 これらの結果は, MDRRTにおけるブレーク最小化問題を, 実用的な最適化問題にQAを適用した例として提示するだけでなく, QAによって効果的に解ける問題を見つけるためにも貢献する。

Quantum annealing (QA) has gained considerable attention because it can be applied to combinatorial optimization problems, which have numerous applications in logistics, scheduling, and finance. In recent years, research on solving practical combinatorial optimization problems using them has accelerated. However, researchers struggle to find practical combinatorial optimization problems, for which quantum annealers outperform other mathematical optimization solvers. Moreover, there are only a few studies that compare the performance of quantum annealers with one of the most sophisticated mathematical optimization solvers, such as Gurobi and CPLEX. In our study, we determine that QA demonstrates better performance than the solvers in the break minimization problem in a mirrored double round-robin tournament (MDRRT). We also explain the desirable performance of QA for the sparse interaction between variables and a problem without constraints. In this process, we demonstrate that the break minimization problem in an MDRRT can be expressed as a 4-regular graph. Through computational experiments, we solve this problem using our QA approach and two-integer programming approaches, which were performed using the latest quantum annealer D-Wave Advantage, and the sophisticated mathematical optimization solver, Gurobi, respectively. Further, we compare the quality of the solutions and the computational time. QA was able to determine the exact solution in 0.05 seconds for problems with 20 teams, which is a practical size. In the case of 36 teams, it took 84.8 s for the integer programming method to reach the objective function value, which was obtained by the quantum annealer in 0.05 s. These results not only present the break minimization problem in an MDRRT as an example of applying QA to practical optimization problems, but also contribute to find problems that can be effectively solved by QA.
翻訳日:2021-10-19 11:22:39 公開日:2021-10-18
# IPAに基づく言語間テキスト合成の再検討

Revisiting IPA-based Cross-lingual Text-to-speech ( http://arxiv.org/abs/2110.07187v2 )

ライセンス: Link先を確認
Haitong Zhang, Haoyue Zhan, Yang Zhang, Xinyuan Yu, Yue Lin(参考訳) International Phonetic Alphabet (IPA) は、言語間音声クローニング(CLVC)を実現するために、TTS (inter-lingual text-to-speech) で広く使われている。 しかし、IPA自体が言語間TTSで検討されている。 本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。 実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。 さらに、言語単位の話者を含むデータセットを使用してIPAベースのTSシステムを構築すると、言語単位のIPAとトーン/ストレスシンボルが話者情報を漏洩する可能性があるため、CL VCが失敗する可能性がある。 さらに,学習データセットにおける話者の異なる組み合わせを実験し,cl vcのパフォーマンスに対する話者数の影響について検討した。

International Phonetic Alphabet (IPA) has been widely used in cross-lingual text-to-speech (TTS) to achieve cross-lingual voice cloning (CL VC). However, IPA itself has been understudied in cross-lingual TTS. In this paper, we report some empirical findings of building a cross-lingual TTS model using IPA as inputs. Experiments show that the way to process the IPA and suprasegmental sequence has a negligible impact on the CL VC performance. Furthermore, we find that using a dataset including one speaker per language to build an IPA-based TTS system would fail CL VC since the language-unique IPA and tone/stress symbols could leak the speaker information. In addition, we experiment with different combinations of speakers in the training dataset to further investigate the effect of the number of speakers on the CL VC performance.
翻訳日:2021-10-19 11:22:12 公開日:2021-10-18
# CIRASA視覚分析プラットフォームのための天文学的情報源探索サービス

Astronomical source finding services for the CIRASA visual analytic platform ( http://arxiv.org/abs/2110.08211v2 )

ライセンス: Link先を確認
S. Riggi, C. Bordiu, F. Vitello, G. Tudisco, E. Sciacca, D. Magro, R. Sortino, C. Pino, M. Molinaro, M. Benedettini, S.Leurini, F. Bufano, M. Raciti, U. Becciani(参考訳) データ処理、アーカイブ、分析、可視化の革新的発展は、現在、Square Kilometre Array(SKA)やその前駆体のような次世代の電波天文学施設で期待されるデータデルージュを扱うには避けられない。 この文脈では、ソース抽出と分析アルゴリズムをデータ可視化ツールに統合することで、大規模な調査のカタログ作成プロセスを大幅に改善し、スピードアップし、天文学者の生産性を高め、出版時間を短縮することができる。 そこで我々は,CAESARソースファインダ,ViaLactea Visual Analytic(VLVA),Knowl edge Base(VLKB)といった最先端のツールを統合した,高度なソース発見と分類のためのビジュアル解析プラットフォーム(CIRASA)を開発している。 本稿では,実装されたソース検索サービスに着目し,プロジェクト目標とプラットフォームアーキテクチャについて述べる。

Innovative developments in data processing, archiving, analysis, and visualization are nowadays unavoidable to deal with the data deluge expected in next-generation facilities for radio astronomy, such as the Square Kilometre Array (SKA) and its precursors. In this context, the integration of source extraction and analysis algorithms into data visualization tools could significantly improve and speed up the cataloguing process of large area surveys, boosting astronomer productivity and shortening publication time. To this aim, we are developing a visual analytic platform (CIRASA) for advanced source finding and classification, integrating state-of-the-art tools, such as the CAESAR source finder, the ViaLactea Visual Analytic (VLVA) and Knowledge Base (VLKB). In this work, we present the project objectives and the platform architecture, focusing on the implemented source finding services.
翻訳日:2021-10-19 11:21:58 公開日:2021-10-18