このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211010となっている論文です。

PDF登録状況(公開日: 20211010)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 医薬品設計における最近の人工知能応用の概要 [全文訳有]

An In-depth Summary of Recent Artificial Intelligence Applications in Drug Design ( http://arxiv.org/abs/2110.05478v1 )

ライセンス: CC BY 4.0
Yi Zhang(参考訳) 膨大な化学領域をナビゲートするための有望なツールとして、人工知能(AI)が医薬品設計に活用されている。 2017年から2021年にかけて、薬物設計におけるいくつかの最近のAIモデル(グラフニューラルネットワーク(GNN)、リカレントニューラルネットワーク(RNN)、変動オートエンコーダ(VAE)、生成的敵ネットワーク(GAN)、フローと強化学習(RL))の応用が大幅に増加した。 関連文献が多数存在する。 しかしながら、薬品設計における最近のAIモデルの多くの応用について詳細な概要は、いずれも提供されていない。 既存の文献を補完するために、このサーベイは前述のAIモデルの理論的発展と、薬物設計におけるAIの最近の42の応用の詳細な要約を含む。 具体的には、13種は分子特性予測にGNNを使用し、29種は分子生成と最適化にRLおよび/または深部生成モデルを用いる。 ほとんどの場合、要約の焦点は、モデル、それらの変異、および薬物設計における特定のタスクの修正である。 さらに、分子生成と最適化における60のaiのさらなる応用を簡潔に表にまとめる。 最後に、この調査は、aiベースの薬物設計におけるタスク、潜在的な解決策、課題が明確になるように、豊富な応用に関する総合的な議論を提供する。

As a promising tool to navigate in the vast chemical space, artificial intelligence (AI) is leveraged for drug design. From the year 2017 to 2021, the number of applications of several recent AI models (i.e. graph neural network (GNN), recurrent neural network (RNN), variation autoencoder (VAE), generative adversarial network (GAN), flow and reinforcement learning (RL)) in drug design increases significantly. Many relevant literature reviews exist. However, none of them provides an in-depth summary of many applications of the recent AI models in drug design. To complement the existing literature, this survey includes the theoretical development of the previously mentioned AI models and detailed summaries of 42 recent applications of AI in drug design. Concretely, 13 of them leverage GNN for molecular property prediction and 29 of them use RL and/or deep generative models for molecule generation and optimization. In most cases, the focus of the summary is the models, their variants, and modifications for specific tasks in drug design. Moreover, 60 additional applications of AI in molecule generation and optimization are briefly summarized in a table. Finally, this survey provides a holistic discussion of the abundant applications so that the tasks, potential solutions, and challenges in AI-based drug design become evident.
翻訳日:2021-10-16 20:00:45 公開日:2021-10-10
# (参考訳) 混合モデルオートエンコーダ:辞書学習による深層クラスタリング [全文訳有]

Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning ( http://arxiv.org/abs/2110.04683v1 )

ライセンス: CC BY 4.0
Alexander Lin, Andrew H. Song, Demba Ba(参考訳) 高次元データをクラスタリングするための最先端のアプローチは、ディープオートエンコーダアーキテクチャを利用する。 これらのネットワークの多くは多数のパラメータを必要としており、オートエンコーダのブラックボックスの性質のため、解釈性の欠如に悩まされている。 生成モデル上で推論を行うことでデータをクラスタ化する,新しいアーキテクチャであるmixed model auto-encoder (mixmate)を提案する。 スパース辞書学習と混合モデルの観点から導かれたMixMateは、複数の自動エンコーダで構成され、それぞれが異なるクラスタでデータを再構成すると同時に、潜時空間の間隔を強制する。 様々な画像データセットを用いた実験により,mixmateは最先端のディープクラスタリングアルゴリズムと比較して,桁違いに少ないパラメータを用いながら,競合性能を実現していることを示した。

State-of-the-art approaches for clustering high-dimensional data utilize deep auto-encoder architectures. Many of these networks require a large number of parameters and suffer from a lack of interpretability, due to the black-box nature of the auto-encoders. We introduce Mixture Model Auto-Encoders (MixMate), a novel architecture that clusters data by performing inference on a generative model. Derived from the perspective of sparse dictionary learning and mixture models, MixMate comprises several auto-encoders, each tasked with reconstructing data in a distinct cluster, while enforcing sparsity in the latent space. Through experiments on various image datasets, we show that MixMate achieves competitive performance compared to state-of-the-art deep clustering algorithms, while using orders of magnitude fewer parameters.
翻訳日:2021-10-16 19:11:37 公開日:2021-10-10
# (参考訳) オーディオキャプションは画像キャプションメトリクスで評価できるか? [全文訳有]

Can Audio Captions Be Evaluated with Image Caption Metrics? ( http://arxiv.org/abs/2110.04684v1 )

ライセンス: CC BY 4.0
Zelin Zhou, Zhiling Zhang, Xuenan Xu, Zeyu Xie, Mengyue Wu, Kenny Q. Zhu(参考訳) 自動音声キャプションは、音声クリップのテキスト記述を生成することを目的としている。 生成された音声キャプションの品質を評価するため、従来の研究では、SPICEやCIDErといった画像キャプションの指標を直接採用していたが、この新領域での適合性を正当化することはできなかった。 この問題は、キャプションの品質に関する人間の判断データセットが欠如しているため、まだ解明されていない。 そこで我々はまず,AudioCaps-Eval と Clotho-Eval の2つの評価ベンチマークを構築した。 これらは、アノテータ間の合意をより良く達成するために、絶対評価の代わりにペア比較で確立される。 現在のメトリクスは、これらのデータセット上の人間のアノテーションと相関が低い。 それらの制約を克服するため, 類似性を捉える上でのセンテンス-BERTの強みを組み合わせたFENSE(Fentence-BERT) という計量法と, 誤文の堅牢性に対処する新しい誤り検出器(Error Detector)を提案する。 新たに確立されたベンチマークでは、FENSEが現在のメトリクスを14~25%の精度で上回っている。 コード、データ、webデモはhttps://github.com/b lmoistawinde/fenseで利用可能

Automated audio captioning aims at generating textual descriptions for an audio clip. To evaluate the quality of generated audio captions, previous works directly adopt image captioning metrics like SPICE and CIDEr, without justifying their suitability in this new domain, which may mislead the development of advanced models. This problem is still unstudied due to the lack of human judgment datasets on caption quality. Therefore, we firstly construct two evaluation benchmarks, AudioCaps-Eval and Clotho-Eval. They are established with pairwise comparison instead of absolute rating to achieve better inter-annotator agreement. Current metrics are found in poor correlation with human annotations on these datasets. To overcome their limitations, we propose a metric named FENSE, where we combine the strength of Sentence-BERT in capturing similarity, and a novel Error Detector to penalize erroneous sentences for robustness. On the newly established benchmarks, FENSE outperforms current metrics by 14-25% accuracy. Code, data and web demo available at: https://github.com/b lmoistawinde/fense
翻訳日:2021-10-16 19:01:11 公開日:2021-10-10
# (参考訳) Braxlines: RL駆動行動工学のための高速かつインタラクティブなツールキット [全文訳有]

Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineering beyond Reward Maximization ( http://arxiv.org/abs/2110.04686v1 )

ライセンス: CC BY 4.0
Shixiang Shane Gu, Manfred Diaz, Daniel C. Freeman, Hiroki Furuta, Seyed Kamyar Seyed Ghasemipour, Anton Raichuk, Byron David, Erik Frey, Erwin Coumans, Olivier Bachem(参考訳) 継続的制御の目標は、望ましい行動を合成することである。 強化学習(RL)によるアプローチでは、効率的な探索と既製のRLアルゴリズムの実行のために、注意深いタスク報酬エンジニアリングによって実現されることが多い。 報酬の最大化はRLの中核にあるが、報酬工学が複雑な振る舞いを特定する唯一の方法ではない。 本稿では,相互情報最大化 (MiMax) と分散最小化 (DMin) の2種類のアルゴリズムの安定かつ十分にテストされたベースラインのセットであるComposerを含む,単純な報酬の最大化を超えて,高速かつインタラクティブなRL駆動行動生成ツールキットである \braxlinesを紹介し,非教師なしのスキル学習と分散スケッチを他の行動仕様のモードとしてサポートする。 さらに,単純な報酬最大化に頼らず,これらのアルゴリズムを評価するためのメトリクスの標準化について論じる。 私たちの実装はjaxのハードウェアアクセラレーションされたbraxシミュレータ上に構築されています。 Braxlinesは、環境と行動の迅速な作成とテスト、将来のベンチマーク設計の爆発とRL駆動行動生成の新しいモードの強化、アルゴリズム研究のためのインタラクティブツールキットとして機能することを願っている。

The goal of continuous control is to synthesize desired behaviors. In reinforcement learning (RL)-driven approaches, this is often accomplished through careful task reward engineering for efficient exploration and running an off-the-shelf RL algorithm. While reward maximization is at the core of RL, reward engineering is not the only -- sometimes nor the easiest -- way for specifying complex behaviors. In this paper, we introduce \braxlines, a toolkit for fast and interactive RL-driven behavior generation beyond simple reward maximization that includes Composer, a programmatic API for generating continuous control environments, and set of stable and well-tested baselines for two families of algorithms -- mutual information maximization (MiMax) and divergence minimization (DMin) -- supporting unsupervised skill learning and distribution sketching as other modes of behavior specification. In addition, we discuss how to standardize metrics for evaluating these algorithms, which can no longer rely on simple reward maximization. Our implementations build on a hardware-accelerated Brax simulator in Jax with minimal modifications, enabling behavior synthesis within minutes of training. We hope Braxlines can serve as an interactive toolkit for rapid creation and testing of environments and behaviors, empowering explosions of future benchmark designs and new modes of RL-driven behavior generation and their algorithmic research.
翻訳日:2021-10-16 18:48:58 公開日:2021-10-10
# (参考訳) beyond road extraction: 航空画像を用いた地図更新のためのデータセット [全文訳有]

Beyond Road Extraction: A Dataset for Map Update using Aerial Images ( http://arxiv.org/abs/2110.04690v1 )

ライセンス: CC BY 4.0
Favyen Bastani, Sam Madden(参考訳) 衛星画像と空中画像の入手が増加し、航空画像の処理による道路地図の自動更新に大きな関心が寄せられている。 これまでコミュニティは、道路ネットワークが空中画像からスクラッチから推測される道路抽出に重点を置いてきた。 しかし、世界のほとんどの地域で比較的高品質な地図が存在することを考えると、新しい地図を推測するのではなく、既存の地図を更新するために推論手法を適用する必要がある。 近年の道路抽出手法が精度が高くなっているため,既存の地図を更新・削除・シフトすることで,最新の地図の一部に誤りを生じさせることなく,既存の地図を更新する,より実用的な地図更新タスクへの移行を議論する。 本稿では,マップ更新タスク用にmuno21と呼ばれる新しいデータセットを開発し,いくつかの新しい興味深い研究課題を提起する。 我々はMUNO21上での最先端道路抽出手法の評価を行い,自動地図更新を実現するためには,精度の大幅な向上が必要であることを見出した。

The increasing availability of satellite and aerial imagery has sparked substantial interest in automatically updating street maps by processing aerial images. Until now, the community has largely focused on road extraction, where road networks are inferred from scratch from an aerial image. However, given that relatively high-quality maps exist in most parts of the world, in practice, inference approaches must be applied to update existing maps rather than infer new ones. With recent road extraction methods showing high accuracy, we argue that it is time to transition to the more practical map update task, where an existing map is updated by adding, removing, and shifting roads, without introducing errors in parts of the existing map that remain up-to-date. In this paper, we develop a new dataset called MUNO21 for the map update task, and show that it poses several new and interesting research challenges. We evaluate several state-of-the-art road extraction methods on MUNO21, and find that substantial further improvements in accuracy will be needed to realize automatic map update.
翻訳日:2021-10-16 18:12:15 公開日:2021-10-10
# (参考訳) 高ノイズデータセットにおけるアドバンテージフィルターによる行動クローニング [全文訳有]

A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets ( http://arxiv.org/abs/2110.04698v1 )

ライセンス: CC BY 4.0
Jake Grigsby, Yanjun Qi(参考訳) 最近のオフライン強化学習手法は、経験の固定データセットからハイパフォーマンスなポリシーを学ぶことに成功している。 特に効果的なアプローチは、まず最適な意思決定戦略を識別し、模倣することを学ぶ。 本研究は,この手法が,ほぼすべてのサブ最適ノイズからなる巨大なデータセットにスケールする能力を評価する。 カスタムベンチマークに関する詳細な調査は、高ノイズデータセットからの学習に関わるいくつかの重要な課題を特定するのに役立つ。 私たちは、数百万の低パフォーマンスサンプルのエキスパートレベルのデモンストレーションを見つけるために、優先順位付けされた経験サンプルを再利用しました。 この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。

Recent Offline Reinforcement Learning methods have succeeded in learning high-performance policies from fixed datasets of experience. A particularly effective approach learns to first identify and then mimic optimal decision-making strategies. Our work evaluates this method's ability to scale to vast datasets consisting almost entirely of sub-optimal noise. A thorough investigation on a custom benchmark helps identify several key challenges involved in learning from high-noise datasets. We re-purpose prioritized experience sampling to locate expert-level demonstrations among millions of low-performance samples. This modification enables offline agents to learn state-of-the-art policies in benchmark tasks using datasets where expert actions are outnumbered nearly 65:1.
翻訳日:2021-10-16 17:56:51 公開日:2021-10-10
# (参考訳) Fine_fine_Identity_P reserving_Landmark_S ynthesis_for_Face_Re enactment [全文訳有]

Fine_grained_Identit y_Preserving_Landmar k_Synthesis_for_Face _Reenactment ( http://arxiv.org/abs/2110.04708v1 )

ライセンス: CC BY 4.0
Haichao Zhang, Youcheng Ben, Weixi Zhang, Tao Chen, Gang Yu, Bin Fu(参考訳) 最近の顔再現作業は粗い参照ランドマークによって制限されており、操作されたランドマークと実人から採取されたランドマークとの分配ギャップのため、アイデンティティ保存性能が不十分である。 この問題に対処するため, 粒度保存型ランドマーク誘導顔再現法を提案する。 提案手法には2つの新しい特徴がある。 まず、より詳細な細かなランドマークを生成できるように設計されたランドマーク合成ネットワーク。 ネットワークは操作されたランドマークを洗練し、良好なアイデンティティ保存能力を持つ滑らかで徐々に変化する顔ランドマークシーケンスを生成する。 第二に、鮮明でシャープな高品質な顔の合成を目的とした、合成顔識別保護損失、前景/裏面マスク損失、境界損失などの新規な損失関数を設計する。 自作の BeautySelfie と公開の VoxCeleb1 データセットで実験を行った。 得られた定性的および定量的な結果から,本手法は高精細な高精細な顔の再現が可能であることを示す。 コードは再生のためにリリースされます。

Recent face reenactment works are limited by the coarse reference landmarks, leading to unsatisfactory identity preserving performance due to the distribution gap between the manipulated landmarks and those sampled from a real person. To address this issue, we propose a fine-grained identity-preserving landmark-guided face reenactment approach. The proposed method has two novelties. First, a landmark synthesis network which is designed to generate fine-grained landmark faces with more details. The network refines the manipulated landmarks and generates a smooth and gradually changing face landmark sequence with good identity preserving ability. Second, several novel loss functions including synthesized face identity preserving loss, foreground/backgroun d mask loss as well as boundary loss are designed, which aims at synthesizing clear and sharp high-quality faces. Experiments are conducted on our self-collected BeautySelfie and the public VoxCeleb1 datasets. The presented qualitative and quantitative results show that our method can reenact fine-grained higher quality faces with good ID-preserved appearance details, fewer artifacts and clearer boundaries than state-of-the-art works. Code will be released for reproduction.
翻訳日:2021-10-16 17:30:36 公開日:2021-10-10
# (参考訳) ビデオをスケッチして [全文訳有]

Sketch Me A Video ( http://arxiv.org/abs/2110.04710v1 )

ライセンス: CC BY 4.0
Haichao Zhang, Gang Yu, Tao Chen, Guozhong Luo(参考訳) アーティストにとってビデオ制作は魅力的だが難しい課題だった。 ディープラーニングの進歩により、近年の研究では、深い畳み込みニューラルネットワークを使用して、ガイドビデオの助けを借りてビデオを合成し、有望な結果を得た。 しかし、ガイド付きビデオやその他の時間的情報を導く形態の買収は、現実には費用がかかり、困難である。 そこで本研究では,粗悪な2つのスケッチを入力として,写実的なポートレート映像を作成することにより,新たな映像合成タスクを提案する。 2段階のSketch-to-Videoモデルが提案されている。 1) リアルな開始フレームや終了フレームの合成やリッチなセマンティックな特徴の生成にこれらの部分を利用する特徴検索・投影(FRP)モジュールは,ユーザによって任意に描画された自由形式のスケッチスタイルによって,ドメイン外のスケッチを緩和するように設計されている。 2) ビデオ(トレーニング段階でのみ使用される)を正規分布でモデル化した運動空間に投影し, 動作変数と上記抽出した意味的特徴をブレンドする特徴ブレンディングモジュールを提案し, テストフェーズにおける時間的情報不足問題を緩和する。 celebamask-hqとvoxceleb2データセットの組み合わせによる実験では,粗悪な2つのスケッチから高品質な映像を合成することで,定量的,質的にも良好な結果が得られることを確認した。

Video creation has been an attractive yet challenging task for artists to explore. With the advancement of deep learning, recent works try to utilize deep convolutional neural networks to synthesize a video with the aid of a guiding video, and have achieved promising results. However, the acquisition of guiding videos, or other forms of guiding temporal information is costly expensive and difficult in reality. Therefore, in this work we introduce a new video synthesis task by employing two rough bad-drwan sketches only as input to create a realistic portrait video. A two-stage Sketch-to-Video model is proposed, which consists of two key novelties: 1) a feature retrieve and projection (FRP) module, which parititions the input sketch into different parts and utilizes these parts for synthesizing a realistic start or end frame and meanwhile generating rich semantic features, is designed to alleviate the sketch out-of-domain problem due to arbitrarily drawn free-form sketch styles by different users. 2) A motion projection followed by feature blending module, which projects a video (used only in training phase) into a motion space modeled by normal distribution and blends the motion variables with semantic features extracted above, is proposed to alleviate the guiding temporal information missing problem in the test phase. Experiments conducted on a combination of CelebAMask-HQ and VoxCeleb2 dataset well validate that, our method can acheive both good quantitative and qualitative results in synthesizing high-quality videos from two rough bad-drawn sketches.
翻訳日:2021-10-16 17:18:32 公開日:2021-10-10
# (参考訳) 系統的FXトレーディングのための強化学習 [全文訳有]

Reinforcement Learning for Systematic FX Trading ( http://arxiv.org/abs/2110.04745v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro and Nick Firoozye and Paolo Barucca(参考訳) 取引コストと資金コストを正確に計算し,主要なキャッシュfxペアについて詳細な実験を行った。 通貨市場で発生する価格動向を含むこれらの利益と損失の源泉は、二次的ユーティリティを通じて、我々の再帰的な強化学習者に提供され、位置を直接目標にすることを学ぶ。 我々は,オンライン学習の文脈において,リスク位置を目標とする学習問題をキャストすることで,初期の作業を改善する。 このオンライン学習は、時間とともに順次行われるが、転送学習の形でも行われる。 我々は、ガウス混合モデルにより、その手段、共分散および全体サイズが決定される放射状基底関数隠蔽処理ユニットの出力を、繰り返し強化学習者およびベースライン運動量トレーダーに転送する。 したがって、特徴空間の本質的な性質を学習し、上流モデルで利用できるようにする。 リカレント強化学習トレーダーは、7年間の試験セットで、年間ポートフォリオ情報比0.52、複合リターン9.3%、実行ネットおよび資金調達コストを達成している。 これは、取引コストが統計的に最も高い場合、取引日の午後5時にモデルに取引を強制したにもかかわらずである。 これらの結果は、2008年の金融危機以来の低金利差環境とそれ以来の非常に明白な通貨トレンドを反映して、モーメントベースライントレーダーに匹敵する。 繰り返し強化学習者は、利益と損失の変化の異なる源を反映するようにモデルの重みを適応できるという点において、重要な優位性を維持している。 これは、異なるポジションを狙うことを学ぶusdrubのトレーディングエージェントによって視覚的に示され、コストの欠如や存在をトレーディングを反映している。

We conduct a detailed experiment on major cash fx pairs, accurately accounting for transaction and funding costs. These sources of profit and loss, including the price trends that occur in the currency markets, are made available to our recurrent reinforcement learner via a quadratic utility, which learns to target a position directly. We improve upon earlier work, by casting the problem of learning to target a risk position, in an online learning context. This online learning occurs sequentially in time, but also in the form of transfer learning. We transfer the output of radial basis function hidden processing units, whose means, covariances and overall size are determined by Gaussian mixture models, to the recurrent reinforcement learner and baseline momentum trader. Thus the intrinsic nature of the feature space is learnt and made available to the upstream models. The recurrent reinforcement learning trader achieves an annualised portfolio information ratio of 0.52 with compound return of 9.3%, net of execution and funding cost, over a 7 year test set. This is despite forcing the model to trade at the close of the trading day 5pm EST, when trading costs are statistically the most expensive. These results are comparable with the momentum baseline trader, reflecting the low interest differential environment since the the 2008 financial crisis, and very obvious currency trends since then. The recurrent reinforcement learner does nevertheless maintain an important advantage, in that the model's weights can be adapted to reflect the different sources of profit and loss variation. This is demonstrated visually by a USDRUB trading agent, who learns to target different positions, that reflect trading in the absence or presence of cost.
翻訳日:2021-10-16 17:05:18 公開日:2021-10-10
# (参考訳) 不均衡データセット上の畳み込みニューラルネットワークを用いた時系列分類 [全文訳有]

Time Series Classification Using Convolutional Neural Network On Imbalanced Datasets ( http://arxiv.org/abs/2110.04748v1 )

ライセンス: CC BY 4.0
Syed Rawshon Jamil(参考訳) 時系列分類(tsc)は、医学データマイニングや天気予報など、さまざまな分野に幅広く適用されているため、文学において多くの注目を集めている。 TSCアルゴリズムはバランスの取れたデータセットのために設計されているが、ほとんどのリアルタイム時系列データセットは不均衡である。 スキュード分布は、クラス分離性の低い条件下で、距離ベースアルゴリズムと特徴ベースアルゴリズムの両方において時系列分類の問題である。 この不均衡問題に対処するために,サンプリングベースとアルゴリズムアプローチの両方を用いる。 異なる方法は、不均衡データセットにおける時系列分類の性能を大幅に改善する。 不均衡率が高いにもかかわらず、シミュレーションされたTwoPatterns DatasetではFスコアが97.6%に達する可能性がある。

Time Series Classification (TSC) has drawn a lot of attention in literature because of its broad range of applications for different domains, such as medical data mining, weather forecasting. Although TSC algorithms are designed for balanced datasets, most real-life time series datasets are imbalanced. The Skewed distribution is a problem for time series classification both in distance-based and feature-based algorithms under the condition of poor class separability. To address the imbalance problem, both sampling-based and algorithmic approaches are used in this paper. Different methods significantly improve time series classification's performance on imbalanced datasets. Despite having a high imbalance ratio, the result showed that F score could be as high as 97.6% for the simulated TwoPatterns Dataset.
翻訳日:2021-10-16 16:47:40 公開日:2021-10-10
# (参考訳) 機械学習手法の開発に基づくパン蒸発のモデル化

Modeling of Pan Evaporation Based on the Development of Machine Learning Methods ( http://arxiv.org/abs/2110.04749v1 )

ライセンス: CC BY 4.0
Mustafa Al-Mukhtar(参考訳) 水資源の効率的な計画・管理とそれに関連する戦略の実施には,特に干ばつがちな地域では,蒸発損失の適切な推定が重要である。 気温、風速、日照時間、湿度、太陽放射の変化などの気候要因の変化は蒸発過程に大きな影響を与える可能性がある。 このように、蒸発は高度に非線形で非定常な過程であり、特に異なるアグロ気候条件において、気候要因に基づいてモデル化することが困難である。 そこで本研究では,数種類の機械学習モデル(条件付きランダムフォレスト回帰,多変量適応回帰スプライン,タグ付き多変量適応回帰スプライン,モデルツリーM5,Knearest近傍,および重み付きK近傍)が,毎月のパン蒸発推定をモデル化する可能性について検討する。 本研究では,これらの地域で利用可能な気候データに基づいて,イラクの3つの異なる地域での蒸発損失をモデル化するためのMLモデルの開発を提案する。 様々な評価基準に基づき, 提案モデルの性能評価を行った結果, 評価指標として用いた他のモデルと比較して, 研究領域における月々蒸発損失を精度良くモデル化する上で, 重み付きk近傍モデルの有用性が示された。

For effective planning and management of water resources and implementation of the related strategies, it is important to ensure proper estimation of evaporation losses, especially in regions that are prone to drought. Changes in climatic factors, such as changes in temperature, wind speed, sunshine hours, humidity, and solar radiation can have a significant impact on the evaporation process. As such, evaporation is a highly non-linear, non-stationary process, and can be difficult to be modeled based on climatic factors, especially in different agro-climatic conditions. The aim of this study, therefore, is to investigate the feasibility of several machines learning (ML) models (conditional random forest regression, Multivariate Adaptive Regression Splines, Bagged Multivariate Adaptive Regression Splines, Model Tree M5, K- nearest neighbor, and the weighted K- nearest neighbor) for modeling the monthly pan evaporation estimation. This study proposes the development of newly explored ML models for modeling evaporation losses in three different locations over the Iraq region based on the available climatic data in such areas. The evaluation of the performance of the proposed model based on various evaluation criteria showed the capability of the proposed weighted K- nearest neighbor model in modeling the monthly evaporation losses in the studies areas with better accuracy when compared with the other existing models used as a benchmark in this study.
翻訳日:2021-10-16 16:39:53 公開日:2021-10-10
# (参考訳) データ摂動下でのリミットオーダーブック表現はどの程度堅牢か? [全文訳有]

How Robust are Limit Order Book Representations under Data Perturbation? ( http://arxiv.org/abs/2110.04752v1 )

ライセンス: CC BY 4.0
Yufei Wu, Mahmoud Mahfouz, Daniele Magazzeni, Manuela Veloso(参考訳) 金融分野における機械学習モデルの成功は、データ表現の品質に大きく依存しています。 本稿では,リミットオーダーブックデータの表現に着目し,そのようなデータの表現を学習する機会と課題について議論する。 また,既存の表現に関する問題点を実験的に解析し,この分野における今後の研究の指針を示す。

The success of machine learning models in the financial domain is highly reliant on the quality of the data representation. In this paper, we focus on the representation of limit order book data and discuss the opportunities and challenges for learning representations of such data. We also experimentally analyse the issues associated with existing representations and present a guideline for future research in this area.
翻訳日:2021-10-16 16:38:14 公開日:2021-10-10
# (参考訳) デノージング拡散ガンマモデル [全文訳有]

Denoising Diffusion Gamma Models ( http://arxiv.org/abs/2110.05948v1 )

ライセンス: CC BY 4.0
Eliya Nachmani, Robin San Roman, Lior Wolf(参考訳) 生成拡散プロセスは、画像および音声生成のための新しく効果的なツールである。 既存手法では,拡散過程の基本雑音分布はガウス雑音である。 しかし、より自由度の高い分布の適合は、そのような生成モデルの性能を向上させることができる。 本研究では拡散過程における他の種類のノイズ分布について検討する。 具体的には,離散拡散ガンマモデル(ddgm)を導入し,ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。 提案手法はガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。

Generative diffusion processes are an emerging and effective tool for image and speech generation. In the existing methods, the underlying noise distribution of the diffusion process is Gaussian noise. However, fitting distributions with more degrees of freedom could improve the performance of such generative models. In this work, we investigate other types of noise distribution for the diffusion process. Specifically, we introduce the Denoising Diffusion Gamma Model (DDGM) and show that noise from Gamma distribution provides improved results for image and speech generation. Our approach preserves the ability to efficiently sample state in the training diffusion process while using Gamma noise.
翻訳日:2021-10-16 16:30:05 公開日:2021-10-10
# (参考訳) $k$-fold maxima の脂肪散乱次元 [全文訳有]

Fat-shattering dimension of $k$-fold maxima ( http://arxiv.org/abs/2110.04763v1 )

ライセンス: CC BY 4.0
Aryeh Kontorovich, Idan Attias(参考訳) 実数値関数クラスの$k$-fold のファットシェータリング次元について,改良された推定値を提供する。 後者は$k$関数を選択し、各$k$クラスから1つを選び、ポイントワイドの最大値を計算するあらゆる方法からなる。 境界は成分クラスの脂肪散乱次元の観点から記述される。 線型およびアフィン函数クラスに対しては、よりシャープな上界と一致する下界を提供し、特に$k$への最適依存を実現する。 その過程で、文学における誤った主張をいくつか指摘し、訂正する。

We provide improved estimates on the fat-shattering dimension of the $k$-fold maximum of real-valued function classes. The latter consists of all ways of choosing $k$ functions, one from each of the $k$ classes, and computing their pointwise maximum. The bound is stated in terms of the fat-shattering dimensions of the component classes. For linear and affine function classes, we provide a considerably sharper upper bound and a matching lower bound, achieving, in particular, an optimal dependence on $k$. Along the way, we point out and correct a number of erroneous claims in the literature.
翻訳日:2021-10-16 16:13:15 公開日:2021-10-10
# (参考訳) 人体運動予測のための軽量モデルへのグラフ畳み込みの適用

Application of Graph Convolutions in a Lightweight Model for Skeletal Human Motion Forecasting ( http://arxiv.org/abs/2110.04810v1 )

ライセンス: CC BY-SA 4.0
Luca Hermes, Barbara Hammer and Malte Schilling(参考訳) 運動の予測は知的システムとの協調の成功に不可欠である。 移動体の骨格構造を通した組織的空間情報の統合モデルを提案する。 この内在的な構造は,グラフ畳み込みの応用によってモデル内で活用され,比較的少数のパラメータを必要とする軽量モデルに基づく競合予測に構造化空間情報をいかに活用できるかを実証する。

Prediction of movements is essential for successful cooperation with intelligent systems. We propose a model that integrates organized spatial information as given through the moving body's skeletal structure. This inherent structure is exploited in our model through application of Graph Convolutions and we demonstrate how this allows leveraging the structured spatial information into competitive predictions that are based on a lightweight model that requires a comparatively small number of parameters.
翻訳日:2021-10-16 15:54:25 公開日:2021-10-10
# (参考訳) 非凸強凸ミニマックス問題に対する2次定常点の探索 [全文訳有]

Finding Second-Order Stationary Point for Nonconvex-Strongly-C oncave Minimax Problem ( http://arxiv.org/abs/2110.04814v1 )

ライセンス: CC BY 4.0
Luo Luo, Cheng Chen(参考訳) 対象関数は${\bf y}$ で強凸であるが、${\bf x}$ では非凸である可能性があるというような、$\min_{\bf x}\max_{\bf y} f({\bf x},{\bf y}) 形式の滑らかなミニマックス最適化問題を研究する。 この問題には、正規化GANや強化学習、対人訓練など、機械学習の多くの応用が含まれている。 勾配降下アクセントに関する既存の理論のほとんどは、一階定常点 $f({\bf x},{\bf y})$ または主関数 $p({\bf x})\triangleq \max_{\bf y} f({\bf x},{\bf y})$ を達成するための収束結果を確立することに焦点を当てている。 In this paper, we design a new optimization method via cubic Newton iterations, which could find an ${\mathcal O}\left(\varepsilon,\k appa^{1.5}\sqrt{\rho\varepsilon}\right)$-second-orde r stationary point of $P({\bf x})$ with ${\mathcal O}\left(\kappa^{1.5}\sqrt{\rho}\varepsilon^{-1.5}\right)$ second-order oracle calls and $\tilde{\mathcal O}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracle calls, where $\kappa$ is the condition number and $\rho$ is the Hessian smoothness coefficient of $f({\bf x},{\bf y})$. 高次元問題に対して,我々は,勾配降下と行列チェビシェフ展開によって不必要に立方体部分問題を解く,費用のかかる二階オラクルを回避するための変種アルゴリズムを提案する。 この戦略は、高い確率で所望の2階の静止点を得るが、$\tilde{\mathcal o}\left(\kappa^{1.5}\ell\varepsilon^{-2}\right)$ hessian-vector oracleと$\tilde{\mathcal o}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracleコールのみを必要とする。 我々の知る限りでは、凸凹仮定を伴わないミニマックス問題の2階定常点を求める非漸近収束挙動を考える最初の研究である。

We study the smooth minimax optimization problem of the form $\min_{\bf x}\max_{\bf y} f({\bf x},{\bf y})$, where the objective function is strongly-concave in ${\bf y}$ but possibly nonconvex in ${\bf x}$. This problem includes a lot of applications in machine learning such as regularized GAN, reinforcement learning and adversarial training. Most of existing theory related to gradient descent accent focus on establishing the convergence result for achieving the first-order stationary point of $f({\bf x},{\bf y})$ or primal function $P({\bf x})\triangleq \max_{\bf y} f({\bf x},{\bf y})$. In this paper, we design a new optimization method via cubic Newton iterations, which could find an ${\mathcal O}\left(\varepsilon,\k appa^{1.5}\sqrt{\rho\varepsilon}\right)$-second-orde r stationary point of $P({\bf x})$ with ${\mathcal O}\left(\kappa^{1.5}\sqrt{\rho}\varepsilon^{-1.5}\right)$ second-order oracle calls and $\tilde{\mathcal O}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracle calls, where $\kappa$ is the condition number and $\rho$ is the Hessian smoothness coefficient of $f({\bf x},{\bf y})$. For high-dimensional problems, we propose an variant algorithm to avoid expensive cost form second-order oracle, which solves the cubic sub-problem inexactly via gradient descent and matrix Chebyshev expansion. This strategy still obtains desired approximate second-order stationary point with high probability but only requires $\tilde{\mathcal O}\left(\kappa^{1.5}\ell\varepsilon^{-2}\right)$ Hessian-vector oracle and $\tilde{\mathcal O}\left(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\right)$ first-order oracle calls. To the best of our knowledge, this is the first work considers non-asymptotic convergence behavior of finding second-order stationary point for minimax problem without convex-concave assumption.
翻訳日:2021-10-16 15:53:38 公開日:2021-10-10
# (参考訳) タスクによる地震画像の深部ベイズ推定

Deep Bayesian inference for seismic imaging with tasks ( http://arxiv.org/abs/2110.04825v1 )

ライセンス: CC BY 4.0
Ali Siahkoohi and Gabrio Rizzuti and Felix J. Herrmann(参考訳) 本稿では,ベイズ推定と深部ニューラルネットワークの手法を用いて,地平線追跡などの画像上のタスクにおける不確実性から不確実性への変換を提案する。 地震イメージングは、帯域幅と開口限界が避けられないため、ノイズや線形化誤差の存在によって妨げられる不測の逆問題である。 変換領域の疎大化促進など多くの正規化手法は、これらの誤差の悪影響に対処するために設計されているが、これらの手法は解の偏りのリスクを負い、画像空間における不確実性に関する情報を提供していない。 画像中のノイズによる不確かさを、自動的に追跡された地平線の信頼区間に翻訳する体系的手法を提案する。 不確かさは畳み込みニューラルネットワーク(cnn)によって特徴づけられ、これらの不確かさを評価するために、サンプルは画像のパラメータ化に用いられるcnn重みの後方分布から引き出される。 従来の先行研究と比べて、文献ではこれらのcnnは柔軟な帰納的バイアスを導入し、画像の様々な領域に驚くほど適していると論じられている。 確率勾配ランゲヴィン力学の手法は、後部分布からサンプリングするために用いられる。 この手法は, 地震探査のような計算コストの高いフォワード演算子を用いた大規模ベイズ推定問題を扱うように設計されている。 過度に適合しがちな後方推定値に対する頑健な代替手段を提供する以外に、これらのサンプルへのアクセスにより、データのノイズにより画像内の不確かさを、追跡された地平線上の不確実性に変換することができる。 例えば、画像上の点方向の標準偏差と、自動的に追跡される地平線上の信頼区間の推定を許容する。

We propose to use techniques from Bayesian inference and deep neural networks to translate uncertainty in seismic imaging to uncertainty in tasks performed on the image, such as horizon tracking. Seismic imaging is an ill-posed inverse problem because of unavoidable bandwidth and aperture limitations, which that is hampered by the presence of noise and linearization errors. Many regularization methods, such as transform-domain sparsity promotion, have been designed to deal with the adverse effects of these errors, however, these methods run the risk of biasing the solution and do not provide information on uncertainty in the image space and how this uncertainty impacts certain tasks on the image. A systematic approach is proposed to translate uncertainty due to noise in the data to confidence intervals of automatically tracked horizons in the image. The uncertainty is characterized by a convolutional neural network (CNN) and to assess these uncertainties, samples are drawn from the posterior distribution of the CNN weights, used to parameterize the image. Compared to traditional priors, in the literature it is argued that these CNNs introduce a flexible inductive bias that is a surprisingly good fit for many diverse domains in imaging. The method of stochastic gradient Langevin dynamics is employed to sample from the posterior distribution. This method is designed to handle large scale Bayesian inference problems with computationally expensive forward operators as in seismic imaging. Aside from offering a robust alternative to maximum a posteriori estimate that is prone to overfitting, access to these samples allow us to translate uncertainty in the image, due to noise in the data, to uncertainty on the tracked horizons. For instance, it admits estimates for the pointwise standard deviation on the image and for confidence intervals on its automatically tracked horizons.
翻訳日:2021-10-16 14:26:50 公開日:2021-10-10
# (参考訳) FLAME:マルチモーダル・ゲイズ推定による顔のランドマークヒートマップ [全文訳有]

FLAME: Facial Landmark Heatmap Activated Multimodal Gaze Estimation ( http://arxiv.org/abs/2110.04828v1 )

ライセンス: CC BY 4.0
Neelabh Sinha, Michal Balazia, and Fran\c{c}ois Bremond(参考訳) 3次元視線推定は、3次元空間内の人の視線を予測することである。 同じ個人非依存モデルでは、被験者の解剖学的差異による精度の欠如があるが、個人固有の校正手法はスケーラビリティに厳しい制約を加える。 これらの課題を克服するために,眼のランドマーク・ヒートマップを用いた眼解剖情報を組み合わせて,人ごとのキャリブレーションを伴わずに正確な視線推定を行う新しい手法であるFacial Landmark Heatmap Activated Multimodal Gaze Estimation (FLAME)を提案する。 評価の結果,ベンチマークデータセットであるColumbiaGazeとEYEDIAPの競合性能は約10%向上した。 また, この方法を検証するため, アブレーション試験を行った。

3D gaze estimation is about predicting the line of sight of a person in 3D space. Person-independent models for the same lack precision due to anatomical differences of subjects, whereas person-specific calibrated techniques add strict constraints on scalability. To overcome these issues, we propose a novel technique, Facial Landmark Heatmap Activated Multimodal Gaze Estimation (FLAME), as a way of combining eye anatomical information using eye landmark heatmaps to obtain precise gaze estimation without any person-specific calibration. Our evaluation demonstrates a competitive performance of about 10% improvement on benchmark datasets ColumbiaGaze and EYEDIAP. We also conduct an ablation study to validate our method.
翻訳日:2021-10-16 14:25:33 公開日:2021-10-10
# (参考訳) 2人のプレーヤーゼロサム同時アクションゲームにおける強化学習 [全文訳有]

Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games ( http://arxiv.org/abs/2110.04835v1 )

ライセンス: CC BY 4.0
Patrick Phillips(参考訳) 2人のプレイヤーゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。 まず,強化学習の基本概念を2つのプレイヤゼロサム同時アクションゲームで紹介し,この種のゲームポーズのユニークな課題について考察する。 次に,dqn (joint action deep q-networks) を用いて,これらの課題に対処する新たなエージェントを2つ紹介する。 第一のエージェントはbest response agent(brat)と呼ばれ、模倣学習を用いて相手のポリシーの明示的なモデルを構築し、そのモデルを使って相手の戦略を利用するのに最適なレスポンスを見つける。 第2のエージェントであるMeta-Nash DQNは、Q値計算の一部として使用されるコンテキスト変数を生成するために、相手のポリシーの暗黙のモデルを構築する。 Q-値上の明示的なミニマックスは、ナッシュ平衡に近い作用を見つけるために用いられる。 両エージェントが単純な行列ゲームに対する自己プレイ設定においてナッシュ平衡に収束すると同時に、より大きな状態とアクション空間を持つゲームでもうまく機能することを示す。 これらの新しいアルゴリズムは、バニラrlアルゴリズムと最新の art multi-agent アルゴリズムと 2 つのエージェントアルゴリズムに対して評価される。 この研究は、伝統的な強化学習、ゲーム理論、メタ学習のアイデアを組み合わせている。

Two player zero sum simultaneous action games are common in video games, financial markets, war, business competition, and many other settings. We first introduce the fundamental concepts of reinforcement learning in two player zero sum simultaneous action games and discuss the unique challenges this type of game poses. Then we introduce two novel agents that attempt to handle these challenges by using joint action Deep Q-Networks (DQN). The first agent, called the Best Response AgenT (BRAT), builds an explicit model of its opponent's policy using imitation learning, and then uses this model to find the best response to exploit the opponent's strategy. The second agent, Meta-Nash DQN, builds an implicit model of its opponent's policy in order to produce a context variable that is used as part of the Q-value calculation. An explicit minimax over Q-values is used to find actions close to Nash equilibrium. We find empirically that both agents converge to Nash equilibrium in a self-play setting for simple matrix games, while also performing well in games with larger state and action spaces. These novel algorithms are evaluated against vanilla RL algorithms as well as recent state of the art multi-agent and two agent algorithms. This work combines ideas from traditional reinforcement learning, game theory, and meta learning.
翻訳日:2021-10-16 14:14:39 公開日:2021-10-10
# (参考訳) 重球ニューラル常微分方程式 [全文訳有]

Heavy Ball Neural Ordinary Differential Equations ( http://arxiv.org/abs/2110.04840v1 )

ライセンス: CC BY 4.0
Hedi Xia, Vai Suliafu, Hangjie Ji, Tan M. Nguyen, Andrea L. Bertozzi, Stanley J. Osher, Bao Wang(参考訳) 本研究では,古典的運動量加速勾配降下の連続限界を利用して,重球型ニューラル常微分方程式(hbノード)を提案する。 HBNODE には、NODE に対して実用的な利点を示す2つの特性がある。 i) HBNODE の随伴状態も HBNODE を満足し,前後のODE ソルバを高速化し,機能評価(NFE)の数を著しく削減し,訓練されたモデルの有用性を向上させる。 (II)HBNODEのスペクトルはよく構造化されており、複雑なシーケンシャルデータから長期依存を効果的に学習することができる。 我々は、画像分類、複雑な力学の学習、逐次モデリングなど、ベンチマークタスクにおけるHBNODEの利点を検証する。 提案手法は, 前方および後方のNFEを著しく少なくし, より正確で, 他のODEベースニューラルネットワークモデルよりも長期間の依存関係を効果的に学習する。 コードは \url{https://github.com/h edixia/heavyballnode } で入手できる。

We propose heavy ball neural ordinary differential equations (HBNODEs), leveraging the continuous limit of the classical momentum accelerated gradient descent, to improve neural ODEs (NODEs) training and inference. HBNODEs have two properties that imply practical advantages over NODEs: (i) The adjoint state of an HBNODE also satisfies an HBNODE, accelerating both forward and backward ODE solvers, thus significantly reducing the number of function evaluations (NFEs) and improving the utility of the trained models. (ii) The spectrum of HBNODEs is well structured, enabling effective learning of long-term dependencies from complex sequential data. We verify the advantages of HBNODEs over NODEs on benchmark tasks, including image classification, learning complex dynamics, and sequential modeling. Our method requires remarkably fewer forward and backward NFEs, is more accurate, and learns long-term dependencies more effectively than the other ODE-based neural network models. Code is available at \url{https://github.com/h edixia/HeavyBallNODE }.
翻訳日:2021-10-16 14:01:16 公開日:2021-10-10
# (参考訳) 自己監督型モデルからのFew-shot学習におけるテキスト挿入と言語間スーパービジョン [全文訳有]

Injecting Text and Cross-lingual Supervision in Few-shot Learning from Self-Supervised Models ( http://arxiv.org/abs/2110.04863v1 )

ライセンス: CC BY 4.0
Matthew Wiesner, Desh Raj, Sanjeev Khudanpur(参考訳) 自己監督型モデル事前学習は近年大きな関心を集めているが、これらのモデルを微調整する際の追加資源の利用についての研究は比較的少ない。 新しい言語への事前学習による自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。 また,lf-mmi(lattce-free maximum mutual information)目標を用いて,目標言語テキストの微調整の実現と改善を行う方法を示す。 3つの低リソース言語では、これらの技術は数ショットの学習性能を大幅に改善した。

Self-supervised model pre-training has recently garnered significant interest, but relatively few efforts have explored using additional resources in fine-tuning these models. We demonstrate how universal phoneset acoustic models can leverage cross-lingual supervision to improve transfer of pretrained self-supervised representations to new languages. We also show how target-language text can be used to enable and improve fine-tuning with the lattice-free maximum mutual information (LF-MMI) objective. In three low-resource languages these techniques greatly improved few-shot learning performance.
翻訳日:2021-10-16 13:25:42 公開日:2021-10-10
# (参考訳) Scope2Screen:多変量画像データにおける病理診断のためのフォーカス+コンテキスト技術 [全文訳有]

Scope2Screen: Focus+Context Techniques for Pathology Tumor Assessment in Multivariate Image Data ( http://arxiv.org/abs/2110.04875v1 )

ライセンス: CC BY 4.0
Jared Jessup (1 and 2), Robert Krueger (1 and 2 and 3), Simon Warchol (2), John Hoffer (3), Jeremy Muhlich (3), Cecily C. Ritch (4), Giorgio Gaglia (4), Shannon Coy (4), Yu-An Chen (3), Jia-Ren Lin (3), Sandro Santagata (4), Peter K. Sorger (3), Hanspeter Pfister (1) ((1) Robert Krueger and Jared Jessup contributed equally to this work, (2) School of Engineering and Applied Sciences, Harvard University, (3) Laboratory of Systems Pharmacology, Harvard Medical School, (4) Brigham and Women's Hospital, Harvard Medical School)(参考訳) 光顕微鏡による組織検査は、多くの疾患、特に癌を診断する主要な方法である。 高多重組織イメージングはこの基盤の上に構築されており、最大60チャンネルの分子情報と抗体染色を用いた細胞および組織形態の収集を可能にする。 これは疾患生物学に独自の洞察を与え、患者固有の治療法の設計に役立てることを約束する。 しかし、結果として生じる多変量画像データの可視化と、スクリーン上のデジタル環境における病理ワークフローの効果的サポートに関して、大きなギャップが残っている。 そこで我々は,フォーカス+コンテキスト探索のためのスケーラブルなソフトウェアシステムである scope2screen を開発した。 提案手法は, 数百万セルを含む1チャネルあたり10^9以上の100GBの画像を解析する。 可視化の専門家、マイクロスコピスト、病理学者の多学際チームは、roisの発見、拡大、定量化、組織化を含む重要な画像探索とアノテーションタスクを直感的かつ凝集的な方法で特定した。 scope2screenのメタファーに基づいて,単細胞および組織レベルでのインタラクティブレンズ技術を提案する。 レンズはタスク固有の機能と記述統計を備えており、画像の特徴、セルタイプ、空間配置(近隣)を画像チャンネルやスケールで分析することができる。 高速なスライドウインドウ検索は、レンズの下にあるものに似た領域にユーザーを誘導し、これらの領域を別々に分析し、より大きな画像収集の一部として考慮することができる。 新たなスナップショット手法により、リンクされたレンズ構成と画像統計情報を保存、復元、共有することができる。 肺がんと大腸癌の2つの症例にScop2Screenを応用し, がん関連画像の特徴について検討した。

Inspection of tissues using a light microscope is the primary method of diagnosing many diseases, notably cancer. Highly multiplexed tissue imaging builds on this foundation, enabling the collection of up to 60 channels of molecular information plus cell and tissue morphology using antibody staining. This provides unique insight into disease biology and promises to help with the design of patient-specific therapies. However, a substantial gap remains with respect to visualizing the resulting multivariate image data and effectively supporting pathology workflows in digital environments on screen. We, therefore, developed Scope2Screen, a scalable software system for focus+context exploration and annotation of whole-slide, high-plex, tissue images. Our approach scales to analyzing 100GB images of 10^9 or more pixels per channel, containing millions of cells. A multidisciplinary team of visualization experts, microscopists, and pathologists identified key image exploration and annotation tasks involving finding, magnifying, quantifying, and organizing ROIs in an intuitive and cohesive manner. Building on a scope2screen metaphor, we present interactive lensing techniques that operate at single-cell and tissue levels. Lenses are equipped with task-specific functionality and descriptive statistics, making it possible to analyze image features, cell types, and spatial arrangements (neighborhoods) across image channels and scales. A fast sliding-window search guides users to regions similar to those under the lens; these regions can be analyzed and considered either separately or as part of a larger image collection. A novel snapshot method enables linked lens configurations and image statistics to be saved, restored, and shared. We validate our designs with domain experts and apply Scope2Screen in two case studies involving lung and colorectal cancers to discover cancer-relevant image features.
翻訳日:2021-10-15 12:26:39 公開日:2021-10-10
# (参考訳) グラフと事前学習言語モデルの注意に基づく自動テキスト抽出要約について [全文訳有]

On Automatic Text Extractive Summarization Based on Graph and pre-trained Language Model Attention ( http://arxiv.org/abs/2110.04878v1 )

ライセンス: CC BY 4.0
Yuan-Ching Lin, Jinwen Ma(参考訳) 要約課題を解決するためにテキストをグラフとして表現することは10年以上にわたって議論されてきた。 しかし、注意やトランスフォーマーが発達するにつれ、注意とグラフのつながりは未だよく分かっていない。 注意重みによって文間の関係を表す注意行列を用いてテキスト構造を解析できることを実証する。 本研究では,事前学習言語モデルで生成された注意行列をグラフ畳み込みネットワークモデルの隣接行列として使用できることを示す。 我々のモデルは、ルージュインデックスに基づいて2つの異なるデータセットで競合結果を得る。 また、パラメータの少ないモデルでは、トレーニングや推論時の計算リソースが削減される。

Representing text as graph to solve the summarization task has been discussed for more than 10 years. However, with the development of attention or Transformer, the connection between attention and graph remains poorly understood. We demonstrate that the text structure can be analyzed through the attention matrix, which represents the relation between sentences by the attention weights. In this work, we show that the attention matrix produced in pre-training language model can be used as the adjacent matrix of graph convolutional network model. Our model performs a competitive result on 2 different datasets based on the ROUGE index. Also, with fewer parameters, the model reduces the computation resource when training and inferring.
翻訳日:2021-10-15 11:57:01 公開日:2021-10-10
# (参考訳) 空間的文脈表現を用いたマルチクラス細胞検出 [全文訳有]

Multi-Class Cell Detection Using Spatial Context Representation ( http://arxiv.org/abs/2110.04886v1 )

ライセンス: CC BY 4.0
Shahira Abousamra, David Belinsky, John Van Arnam, Felicia Allard, Eric Yee, Rajarsi Gupta, Tahsin Kurc, Dimitris Samaras, Joel Saltz, Chao Chen(参考訳) デジタル病理学では、細胞の検出と分類は、自動診断と予後診断に重要である。 細胞を腫瘍細胞、リンパ球、間質細胞などのサブタイプに分類することは特に困難である。 既存の方法は個々の細胞の形態学的外観に焦点をあてるが、実際には病理学者は空間的文脈を通してしばしば細胞クラスを推測する。 本稿では,空間的文脈情報を明示的に包含する新しい検出法と分類法を提案する。 空間統計関数を用いて,マルチクラスとマルチスケールの両方で局所密度を記述する。 表現学習と深層クラスタリング技術を通じて,外観と空間コンテキストの両方で高度な細胞表現を学習する。 様々なベンチマークにおいて,本手法は最先端技術,特に分類タスクよりも優れた性能を実現する。

In digital pathology, both detection and classification of cells are important for automatic diagnostic and prognostic tasks. Classifying cells into subtypes, such as tumor cells, lymphocytes or stromal cells is particularly challenging. Existing methods focus on morphological appearance of individual cells, whereas in practice pathologists often infer cell classes through their spatial context. In this paper, we propose a novel method for both detection and classification that explicitly incorporates spatial contextual information. We use the spatial statistical function to describe local density in both a multi-class and a multi-scale manner. Through representation learning and deep clustering techniques, we learn advanced cell representation with both appearance and spatial context. On various benchmarks, our method achieves better performance than state-of-the-arts, especially on the classification task.
翻訳日:2021-10-15 11:49:43 公開日:2021-10-10
# (参考訳) 知識ベースとしての言語モデル [全文訳有]

Language Models As or For Knowledge Bases ( http://arxiv.org/abs/2110.04888v1 )

ライセンス: CC BY 4.0
Simon Razniewski, Andrew Yates, Nora Kassner, Gerhard Weikum(参考訳) 事前学習された言語モデル(lms)は、最近、明示的な知識ベース(kbs)の代替(あるいは代替)として注目を集めている。 本稿では,この仮説を検証し,lms と kbs の強みと限界を特定し,両パラダイムの相補的性質について考察する。 特に、潜在 lms は明示的な kb の代用として適さないが、kb の強化とキュレーションには大きな役割を果たす可能性があるという定性的な議論がある。

Pre-trained language models (LMs) have recently gained attention for their potential as an alternative to (or proxy for) explicit knowledge bases (KBs). In this position paper, we examine this hypothesis, identify strengths and limitations of both LMs and KBs, and discuss the complementary nature of the two paradigms. In particular, we offer qualitative arguments that latent LMs are not suitable as a substitute for explicit KBs, but could play a major role for augmenting and curating KBs.
翻訳日:2021-10-15 10:38:57 公開日:2021-10-10
# (参考訳) 遠隔指導型エビデンス検索は,エビデンスアノテーションなしで質問応答を可能にする

Distantly-Supervised Evidence Retrieval Enables Question Answering without Evidence Annotation ( http://arxiv.org/abs/2110.04889v1 )

ライセンス: CC BY 4.0
Chen Zhao, Chenyan Xiong, Jordan Boyd-Graber, Hal Daum\'e III(参考訳) オープンドメインの質問応答は、大きなコーパスから取得した証拠に基づいて質問に答える。 最先端のニューラルネットワークアプローチには、トレーニングのための中間的なエビデンスアノテーションが必要です。 しかし、このような中間アノテーションは高価であり、それらに依存するメソッドは、質問と回答のペアのみが利用できるより一般的な設定に転送できない。 本稿では,大規模なコーパスからモデルが証拠を見つけることができるかどうかを,モデル学習のための回答ラベルから遠ざかっているだけで,追加のアノテーションコストは発生しない。 我々は,最新のモデルから証拠を交互に発見し,最も可能性の高い証拠を学習するよう促すことにより,弱いレトリバーよりも反復的に改善する新しいアプローチ(DistDR)を提案する。 証拠ラベルを一切使わずに、DistDRはマルチホップとシングルホップのQAベンチマークの両方で完全に監督された最先端の手法と同等である。 我々の分析では、DistDRは反復よりも正確な証拠を見つけ、モデルの改善につながります。

Open-domain question answering answers a question based on evidence retrieved from a large corpus. State-of-the-art neural approaches require intermediate evidence annotations for training. However, such intermediate annotations are expensive, and methods that rely on them cannot transfer to the more common setting, where only question-answer pairs are available. This paper investigates whether models can learn to find evidence from a large corpus, with only distant supervision from answer labels for model training, thereby generating no additional annotation cost. We introduce a novel approach (DistDR) that iteratively improves over a weak retriever by alternately finding evidence from the up-to-date model and encouraging the model to learn the most likely evidence. Without using any evidence labels, DistDR is on par with fully-supervised state-of-the-art methods on both multi-hop and single-hop QA benchmarks. Our analysis confirms that DistDR finds more accurate evidence over iterations, which leads to model improvements.
翻訳日:2021-10-14 13:04:35 公開日:2021-10-10
# (参考訳) 両方の世界を最大限に活用する:音声認識のための2パスハイブリッドとE2Eカスケーディングフレームワーク [全文訳有]

Have best of both worlds: two-pass hybrid and E2E cascading framework for speech recognition ( http://arxiv.org/abs/2110.04891v1 )

ライセンス: CC BY 4.0
Guoli Ye, Vadim Mazalov, Jinyu Li and Yifan Gong(参考訳) ハイブリッド・エンド・ツー・エンド(E2E)システムには,音声認識結果に異なる誤りパターンがある。 オーディオとテキストを共同でモデル化することで、e2eモデルは、マッチしたシナリオでパフォーマンスが向上し、大量のペアオーディオテキストトレーニングデータとうまく連携する。 モジュール化されたハイブリッドモデルはカスタマイズが容易であり、大量の非ペアテキストデータを使うのがよい。 本稿では,ハイブリッドとE2Eモデルを組み合わせた2パスハイブリッドとE2Eカスケーディング(HEC)フレームワークを提案する。 提案方式は,各システムに対して8~10%の単語誤り率削減を実現することを示す。 さらに重要なことは、純粋なE2Eシステムと比較して、提案システムは、例えば、カスタマイズやセグメンテーション機能といったハイブリッドシステムの利点を維持することができることを示している。 また,HECにおける第2パスE2Eモデルは,第1パスハイブリッドモデルの変化に対して頑健であることを示す。

Hybrid and end-to-end (E2E) systems have their individual advantages, with different error patterns in the speech recognition results. By jointly modeling audio and text, the E2E model performs better in matched scenarios and scales well with a large amount of paired audio-text training data. The modularized hybrid model is easier for customization, and better to make use of a massive amount of unpaired text data. This paper proposes a two-pass hybrid and E2E cascading (HEC) framework to combine the hybrid and E2E model in order to take advantage of both sides, with hybrid in the first pass and E2E in the second pass. We show that the proposed system achieves 8-10% relative word error rate reduction with respect to each individual system. More importantly, compared with the pure E2E system, we show the proposed system has the potential to keep the advantages of hybrid system, e.g., customization and segmentation capabilities. We also show the second pass E2E model in HEC is robust with respect to the change in the first pass hybrid model.
翻訳日:2021-10-14 12:53:05 公開日:2021-10-10
# (参考訳) 言葉は人間の言葉の量か? 量子認知領域の拡張 [全文訳有]

Are Words the Quanta of Human Language? Extending the Domain of Quantum Cognition ( http://arxiv.org/abs/2110.04913v1 )

ライセンス: CC BY 4.0
Diederik Aerts and Lester Beltran(参考訳) 量子構造は、人間の認知における量子認知領域の状況を記述するのに関係があり、量子情報理論の領域における情報検索や自然言語処理にも多用された。 本稿では,最近の先行研究に基づいて,すでに特定されている量子構造に加えて,人間の認知にも量子化が存在することを示す。 これは人間の言語の量子として振る舞う言葉の形で、光子が電磁放射の量子として振る舞うのと非常に類似している。 我々は、ボース・アインシュタイン統計が完全モデルを提供し、マクスウェル・ボルツマン統計が完全に不適切であることを示す例のテキストでこれを説明する。 量子粒子の区別不能性のように、特定の形の絡み合いが生じるが、これも言葉で起こる。 この絡み合いを調べ、フォン・ノイマンのエントロピーと単語の密度行列の非純度を計算し、非局所性が自発的に発生することに注意する。 我々は,本論文で提案するような統計解析に基づいて,人間社会の文化層に対する量子力学開発の可能性の観点から,これらの結果を解釈する。

Quantum structures were identified as relevant for describing situations occurring in human cognition in the domain of quantum cognition and were also fruitfully used in information retrieval and natural language processing in the domain of quantum information theory. In the present article, we build on recent prior work and show that additionally to the already identified quantum structures also quantization is present in human cognition. It appears in the form of the words behaving as quanta of human language, very analogous to how photons behave as quanta of electromagnetic radiation. We illustrate this by showing on an example text that Bose-Einstein statistics provides a perfect model while Maxwell-Boltzmann statistics is totally inadequate. Like the indistinguishability of quantum particles introduces a specific form of entanglement this also happens with words. We investigate this entanglement, compute the von Neumann entropy and the amount of non purity of the density matrices of the words and note that non-locality occurs spontaneously. We interpret these results in terms of the prospect of developing a quantum-inspired thermodynamics for the cultural layer of human society, based on a statistical analysis similar to what we propose in this article.
翻訳日:2021-10-14 12:40:31 公開日:2021-10-10
# (参考訳) オンデマンド物体検出用モルファス検出器 [全文訳有]

Morphable Detector for Object Detection on Demand ( http://arxiv.org/abs/2110.04917v1 )

ライセンス: CC BY 4.0
Xiangyun Zhao, Xu Zou, Ying Wu(参考訳) インテリジェントロボットの新しい応用の多くは、新しい環境を探索し理解し、最小限のオンライン努力で新しいクラスのオブジェクトをその場で検出することが望ましい。 これは、オンデマンド(ODOD)タスクにおけるオブジェクト検出である。 大量のデータをオンザフライでアノテートすることは不可能であり、組み込みシステムは通常、トレーニングに不可欠なバックプロパゲーションを実行することができないため、難しい。 既存の少数ショット検出手法のほとんどは、追加のトレーニングを必要とするため、ここで対決される。 少数のサンプルから推定される変更可能なパラメータのいくつかをオンライン上で"モルフォロジー"して,新たなクラスをトレーニングなしで検出する,新たなモーフィナブル検出器(md)を提案する。 MDには2つのパラメータセットがあり、1つは特徴埋め込み用、もう1つはクラス表現用である("prototypes"と呼ばれる)。 各クラスは、ビジュアルとセマンティックの埋め込みを統合することで学習される隠れたプロトタイプに関連付けられている。 MDの学習は、新しいクラスのいくつかのサンプルから未知のプロトタイプを復元できるEMライクなアプローチで、機能の埋め込みとプロトタイプの交互に学習することに基づいている。 MDが学習されると、新しいクラスのいくつかのサンプルを使用して、そのプロトタイプを直接計算してオンラインモーフィングプロセスを満たすことができる。 我々は,Pascal,COCO,FSODデータセットにおけるMDの優位性を示した。 コードはhttps://github.com/z haoxiangyun/morphabl e-detectorで入手できる。

Many emerging applications of intelligent robots need to explore and understand new environments, where it is desirable to detect objects of novel classes on the fly with minimum online efforts. This is an object detection on demand (ODOD) task. It is challenging, because it is impossible to annotate a large number of data on the fly, and the embedded systems are usually unable to perform back-propagation which is essential for training. Most existing few-shot detection methods are confronted here as they need extra training. We propose a novel morphable detector (MD), that simply "morphs" some of its changeable parameters online estimated from the few samples, so as to detect novel classes without any extra training. The MD has two sets of parameters, one for the feature embedding and the other for class representation (called "prototypes"). Each class is associated with a hidden prototype to be learned by integrating the visual and semantic embeddings. The learning of the MD is based on the alternate learning of the feature embedding and the prototypes in an EM-like approach which allows the recovery of an unknown prototype from a few samples of a novel class. Once an MD is learned, it is able to use a few samples of a novel class to directly compute its prototype to fulfill the online morphing process. We have shown the superiority of the MD in Pascal, COCO and FSOD datasets. The code is available https://github.com/Z haoxiangyun/Morphabl e-Detector.
翻訳日:2021-10-14 11:14:12 公開日:2021-10-10
# (参考訳) 重畳画像と機械学習による顕微鏡の有効視野の増大 [全文訳有]

Increasing a microscope's effective field of view via overlapped imaging and machine learning ( http://arxiv.org/abs/2110.04921v1 )

ライセンス: CC BY 4.0
Xing Yao, Vinayak Pathak, Haoran Xi, Amey Chaware, Colin Cooke, Kanghyun Kim, Shiqi Xu, Yuting Li, Timothy Dunn, Pavan Chandra Konda, Kevin C. Zhou, Roarke Horstmeyer(参考訳) この研究は、高効率自動検体分析のために単一のセンサー上で複数の独立した視野を重畳するマルチレンズ顕微鏡イメージングシステムを示す。 様々な形態的特徴の自動検出・分類・カウントは、現在、医学研究と疾患診断の両方において重要な要素となっている。 畳み込みニューラルネットワーク(CNN)は、取得したデジタル画像データから細胞数とサブセル特徴の精度を劇的に向上させているが、全体的なスループットは、通常、従来の顕微鏡の限られた空間帯域積(SBP)によって妨げられている。 ここでは, 画像重複解析ソフトウェアと共同設計した解析ソフトウェアを用いて, 白血球数やマラリア原虫数などの診断関連特徴を精度良く検出し, 精度を最小に抑えながら検出・処理スループットを複数倍に向上させることをシミュレーションおよび実験で示す。

This work demonstrates a multi-lens microscopic imaging system that overlaps multiple independent fields of view on a single sensor for high-efficiency automated specimen analysis. Automatic detection, classification and counting of various morphological features of interest is now a crucial component of both biomedical research and disease diagnosis. While convolutional neural networks (CNNs) have dramatically improved the accuracy of counting cells and sub-cellular features from acquired digital image data, the overall throughput is still typically hindered by the limited space-bandwidth product (SBP) of conventional microscopes. Here, we show both in simulation and experiment that overlapped imaging and co-designed analysis software can achieve accurate detection of diagnostically-relev ant features for several applications, including counting of white blood cells and the malaria parasite, leading to multi-fold increase in detection and processing throughput with minimal reduction in accuracy.
翻訳日:2021-10-14 11:00:42 公開日:2021-10-10
# (参考訳) タップテストと機械学習による亀裂検出による落岩事故の防止 [全文訳有]

Crack detection using tap-testing and machine learning techniques to prevent potential rockfall incidents ( http://arxiv.org/abs/2110.04923v1 )

ライセンス: CC BY 4.0
Roya Nasimi, Fernando Moreu, John Stormont(参考訳) 岩は人だけでなくインフラの安全にも危険である。 道路その他のインフラに隣接した斜面を検査し,前もって取り除くことにより,緩い岩を同定することは,予期せぬ落石事故を防止する効果的な方法である。 本稿では,潜在的な岩盤の自動点検システムを提案する。 ロボットは岩の表面を何度も叩いたりタップしたりする。 タッピングの音はロボットによって収集され、その後、壊れやすい岩を識別する意図で分類される。 収集した音響データの主成分分析 (PCA) は, き裂の種類や位置の異なる岩石と同様に, 各種条件の岩石に関連するパターンを認識するために用いられる。 PCA分類は、自動的に訓練され、試験された異なる特性の音をシミュレートした。 第2に, 深さ・形状の異なる3つの不連続な岩石試料のタッピング実験を行った。 ロボットに搭載された実際のマイクは音を記録し、データは2d空間内の3つのクラスターに分類された。 トレーニングデータを使用して、データ(テストデータ)のリマインダーを分類するモデルが作成されました。 本手法の性能を混乱行列を用いて評価する。

Rockfalls are a hazard for the safety of infrastructure as well as people. Identifying loose rocks by inspection of slopes adjacent to roadways and other infrastructure and removing them in advance can be an effective way to prevent unexpected rockfall incidents. This paper proposes a system towards an automated inspection for potential rockfalls. A robot is used to repeatedly strike or tap on the rock surface. The sound from the tapping is collected by the robot and subsequently classified with the intent of identifying rocks that are broken and prone to fall. Principal Component Analysis (PCA) of the collected acoustic data is used to recognize patterns associated with rocks of various conditions, including intact as well as rock with different types and locations of cracks. The PCA classification was first demonstrated simulating sounds of different characteristics that were automatically trained and tested. Secondly, a laboratory test was conducted tapping rock specimens with three different levels of discontinuity in depth and shape. A real microphone mounted on the robot recorded the sound and the data were classified in three clusters within 2D space. A model was created using the training data to classify the reminder of the data (the test data). The performance of the method is evaluated with a confusion matrix.
翻訳日:2021-10-14 10:45:46 公開日:2021-10-10
# 深層強化学習を用いた多条件多目的最適化

Multi-condition multi-objective optimization using deep reinforcement learning ( http://arxiv.org/abs/2110.05945v1 )

ライセンス: Link先を確認
Sejin Kim, Innyoung Kim, Donghyun You(参考訳) 深層強化学習を用いて,定義条件空間上でパレートフロントを見つける多条件多目的最適化法を初めて開発する。 単一条件で最適化を行う従来の手法とは異なり,本手法は条件と最適解との相関関係を学習する。 従来の最適化手法では解決が困難であった非線形特性を含む,改良型クルサウェベンチマーク問題と翼形状最適化問題の解法において,本手法の排他的性能について検討した。 定義条件空間上の高分解能パレートフロントは、各問題において正常に決定される。 複数の条件に対する単一条件最適化手法の複数操作と比較して, 深部強化学習に基づく多条件最適化手法は, 必要な関数評価の数を減らすことで, パレートフロントの探索を著しく高速化することを示す。 最適設計形状を有する翼翼の空力性能の解析により,多条件最適化は流動条件の異なる目標性能の大幅な低下を避けるために不可欠であることが確認された。

A multi-condition multi-objective optimization method that can find Pareto front over a defined condition space is developed for the first time using deep reinforcement learning. Unlike the conventional methods which perform optimization at a single condition, the present method learns the correlations between conditions and optimal solutions. The exclusive capability of the developed method is examined in the solutions of a novel modified Kursawe benchmark problem and an airfoil shape optimization problem which include nonlinear characteristics which are difficult to resolve using conventional optimization methods. Pareto front with high resolution over a defined condition space is successfully determined in each problem. Compared with multiple operations of a single-condition optimization method for multiple conditions, the present multi-condition optimization method based on deep reinforcement learning shows a greatly accelerated search of Pareto front by reducing the number of required function evaluations. An analysis of aerodynamics performance of airfoils with optimally designed shapes confirms that multi-condition optimization is indispensable to avoid significant degradation of target performance for varying flow conditions.
翻訳日:2021-10-13 15:37:03 公開日:2021-10-10
# 心電図信号を用いた深層学習アルゴリズムを用いた胎児性識別

Fetal Gender Identification using Machine and Deep Learning Algorithms on Phonocardiogram Signals ( http://arxiv.org/abs/2110.06131v1 )

ライセンス: Link先を確認
Reza Khanmohammadi, Mitra Sadat Mirshafiee, Mohammad Mahdi Ghassemi, Tuka Alhanai(参考訳) Phonocardiogram (PCG) 信号解析は、心臓の機械的活動を非侵襲的に解析する重要な、広く研究されている技術である。 心臓音の評価を通じて、この技術は成人の心血管疾患を自動的に診断するための予備的解決策として主に活用されているが、胎児性識別などの出生前課題は胎児心電図(FPCG)を用いて比較的研究されていない。 本研究では,シラーズ大学胎児心音データベースに一般的なpcg信号処理手法を適用し,機械学習と深層学習モデルを用いた胎児性分類における従来提案してきた特徴の適用性について検討した。 PCGデータ取得の費用対効果と実現性は、胎児心拍数(FHR)モニタリングの便利な方法であるが、様々な種類のノイズによるPCG信号の汚染の性質は、困難である。 この問題に対処するために,低パスフィルタやデノージングオートエンコーダ,ソースセパレータなど,静的および適応的なノイズ低減手法を実験した。 これまでに提案してきた広範囲の分類器をデータセットに適用し,胎児性同一性(fgi)の新たなアンサンブル法を提案する。 対象者の胎児の性別分類において,本法が基準値を大きく上回り,最大91%の精度に達した。

Phonocardiogram (PCG) signal analysis is a critical, widely-studied technology to noninvasively analyze the heart's mechanical activity. Through evaluating heart sounds, this technology has been chiefly leveraged as a preliminary solution to automatically diagnose Cardiovascular diseases among adults; however, prenatal tasks such as fetal gender identification have been relatively less studied using fetal Phonocardiography (FPCG). In this work, we apply common PCG signal processing techniques on the gender-tagged Shiraz University Fetal Heart Sounds Database and study the applicability of previously proposed features in classifying fetal gender using both Machine Learning and Deep Learning models. Even though PCG data acquisition's cost-effectiveness and feasibility make it a convenient method of Fetal Heart Rate (FHR) monitoring, the contaminated nature of PCG signals with the noise of various types makes it a challenging modality. To address this problem, we experimented with both static and adaptive noise reduction techniques such as Low-pass filtering, Denoising Autoencoders, and Source Separators. We apply a wide range of previously proposed classifiers to our dataset and propose a novel ensemble method of Fetal Gender Identification (FGI). Our method substantially outperformed the baseline and reached up to 91% accuracy in classifying fetal gender of unseen subjects.
翻訳日:2021-10-13 15:35:47 公開日:2021-10-10
# パターンによる進化的アルゴリズムの進化

Evolving Evolutionary Algorithms with Patterns ( http://arxiv.org/abs/2110.05951v1 )

ライセンス: Link先を確認
Mihai Oltean(参考訳) 本稿では,進化的アルゴリズム(eas)の新しいモデルを提案する。 このモデルは、MEP(Multi Expression Programming)技術に基づいている。 各MEP染色体は、新しい世代の個体を生成するために繰り返し使用される進化パターンをコードする。 進化したパターンは、特定の問題を解決するために使用される標準進化スキームに埋め込まれます。 関数最適化のためのいくつかの進化的アルゴリズムは、考慮されたモデルを用いて進化する。 進化的アルゴリズムは、人間によって設計された遺伝的アルゴリズムと比較される。 数値実験により、進化的アルゴリズムはいくつかのよく知られたベンチマーク問題に対する標準的なアプローチと競合することを示した。

A new model for evolving Evolutionary Algorithms (EAs) is proposed in this paper. The model is based on the Multi Expression Programming (MEP) technique. Each MEP chromosome encodes an evolutionary pattern that is repeatedly used for generating the individuals of a new generation. The evolved pattern is embedded into a standard evolutionary scheme that is used for solving a particular problem. Several evolutionary algorithms for function optimization are evolved by using the considered model. The evolved evolutionary algorithms are compared with a human-designed Genetic Algorithm. Numerical experiments show that the evolved evolutionary algorithms can compete with standard approaches for several well-known benchmarking problems.
翻訳日:2021-10-13 14:43:47 公開日:2021-10-10
# (参考訳) kurdyka-{\l}ojasiewicz不等式におけるランダム再帰の収束 [全文訳有]

Convergence of Random Reshuffling Under The Kurdyka-{\L}ojasiewicz Inequality ( http://arxiv.org/abs/2110.04926v1 )

ライセンス: CC BY 4.0
Xiao Li, Andre Milzarek, and Junwen Qiu(参考訳) 有限サム構造をもつ滑らかな非凸最適化問題に対するランダムリシャッフル法(RR)について検討した。 この方法は、ニューラルネットワークのトレーニングなど、実際に広く利用されているが、収束挙動はいくつかの限られた設定でのみ理解されている。 本稿では、よく知られたクルディカ・ロジャシエヴィチの不等式の下で、RR が生成するイテレート全体の列が収束し、ほぼ確実な意味で単一の定常点に収束する、適切なステップサイズが減少する RR に対する強い極限点収束結果を確立する。 さらに,KL指数と適度に選択された縮小ステップサイズに依存して,対応する収束率を導出する。 KL指数が$[0,\frac12]$にあるとき、収束率は$\mathcal{O}(t^{-1})$で、反復数を数える$t$である。 KL指数が$(\frac12,1)$に属するとき、我々の導出した収束率は、KL指数に依存する$q\in (0,1)$の形で$\mathcal{O}(t^{-q})$である。 標準KL不等式に基づく収束解析フレームワークは、特定の降下特性を持つアルゴリズムにのみ適用される。 注目すべきは,標準kl分析フレームワークを一般化したkl不等式に基づくステップサイズを小さくした非希薄rrの収束解析を行うことである。 分析フレームワークでは、主要なステップと中核的なアイデアをまとめています。 このフレームワークの直接的な応用として、シャッフル近位点法に対する同様の強い極限点収束結果を確立する。

We study the random reshuffling (RR) method for smooth nonconvex optimization problems with a finite-sum structure. Though this method is widely utilized in practice such as the training of neural networks, its convergence behavior is only understood in several limited settings. In this paper, under the well-known Kurdyka-Lojasiewicz (KL) inequality, we establish strong limit-point convergence results for RR with appropriate diminishing step sizes, namely, the whole sequence of iterates generated by RR is convergent and converges to a single stationary point in an almost sure sense. In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes. When the KL exponent lies in $[0,\frac12]$, the convergence is at a rate of $\mathcal{O}(t^{-1})$ with $t$ counting the iteration number. When the KL exponent belongs to $(\frac12,1)$, our derived convergence rate is of the form $\mathcal{O}(t^{-q})$ with $q\in (0,1)$ depending on the KL exponent. The standard KL inequality-based convergence analysis framework only applies to algorithms with a certain descent property. Remarkably, we conduct convergence analysis for the non-descent RR with diminishing step sizes based on the KL inequality, which generalizes the standard KL analysis framework. We summarize our main steps and core ideas in an analysis framework, which is of independent interest. As a direct application of this framework, we also establish similar strong limit-point convergence results for the shuffled proximal point method.
翻訳日:2021-10-13 10:39:03 公開日:2021-10-10
# 多目的ベイズ最適化のためのサロゲート支援基準ベクトル適応法

Surrogate-Assisted Reference Vector Adaptation to Various Pareto Front Shapes for Many-Objective Bayesian Optimization ( http://arxiv.org/abs/2110.04689v1 )

ライセンス: Link先を確認
Nobuo Namura(参考訳) 本研究では,多目的および多目的の最適化問題に対して,様々なパレート前面形状を用いたsrva法を提案する。 srvaは、目的関数のスカラー化に参照ベクトルを用いた多目的ベイズ最適化(mbo)アルゴリズムと結合する。 MBOのKriging surrogateモデルを用いて、パレートフロント形状を推定し、推定されたパレートフロントに均一に分布する適応参照ベクトルを生成する。 MBOの入力基準として、SRVAとペナルティベースの境界交差の改善が期待されている。 提案アルゴリズムは他の2つのMBOアルゴリズムと比較し,様々なパレート前面形状の問題をベンチマークする。 実験の結果, 対象関数がKrigingモデルにより合理的に近似された問題において, 提案アルゴリズムが他の2つよりも優れていた。 SRVAは、連続的で不連続で退化したパレートフロントを持つこれらの問題に対する非支配的な解の多様性を改善する。 さらに,提案アルゴリズムは,最適化の初期段階から,特に多目的問題において,はるかに優れた解を得ることができる。

We propose a surrogate-assisted reference vector adaptation (SRVA) method to solve expensive multi- and many-objective optimization problems with various Pareto front shapes. SRVA is coupled with a multi-objective Bayesian optimization (MBO) algorithm using reference vectors for scalarization of objective functions. The Kriging surrogate models for MBO is used to estimate the Pareto front shape and generate adaptive reference vectors uniformly distributed on the estimated Pareto front. We combine SRVA with expected improvement of penalty-based boundary intersection as an infill criterion for MBO. The proposed algorithm is compared with two other MBO algorithms by applying them to benchmark problems with various Pareto front shapes. Experimental results show that the proposed algorithm outperforms the other two in the problems whose objective functions are reasonably approximated by the Kriging models. SRVA improves diversity of non-dominated solutions for these problems with continuous, discontinuous, and degenerated Pareto fronts. Besides, the proposed algorithm obtains much better solutions from early stages of optimization especially in many-objective problems.
翻訳日:2021-10-12 20:55:52 公開日:2021-10-10
# 大規模MIMOシステムにおけるパワーアロケーションのためのニューラルネットワークのユニバーサル・アタック

Universal Adversarial Attacks on Neural Networks for Power Allocation in a Massive MIMO System ( http://arxiv.org/abs/2110.04731v1 )

ライセンス: Link先を確認
Pablo Mill\'an Santos, B. R. Manoj, Meysam Sadeghi, and Erik G. Larsson(参考訳) ディープラーニング(DL)アーキテクチャは、無線システムを含む多くのアプリケーションで成功している。 しかし、敵の攻撃を受けやすいことが示されている。 大規模複数入力多重出力システムにおけるダウンリンク電力割当の文脈における回帰問題に対するdlモデルの解析を行い、ホワイトボックスおよびブラックボックス攻撃として普遍逆摂動 (universal adversarial perturbation, uap) 手法を提案する。 提案するアプリケーションに対して, ホワイトボックス攻撃とブラックボックス攻撃のUAP性能をベンチマークし, 敵の成功率を最大60%, 40%まで向上できることを示す。 提案されたUAPベースの攻撃は、古典的なホワイトボックス攻撃に比べて実用的で現実的なアプローチである。

Deep learning (DL) architectures have been successfully used in many applications including wireless systems. However, they have been shown to be susceptible to adversarial attacks. We analyze DL-based models for a regression problem in the context of downlink power allocation in massive multiple-input-multi ple-output systems and propose universal adversarial perturbation (UAP)-crafting methods as white-box and black-box attacks. We benchmark the UAP performance of white-box and black-box attacks for the considered application and show that the adversarial success rate can achieve up to 60% and 40%, respectively. The proposed UAP-based attacks make a more practical and realistic approach as compared to classical white-box attacks.
翻訳日:2021-10-12 20:55:36 公開日:2021-10-10
# 音楽ムード分類のためのメタデータを用いたマルチタスク学習

Multi-task Learning with Metadata for Music Mood Classification ( http://arxiv.org/abs/2110.04765v1 )

ライセンス: Link先を確認
Rajnish Kumar and Manjeet Dahiya(参考訳) ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。 これらのアプリケーションは、音楽ストリーミングの興隆にさらに関係している。 本研究は、アーティストや年などのオーディオメタデータを利用して、気分分類モデルの性能を向上させることができるかどうかを調査するものである。 そこで本研究では,共有モデルを用いて気分予測とメタデータ予測タスクを同時に訓練し,よりリッチな表現を学習することを目的としたマルチタスク学習手法を提案する。 提案手法を既存の畳み込み畳み込みニューラルネットワークに適用することで,その性能が一貫して向上することを示す。 我々は複数のデータセットの実験を行い、我々の手法が平均精度の指標を最大8.7ポイント向上させる可能性があることを報告した。

Mood recognition is an important problem in music informatics and has key applications in music discovery and recommendation. These applications have become even more relevant with the rise of music streaming. Our work investigates the research question of whether we can leverage audio metadata such as artist and year, which is readily available, to improve the performance of mood classification models. To this end, we propose a multi-task learning approach in which a shared model is simultaneously trained for mood and metadata prediction tasks with the goal to learn richer representations. Experimentally, we demonstrate that applying our technique on the existing state-of-the-art convolutional neural networks for mood classification improves their performances consistently. We conduct experiments on multiple datasets and report that our approach can lead to improvements in the average precision metric by up to 8.7 points.
翻訳日:2021-10-12 20:55:24 公開日:2021-10-10
# 高次潜在領域における細粒度符号化によるステップワイズ音声分離ネットワーク

Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain ( http://arxiv.org/abs/2110.04791v1 )

ライセンス: Link先を確認
Zengwei Yao, Wenjie Pei, Fanglin Chen, Guangming Lu, and David Zhang(参考訳) 単一チャネル音声分離のcruxは、異なる話者からの信号を正確に分離できるような潜在埋め込み空間に信号の混合を符号化する方法である。 既存の音声分離法は、音声信号を周波数領域に変換して分離を行うか、畳み込みフィルタに基づく潜在領域を構築して分離可能な埋め込み空間を学習する。 埋め込み空間を学習する後者の方法は音声分離の大幅な改善を実現するが、潜在領域が1つだけ定義した埋め込み空間は音声分離のための完全に分離可能な符号化空間を提供するには不十分である。 本稿では,粗大な分離枠組みに従うSRSSN(Stepwise-Refin ing Speech separated Network)を提案する。 まず1次潜在領域を学習して符号化空間を定義し、粗い位相で粗い分離を行う。 そして、提案するsrssnは、既存の潜在ドメインの各基底関数に沿って新たな潜在ドメインを学習し、精錬フェーズにおいて高次潜在ドメインを得る。 我々は、WSJ0-2/3mixデータセット上のクリーン(ノイズフリー)設定や、WHAM上のノイズ/残響設定など、広範な実験を行うことで、SRSSNの有効性を実証する。 WHAMR! データセット。 さらに,分離した音声信号に対する音声認識実験を行い,間接的に音声分離の性能を評価する。

The crux of single-channel speech separation is how to encode the mixture of signals into such a latent embedding space that the signals from different speakers can be precisely separated. Existing methods for speech separation either transform the speech signals into frequency domain to perform separation or seek to learn a separable embedding space by constructing a latent domain based on convolutional filters. While the latter type of methods learning an embedding space achieves substantial improvement for speech separation, we argue that the embedding space defined by only one latent domain does not suffice to provide a thoroughly separable encoding space for speech separation. In this paper, we propose the Stepwise-Refining Speech Separation Network (SRSSN), which follows a coarse-to-fine separation framework. It first learns a 1-order latent domain to define an encoding space and thereby performs a rough separation in the coarse phase. Then the proposed SRSSN learns a new latent domain along each basis function of the existing latent domain to obtain a high-order latent domain in the refining phase, which enables our model to perform a refining separation to achieve a more precise speech separation. We demonstrate the effectiveness of our SRSSN by conducting extensive experiments, including speech separation in a clean (noise-free) setting on WSJ0-2/3mix datasets as well as in noisy/reverberant settings on WHAM!/WHAMR! datasets. Furthermore, we also perform experiments of speech recognition on separated speech signals by our model to evaluate the performance of speech separation indirectly.
翻訳日:2021-10-12 20:55:11 公開日:2021-10-10
# 孤立特異性を持つ信号に対するハイブリッド散乱変換

A Hybrid Scattering Transform for Signals with Isolated Singularities ( http://arxiv.org/abs/2110.04910v1 )

ライセンス: Link先を確認
Michael Perlmutter and Jieqian He and Mark Iwen and Matthew Hirn(参考訳) 散乱変換は、S. Mallatが最初に導入した畳み込みニューラルネットワークのウェーブレットモデルである。 Mallat氏の分析は、このネットワークが望ましい安定性と不変性を持つことを示しているため、畳み込みニューラルネットワークの初期層で学習されたフィルタは、一般的にウェーブレットに似ているという観察に役立つ。 我々の目標は、ネットワークの後半層でどんなフィルターを使うべきかを理解することです。 この目的に向けて,二層ハイブリッド散乱変換を提案する。 第1層では入力信号をウェーブレットフィルタ変換で畳み込み,第2層ではgaborフィルタを畳み込み,第1層によって生成されたスパーシティを活用する。 これらの測定は孤立特異点を持つ信号に関する情報を特徴付ける。 また,第2層で用いられるgabor測定により,第1層で生成されたようなスパース信号を合成できることを示した。

The scattering transform is a wavelet-based model of Convolutional Neural Networks originally introduced by S. Mallat. Mallat's analysis shows that this network has desirable stability and invariance guarantees and therefore helps explain the observation that the filters learned by early layers of a Convolutional Neural Network typically resemble wavelets. Our aim is to understand what sort of filters should be used in the later layers of the network. Towards this end, we propose a two-layer hybrid scattering transform. In our first layer, we convolve the input signal with a wavelet filter transform to promote sparsity, and, in the second layer, we convolve with a Gabor filter to leverage the sparsity created by the first layer. We show that these measurements characterize information about signals with isolated singularities. We also show that the Gabor measurements used in the second layer can be used to synthesize sparse signals such as those produced by the first layer.
翻訳日:2021-10-12 20:54:44 公開日:2021-10-10
# 動的治療効果の高次元推論

High-dimensional Inference for Dynamic Treatment Effects ( http://arxiv.org/abs/2110.04924v1 )

ライセンス: Link先を確認
Jelena Bradic, Weijie Ji and Yuqian Zhang(参考訳) 本稿では,n$のサンプルと高次元の$d$,共同設立者による多段階実験の文脈における不均一な処理効果に対する信頼区間構成を提案する。 我々の焦点は$d\gg N$の場合であるが、結果は低次元の場合にも当てはまる。 高次元共変量空間では避けられない正規化推定のバイアスは、単純なダブルロバストスコアで緩和されることを示す。 このようにして、追加のバイアス除去は不要であり、治療と共変量の多段階相互依存を許容しながら、根-$n$推論結果を得る。 治療は、以前のすべての処理課題と、以前の複数ステージの共同設立者に依存する可能性がある。 我々の結果は、基礎となる依存関係の空間的な仮定に依存する。 動的処理による堅牢な推論に必要な新しい生産率条件を発見する。

This paper proposes a confidence interval construction for heterogeneous treatment effects in the context of multi-stage experiments with $N$ samples and high-dimensional, $d$, confounders. Our focus is on the case of $d\gg N$, but the results obtained also apply to low-dimensional cases. We showcase that the bias of regularized estimation, unavoidable in high-dimensional covariate spaces, is mitigated with a simple double-robust score. In this way, no additional bias removal is necessary, and we obtain root-$N$ inference results while allowing multi-stage interdependency of the treatments and covariates. Memoryless property is also not assumed; treatment can possibly depend on all previous treatment assignments and all previous multi-stage confounders. Our results rely on certain sparsity assumptions of the underlying dependencies. We discover new product rate conditions necessary for robust inference with dynamic treatments.
翻訳日:2021-10-12 19:42:47 公開日:2021-10-10
# 遅延探索における経験の活用

Leveraging Experience in Lazy Search ( http://arxiv.org/abs/2110.04669v1 )

ライセンス: Link先を確認
Mohak Bhardwaj, Sanjiban Choudhury, Byron Boots, Siddhartha Srinivasa(参考訳) 遅延グラフ探索アルゴリズムは、エッジ評価が計算ボトルネックとなる動き計画問題の解法において効率的である。 これらのアルゴリズムは、潜在的に最も短い経路を遅延的に計算し、その経路に沿ってエッジを評価し、実現可能な経路が見つかるまで繰り返す。 エッジが選択される順序は、エッジ評価の総数を最小化するために重要であり、良いエッジセレクタは、無効になる可能性のあるエッジを選択するだけでなく、将来のパスも考慮しない。 我々はそのようなセレクタを事前の経験を活用して学びたい。 我々は,この問題を探索問題の状態に関するマルコフ決定過程(MDP)として定式化する。 この大規模なMDPの解法は一般に難易度が高いが,訓練中にMDPを解けるような分子セレクタを計算できることが示される。 このようなオラクルにアクセスすることで、我々は効果的なポリシーを見つけるために模倣学習を使います。 新しい検索問題がトレーニング中に解決された問題と十分に類似している場合、学習したポリシーは優れたエッジ評価順序を選択し、モーションプランニング問題を迅速に解決する。 アルゴリズムを2次元および7次元の幅広い問題で評価し、学習したセレクタが一般的なヒューリスティックよりも優れていることを示す。 さらに,ベイジアンフレームワークにおける遅延探索の新たな理論的解析や,模倣学習に基づく動作計画へのアプローチに対する後悔の保証も提供する。

Lazy graph search algorithms are efficient at solving motion planning problems where edge evaluation is the computational bottleneck. These algorithms work by lazily computing the shortest potentially feasible path, evaluating edges along that path, and repeating until a feasible path is found. The order in which edges are selected is critical to minimizing the total number of edge evaluations: a good edge selector chooses edges that are not only likely to be invalid, but also eliminates future paths from consideration. We wish to learn such a selector by leveraging prior experience. We formulate this problem as a Markov Decision Process (MDP) on the state of the search problem. While solving this large MDP is generally intractable, we show that we can compute oracular selectors that can solve the MDP during training. With access to such oracles, we use imitation learning to find effective policies. If new search problems are sufficiently similar to problems solved during training, the learned policy will choose a good edge evaluation ordering and solve the motion planning problem quickly. We evaluate our algorithms on a wide range of 2D and 7D problems and show that the learned selector outperforms baseline commonly used heuristics. We further provide a novel theoretical analysis of lazy search in a Bayesian framework as well as regret guarantees on our imitation learning based approach to motion planning.
翻訳日:2021-10-12 19:39:18 公開日:2021-10-10
# 多様体上のニューラルネットワークの相対摂動に対する安定性

Stability of Neural Networks on Manifolds to Relative Perturbations ( http://arxiv.org/abs/2110.04702v1 )

ライセンス: Link先を確認
Zhiyang Wang and Luana Ruiz and Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は多くの実践シナリオにおいて優れた性能を示しており、その安定性に大きく影響している。 経験的には、GNNは大きなグラフ上でうまくスケールすることができるが、これは既存の安定性がノード数とともに増加するという事実に矛盾する。 明確に定義された極限を持つグラフは多様体のサンプルと見なすことができる。 そこで本研究では,多様体上の畳み込みニューラルネットワークの安定性を解析し,大きなグラフ上のGNNの安定性を理解する。 具体的には、ラプラス・ベルトラミ作用素の相対摂動に対する安定性に着目する。 まず,ラプラス・ベルトラミ作用素の無限次元スペクトルを分離する周波数比しきい値フィルタを構築する。 そして、これらのフィルタからなる多様体ニューラルネットワークが相対作用素摂動に対して安定であることを証明する。 この分析の結果、多様体ニューラルネットワークは安定性と識別可能性のトレードオフを示すことがわかった。 最後に,送信者と受信者のペアが多様体からサンプリングされたと仮定した無線リソース割り当てシナリオで実験結果を示す。

Graph Neural Networks (GNNs) show impressive performance in many practical scenarios, which can be largely attributed to their stability properties. Empirically, GNNs can scale well on large size graphs, but this is contradicted by the fact that existing stability bounds grow with the number of nodes. Graphs with well-defined limits can be seen as samples from manifolds. Hence, in this paper, we analyze the stability properties of convolutional neural networks on manifolds to understand the stability of GNNs on large graphs. Specifically, we focus on stability to relative perturbations of the Laplace-Beltrami operator. To start, we construct frequency ratio threshold filters which separate the infinite-dimensional spectrum of the Laplace-Beltrami operator. We then prove that manifold neural networks composed of these filters are stable to relative operator perturbations. As a product of this analysis, we observe that manifold neural networks exhibit a trade-off between stability and discriminability. Finally, we illustrate our results empirically in a wireless resource allocation scenario where the transmitter-receiver pairs are assumed to be sampled from a manifold.
翻訳日:2021-10-12 19:38:59 公開日:2021-10-10
# データ駆動カルマンフィルタにおける部分的状態空間モデルの不確かさ

Uncertainty in Data-Driven Kalman Filtering for Partially Known State-Space Models ( http://arxiv.org/abs/2110.04738v1 )

ライセンス: Link先を確認
Itzik Klein, Guy Revach, Nir Shlezinger, Jonas E. Mehr, Ruud J. G. van Sloun, and Yonina. C. Eldar(参考訳) 動的システムを追跡する際には、状態推定と並行して不確実性の指標を提供することが不可欠であることが多い。 カルマンフィルタ(KF)のような古典的状態推定器は、基礎となる統計の知識から時間依存の不確実性尺度を提供するが、ディープラーニングに基づく追跡システムは不確実性を確実に特徴付けるのに苦労している。 本稿では,最近提案されているハイブリッドモデルに基づく深部状態追跡アルゴリズムであるkalmannetの,不確実性尺度の推定能力について検討する。 KalmanNetの解釈可能な性質を生かして、誤差共分散行列が内部の特徴に基づいて計算できることを不確実性尺度として示している。 システムダイナミクスが分かっている場合、KFが提供したような統計情報にアクセスできることなく、そのマッピングをデータから学習するKalmanNetが、進化モデルミスマッチの存在下で、より正確な誤差推定をプロビデンスしていることを実証する。

Providing a metric of uncertainty alongside a state estimate is often crucial when tracking a dynamical system. Classic state estimators, such as the Kalman filter (KF), provide a time-dependent uncertainty measure from knowledge of the underlying statistics, however, deep learning based tracking systems struggle to reliably characterize uncertainty. In this paper, we investigate the ability of KalmanNet, a recently proposed hybrid model-based deep state tracking algorithm, to estimate an uncertainty measure. By exploiting the interpretable nature of KalmanNet, we show that the error covariance matrix can be computed based on its internal features, as an uncertainty measure. We demonstrate that when the system dynamics are known, KalmanNet-which learns its mapping from data without access to the statistics-provides uncertainty similar to that provided by the KF; and while in the presence of evolution model-mismatch, KalmanNet pro-vides a more accurate error estimation.
翻訳日:2021-10-12 19:38:43 公開日:2021-10-10
# 証明可能な利点を有する効率的な組込み学習のための周波数認識sgd

Frequency-aware SGD for Efficient Embedding Learning with Provable Benefits ( http://arxiv.org/abs/2110.04844v1 )

ライセンス: Link先を確認
Yan Li, Dhruv Choudhary, Xiaohan Wei, Baichuan Yuan, Bhargav Bhushanam, Tuo Zhao, Guanghui Lan(参考訳) 埋め込み学習は、レコメンデーションシステムや自然言語モデリング、その他の領域で広く応用されている。 品質埋め込みを効率的に学習するために、適応学習率アルゴリズムはSGDよりも優れた経験的性能を示した。 しかし,トークン依存学習率の効率性に関する基礎的なメカニズムは未検討のままである。 埋め込み学習問題にトークンの周波数情報を組み込むと、確率的に効率の良いアルゴリズムが得られ、一般的な適応アルゴリズムが暗黙的にその周波数情報を利用することを示す。 具体的には、各トークンに周波数依存学習率を適用し、トークン分布の不均衡時にsgdと比較して証明可能なスピードアップを示す(カウンタベース)周波数認識確率勾配降下を提案する。 提案アルゴリズムは,SGDと適応アルゴリズムのパフォーマンスギャップを埋めるため,ベンチマーク推薦タスクと大規模産業レコメンデーションシステムにおいて適応アルゴリズムを改良あるいは適合させることができることを示す。 本研究は,非凸埋め込み学習問題に対するトークン依存学習率の収束性向上を実証する最初の試みである。

Embedding learning has found widespread applications in recommendation systems and natural language modeling, among other domains. To learn quality embeddings efficiently, adaptive learning rate algorithms have demonstrated superior empirical performance over SGD, largely accredited to their token-dependent learning rate. However, the underlying mechanism for the efficiency of token-dependent learning rate remains underexplored. We show that incorporating frequency information of tokens in the embedding learning problems leads to provably efficient algorithms, and demonstrate that common adaptive algorithms implicitly exploit the frequency information to a large extent. Specifically, we propose (Counter-based) Frequency-aware Stochastic Gradient Descent, which applies a frequency-dependent learning rate for each token, and exhibits provable speed-up compared to SGD when the token distribution is imbalanced. Empirically, we show the proposed algorithms are able to improve or match adaptive algorithms on benchmark recommendation tasks and a large-scale industrial recommendation system, closing the performance gap between SGD and adaptive algorithms. Our results are the first to show token-dependent learning rate provably improves convergence for non-convex embedding learning problems.
翻訳日:2021-10-12 19:37:13 公開日:2021-10-10
# マルチビュー設定における対人攻撃--対人パッチの相互移動性に関する実証的研究

Adversarial Attacks in a Multi-view Setting: An Empirical Study of the Adversarial Patches Inter-view Transferability ( http://arxiv.org/abs/2110.04887v1 )

ライセンス: Link先を確認
Bilel Tarchoun, Ihsen Alouani, Anouar Ben Khalifa, Mohamed Ali Mahjoub(参考訳) 機械学習アプリケーションは、複雑な問題の解決における効率性の実証によって主流になっているが、敵の攻撃に固有の脆弱性に悩まされている。 敵攻撃は、検知器を騙す可能性のある入力への加算ノイズからなる。 近年、最先端のニューラルネットワークに対して、実世界の印刷可能な逆境パッチが効果的であることが証明された。 デジタルノイズベースの攻撃から現実世界の物理的攻撃への移行では、物体検出に影響する無数の要因が敵のパッチに影響を及ぼす。 これらの要因の中で、視角は最も影響力があるが、未調査である。 本稿では,対向パッチの有効性に対する視野角の影響について検討する。 そこで本研究では,既存の対向パッチと視点幾何変換を組み合わせることで,視点角の変化の影響をシミュレートし,多視点コンテキストを考える最初の手法を提案する。 提案手法は,マルチビューコンテキストの現実的制約を多く含む第1データセットと,ビューアングルの効果を実証的に分離する第2データセットの2つのデータセットで評価されている。 実験の結果、視野角は逆境パッチの性能に大きく影響し、ある場合にはその効果のほとんどを失うことがわかった。 これらの結果は、将来の敵攻撃における視角の影響を考慮に入れ、敵防衛のための新たな機会を開くことを動機としている。

While machine learning applications are getting mainstream owing to a demonstrated efficiency in solving complex problems, they suffer from inherent vulnerability to adversarial attacks. Adversarial attacks consist of additive noise to an input which can fool a detector. Recently, successful real-world printable adversarial patches were proven efficient against state-of-the-art neural networks. In the transition from digital noise based attacks to real-world physical attacks, the myriad of factors affecting object detection will also affect adversarial patches. Among these factors, view angle is one of the most influential, yet under-explored. In this paper, we study the effect of view angle on the effectiveness of an adversarial patch. To this aim, we propose the first approach that considers a multi-view context by combining existing adversarial patches with a perspective geometric transformation in order to simulate the effect of view angle changes. Our approach has been evaluated on two datasets: the first dataset which contains most real world constraints of a multi-view context, and the second dataset which empirically isolates the effect of view angle. The experiments show that view angle significantly affects the performance of adversarial patches, where in some cases the patch loses most of its effectiveness. We believe that these results motivate taking into account the effect of view angles in future adversarial attacks, and open up new opportunities for adversarial defenses.
翻訳日:2021-10-12 19:36:52 公開日:2021-10-10
# normvae:変分オートエンコーダを用いた神経画像データの規範的モデリング

NormVAE: Normative Modeling on Neuroimaging Data using Variational Autoencoders ( http://arxiv.org/abs/2110.04903v1 )

ライセンス: Link先を確認
Sayantan Kumar and Aristeidis Sotiras(参考訳) ノルマティヴ・モデリング(英: Normative Modeling)は、神経精神医学および神経変性疾患の基礎となる異種生物学を理解するための新しい手法である。 深層オートエンコーダは標準モデルとして実装されており、患者レベルの偏差は実際の入力と再構成された入力の2乗差としてモデル化されている。 本研究では, 偏差の不確かさを定量化するために, 被写体レベルノルム異常マップ(nam)を計算する新しいノルムモデルベース変分オートエンコーダ(vae)であるnormvaeを評価した。 アルツハイマー病(AD)患者の脳神経画像データを用いた実験では,NormVAEが生成した患者レベル異常マップは,不確実性評価を伴わない決定論的対象レベルの偏差を生じるベースラインVAEと比較して,疾患ステージングに対する感受性が向上することが示された。

Normative modeling is an emerging method for understanding the heterogeneous biology underlying neuropsychiatric and neurodegenerative disorders at the level of the individual participant. Deep autoencoders have been implemented as normative models, where patient-level deviations are modelled as the squared difference between the actual and reconstructed input without any uncertainty estimates in the deviations. In this study, we assessed NormVAE, a novel normative modeling based variational autoencoder (VAE) which calculates subject-level normative abnormality maps (NAM) for quantifying uncertainty in the deviations. Our experiments on brain neuroimaging data of Alzheimer's Disease (AD) patients demonstrated that the NormVAE-generated patient-level abnormality maps exhibit increased sensitivity to disease staging compared to a baseline VAE, which generates deterministic subject-level deviations without any uncertainty estimates.
翻訳日:2021-10-12 19:36:33 公開日:2021-10-10
# 分散マイクロホンを用いたマルチチャネルエンドツーエンドニューラルネットワークダイアリゼーション

Multi-Channel End-to-End Neural Diarization with Distributed Microphones ( http://arxiv.org/abs/2110.04694v1 )

ライセンス: Link先を確認
Shota Horiguchi, Yuki Takashima, Paola Garcia, Shinji Watanabe, Yohei Kawaguchi(参考訳) エンドツーエンドニューラルネットワークダイアリゼーション(eend)の最近の進歩により、単一のニューラルネットワークによる重複認識話者ダイアリゼーションが可能になった。 本稿では,分散マイクロホンからのマルチチャネル信号を用いてEENDを強化することを提案する。 我々は、eendのトランスフォーマエンコーダを、マルチチャネル入力を処理する2種類のエンコーダ(時空間エンコーダと共結合エンコーダ)に置き換える。 どちらもマイクロフォンの数と幾何には依存せず、分散マイクロホン設定に適している。 また,単一チャンネル記録のみを用いたモデル適応手法を提案する。 シミュレーションおよび実記録データを用いて,提案手法はシングルチャネル入力と同等の性能を維持しつつマルチチャネル入力が与えられた場合,従来のEENDよりも優れた性能を示した。 また,同一のスピーカから複数の遠隔参加者の発話を再生するハイブリッドミーティングなどにおいて,複数チャンネルの入力に対して空間情報が不使用であっても,提案手法が良好に動作することを示した。

Recent progress on end-to-end neural diarization (EEND) has enabled overlap-aware speaker diarization with a single neural network. This paper proposes to enhance EEND by using multi-channel signals from distributed microphones. We replace Transformer encoders in EEND with two types of encoders that process a multi-channel input: spatio-temporal and co-attention encoders. Both are independent of the number and geometry of microphones and suitable for distributed microphone settings. We also propose a model adaptation method using only single-channel recordings. With simulated and real-recorded datasets, we demonstrated that the proposed method outperformed conventional EEND when a multi-channel input was given while maintaining comparable performance with a single-channel input. We also showed that the proposed method performed well even when spatial information is inoperative given multi-channel inputs, such as in hybrid meetings in which the utterances of multiple remote participants are played back from the same loudspeaker.
翻訳日:2021-10-12 19:21:00 公開日:2021-10-10
# 音響参照とコントラスト予測符号化を用いた高忠実度歌声変換

Towards High-fidelity Singing Voice Conversion with Acoustic Reference and Contrastive Predictive Coding ( http://arxiv.org/abs/2110.04754v1 )

ライセンス: Link先を確認
Chao Wang, Zhonghao Li, Benlai Tang, Xiang Yin, Yuan Wan, Yibiao Yu, Zejun Ma(参考訳) 近年,非並列歌唱音声変換システムにおいて,PPGに基づく手法が広く普及している。 しかし, PPGの音響情報が不足しているため, 変換された歌声のスタイルや自然さは依然として限られている。 そこで本研究では,音響参照エンコーダを用いて歌唱特性を暗黙的にモデル化する。 我々は,事前訓練された自動音声認識(ASR)モデルのメルスペクトログラム,HuBERT,中間隠れ特徴(PPG-Mid)を基準エンコーダの入力として実験し,最終的にHuBERTの特徴が最適であることを確認した。 さらに, 潜在空間における将来の観測を予測し, 音声の円滑化を図るために, コントラスト予測符号化 (cpc) モジュールを用いた。 実験により,提案モデルがベースラインモデルと比較して,歌唱音声変換の自然性と対象歌唱者との類似性が有意に向上することを示す。 さらに,提案モデルでは,音声データだけで話者を歌わせることもできる。

Recently, phonetic posteriorgrams (PPGs) based methods have been quite popular in non-parallel singing voice conversion systems. However, due to the lack of acoustic information in PPGs, style and naturalness of the converted singing voices are still limited. To solve these problems, in this paper, we utilize an acoustic reference encoder to implicitly model singing characteristics. We experiment with different auxiliary features, including mel spectrograms, HuBERT, and the middle hidden feature (PPG-Mid) of pretrained automatic speech recognition (ASR) model, as the input of the reference encoder, and finally find the HuBERT feature is the best choice. In addition, we use contrastive predictive coding (CPC) module to further smooth the voices by predicting future observations in latent space. Experiments show that, compared with the baseline models, our proposed model can significantly improve the naturalness of converted singing voices and the similarity with the target singer. Moreover, our proposed model can also make the speakers with just speech data sing.
翻訳日:2021-10-12 19:20:44 公開日:2021-10-10
# 8k画像再構成用ompのリアルタイムfpga設計

Real-time FPGA Design for OMP Targeting 8K Image Reconstruction ( http://arxiv.org/abs/2110.04714v1 )

ライセンス: Link先を確認
Jiayao Xu, Chen Fu, Zhiqiang Zhang, Jinjia Zhou(参考訳) 過去10年間、ハードウェア上での再構成アルゴリズムの実装は、圧縮センシング(CS)におけるリアルタイム再構築の分野で大きな注目を集めてきた。 ompは適切な時間コストで良好な品質の再構成結果が得られるため、ハードウェア実装において最も広く使われている復元アルゴリズムである。 OMP には Dot Product (DP) と Least Square Problem (LSP) が含まれている。 これら2つの部分は、多くの分割計算と相当なベクトルベースの乗算を持ち、ハードウェア上のリアルタイム再構成の実装を制限している。 CS理論では、再構成アルゴリズムの他に、センシング行列の選択が再構成の質に影響を与える。 また、ハードウェアアーキテクチャに影響を与えることで、再構築効率に影響を与える。 したがって、OMPのリアルタイムハードウェアアーキテクチャを設計するには、3つの要素を考慮する必要がある。 センシングマトリックスの選択、DPとLSPの実装。 本稿では,OMP再構成を最適化し,再構成効率のボトルネックを解消するために,疎度で主にベクトルを含むセンサマトリックスを採用した。 選択された行列の特徴に基づいて、DPとLSPは、簡単なシフト、加算、比較手順によって実装される。 この機能は Xilinx Virtex UltraScale+ FPGA デバイスで実装されている。 サンプリングレート0.25以下で1024のディジタル信号を再構成するため,提案手法は0.818us,最先端は238$usである。 これにより最先端の手法を290倍に高速化する。 この作業は8Kグレーの画像の再構築に0.026秒かかる。

During the past decade, implementing reconstruction algorithms on hardware has been at the center of much attention in the field of real-time reconstruction in Compressed Sensing (CS). Orthogonal Matching Pursuit (OMP) is the most widely used reconstruction algorithm on hardware implementation because OMP obtains good quality reconstruction results under a proper time cost. OMP includes Dot Product (DP) and Least Square Problem (LSP). These two parts have numerous division calculations and considerable vector-based multiplications, which limit the implementation of real-time reconstruction on hardware. In the theory of CS, besides the reconstruction algorithm, the choice of sensing matrix affects the quality of reconstruction. It also influences the reconstruction efficiency by affecting the hardware architecture. Thus, designing a real-time hardware architecture of OMP needs to take three factors into consideration. The choice of sensing matrix, the implementation of DP and LSP. In this paper, a sensing matrix, which is sparsity and contains zero vectors mainly, is adopted to optimize the OMP reconstruction to break the bottleneck of reconstruction efficiency. Based on the features of the chosen matrix, the DP and LSP are implemented by simple shift, add and comparing procedures. This work is implemented on the Xilinx Virtex UltraScale+ FPGA device. To reconstruct a digital signal with 1024 length under 0.25 sampling rate, the proposal method costs 0.818us while the state-of-the-art costs 238$us. Thus, this work speedups the state-of-the-art method 290 times. This work costs 0.026s to reconstruct an 8K gray image, which achieves 30FPS real-time reconstruction.
翻訳日:2021-10-12 19:17:40 公開日:2021-10-10
# 生デノナイジングにおける騒音合成とモデリングの再考

Rethinking Noise Synthesis and Modeling in Raw Denoising ( http://arxiv.org/abs/2110.04756v1 )

ライセンス: Link先を確認
Yi Zhang, Hongwei Qin, Xiaogang Wang, Hongsheng Li(参考訳) 大規模な実画像デノージングデータセットの欠如は、デノージングモデルのトレーニングのためにリアルな生画像ノイズを合成するという課題を生じさせる。 しかし、実際の生画像ノイズは多くのノイズ源によって引き起こされ、センサーによって大きく異なる。 既存の手法では全てのノイズ源を正確にモデル化できず、各センサのノイズモデルを構築するのも手間がかかる。 本稿では,センサの実際の雑音を直接サンプリングすることで,ノイズを合成する新しい視点を提案する。 本質的には、異なるカメラセンサーのために正確な生画像ノイズを生成する。 パターン整合型パッチサンプリングと高ビット再構成の2つの手法は,それぞれ空間相関ノイズと高ビット雑音の正確な合成に有効である。 SIDDおよびEDDデータセットの系統的な実験を行う。 その結果,本手法は既存の手法よりも優れており,センサや照明条件の多種多様な一般化が示されている。 2) DNNに基づくノイズモデリング手法から得られた最近の結論は, 実際に不正確なノイズパラメータに基づいている。 DNNに基づく手法は、物理に基づく統計手法よりも優れているわけではない。

The lack of large-scale real raw image denoising dataset gives rise to challenges on synthesizing realistic raw image noise for training denoising models. However, the real raw image noise is contributed by many noise sources and varies greatly among different sensors. Existing methods are unable to model all noise sources accurately, and building a noise model for each sensor is also laborious. In this paper, we introduce a new perspective to synthesize noise by directly sampling from the sensor's real noise. It inherently generates accurate raw image noise for different camera sensors. Two efficient and generic techniques: pattern-aligned patch sampling and high-bit reconstruction help accurate synthesis of spatial-correlated noise and high-bit noise respectively. We conduct systematic experiments on SIDD and ELD datasets. The results show that (1) our method outperforms existing methods and demonstrates wide generalization on different sensors and lighting conditions. (2) Recent conclusions derived from DNN-based noise modeling methods are actually based on inaccurate noise parameters. The DNN-based methods still cannot outperform physics-based statistical methods.
翻訳日:2021-10-12 19:17:17 公開日:2021-10-10
# 音声信号におけるバイオマーカー発見技術の概要

An Overview of Techniques for Biomarker Discovery in Voice Signal ( http://arxiv.org/abs/2110.04678v1 )

ライセンス: Link先を確認
Rita Singh, Ankit Shah, Hira Dhamyal(参考訳) 本論文は,音声に影響を及ぼすと仮定されるが,その変化自体が音声信号の標準的分析検査において観察を逸脱させるほど微妙であると考えられるものに焦点を当てた,いくつかの医学的条件が人間の声に与える影響を考察する。 それは、そのような難解なバイオマーカーを潜在的に解明し、それらを測定し、予測および診断の目的で使用できる3つの技術カテゴリを示す。 これらのアプローチには、プロキシ技術、モデルベースの分析技術、データ駆動ai技術が含まれる。

This paper reflects on the effect of several categories of medical conditions on human voice, focusing on those that may be hypothesized to have effects on voice, but for which the changes themselves may be subtle enough to have eluded observation in standard analytical examinations of the voice signal. It presents three categories of techniques that can potentially uncover such elusive biomarkers and allow them to be measured and used for predictive and diagnostic purposes. These approaches include proxy techniques, model-based analytical techniques and data-driven AI techniques.
翻訳日:2021-10-12 19:13:53 公開日:2021-10-10
# corgi: 注意深いコンテンツ豊富なグラフニューラルネットワーク

CoRGi: Content-Rich Graph Neural Networks with Attention ( http://arxiv.org/abs/2110.04866v1 )

ライセンス: Link先を確認
Jooyeon Kim, Angus Lamb, Simon Woodhead, Simon Peyton Jones, Cheng Zheng, Miltiadis Allamanis(参考訳) 対象領域のグラフ表現は、エンティティ(ノード)とその関係(エッジ)の集合にそれを投影することが多い。 しかし、こうした予測はしばしば重要で豊かな情報を見逃す。 例えば、値計算の欠如に使われるグラフ表現では、ノードとして表現されるアイテムは、リッチなテキスト情報を含むことができる。 しかし、グラフニューラルネットワーク(GNN)でグラフを処理する場合、そのような情報は無視されるか、GNNの初期化に使用される単一のベクトル表現に要約される。 この問題に対処するために、隣人のコンテキストにおけるノード内のリッチなデータを考慮したGNNであるCoRGiを提案する。 これは、各ノードの内容に対してパーソナライズされたアテンションメカニズムでCoRGiのメッセージパッシングを付与することで実現される。 このように、CoRGiは、アイテムのコンテンツに現れる単語に関して、ユーザ固有の注意スコアを割り当てる。 我々は2つのエッジ値予測タスク上でCoRGiを評価し、CoRGiが既存の手法、特にグラフのスパース領域においてエッジ値予測を行うのに優れていることを示す。

Graph representations of a target domain often project it to a set of entities (nodes) and their relations (edges). However, such projections often miss important and rich information. For example, in graph representations used in missing value imputation, items - represented as nodes - may contain rich textual information. However, when processing graphs with graph neural networks (GNN), such information is either ignored or summarized into a single vector representation used to initialize the GNN. Towards addressing this, we present CoRGi, a GNN that considers the rich data within nodes in the context of their neighbors. This is achieved by endowing CoRGi's message passing with a personalized attention mechanism over the content of each node. This way, CoRGi assigns user-item-specific attention scores with respect to the words that appear in an item's content. We evaluate CoRGi on two edge-value prediction tasks and show that CoRGi is better at making edge-value predictions over existing methods, especially on sparse regions of the graph.
翻訳日:2021-10-12 18:58:53 公開日:2021-10-10
# 部分視点雲からの新規3次元変形可能な物体の視覚形状制御の学習

Learning Visual Shape Control of Novel 3D Deformable Objects from Partial-View Point Clouds ( http://arxiv.org/abs/2110.04685v1 )

ライセンス: Link先を確認
Bao Thach, Brian Y. Cho, Alan Kuntz, Tucker Hermans(参考訳) ロボットが3d変形可能な物体の形を確実に操作できれば、ホームケアから倉庫のフルフィルメント、手術支援まで幅広い分野に応用できるだろう。 弾性のある3次元変形可能な物体の解析モデルは、物体の形状を決定する際に存在する無限の自由度を記述するために多くのパラメータを必要とする。 従来の3D形状制御の試みは、オブジェクト形状を表現するために手作りの特徴に依存しており、オブジェクト固有の制御モデルの訓練が必要である。 我々は,対象物の部分視点点群と目標形状の点群で動作し,オブジェクト形状の低次元表現を学習する新しいdeformernetニューラルネットワークアーキテクチャを用いて,これらの問題を克服した。 この形状埋め込みにより、ロボットは、目的の形状に向かって変形する原因となるロボットのエンドエフェクターに、カルト的なポーズを与える視覚サーボコントローラを定義することができる。 そこで本研究では,訓練中に見えない物体形状や材料剛性に確実に一般化し,汎用形状制御とリトラクションの手術作業の両方において比較方法に勝る物理的ロボットについて,シミュレーションおよび実演を行った。

If robots could reliably manipulate the shape of 3D deformable objects, they could find applications in fields ranging from home care to warehouse fulfillment to surgical assistance. Analytic models of elastic, 3D deformable objects require numerous parameters to describe the potentially infinite degrees of freedom present in determining the object's shape. Previous attempts at performing 3D shape control rely on hand-crafted features to represent the object shape and require training of object-specific control models. We overcome these issues through the use of our novel DeformerNet neural network architecture, which operates on a partial-view point cloud of the object being manipulated and a point cloud of the goal shape to learn a low-dimensional representation of the object shape. This shape embedding enables the robot to learn to define a visual servo controller that provides Cartesian pose changes to the robot end-effector causing the object to deform towards its target shape. Crucially, we demonstrate both in simulation and on a physical robot that DeformerNet reliably generalizes to object shapes and material stiffness not seen during training and outperforms comparison methods for both the generic shape control and the surgical task of retraction.
翻訳日:2021-10-12 18:52:20 公開日:2021-10-10
# ロボットを用いたK-12学生への強化学習導入のための拡張現実プラットフォーム

An Augmented Reality Platform for Introducing Reinforcement Learning to K-12 Students with Robots ( http://arxiv.org/abs/2110.04697v1 )

ライセンス: Link先を確認
Ziyi Zhang, Samuel Micah Akai-Nettey, Adonai Addo, Chris Rogers, Jivko Sinapov(参考訳) 対話型強化学習(Interactive reinforcement learning)は、エージェントの学習プロセス中に人間が積極的に支援し、実用的なアルゴリズムの複雑さの問題を緩和する。 しかし、ロボットの内部の働きや状態は、人間がフィードバックを提供するときに教師から隠される。 本稿では,人間と学習ロボットの共通基盤を構築するために,学習の隠れた状態を明らかにする拡張現実(ar)システムを提案する。 本稿では,本システムの設計と実装について述べるとともに,今後の課題について述べる。 1)k-12レベルにおけるai教育活動における本システムの利用 2) 実世界におけるロボットの感覚と認知の表現を人間の教師が見ることができるARによる人間内強化学習のためのフレームワークの開発。

Interactive reinforcement learning, where humans actively assist during an agent's learning process, has the promise to alleviate the sample complexity challenges of practical algorithms. However, the inner workings and state of the robot are typically hidden from the teacher when humans provide feedback. To create a common ground between the human and the learning robot, in this paper, we propose an Augmented Reality (AR) system that reveals the hidden state of the learning to the human users. This paper describes our system's design and implementation and concludes with a discussion on two directions for future work which we are pursuing: 1) use of our system in AI education activities at the K-12 level; and 2) development of a framework for an AR-based human-in-the-loop reinforcement learning, where the human teacher can see sensory and cognitive representations of the robot overlaid in the real world.
翻訳日:2021-10-12 18:52:01 公開日:2021-10-10
# algorithmic collusion: 批判的レビュー

Algorithmic collusion: A critical review ( http://arxiv.org/abs/2110.04740v1 )

ライセンス: Link先を確認
Florian E. Dorner(参考訳) 価格アルゴリズムの活用による協調協定の安定化の見通しは、反トラストの専門家や経済学者によって広く議論されている。 しかし、この文献はコンピュータ科学者の視点を欠いていることが多く、カルテルの形成において企業が直面する複雑なコーディネーション問題に対する機械学習の最近の進歩の適用性を定期的に過小評価しているようである。 同様に、学習アルゴリズムによる結束の可能性を支持するモデリング結果は、単純な市場シミュレーションを使用しており、機械学習の実践者が現実世界の問題で対処しなければならない問題の多くを生じない単純なアルゴリズムを使うことができる。 アルゴリズムの共謀に関する文献を批判的にレビューし、コンピュータ科学の結果と結びつけると、反トラスト法を適用して実際の市場で共謀する自己学習アルゴリズムに対処することは早すぎるが、集中的な価格アルゴリズムによって促進されるハブ・アンド・スモークのようなアルゴリズムの共謀の他の形態は、すでに法的措置を許可している可能性がある。

The prospect of collusive agreements being stabilized via the use of pricing algorithms is widely discussed by antitrust experts and economists. However, the literature is often lacking the perspective of computer scientists, and seems to regularly overestimate the applicability of recent progress in machine learning to the complex coordination problem firms face in forming cartels. Similarly, modelling results supporting the possibility of collusion by learning algorithms often use simple market simulations which allows them to use simple algorithms that do not produce many of the problems machine learning practitioners have to deal with in real-world problems, which could prove to be particularly detrimental to learning collusive agreements. After critically reviewing the literature on algorithmic collusion, and connecting it to results from computer science, we find that while it is likely too early to adapt antitrust law to be able to deal with self-learning algorithms colluding in real markets, other forms of algorithmic collusion, such as hub-and-spoke arrangements facilitated by centralized pricing algorithms might already warrant legislative action.
翻訳日:2021-10-12 18:51:50 公開日:2021-10-10
# ロボットのナノバージョン制御とロボット:データ駆動・再生生産コード

Nano Version Control and Robots of Robots: Data Driven, Regenerative Production Code ( http://arxiv.org/abs/2110.04755v1 )

ライセンス: Link先を確認
Lukasz Machowski and Tshilidzi Marwala(参考訳) コロナパンデミックの反映は、自動化を使った持続可能な生産システムの必要性を強調している。 目標は、複雑なパーツをまとめながら、反復的なタスクの自動化を維持することです。 私たちは、脆弱さと、従来の自動化を実現するのがいかに難しいかを認識します。 持続可能な生産コードを生成する上で本当に難しい問題の1つを、データ、パターン、作業プロトタイプの3つの単純な問題に変換する方法を紹介します。 提案手法が有用かどうかを測定する指標として,開発者年数を用いる。 エージェントベースのシミュレーションと、エージェントの調停のためのnanovcレポジトリを使用することで、人々が開発するパターンをテンプレートに変換して、データが供給され、生産コードを生成するロボットを作成するためのシミュレーション環境を構築することができる。 ロボットを2層にすることで、作業システムからより多くのフィードバックを集めることで、初期の実装選択を置き換えることができます。 このアプローチの利点はいくつか発見されており、最も注目すべきはロボットのロボットが3つの材料(データ、パターン、プロトタイプ)の形で設計した人物の遺産をエンコードしていることである。 この方法では,運用コードのフレジビリティを低減し,到達の難しさを解消するという,私たちの目標を達成できます。

A reflection of the Corona pandemic highlights the need for more sustainable production systems using automation. The goal is to retain automation of repetitive tasks while allowing complex parts to come together. We recognize the fragility and how hard it is to create traditional automation. We introduce a method which converts one really hard problem of producing sustainable production code into three simpler problems being data, patterns and working prototypes. We use developer seniority as a metric to measure whether the proposed method is easier. By using agent-based simulation and NanoVC repos for agent arbitration, we are able to create a simulated environment where patterns developed by people are used to transform working prototypes into templates that data can be fed through to create the robots that create the production code. Having two layers of robots allow early implementation choices to be replaced as we gather more feedback from the working system. Several benefits of this approach have been discovered, with the most notable being that the Robot of Robots encodes a legacy of the person that designed it in the form of the 3 ingredients (data, patterns and working prototypes). This method allows us to achieve our goal of reducing the fragility of the production code while removing the difficulty of getting there.
翻訳日:2021-10-12 18:51:28 公開日:2021-10-10
# 新型コロナウイルスのナレッジグラフの構築とその応用に関する分析

An Analysis of COVID-19 Knowledge Graph Construction and Applications ( http://arxiv.org/abs/2110.04932v1 )

ライセンス: Link先を確認
Dominic Flocco, Bryce Palmer-Toy, Ruixiao Wang, Hongyu Zhu, Rishi Sonthalia, Junyuan Lin, Andrea L. Bertozzi and P. Jeffrey Brantingham(参考訳) 知識グラフの構築と応用は近年、多くの分野において急速に増加している。 さらに、新型コロナウイルス(covid-19)パンデミック(covid-19)の進展とソーシャルメディアの行動との関係を明らかにする問題は、感染拡大を抑えたい研究者にとって大きな関心事となっている。 本稿では,ロサンゼルス地区におけるcovid-19関連ツイートから構築したナレッジグラフについて,連邦政府および州の政策発表と疾病拡散統計を補完する。 日付,トピック,イベントをエンティティとして組み込むことで,これらの有用な情報間の接続を記述するナレッジグラフを構築する。 自然言語処理と変更点分析を用いて,tweet-topic,tweet-d ate,event-date関係を抽出する。 構築された知識グラフに関するさらなる分析は、ツイートがCOVID-19関連のトピックに対する公衆の感情をどのように反映しているか、そしてこれらの感情の変化が現実世界の出来事とどのように関連しているかについての洞察を提供する。

The construction and application of knowledge graphs have seen a rapid increase across many disciplines in recent years. Additionally, the problem of uncovering relationships between developments in the COVID-19 pandemic and social media behavior is of great interest to researchers hoping to curb the spread of the disease. In this paper we present a knowledge graph constructed from COVID-19 related tweets in the Los Angeles area, supplemented with federal and state policy announcements and disease spread statistics. By incorporating dates, topics, and events as entities, we construct a knowledge graph that describes the connections between these useful information. We use natural language processing and change point analysis to extract tweet-topic, tweet-date, and event-date relations. Further analysis on the constructed knowledge graph provides insight into how tweets reflect public sentiments towards COVID-19 related topics and how changes in these sentiments correlate with real-world events.
翻訳日:2021-10-12 18:28:19 公開日:2021-10-10
# 点雲からの意味的特徴と幾何学的特徴を組み合わせた3次元物体検出

3D Object Detection Combining Semantic and Geometric Features from Point Clouds ( http://arxiv.org/abs/2110.04704v1 )

ライセンス: Link先を確認
Hao Peng, Guofeng Tong, Zheng Li, Yaqi Wang, Yuyuan Shao(参考訳) 本稿では,voxel-based method と point-based method の組み合わせについて検討し,SGNet と呼ばれる新しいエンドツーエンドの2次元物体検出器を提案する。 ボクセルベースの手法はシーンを通常のグリッドに酸化し、セマンティックな特徴学習のための畳み込み層に基づいた現在の高度な特徴学習フレームワークで処理することができる。 点に基づく手法は座標予約による点の幾何学的特徴をよりよく抽出することができる。 この2つの組み合わせは、ポイントクラウドからの3dオブジェクト検出に有効なソリューションである。 しかし、現在のほとんどの方法は、最終分類と局在化のためにアンカー付きのvoxelベースの検出ヘッドを使用している。 プリセットアンカーはシーン全体をカバーするが、ボクセルサイズの制限のため、より大きなシーンと複数のカテゴリを持つポイントクラウド検出タスクには適していない。 本稿では,意味的および幾何学的特徴を捉えたvoxel-to-pointモジュール(vtpm)を提案する。 VTPMはVoxel-Point-Based Module(VTPM)であり、最終的に点空間で3Dオブジェクト検出を実装している。 また,センター・バウンダリー・アウェア・信頼度を考慮した信頼度調整モジュール(cam)を提案し,利子選択領域における予測信頼度と提案のずれを解決する。 本稿で提案したSGNetは,KITTIデータセットにおける3次元物体検出,特にサイクリストなどの小型物体検出において,最先端の成果を得た。 実際、2021年9月19日時点で、KITTIデータセットでは、SGNetは、難易度の高いサイクリストの3DおよびBEV検出で1位、適度なサイクリストの3D検出では2位だった。

In this paper, we investigate the combination of voxel-based methods and point-based methods, and propose a novel end-to-end two-stage 3D object detector named SGNet for point clouds scenes. The voxel-based methods voxelize the scene to regular grids, which can be processed with the current advanced feature learning frameworks based on convolutional layers for semantic feature learning. Whereas the point-based methods can better extract the geometric feature of the point due to the coordinate reservations. The combination of the two is an effective solution for 3D object detection from point clouds. However, most current methods use a voxel-based detection head with anchors for final classification and localization. Although the preset anchors cover the entire scene, it is not suitable for point clouds detection tasks with larger scenes and multiple categories due to the limitation of voxel size. In this paper, we propose a voxel-to-point module (VTPM) that captures semantic and geometric features. The VTPM is a Voxel-Point-Based Module that finally implements 3D object detection in point space, which is more conducive to the detection of small-size objects and avoids the presets of anchors in inference stage. In addition, a Confidence Adjustment Module (CAM) with the center-boundary-awar e confidence attention is proposed to solve the misalignment between the predicted confidence and proposals in the regions of the interest (RoI) selection. The SGNet proposed in this paper has achieved state-of-the-art results for 3D object detection in the KITTI dataset, especially in the detection of small-size objects such as cyclists. Actually, as of September 19, 2021, for KITTI dataset, SGNet ranked 1st in 3D and BEV detection on cyclists with easy difficulty level, and 2nd in the 3D detection of moderate cyclists.
翻訳日:2021-10-12 18:09:29 公開日:2021-10-10
# マルチラベル画像認識のためのトランスフォーマーベースデュアルリレーショナルグラフ

Transformer-based Dual Relation Graph for Multi-label Image Recognition ( http://arxiv.org/abs/2110.04722v1 )

ライセンス: Link先を確認
Jiawei Zhao, Ke Yan, Yifan Zhao, Jia Li,(参考訳) 1つの画像における複数のオブジェクトの同時認識は、様々なオブジェクトスケール、一貫性のない外観、混乱したクラス間の関係など、認識領域における複数のイベントにまたがる難しい課題である。 最近の研究は、不明瞭なセマンティクスを強化するために、統計ラベルの共起と言語単語の埋め込みを主に活用している。 本稿では,これらの研究と異なり,相関関係の2つの側面,~\ie,構造関係グラフ,意味関係グラフを探索して相補関係を構築する,新しいトランスフォーマベースの双対関係学習フレームワークを提案する。 構造関係グラフは、オブジェクトコンテキストから長距離相関を捉えることを目的として、クロススケールトランスフォーマーベースのアーキテクチャを開発する。 セマンティックグラフは、明示的なセマンティック・アウェア制約で画像オブジェクトの意味を動的にモデル化する。 さらに、学習した構造関係を意味グラフに組み込んで、堅牢な表現のための結合関係グラフを構築する。 これら2つの効果的な関係グラフの協調学習により,MS-COCOとVOC 2007データセットという2つの一般的なマルチラベル認識ベンチマーク上で,新たな最先端技術を実現する。

The simultaneous recognition of multiple objects in one image remains a challenging task, spanning multiple events in the recognition field such as various object scales, inconsistent appearances, and confused inter-class relationships. Recent research efforts mainly resort to the statistic label co-occurrences and linguistic word embedding to enhance the unclear semantics. Different from these researches, in this paper, we propose a novel Transformer-based Dual Relation learning framework, constructing complementary relationships by exploring two aspects of correlation,~\ie, structural relation graph and semantic relation graph. The structural relation graph aims to capture long-range correlations from object context, by developing a cross-scale transformer-based architecture. The semantic graph dynamically models the semantic meanings of image objects with explicit semantic-aware constraints. In addition, we also incorporate the learnt structural relationship into the semantic graph, constructing a joint relation graph for robust representations. With the collaborative learning of these two effective relation graphs, our approach achieves new state-of-the-art on two popular multi-label recognition benchmarks, i.e., MS-COCO and VOC 2007 dataset.
翻訳日:2021-10-12 18:08:58 公開日:2021-10-10
# LDC-Net:Dense Crowdsのローカライゼーション、検出、カウントのための統一フレームワーク

LDC-Net: A Unified Framework for Localization, Detection and Counting in Dense Crowds ( http://arxiv.org/abs/2110.04727v1 )

ライセンス: Link先を確認
Qi wang, Tao Han, Junyu Gao, Yuan Yuan, Xuelong Li(参考訳) 視覚的群集分析の急速な発展は、単に密度マップを要約するのではなく、位置決めや検出によって人を数える傾向を示している。 また、フィールドの本質や数を検出することで、より豊富な群衆情報を提供し、より実用的な応用を実現できるのです。 しかし、群衆の局在化と検出に関する最近の研究には2つの制限がある。 1) 一般的な検出方法は,密集した群集や大規模変動を処理できない。 2) 密度マップのヒューリスティックな手法は, 特に高密度群や大型群集において, 位置予測やボックス予測の性能低下に苦しむ。 本稿では,高密度群集の位置,検出,カウントのための調整されたベースラインを,利便性のためのLCC-Netと呼ばれる新しい視点から考案する。 1) 位置マップとサイズマップのみを予測して物体を検出する強力な最小限のパラダイムであり、任意の容量(0 \sim 10,000+$ person)のシーンで検出することができる。 2)大きな変動に直面する際の優れたクロススケール能力,例えば,0 \sim00,000+$ピクセルの範囲の頭部 3) 位置予測やボックス予測のタスクにおいて, 精度が優れており, 密度に基づく手法と比較して, 競合カウント性能が高い。 最後に、ソースコードと事前訓練されたモデルがリリースされる。

The rapid development in visual crowd analysis shows a trend to count people by positioning or even detecting, rather than simply summing a density map. It also enlightens us back to the essence of the field, detection to count, which can give more abundant crowd information and has more practical applications. However, some recent work on crowd localization and detection has two limitations: 1) The typical detection methods can not handle the dense crowds and a large variation in scale; 2) The density map heuristic methods suffer from performance deficiency in position and box prediction, especially in high density or large-size crowds. In this paper, we devise a tailored baseline for dense crowds location, detection, and counting from a new perspective, named as LDC-Net for convenience, which has the following features: 1) A strong but minimalist paradigm to detect objects by only predicting a location map and a size map, which endows an ability to detect in a scene with any capacity ($0 \sim 10,000+$ persons); 2) Excellent cross-scale ability in facing a large variation, such as the head ranging in $0 \sim 100,000+$ pixels; 3) Achieve superior performance in location and box prediction tasks, as well as a competitive counting performance compared with the density-based methods. Finally, the source code and pre-trained models will be released.
翻訳日:2021-10-12 18:08:35 公開日:2021-10-10
# ZARTS: ニューラルネットワーク探索のためのゼロオーダー最適化について

ZARTS: On Zero-order Optimization for Neural Architecture Search ( http://arxiv.org/abs/2110.04743v1 )

ライセンス: Link先を確認
Xiaoxing Wang, Wenxuan Guo, Junchi Yan, Jianlin Su, Xiaokang Yang(参考訳) 微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。 候補演算の重要性を表現するためにトレーニング可能なアーキテクチャパラメータを導入し、勾配を推定する一階・二階近似を提案し、勾配降下アルゴリズムによりNASを解くことができる。 しかし、我々の詳細な実験結果から、近似はしばしば損失景観を歪ませ、アーキテクチャパラメータの最適化と不正確な勾配推定のバイアスが生じることが示されている。 この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。 具体的には, RS, MGS, GLDの3つの代表的ゼロオーダー最適化手法を導入し, MGSの精度と速度のバランスをとる。 さらに、RS/MGSと勾配降下アルゴリズムの関連性について検討し、我々のZARTSがDARTSとは無関係であることを示す。 複数のデータセットと検索空間に対する大規模な実験により,本手法の顕著な性能が示された。 特に、12のベンチマークの結果は、既知の不安定性の問題によりdartのパフォーマンスが崩壊するzartsの優れた堅牢性を検証する。 また、dartの検索空間を検索してピアメソッドと比較し、発見されたアーキテクチャは、cifar-10で97.54%、imagenetで75.7%のtop-1精度を達成しています。

Differentiable architecture search (DARTS) has been a popular one-shot paradigm for NAS due to its high efficiency. It introduces trainable architecture parameters to represent the importance of candidate operations and proposes first/second-order approximation to estimate their gradients, making it possible to solve NAS by gradient descent algorithm. However, our in-depth empirical results show that the approximation will often distort the loss landscape, leading to the biased objective to optimize and in turn inaccurate gradient estimation for architecture parameters. This work turns to zero-order optimization and proposes a novel NAS scheme, called ZARTS, to search without enforcing the above approximation. Specifically, three representative zero-order optimization methods are introduced: RS, MGS, and GLD, among which MGS performs best by balancing the accuracy and speed. Moreover, we explore the connections between RS/MGS and gradient descent algorithm and show that our ZARTS can be seen as a robust gradient-free counterpart to DARTS. Extensive experiments on multiple datasets and search spaces show the remarkable performance of our method. In particular, results on 12 benchmarks verify the outstanding robustness of ZARTS, where the performance of DARTS collapses due to its known instability issue. Also, we search on the search space of DARTS to compare with peer methods, and our discovered architecture achieves 97.54% accuracy on CIFAR-10 and 75.7% top-1 accuracy on ImageNet, which are state-of-the-art performance.
翻訳日:2021-10-12 18:08:12 公開日:2021-10-10
# 教師なし高忠実顔のテクスチャ生成と再構成

Unsupervised High-Fidelity Facial Texture Generation and Reconstruction ( http://arxiv.org/abs/2110.04760v1 )

ライセンス: Link先を確認
Ron Slossberg, Ibrahim Jubran, Ron Kimmel(参考訳) 顔の3次元形状とテクスチャ復元の課題に取り組むために, 長年にわたり多くの手法が提案されてきた。 このような方法は、トレーニング中に3d顔スキャンに頼ることなく、高忠実度なテクスチャを提供できないことが多い。 対照的に、3次元顔生成の補完的課題はそれほど注目されていない。 GANが非常にリアルな顔画像を作り出すことを証明した2Dテクスチャ領域とは対照的に、より困難な3D幾何学領域は、まだ同じレベルのリアリズムと多様性に到達していない。 本稿では,課題,形状,テクスチャの生成,高忠実度テクスチャの復元のための新しい統一パイプラインを提案する。 テクスチャモデルでは,テクスチャマップをスキャンするのではなく,自然画像から教師なしで学習する。 私たちの知る限りでは、これはスキャンされたテクスチャに依存しない、初めての統合フレームワークです。 新たなトレーニングパイプラインは,事前学習された2d顔生成装置と,深い特徴操作手法を組み合わせたものである。 正確な3DMMフィッティングを施すことで, 背景, 髪, 歯, 体とテクスチャモデルのリアルな構成を形成する合成背景画像に, モデルテクスチャをシームレスに統合することができる。 これにより、2次元画像生成の領域から転送学習を適用できるため、この領域で得られた印象的な結果から大きな恩恵を受けることができる。 本稿では, 生成・再構築作業におけるモデルを比較する最近の手法について, 包括的に検討する。 広義の定性的および定量的解析が示すように、両課題の最先端の結果が得られる。

Many methods have been proposed over the years to tackle the task of facial 3D geometry and texture recovery from a single image. Such methods often fail to provide high-fidelity texture without relying on 3D facial scans during training. In contrast, the complementary task of 3D facial generation has not received as much attention. As opposed to the 2D texture domain, where GANs have proven to produce highly realistic facial images, the more challenging 3D geometry domain has not yet caught up to the same levels of realism and diversity. In this paper, we propose a novel unified pipeline for both tasks, generation of both geometry and texture, and recovery of high-fidelity texture. Our texture model is learned, in an unsupervised fashion, from natural images as opposed to scanned texture maps. To the best of our knowledge, this is the first such unified framework independent of scanned textures. Our novel training pipeline incorporates a pre-trained 2D facial generator coupled with a deep feature manipulation methodology. By applying precise 3DMM fitting, we can seamlessly integrate our modeled textures into synthetically generated background images forming a realistic composition of our textured model with background, hair, teeth, and body. This enables us to apply transfer learning from the domain of 2D image generation, thus, benefiting greatly from the impressive results obtained in this domain. We provide a comprehensive study on several recent methods comparing our model in generation and reconstruction tasks. As the extensive qualitative, as well as quantitative analysis, demonstrate, we achieve state-of-the-art results for both tasks.
翻訳日:2021-10-12 18:07:47 公開日:2021-10-10
# 深層学習に基づく人物再同定手法:最近の研究動向と展望

Deep Learning Based Person Re-Identification Methods: A Survey and Outlook of Recent Works ( http://arxiv.org/abs/2110.04764v1 )

ライセンス: Link先を確認
Zhangqiang Ming, Min Zhu, Xiaoyong Wei, Xiangkun Wang, Jiamin Zhu, Junlong Cheng and Yong Yang(参考訳) 近年、公衆安全の需要が高まり、知的監視ネットワークの急速な発展に伴い、コンピュータビジョン分野におけるホットな研究の1つとして、人物再識別(Re-ID)が注目されている。 主な研究目標は、異なるカメラから同一人物を検索することである。 しかし、従来の人物再識別手法では、人的ターゲットを手動でマークする必要があるため、多くの労働コストがかかる。 コンピュータビジョンの分野におけるディープニューラルネットワークの広範な応用により、多くのディープラーニングベースのパーソンリid手法が登場している。 研究者がこの分野の最新研究結果と今後の開発動向をよりよく理解できるようにする。 まず、従来型と深層学習に基づくRe-ID手法を比較し、いくつかのRe-IDサーベイの主な貢献点を示し、焦点を絞った寸法と欠点を分析する。 次に,従来のDeep Learning-based person Re-ID法に着目し,深層学習,局所的特徴学習,敵対的ネットワークの生成,シーケンス的特徴学習,グラフ畳み込みネットワークなどに着目した。 さらに,これらの5つのカテゴリを,その手法の種類に応じて分類し,その部分分類の実験的性能を解析・比較する。 最後に、人物再特定分野に残る課題と今後の研究方向性について考察する。

In recent years, with the increasing demand for public safety and the rapid development of intelligent surveillance networks, person re-identification (Re-ID) has become one of the hot research topics in the field of computer vision. Its main research goal is to retrieve persons with the same identity from different cameras. However, traditional person Re-ID methods require manual marking of person targets, which consumes a lot of labor costs. With the widespread application of deep neural networks in the field of computer vision, a large number of deep learning-based person Re-ID methods have emerged. To facilitate researchers to better understand the latest research results and future development trends in this field. Firstly, we compare traditional and deep learning-based person Re-ID methods, and present the main contributions of several person Re-ID surveys, and analyze their focused dimensions and shortcomings. Secondly, we focus on the current classic deep learning-based person Re-ID methods, including methods for deep metric learning, local feature learning, generate adversarial networks, sequence feature learning, and graph convolutional networks. Furthermore, we subdivide the above five categories according to their technique types, analyzing and comparing the experimental performance of part subcategories of the method. Finally, we discuss the challenges that remain in the field of person Re-ID field and prospects for future research directions.
翻訳日:2021-10-12 18:07:23 公開日:2021-10-10
# 弱教師付きコントラスト学習

Weakly Supervised Contrastive Learning ( http://arxiv.org/abs/2110.04770v1 )

ライセンス: Link先を確認
Mingkai Zheng, Fei Wang, Shan You, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu(参考訳) 教師なし視覚表現学習は,近年のコントラスト学習の成果により,コンピュータビジョンコミュニティから注目を集めている。 既存のコントラスト学習フレームワークのほとんどは、インスタンス識別をプリテキストタスクとして採用しており、各インスタンスを異なるクラスとして扱う。 しかし、このような方法は必然的にクラス衝突問題を引き起こし、学習した表現の品質を損なう。 そこで我々は,この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入した。 具体的には,提案フレームワークは2つのプロジェクションヘッドに基づいており,そのうちの1つは通常のインスタンス識別タスクを実行する。 もう一方のヘッドはグラフベースの手法を使用して、類似したサンプルを探索し、弱いラベルを生成し、弱ラベルに基づいて教師付きコントラスト学習タスクを実行し、類似した画像を引き付ける。 さらに,k-nearest近傍のマルチクロップ戦略を導入し,正のサンプル数を拡大した。 大規模な実験により、WCLは異なるデータセットをまたいだ自己教師付き表現の質を改善した。 特に、半教師付き学習のための最先端の成果が得られます。 1\%と10\%のラベル付き例だけで、WCLはResNet50を使用して65\%と72\%のImageNet Top-1の精度を達成した。

Unsupervised visual representation learning has gained much attention from the computer vision community because of the recent achievement of contrastive learning. Most of the existing contrastive learning frameworks adopt the instance discrimination as the pretext task, which treating every single instance as a different class. However, such method will inevitably cause class collision problems, which hurts the quality of the learned representation. Motivated by this observation, we introduced a weakly supervised contrastive learning framework (WCL) to tackle this issue. Specifically, our proposed framework is based on two projection heads, one of which will perform the regular instance discrimination task. The other head will use a graph-based method to explore similar samples and generate a weak label, then perform a supervised contrastive learning task based on the weak label to pull the similar images closer. We further introduced a K-Nearest Neighbor based multi-crop strategy to expand the number of positive samples. Extensive experimental results demonstrate WCL improves the quality of self-supervised representations across different datasets. Notably, we get a new state-of-the-art result for semi-supervised learning. With only 1\% and 10\% labeled examples, WCL achieves 65\% and 72\% ImageNet Top-1 Accuracy using ResNet50, which is even higher than SimCLRv2 with ResNet101.
翻訳日:2021-10-12 18:06:59 公開日:2021-10-10
# 特徴記述子の自己教師付き学習について

Digging Into Self-Supervised Learning of Feature Descriptors ( http://arxiv.org/abs/2110.04773v1 )

ライセンス: Link先を確認
Iaroslav Melekhov and Zakaria Laskar and Xiaotian Li and Shuzhe Wang and Juho Kannala(参考訳) 局所画像記述子を学習するための完全教師付きCNNベースのアプローチは、幅広い幾何学的タスクにおいて顕著な結果を示している。 しかし,そのほとんどは,大規模な取得が困難である画素単位の基点対応データを必要とする。 この課題に対処するために、近年の弱い自己監督手法は、相対的なカメラポーズから特徴記述子を学習したり、ホモグラフのような合成剛性変換のみを使用することができる。 本研究では,既存の自己監督アプローチの限界を理解することに注力し,強力な機能記述子を実現するための改良点を提案する。 強負の採鉱において, 対面内からバッチ内への探索空間の増大が一貫した改善をもたらすことを示す。 特徴記述子の識別性を高めるため,グローバルな視覚画像記述子を用いて,より広い検索空間から局所的な強みをマイニングする粗大な手法を提案する。 合成ホモグラフィー変換,色増色,フォトリアリスティックな画像スタイライゼーションの組み合わせが,視点および照明不変な有用な表現を生み出すことを実証する。 提案手法によって得られた特徴記述子は,画像に基づく局所化,スパース特徴マッチング,画像検索などの幾何ベンチマークにおいて,完全かつ弱い教師付き比較結果を上回る性能を持つ。

Fully-supervised CNN-based approaches for learning local image descriptors have shown remarkable results in a wide range of geometric tasks. However, most of them require per-pixel ground-truth keypoint correspondence data which is difficult to acquire at scale. To address this challenge, recent weakly- and self-supervised methods can learn feature descriptors from relative camera poses or using only synthetic rigid transformations such as homographies. In this work, we focus on understanding the limitations of existing self-supervised approaches and propose a set of improvements that combined lead to powerful feature descriptors. We show that increasing the search space from in-pair to in-batch for hard negative mining brings consistent improvement. To enhance the discriminativeness of feature descriptors, we propose a coarse-to-fine method for mining local hard negatives from a wider search space by using global visual image descriptors. We demonstrate that a combination of synthetic homography transformation, color augmentation, and photorealistic image stylization produces useful representations that are viewpoint and illumination invariant. The feature descriptors learned by the proposed approach perform competitively and surpass their fully- and weakly-supervised counterparts on various geometric benchmarks such as image-based localization, sparse feature matching, and image retrieval.
翻訳日:2021-10-12 18:05:32 公開日:2021-10-10
# 6D-ViT: Transformer-based Instance Representation Learning によるカテゴリーレベル6Dオブジェクトポス推定

6D-ViT: Category-Level 6D Object Pose Estimation via Transformer-based Instance Representation Learning ( http://arxiv.org/abs/2110.04792v1 )

ライセンス: Link先を確認
Lu Zou and Zhangjin Huang(参考訳) 本稿では,RGB-D画像の高精度なカテゴリレベルのオブジェクトポーズ推定に適したトランスフォーマーベースのインスタンス表現学習ネットワークである6D-ViTを提案する。 特に、新しい2ストリームエンコーダ-デコーダフレームワークは、rgbイメージ、ポイントクラウド、カテゴリシェイプから複雑で強力なインスタンス表現を探索するために使われる。 この目的のために、フレームワーク全体はPixelformerとPointformerという2つのメインブランチで構成されている。 Pixelformerは、全MLPデコーダを備えたピラミッドトランスフォーマーエンコーダを含み、RGB画像から画素方向の外観表現を抽出し、Pointformerはカスケード変換器エンコーダと全MLPデコーダに依存して点雲から点方向の幾何学的特徴を取得する。 そして、形状先、外観、幾何学情報を入力とする多ソース集約ネットワークから、高密度なインスタンス表現(すなわち、対応行列、変形場)を得る。 最後に、高密度表現、形状先行、インスタンス点雲の対応を利用して、インスタンス6Dポーズを算出する。 合成データと実世界のデータセットの両方に関する広範な実験により、提案された3dインスタンス表現学習フレームワークが、両方のデータセットで最先端のパフォーマンスを達成し、既存のメソッドを著しく上回っていることが示されている。

This paper presents 6D-ViT, a transformer-based instance representation learning network, which is suitable for highly accurate category-level object pose estimation on RGB-D images. Specifically, a novel two-stream encoder-decoder framework is dedicated to exploring complex and powerful instance representations from RGB images, point clouds and categorical shape priors. For this purpose, the whole framework consists of two main branches, named Pixelformer and Pointformer. The Pixelformer contains a pyramid transformer encoder with an all-MLP decoder to extract pixelwise appearance representations from RGB images, while the Pointformer relies on a cascaded transformer encoder and an all-MLP decoder to acquire the pointwise geometric characteristics from point clouds. Then, dense instance representations (i.e., correspondence matrix, deformation field) are obtained from a multi-source aggregation network with shape priors, appearance and geometric information as input. Finally, the instance 6D pose is computed by leveraging the correspondence among dense representations, shape priors, and the instance point clouds. Extensive experiments on both synthetic and real-world datasets demonstrate that the proposed 3D instance representation learning framework achieves state-of-the-art performance on both datasets, and significantly outperforms all existing methods.
翻訳日:2021-10-12 18:05:09 公開日:2021-10-10
# uav画像を用いた民生インフラの高速・ロバスト構造損傷解析

Fast and Robust Structural Damage Analysis of Civil Infrastructure Using UAV Imagery ( http://arxiv.org/abs/2110.04806v1 )

ライセンス: Link先を確認
Alon Oring(参考訳) 構造的健康検査の文脈における無人航空機(UAV)の使用は、近年大きな人気を集めている。 カメラ搭載UAVは、マッピングや3Dモデル再構成、検査者の補助ツールとしてよく使われる多数の画像の迅速な取得を可能にする。 大規模uav調査で撮影された画像の数のため、資格のある技術者は手作業による全資産の検査分析を効率的に行うことはできない。 さらに、過去の検査と比較するためには、大量のメタデータやコンピュータビジョンベースのアルゴリズムを使わずに実用的でない画像の検索が必要である。 本稿では,自動構造検査損傷解析のためのエンドツーエンド手法を提案する。 自動オブジェクト検出とセグメンテーションを使用して、欠陥、ブリッジユーティリティ、エレメントを正確にローカライズする。 次に、UAV画像の重なりが大きいと、関心点が抽出され、画像データベース全体にわたって欠陥の位置と一致し、欠陥の詳細な記録を維持しながらデータの冗長性を著しく低減する。 本手法は,UAV画像の高速かつロバストな損傷解析を可能にするだけでなく,手動で取得した画像の解析にも有効である。

The usage of Unmanned Aerial Vehicles (UAVs) in the context of structural health inspection is recently gaining tremendous popularity. Camera mounted UAVs enable the fast acquisition of a large number of images often used for mapping, 3D model reconstruction, and as an assisting tool for inspectors. Due to the number of images captured during large scale UAV surveys, a manual image-based inspection analysis of entire assets cannot be efficiently performed by qualified engineers. Additionally, comparing defects to past inspections requires the retrieval of relevant images which is often impractical without extensive metadata or computer-vision-base d algorithms. In this paper, we propose an end-to-end method for automated structural inspection damage analysis. Using automated object detection and segmentation we accurately localize defects, bridge utilities and elements. Next, given the high overlap in UAV imagery, points of interest are extracted, and defects are located and matched throughout the image database, considerably reducing data redundancy while maintaining a detailed record of the defects. Our technique not only enables fast and robust damage analysis of UAV imagery, as we show herein, but is also effective for analyzing manually acquired images.
翻訳日:2021-10-12 18:04:43 公開日:2021-10-10
# 擬似ラベルの改良:半教師付きドメイン一般化のための共同ドメイン認識ラベルとデュアル分類器

Better Pseudo-label: Joint Domain-aware Label and Dual-classifier for Semi-supervised Domain Generalization ( http://arxiv.org/abs/2110.04820v1 )

ライセンス: Link先を確認
Ruiqi Wang, Lei Qi, Yinghuan Shi and Yang Gao(参考訳) 学習対象ドメインを直接一般化することを目的として,新たに提案された学習パラダイムであるドメイン一般化(DG)が注目されている。 以前のDGモデルは通常、トレーニング中に観測されたソースドメインから十分な量の注釈付きサンプルを必要とする。 本稿では、この全アノテーション要件を緩和し、トレーニングプロセスで完全にラベル付けされていない他のドメインとともに1つのソースドメインだけが完全に注釈付けされている半教師付きドメイン一般化(SSDG)を調査する。 観測されたソースドメイン間のドメインギャップに取り組むことや、未認識のターゲットドメインを予測することの難しさから、より高品質な擬似ラベルを生成するために、ジョイントドメインアウェアラベルとデュアルクラスレータによる新しい深層フレームワークを提案する。 具体的には、ドメインシフトの下で正確な擬似ラベルを予測するために、ドメイン対応擬似ラベルモジュールを開発する。 また、一般化と擬似ラベルの一貫性のない目標を考えると、前者は全てのソースドメインに過剰な適合を防ぎ、後者は高精度にラベル付けされていないソースドメインに過度に適合する可能性がある。 公開されているDGベンチマークデータセットの大規模な結果から,提案手法の有効性が示唆された。

With the goal of directly generalizing trained models to unseen target domains, domain generalization (DG), a newly proposed learning paradigm, has attracted considerable attention. Previous DG models usually require a sufficient quantity of annotated samples from observed source domains during training. In this paper, we relax this requirement about full annotation and investigate semi-supervised domain generalization (SSDG) where only one source domain is fully annotated along with the other domains totally unlabeled in the training process. With the challenges of tackling the domain gap between observed source domains and predicting unseen target domains, we propose a novel deep framework via joint domain-aware labels and dual-classifier to produce high-quality pseudo-labels. Concretely, to predict accurate pseudo-labels under domain shift, a domain-aware pseudo-labeling module is developed. Also, considering inconsistent goals between generalization and pseudo-labeling: former prevents overfitting on all source domains while latter might overfit the unlabeled source domains for high accuracy, we employ a dual-classifier to independently perform pseudo-labeling and domain generalization in the training process. Extensive results on publicly available DG benchmark datasets show the efficacy of our proposed SSDG method compared to the well-designed baselines and the state-of-the-art semi-supervised learning methods.
翻訳日:2021-10-12 18:04:25 公開日:2021-10-10
# 深部強化学習によるラスタマンガのベクトル化

Vectorization of Raster Manga by Deep Reinforcement Learning ( http://arxiv.org/abs/2110.04830v1 )

ライセンス: Link先を確認
Hao Su, Jianwei Niu, Xuefeng Liu, Jiahe Cui, Ji Wan(参考訳) 漫画(まんが)は、白黒のストロークラインからなる和風の漫画。 現実のシナリオのイメージと比較すると、マンガのテクスチャが単純で色調が小さいことは、ベクトル化できる余分な性質である。 本稿では,Deep Reinforcement Learning (DRL) を用いたラスタマンガスのベクトル化手法であるMang2Vecを提案する。 画像ベクトル化の既存の学習に基づく作品とは異なり、マンガ全体を基本プリミティブの「ストロークライン」の集合とみなし、ストローク行のシーケンスはさらなるベクトル化のために深く分解することができる。 対象マンガの視覚的特徴に従うために制約されるストロークラインの最も適したシーケンスを生成するために,設計したdrlエージェントを訓練する。 次に、ストロークの制御パラメータを収集してベクトル形式に変換する。 さらに,視覚的品質と記憶容量の向上のために,正確なストークスを生成するSA報酬と,誤りや冗長なストロークの発生を回避するプルーニング機構を提案する。 定量的で質的な実験は、Mang2Vecが素晴らしい結果をもたらし、最先端のレベルに達することを実証しています。

Manga is a popular Japanese-style comic form that consists of black-and-white stroke lines. Compared with images of real-world scenarios, the simpler textures and fewer color gradients of mangas are the extra natures that can be vectorized. In this paper, we propose Mang2Vec, the first approach for vectorizing raster mangas using Deep Reinforcement Learning (DRL). Unlike existing learning-based works of image vectorization, we present a new view that considers an entire manga as a collection of basic primitives "stroke line", and the sequence of strokes lines can be deep decomposed for further vectorization. We train a designed DRL agent to produce the most suitable sequence of stroke lines, which is constrained to follow the visual feature of the target manga. Next, the control parameters of strokes are collected to translated to vector format. To improve our performances on visual quality and storage size, we further propose an SA reward to generate accurate stokes, and a pruning mechanism to avoid producing error and redundant strokes. Quantitative and qualitative experiments demonstrate that our Mang2Vec can produce impressive results and reaches the state-of-the-art level.
翻訳日:2021-10-12 18:04:00 公開日:2021-10-10
# マルチモーダル輪郭条件を用いたアイデンティティ誘導顔生成

Identity-Guided Face Generation with Multi-modal Contour Conditions ( http://arxiv.org/abs/2110.04854v1 )

ライセンス: Link先を確認
Qingyan Bai, Weihao Xia, Fei Yin, Yujiu Yang(参考訳) 近年の顔生成法では,低解像度画像やスケッチなど,与えられた輪郭条件に基づいて顔の合成が試みられている。 しかし、アイデンティティの曖昧さの問題は未解決のままであり、通常は輪郭が曖昧すぎて信頼できるアイデンティティ情報を提供できない場合(例えば、その解像度が極端に低い場合)に発生する。 本研究では,輪郭を入力とし,その輪郭を低解像度画像,スケッチ,意味的ラベルマップなど,様々なモダリティの輪郭を表現できる,輪郭と余分な画像を入力として取り出す枠組みを提案する。 このタスクは、既知の犯罪者を追跡したり、エンターテイメントのためのインテリジェントな創造を行う状況に特に適合する。 具体的には、IDエンコーダが主エンコーダを伴ってアイデンティティ関連の特徴を抽出し、粗い輪郭情報を取得し、さらに全ての情報を融合する新しいデュアルエンコーダアーキテクチャを提案する。 エンコーダ出力は、満足な結果が得られるまで、トレーニング済みのStyleGANジェネレータに繰り返し供給される。 我々の知る限りでは、これはマルチモーダル輪郭画像に条件付きID誘導顔生成を実現する最初の作品である。 さらに、1024$\times$1024の解像度で写真実写的な結果が得られる。 コードはhttps://git.io/jo4yh で入手できる。

Recent face generation methods have tried to synthesize faces based on the given contour condition, like a low-resolution image or a sketch. However, the problem of identity ambiguity remains unsolved, which usually occurs when the contour is too vague to provide reliable identity information (e.g., when its resolution is extremely low). In this work, we propose a framework that takes the contour and an extra image specifying the identity as the inputs, where the contour can be of various modalities, including the low-resolution image, sketch, and semantic label map. This task especially fits the situation of tracking the known criminals or making intelligent creations for entertainment. Concretely, we propose a novel dual-encoder architecture, in which an identity encoder extracts the identity-related feature, accompanied by a main encoder to obtain the rough contour information and further fuse all the information together. The encoder output is iteratively fed into a pre-trained StyleGAN generator until getting a satisfying result. To the best of our knowledge, this is the first work that achieves identity-guided face generation conditioned on multi-modal contour images. Moreover, our method can produce photo-realistic results with 1024$\times$1024 resolution. Code will be available at https://git.io/Jo4yh .
翻訳日:2021-10-12 18:03:41 公開日:2021-10-10
# NViT:視覚変換器圧縮とパラメータ再分配

NViT: Vision Transformer Compression and Parameter Redistribution ( http://arxiv.org/abs/2110.04869v1 )

ライセンス: Link先を確認
Huanrui Yang, Hongxu Yin, Pavlo Molchanov, Hai Li, Jan Kautz(参考訳) トランスフォーマーは多くのタスクで最先端の結果をもたらす。 しかし、推論中に膨大な計算コストがかかる。 我々は、遅延低減のためにvision transformer(vit)モデルのすべてのパラメータに、レイテンシを認識したグローバル構造プルーニングを適用する。 さらに,prunedアーキテクチャを分析し,最終重み構造に興味深い正則性を見出した。 我々の発見はNViT(Novel ViT)と呼ばれる新しいアーキテクチャにつながり、パラメータの使い方を再分配する。 このアーキテクチャはパラメータをより効率的に利用し、遅延精度トレードオフの制御を可能にする。 ImageNet-1Kでは、DIT-Base(Touvron et al., 2021)モデルを2.6倍のFLOPs削減、5.1倍のパラメータ削減、1.9倍のランタイム高速化を実現し、精度は0.07%しか損なわない。 ベースモデルを小型/tiny変種のスループットに圧縮すると,1%以上の精度向上が得られる。 NViTは、スクラッチからトレーニングした時に手書きのDEITファミリーよりも0.1-1.1%精度が向上する。

Transformers yield state-of-the-art results across many tasks. However, they still impose huge computational costs during inference. We apply global, structural pruning with latency-aware regularization on all parameters of the Vision Transformer (ViT) model for latency reduction. Furthermore, we analyze the pruned architectures and find interesting regularities in the final weight structure. Our discovered insights lead to a new architecture called NViT (Novel ViT), with a redistribution of where parameters are used. This architecture utilizes parameters more efficiently and enables control of the latency-accuracy trade-off. On ImageNet-1K, we prune the DEIT-Base (Touvron et al., 2021) model to a 2.6x FLOPs reduction, 5.1x parameter reduction, and 1.9x run-time speedup with only 0.07% loss in accuracy. We achieve more than 1% accuracy gain when compressing the base model to the throughput of the Small/Tiny variants. NViT gains 0.1-1.1% accuracy over the hand-designed DEIT family when trained from scratch, while being faster.
翻訳日:2021-10-12 18:03:19 公開日:2021-10-10
# マルチパラメータカメラを用いた生理センシングのための合成データ

Synthetic Data for Multi-Parameter Camera-Based Physiological Sensing ( http://arxiv.org/abs/2110.04902v1 )

ライセンス: Link先を確認
Daniel McDuff, Xin Liu, Javier Hernandez, Erroll Wood, Tadas Baltrusaitis(参考訳) 合成データは、飢えたディープラーニングアルゴリズムを訓練するための強力なツールだ。 しかし、これまでのところ、カメラによる生理学的センシングはこれらの技術を十分に活用していない。 本研究では,高忠実度合成パイプラインを用いて,忠実な血流と呼吸パターンを有する顔の映像を生成する。 本稿では,マルチパラメータ心肺センサのトレーニングにおいて,生理的に接地した合成データをいかに利用できるかを示す体系的な実験を行う。 トレーニングセット内の人工アバターの数によって心拍数と呼吸速度の測定精度が上昇することを示す実験的な証拠を提供する。 さらに、肌型が暗いアバターでのトレーニングは、肌型が薄いアバターのトレーニングよりも全体的なパフォーマンスが向上する。 最後に、カメラベースの生理的センシングの領域に存在する合成の機会と克服すべき限界について論じる。

Synthetic data is a powerful tool in training data hungry deep learning algorithms. However, to date, camera-based physiological sensing has not taken full advantage of these techniques. In this work, we leverage a high-fidelity synthetics pipeline for generating videos of faces with faithful blood flow and breathing patterns. We present systematic experiments showing how physiologically-grou nded synthetic data can be used in training camera-based multi-parameter cardiopulmonary sensing. We provide empirical evidence that heart and breathing rate measurement accuracy increases with the number of synthetic avatars in the training set. Furthermore, training with avatars with darker skin types leads to better overall performance than training with avatars with lighter skin types. Finally, we discuss the opportunities that synthetics present in the domain of camera-based physiological sensing and limitations that need to be overcome.
翻訳日:2021-10-12 18:03:02 公開日:2021-10-10
# サリエント物体検出のためのモダリティ誘導サブネットワーク

Modality-Guided Subnetwork for Salient Object Detection ( http://arxiv.org/abs/2110.04904v1 )

ライセンス: Link先を確認
Zongwei Wu, Guillaume Allibert, Christophe Stolz, Chao Ma, C\'edric Demonceaux(参考訳) 最近のsaliency detectionのためのrgbdベースのモデルが研究の注目を集めている。 境界の手がかり、表面の正常さ、形状属性などのような深さの手がかりは、複雑なシナリオによる突出した物体の識別に寄与する。 しかし、ほとんどのRGBDネットワークは入力側から複数のモダリティを必要とし、それらを2ストリームの設計で別々に供給し、必然的に深度センサーと計算に余分なコストがかかる。 これらの不便に対処するため,本論文ではモダリティ誘導サブネットワーク(mgsnet)と呼ばれる新しい核融合設計を提案する。 以下の優れたデザインがある。 1) モデルはRGBデータとRGBDデータの両方に対応し, 使用できない場合の深度を動的に推定する。 深度予測ネットワークの内部構造を考慮に入れ,RGB入力から擬似幾何マップをマルチモーダル入力を忠実に模倣して推定する。 2) RGB SOD の MGSnet は実時間推定を行うが,他の RGB モデルと比較して最先端の性能を実現する。 3)MGSのフレキシブルで軽量な設計は,RGBD2ストリーミングモデルへの統合を促進する。 導入された核融合設計は、さらなる進歩を可能にするが最小限のコストでクロスモダリティ相互作用を可能にする。

Recent RGBD-based models for saliency detection have attracted research attention. The depth clues such as boundary clues, surface normal, shape attribute, etc., contribute to the identification of salient objects with complicated scenarios. However, most RGBD networks require multi-modalities from the input side and feed them separately through a two-stream design, which inevitably results in extra costs on depth sensors and computation. To tackle these inconveniences, we present in this paper a novel fusion design named modality-guided subnetwork (MGSnet). It has the following superior designs: 1) Our model works for both RGB and RGBD data, and dynamically estimating depth if not available. Taking the inner workings of depth-prediction networks into account, we propose to estimate the pseudo-geometry maps from RGB input - essentially mimicking the multi-modality input. 2) Our MGSnet for RGB SOD results in real-time inference but achieves state-of-the-art performance compared to other RGB models. 3) The flexible and lightweight design of MGS facilitates the integration into RGBD two-streaming models. The introduced fusion design enables a cross-modality interaction to enable further progress but with a minimal cost.
翻訳日:2021-10-12 18:02:50 公開日:2021-10-10
# BEV-Net: ソーシャル・ディスタンシング・コンプライアンスの評価 : 共同人物のローカライゼーションと幾何学的推論

BEV-Net: Assessing Social Distancing Compliance by Joint People Localization and Geometric Reasoning ( http://arxiv.org/abs/2110.04931v1 )

ライセンス: Link先を確認
Zhirui Dai, Yuepeng Jiang, Yi Li, Bo Liu, Antoni B. Chan, Nuno Vasconcelos(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を抑えるため、公衆衛生に欠かせないソーシャルディスタンシングが注目されている。 本研究は,広い視野カメラを備えた多忙な公共空間におけるソーシャルディスタンス・コンプライアンス・アセスメントの問題点について考察する。 鳥眼図 (bev) 下での注釈付き群衆シーンのデータセットと距離計測のための地上真理を導入し, 社会的距離検出システムの評価のためのいくつかの尺度を提案する。 マルチブランチネットワークであるBEV-Netは、世界座標における個人をローカライズし、社会的距離違反のリスクの高い地域を特定する。 BEV-Netは、頭と足の位置の検出、カメラポーズ推定、画像のBEV座標へのマッピングのための相違可能なホモグラフィモジュール、および幾何学的推論を組み合わせて、シーン内の人々の位置のBEVマップを生成する。 複雑な混雑したシーンにおける実験は、アプローチのパワーを示し、文献の手法から派生したベースラインよりも優れたパフォーマンスを示す。 公衆衛生意思決定者への関心の応用について論じる。 データセット、コード、事前トレーニングされたモデルはgithubで公開されている。

Social distancing, an essential public health measure to limit the spread of contagious diseases, has gained significant attention since the outbreak of the COVID-19 pandemic. In this work, the problem of visual social distancing compliance assessment in busy public areas, with wide field-of-view cameras, is considered. A dataset of crowd scenes with people annotations under a bird's eye view (BEV) and ground truth for metric distances is introduced, and several measures for the evaluation of social distance detection systems are proposed. A multi-branch network, BEV-Net, is proposed to localize individuals in world coordinates and identify high-risk regions where social distancing is violated. BEV-Net combines detection of head and feet locations, camera pose estimation, a differentiable homography module to map image into BEV coordinates, and geometric reasoning to produce a BEV map of the people locations in the scene. Experiments on complex crowded scenes demonstrate the power of the approach and show superior performance over baselines derived from methods in the literature. Applications of interest for public health decision makers are finally discussed. Datasets, code and pretrained models are publicly available at GitHub.
翻訳日:2021-10-12 18:02:17 公開日:2021-10-10
# 抽象要約による蒸留ギスト検出器による長文理解

Enhance Long Text Understanding via Distilled Gist Detector from Abstractive Summarization ( http://arxiv.org/abs/2110.04741v1 )

ライセンス: Link先を確認
Yan Liu, Yazheng Yang(参考訳) 長い文章の理解は自然言語処理では重要だが難しい。 長い記事やエッセイは、通常、その要旨とは無関係で時としてノイズと見なされる多くの冗長な単語を含んでいる。 本稿では,長文理解において,ジスト関連情報と無関係情報を両立させる方法について考察する。 蒸留機構を用いて, 抽出要約モデルから抽出部を集中させる方法についての知識を移し, さらに, \emph{gist detector} と呼ばれる蒸留モデルを既存のモデルに統合し, 長文理解の強化を図る。 文書分類, 遠隔教師付きオープンドメイン質問応答 (DS-QA) および非並列テキストスタイルの転送実験により, 本手法がベースラインモデルの性能を大幅に向上し, 文書分類の総合的な結果が得られることを示した。

Long text understanding is important yet challenging in natural language processing. A long article or essay usually contains many redundant words that are not pertinent to its gist and sometimes can be regarded as noise. In this paper, we consider the problem of how to disentangle the gist-relevant and irrelevant information for long text understanding. With distillation mechanism, we transfer the knowledge about how to focus the salient parts from the abstractive summarization model and further integrate the distilled model, named \emph{Gist Detector}, into existing models as a supplementary component to augment the long text understanding. Experiments on document classification, distantly supervised open-domain question answering (DS-QA) and non-parallel text style transfer show that our method can significantly improve the performance of the baseline models, and achieves state-of-the-art overall results for document classification.
翻訳日:2021-10-12 17:08:15 公開日:2021-10-10
# paste:アスペクト感情三重項抽出のためのポインタネットワークを用いたタグフリー復号フレームワーク

PASTE: A Tagging-Free Decoding Framework Using Pointer Networks for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2110.04794v1 )

ライセンス: Link先を確認
Rajdeep Mukherjee, Tapas Nayak, Yash Butala, Sourangshu Bhattacharya, Pawan Goyal(参考訳) Aspect Sentiment Triplet extract (ASTE)は、意見の対象または側面、その関連する感情、およびその感情の背後にある理性を説明する対応する意見用語/スパンからなる意見三つ組の抽出を扱う。 既存の研究努力は主にタグ付けベースである。 シーケンスタギングアプローチを採用する手法の中には、3つの意見要因間の強い相互依存を捉えないものもあれば、重複するアスペクト/オピニオンスパンを持つ三重項を識別できないものもある。 一方、最近のグリッドタギングアプローチでは、アスペクト-オピニオンペア間の感情を予測しながら、スパンレベルのセマンティクスをキャプチャできない。 これらと異なるのは,既存の作業の制限に対処しつつ,タスクのタグ付け不要なソリューションを提案することだ。 我々は、ポイントネットワークベースのデコードフレームワークでエンコーダ・デコーダアーキテクチャを適用し、各ステップで意見全体を3倍にすることで、ソリューションをエンドツーエンドにします。 アスペクトと意見の相互作用は、検出されたスパン全体を考慮し、接続感情を予測し、デコーダによって効果的に捕捉される。 いくつかのベンチマークデータセットに対する大規模な実験は、特にリコールにおいて、提案手法のより良い有効性を確立し、同じレビュー文から多重およびアスペクト/オピニオンオーバーラップ三重項を予測する。 本報告では,BERT と BERT の併用,およびタスクに対するドメイン固有の BERT ポストトレーニングの有用性について報告する。

Aspect Sentiment Triplet Extraction (ASTE) deals with extracting opinion triplets, consisting of an opinion target or aspect, its associated sentiment, and the corresponding opinion term/span explaining the rationale behind the sentiment. Existing research efforts are majorly tagging-based. Among the methods taking a sequence tagging approach, some fail to capture the strong interdependence between the three opinion factors, whereas others fall short of identifying triplets with overlapping aspect/opinion spans. A recent grid tagging approach on the other hand fails to capture the span-level semantics while predicting the sentiment between an aspect-opinion pair. Different from these, we present a tagging-free solution for the task, while addressing the limitations of the existing works. We adapt an encoder-decoder architecture with a Pointer Network-based decoding framework that generates an entire opinion triplet at each time step thereby making our solution end-to-end. Interactions between the aspects and opinions are effectively captured by the decoder by considering their entire detected spans while predicting their connecting sentiment. Extensive experiments on several benchmark datasets establish the better efficacy of our proposed approach, especially in the recall, and in predicting multiple and aspect/opinion-overl apped triplets from the same review sentence. We report our results both with and without BERT and also demonstrate the utility of domain-specific BERT post-training for the task.
翻訳日:2021-10-12 17:07:59 公開日:2021-10-10
# DCT:非有界列モデリングのための動的圧縮変圧器

DCT: Dynamic Compressive Transformer for Modeling Unbounded Sequence ( http://arxiv.org/abs/2110.04821v1 )

ライセンス: Link先を確認
Kai-Po Chang, Wei-Yun Ma(参考訳) 本稿では,非有界列をモデル化するトランスベースのフレームワークであるdynamic compressive transformer (dct)を提案する。 すべての文表現をメモリに付加する以前のベースラインとは対照的に、条件付き選択と追加は、無制限の長いシーケンスを扱うためのより合理的なソリューションである。 我々のモデルは、シーケンスを圧縮された状態でメモリに保持するか、トレーニングプロセス中に破棄するかを決定するポリシーを使用する。 メモリシステムに意味のある文情報を保持する利点により、Enwik8ベンチマーク実験の結果、DCTは従来のSOTAモデルよりも優れていた。

In this paper, we propose Dynamic Compressive Transformer (DCT), a transformer-based framework for modeling the unbounded sequence. In contrast to the previous baselines which append every sentence representation to memory, conditionally selecting and appending them is a more reasonable solution to deal with unlimited long sequences. Our model uses a policy that determines whether the sequence should be kept in memory with a compressed state or discarded during the training process. With the benefits of retaining semantically meaningful sentence information in the memory system, our experiment results on Enwik8 benchmark show that DCT outperforms the previous state-of-the-art (SOTA) model.
翻訳日:2021-10-12 17:07:32 公開日:2021-10-10
# 文章を意味的に関連付けるもの:テキスト関連性データセットと実証的研究

What Makes Sentences Semantically Related: A Textual Relatedness Dataset and Empirical Study ( http://arxiv.org/abs/2110.04845v1 )

ライセンス: Link先を確認
Mohamed Abdalla, Krishnapriya Vishnubhotla, Saif M. Mohammad(参考訳) 2つの言語単位の意味的関連性(または、意味の密接性)の度合いは、長い間、意味を理解するのに基礎的と考えられてきた。 関連性の自動決定には質問応答や要約など多くの応用がある。 しかしながら、NLPの以前の研究は、関連性データセットが不足しているため、意味的類似性(関連性のサブセット)に主に焦点を当てていた。 ここでは,文対に対する意味的関連性のデータセットを初めて紹介する。 このデータセットSTR-2021は、比較アノテーションフレームワークを使用して、意味的関連性のために5500の英語文ペアを手動で注釈付けする。 その結果,高い信頼性が得られた(リピートアノテーション相関は0.84)。 私たちはデータセットを使って、2つの文をより意味的に関連づけるいくつかの質問を探索します。 また,ベクトル空間において互いにより近い関係にあるペアを配置する能力について,文表現法の一群を評価する。

The degree of semantic relatedness (or, closeness in meaning) of two units of language has long been considered fundamental to understanding meaning. Automatically determining relatedness has many applications such as question answering and summarization. However, prior NLP work has largely focused on semantic similarity (a subset of relatedness), because of a lack of relatedness datasets. Here for the first time, we introduce a dataset of semantic relatedness for sentence pairs. This dataset, STR-2021, has 5,500 English sentence pairs manually annotated for semantic relatedness using a comparative annotation framework. We show that the resulting scores have high reliability (repeat annotation correlation of 0.84). We use the dataset to explore a number of questions on what makes two sentences more semantically related. We also evaluate a suite of sentence representation methods on their ability to place pairs that are more related closer to each other in vector space.
翻訳日:2021-10-12 17:07:19 公開日:2021-10-10
# 量子断熱素因数分解のためのハードインスタンス学習

Hard instance learning for quantum adiabatic prime factorization ( http://arxiv.org/abs/2110.04782v1 )

ライセンス: Link先を確認
Jian Lin, Zhengfeng Zhang, Junping Zhang, Xiaopeng Li(参考訳) 素因数分解は古典計算において難しい問題であり、指数的硬度はリベスト・シャミール・アドルマン暗号の基礎となる。 プログラマブル量子デバイスでは、古典的計算よりも有望な利点を持つ素因数分解を解くための有効なアプローチとして、断熱量子コンピューティングが提案されている。 ここでは、古典的アニーリングと非構成のアダイバティック量子コンピューティング(AQC)の両方に対して、一貫して難解なインスタンスが存在する。 量子断熱分解の最適構成のためのアーキテクチャの自動化を目的として,AQCアルゴリズムの構成に深部強化学習(RL)法を適用した。 最悪の問題インスタンスの成功確率をRLの報奨として設定することにより、ハードインスタンスのAQC性能がRL設定により劇的に改善されることを示す。 成功確率は、異なる問題インスタンスに均等に分散されるため、構成されたAQCは、設定されていないケースよりも安定である。 5つのキュービットでトレーニングされた構成されたaqcは、9つのキュービットで効率的に動作し、追加のトレーニングコストは最小限である。

Prime factorization is a difficult problem with classical computing, whose exponential hardness is the foundation of Rivest-Shamir-Adlema n (RSA) cryptography. With programmable quantum devices, adiabatic quantum computing has been proposed as a plausible approach to solve prime factorization, having promising advantage over classical computing. Here, we find there are certain hard instances that are consistently intractable for both classical simulated annealing and un-configured adiabatic quantum computing (AQC). Aiming at an automated architecture for optimal configuration of quantum adiabatic factorization, we apply a deep reinforcement learning (RL) method to configure the AQC algorithm. By setting the success probability of the worst-case problem instances as the reward to RL, we show the AQC performance on the hard instances is dramatically improved by RL configuration. The success probability also becomes more evenly distributed over different problem instances, meaning the configured AQC is more stable as compared to the un-configured case. Through a technique of transfer learning, we find prominent evidence that the framework of AQC configuration is scalable -- the configured AQC as trained on five qubits remains working efficiently on nine qubits with a minimal amount of additional training cost.
翻訳日:2021-10-12 16:45:42 公開日:2021-10-10
# パイプライン行列乗算高速化設計と非一様量子化に基づくディープラーニング推論方式

A Deep Learning Inference Scheme Based on Pipelined Matrix Multiplication Acceleration Design and Non-uniform Quantization ( http://arxiv.org/abs/2110.04861v1 )

ライセンス: Link先を確認
Yuyang Zhang, Dik Hin Leung, Min Guo, Yijia Xiao, Haoyue Liu, Yunfei Li, Jiyuan Zhang, Guan Wang, Zhen Chen(参考訳) 行列乗算はディープラーニング推論アプリケーションの基盤となる。 エッジコンピューティングデバイス上でハードウェアアクセラレーションを行う場合、行列乗算は多くの場合、大部分の時間を要する。 エッジコンピューティングの性能向上のために,パイプライン行列乗算法と非一様量子化法に基づく低消費電力マルチ層パーセプトロン(mlp)加速器を導入する。 この実装は、フィールドプログラマブルゲートアレイ(FPGA)デバイス上で動作し、手書き桁分類とQ-ラーニングタスクでその性能をテストしている。 その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。

Matrix multiplication is the bedrock in Deep Learning inference application. When it comes to hardware acceleration on edge computing devices, matrix multiplication often takes up a great majority of the time. To achieve better performance in edge computing, we introduce a low-power Multi-layer Perceptron (MLP) accelerator based on a pipelined matrix multiplication scheme and a nonuniform quantization methodology. The implementation is running on Field-programmable Gate Array (FPGA) devices and tested its performance on handwritten digit classification and Q-learning tasks. Results show that our method can achieve better performance with fewer power consumption.
翻訳日:2021-10-12 16:45:19 公開日:2021-10-10
# シーケンスモデリングのための長時間表現型メモリ

Long Expressive Memory for Sequence Modeling ( http://arxiv.org/abs/2110.04744v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Siddhartha Mishra, N. Benjamin Erichson, Michael W. Mahoney(参考訳) 本稿では,Long Expressive Memory (LEM) と呼ばれる,長期連続的な依存関係を学習するための新しい手法を提案する。 LEMは勾配に基づいており、非常に長期依存したシーケンシャルなタスクを効率的に処理でき、複雑な入出力マップを学習できることは十分に表現力がある。 LEMを導出するために、多スケールの常微分方程式の系と、この系の時間差分化を考える。 LEMでは、勾配に基づく逐次学習法において、爆発的・消滅的な勾配問題の緩和を示す厳密な境界を導出する。 また,LEMが大規模力学系を高精度に近似できることを示す。 画像と時系列の分類から動的システムの予測から音声認識や言語モデリングまで,lemが最先端のリカレントニューラルネットワーク,ゲート型リカレントユニット,長期記憶モデルよりも優れていることを示す。

We propose a novel method called Long Expressive Memory (LEM) for learning long-term sequential dependencies. LEM is gradient-based, it can efficiently process sequential tasks with very long-term dependencies, and it is sufficiently expressive to be able to learn complicated input-output maps. To derive LEM, we consider a system of multiscale ordinary differential equations, as well as a suitable time-discretization of this system. For LEM, we derive rigorous bounds to show the mitigation of the exploding and vanishing gradients problem, a well-known challenge for gradient-based recurrent sequential learning methods. We also prove that LEM can approximate a large class of dynamical systems to high accuracy. Our empirical results, ranging from image and time-series classification through dynamical systems prediction to speech recognition and language modeling, demonstrate that LEM outperforms state-of-the-art recurrent neural networks, gated recurrent units, and long short-term memory models.
翻訳日:2021-10-12 16:42:04 公開日:2021-10-10
# 適応型ジョイント分布学習

Adaptive joint distribution learning ( http://arxiv.org/abs/2110.04829v1 )

ライセンス: Link先を確認
Damir Filipovic and Michael Multerer and Paul Schneider(参考訳) 我々は、テンソル積再生成核ヒルベルト空間 (rkhs) に確率分布を埋め込み(結合)するための新しいフレームワークを開発した。 このフレームワークは、RKHSモデリングの固有の制限を緩和し、最大数百万のデータポイントのサンプルサイズから推定されるラドン-ニコディム微分の低次元、正、正規化モデルに対応している。 よく定義された正規化および正条件分布は、我々のアプローチにとって自然な副産物である。 埋め込みは計算が速く、予測から分類まで学習の問題に自然に対応する。 理論的結果は良好な数値結果によって補足される。

We develop a new framework for embedding (joint) probability distributions in tensor product reproducing kernel Hilbert spaces (RKHS). This framework accommodates a low-dimensional, positive, and normalized model of a Radon-Nikodym derivative, estimated from sample sizes of up to several million data points, alleviating the inherent limitations of RKHS modeling. Well-defined normalized and positive conditional distributions are natural by-products to our approach. The embedding is fast to compute and naturally accommodates learning problems ranging from prediction to classification. The theoretical findings are supplemented by favorable numerical results.
翻訳日:2021-10-12 16:41:49 公開日:2021-10-10
# 条件推定による自己監督型3次元顔再構成

Self-Supervised 3D Face Reconstruction via Conditional Estimation ( http://arxiv.org/abs/2110.04800v1 )

ライセンス: Link先を確認
Yandong Wen, Weiyang Liu, Bhiksha Raj, Rita Singh(参考訳) 本稿では,映像からの自己指導による2次元一眼画像から3次元顔のパラメータを学習するための条件推定(CEST)フレームワークを提案する。 cestは、顔画像から3次元顔パラメータ(形状、反射、視点、照明)を推定し、再結合して2次元顔画像を再構成する合成による分析のプロセスに基づいている。 ラベルに明示的にアクセスすることなく意味論的に意味のある3D顔パラメータを学習するために、CESTは統計的依存を考慮して異なる3D顔パラメータを推定する。 具体的には、任意の3次元顔パラメータの推定は、与えられた画像だけでなく、既に導出された顔パラメータにも条件付けられる。 さらに、映像フレーム間の反射率対称性と一貫性を採用し、顔パラメータの歪みを改善する。 反射率対称性と一貫性を取り入れた新しい戦略とともに、CESTは、線内ビデオクリップで効率的に訓練することができる。 定性的かつ定量的な実験はCESTの有効性を示す。

We present a conditional estimation (CEST) framework to learn 3D facial parameters from 2D single-view images by self-supervised training from videos. CEST is based on the process of analysis by synthesis, where the 3D facial parameters (shape, reflectance, viewpoint, and illumination) are estimated from the face image, and then recombined to reconstruct the 2D face image. In order to learn semantically meaningful 3D facial parameters without explicit access to their labels, CEST couples the estimation of different 3D facial parameters by taking their statistical dependency into account. Specifically, the estimation of any 3D facial parameter is not only conditioned on the given image, but also on the facial parameters that have already been derived. Moreover, the reflectance symmetry and consistency among the video frames are adopted to improve the disentanglement of facial parameters. Together with a novel strategy for incorporating the reflectance symmetry and consistency, CEST can be efficiently trained with in-the-wild video clips. Both qualitative and quantitative experiments demonstrate the effectiveness of CEST.
翻訳日:2021-10-12 16:39:18 公開日:2021-10-10
# 量子化グラフ畳み込みネットワークのためのハールウェーブレット特徴圧縮

Haar Wavelet Feature Compression for Quantized Graph Convolutional Networks ( http://arxiv.org/abs/2110.04824v1 )

ライセンス: Link先を確認
Moshe Eliasof, Benjamin Bodner, Eran Treister(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は様々なアプリケーションで広く使われており、標準畳み込みニューラルネットワーク(CNN)の非構造化バージョンと見なすことができる。 CNNと同様に、大きな入力グラフ(大点雲やメッシュなど)に対するGCNの計算コストは高く、特に計算資源の少ない環境ではこれらのネットワークの使用を阻害することができる。 これらのコストを緩和するために、量子化はGCNに適用できる。 しかし、特徴写像の積極的な量子化は性能を著しく低下させる可能性がある。 別の注意として、ハールウェーブレット変換は信号圧縮の最も効果的で効率的な方法の1つとして知られている。 そこで本稿では,特徴写像にアグレッシブ量子化を適用する代わりに,Haarウェーブレット圧縮と光量子化を用いて,ネットワークの計算と帯域幅を削減することを提案する。 この手法は,ノード分類からポイントクラウド分類,パートセグメンテーション,セマンティクスセグメンテーションに至るまで,さまざまな問題に対して,攻撃的な特徴量化をかなりのマージンで超えることを実証する。

Graph Convolutional Networks (GCNs) are widely used in a variety of applications, and can be seen as an unstructured version of standard Convolutional Neural Networks (CNNs). As in CNNs, the computational cost of GCNs for large input graphs (such as large point clouds or meshes) can be high and inhibit the use of these networks, especially in environments with low computational resources. To ease these costs, quantization can be applied to GCNs. However, aggressive quantization of the feature maps can lead to a significant degradation in performance. On a different note, Haar wavelet transforms are known to be one of the most effective and efficient approaches to compress signals. Therefore, instead of applying aggressive quantization to feature maps, we propose to utilize Haar wavelet compression and light quantization to reduce the computations and the bandwidth involved with the network. We demonstrate that this approach surpasses aggressive feature quantization by a significant margin, for a variety of problems ranging from node classification to point cloud classification and part and semantic segmentation.
翻訳日:2021-10-12 16:39:01 公開日:2021-10-10
# 特徴模倣ネットワーク

Feature Imitating Networks ( http://arxiv.org/abs/2110.04831v1 )

ライセンス: Link先を確認
Sari Saba-Sadiya, Tuka Alhanai, Mohammad M Ghassemi(参考訳) 本稿では,ニューラルネットワークの新たなアプローチである機能模倣ネットワーク(fin)を提案する。 FINは、シャノンのエントロピーのような1つ以上の閉形式統計特徴を確実に近似するために初期化される重みを持つニューラルネットワークである。 本稿では,フィン(およびフィンアンサンブル)が様々な下流の信号処理および推論タスクに対して最良性能を提供するとともに,データ使用量が少なく,類似する(あるいはさらに大きい)表現力を持つ他のネットワークに比べて微調整が不要であることを示す。 FINは、機能工学の洞察を利用して、現代の表現学習手法の性能を高めることによって、ドメインエキスパートと機械学習実践者のギャップを埋めるのに役立つと結論付けている。

In this paper, we introduce a novel approach to neural learning: the Feature-Imitating-Ne twork (FIN). A FIN is a neural network with weights that are initialized to reliably approximate one or more closed-form statistical features, such as Shannon's entropy. In this paper, we demonstrate that FINs (and FIN ensembles) provide best-in-class performance for a variety of downstream signal processing and inference tasks, while using less data and requiring less fine-tuning compared to other networks of similar (or even greater) representational power. We conclude that FINs can help bridge the gap between domain experts and machine learning practitioners by enabling researchers to harness insights from feature-engineering to enhance the performance of contemporary representation learning approaches.
翻訳日:2021-10-12 15:38:44 公開日:2021-10-10
# 確率成分選択を用いた大規模混合モデルの適合

Fitting large mixture models using stochastic component selection ( http://arxiv.org/abs/2110.04776v1 )

ライセンス: Link先を確認
Milan Pape\v{z}, Tom\'a\v{s} Pevn\'y, V\'aclav \v{S}m\'idl(参考訳) 従来の有限混合モデルの教師なし学習法は、混合の全ての成分の可能性を評価する必要がある。 これはコンポーネントの数が大きい場合、例えばsum-product(transfor m)ネットワークの場合、計算的に禁止される。 そこで本研究では,期待最大化とメトロポリス・ハスティングス・アルゴリズムを組み合わせて,少数の統計的サンプル成分のみを評価することにより,計算コストを大幅に削減することを提案する。 成分割り当てのマルコフ連鎖はアルゴリズムの反復で連続的に生成され、パラメータが勾配の差分スキームによって変化する非定常目標分布を持つ。 我々は,この手法の一般性に重点を置いて,複雑な非線形変換を伴う浅層モデルと深層混合モデルの両方を訓練する能力を備えている。 本手法の性能は, 流れの正規化と和生成(変換)ネットワークの混合など, 深いモデルを考慮して, 様々な合成および実データコンテキストで示される。

Traditional methods for unsupervised learning of finite mixture models require to evaluate the likelihood of all components of the mixture. This becomes computationally prohibitive when the number of components is large, as it is, for example, in the sum-product (transform) networks. Therefore, we propose to apply a combination of the expectation maximization and the Metropolis-Hastings algorithm to evaluate only a small number of, stochastically sampled, components, thus substantially reducing the computational cost. The Markov chain of component assignments is sequentially generated across the algorithm's iterations, having a non-stationary target distribution whose parameters vary via a gradient-descent scheme. We put emphasis on generality of our method, equipping it with the ability to train both shallow and deep mixture models which involve complex, and possibly nonlinear, transformations. The performance of our method is illustrated in a variety of synthetic and real-data contexts, considering deep models, such as mixtures of normalizing flows and sum-product (transform) networks.
翻訳日:2021-10-12 15:33:28 公開日:2021-10-10
# 二次多形分離:機械学習における新しい分類モデル

Quadratic Multiform Separation: A New Classification Model in Machine Learning ( http://arxiv.org/abs/2110.04925v1 )

ライセンス: Link先を確認
Ko-Hui Michael Fan, Chih-Chung Chang, Kuang-Hsiao-Yin Kongguoluo(参考訳) 本稿では,機械学習における新しい分類モデルを提案する。 結果は3倍になります 1)モデルの精度は,最も一般的な分類モデルと同程度である。 2) 一般的な分類モデルよりもはるかに高速である。 3) クラスラベルがより高い予測精度で見つかる未発見のサンプルの一部を特定することができる。 現在はいくつかの特許が提案されている。

In this paper we present a new classification model in machine learning. Our result is threefold: 1) The model produces comparable predictive accuracy to that of most common classification models. 2) It runs significantly faster than most common classification models. 3) It has the ability to identify a portion of unseen samples for which class labels can be found with much higher predictive accuracy. Currently there are several patents pending on the proposed model.
翻訳日:2021-10-12 15:33:13 公開日:2021-10-10
# X線画像における物体検出のための畳み込みニューラルネットワークアーキテクチャの運用

Operationalizing Convolutional Neural Network Architectures for Prohibited Object Detection in X-Ray Imagery ( http://arxiv.org/abs/2110.04906v1 )

ライセンス: Link先を確認
Thomas W. Webb, Neelanjan Bhowmik, Yona Falinie A. Gaus, Toby P. Breckon(参考訳) 深層畳み込みニューラルネットワーク(cnn)の最近の進歩は、航空安全のためのx線セキュリティスクリーニングの自動化に関する洞察をもたらした。 本稿では,最近の2つのエンドツーエンドオブジェクト検出CNNアーキテクチャであるCascade R-CNNとFreeAnchorの実現可能性について検討する。 全体としては、resnet50バックボーンを持つfreeanchorアーキテクチャを用いて最大検出性能を達成し、opixrayおよびsixrayベンチマークデータセットを使用する平均平均精度(マップ)87.7および85.8を取得し、両者の以前の作業よりも優れたパフォーマンスを示す。 パラメータの削減とトレーニング時間の短縮により、freeanchorは13fps(画像あたり3.9ミリ秒)の最大検出速度を達成している。 さらに,画像圧縮の損失が検出器性能に及ぼす影響を評価する。 CNNモデルは、損失のある圧縮に対してかなりのレジリエンスを示し、JPEG圧縮レベル50においてmAPの1.1%しか低下しない。 さらに、ミックスアップおよびカットミックス戦略の適応、その他の標準変換を含むデータ拡張技術の徹底的な評価が行われ、検出精度がさらに向上する。

The recent advancement in deep Convolutional Neural Network (CNN) has brought insight into the automation of X-ray security screening for aviation security and beyond. Here, we explore the viability of two recent end-to-end object detection CNN architectures, Cascade R-CNN and FreeAnchor, for prohibited item detection by balancing processing time and the impact of image data compression from an operational viewpoint. Overall, we achieve maximal detection performance using a FreeAnchor architecture with a ResNet50 backbone, obtaining mean Average Precision (mAP) of 87.7 and 85.8 for using the OPIXray and SIXray benchmark datasets, showing superior performance over prior work on both. With fewer parameters and less training time, FreeAnchor achieves the highest detection inference speed of ~13 fps (3.9 ms per image). Furthermore, we evaluate the impact of lossy image compression upon detector performance. The CNN models display substantial resilience to the lossy compression, resulting in only a 1.1% decrease in mAP at the JPEG compression level of 50. Additionally, a thorough evaluation of data augmentation techniques is provided, including adaptions of MixUp and CutMix strategy as well as other standard transformations, further improving the detection accuracy.
翻訳日:2021-10-12 15:18:58 公開日:2021-10-10
# Yuan 1.0: ゼロショット学習における大規模事前学習型言語モデル

Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning ( http://arxiv.org/abs/2110.04725v1 )

ライセンス: Link先を確認
Shaohua Wu, Xudong Zhao, Tong Yu, Rongguo Zhang, Chong Shen, Hongli Liu, Feng Li, Hong Zhu, Jiangang Luo, Liang Xu, Xuanwei Zhang, Jun Liu(参考訳) GPT-3のような最近の研究は、モデルサイズ、データセットサイズ、計算量をスケールアップすることで、多くの自然言語処理(NLP)タスクにおけるゼロショットとフューショット学習の優れたパフォーマンスを示した。 しかし、GPT-3のようなモデルのトレーニングには膨大な量の計算資源が必要であり、研究者にとって困難である。 本研究では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。 この方法では、245Bパラメータを持つ現在の最大のシングルトン言語モデルであるYuan 1.0は、トレーニング中に数千のGPU上で優れたパフォーマンスを実現し、NLPタスクにおける最先端の結果を得る。 大量の原データを効率よくフィルタリングするデータ処理方法が設計されている。 5tbの高品質テキストを持つ現在最大の中国製コーパスは、この方法に基づいて構築されている。 また,Zero-ShotおよびFew-Shotの性能向上のためにキャリブレーション・ラベル展開法を提案し,各種タスクの精度を安定的に改善した。 yuan 1.0は自然言語生成の能力が高く、生成した記事は人間が書いたものと区別が難しい。

Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, we propose a method that incorporates large-scale distributed training performance into model architecture design. With this method, Yuan 1.0, the current largest singleton language model with 245B parameters, achieves excellent performance on thousands GPUs during training, and the state-of-the-art results on NLP tasks. A data processing method is designed to efficiently filter massive amount of raw data. The current largest high-quality Chinese corpus with 5TB high quality texts is built based on this method. In addition, a calibration and label expansion method is proposed to improve the Zero-Shot and Few-Shot performance, and steady improvement is observed on the accuracy of various tasks. Yuan 1.0 presents strong capacity of natural language generation, and the generated articles are difficult to distinguish from the human-written ones.
翻訳日:2021-10-12 15:18:02 公開日:2021-10-10
# SuperShaper: 可変隠れ次元を持つBERTモデルのタスク非依存型スーパープレトレーニング

SuperShaper: Task-Agnostic Super Pre-training of BERT Models with Variable Hidden Dimensions ( http://arxiv.org/abs/2110.04711v1 )

ライセンス: Link先を確認
Vinod Ganesan, Gowtham Ramesh, Pratyush Kumar(参考訳) タスクに依存しない事前トレーニングとタスク固有の微調整は、NLUモデルをトレーニングするためのデフォルトのアプローチである。 このようなモデルは、さまざまなリソースと精度の制約で、クラウドとエッジのデバイスにデプロイする必要があります。 特定のタスクでは、何万ものデバイスで事前トレーニングや微調整を繰り返すのは、非常に高価です。 超シェーパー(supershaper)は,多数のトランスフォーマーモデルを同時にプレトレーニングするタスク非依存の事前トレーニング手法である。 これは、各トランスフォーマー層に線形なボトルネック行列を持つバックボーンネットワークによって実現され、スライスして異なる形状のサブネットワークを生成する。 単純な設計空間と効率的な実装にもかかわらず、SuperShaperは、効果的にトレードオフの精度とモデルサイズを示すネットワークを発見する: 発見されたネットワークは、GLUEベンチマーク上で手作りのネットワークや自動検索ネットワークよりも正確である。 さらに,ニューラルアーキテクチャ探索(nas)のための設計変数としての形状の2つの重要な利点を見出す。 (a)良好な形状のヒューリスティックが導出され、これらのヒューリスティックスを持つネットワークが一致し、パラメータ数の範囲にわたって慎重に検索されたネットワーク上でも改善される。 b) 複数のCPUやGPUにまたがるネットワークのレイテンシは、形状に敏感であり、デバイスに依存しない検索を可能にする。 要約すると、SuperShaperは言語モデルのNASを根本的に単純化し、タスク、パラメータ制約、デバイスをまたいで一般化するネットワークを発見する。

Task-agnostic pre-training followed by task-specific fine-tuning is a default approach to train NLU models. Such models need to be deployed on devices across the cloud and the edge with varying resource and accuracy constraints. For a given task, repeating pre-training and fine-tuning across tens of devices is prohibitively expensive. We propose SuperShaper, a task agnostic pre-training approach which simultaneously pre-trains a large number of Transformer models by varying shapes, i.e., by varying the hidden dimensions across layers. This is enabled by a backbone network with linear bottleneck matrices around each Transformer layer which are sliced to generate differently shaped sub-networks. In spite of its simple design space and efficient implementation, SuperShaper discovers networks that effectively trade-off accuracy and model size: Discovered networks are more accurate than a range of hand-crafted and automatically searched networks on GLUE benchmarks. Further, we find two critical advantages of shape as a design variable for Neural Architecture Search (NAS): (a) heuristics of good shapes can be derived and networks found with these heuristics match and even improve on carefully searched networks across a range of parameter counts, and (b) the latency of networks across multiple CPUs and GPUs are insensitive to the shape and thus enable device-agnostic search. In summary, SuperShaper radically simplifies NAS for language models and discovers networks that generalize across tasks, parameter constraints, and devices.
翻訳日:2021-10-12 15:10:59 公開日:2021-10-10
# (参考訳) 多項式時間における構造学習: greedyアルゴリズム、bregman情報、指数関数系

Structure learning in polynomial time: Greedy algorithms, Bregman information, and exponential families ( http://arxiv.org/abs/2110.04719v1 )

ライセンス: CC BY 4.0
Goutham Rajendran, Bohdan Kivva, Ming Gao, Bryon Aragam(参考訳) グリーディアルゴリズムは長い間、グラフィカルモデルを学ぶための作業場であり、より広い範囲でスパース構造を持つ統計モデルを学ぶための作業場であった。 学習指向非循環グラフの文脈では、最悪の場合の指数関数的ランタイムにもかかわらず、欲深いアルゴリズムが人気がある。 しかし実際には、それらは非常に効率的である。 DAGを学習するための一般的なグリーディスコアに基づくアルゴリズムを研究することによって、この現象に対する新たな洞察を提供する。 gesやヒルクライミングアルゴリズムのようなエッジグリーディアルゴリズムとは異なり、このアプローチは頂点グリーディであり、スコア評価の多項式数を必要とする。 そこで我々は,最近のDAGモデル学習における多項式時間アルゴリズムが,このアルゴリズムの特別な場合であることを示す。 この観察は、ブレグマンの発散と指数関数族との双対性に基づく新しいスコア関数と最適性条件を示唆する。 明示的なサンプルと計算複雑性境界が導出される。 最後に,このアルゴリズムが様々な設定でスコアを最適化することを示す広範な実験を行った。

Greedy algorithms have long been a workhorse for learning graphical models, and more broadly for learning statistical models with sparse structure. In the context of learning directed acyclic graphs, greedy algorithms are popular despite their worst-case exponential runtime. In practice, however, they are very efficient. We provide new insight into this phenomenon by studying a general greedy score-based algorithm for learning DAGs. Unlike edge-greedy algorithms such as the popular GES and hill-climbing algorithms, our approach is vertex-greedy and requires at most a polynomial number of score evaluations. We then show how recent polynomial-time algorithms for learning DAG models are a special case of this algorithm, thereby illustrating how these order-based algorithms can be rigourously interpreted as score-based algorithms. This observation suggests new score functions and optimality conditions based on the duality between Bregman divergences and exponential families, which we explore in detail. Explicit sample and computational complexity bounds are derived. Finally, we provide extensive experiments suggesting that this algorithm indeed optimizes the score in a variety of settings.
翻訳日:2021-10-12 13:42:05 公開日:2021-10-10
# (参考訳) 多言語テキスト音声における音韻的特徴の適用 [全文訳有]

Applying Phonological Features in Multilingual Text-To-Speech ( http://arxiv.org/abs/2110.03609v2 )

ライセンス: CC BY 4.0
Cong Zhang, Huinan Zeng, Huang Liu, Jiewen Zheng(参考訳) 本研究は,音声合成システムにおいて音声特徴を応用し,英語と中国語の母語・非母語音声を生成することができるかを検討するものである。 ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。 このマッピングが2つの言語におけるネイティブ、非ネイティブ、コード切り換え音声の生成に繋がるかどうかをテストした。 1つは小さなデータセット、もう1つはより大きなデータセットです。 その結果, 音韻的特徴を入力システムとして利用できることを示したが, モデル性能の向上にはさらなる検討が必要である。 TTSモデルによって生成されるアクセント付き出力は、人間の第2言語獲得プロセスの理解にも役立ちます。

This study investigates whether phonological features can be applied in text-to-speech systems to generate native and non-native speech in English and Mandarin. We present a mapping of ARPABET/pinyin to SAMPA/SAMPA-SC and then to phonological features. We tested whether this mapping could lead to the successful generation of native, non-native, and code-switched speech in the two languages. We ran two experiments, one with a small dataset and one with a larger dataset. The results proved that phonological features could be used as a feasible input system, although further investigation is needed to improve model performance. The accented output generated by the TTS models also helps with understanding human second language acquisition processes.
翻訳日:2021-10-12 13:07:39 公開日:2021-10-10
# 空間分割学習による多目的最適化

Multi-objective Optimization by Learning Space Partitions ( http://arxiv.org/abs/2110.03173v2 )

ライセンス: Link先を確認
Yiyang Zhao, Linnan Wang, Kevin Yang, Tianjun Zhang, Tian Guo, Yuandong Tian(参考訳) 単一目的最適化 (soo) とは対照的に、多目的最適化 (moo) ではパレートフロンティア(pareto frontier)を見つけるための最適化が必要となる。 本稿では,観測サンプルからモデルを学習して探索空間を分割し,パレートフロンティアのサブセットを含む可能性のある将来性のある領域に注目する,新しい多目的最適化手法であるLaMOOを提案する。 パーティショニングは、データポイントが既存のサンプルのパレートフロンティアに「どれだけ近い」かを計測する支配数に基づいている。 限られたサンプルやモデルミスマッチによるパーティションエラーを考慮し,モンテカルロ木探索(MCTS)を用いて,将来性のある領域を探索し,後に優れた解を含む可能性がある準最適領域を探索する。 理論的には、ある仮定の下でLaMOOによる学習空間分割の有効性を実証する。 実証的には、人気のあるMOOメトリックであるHyperVolume(HV)ベンチマークにおいて、LaMOOは複数の実世界のMOOタスクにおいて、Nasbench201上のニューラルネットワーク探索のサンプル効率の最大225%、分子設計の最大10%において、強力なベースラインを著しく上回っている。

In contrast to single-objective optimization (SOO), multi-objective optimization (MOO) requires an optimizer to find the Pareto frontier, a subset of feasible solutions that are not dominated by other feasible solutions. In this paper, we propose LaMOO, a novel multi-objective optimizer that learns a model from observed samples to partition the search space and then focus on promising regions that are likely to contain a subset of the Pareto frontier. The partitioning is based on the dominance number, which measures "how close" a data point is to the Pareto frontier among existing samples. To account for possible partition errors due to limited samples and model mismatch, we leverage Monte Carlo Tree Search (MCTS) to exploit promising regions while exploring suboptimal regions that may turn out to contain good solutions later. Theoretically, we prove the efficacy of learning space partitioning via LaMOO under certain assumptions. Empirically, on the HyperVolume (HV) benchmark, a popular MOO metric, LaMOO substantially outperforms strong baselines on multiple real-world MOO tasks, by up to 225% in sample efficiency for neural architecture search on Nasbench201, and up to 10% for molecular design.
翻訳日:2021-10-12 11:12:17 公開日:2021-10-10