このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220531となっている論文です。

PDF登録状況(公開日: 20220531)

TitleAuthorsAbstract論文公表日・翻訳日
# 多目的最適化のための効率的かつ効率的な進化アルゴリズム

An Effective and Efficient Evolutionary Algorithm for Many-Objective Optimization ( http://arxiv.org/abs/2205.15884v1 )

ライセンス: Link先を確認
Yani Xue, Miqing Li, Xiaohui Liu(参考訳) 進化的多目的最適化(英: Evolution multi-jective optimization)とは、進化的アルゴリズムがParetoの前面に解を収束させ、その前方に分散させる方法である。 これは簡単な仕事ではなく、特に3つ以上の目的を持つ最適化問題に対して、多目的最適化問題と呼ばれる。 このような問題において、古典的なパレート系アルゴリズムはパレート系に対して十分な選択圧力を与えていないが、最近開発された分解系アルゴリズムのようなアルゴリズムは、特定の問題(例えば不規則なパレート系)に対する分散解のセットを維持するのに苦労しているかもしれない。 いくつかの多目的オプティマイザのもう一つの問題は、超体積アルゴリズムやシフトベース密度推定法(SDE)など、目的数で計算要求が急速に増加することである。 本稿では,この問題に対処し,多目的問題に対処できる効率的な進化アルゴリズム(E3A)を開発することを目的とする。 SDEにインスパイアされたE3Aでは,新しい集団維持法が提案されている。 我々は、e3aが11の最先端の多目的進化アルゴリズムよりも優れた性能を発揮することを示す実験を行った。

In evolutionary multi-objective optimization, effectiveness refers to how an evolutionary algorithm performs in terms of converging its solutions into the Pareto front and also diversifying them over the front. This is not an easy job, particularly for optimization problems with more than three objectives, dubbed many-objective optimization problems. In such problems, classic Pareto-based algorithms fail to provide sufficient selection pressure towards the Pareto front, whilst recently developed algorithms, such as decomposition-based ones, may struggle to maintain a set of well-distributed solutions on certain problems (e.g., those with irregular Pareto fronts). Another issue in some many-objective optimizers is rapidly increasing computational requirement with the number of objectives, such as hypervolume-based algorithms and shift-based density estimation (SDE) methods. In this paper, we aim to address this problem and develop an effective and efficient evolutionary algorithm (E3A) that can handle various many-objective problems. In E3A, inspired by SDE, a novel population maintenance method is proposed. We conduct extensive experiments and show that E3A performs better than 11 state-of-the-art many-objective evolutionary algorithms in quickly finding a set of well-converged and well-diversified solutions.
翻訳日:2022-06-26 14:44:36 公開日:2022-05-31
# ダウンサンプリングレキシケース選択のための環境不連続仮説

The Environmental Discontinuity Hypothesis for Down-Sampled Lexicase Selection ( http://arxiv.org/abs/2205.15931v1 )

ライセンス: Link先を確認
Ryan Boldi, Thomas Helmuth, Lee Spector(参考訳) ダウンサンプリングトレーニングデータにより、幅広い機械学習システムの一般化性能が向上することが長年に渡り示されている。 近年,レキシケース親選択手法を用いた遺伝的プログラミング(gp)において,ダウンサンプリングが有効であることが証明されている。 このダウンサンプリング手法は, 様々な問題における性能向上に有効であることが示されているが, 環境変化による適応性向上には寄与しないと考えられる。 我々は、世代毎に行われるランダムサンプリングが不連続を引き起こし、人口が変動する環境に適応できないという仮説を立てた。 本研究では, 連続する環境間のジャリング不連続性を低減し, 足場進化への漸進的な環境変化を促進すべく, ダウンサンプリングレキシケース選択の修正について検討した。 実験では, 単純なランダムなダウンサンプリングよりも, プログラム合成問題の解を進化させる上で, 漸進的な環境変化を強制することが, 著しく良いものではないことを見出した。 そこで本研究では,非結合型ダウンサンプルのみを用いて,不連続の仮説を悪化させ,パフォーマンスを阻害するかどうかを検証しようとする。 また、これは通常のランダムダウンサンプリングの性能と大きく異なるものではない。 これらの否定的な結果は、サブサンプルの構成(同義語を含むかもしれない)がダウンサンプリングを使用する機械学習システムの性能にどのような影響を与えるかという新たな疑問を提起する。

Down-sampling training data has long been shown to improve the generalization performance of a wide range of machine learning systems. Recently, down-sampling has proved effective in genetic programming (GP) runs that utilize the lexicase parent selection technique. Although this down-sampling procedure has been shown to significantly improve performance across a variety of problems, it does not seem to do so due to encouraging adaptability through environmental change. We hypothesize that the random sampling that is performed every generation causes discontinuities that result in the population being unable to adapt to the shifting environment. We investigate modifications to down-sampled lexicase selection in hopes of promoting incremental environmental change to scaffold evolution by reducing the amount of jarring discontinuities between the environments of successive generations. In our empirical studies, we find that forcing incremental environmental change is not significantly better for evolving solutions to program synthesis problems than simple random down-sampling. In response to this, we attempt to exacerbate the hypothesized prevalence of discontinuities by using only disjoint down-samples to see if it hinders performance. We find that this also does not significantly differ from the performance of regular random down-sampling. These negative results raise new questions about the ways in which the composition of sub-samples, which may include synonymous cases, may be expected to influence the performance of machine learning systems that use down-sampling.
翻訳日:2022-06-26 14:44:13 公開日:2022-05-31
# シンボリック回帰課題におけるRMSE損失関数の相関

Correlation versus RMSE Loss Functions in Symbolic Regression Tasks ( http://arxiv.org/abs/2205.15990v1 )

ライセンス: Link先を確認
Nathan Haut, Wolfgang Banzhaf, Bill Punch(参考訳) 適合関数としての相関の利用は、記号回帰タスクで検討され、パフォーマンスは典型的なrmse適合関数と比較される。 アライメントステップとの相関を用いて進化を結論づけると、適合関数としてのRMSEよりも顕著な性能向上が得られた。 適合度関数として相関を用いると、RMSEに比べて解がより少ない世代で見つかるようになり、正しい方程式を発見するためにトレーニングセットで必要となるデータポイントが少なくなることが判明した。 Feynman Symbolic Regression Benchmarkの他、GPベンチマークの古い問題や最近の問題も性能評価に使用された。

The use of correlation as a fitness function is explored in symbolic regression tasks and the performance is compared against the typical RMSE fitness function. Using correlation with an alignment step to conclude the evolution led to significant performance gains over RMSE as a fitness function. Using correlation as a fitness function led to solutions being found in fewer generations compared to RMSE, as well it was found that fewer data points were needed in the training set to discover the correct equations. The Feynman Symbolic Regression Benchmark as well as several other old and recent GP benchmark problems were used to evaluate performance.
翻訳日:2022-06-26 14:43:50 公開日:2022-05-31
# プロンプトインジェクション:固定入力のパラメータ化

Prompt Injection: Parameterization of Fixed Inputs ( http://arxiv.org/abs/2206.11349v1 )

ライセンス: Link先を確認
Eunbi Choi, Yongrae Jo, Joel Jang, Minjoon Seo(参考訳) 近年の研究では、入力へのアタッチメントプロンプトは、特定のタスクを実行するための言語モデル(LM)の条件付けに有効であることが示されている。 しかし、推論中には常にプロンプトが入力テキストに含まれるため、かなりの計算とメモリオーバーヘッドが発生する。 また、現在、推論中に追加コストを伴わずにlmsの最大入力長よりも長いプロンプトを利用する簡単な方法は存在しない。 入力に固定されたプロンプトをアタッチする効率的な代替手段として,lmのパラメータにプロンプトを注入する新規なプロンプトインジェクション(pi)を提案する。 長い固定されたプロンプトを持つシナリオでは、piは以前のアプローチよりも総フロップの280倍効率が良いことが示されています。 さらに,piの方法論を探求し,タスク命令を用いたペルソナ依存会話,意味解析,ゼロショット学習において有望な結果を示す。 これらの調査を通じて, PIは言語モデル, 特に長文と固定文のシナリオにおいて, 有望な方向性を示す。

Recent works have shown that attaching prompts to the input is effective at conditioning Language Models (LM) to perform specific tasks. However, prompts are always included in the input text during inference, thus incurring substantial computational and memory overhead. Also, there is currently no straightforward method of utilizing prompts that are longer than the maximum input length of the LMs without incurring additional costs during inference. We propose Prompt Injection (PI), a novel formulation of injecting the prompt into the parameters of an LM to be an efficient alternative to attaching fixed prompts to the input. We show that in scenarios with long fixed prompts, PI can be up to 280 times more efficient in terms of total FLOPs than previous approaches. We further explore methodologies for PI and show promising results in persona-dependent conversation, semantic parsing, and zero-shot learning with task instructions. Through these explorations, we show that PI can be a promising direction for conditioning language models, especially in scenarios with long and fixed prompts.
翻訳日:2022-06-26 12:13:23 公開日:2022-05-31
# (参考訳) 脳-コンピュータインタフェースシステムにおける深層学習を用いた脳波モータ画像の分類 [全文訳有]

Classification of EEG Motor Imagery Using Deep Learning for Brain-Computer Interface Systems ( http://arxiv.org/abs/2206.07655v1 )

ライセンス: CC BY 4.0
Alessandro Gallo and Manh Duong Phung(参考訳) 訓練されたt1クラス畳み込みニューラルネットワーク(cnn)モデルは、前処理された脳波(eeg)データによって運動イメージを識別する能力を調べるために使用される。 理論的には、モデルが正確にトレーニングされた場合、クラスを特定し、それに従ってラベル付けすることが可能になる。 CNNモデルは復元され、ライブデータをシミュレートするために、はるかに小さなサンプルデータを使用して同じ種類の運動画像データを特定するために使用される。

A trained T1 class Convolutional Neural Network (CNN) model will be used to examine its ability to successfully identify motor imagery when fed pre-processed electroencephalograp hy (EEG) data. In theory, and if the model has been trained accurately, it should be able to identify a class and label it accordingly. The CNN model will then be restored and used to try and identify the same class of motor imagery data using much smaller sampled data in an attempt to simulate live data.
翻訳日:2022-06-20 01:03:22 公開日:2022-05-31
# (参考訳) 多層パーセプトロンにおけるバック伝播とその代替法の比較研究 [全文訳有]

A comparative study of back propagation and its alternatives on multilayer perceptrons ( http://arxiv.org/abs/2206.06098v1 )

ライセンス: CC BY 4.0
John Waldo(参考訳) フィードフォワードニューラルネットワークのバックパスをトレーニングするためのデファクトアルゴリズムはバックプロパゲーション(bp)である。 ほぼすべての可微分アクティベーション関数を使用することで、ディープニューラルネットワークの層を通して逆向きに勾配を伝播させることが効率的かつ効果的になった。 しかし、近年はバックプロパゲーションの代替として多くの研究がなされている。 この分析は多層パーセプトロン(mlps)と畳み込みニューラルネットワーク(cnns)の最先端の精度に重点を置いている。 本稿では,MLPにおける予測とニューロンの安定性と類似性を解析し,アルゴリズムの新たなバリエーションを提案する。

The de facto algorithm for training the back pass of a feedforward neural network is backpropagation (BP). The use of almost-everywhere differentiable activation functions made it efficient and effective to propagate the gradient backwards through layers of deep neural networks. However, in recent years, there has been much research in alternatives to backpropagation. This analysis has largely focused on reaching state-of-the-art accuracy in multilayer perceptrons (MLPs) and convolutional neural networks (CNNs). In this paper, we analyze the stability and similarity of predictions and neurons in MLPs and propose a new variation of one of the algorithms.
翻訳日:2022-06-20 00:56:09 公開日:2022-05-31
# インフラサイバー物理システムの最適化

Optimization for Infrastructure Cyber-Physical Systems ( http://arxiv.org/abs/2206.04794v1 )

ライセンス: Link先を確認
Arunchandar Vasan, Prasant Misra, Srinarayana Nagarathinam, Venkata Ramakrishna, Ramasubramanian Suriyanarayanan, Yashovardhan Chati(参考訳) サイバー物理システム(サイバー物理的システム、CPS)は、意思決定(サイバー/コントロール)コンポーネントが物理的システムと密に統合され、リアルタイム監視と制御を可能にするシステムである。 近年,制御動作がリアルタイムでなくても,建築環境における物理インフラをCPSとして閲覧・最適化する研究が盛んに行われている。 インフラCPSの例としては、電力網、配水網、輸送・物流網、暖房、換気、空調(HVAC)などがある。 複雑性は、大規模な運用、システムコンポーネントの不均一性、動的で不確定な運用条件、時間制限されたタスク完了保証による目標主導の意思決定と制御から生じる。 制御最適化のために、インフラストラクチャcpsは通常、センサネットワークを備えた半自律サブシステムのシステムと見なされ、分散制御最適化を使用して、より良く、安く、より高速なシステム性能によって測定および定量化されるシステム全体の目標を達成する。 本稿では、共通インフラストラクチャCPSにおける制御最適化のスコープについて説明する。 次に,現在の最適化手法の概要を紹介する。 最後に,本研究の立場について,具体的な最適化手法と今後のインフラCPSへの課題について述べる。

Cyber-physical systems (CPS) are systems where a decision making (cyber/control) component is tightly integrated with a physical system (with sensing/actuation) to enable real-time monitoring and control. Recently, there has been significant research effort in viewing and optimizing physical infrastructure in built environments as CPS, even if the control action is not in real-time. Some examples of infrastructure CPS include electrical power grids; water distribution networks; transportation and logistics networks; heating, ventilation, and air conditioning (HVAC) in buildings; etc. Complexity arises in infrastructure CPS from the large scale of operations; heterogeneity of system components; dynamic and uncertain operating conditions; and goal-driven decision making and control with time-bounded task completion guarantees. For control optimization, an infrastructure CPS is typically viewed as a system of semi-autonomous sub-systems with a network of sensors and uses distributed control optimization to achieve system-wide objectives that are typically measured and quantified by better, cheaper, or faster system performance. In this article, we first illustrate the scope for control optimization in common infrastructure CPS. Next, we present a brief overview of current optimization techniques. Finally, we share our research position with a description of specific optimization approaches and their challenges for infrastructure CPS of the future.
翻訳日:2022-06-19 23:33:00 公開日:2022-05-31
# (参考訳) 連続体マイクロメカニクスにおける生成対向ニューラルネットワークを用いた三次元微細構造生成

Three-dimensional microstructure generation using generative adversarial neural networks in the context of continuum micromechanics ( http://arxiv.org/abs/2206.01693v1 )

ライセンス: CC BY 4.0
Alexander Henkes, Henning Wessels(参考訳) マルチスケールシミュレーションは計算資源の観点から要求される。 連続体マイクロメカニクスの文脈において、マルチスケール問題は、マイクロスケールからマクロな材料パラメータを推測することの必要性から生じる。 基盤となる微細構造がマイクロCTスキャンによって明示的に与えられる場合、畳み込みニューラルネットワークは、通常計算的ホモジェナイゼーションから得られるマイクロ構造-プロパティマッピングを学習するために用いられる。 cnnアプローチは、特にヘテロジニアスまたは機能的に傾斜した材料の文脈において、大幅なスピードアップを提供する。 もう一つの応用は不確実性定量化であり、多くの広範囲な評価が必要となる。 しかし、このアプローチのボトルネックの1つは、必要な多くのトレーニングマイクロ構造である。 この研究は、3次元の微細構造生成に適した生成的対向ネットワークを提案することによって、このギャップを埋める。 軽量アルゴリズムは、明示的な記述子を必要とせずに、単一のmicroCTスキャンから材料の基礎特性を学習することができる。 予測時間の間、ネットワークは元のデータと同じ特性を持つユニークな3次元微細構造を数秒で、一貫して高品質で生成することができる。

Multiscale simulations are demanding in terms of computational resources. In the context of continuum micromechanics, the multiscale problem arises from the need of inferring macroscopic material parameters from the microscale. If the underlying microstructure is explicitly given by means of microCT-scans, convolutional neural networks can be used to learn the microstructure-prope rty mapping, which is usually obtained from computational homogenization. The CNN approach provides a significant speedup, especially in the context of heterogeneous or functionally graded materials. Another application is uncertainty quantification, where many expansive evaluations are required. However, one bottleneck of this approach is the large number of training microstructures needed. This work closes this gap by proposing a generative adversarial network tailored towards three-dimensional microstructure generation. The lightweight algorithm is able to learn the underlying properties of the material from a single microCT-scan without the need of explicit descriptors. During prediction time, the network can produce unique three-dimensional microstructures with the same properties of the original data in a fraction of seconds and at consistently high quality.
翻訳日:2022-06-12 21:34:02 公開日:2022-05-31
# (参考訳) 計算腫瘍病理学における機械学習のアプローチと課題と展望

A review of machine learning approaches, challenges and prospects for computational tumor pathology ( http://arxiv.org/abs/2206.01728v1 )

ライセンス: CC BY 4.0
Liangrui Pan, Zhichao Feng, Shaoliang Peng(参考訳) 計算病理学は精密腫瘍医学の一部である。 ゲノム学、転写学、プロテオミクス、メタボロミクス、病理学、放射線学を含む高スループットデータを臨床実践に統合することで、がん治療計画、治療サイクル、治療率を改善し、患者の予後に対する革新的なアプローチを開くのに役立つ。 過去10年間、人工知能、チップ設計、製造、モバイルコンピューティングの急速な進歩により、計算病理学の研究が促進され、全体スライダー画像、マルチオミクスデータ、臨床情報学のより良い統合ソリューションを提供する可能性がある。 しかし腫瘍の計算病理学は, 腫瘍検診, 診断, 予後に, データ統合, ハードウェア処理, ネットワーク共有帯域幅, 機械学習技術の観点からいくつかの課題をもたらす。 本稿では, 乳腺, 大腸, 前立腺, 肺, および各種腫瘍疾患における画像前処理法, 機械学習に基づく方法, および計算病理学の応用について検討する。 最後に,計算病理応用における機械学習の課題と展望について述べる。

Computational pathology is part of precision oncology medicine. The integration of high-throughput data including genomics, transcriptomics, proteomics, metabolomics, pathomics, and radiomics into clinical practice improves cancer treatment plans, treatment cycles, and cure rates, and helps doctors open up innovative approaches to patient prognosis. In the past decade, rapid advances in artificial intelligence, chip design and manufacturing, and mobile computing have facilitated research in computational pathology and have the potential to provide better-integrated solutions for whole-slide images, multi-omics data, and clinical informatics. However, tumor computational pathology now brings some challenges to the application of tumour screening, diagnosis and prognosis in terms of data integration, hardware processing, network sharing bandwidth and machine learning technology. This review investigates image preprocessing methods in computational pathology from a pathological and technical perspective, machine learning-based methods, and applications of computational pathology in breast, colon, prostate, lung, and various tumour disease scenarios. Finally, the challenges and prospects of machine learning in computational pathology applications are discussed.
翻訳日:2022-06-12 21:32:36 公開日:2022-05-31
# トラヒックフィンガープリントによる広告収益性の向上

Improving Ads-Profitability Using Traffic-Fingerprints ( http://arxiv.org/abs/2206.02630v1 )

ライセンス: Link先を確認
Adam Gabriel Dobrakowski and Andrzej Pacuk and Piotr Sankowski and Marcin Mucha and Pawe{\l} Brach(参考訳) 本稿では,日々のトラフィックの分布を表す正規化された24次元ベクトルをWebページ上で紹介する。 k-平均クラスタリングを用いて、これらのページに表示される広告の収益性時間パターンの類似性に関連して、トラフィックフィンガープリントの類似性を示す。 言い換えれば、これらの指紋は変換率と相関しており、無視可能なトラフィックを持つページの変換率について議論することができる。 ページ全体のクラスタをブロックまたはブロックすることで、オンラインキャンペーンの収益を50%以上増やすことができました。

This paper introduces the concept of traffic-fingerprints , i.e., normalized 24-dimensional vectors representing a distribution of daily traffic on a web page. Using k-means clustering we show that similarity of traffic-fingerprints is related to the similarity of profitability time patterns for ads shown on these pages. In other words, these fingerprints are correlated with the conversions rates, thus allowing us to argue about conversion rates on pages with negligible traffic. By blocking or unblocking whole clusters of pages we were able to increase the revenue of online campaigns by more than 50%.
翻訳日:2022-06-12 09:39:04 公開日:2022-05-31
# エネルギーベースモデルの無限小推論限界におけるバックプロパゲーション:予測符号化、平衡伝播、コントラストヘビー学習の統一化

Backpropagation at the Infinitesimal Inference Limit of Energy-Based Models: Unifying Predictive Coding, Equilibrium Propagation, and Contrastive Hebbian Learning ( http://arxiv.org/abs/2206.02629v1 )

ライセンス: Link先を確認
Beren Millidge, Yuhang Song, Tommaso Salvatori, Thomas Lukasiewicz, Rafal Bogacz(参考訳) 脳がどのように信用割り当てを行うかは神経科学における根本的な未解決の問題である。 このアルゴリズムは、バックプロパゲーション(BP)によって計算されたことを近似する勾配を計算し、神経回路によって課される制約をより厳密に満たす方法で機能する。 このようなアルゴリズムの多くは、全自由変数を大域エネルギー関数を最小化するために最適化したエネルギーベースモデル(ebms)の枠組みを利用している。 しかし、文献ではこれらのアルゴリズムは孤立しており、それらを結合する統一理論は存在しない。 ここでは、BP に近似できる条件の包括的理論を提案し、BP の多くの近似結果を文献(予測符号化、平衡伝播、および対比ヘビアン学習)で統一し、BP への近似が自由相平衡における EBM の単純で一般的な数学的性質から生じることを実証する。 この性質を異なるエネルギー関数で異なる方法で利用することができ、これらの特定の選択によりbp近似アルゴリズムの族が生まれ、文献に知られている結果を含み、新しいものを引き出すのに使うことができる。

How the brain performs credit assignment is a fundamental unsolved problem in neuroscience. Many `biologically plausible' algorithms have been proposed, which compute gradients that approximate those computed by backpropagation (BP), and which operate in ways that more closely satisfy the constraints imposed by neural circuitry. Many such algorithms utilize the framework of energy-based models (EBMs), in which all free variables in the model are optimized to minimize a global energy function. However, in the literature, these algorithms exist in isolation and no unified theory exists linking them together. Here, we provide a comprehensive theory of the conditions under which EBMs can approximate BP, which lets us unify many of the BP approximation results in the literature (namely, predictive coding, equilibrium propagation, and contrastive Hebbian learning) and demonstrate that their approximation to BP arises from a simple and general mathematical property of EBMs at free-phase equilibrium. This property can then be exploited in different ways with different energy functions, and these specific choices yield a family of BP-approximating algorithms, which both includes the known results in the literature and can be used to derive new ones.
翻訳日:2022-06-12 08:45:00 公開日:2022-05-31
# (参考訳) サイクル変異:サイクル誘導による進化的置換 [全文訳有]

Cycle Mutation: Evolving Permutations via Cycle Induction ( http://arxiv.org/abs/2205.14125v2 )

ライセンス: CC BY 4.0
Vincent A. Cicirello(参考訳) 進化的アルゴリズムは、候補解の集団の進化をシミュレートすることで問題を解決する。 我々は,巡回セールスパーソン問題 (tsp) や二次代入問題 (qap) や最大の共通部分グラフ (lcs) などの代入問題といった順序問題に対する順列の進化に焦点を当てた。 本稿では, サイクル交叉演算子にインスピレーションを与える新しい突然変異演算子であるサイクル突然変異と, 置換サイクルの概念を提案する。 我々は, 適応的ランドスケープ分析を用いて, サイクル変異が最適である問題特性を探索する。 前提条件として,サイクル距離,$k$サイクル距離,サイクル編集距離という,新しい置換距離尺度を開発した。 適応的ランドスケープ分析は、サイクル変異が順序問題よりも割当問題やマッピング問題に適していると予測する。 本研究は,QAP や LCS などの問題に対するサイクル変異の強度,TSP などの問題に対する制限,および一般的に用いられる代替品よりも局所的最適性が低いこと,などの知見を実験的に検証した。 我々は、サイクル変異をオープンソースのchips-n-salsaライブラリに、新しい距離メトリクスをオープンソースのjavapermutationtools ライブラリに統合します。

Evolutionary algorithms solve problems by simulating the evolution of a population of candidate solutions. We focus on evolving permutations for ordering problems like the traveling salesperson problem (TSP), as well as assignment problems like the quadratic assignment problem (QAP) and largest common subgraph (LCS). We propose cycle mutation, a new mutation operator whose inspiration is the well known cycle crossover operator, and the concept of a permutation cycle. We use fitness landscape analysis to explore the problem characteristics for which cycle mutation works best. As a prerequisite, we develop new permutation distance measures: cycle distance, $k$-cycle distance, and cycle edit distance. The fitness landscape analysis predicts that cycle mutation is better suited for assignment and mapping problems than it is for ordering problems. We experimentally validate these findings showing cycle mutation's strengths on problems like QAP and LCS, and its limitations on problems like the TSP, while also showing that it is less prone to local optima than commonly used alternatives. We integrate cycle mutation into the open-source Chips-n-Salsa library, and the new distance metrics into the open-source JavaPermutationTools library.
翻訳日:2022-06-05 06:49:26 公開日:2022-05-31
# (参考訳) 非平衡コオプティカルトランスポート [全文訳有]

Unbalanced CO-Optimal Transport ( http://arxiv.org/abs/2205.14923v2 )

ライセンス: CC BY 4.0
Quang Huy Tran, Hicham Janati, Nicolas Courty, R\'emi Flamary, Ievgen Redko, Pinar Demetci, Ritambhara Singh(参考訳) 最適輸送(OT)は、サンプル間の有意なアライメントを計算することによって確率分布を比較する。 Co-Optimal Transport (COOT)は、特徴間のアライメントを推論することで、この比較をさらに進める。 このアプローチはより良いアライメントをもたらし、otとgromov-wasserstein距離の両方を一般化するが、実世界データに全現する外れ値に敏感であることを示す理論的結果を提供する。 これにより、比較したデータセットのノイズに対するロバスト性を確実に示す不均衡なCOOTを提案することができる。 我々の知る限りでは、これは非可換空間におけるOT法に対する最初の結果である。 この結果から, 単細胞計測によるサンプルと特徴の同時アライメントやクラスの割合の変動を伴わずに, 異種領域適応の課題に対して, この頑健性が実証的に証明できる。

Optimal transport (OT) compares probability distributions by computing a meaningful alignment between their samples. CO-optimal transport (COOT) takes this comparison further by inferring an alignment between features as well. While this approach leads to better alignments and generalizes both OT and Gromov-Wasserstein distances, we provide a theoretical result showing that it is sensitive to outliers that are omnipresent in real-world data. This prompts us to propose unbalanced COOT for which we provably show its robustness to noise in the compared datasets. To the best of our knowledge, this is the first such result for OT methods in incomparable spaces. With this result in hand, we provide empirical evidence of this robustness for the challenging tasks of heterogeneous domain adaptation with and without varying proportions of classes and simultaneous alignment of samples and features across single-cell measurements.
翻訳日:2022-06-04 10:35:24 公開日:2022-05-31
# (参考訳) COIN: 双方向グラフのための共クラスタInfomax [全文訳有]

COIN: Co-Cluster Infomax for Bipartite Graphs ( http://arxiv.org/abs/2206.00006v1 )

ライセンス: CC BY 4.0
Baoyu Jing, Yuchen Yan, Yada Zhu and Hanghang Tong(参考訳) 二部グラフは、2種類のノード間の相互作用をモデル化するための強力なデータ構造であり、レコメンダシステム、情報検索、薬物発見など、様々なアプリケーションで使われている。 二部グラフの基本的な課題は、情報的ノード埋め込みの学習方法である。 最近の二部グラフにおける自己教師型学習手法の成功にもかかわらず、それらの目的はクラスタレベルのエラーを含む可能性のあるインスタンス単位の正と負のノードペアを識別することである。 本稿では,コクラスタの相互情報の最大化によってクラスタレベルの情報をキャプチャする,新しいコクラスタインフォマックス(COIN)フレームワークを提案する。 ニューラルネットワークで相互情報を推定する従来のインフォマックス法とは異なり、COINは相互情報を容易に計算できる。 さらに、COINは、他の目的関数と共同で訓練し、バックプロパゲーションによって最適化できるエンドツーエンドのクラスタリング手法である。 さらに,コインの理論的解析についても述べる。 理論的には、COINはノード埋め込みの相互情報を効果的に最大化することができ、COINはノードの以前の分布によって上界である。 提案したCOINフレームワークを様々なベンチマークデータセットやタスク上で広範囲に評価し,COINの有効性を実証する。

Bipartite graphs are powerful data structures to model interactions between two types of nodes, which have been used in a variety of applications, such as recommender systems, information retrieval, and drug discovery. A fundamental challenge for bipartite graphs is how to learn informative node embeddings. Despite the success of recent self-supervised learning methods on bipartite graphs, their objectives are discriminating instance-wise positive and negative node pairs, which could contain cluster-level errors. In this paper, we introduce a novel co-cluster infomax (COIN) framework, which captures the cluster-level information by maximizing the mutual information of co-clusters. Different from previous infomax methods which estimate mutual information by neural networks, COIN could easily calculate mutual information. Besides, COIN is an end-to-end co-clustering method which can be trained jointly with other objective functions and optimized via back-propagation. Furthermore, we also provide theoretical analysis for COIN. We theoretically prove that COIN is able to effectively maximize the mutual information of node embeddings and COIN is upper-bounded by the prior distributions of nodes. We extensively evaluate the proposed COIN framework on various benchmark datasets and tasks to demonstrate the effectiveness of COIN.
翻訳日:2022-06-04 08:43:36 公開日:2022-05-31
# (参考訳) 関数コネクトミクスのための微分可能プログラミング [全文訳有]

Differentiable programming for functional connectomics ( http://arxiv.org/abs/2206.00649v1 )

ライセンス: CC BY 4.0
Rastko Ciric (Department of Bioengineering, Stanford University), Armin W. Thomas (Stanford Data Science, Stanford University), Oscar Esteban (Department of Radiology, Universit\'e de Lausanne), Russell A. Poldrack (Department of Psychology, Stanford University)(参考訳) 機能的コネクトームのマッピングは、脳組織に対する重要な洞察を明らかにする可能性がある。 しかしながら、関数コネクトロミクスのための既存のワークフローは、新しいデータへの適応性に制限されており、原則化されたワークフロー設計は難しい組合せ問題である。 我々は,機能コネクトミクスで使用される共通操作を完全微分可能な処理ブロックとして実装する,新たな分析パラダイムとソフトウェアツールボックスを提案する。 このパラダイムでは、ワークフローの構成は、それらを補間する微分可能な関数の再パラメータとして存在します。 従来のパイプラインとエンドツーエンドのニューラルネットワークの間のニッチな中間を占有し、ガラス箱のトラクタビリティと前者のドメイン知識と、後者の最適化の可否を組み合わせている、と私たちは考えています。 本予備研究では,分化可能なコネクトミクスの概念の実証を行い,神経科学における正準的知識の再獲得と教師なしの環境での新しい発見の両面で処理ブロックの能力を示す。 我々の微分可能なモジュールは、関数パーセレーション、デノーミング、共分散モデリングを含む問題領域における最先端の手法と競合する。 この結果とソフトウェアは,関数コネクトロミクスにおける微分可能プログラミングの可能性を実証するものである。

Mapping the functional connectome has the potential to uncover key insights into brain organisation. However, existing workflows for functional connectomics are limited in their adaptability to new data, and principled workflow design is a challenging combinatorial problem. We introduce a new analytic paradigm and software toolbox that implements common operations used in functional connectomics as fully differentiable processing blocks. Under this paradigm, workflow configurations exist as reparameterisations of a differentiable functional that interpolates them. The differentiable program that we envision occupies a niche midway between traditional pipelines and end-to-end neural networks, combining the glass-box tractability and domain knowledge of the former with the amenability to optimisation of the latter. In this preliminary work, we provide a proof of concept for differentiable connectomics, demonstrating the capacity of our processing blocks both to recapitulate canonical knowledge in neuroscience and to make new discoveries in an unsupervised setting. Our differentiable modules are competitive with state-of-the-art methods in problem domains including functional parcellation, denoising, and covariance modelling. Taken together, our results and software demonstrate the promise of differentiable programming for functional connectomics.
翻訳日:2022-06-04 08:26:12 公開日:2022-05-31
# (参考訳) 文脈認識型ニューラルパフォーマンススコア同期に向けて

Towards Context-Aware Neural Performance-Score Synchronisation ( http://arxiv.org/abs/2206.00454v1 )

ライセンス: CC BY 4.0
Ruchit Agrawal(参考訳) 音楽は、演奏の録音としてオーディオ形式、コンピュータ可読性スコアとしてシンボリック形式、シート音楽のスキャンとしてイメージ形式など、複数の形式で表現することができる。 音楽同期は、音楽教育、パフォーマンス分析、自動伴奏、音楽編集などの無数の分野に適用可能な、正確なマッピングを生成することによって、音楽の複数の表現を統一的にナビゲートする方法を提供する。 従来の同期手法は知識駆動と確率的アプローチを用いてアライメントを計算する。 これらの手法は、しばしば異なる楽器、音響環境、記録条件にうまく一般化できず、通常、演奏とスコアの完全な構造的一致を仮定する。 このphdは、データ駆動型、コンテキスト対応のアライメントアプローチを3つの面から提案することで、パフォーマンススコア同期の研究をさらに発展させます。 第2に,標準アライメント手法の一般的な制限である演奏とスコアの構造的差異の処理について論じる。 最後に、機能エンジニアリングと動的プログラミングの両方に依存し、ニューラルネットワークを用いてアライメントを計算し、パフォーマンスとスコアの構造的差異にも頑健な、完全にデータ駆動の同期手法を提案する。

Music can be represented in multiple forms, such as in the audio form as a recording of a performance, in the symbolic form as a computer readable score, or in the image form as a scan of the sheet music. Music synchronisation provides a way to navigate among multiple representations of music in a unified manner by generating an accurate mapping between them, lending itself applicable to a myriad of domains like music education, performance analysis, automatic accompaniment and music editing. Traditional synchronisation methods compute alignment using knowledge-driven and stochastic approaches, typically employing handcrafted features. These methods are often unable to generalise well to different instruments, acoustic environments and recording conditions, and normally assume complete structural agreement between the performances and the scores. This PhD furthers the development of performance-score synchronisation research by proposing data-driven, context-aware alignment approaches, on three fronts: Firstly, I replace the handcrafted features by employing a metric learning based approach that is adaptable to different acoustic settings and performs well in data-scarce conditions. Secondly, I address the handling of structural differences between the performances and scores, which is a common limitation of standard alignment methods. Finally, I eschew the reliance on both feature engineering and dynamic programming, and propose a completely data-driven synchronisation method that computes alignments using a neural framework, whilst also being robust to structural differences between the performances and scores.
翻訳日:2022-06-04 07:15:28 公開日:2022-05-31
# (参考訳) FiLM-Ensemble: 特徴量線形変調による確率的深層学習 [全文訳有]

FiLM-Ensemble: Probabilistic Deep Learning via Feature-wise Linear Modulation ( http://arxiv.org/abs/2206.00050v1 )

ライセンス: CC BY 4.0
Mehmet Ozgur Turkoglu, Alexander Becker, H\"useyin Anil G\"und\"uz, Mina Rezaei, Bernd Bischl, Rodrigo Caye Daudt, Stefano D'Aronco, Jan Dirk Wegner, Konrad Schindler(参考訳) 認識的不確かさを推定する能力は、現実世界に機械学習を展開する場合にしばしば不可欠であるが、現代の手法では、不確実性予測の信頼性が過度に高すぎる。 幅広い予測モデルで使用可能な認識的不確かさを定量化する一般的なアプローチは、モデルアンサンブルを訓練することである。 単純な実装では、アンサンブルアプローチは高い計算コストと高いメモリ要求を持つ。 この課題は、単一のディープネットワークでさえすでに計算とメモリの面で要求されており、独立したアンサンブルメンバーを実際にインスタンス化せずにモデルアンサンブルをエミュレートしようとする多くの試みが生まれている、現代のディープラーニングにおける。 本稿では,FiLM(Feature-wise Linear Modulation)の概念に基づく暗黙のアンサンブル手法であるFiLM-Ensembleを紹介する。 このテクニックはもともと、異なるタスクを分離する目的で、マルチタスク学習用に開発された。 単一深層ネットワークのネットワークアクティベーションをFiLMで変調することにより、高い多様性のモデルアンサンブルを得ることができ、その結果、計算オーバーヘッドの少ないててんかん不確実性の推定値を得ることができる。 経験的に、FiLM-Ensembleは他の暗黙のアンサンブル法よりも優れており、メモリコストのごく一部でネットワークの明示的なアンサンブルの上限に非常に近い。

The ability to estimate epistemic uncertainty is often crucial when deploying machine learning in the real world, but modern methods often produce overconfident, uncalibrated uncertainty predictions. A common approach to quantify epistemic uncertainty, usable across a wide class of prediction models, is to train a model ensemble. In a naive implementation, the ensemble approach has high computational cost and high memory demand. This challenges in particular modern deep learning, where even a single deep network is already demanding in terms of compute and memory, and has given rise to a number of attempts to emulate the model ensemble without actually instantiating separate ensemble members. We introduce FiLM-Ensemble, a deep, implicit ensemble method based on the concept of Feature-wise Linear Modulation (FiLM). That technique was originally developed for multi-task learning, with the aim of decoupling different tasks. We show that the idea can be extended to uncertainty quantification: by modulating the network activations of a single deep network with FiLM, one obtains a model ensemble with high diversity, and consequently well-calibrated estimates of epistemic uncertainty, with low computational overhead in comparison. Empirically, FiLM-Ensemble outperforms other implicit ensemble methods, and it and comes very close to the upper bound of an explicit ensemble of networks (sometimes even beating it), at a fraction of the memory cost.
翻訳日:2022-06-04 07:13:59 公開日:2022-05-31
# 深部強化学習を用いた車体自律プラトンに対するロバスト縦方向制御

Robust Longitudinal Control for Vehicular Autonomous Platoons Using Deep Reinforcement Learning ( http://arxiv.org/abs/2206.01175v1 )

ライセンス: Link先を確認
Armando Alves Neto and Leonardo Amaral Mozelli(参考訳) 過去数年間、研究者は協調輸送の安全性と効率を高めるために、車載プラトンという文脈で機械学習戦略を適用してきた。 協調型適応型クルーズ制御システムの長手間隔制御に強化学習法が用いられているが、これらの研究はいずれもそのようなシナリオにおける妨害拒絶の問題に対処していない。 モデル内の不確定なパラメータや外部の干渉といった特性は、巡航速度で移動するエージェントがヌルスペーシングエラーに到達できない可能性がある。 一方、複雑なコミュニケーショントポロジは、他のコンテキストに一般化できない特定のトレーニングプロセスにつながり、設定が変わるたびに再トレーニングを要求する。 そこで本稿では,各エージェントの加速度指令がネットワークトポロジとは独立になるように,車両小隊の訓練プロセスを一般化する手法を提案する。 また,アクセラレーション入力を積分作用を持つ用語としてモデル化し,状態が未知の効果によって乱される場合に,畳み込みニューラルネットワークが補正作用を学習できるようにした。 本稿では,異なるネットワークトポロジ,不確実なパラメータ,外部力を用いた実験による提案の有効性について述べる。 定常誤差とオーバーシュート反応の観点で比較分析を行い,最新文献との比較を行った。 その結果,自律型プラトン制御における強化学習の一般化と堅牢性に関する新たな知見が得られた。

In the last few years, researchers have applied machine learning strategies in the context of vehicular platoons to increase the safety and efficiency of cooperative transportation. Reinforcement Learning methods have been employed in the longitudinal spacing control of Cooperative Adaptive Cruise Control systems, but to date, none of those studies have addressed problems of disturbance rejection in such scenarios. Characteristics such as uncertain parameters in the model and external interferences may prevent agents from reaching null-spacing errors when traveling at cruising speed. On the other hand, complex communication topologies lead to specific training processes that can not be generalized to other contexts, demanding re-training every time the configuration changes. Therefore, in this paper, we propose an approach to generalize the training process of a vehicular platoon, such that the acceleration command of each agent becomes independent of the network topology. Also, we have modeled the acceleration input as a term with integral action, such that the Convolutional Neural Network is capable of learning corrective actions when the states are disturbed by unknown effects. We illustrate the effectiveness of our proposal with experiments using different network topologies, uncertain parameters, and external forces. Comparative analyses, in terms of the steady-state error and overshoot response, were conducted against the state-of-the-art literature. The findings offer new insights concerning generalization and robustness of using Reinforcement Learning in the control of autonomous platoons.
翻訳日:2022-06-03 15:28:39 公開日:2022-05-31
# 効率的なカーネル密度推定への応用による代表サブサンプル選択のための最適トランスポートアプローチ

An optimal transport approach for selecting a representative subsample with application in efficient kernel density estimation ( http://arxiv.org/abs/2206.01182v1 )

ライセンス: Link先を確認
Jingyi Zhang, Cheng Meng, Jun Yu, Mengrui Zhang, Wenxuan Zhong and Ping Ma(参考訳) サブサンプリング手法は、観察されたサンプルのサロゲートとしてサブサンプルを選択することを目的としている。 このような手法は、大規模なデータ分析、アクティブラーニング、プライバシ保存分析に数十年にわたって広く使われてきた。 本稿では,モデルに基づく手法ではなく,モデル仮定に拘束されないサブサンプルを同定することを目的としたモデルフリーサブサンプリング手法について検討する。 既存のモデルフリーのサブサンプリングメソッドは通常、クラスタリング技術やカーネルのトリックに基づいて構築される。 これらの手法の多くは、大きな計算負担または理論的弱点に悩まされている。 特に、理論上の弱点は、選択されたサブサンプルの実験的分布が必ずしも人口分布に収束しないことである。 このような計算的および理論的制限は、実際にはモデルフリーなサブサンプリング法の適用性を妨げている。 最適な輸送手法を用いたモデルフリーサブサンプリング手法を提案する。 さらに,未知の確率密度関数に適応する効率的なサブサンプリングアルゴリズムを開発した。 理論上,提案するサブサンプル密度推定器の収束率を導出することにより,選択したサブサンプルを効率的な密度推定に利用できることを示す。 また,提案する推定器の最適帯域幅を提供する。 合成および実世界のデータセットに関する数値的研究は,提案手法の性能が優れていることを示す。

Subsampling methods aim to select a subsample as a surrogate for the observed sample. Such methods have been used pervasively in large-scale data analytics, active learning, and privacy-preserving analysis in recent decades. Instead of model-based methods, in this paper, we study model-free subsampling methods, which aim to identify a subsample that is not confined by model assumptions. Existing model-free subsampling methods are usually built upon clustering techniques or kernel tricks. Most of these methods suffer from either a large computational burden or a theoretical weakness. In particular, the theoretical weakness is that the empirical distribution of the selected subsample may not necessarily converge to the population distribution. Such computational and theoretical limitations hinder the broad applicability of model-free subsampling methods in practice. We propose a novel model-free subsampling method by utilizing optimal transport techniques. Moreover, we develop an efficient subsampling algorithm that is adaptive to the unknown probability density function. Theoretically, we show the selected subsample can be used for efficient density estimation by deriving the convergence rate for the proposed subsample kernel density estimator. We also provide the optimal bandwidth for the proposed estimator. Numerical studies on synthetic and real-world datasets demonstrate the performance of the proposed method is superior.
翻訳日:2022-06-03 14:55:32 公開日:2022-05-31
# (参考訳) インスタンス固有のデータ拡張の学習 [全文訳有]

Learning Instance-Specific Data Augmentations ( http://arxiv.org/abs/2206.00051v1 )

ライセンス: CC BY 4.0
Ning Miao, Emile Mathieu, Yann Dubois, Tom Rainforth, Yee Whye Teh, Adam Foster, Hyunjik Kim(参考訳) 既存のデータ拡張手法は通常、変換と入力の間の独立性を前提とします。 そこで本研究では,データから入力固有の拡張を自動学習するInstaAugを提案する。 これは変換上の分布への入力をマッピングする拡張モジュールを導入することで実現される。 これはトレーニングデータのみを使用して、ベースモデルと完全にエンドツーエンドで同時にトレーニングされる。 InstaAugは、幅広い変換クラスにおいて有意義な拡張を学習し、その結果、インプット-トランスフォーメーション独立を前提とした拡張よりも、教師付きおよび自己監督型のタスクにおいて優れたパフォーマンスを提供する。

Existing data augmentation methods typically assume independence between transformations and inputs: they use the same transformation distribution for all input instances. We explain why this can be problematic and propose InstaAug, a method for automatically learning input-specific augmentations from data. This is achieved by introducing an augmentation module that maps an input to a distribution over transformations. This is simultaneously trained alongside the base model in a fully end-to-end manner using only the training data. We empirically demonstrate that InstaAug learns meaningful augmentations for a wide range of transformation classes, which in turn provides better performance on supervised and self-supervised tasks compared with augmentations that assume input--transformatio n independence.
翻訳日:2022-06-03 13:15:39 公開日:2022-05-31
# (参考訳) CodeAttack: 事前訓練されたプログラミング言語モデルに対するコードベースの逆攻撃 [全文訳有]

CodeAttack: Code-based Adversarial Attacks for Pre-Trained Programming Language Models ( http://arxiv.org/abs/2206.00052v1 )

ライセンス: CC BY 4.0
Akshita Jha, Chandan K. Reddy(参考訳) 事前訓練されたプログラミング言語(PL)モデル(CodeT5、CodeBERT、GraphCodeBERTなど)は、コード理解とコード生成を含むソフトウェアエンジニアリングタスクを自動化する可能性がある。 しかし、これらのモデルは入力の変化に対して堅牢ではないため、敵攻撃の影響を受けやすい可能性がある。 我々は、コード構造を用いて、認識不能で、効果的で、最小限の摂動的コードサンプルを生成する単純なブラックボックス攻撃モデルであるCodeAttackを提案する。 我々は、コード固有の敵攻撃に対する最先端PLモデルの脆弱性を実証する。 プログラム言語間でのコード-コード(翻訳と修復)およびコード-NL(要約)タスクにおけるCodeAttackの転送性を評価する。 CodeAttackは、最先端の敵対的NLP攻撃モデルより優れ、より効率的で受け入れがたい全体的なパフォーマンスを達成する。

Pre-trained programming language (PL) models (such as CodeT5, CodeBERT, GraphCodeBERT, etc.,) have the potential to automate software engineering tasks involving code understanding and code generation. However, these models are not robust to changes in the input and thus, are potentially susceptible to adversarial attacks. We propose, CodeAttack, a simple yet effective black-box attack model that uses code structure to generate imperceptible, effective, and minimally perturbed adversarial code samples. We demonstrate the vulnerabilities of the state-of-the-art PL models to code-specific adversarial attacks. We evaluate the transferability of CodeAttack on several code-code (translation and repair) and code-NL (summarization) tasks across different programming languages. CodeAttack outperforms state-of-the-art adversarial NLP attack models to achieve the best overall performance while being more efficient and imperceptible.
翻訳日:2022-06-03 12:53:03 公開日:2022-05-31
# (参考訳) FELARE: 不均一エッジシステムにおける機械学習アプリケーションの公正スケジューリング [全文訳有]

FELARE: Fair Scheduling of Machine Learning Applications on Heterogeneous Edge Systems ( http://arxiv.org/abs/2206.00065v1 )

ライセンス: CC0 1.0
Ali Mokhtari, Pooyan Jamshidi, Mohsen Amini Salehi(参考訳) エッジコンピューティングは、レイテンシに敏感な機械学習(ML)アプリケーションの同時実行と継続的実行を通じて、スマートIoTベースのシステムを実現する。 これらのエッジベースの機械学習システムは、しばしばバッテリ駆動(エネルギー制限)である。 彼らはMLアプリケーションのレイテンシ制約を満たすために、様々なコンピューティング性能(CPU、GPU、FPGAなど)を持つ異種資源を使用する。 課題は、これらのシステムのエネルギとレイテンシの制約に関して、異種エッジコンピューティングシステム(Heterogeneous Edge Computing Systems:HEC)上で異なるMLアプリケーションのユーザリクエストを割り当てることである。 そこで本研究では,エネルギー制約を考慮しつつ,オンタイムのタスク完了率を増加させる資源割当ソリューションを考察し,分析する。 重要なことは、目的を達成するために特定のアプリケーションタイプに偏らないエッジフレンドリーな(軽量な)多目的マッピングヒューリスティックを調査することである。 性能評価の結果,提案するヒューリスティックは,レイテンシやエネルギー目標,特に低ないし中程度の要求到達率において,異種システムで広く使用されているヒューリスティックよりも優れていることが示された。 作業完了率の8.9%,省エネ率の12.6%はエッジシステムに大きなオーバーヘッドを伴わずに改善した。

Edge computing enables smart IoT-based systems via concurrent and continuous execution of latency-sensitive machine learning (ML) applications. These edge-based machine learning systems are often battery-powered (i.e., energy-limited). They use heterogeneous resources with diverse computing performance (e.g., CPU, GPU, and/or FPGAs) to fulfill the latency constraints of ML applications. The challenge is to allocate user requests for different ML applications on the Heterogeneous Edge Computing Systems (HEC) with respect to both the energy and latency constraints of these systems. To this end, we study and analyze resource allocation solutions that can increase the on-time task completion rate while considering the energy constraint. Importantly, we investigate edge-friendly (lightweight) multi-objective mapping heuristics that do not become biased toward a particular application type to achieve the objectives; instead, the heuristics consider "fairness" across the concurrent ML applications in their mapping decisions. Performance evaluations demonstrate that the proposed heuristic outperforms widely-used heuristics in heterogeneous systems in terms of the latency and energy objectives, particularly, at low to moderate request arrival rates. We observed 8.9% improvement in on-time task completion rate and 12.6% in energy-saving without imposing any significant overhead on the edge system.
翻訳日:2022-06-03 12:35:46 公開日:2022-05-31
# (参考訳) 独立二項近似による分類モデルの簡単な変分推論

Easy Variational Inference for Categorical Models via an Independent Binary Approximation ( http://arxiv.org/abs/2206.00093v1 )

ライセンス: CC BY 4.0
Michael T. Wojnowicz, Shuchin Aeron, Eric L. Miller, and Michael C. Hughes(参考訳) 一般化線形モデル (glms) のカテゴリーデータに対する可搬ベイズ解析を追求する。 これまでのGLMは、共役変数法を用いる場合、非共役性や強い後続依存性のため、数十以上のカテゴリにスケールすることが困難である。 分類モデル(CBモデル)と呼ばれる分類データのための新しいクラスGLMを定義する。 それぞれのCBモデルは、双対確率の積によって有界な可能性を持ち、自然な後続近似を示唆する。 この近似は推論を単純かつ高速にする;プロビットまたはロジスティック回帰のためのよく知られた補助変数を用いることで、二項モデルの積は、カテゴリにまたがって恥ずかしいほど平行でカテゴリ順序に不変な共役閉形式変分推論を許容する。 さらに、独立バイナリモデルは複数のCBモデルを同時に近似する。 これらの平均的なベイズモデルにより、任意のデータセットの近似の品質が向上する。 提案手法は数千のカテゴリにスケールし, 予測品質の固定化に要する時間において, 自動微分変分推定(ADVI) や No U-Turn Smpling (NUTS) などの後方推定競合よりも優れていることを示す。

We pursue tractable Bayesian analysis of generalized linear models (GLMs) for categorical data. Thus far, GLMs are difficult to scale to more than a few dozen categories due to non-conjugacy or strong posterior dependencies when using conjugate auxiliary variable methods. We define a new class of GLMs for categorical data called categorical-from-bin ary (CB) models. Each CB model has a likelihood that is bounded by the product of binary likelihoods, suggesting a natural posterior approximation. This approximation makes inference straightforward and fast; using well-known auxiliary variables for probit or logistic regression, the product of binary models admits conjugate closed-form variational inference that is embarrassingly parallel across categories and invariant to category ordering. Moreover, an independent binary model simultaneously approximates multiple CB models. Bayesian model averaging over these can improve the quality of the approximation for any given dataset. We show that our approach scales to thousands of categories, outperforming posterior estimation competitors like Automatic Differentiation Variational Inference (ADVI) and No U-Turn Sampling (NUTS) in the time required to achieve fixed prediction quality.
翻訳日:2022-06-03 12:13:52 公開日:2022-05-31
# (参考訳) 確率的かつ実用的なニューラルネットワーク帯域

Provably and Practically Efficient Neural Contextual Bandits ( http://arxiv.org/abs/2206.00099v1 )

ライセンス: CC BY 4.0
Sudeep Salgia, Sattar Vakili, Qing Zhao(参考訳) ニューラル・コンテクスト・バンディットの問題を考える。 主にReLUニューラルネットに焦点を当てた既存の研究とは対照的に、スムーズな活性化関数の集合を考える。 より一般的な設定で。 (i)過パラメータ化ニューラルネットとそれに対応する神経接核との差の非漸近的誤差境界を導出する。 2) 実証的な研究によって示される有限状態においても有効である証明可能なサブ線形後悔境界を持つアルゴリズムを提案する。 非漸近的誤差境界は、ニューラルネットワークの文脈的バンディットにおける活性化関数の滑らかさとカーネルバンドイットにおけるカーネルの滑らかさとの関係を確立するツールとして、より広い関心を持つ。

We consider the neural contextual bandit problem. In contrast to the existing work which primarily focuses on ReLU neural nets, we consider a general set of smooth activation functions. Under this more general setting, (i) we derive non-asymptotic error bounds on the difference between an overparameterized neural net and its corresponding neural tangent kernel, (ii) we propose an algorithm with a provably sublinear regret bound that is also efficient in the finite regime as demonstrated by empirical studies. The non-asymptotic error bounds may be of broader interest as a tool to establish the relation between the smoothness of the activation functions in neural contextual bandits and the smoothness of the kernels in kernel bandits.
翻訳日:2022-06-03 12:12:33 公開日:2022-05-31
# (参考訳) 携帯電話における画像分類のためのディープラーニングパイプライン [全文訳有]

Deep learning pipeline for image classification on mobile phones ( http://arxiv.org/abs/2206.00105v1 )

ライセンス: CC BY 4.0
Muhammad Muneeb, Samuel F. Feng, and Andreas Henschel(参考訳) 本稿では,携帯電話を用いた画像分類のための機械学習フレームワークとチュートリアルを提案する。 コンピュータと比較して、ディープラーニングモデルの性能は携帯電話にデプロイすると劣化し、コンピュータと携帯電話の両方で最適に動作するモデルを見つけるためには体系的なアプローチが必要である。 提案したパイプラインは,様々な計算ツール,簡単な手続き的レシピ,技術的考察から成り,モバイルデバイスにディープラーニングの医療画像分類の力をもたらし,アプリケーションの新しいドメインを解き放つ可能性がある。 パイプラインは、COVID X線、COVID CTスキャン、葉、大腸癌の4つの利用可能なデータセットで実証されている。 提案するパイプラインをテストするために、tensorflow lite(リアルタイムテスト)とflutter(デジタルイメージテスト)という2つのアプリケーション開発フレームワークを使用しました。 携帯電話へのディープラーニングモデルの転送は、ハードウェアと分類精度の低下によって制限されることがわかりました。 この問題に対処するため,我々は携帯電話に最適化されたモデルを求めるパイプラインを提案した。 最後に、リアルタイム分析や画像前処理など、ディープラーニングモデルを携帯電話に展開する際のさらなる応用と計算上の懸念について論じる。 医師や医療専門家が配布のための医用画像分類アプリケーションを開発するのに役立つと我々は信じている。

This article proposes and documents a machine-learning framework and tutorial for classifying images using mobile phones. Compared to computers, the performance of deep learning model performance degrades when deployed on a mobile phone and requires a systematic approach to find a model that performs optimally on both computers and mobile phones. By following the proposed pipeline, which consists of various computational tools, simple procedural recipes, and technical considerations, one can bring the power of deep learning medical image classification to mobile devices, potentially unlocking new domains of applications. The pipeline is demonstrated on four different publicly available datasets: COVID X-rays, COVID CT scans, leaves, and colorectal cancer. We used two application development frameworks: TensorFlow Lite (real-time testing) and Flutter (digital image testing) to test the proposed pipeline. We found that transferring deep learning models to a mobile phone is limited by hardware and classification accuracy drops. To address this issue, we proposed this pipeline to find an optimized model for mobile phones. Finally, we discuss additional applications and computational concerns related to deploying deep-learning models on phones, including real-time analysis and image preprocessing. We believe the associated documentation and code can help physicians and medical experts develop medical image classification applications for distribution.
翻訳日:2022-06-03 11:17:14 公開日:2022-05-31
# (参考訳) マリオがマニフォールドで演奏する:微分幾何学による潜在空間の機能的内容の生成 [全文訳有]

Mario Plays on a Manifold: Generating Functional Content in Latent Space through Differential Geometry ( http://arxiv.org/abs/2206.00106v1 )

ライセンス: CC BY-SA 4.0
Miguel Gonz\'alez-Duque, Rasmus Berg Palm, S{\o}ren Hauberg, Sebastian Risi(参考訳) 深層生成モデルは、様々なタイプのコンテンツを自動的に生成することができる。 しかし、そのようなコンテンツがエンドユーザに提示するために必要な基準を満たし、機能的であるという保証はない。 本稿では,この問題を幾何学的な観点から検討し,リーマン幾何学に基づく圏 vaes の潜在空間における信頼性の高い補間とランダムウォークの方法を提案する。 我々は,「スーパーマリオブラザーズ」と「ゼルダ伝説」で手法を検証し,現在の実践にインスパイアされたシンプルなベースラインに対して実験を行った。 その結果、我々が提案する幾何学は補間とサンプリングがより良くなり、再生可能なコンテンツにデコードする潜在空間の一部に確実に近づいた。

Deep generative models can automatically create content of diverse types. However, there are no guarantees that such content will satisfy the criteria necessary to present it to end-users and be functional, e.g. the generated levels could be unsolvable or incoherent. In this paper we study this problem from a geometric perspective, and provide a method for reliable interpolation and random walks in the latent spaces of Categorical VAEs based on Riemannian geometry. We test our method with "Super Mario Bros" and "The Legend of Zelda" levels, and against simpler baselines inspired by current practice. Results show that the geometry we propose is better able to interpolate and sample, reliably staying closer to parts of the latent space that decode to playable content.
翻訳日:2022-06-03 10:58:43 公開日:2022-05-31
# (参考訳) BRExIt: エキスパートイテレーションにおける応答モデリングについて [全文訳有]

BRExIt: On Opponent Modelling in Expert Iteration ( http://arxiv.org/abs/2206.00113v1 )

ライセンス: CC0 1.0
Daniel Hernandez, Hendrik Baier, Michael Kaisers(参考訳) 現代の人口ベースのトレーニングアプローチでは、強化学習アルゴリズムを最善の応答神託として採用し、候補者の対戦相手(主に以前に学習した政策)に対する遊びを改善する。 本稿では,最先端学習アルゴリズムエキスパートイテレーション(exit)に敵モデルを組み込むことにより,ゲームにおける学習を加速するベストレスポンスエキスパートイテレーション(brexit)を提案する。 ブレグジットの目的は、(1)対向政策を補助課題として予測する政策責任者、(2)与または学習した対向モデルに向かって計画中のバイアス相手を移動させ、最適な反応を近似する見習い対象を生成することである。 BRExItのゲームConnect4におけるアルゴリズム的変種と固定テストエージェントのセットとの実証的アブレーションにおいて、BRExItがExItよりも優れたサンプル効率で優れた性能のポリシーを学習していることを示す統計的証拠を提供する。

Finding a best response policy is a central objective in game theory and multi-agent learning, with modern population-based training approaches employing reinforcement learning algorithms as best-response oracles to improve play against candidate opponents (typically previously learnt policies). We propose Best Response Expert Iteration (BRExIt), which accelerates learning in games by incorporating opponent models into the state-of-the-art learning algorithm Expert Iteration (ExIt). BRExIt aims to (1) improve feature shaping in the apprentice, with a policy head predicting opponent policies as an auxiliary task, and (2) bias opponent moves in planning towards the given or learnt opponent model, to generate apprentice targets that better approximate a best response. In an empirical ablation on BRExIt's algorithmic variants in the game Connect4 against a set of fixed test agents, we provide statistical evidence that BRExIt learns well-performing policies with greater sample efficiency than ExIt.
翻訳日:2022-06-03 10:39:42 公開日:2022-05-31
# (参考訳) バンドにおける近接最適協調学習 [全文訳有]

Near-Optimal Collaborative Learning in Bandits ( http://arxiv.org/abs/2206.00121v1 )

ライセンス: CC BY 4.0
Cl\'emence R\'eda, Sattar Vakili, Emilie Kaufmann(参考訳) 本稿では,各エージェントが有限のアームに面し,他のエージェントと中央制御器を介して通信し,純粋な探索や遊びにおいて,後悔の最小化において,その最適なアームを識別する,一般的なマルチエージェントバンディットモデルを提案する。 ねじれは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。 これにより、エージェント間のコミュニケーションがしばしば必要となる。 この一般的な設定は、最近提案されたパーソナライゼーションによる連合学習(shi et al., 2021)を含む、最近の共同バンディット学習モデルの復元と拡張を可能にする。 本稿では,純粋な探索の複雑さと後悔に対する新たな下位境界について述べる。 次に,純粋探索のための近似最適アルゴリズムを提案する。 このアルゴリズムは、2つの新しい成分による位相除去に基づいている: 各フェーズ内のデータ依存サンプリングスキームで、下界の緩和をマッチングすることを目的としている。

This paper introduces a general multi-agent bandit model in which each agent is facing a finite set of arms and may communicate with other agents through a central controller in order to identify, in pure exploration, or play, in regret minimization, its optimal arm. The twist is that the optimal arm for each agent is the arm with largest expected mixed reward, where the mixed reward of an arm is a weighted sum of the rewards of this arm for all agents. This makes communication between agents often necessary. This general setting allows to recover and extend several recent models for collaborative bandit learning, including the recently proposed federated learning with personalization (Shi et al., 2021). In this paper, we provide new lower bounds on the sample complexity of pure exploration and on the regret. We then propose a near-optimal algorithm for pure exploration. This algorithm is based on phased elimination with two novel ingredients: a data-dependent sampling scheme within each phase, aimed at matching a relaxation of the lower bound.
翻訳日:2022-06-03 10:11:07 公開日:2022-05-31
# (参考訳) Glo-In-One: 大規模Web画像マイニングによるホロスティックな糸球体検出, セグメンテーション, 病変評価 [全文訳有]

Glo-In-One: Holistic Glomerular Detection, Segmentation, and Lesion Characterization with Large-scale Web Image Mining ( http://arxiv.org/abs/2206.00123v1 )

ライセンス: CC BY 4.0
Tianyuan Yao, Yuzhe Lu, Jun Long, Aadarsh Jha, Zheyu Zhu, Zuhayr Asad, Haichun Yang, Agnes B. Fogo, Yuankai Huo(参考訳) 高分解能全スライディング画像(wsi)からの糸球体の検出, 分画, 同定は, デジタル腎病理学におけるコンピュータ支援診断および科学的研究において重要な役割を担っている。 歴史的に、このような包括的定量化は、不均一でカスタマイズされた計算ツールを扱うために、広範なプログラミングスキルを必要とする。 非技術ユーザのための糸球体定量化のギャップを埋めるため,我々は1行のコマンドで総合的な糸球体検出,セグメント化,キャラクタリゼーションを実現するためのglo-in-oneツールキットを開発した。 さらに,自己教師付き深層学習のアルゴリズム開発を促進するために,3万個のラベルなし糸球体画像を大規模に収集した。 glo-in-oneツールキットの入力は、wsisであり、出力は、(1)wsiレベルの多クラス多層円糸球体検出結果(イメージスコープで直接操作できる)、(2)セグメンテーションマスク付き糸球体画像パッチ、(3)異なる病変タイプである。 glo-in-oneツールキットの性能を活用するために,大規模web画像マイニングによる糸球体定量化に自己教師ありディープラーニングを導入する。 GGSの細粒度分類モデルは,アノテートデータの10%しか使用せず,ベースライン管理手法に比べて良好な性能を示した。 球面検出は円の表現で平均精度0.627、球面分割は0.955パッチワイドDice similarity Coefficient(DSC)を達成した。

The quantitative detection, segmentation, and characterization of glomeruli from high-resolution whole slide imaging (WSI) play essential roles in the computer-assisted diagnosis and scientific research in digital renal pathology. Historically, such comprehensive quantification requires extensive programming skills in order to be able to handle heterogeneous and customized computational tools. To bridge the gap of performing glomerular quantification for non-technical users, we develop the Glo-In-One toolkit to achieve holistic glomerular detection, segmentation, and characterization via a single line of command. Additionally, we release a large-scale collection of 30,000 unlabeled glomerular images to further facilitate the algorithmic development of self-supervised deep learning. The inputs of the Glo-In-One toolkit are WSIs, while the outputs are (1) WSI-level multi-class circle glomerular detection results (which can be directly manipulated with ImageScope), (2) glomerular image patches with segmentation masks, and (3) different lesion types. To leverage the performance of the Glo-In-One toolkit, we introduce self-supervised deep learning to glomerular quantification via large-scale web image mining. The GGS fine-grained classification model achieved a decent performance compared with baseline supervised methods while only using 10% of the annotated data. The glomerular detection achieved an average precision of 0.627 with circle representations, while the glomerular segmentation achieved a 0.955 patch-wise Dice Similarity Coefficient (DSC).
翻訳日:2022-06-03 09:25:50 公開日:2022-05-31
# (参考訳) 分子特性予測のためのデノイジングによる事前学習 [全文訳有]

Pre-training via Denoising for Molecular Property Prediction ( http://arxiv.org/abs/2206.00133v1 )

ライセンス: CC BY 4.0
Sheheryar Zaidi, Michael Schaarschmidt, James Martens, Hyunjik Kim, Yee Whye Teh, Alvaro Sanchez-Gonzalez, Peter Battaglia, Razvan Pascanu, Jonathan Godwin(参考訳) 3次元構造からの分子特性予測に関わる多くの重要な問題は限られたデータを持ち、ニューラルネットワークの一般化の課題となっている。 本稿では,3次元分子構造の大規模データセットを平衡に利用して,下流タスクの有意義な表現を学習する事前学習手法について述べる。 ノイズレギュラー化の最近の進歩に触発されて,我々の事前学習の目的は騒音の除去に基づく。 また, 雑音化オートエンコーダとスコアマッチングの関係をよく知っていることから, 平衡構造から直接, 物理状態分布とガウスの混合物との近似から分子力場を学習することに対応していることを示した。 我々の実験では、この事前学習目標により、複数のベンチマークのパフォーマンスが大幅に向上し、広く使用されているqm9データセットの多くのターゲットで新たな最先端を達成することが示されています。 分析は、データセットサイズ、モデルサイズ、アーキテクチャ、上流および下流のデータセットの選択といったさまざまな要因が事前トレーニングに与える影響について、実践的な洞察を提供します。

Many important problems involving molecular property prediction from 3D structures have limited data, posing a generalization challenge for neural networks. In this paper, we describe a pre-training technique that utilizes large datasets of 3D molecular structures at equilibrium to learn meaningful representations for downstream tasks. Inspired by recent advances in noise regularization, our pre-training objective is based on denoising. Relying on the well-known link between denoising autoencoders and score-matching, we also show that the objective corresponds to learning a molecular force field -- arising from approximating the physical state distribution with a mixture of Gaussians -- directly from equilibrium structures. Our experiments demonstrate that using this pre-training objective significantly improves performance on multiple benchmarks, achieving a new state-of-the-art on the majority of targets in the widely used QM9 dataset. Our analysis then provides practical insights into the effects of different factors -- dataset sizes, model size and architecture, and the choice of upstream and downstream datasets -- on pre-training.
翻訳日:2022-06-03 08:57:16 公開日:2022-05-31
# (参考訳) 暗黙的生成モデル評価のための核化シュタイン統計 [全文訳有]

A Kernelised Stein Statistic for Assessing Implicit Generative Models ( http://arxiv.org/abs/2206.00149v1 )

ライセンス: CC BY 4.0
Wenkai Xu and Gesine Reinert(参考訳) 合成データ生成は、機械学習手順のトレーニング、データ拡張、プライバシーに敏感なデータの分析、代表サンプルの可視化といったタスクに対処するための重要な要素となっている。 そのため、このような合成データジェネレータの品質を評価する必要がある。 合成データの(深い)生成モデルは、しばしば明示的な確率分布を認めないので、モデル良さを評価する古典的な統計的手続きは適用できないかもしれない。 本稿では,合成データ生成装置の品質を評価するための原理的手法を提案する。 この手順は、興味のある合成データ生成のための非パラメトリックシュタイン演算子に基づく、カーネル化されたスタイン差分(KSD)型試験である。 この演算子は、合成データ生成装置から得られたサンプルから推定され、モデルが暗黙的である場合にのみ適用できる。 古典的なテストとは対照的に、合成データ生成装置のサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定されている。 合成および実データセット上での合成分布と訓練された生成モデルの実験結果から,既存の手法に比べて性能が向上したことを示す。

Synthetic data generation has become a key ingredient for training machine learning procedures, addressing tasks such as data augmentation, analysing privacy-sensitive data, or visualising representative samples. Assessing the quality of such synthetic data generators hence has to be addressed. As (deep) generative models for synthetic data often do not admit explicit probability distributions, classical statistical procedures for assessing model goodness-of-fit may not be applicable. In this paper, we propose a principled procedure to assess the quality of a synthetic data generator. The procedure is a kernelised Stein discrepancy (KSD)-type test which is based on a non-parametric Stein operator for the synthetic data generator of interest. This operator is estimated from samples which are obtained from the synthetic data generator and hence can be applied even when the model is only implicit. In contrast to classical testing, the sample size from the synthetic data generator can be as large as desired, while the size of the observed data, which the generator aims to emulate is fixed. Experimental results on synthetic distributions and trained generative models on synthetic and real datasets illustrate that the method shows improved power performance compared to existing approaches.
翻訳日:2022-06-03 08:20:53 公開日:2022-05-31
# (参考訳) 頻度に基づく政策分断によるヒューマンai共有制御 [全文訳有]

Human-AI Shared Control via Frequency-based Policy Dissection ( http://arxiv.org/abs/2206.00152v1 )

ライセンス: CC BY 4.0
Quanyi Li, Zhenghao Peng, Haibin Wu, Lan Feng, Bolei Zhou(参考訳) 人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。 従来の強化学習(RL)手法は、報酬関数の再設計とトレーニングパラダイムを犠牲にして、人間制御可能なポリシーを実現するために目標条件付き設計を試みる。 霊長類の運動野を調査するための神経科学的アプローチに触発され、学習した神経制御器の中間表現とエージェントの行動の運動的属性を整合させるために、単純で効果的な周波数ベースのアプローチである \textit{policy dissection} を開発した。 ニューラルコントローラを変更したり、モデルを再訓練することなく、提案したアプローチは、与えられたRL訓練されたポリシーを人間間ポリシーに変換することができる。 自律走行と移動のRL課題に対する提案手法の評価を行った。 実験の結果,運転課題におけるポリシー分割による人間-ai共有制御は,交通現場における性能と安全性を著しく向上できることがわかった。 ループに人間を乗せたロボットは、前進のみを訓練されているにもかかわらず、多目的に制御可能なモーションスキルも備えている。 この結果から,自律エージェントの学習表現を解釈することで,人間とAIが共有する自律性を実現するという有望な方向性が示唆された。 デモビデオとコードはhttps://metadriverse .github.io/policydis sectで入手できる。

Human-AI shared control allows human to interact and collaborate with AI to accomplish control tasks in complex environments. Previous Reinforcement Learning (RL) methods attempt the goal-conditioned design to achieve human-controllable policies at the cost of redesigning the reward function and training paradigm. Inspired by the neuroscience approach to investigate the motor cortex in primates, we develop a simple yet effective frequency-based approach called \textit{Policy Dissection} to align the intermediate representation of the learned neural controller with the kinematic attributes of the agent behavior. Without modifying the neural controller or retraining the model, the proposed approach can convert a given RL-trained policy into a human-interactive policy. We evaluate the proposed approach on the RL tasks of autonomous driving and locomotion. The experiments show that human-AI shared control achieved by Policy Dissection in driving task can substantially improve the performance and safety in unseen traffic scenes. With human in the loop, the locomotion robots also exhibit versatile controllable motion skills even though they are only trained to move forward. Our results suggest the promising direction of implementing human-AI shared autonomy through interpreting the learned representation of the autonomous agents. Demo video and code will be made available at https://metadriverse .github.io/policydis sect.
翻訳日:2022-06-03 07:40:17 公開日:2022-05-31
# オンラインPAC-Bayes学習

Online PAC-Bayes Learning ( http://arxiv.org/abs/2206.00024v1 )

ライセンス: Link先を確認
Maxime Haddouche and Benjamin Guedj(参考訳) ほとんどのPAC-Bayesian境界は、推論や予測の前にデータを一度に収集するバッチ学習設定に保持される。 これは、データストリームが収集され、アルゴリズムが動的に調整する必要がある、現代の多くの学習問題からやや離れている。 我々は,このオンライン学習フレームワークで新たなPAC-Bayesian境界を証明し,後悔の定義を更新し,従来のPAC-Bayesian結果を再検討し,バッチからオンラインへの変換を行い,その限界を依存データの場合まで延長する。 私たちの結果は,オンライン学習における有望な発展への道を開く,潜在的に‘emph{non-convex}’という有界な損失を補っている。

Most PAC-Bayesian bounds hold in the batch learning setting where data is collected at once, prior to inference or prediction. This somewhat departs from many contemporary learning problems where data streams are collected and the algorithms must dynamically adjust. We prove new PAC-Bayesian bounds in this online learning framework, leveraging an updated definition of regret, and we revisit classical PAC-Bayesian results with a batch-to-online conversion, extending their remit to the case of dependent data. Our results hold for bounded losses, potentially \emph{non-convex}, paving the way to promising developments in online learning.
翻訳日:2022-06-02 16:44:47 公開日:2022-05-31
# フェアネスフロンティアまで:フェアネス正確なパレートフロンティアを特定し、定量化し、最適化する

To the Fairness Frontier and Beyond: Identifying, Quantifying, and Optimizing the Fairness-Accuracy Pareto Frontier ( http://arxiv.org/abs/2206.00074v1 )

ライセンス: Link先を確認
Camille Olivia Little and Michael Weylandt and Genevera I Allen(参考訳) アルゴリズム的公平性は、機械学習を使って社会的意思決定を行う際に重要な考慮事項として現れてきた。 しかし、改善された公正さは、しばしばモデルの精度を犠牲にする。 公正さと精度のトレードオフの側面は研究されているが、ほとんどの研究は、様々なモデルの公正さと正確さを別々に報告している。 我々は公正・正確性トレードオフの実証的パレートフロンティアを特定し、定量化し、最適化することを目指している。 具体的には,taf曲線を用いて経験的パレートフロンティアを特定し,概説する。次に,このパレートフロンティアを,fairness-area-under -the-curve(fauc)と呼ぶtaf曲線下の重み付け領域を通じて定量化する指標を開発する。 TAF曲線はパレートフロンティアの最初の経験的、モデルに依存しない特徴を与え、FAUCはモデルファミリーを公平性と正確性の両方で公平に比較する最初の指標を提供する。 TAF曲線とFAUCは、すべてのグループフェアネス定義と精度測定に使用できる。 次に質問する: 実証的なパレートフロンティアを拡張して、与えられた適合モデルの集合に対するFAUCを改善することは可能か? スコアバイアス制約を受けるモデルアンサンブルの精度を最大化するために凸プログラムを解く,新しいフェアモデルスタックフレームワークであるFairStacksを開発することで,肯定的に答える。 FairStacksによる最適化は、常に実証的なParetoフロンティアを拡張し、FAUCを改善することを示し、提案手法の他の理論的特性についても検討する。 最後に、いくつかの実際のベンチマークデータセットの研究を通じて、TAF、FAUC、FairStacksを実証的に検証し、FairStacksが既存のアルゴリズムの公正性アプローチよりも優れたFAUCに大きな改善をもたらすことを示した。

Algorithmic fairness has emerged as an important consideration when using machine learning to make high-stakes societal decisions. Yet, improved fairness often comes at the expense of model accuracy. While aspects of the fairness-accuracy tradeoff have been studied, most work reports the fairness and accuracy of various models separately; this makes model comparisons nearly impossible without a model-agnostic metric that reflects the balance of the two desiderata. We seek to identify, quantify, and optimize the empirical Pareto frontier of the fairness-accuracy tradeoff. Specifically, we identify and outline the empirical Pareto frontier through Tradeoff-between-Fai rness-and-Accuracy (TAF) Curves; we then develop a metric to quantify this Pareto frontier through the weighted area under the TAF Curve which we term the Fairness-Area-Under- the-Curve (FAUC). TAF Curves provide the first empirical, model-agnostic characterization of the Pareto frontier, while FAUC provides the first metric to impartially compare model families on both fairness and accuracy. Both TAF Curves and FAUC can be employed with all group fairness definitions and accuracy measures. Next, we ask: Is it possible to expand the empirical Pareto frontier and thus improve the FAUC for a given collection of fitted models? We answer affirmately by developing a novel fair model stacking framework, FairStacks, that solves a convex program to maximize the accuracy of model ensemble subject to a score-bias constraint. We show that optimizing with FairStacks always expands the empirical Pareto frontier and improves the FAUC; we additionally study other theoretical properties of our proposed approach. Finally, we empirically validate TAF, FAUC, and FairStacks through studies on several real benchmark data sets, showing that FairStacks leads to major improvements in FAUC that outperform existing algorithmic fairness approaches.
翻訳日:2022-06-02 16:44:33 公開日:2022-05-31
# 非定常マッチング市場における分散競合バンディット

Decentralized Competing Bandits in Non-Stationary Matching Markets ( http://arxiv.org/abs/2206.00120v1 )

ライセンス: Link先を確認
Avishek Ghosh, Abishek Sankararaman, Kannan Ramchandran, Tara Javidi and Arya Mazumdar(参考訳) 需要側のエージェントが供給側(arms)と競争するオンラインマッチング市場の複雑なダイナミクスを理解することが最近大きな関心を集めている。 そこで本稿では,非定常(動的)環境下での分散化二面マッチング市場の枠組みを紹介する。 我々は、需要側エージェントが供給側(武器)に対して未知で異なる嗜好を持つシリアルな独裁体制に固執するが、武器はエージェントに対して固定され、既知の嗜好を持つ。 本稿では,分散非定常競合帯域(Decentralized Non-stationary Competing Bandits (\texttt{DNCB})と呼ばれる分散型非同期学習アルゴリズムを提案する。 このようなシステムの理解の複雑さは、競合するバンドイットが非同期に行動を選択し、下位のエージェントは上位のエージェントによって「emph{dominated}」ではなく「emph{forced Explor}」と呼ばれる一連のアームからしか学ばないという事実に起因している。 慎重に定義された複雑性パラメータを用いて、この \emph{forced exploration} を特徴付け、textt{dncb} の部分線形(対数)後悔を得る。 さらに,実験により理論的知見を検証した。

Understanding complex dynamics of two-sided online matching markets, where the demand-side agents compete to match with the supply-side (arms), has recently received substantial interest. To that end, in this paper, we introduce the framework of decentralized two-sided matching market under non stationary (dynamic) environments. We adhere to the serial dictatorship setting, where the demand-side agents have unknown and different preferences over the supply-side (arms), but the arms have fixed and known preference over the agents. We propose and analyze a decentralized and asynchronous learning algorithm, namely Decentralized Non-stationary Competing Bandits (\texttt{DNCB}), where the agents play (restrictive) successive elimination type learning algorithms to learn their preference over the arms. The complexity in understanding such a system stems from the fact that the competing bandits choose their actions in an asynchronous fashion, and the lower ranked agents only get to learn from a set of arms, not \emph{dominated} by the higher ranked agents, which leads to \emph{forced exploration}. With carefully defined complexity parameters, we characterize this \emph{forced exploration} and obtain sub-linear (logarithmic) regret of \texttt{DNCB}. Furthermore, we validate our theoretical findings via experiments.
翻訳日:2022-06-02 16:43:55 公開日:2022-05-31
# 任意のノード故障を伴う通信効率のよい分散固有空間推定

Communication-effici ent distributed eigenspace estimation with arbitrary node failures ( http://arxiv.org/abs/2206.00127v1 )

ライセンス: Link先を確認
Vasileios Charisopoulos, Anil Damle(参考訳) 計算機ノードのサブセットが構造的に有効だが任意に選択された応答を返すことができる分散環境のための固有空間推定アルゴリズムを開発した。 特に、この設定は、分散コンピューティングや、サイレント/ソフトエラー、特定のノードにおける外れ値や破損データ、敵の応答など、データ収集環境において発生するいくつかの重要なシナリオを含んでいる。 我々の推定器は、最近提案された非ロバスト推定器の性能を、追加の$\tilde{O}(\sigma \sqrt{\alpha})$ error(ここで、$\sigma^2$は既存の推定器の分散であり、$\alpha$は破損したノードの分数である。

We develop an eigenspace estimation algorithm for distributed environments with arbitrary node failures, where a subset of computing nodes can return structurally valid but otherwise arbitrarily chosen responses. Notably, this setting encompasses several important scenarios that arise in distributed computing and data-collection environments such as silent/soft errors, outliers or corrupted data at certain nodes, and adversarial responses. Our estimator builds upon and matches the performance of a recently proposed non-robust estimator up to an additive $\tilde{O}(\sigma \sqrt{\alpha})$ error, where $\sigma^2$ is the variance of the existing estimator and $\alpha$ is the fraction of corrupted nodes.
翻訳日:2022-06-02 16:39:31 公開日:2022-05-31
# PandA:GANの機能マップにおける部品と外観の教師なし学習

PandA: Unsupervised Learning of Parts and Appearances in the Feature Maps of GANs ( http://arxiv.org/abs/2206.00048v1 )

ライセンス: Link先を確認
James Oldfield, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Ioannis Patras(参考訳) GAN(Generative Adversarial Networks)の理解の最近の進歩は、事前学習されたGANの潜在空間に埋め込まれたリッチなセマンティクスを活用することで、視覚編集と合成タスクの顕著な進歩につながっている。 しかし、既存の手法は特定のGANアーキテクチャに適合し、局所的な制御を助長しないグローバルな意味的な方向を見つけるか、手動で提供された領域やセグメンテーションマスクを通してある種の監督を必要とするかに限られる。 本稿では,空間的部分とその外観を表す因子を,完全に教師なしの方法で共同で発見するアーキテクチャ非依存のアプローチを提案する。 これらの因子は、特徴マップに半非負のテンソル因子分解を適用することで得られる。 さらに,発見された外観因子は,ラベルを使わずに興味ある概念をローカライズする唾液マップに対応することを示す。 幅広いGANアーキテクチャとデータセットの実験では、最先端技術と比較して、我々の手法はトレーニング時間の観点からはるかに効率的であり、最も重要なのは、より正確な局所制御を提供することを示している。 私たちのコードは、https://github.com/j ames-oldfield/PandA. comで利用可能です。

Recent advances in the understanding of Generative Adversarial Networks (GANs) have led to remarkable progress in visual editing and synthesis tasks, capitalizing on the rich semantics that are embedded in the latent spaces of pre-trained GANs. However, existing methods are often tailored to specific GAN architectures and are limited to either discovering global semantic directions that do not facilitate localized control, or require some form of supervision through manually provided regions or segmentation masks. In this light, we present an architecture-agnosti c approach that jointly discovers factors representing spatial parts and their appearances in an entirely unsupervised fashion. These factors are obtained by applying a semi-nonnegative tensor factorization on the feature maps, which in turn enables context-aware local image editing with pixel-level control. In addition, we show that the discovered appearance factors correspond to saliency maps that localize concepts of interest, without using any labels. Experiments on a wide range of GAN architectures and datasets show that, in comparison to the state of the art, our method is far more efficient in terms of training time and, most importantly, provides much more accurate localized control. Our code is available at: https://github.com/j ames-oldfield/PandA.
翻訳日:2022-06-02 16:00:36 公開日:2022-05-31
# ハンズアップ:手首検出のための合成データを活用する

Hands-Up: Leveraging Synthetic Data for Hands-On-Wheel Detection ( http://arxiv.org/abs/2206.00148v1 )

ライセンス: Link先を確認
Paul Yudkin, Eli Friedman, Orly Zvitia, Gil Elbaz(参考訳) 過去数年間、シミュレーションに基づく手法を用いた合成データ生成の分野は大きな進歩を遂げてきた。 これらの方法は、ハイエンドのグラフィックスエンジンと物理ベースのレイトレーシングレンダリングを使用して、世界を3dで表現し、高度にリアルな画像を作成する。 datagenは高品質な3d人間、リアルな3d環境、リアルな人間の動きの生成を専門としている。 この技術はデータ生成プラットフォームとして開発され、これらの実験に使用しました。 この研究は、合成フォトリアリスティックインキャビンデータを使用して、軽量ニューラルネットワークを使用して運転者の手が車輪上にあるかどうかを検出するドライバモニタリングシステムを訓練することを示した。 ごく少数の実データしか利用できない場合、合成データは、パフォーマンスを高めるための簡単な方法であることを示す。 さらに、データ中心のアプローチを採用し、エラー解析を行い、欠落したエッジケースを生成することによって、パフォーマンスが向上することを示す。 これは、人間中心の合成データが現実世界にうまく一般化する能力を示し、ターゲットドメインからのデータが乏しい、あるいは収集が難しいコンピュータビジョン設定におけるアルゴリズムのトレーニングを支援する。

Over the past few years there has been major progress in the field of synthetic data generation using simulation based techniques. These methods use high-end graphics engines and physics-based ray-tracing rendering in order to represent the world in 3D and create highly realistic images. Datagen has specialized in the generation of high-quality 3D humans, realistic 3D environments and generation of realistic human motion. This technology has been developed into a data generation platform which we used for these experiments. This work demonstrates the use of synthetic photo-realistic in-cabin data to train a Driver Monitoring System that uses a lightweight neural network to detect whether the driver's hands are on the wheel. We demonstrate that when only a small amount of real data is available, synthetic data can be a simple way to boost performance. Moreover, we adopt the data-centric approach and show how performing error analysis and generating the missing edge-cases in our platform boosts performance. This showcases the ability of human-centric synthetic data to generalize well to the real world, and help train algorithms in computer vision settings where data from the target domain is scarce or hard to collect.
翻訳日:2022-06-02 16:00:14 公開日:2022-05-31
# 重み付けランクアグリゲーションのための重み付け分解 : 解釈可能で視覚的な意思決定支援ツール

Weight Set Decomposition for Weighted Rank Aggregation: An interpretable and visual decision support tool ( http://arxiv.org/abs/2206.00001v1 )

ライセンス: Link先を確認
Tyler Perini, Amy Langville, Glenn Kramer, Jeff Shrager, Mark Shapiro(参考訳) 複数のランキングを解釈または集約する問題は、多くの現実世界のアプリケーションに共通している。 おそらく最も単純かつ最も一般的なアプローチは重み付きランクアグリゲーションであり、そこでは(凸)重みが各入力のランク付けに適用される。 本稿では,重み付け階数集計法におけるランキング情報の可視化と表示を行う新しいツールについて述べる。 伝統的に、ランクアグリゲーションの目的は、入力ランキングからの情報を要約し、任意の入力ランキングよりも正確で真実的な結果を示す1つの最終ランキングを提供することである。 このような集約されたランキングは、多くのアプリケーションにとって有益であるが、情報も曖昧である。 本稿では,重み付けランクアグリゲーション問題に対して,その構造上利用可能な情報の豊富さを示す。 重み集合分解を凸乗数の集合に適用し、この分解を理解するのに有用な性質を研究し、非微分領域を可視化する。 この手法は、集計されたランキングによって破壊される情報、すなわち有用で解釈可能で直感的な意思決定支援ツールを明らかにする。 重み集合分解を計算するためのヒューリスティックで厳密なアルゴリズムとともに、複数の例を含む。

The problem of interpreting or aggregating multiple rankings is common to many real-world applications. Perhaps the simplest and most common approach is a weighted rank aggregation, wherein a (convex) weight is applied to each input ranking and then ordered. This paper describes a new tool for visualizing and displaying ranking information for the weighted rank aggregation method. Traditionally, the aim of rank aggregation is to summarize the information from the input rankings and provide one final ranking that hopefully represents a more accurate or truthful result than any one input ranking. While such an aggregated ranking is, and clearly has been, useful to many applications, it also obscures information. In this paper, we show the wealth of information that is available for the weighted rank aggregation problem due to its structure. We apply weight set decomposition to the set of convex multipliers, study the properties useful for understanding this decomposition, and visualize the indifference regions. This methodology reveals information--that is otherwise collapsed by the aggregated ranking--into a useful, interpretable, and intuitive decision support tool. Included are multiple illustrative examples, along with heuristic and exact algorithms for computing the weight set decomposition.
翻訳日:2022-06-02 15:57:35 公開日:2022-05-31
# IGLU Gridworld: ダイアログエージェントのシンプルで高速な環境

IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents ( http://arxiv.org/abs/2206.00142v1 )

ライセンス: Link先を確認
Artem Zholus, Alexey Skrynnik, Shrestha Mohanty, Zoya Volovikova, Julia Kiseleva, Artur Szlam, Marc-Alexandre Cot\'e, Aleksandr I. Panov(参考訳) 本稿では,言語条件付きエンボディエージェントをスケーラブルに構築・評価するための強化学習環境IGLU Gridworldを提案する。 この環境は、視覚エージェントの具体化、コラボレーションによるインタラクティブな学習、言語条件付きRL、複合的なハードタスク(3dブロック)空間を備えている。

We present the IGLU Gridworld: a reinforcement learning environment for building and evaluating language conditioned embodied agents in a scalable way. The environment features visual agent embodiment, interactive learning through collaboration, language conditioned RL, and combinatorically hard task (3d blocks building) space.
翻訳日:2022-06-02 15:53:38 公開日:2022-05-31
# 遺伝的変異予測のためのロバストで軽量なマルチインスタンス学習アルゴリズム

A robust and lightweight deep attention multiple instance learning algorithm for predicting genetic alterations ( http://arxiv.org/abs/2206.00455v1 )

ライセンス: Link先を確認
Bangwei Guo, Xingyu Li, Miaomiao Yang, Hong Zhang, Xu Steven Xu(参考訳) 全傾斜デジタル病理画像(wsis)に基づく深層学習モデルが分子バイオマーカーの予測に人気が高まっている。 バッグベースのモデルと自己認識機構に基づくアルゴリズムは、他のデジタル病理学応用のために提案されているが、WSIを用いて遺伝子変異を予測する主要な戦略はインスタンスベースのモデルである。 本稿では,遺伝子変異を予測するためのAttention-based Multiple Instance Mutation Learning (AMIML)モデルを提案する。 amimlは、連続する1次元畳み込み層、デコーダ、および残留重み接続からなり、最も予測可能な画像パッチを検出する軽量な注意機構のさらなる統合を容易にする。 The Cancer Genome Atlas (TCGA) 研究(UCEC, BRCA, GBM, KIRC)の4つのがんコホートから得られた24種類の臨床的関連遺伝子のデータを用いて,AMIMLを1つの一般的なインスタンスベースモデルと最近発表された4つのバッグベースモデル(CHOWDER, HE2RNAなど)と比較した。 AMIMLは優れた堅牢性を示しており、テストされた遺伝子のうち17個中17個のうち5個のベースラインアルゴリズムを上回り、他の7つの遺伝子に対してほぼ最高の性能を示した。 逆に、ベースライン公開アルゴリズムの性能は、がん/遺伝子によって異なる。 さらに、AMIMLは、遺伝子変異の公表されたモデルと比較して、KIRCのKMT2C、TP53、SETD2、BRCAのERBB2、BRCA1、CRCのBRCA2、JAK1、POLE、MTORなどの幅広い遺伝子を予測し、また、現在の文献では報告されていない他の臨床関連遺伝子変異の予測モデルを生み出した。 さらに、フレキシブルで解釈可能なアテンションベースのMILプーリング機構により、AMIMLはさらにゼロインし、予測イメージパッチを検出することができる。

Deep-learning models based on whole-slide digital pathology images (WSIs) become increasingly popular for predicting molecular biomarkers. Instance-based models has been the mainstream strategy for predicting genetic alterations using WSIs although bag-based models along with self-attention mechanism-based algorithms have been proposed for other digital pathology applications. In this paper, we proposed a novel Attention-based Multiple Instance Mutation Learning (AMIML) model for predicting gene mutations. AMIML was comprised of successive 1-D convolutional layers, a decoder, and a residual weight connection to facilitate further integration of a lightweight attention mechanism to detect the most predictive image patches. Using data for 24 clinically relevant genes from four cancer cohorts in The Cancer Genome Atlas (TCGA) studies (UCEC, BRCA, GBM and KIRC), we compared AMIML with one popular instance-based model and four recently published bag-based models (e.g., CHOWDER, HE2RNA, etc.). AMIML demonstrated excellent robustness, not only outperforming all the five baseline algorithms in the vast majority of the tested genes (17 out of 24), but also providing near-best-performanc e for the other seven genes. Conversely, the performance of the baseline published algorithms varied across different cancers/genes. In addition, compared to the published models for genetic alterations, AMIML provided a significant improvement for predicting a wide range of genes (e.g., KMT2C, TP53, and SETD2 for KIRC; ERBB2, BRCA1, and BRCA2 for BRCA; JAK1, POLE, and MTOR for UCEC) as well as produced outstanding predictive models for other clinically relevant gene mutations, which have not been reported in the current literature. Furthermore, with the flexible and interpretable attention-based MIL pooling mechanism, AMIML could further zero-in and detect predictive image patches.
翻訳日:2022-06-02 15:50:56 公開日:2022-05-31
# RL-based Dialogue ManagementにおけるMixture-of-Expertアプローチ

A Mixture-of-Expert Approach to RL-based Dialogue Management ( http://arxiv.org/abs/2206.00059v1 )

ライセンス: Link先を確認
Yinlam Chow and Aza Tulepbergenov and Ofir Nachum and MoonKyung Ryu and Mohammad Ghavamzadeh and Craig Boutilier(参考訳) 近年の言語モデル(LM)の進歩にもかかわらず、対話管理(DM)問題やリッチな会話を行う能力への応用は依然として課題である。 強化学習(rl)を用いて,短視(総称発話)を避け,ユーザの満足度を最大化する対話エージェントを開発した。 既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するため、中規模の語彙であっても組合せ的に複雑なアクション空間を扱う必要がある。 その結果、事前訓練されたLMでウォームスタートしても、成功し、活発な対話を生み出すのに苦労した。 この問題に対処するため、我々はエキスパート言語モデル(MoE-LM)の新たな混合を用いたRLベースのDMを開発した。 (i)会話履歴の多様な意味学を学習できるLM。 (ii)特定の属性又は人格に対応する発話を生成できる多数の「em特化」lmm(又は専門家) (iii)専門家が生成した発話と対話計画を行うrlベースのdm。 我々のMoEアプローチは、異なる意図で意味のある発話を生成する柔軟性を高め、RLが会話レベルのDMに集中できるようにする。 オープンドメイン対話に基づくSOTAベースラインと比較し、生成した発話の多様性と感度と全体のDM性能の両面からその効果を実証する。

Despite recent advancements in language models (LMs), their application to dialogue management (DM) problems and ability to carry on rich conversations remain a challenge. We use reinforcement learning (RL) to develop a dialogue agent that avoids being short-sighted (outputting generic utterances) and maximizes overall user satisfaction. Most existing RL approaches to DM train the agent at the word-level, and thus, have to deal with a combinatorially complex action space even for a medium-size vocabulary. As a result, they struggle to produce a successful and engaging dialogue even if they are warm-started with a pre-trained LM. To address this issue, we develop a RL-based DM using a novel mixture of expert language model (MoE-LM) that consists of (i) a LM capable of learning diverse semantics for conversation histories, (ii) a number of {\em specialized} LMs (or experts) capable of generating utterances corresponding to a particular attribute or personality, and (iii) a RL-based DM that performs dialogue planning with the utterances generated by the experts. Our MoE approach provides greater flexibility to generate sensible utterances with different intents and allows RL to focus on conversational-level DM. We compare it with SOTA baselines on open-domain dialogues and demonstrate its effectiveness both in terms of the diversity and sensibility of the generated utterances and the overall DM performance.
翻訳日:2022-06-02 15:50:07 公開日:2022-05-31
# VALHALLA: 機械翻訳のための視覚幻覚

VALHALLA: Visual Hallucination for Machine Translation ( http://arxiv.org/abs/2206.00100v1 )

ライセンス: Link先を確認
Yi Li, Rameswar Panda, Yoon Kim, Chun-Fu (Richard) Chen, Rogerio Feris, David Cox, Nuno Vasconcelos(参考訳) 近年,画像などの補助入力を考慮した機械翻訳システムの設計が注目されている。 既存の手法では従来のテキストのみの翻訳システムよりも有望な性能を示すが、推論中に入力としてペア化されたテキストとイメージが必要である。 本稿では,VALHALLAと呼ばれる視覚幻覚フレームワークを提案する。これは推論時にのみソース文を必要とするもので,その代わりにマルチモーダル機械翻訳に幻覚表現を用いる。 特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器を使用し、合成テキストと幻覚表現を利用して目標翻訳を得る。 変換トランスと共同で, クロスエントロピー損失を伴う標準バックプロパゲーションを用いて幻覚トランスを訓練し, 地中あるいは幻覚表現を用いた予測の一貫性を促進する追加損失を誘導する。 多様な言語対を持つ3つの標準翻訳データセットに対する大規模な実験は、テキストのみのベースラインと最先端の手法の両方に対するアプローチの有効性を示す。 プロジェクトページ: http://www.svcl.ucsd .edu/projects/valhal la

Designing better machine translation systems by considering auxiliary inputs such as images has attracted much attention in recent years. While existing methods show promising performance over the conventional text-only translation systems, they typically require paired text and image as input during inference, which limits their applicability to real-world scenarios. In this paper, we introduce a visual hallucination framework, called VALHALLA, which requires only source sentences at inference time and instead uses hallucinated visual representations for multimodal machine translation. In particular, given a source sentence an autoregressive hallucination transformer is used to predict a discrete visual representation from the input text, and the combined text and hallucinated representations are utilized to obtain the target translation. We train the hallucination transformer jointly with the translation transformer using standard backpropagation with cross-entropy losses while being guided by an additional loss that encourages consistency between predictions using either ground-truth or hallucinated visual representations. Extensive experiments on three standard translation datasets with a diverse set of language pairs demonstrate the effectiveness of our approach over both text-only baselines and state-of-the-art methods. Project page: http://www.svcl.ucsd .edu/projects/valhal la.
翻訳日:2022-06-02 15:49:45 公開日:2022-05-31
# 深層学習に基づく腎臓結石識別のための特徴融合戦略の比較

Comparing feature fusion strategies for Deep Learning-based kidney stone identification ( http://arxiv.org/abs/2206.00069v1 )

ライセンス: Link先を確認
Elias Villalvazo-Avila, Francisco Lopez-Tiro, Daniel Flores-Araiza, Gilberto Ochoa-Ruiz, Jonathan El-Beze, Jacques Hubert, Christian Daul(参考訳) 本稿では,異なる視点から取得した画像情報を,より識別性の高い物体の特徴を抽出・融合する深層学習手法を提案する。 このアプローチは、尿器科医が腎臓結石の断片の断面と表面を検査して視覚的に分類するために使用する形態構成分析を模倣するために特別に設計された。 深い特徴融合戦略は, 腎臓結石分類の精度において, 単視抽出バックボーンモデルの結果を10倍以上改善した。

This contribution presents a deep-learning method for extracting and fusing image information acquired from different viewpoints with the aim to produce more discriminant object features. Our approach was specifically designed to mimic the morpho-constitutiona l analysis used by urologists to visually classify kidney stones by inspecting the sections and surfaces of their fragments. Deep feature fusion strategies improved the results of single view extraction backbone models by more than 10\% in terms of precision of the kidney stones classification.
翻訳日:2022-06-02 15:49:24 公開日:2022-05-31
# 都市間フェデレーション・トランスファー学習フレームワーク:都市部プロファイリングを事例として

A Cross-City Federated Transfer Learning Framework: A Case Study on Urban Region Profiling ( http://arxiv.org/abs/2206.00007v1 )

ライセンス: Link先を確認
Gaode Chen, Yijun Su, Xinghua Zhang, Anmin Hu, Guochun Chen, Siyuan Feng, Ji Xiang, Junbo Zhang, Yu Zheng(参考訳) データ不足問題(すなわち、不適切なサービスやインフラや都市の不均衡な開発レベルに起因するデータ不足やラベル不足の問題)は、実際のシナリオにおける都市コンピューティングのタスクに深刻な影響を与えている。 事前転送学習手法はデータ不足に対するエレガントな解決策を刺激するが、それは1つの障害の問題にのみ関心を持ち、現実世界に存在するこれらの2つの問題を十分に探求することができない。 さらに、既存手法における都市間転送は、実践的なアプリケーションにおいて公的な関心事である都市間データプライバシを見落としている。 上記の課題に対処するため,我々は,データ不足とプライバシ問題に対処するための新しい都市間連帯転送学習フレームワーク (ccftl) を提案する。 具体的には、CcFTLは複数のリッチデータソース都市から対象都市にリレーショナル知識を転送する。 さらに、ターゲットタスクに固有のモデルパラメータは、まずソースデータでトレーニングされ、次にパラメータ転送によってターゲット都市に微調整される。 フェデレーショントレーニングと同型暗号化設定の適応により、CcFTLは都市間のデータプライバシー問題に効果的に対処できる。 我々は,スマートシティの応用として都市域のプロファイリングを行い,提案手法を実世界調査により評価する。 この実験は、いくつかの競争状態のモデルに対して、我々のフレームワークの顕著な優位性を示しています。

Data insufficiency problem (i.e., data missing and label scarcity issues) caused by inadequate services and infrastructures or unbalanced development levels of cities has seriously affected the urban computing tasks in real scenarios. Prior transfer learning methods inspire an elegant solution to the data insufficiency, but are only concerned with one kind of insufficiency issue and fail to fully explore these two issues existing in the real world. In addition, cross-city transfer in existing methods overlooks the inter-city data privacy which is a public concern in practical application. To address the above challenging problems, we propose a novel Cross-city Federated Transfer Learning framework (CcFTL) to cope with the data insufficiency and privacy problems. Concretely, CcFTL transfers the relational knowledge from multiple rich-data source cities to the target city. Besides, the model parameters specific to the target task are firstly trained on the source data and then fine-tuned to the target city by parameter transfer. With our adaptation of federated training and homomorphic encryption settings, CcFTL can effectively deal with the data privacy problem among cities. We take the urban region profiling as an application of smart cities and evaluate the proposed method with a real-world study. The experiments demonstrate the notable superiority of our framework over several competitive state-of-the-art models.
翻訳日:2022-06-02 15:47:10 公開日:2022-05-31
# forestprune:コンパクトな深さ制御ツリーアンサンブル

ForestPrune: Compact Depth-Controlled Tree Ensembles ( http://arxiv.org/abs/2206.00128v1 )

ライセンス: Link先を確認
Brian Liu and Rahul Mazumder(参考訳) ツリーアンサンブルは最先端のパフォーマンスを実現する汎用教師あり学習アルゴリズムである。 これらのモデルは非常に強力だが、巨大なサイズに成長することができる。 その結果、ツリーアンサンブルはメモリフットプリントを減らし、解釈性を改善するために後処理されることが多い。 本稿では,個々の木から深度層を刈り取ることで,木アンサンブルを後処理できる新しい最適化フレームワークであるフォレストプルーを提案する。 また, 最適化問題に対する高品質な解を効率的に得るための新しいブロック座標降下法を開発した。 決定木のノード数は木深さとともに指数関数的に増加するため、深い木を刈り取ることでモデルパシモニーを大幅に改善することができる。 forestpruneはパフォーマンスに最小限のコストでアンサンブルのスペースの複雑さを大幅に削減できる。 このフレームワークは様々な重み付けスキームをサポートし、チューニングするハイパーパラメータを1つだけ含んでいる。 実験では,森林原生林は性能の低下を伴い,モデルサイズを20倍に削減できることを確認した。

Tree ensembles are versatile supervised learning algorithms that achieve state-of-the-art performance. These models are extremely powerful but can grow to enormous sizes. As a result, tree ensembles are often post-processed to reduce memory footprint and improve interpretability. In this paper, we present ForestPrune, a novel optimization framework that can post-process tree ensembles by pruning depth layers from individual trees. We also develop a new block coordinate descent method to efficiently obtain high-quality solutions to optimization problems under this framework. The number of nodes in a decision tree increases exponentially with tree depth, so pruning deep trees can drastically improve model parsimony. ForestPrune can substantially reduce the space complexity of an ensemble for a minimal cost to performance. The framework supports various weighting schemes and contains just a single hyperparameter to tune. In our experiments, we observe that ForestPrune can reduce model size 20-fold with negligible performance loss.
翻訳日:2022-06-02 15:44:47 公開日:2022-05-31
# 非滑らか反復アルゴリズムの自動微分

Automatic differentiation of nonsmooth iterative algorithms ( http://arxiv.org/abs/2206.00457v1 )

ライセンス: Link先を確認
J\'er\^ome Bolte (TSE), Edouard Pauwels (IRIT), Samuel Vaiter (JAD)(参考訳) アルゴリズムによる微分(すなわち微分のピギーバック伝播)は、微分プログラミングにおける反復解法を区別するために日常的に使用される。 漸近性は多くの滑らかな問題に対してよく理解されているが、微分不可能なケースはほとんど考慮されていない。 非smooth piggyback automatic differentiation (ad) の制限対象はあるか? バリエーションのある意味を持っているか、機械学習で効果的に使えるのか? 古典的微分と関係がありますか。 これらの問題は全て、非滑らかなADを理解するのに有用であることが証明された保守微分の枠組みにおける適切な非指数条件の下で解決される。 非滑らかなピギーバック反復に対しては、非滑らかなピギーバック反復のアトラクター集合を、保守的な枠組みに残る集合値の固定点として特徴づける。 これは様々な結果をもたらし、特に古典微分の至るところで収束する。 本研究は, 逆向き, ダグラス・ラッチフォード, および乗算アルゴリズムの交互方向, 重球法によるパラメトリック凸最適化問題について述べる。

Differentiation along algorithms, i.e., piggyback propagation of derivatives, is now routinely used to differentiate iterative solvers in differentiable programming. Asymptotics is well understood for many smooth problems but the nondifferentiable case is hardly considered. Is there a limiting object for nonsmooth piggyback automatic differentiation (AD)? Does it have any variational meaning and can it be used effectively in machine learning? Is there a connection with classical derivative? All these questions are addressed under appropriate nonexpansivity conditions in the framework of conservative derivatives which has proved useful in understanding nonsmooth AD. For nonsmooth piggyback iterations, we characterize the attractor set of nonsmooth piggyback iterations as a set-valued fixed point which remains in the conservative framework. This has various consequences and in particular almost everywhere convergence of classical derivatives. Our results are illustrated on parametric convex optimization problems with forward-backward, Douglas-Rachford and Alternating Direction of Multiplier algorithms as well as the Heavy-Ball method.
翻訳日:2022-06-02 13:40:33 公開日:2022-05-31
# 古典的ニューラルネットワークは量子か?

Are classical neural networks quantum? ( http://arxiv.org/abs/2206.00005v1 )

ライセンス: Link先を確認
Andrei T. Patrascu(参考訳) 量子モンテカルロの繰り返し符号問題を避けるために、ニューラルネットワークは波動関数の近似として多くの粒子系の状態空間の探索を改善するために使われている。 通常の古典的ニューラルネットワークが、高結合量子問題に適したツールとなるような隠れた量子特性を持っているかどうかを問うことができる。 ここで、システムの量子化と、ニューラルネットワークが量子残差を持つと解釈できる範囲について議論する。

Neural networks are being used to improve the probing of the state spaces of many particle systems as approximations to wavefunctions and in order to avoid the recurring sign problem of quantum monte-carlo. One may ask whether the usual classical neural networks have some actual hidden quantum properties that make them such suitable tools for a highly coupled quantum problem. I discuss here what makes a system quantum and to what extent we can interpret a neural network as having quantum remnants.
翻訳日:2022-06-02 13:38:05 公開日:2022-05-31
# 気候系における相転移の普遍的早期警告信号

Universal Early Warning Signals of Phase Transitions in Climate Systems ( http://arxiv.org/abs/2206.00060v1 )

ライセンス: Link先を確認
Daniel Dylewsky, Timothy M. Lenton, Marten Scheffer, Thomas M. Bury, Christopher G. Fletcher, Madhur Anand, Chris T. Bauch(参考訳) 平衡状態が突然かつ可逆的なシフトを生じさせるティッピングポイントを示す複雑なシステムの可能性は十分に確立されているが、標準的な予測モデリング技術を用いたこれらの事象の予測は極めて困難である。 これにより、データ内の重要な現象のシグネチャを識別する別の手法が開発され、多くの動的分岐のクラスに先立って発生することが期待されている。 重要なことに、これらの臨界現象の顕在化は、様々なシステムにまたがって一般的であり、つまり、データ集約的な深層学習法は、(より制限された)経験的データセットに転送されたときに、(有意な)合成データに基づいて訓練できる。 本論文は,格子相転移に応用されたアプローチの実証として,2次元Isingモデル相転移を専門に訓練したディープニューラルネットワークを実・模擬気候系でテストし,かなりの成功を収めた。 精度は従来の統計指標を上回り、空間指標を組み込むことで連続的に性能が向上することが示されている。 このようなツールは、リモートセンシングが複雑な地球系に関する豊富なデータを提供するため、気候の転換現象に関する貴重な洞察を与える可能性がある。

The potential for complex systems to exhibit tipping points in which an equilibrium state undergoes a sudden and potentially irreversible shift is well established, but prediction of these events using standard forecast modeling techniques is quite difficult. This has led to the development of an alternative suite of methods that seek to identify signatures of critical phenomena in data, which are expected to occur in advance of many classes of dynamical bifurcation. Crucially, the manifestations of these critical phenomena are generic across a variety of systems, meaning that data-intensive deep learning methods can be trained on (abundant) synthetic data and plausibly prove effective when transferred to (more limited) empirical data sets. This paper provides a proof of concept for this approach as applied to lattice phase transitions: a deep neural network trained exclusively on 2D Ising model phase transitions is tested on a number of real and simulated climate systems with considerable success. Its accuracy frequently surpasses that of conventional statistical indicators, with performance shown to be consistently improved by the inclusion of spatial indicators. Tools such as this may offer valuable insight into climate tipping events, as remote sensing measurements provide increasingly abundant data on complex geospatially-resolve d Earth systems.
翻訳日:2022-06-02 13:37:57 公開日:2022-05-31
# ソフトウェアプロジェクトのためのセマンティックなトピック推薦システム

Semantically-enhance d Topic Recommendation System for Software Projects ( http://arxiv.org/abs/2206.00085v1 )

ライセンス: Link先を確認
Maliheh Izadi, Mahtab Nejati, Abbas Heydarnoori(参考訳) ソフトウェア関連プラットフォームは、ユーザがソフトウェアエンティティにトピックを共同でラベル付けできるようにする。 ソフトウェアリポジトリに関連するトピックをタグ付けすることで、さまざまなダウンストリームタスクを容易にすることができる。 例えば、リポジトリに割り当てられたトピックの正しい完全なセットは、その可視性を高めることができる。 これにより、レポジトリのブラウジング、検索、ナビゲーション、組織化などのタスクの結果が改善される。 残念なことに、割り当てられたトピックは通常非常に騒がしく、いくつかのリポジトリは適切に割り当てられたトピックを持っていない。 このように、ソフトウェアプロジェクトにトピックを推奨する取り組みは行われているが、これらのトピック間のセマンティックな関係は、これまで利用されていない。 トピック間の意味的関係を包含するソフトウェアプロジェクトにタグづけするための2つの推奨モデルを提案する。 1)ソフトウェア工学と開発の分野に特化して品質トピックのデータセットをキュレートするための協調的なアプローチをとる。 また,これらのトピック間の意味的関係を強調し,sed-kgraphと呼ばれる知識グラフにカプセル化する。 ひとつはリポジトリに割り当てられたオリジナルのトピックのリストと,私たちのナレッジグラフで指定された関係に基づいてのみ動作します。 しかし、第2の予測モデルは、リポジトリにトピックが存在しないと仮定するため、ソフトウェアプロジェクトのテキスト情報とSED-KGraphの両方に基づいて関連するトピックを予測する。 私たちはSED-KGraphをクラウドソースプロジェクトとして開発しました。 その結果,ASRとMAPの指標では,トピック間のセマンティックな関係を少なくとも25%,23%無視するベースラインよりも優れた結果が得られた。

Software-related platforms have enabled their users to collaboratively label software entities with topics. Tagging software repositories with relevant topics can be exploited for facilitating various downstream tasks. For instance, a correct and complete set of topics assigned to a repository can increase its visibility. Consequently, this improves the outcome of tasks such as browsing, searching, navigation, and organization of repositories. Unfortunately, assigned topics are usually highly noisy, and some repositories do not have well-assigned topics. Thus, there have been efforts on recommending topics for software projects, however, the semantic relationships among these topics have not been exploited so far. We propose two recommender models for tagging software projects that incorporate the semantic relationship among topics. Our approach has two main phases; (1) we first take a collaborative approach to curate a dataset of quality topics specifically for the domain of software engineering and development. We also enrich this data with the semantic relationships among these topics and encapsulate them in a knowledge graph we call SED-KGraph. Then, (2) we build two recommender systems; The first one operates only based on the list of original topics assigned to a repository and the relationships specified in our knowledge graph. The second predictive model, however, assumes there are no topics available for a repository, hence it proceeds to predict the relevant topics based on both textual information of a software project and SED-KGraph. We built SED-KGraph in a crowd-sourced project with 170 contributors from both academia and industry. The experiment results indicate that our solutions outperform baselines that neglect the semantic relationships among topics by at least 25% and 23% in terms of ASR and MAP metrics.
翻訳日:2022-06-02 13:37:36 公開日:2022-05-31
# 複雑なランダム電信信号のための多重ディープニューラルネットワークの大規模研究

Extensive Study of Multiple Deep Neural Networks for Complex Random Telegraph Signals ( http://arxiv.org/abs/2206.00086v1 )

ライセンス: Link先を確認
Marcel Robitaille, HeeBong Yang, Lu Wang, Na Young Kim(参考訳) 時間変動信号は、多くの物理的、化学的、生物学的システムにおいてユビキタスで多様であり、ランダム電信信号(RTS)は、単一粒子運動から2つの離散レベルの間の一連の瞬間的な切替イベントを指す。 信頼性の高いRTS分析は、性能感受性に関連するメカニズムを特定するための重要な前提条件である。 多数のレベルが組み合わさると、多レベルRTSの複雑なパターンが発生し、定量分析が指数関数的に困難になる。 本稿では,進化的知識伝達による3段階解析プロトコルを提案し,初期段階の出力を次のステップに渡す。 特に、複雑なRTSを定量化するために、時間的データを適切に処理し、背景雑音の大きさを制御することで影響を受ける様々なRTSタイプのデータセットでモデル精度を広範囲に示すことができる3つのディープニューラルネットワークアーキテクチャを構築します。 我々のプロトコルは、複雑なRTSを定量化するための構造化スキームを提供する。

Time-fluctuating signals are ubiquitous and diverse in many physical, chemical, and biological systems, among which random telegraph signals (RTSs) refer to a series of instantaneous switching events between two discrete levels from single-particle movements. Reliable RTS analyses are crucial prerequisite to identify underlying mechanisms related to performance sensitivity. When numerous levels partake, complex patterns of multilevel RTSs occur, making their quantitative analysis exponentially difficult, hereby systematic approaches are found elusive. Here, we present a three-step analysis protocol via progressive knowledge-transfer, where the outputs of early step are passed onto a subsequent step. Especially, to quantify complex RTSs, we build three deep neural network architectures that can process temporal data well and demonstrate the model accuracy extensively with a large dataset of different RTS types affected by controlling background noise size. Our protocol offers structured schemes to quantify complex RTSs from which meaningful interpretation and inference can ensue.
翻訳日:2022-06-02 13:37:11 公開日:2022-05-31
# グラフスパーシフィケーションのための関連情報の原理

Principle of Relevant Information for Graph Sparsification ( http://arxiv.org/abs/2206.00118v1 )

ライセンス: Link先を確認
Shujian Yu, Francesco Alesiani, Wenzhe Yin, Robert Jenssen, Jose C. Principe(参考訳) グラフスパーシフィケーションは、その構造的特性を維持しながら、グラフのエッジ数を減らすことを目的としている。 本稿では,関係情報(pri)の原理から着想を得て,グラフスパーシフィケーションの汎用的かつ効果的な情報理論的定式化を提案する。 この目的のために、priを標準的なスカラー確率変数設定から構造化データ(グラフ)に拡張する。 グラフプリの目的は、グラフラプラシアン上で操作することで達成され、部分グラフのグラフラプラシアンをスパースエッジ選択ベクトル$\mathbf{w}$で表現することで可能となる。 グラフPRI手法の有効性に関する理論的および実証的な正当性を提供する。 また、分析解をいくつかの特殊なケースで分析する。 最後に、グラフスパーシフィケーション、グラフ正規化マルチタスク学習、医療画像から派生した脳ネットワーク分類という3つの代表的な実世界応用を提示し、本手法の有効性、汎用性、汎用的スパーシフィケーション手法による解釈性の向上を実証した。 Graph-PRIのコードはhttps://github.com/S JYuCNEL/PRI-Graphsで入手できる。

Graph sparsification aims to reduce the number of edges of a graph while maintaining its structural properties. In this paper, we propose the first general and effective information-theoreti c formulation of graph sparsification, by taking inspiration from the Principle of Relevant Information (PRI). To this end, we extend the PRI from a standard scalar random variable setting to structured data (i.e., graphs). Our Graph-PRI objective is achieved by operating on the graph Laplacian, made possible by expressing the graph Laplacian of a subgraph in terms of a sparse edge selection vector $\mathbf{w}$. We provide both theoretical and empirical justifications on the validity of our Graph-PRI approach. We also analyze its analytical solutions in a few special cases. We finally present three representative real-world applications, namely graph sparsification, graph regularized multi-task learning, and medical imaging-derived brain network classification, to demonstrate the effectiveness, the versatility and the enhanced interpretability of our approach over prevalent sparsification techniques. Code of Graph-PRI is available at https://github.com/S JYuCNEL/PRI-Graphs
翻訳日:2022-06-02 13:36:52 公開日:2022-05-31
# AVIDA:データの可視化と統合のための代替方法

AVIDA: Alternating method for Visualizing and Integrating Data ( http://arxiv.org/abs/2206.00135v1 )

ライセンス: Link先を確認
Kathryn Dover, Zixuan Cang, Anna Ma, Qing Nie, and Roman Vershynin(参考訳) 高次元マルチモーダルデータは、多くの科学分野において生じる。 サンプルと異なるデータセットの特徴の間に既知の対応がない場合、マルチモーダルデータの統合は困難になる。 この課題に対処するため,データアライメントと次元削減を同時に行うフレームワークであるAVIDAを紹介した。 数値実験では、アライメントおよび次元減少モジュールとして、Gromov-Wasserstein 最適輸送とt分散確率的隣接埋め込みを用いる。 AVIDAは4つの合成データセットと2つの実マルチモーダル単一セルデータセットとを共通性のない高次元データセットを正しく整列することを示す。 いくつかの既存手法と比較して、AVIDAは個々のデータセットの構造、特に関節の低次元可視化における局所構造をよりよく保存し、同等のアライメント性能を実現する。 このような性質は、いくつかの生物学的プロセスがデータセットの1つによって一意にキャプチャされるため、マルチモーダルな単一セルデータ解析において重要である。 一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。

High-dimensional multimodal data arises in many scientific fields. The integration of multimodal data becomes challenging when there is no known correspondence between the samples and the features of different datasets. To tackle this challenge, we introduce AVIDA, a framework for simultaneously performing data alignment and dimension reduction. In the numerical experiments, Gromov-Wasserstein optimal transport and t-distributed stochastic neighbor embedding are used as the alignment and dimension reduction modules respectively. We show that AVIDA correctly aligns high-dimensional datasets without common features with four synthesized datasets and two real multimodal single-cell datasets. Compared to several existing methods, we demonstrate that AVIDA better preserves structures of individual datasets, especially distinct local structures in the joint low-dimensional visualization, while achieving comparable alignment performance. Such a property is important in multimodal single-cell data analysis as some biological processes are uniquely captured by one of the datasets. In general applications, other methods can be used for the alignment and dimension reduction modules.
翻訳日:2022-06-02 13:34:55 公開日:2022-05-31
# 資源制約のある分散統計量推定で協調するかどうか?

To Collaborate or Not in Distributed Statistical Estimation with Resource Constraints? ( http://arxiv.org/abs/2206.00111v1 )

ライセンス: Link先を確認
Yu-Zhen Janice Chen, Daniel S. Menasche, Don Towsley(参考訳) 本研究では,異なるセンサ/学習者が収集した観測値の相関が,フィッシャー情報とクレーマー・ラオ境界を解析することにより,データ収集と協調戦略に与える影響について検討する。 特に,二変量ガウス分布から2つのセンサをサンプリングし,これら2つの変数と資源制約の相関関係に応じて,すでに様々な戦略の採用を動機付けている単純な設定を考える。 我々は,(1) サンプル間の相関関係の知識を協調的推定のために活用できない,(2) 最適なデータ収集戦略は,興味のない情報や統計が既に知られている情報に対して,少ない資源を投資することを伴う,という2つのシナリオを,利害関係のパラメータの信頼度を高めることが目的である。 無線センサネットワークにおけるIoT DDoS攻撃検出と分散推定という2つのアプリケーションについて検討する。

We study how the amount of correlation between observations collected by distinct sensors/learners affects data collection and collaboration strategies by analyzing Fisher information and the Cramer-Rao bound. In particular, we consider a simple setting wherein two sensors sample from a bivariate Gaussian distribution, which already motivates the adoption of various strategies, depending on the correlation between the two variables and resource constraints. We identify two particular scenarios: (1) where the knowledge of the correlation between samples cannot be leveraged for collaborative estimation purposes and (2) where the optimal data collection strategy involves investing scarce resources to collaboratively sample and transfer information that is not of immediate interest and whose statistics are already known, with the sole goal of increasing the confidence on an estimate of the parameter of interest. We discuss two applications, IoT DDoS attack detection and distributed estimation in wireless sensor networks, that may benefit from our results.
翻訳日:2022-06-02 13:17:53 公開日:2022-05-31
# 周期的埋め込み同期を用いた分散グラフニューラルネットワークトレーニング

Distributed Graph Neural Network Training with Periodic Historical Embedding Synchronization ( http://arxiv.org/abs/2206.00057v1 )

ライセンス: Link先を確認
Zheng Chai, Guangji Bai, Liang Zhao, Yue Cheng(参考訳) 最近のグラフニューラルネットワーク(GNN)の成功にもかかわらず、ソーシャルネットワークやレコメンダシステム、ナレッジグラフなど、さまざまなアプリケーションで広く使われている大きなグラフ上でGNNをトレーニングすることは、依然として困難である。 従来のサンプリングベースの手法は、エッジとノードをドロップすることでGNNを加速し、グラフの整合性とモデル性能を損なう。 分散gnnアルゴリズムは、複数の計算装置を利用することでgnnトレーニングを加速するが、通信コストは低く、エッジの低下による情報損失を被る"partition-based" ;メソッドと、情報損失を回避する"propagation-based&qu ot;メソッドの2つのタイプに分類できる。 このような問題に共同で対処するために,既存手法の両カテゴリの相補的強度を相補する分散GNNトレーニングフレームワークであるDIstributed Graph Embedding SynchronizaTion (DIGEST)を提案する。 サブグラフ並列トレーニングでは,各デバイスが近隣の過去の埋め込みを他のサブグラフに格納するように提案する。 したがって,本手法は他のサブグラフの隣人を排除したり,更新を集中的に行わない。 これにより、(1)爆発的に増加する隣人に対する集中的な計算が回避され、(2)異なるデバイス間での過剰な通信が回避される。 歴史的埋没の安定性によって生じる近似誤差は上限値であり,GNNモデルの表現性には影響しないことを示した。 さらに、我々の収束分析は、DIGESTが最先端の収束速度を享受していることを示している。 大規模で実世界のグラフデータセットに対する大規模な実験的評価は、DIGESTが最先端の分散GNNトレーニングフレームワークと比較してパフォーマンスを損なうことなく、最大21.82\times$スピードアップを達成することを示している。

Despite the recent success of Graph Neural Networks (GNNs), it remains challenging to train a GNN on large graphs, which are prevalent in various applications such as social network, recommender systems, and knowledge graphs. Traditional sampling-based methods accelerate GNN by dropping edges and nodes, which impairs the graph integrity and model performance. Differently, distributed GNN algorithms, which accelerate GNN training by utilizing multiple computing devices, can be classified into two types: "partition-based" ; methods enjoy low communication costs but suffer from information loss due to dropped edges, while "propagation-based&qu ot; methods avoid information loss but suffer prohibitive communication overhead. To jointly address these problems, this paper proposes DIstributed Graph Embedding SynchronizaTion (DIGEST), a novel distributed GNN training framework that synergizes the complementary strength of both categories of existing methods. During subgraph parallel training, we propose to let each device store the historical embedding of its neighbors in other subgraphs. Therefore, our method does not discard any neighbors in other subgraphs, nor does it updates them intensively. This effectively avoids (1) the intensive computation on explosively-increasi ng neighbors and (2) excessive communications across different devices. We proved that the approximation error induced by the staleness of historical embedding can be upper bounded and it does NOT affect the GNN model's expressiveness. More importantly, our convergence analysis demonstrates that DIGEST enjoys a state-of-the-art convergence rate. Extensive experimental evaluation on large, real-world graph datasets shows that DIGEST achieves up to $21.82\times$ speedup without compromising the performance compared to state-of-the-art distributed GNN training frameworks.
翻訳日:2022-06-02 13:11:20 公開日:2022-05-31
# メンバーシップ推論攻撃に対する情報理論的保護を持つ生成モデル

Generative Models with Information-Theoreti c Protection Against Membership Inference Attacks ( http://arxiv.org/abs/2206.00071v1 )

ライセンス: Link先を確認
Parisa Hassanzadeh and Robert E. Tillman(参考訳) GAN(Generative Adversarial Networks)のような深層生成モデルは、高次元データの基盤となる分布を推定することにより、多様な高忠実度データサンプルを合成する。 その成功にもかかわらず、gansは、トレーニングしたデータからプライベートな情報を開示し、メンバーシップ推論攻撃のような敵対的な攻撃を受けやすくし、敵は、あるレコードがトレーニングセットの一部であるかどうかを判断しようとする。 本稿では,生成モデルがトレーニングデータに過剰適合することを防止し,一般化可能性を促進する情報理論的動機付け正規化項を提案する。 このペナルティは、異なるメンバシップを持つデータに基づいてトレーニングされたジェネレータのコンポーネント間のJensenShannonのばらつきを最小限に抑え、追加の分類器を用いて低コストで実装できることを示します。 画像データセットを用いた実験により,計算コストの少ない正規化が提案されることにより,GANはプライバシを保ち,非プライベートおよび微分プライベートな生成モデルと比較して,下流分類性能に優れた高品質なサンプルを生成することができることがわかった。

Deep generative models, such as Generative Adversarial Networks (GANs), synthesize diverse high-fidelity data samples by estimating the underlying distribution of high dimensional data. Despite their success, GANs may disclose private information from the data they are trained on, making them susceptible to adversarial attacks such as membership inference attacks, in which an adversary aims to determine if a record was part of the training set. We propose an information theoretically motivated regularization term that prevents the generative model from overfitting to training data and encourages generalizability. We show that this penalty minimizes the JensenShannon divergence between components of the generator trained on data with different membership, and that it can be implemented at low cost using an additional classifier. Our experiments on image datasets demonstrate that with the proposed regularization, which comes at only a small added computational cost, GANs are able to preserve privacy and generate high-quality samples that achieve better downstream classification performance compared to non-private and differentially private generative models.
翻訳日:2022-06-02 13:10:48 公開日:2022-05-31
# MAD-EN:システム全体のエネルギー消費による微小構造検出

MAD-EN: Microarchitectural Attack Detection through System-wide Energy Consumption ( http://arxiv.org/abs/2206.00101v1 )

ライセンス: Link先を確認
Debopriya Roy Dipta and Berk Gulmezoglu(参考訳) マイクロアーキテクチャ攻撃は、SpectreやMeltdownといった攻撃の多様性が増すにつれて、ハードウェアセキュリティを以前よりも脅かしている。 ベンダーのパッチは新たな脅威のペースに遅れず、ダイナミックな異常検出ツールが以前よりも明確になった。 残念なことに、これまでの研究ではハードウェアパフォーマンスカウンタを使用しており、同時にプロファイリングできるカウンタの数が少ないため、高いパフォーマンスオーバヘッドとプロファイル数が少ないマイクロアーキテクチャアタックが発生する。 これにより、現実世界のシナリオでは検出ツールが非効率になる。 本研究では,汎用的なIntel RAPLツールから収集したシステム全体のエネルギー消費トレースを利用して,システム内の継続的な異常を検出するMAD-EN動的検出ツールを提案する。 我々の実験では、cnnベースのmad-enは、最大0.999のf1スコアを持つ15の変種で10の異なるマイクロアーキテクチャアタックを検出できることを示し、このツールがこれまでに最も一般的なアタック検出ツールとなっている。 さらに、システム内の異常を検出した後、個々の攻撃を98%の精度で区別することができる。 我々は、MAD-ENは、パフォーマンスカウンタベースの検出機構と比較して、パフォーマンスオーバーヘッドを69.3%削減することを示した。

Microarchitectural attacks have become more threatening the hardware security than before with the increasing diversity of attacks such as Spectre and Meltdown. Vendor patches cannot keep up with the pace of the new threats, which makes the dynamic anomaly detection tools more evident than before. Unfortunately, previous studies utilize hardware performance counters that lead to high performance overhead and profile limited number of microarchitectural attacks due to the small number of counters that can be profiled concurrently. This yields those detection tools inefficient in real-world scenarios. In this study, we introduce MAD-EN dynamic detection tool that leverages system-wide energy consumption traces collected from a generic Intel RAPL tool to detect ongoing anomalies in a system. In our experiments, we show that CNN-based MAD-EN can detect 10 different microarchitectural attacks with a total of 15 variants with the highest F1 score of 0.999, which makes our tool the most generic attack detection tool so far. Moreover, individual attacks can be distinguished with a 98% accuracy after an anomaly is detected in a system. We demonstrate that MAD-EN introduces 69.3% less performance overhead compared to performance counter-based detection mechanisms.
翻訳日:2022-06-02 13:10:30 公開日:2022-05-31
# 境界分布シフトを考慮したフェアネス伝達性

Fairness Transferability Subject to Bounded Distribution Shift ( http://arxiv.org/abs/2206.00129v1 )

ライセンス: Link先を確認
Yatong Chen, Reilly Raab, Jialu Wang, Yang Liu(参考訳) あるソース分布に「フェア」なアルゴリズム予測器が与えられたとしても、あるバウンダリ内のソースと異なる未知のターゲット分布上では、まだフェアなのか? 本稿では,機械学習予測器(例えば,分類器や回帰器)に対して,配置モデルや動的環境へのユーザ適応によって生じる現象である有界分布シフトを考慮した統計的グループフェアネスの転送可能性について検討する。 そこで我々は,このような伝達可能性を特徴付けるバウンダリを開発し,社会的に連続したタスクに対する機械学習の不適切な展開を通知する。 まず, 分布変化に伴う統計的公正違反の有界化のための枠組みを開発し, 転送された公正違反に対する一般上界の定式化を行った。 次に,2種類の分布シフト(共変量シフトとラベルシフト)に対して,普通に使用される2つのフェアネス定義(人口分布パリティと等化オッズ)を適用して,特定の作業例のバウンダリを開発する。 最後に、実世界のデータと同様に分布シフトの決定論的モデルと比較する。

Given an algorithmic predictor that is "fair" on some source distribution, will it still be fair on an unknown target distribution that differs from the source within some bound? In this paper, we study the transferability of statistical group fairness for machine learning predictors (i.e., classifiers or regressors) subject to bounded distribution shift, a phenomenon frequently caused by user adaptation to a deployed model or a dynamic environment. Herein, we develop a bound characterizing such transferability, flagging potentially inappropriate deployments of machine learning for socially consequential tasks. We first develop a framework for bounding violations of statistical fairness subject to distribution shift, formulating a generic upper bound for transferred fairness violation as our primary result. We then develop bounds for specific worked examples, adopting two commonly used fairness definitions (i.e., demographic parity and equalized odds) for two classes of distribution shift (i.e., covariate shift and label shift). Finally, we compare our theoretical bounds to deterministic models of distribution shift as well as real-world data.
翻訳日:2022-06-02 13:10:11 公開日:2022-05-31
# 機械学習予測クエリのエンドツーエンド最適化

End-to-end Optimization of Machine Learning Prediction Queries ( http://arxiv.org/abs/2206.00136v1 )

ライセンス: Link先を確認
Kwanghyun Park, Karla Saur, Dalitso Banda, Rathijit Sen, Matteo Interlandi, Konstantinos Karanasos(参考訳) 予測クエリは、高度な分析を行い、データから洞察を引き出すために、業界全体で広く使われている。 それらは、データ処理部(例えば、データセットの結合、フィルタリング、クリーニング、拡張)と、1つ以上の訓練されたモデルを呼び出して予測を行う機械学習(ml)部を含む。 これまでのところ、これらの部分は分離して最適化されており、最適化の重要な機会は未調査のままである。 予測クエリを最適化するプロダクション対応システムであるRavenを提案する。 Raven氏は、データとMLランタイムをコロケーションするエンタープライズアーキテクチャのトレンドに従っている。 これは1つのグラフ構造でデータとml演算子の両方をキャプチャし、2種類の最適化をアンロックする統一中間表現に依存している。 まず、データ部分(および基礎となるデータの性質)とML部分の間で情報を渡す論理最適化を使用して、相互に最適化する。 第二に、演算子を異なるランタイム(リレーショナル、ML、DNN)とハードウェア(CPU、GPU)で実行可能にする論理-物理変換を導入する。 新しいデータ駆動最適化は、クエリの各部分で使用するランタイムを判断し、最適なパフォーマンスを達成する。 評価の結果、ravenはapache sparkとsql serverの予測クエリのパフォーマンスをそれぞれ13.1倍と330倍向上させた。 GPUアクセラレーションが有用である複雑なモデルでは、Ravenは最先端システムと比較して最大8倍のスピードアップを提供する。

Prediction queries are widely used across industries to perform advanced analytics and draw insights from data. They include a data processing part (e.g., for joining, filtering, cleaning, featurizing the datasets) and a machine learning (ML) part invoking one or more trained models to perform predictions. These parts have so far been optimized in isolation, leaving significant opportunities for optimization unexplored. We present Raven, a production-ready system for optimizing prediction queries. Raven follows the enterprise architectural trend of collocating data and ML runtimes. It relies on a unified intermediate representation that captures both data and ML operators in a single graph structure to unlock two families of optimizations. First, it employs logical optimizations that pass information between the data part (and the properties of the underlying data) and the ML part to optimize each other. Second, it introduces logical-to-physical transformations that allow operators to be executed on different runtimes (relational, ML, and DNN) and hardware (CPU, GPU). Novel data-driven optimizations determine the runtime to be used for each part of the query to achieve optimal performance. Our evaluation shows that Raven improves performance of prediction queries on Apache Spark and SQL Server by up to 13.1x and 330x, respectively. For complex models where GPU acceleration is beneficial, Raven provides up to 8x speedup compared to state-of-the-art systems.
翻訳日:2022-06-02 13:09:50 公開日:2022-05-31
# 社会的バイアスがデータバイアスを満たす - 公正基準に対するラベル付けと測定誤差の影響

Social Bias Meets Data Bias: The Impacts of Labeling and Measurement Errors on Fairness Criteria ( http://arxiv.org/abs/2206.00137v1 )

ライセンス: Link先を確認
Yiqiao Liao, Parinaz Naghizadeh(参考訳) 機械学習アルゴリズムが既存の社会的偏見を示したり増幅したりしないように、多くの公正基準が提案されているが、これらのアルゴリズムは統計的偏見を持つことができるデータセットに基づいて訓練されている。 本稿では,アルゴリズムがバイアスデータに基づいてトレーニングされている場合,既存の(デコグラフィ)フェアネス基準の頑健さについて検討する。 我々は、ラベル付けプロセスにおける事前決定者による誤りと、不利な個人の特徴の測定における誤りの2つの形態を考察する。 統計的バイアスに直面した場合、いくつかの制約(人口統計学的パリティなど)は頑健であり、他の制約(等化オッズなど)は偏りのあるデータに基づいてトレーニングされた場合、著しく違反する可能性があることを分析的に示す。 また,これらの基準の感度と意思決定者のバイアスに対する有用性についても分析した。 分析結果を支援する3つの実世界データセット(fico, adult, german credit score dataset)に基づく数値実験を行った。 本研究は,既存の公平性基準の中から選択するガイドラインや,利用可能なデータセットが偏っている場合の新しい基準を提案するガイドラインを示す。

Although many fairness criteria have been proposed to ensure that machine learning algorithms do not exhibit or amplify our existing social biases, these algorithms are trained on datasets that can themselves be statistically biased. In this paper, we investigate the robustness of a number of existing (demographic) fairness criteria when the algorithm is trained on biased data. We consider two forms of dataset bias: errors by prior decision makers in the labeling process, and errors in measurement of the features of disadvantaged individuals. We analytically show that some constraints (such as Demographic Parity) can remain robust when facing certain statistical biases, while others (such as Equalized Odds) are significantly violated if trained on biased data. We also analyze the sensitivity of these criteria and the decision maker's utility to biases. We provide numerical experiments based on three real-world datasets (the FICO, Adult, and German credit score datasets) supporting our analytical findings. Our findings present an additional guideline for choosing among existing fairness criteria, or for proposing new criteria, when available datasets may be biased.
翻訳日:2022-06-02 13:09:27 公開日:2022-05-31
# cassock: ソース固有のバックドア防御の壁におけるdnnに対する実行可能なバックドア攻撃

CASSOCK: Viable Backdoor Attacks against DNN in The Wall of Source-Specific Backdoor Defences ( http://arxiv.org/abs/2206.00145v1 )

ライセンス: Link先を確認
Shang Wang, Yansong Gao, Anmin Fu, Zhi Zhang, Yuqing Zhang, Willy Susilo(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)にとって重要な脅威である。 しかし、既存の対策のほとんどはソース非依存のバックドア攻撃(sabas)とソース固有のバックドア攻撃(ssbas)の打倒に失敗している。 SABAと比較して、SSBAはアタッカー・チョウン・クラスからの入力が攻撃者特定トリガーでスタンプされたときにバックドアを起動し、ステルス性を高め、既存のバックドアの緩和を回避する。 それでも、既存のSSBAは、攻撃成功率(ASR、ソースクラスからのトリガ入力によりバックドアが活性化される)と偽陽性率(FPR、非ソースクラスからのトリガ入力によりバックドアが予期せず活性化される)にトレードオフがある。 重要なことは、SSBAを標的としたSOTA(State-of-the-ar t)対策によって検出することができる。 この研究は既存のSSBAの効率性と効果の欠如を克服し、SOTA防衛を回避した。 重要な洞察は、バックドアトレーニング中にSSBAを詳細に特徴付けることで、望ましい毒と覆いのデータを構築することである。 非ソース/ソースクラス(es)からのカバー/汚染されたデータは、接地/ターゲットラベルを保持します。 そのため、それぞれCASSOCKと呼ばれるトリガースタイルとコンテンツから2つのカバー/ポゾンデータ拡張を開発する。 まず,異なるクラスに対して異種感度のトリガーを強制することにより,異なる透過性を持つトリガーパターンを用いてカバー/汚染データを作成する。 第2の強化は、これらのサンプルを作成するトリガとしてターゲットクラス機能を選択し、ターゲットクラスにトリガ機能を深く絡ませる。 既存のSSBAと比較して、CASSOCKベースの攻撃は、MNIST、CIFAR10、GTSRB、LFWの4つの一般的なタスクにおいて、より高いASRと低いFPRを持つ。 さらに重要なことは、CASSOCKは既存のSSBAを効果的に倒した3つの防衛(SCAn、Februus、拡張ニューラルクリーンス)を効果的に回避したことである。

Backdoor attacks have been a critical threat to deep neural network (DNN). However, most existing countermeasures focus on source-agnostic backdoor attacks (SABAs) and fail to defeat source-specific backdoor attacks (SSBAs). Compared to an SABA, an SSBA activates a backdoor when an input from attacker-chosen class(es) is stamped with an attacker-specified trigger, making itself stealthier and thus evade most existing backdoor mitigation. Nonetheless, existing SSBAs have trade-offs on attack success rate (ASR, a backdoor is activated by a trigger input from a source class as expected) and false positive rate (FPR, a backdoor is activated unexpectedly by a trigger input from a non-source class). Significantly, they can still be effectively detected by the state-of-the-art (SOTA) countermeasures targeting SSBAs. This work overcomes efficiency and effectiveness deficiencies of existing SSBAs, thus bypassing the SOTA defences. The key insight is to construct desired poisoned and cover data during backdoor training by characterising SSBAs in-depth. Both data are samples with triggers: the cover/poisoned data from non-source/source class(es) holds ground-truth/target labels. Therefore, two cover/poisoned data enhancements are developed from trigger style and content, respectively, coined CASSOCK. First, we leverage trigger patterns with discrepant transparency to craft cover/poisoned data, enforcing triggers with heterogeneous sensitivity on different classes. The second enhancement chooses the target class features as triggers to craft these samples, entangling trigger features with the target class heavily. Compared with existing SSBAs, CASSOCK-based attacks have higher ASR and low FPR on four popular tasks: MNIST, CIFAR10, GTSRB, and LFW. More importantly, CASSOCK has effectively evaded three defences (SCAn, Februus and extended Neural Cleanse) already defeat existing SSBAs effectively.
翻訳日:2022-06-02 13:09:07 公開日:2022-05-31
# ドメインの一般化の進化

Evolving Domain Generalization ( http://arxiv.org/abs/2206.00047v1 )

ライセンス: Link先を確認
Wei Wang, Gezheng Xu, Ruizhi Pu, Jiaqi Li, Fan Zhou, Changjian Shui, Charles Ling, Christian Gagn\'e, Boyu Wang(参考訳) ドメインの一般化は、ターゲットデータにアクセスすることなく、ターゲットタスクにうまく一般化できる複数の異なるが関連するソースタスクから予測モデルを学ぶことを目的としています。 既存の領域一般化法はタスク間の関係を無視し、全てのタスクが静止環境からサンプリングされることを暗黙的に仮定する。 したがって、進化する環境にデプロイすると失敗する可能性がある。 この目的のために、ソースデータだけでなく、その進化パターンを利用して未知のタスクのモデルを生成する、emph{evolving domain generalization} (EDG) シナリオを定式化し、研究する。 我々の理論的結果は,グローバルに一貫した方向写像関数を学習することにより,2つの連続タスク間の関係をモデル化する利点を明らかにする。 実際には, ddg問題に対する最初の方法である \emph{directional prototypical network} へと繋がるメタラーニング手法によるddg問題の解法も提案している。 人工と実世界の両方のデータセットの実証評価は、我々のアプローチの有効性を検証する。

Domain generalization aims to learn a predictive model from multiple different but related source tasks that can generalize well to a target task without the need of accessing any target data. Existing domain generalization methods ignore the relationship between tasks, implicitly assuming that all the tasks are sampled from a stationary environment. Therefore, they can fail when deployed in an evolving environment. To this end, we formulate and study the \emph{evolving domain generalization} (EDG) scenario, which exploits not only the source data but also their evolving pattern to generate a model for the unseen task. Our theoretical result reveals the benefits of modeling the relation between two consecutive tasks by learning a globally consistent directional mapping function. In practice, our analysis also suggests solving the DDG problem in a meta-learning manner, which leads to \emph{directional prototypical network}, the first method for the DDG problem. Empirical evaluation of both synthetic and real-world data sets validates the effectiveness of our approach.
翻訳日:2022-06-02 12:50:06 公開日:2022-05-31
# 非同期階層型フェデレーション学習

Asynchronous Hierarchical Federated Learning ( http://arxiv.org/abs/2206.00054v1 )

ライセンス: Link先を確認
Xing Wang, Yijun Wang(参考訳) 連合学習は急速に成長している研究分野であり、様々な利益と産業応用がある。 典型的なフェデレーションパターンは、大量のサーバトラフィック、長い収束期間、信頼性の低い正確さなど、固有の問題があります。 本稿では、中央サーバがネットワークトポロジーまたはクラスタリングアルゴリズムのいずれかを使用して、ワーカー(すなわちクライアントデバイス)にクラスタを割り当てる非同期階層型連合学習を提案することで、これらの問題に対処する。 各クラスタでは、階層的学習を可能にするために特別な集約装置が選択され、サーバとワーカー間の効率的な通信につながり、サーバの負担を大幅に軽減することができる。 さらに、非同期フェデレーション学習スキーマを用いてシステムの不均一性を許容し、高速収束を実現する。すなわち、サーバは、安定度パラメータで重み付けされた労働者の勾配を集約してグローバルモデルを更新し、労働者で正規化確率勾配降下を行い、非同期学習の不安定性を軽減する。 提案手法をCIFAR-10画像分類タスク上で評価し,非同期階層型フェデレーション学習の有効性を実証した。

Federated Learning is a rapidly growing area of research and with various benefits and industry applications. Typical federated patterns have some intrinsic issues such as heavy server traffic, long periods of convergence, and unreliable accuracy. In this paper, we address these issues by proposing asynchronous hierarchical federated learning, in which the central server uses either the network topology or some clustering algorithm to assign clusters for workers (i.e., client devices). In each cluster, a special aggregator device is selected to enable hierarchical learning, leads to efficient communication between server and workers, so that the burden of the server can be significantly reduced. In addition, asynchronous federated learning schema is used to tolerate heterogeneity of the system and achieve fast convergence, i.e., the server aggregates the gradients from the workers weighted by a staleness parameter to update the global model, and regularized stochastic gradient descent is performed in workers, so that the instability of asynchronous learning can be alleviated. We evaluate the proposed algorithm on CIFAR-10 image classification task, the experimental results demonstrate the effectiveness of asynchronous hierarchical federated learning.
翻訳日:2022-06-02 12:48:22 公開日:2022-05-31
# 拡散型深層生成モデルの生成・分別能力解析について

On Analyzing Generative and Denoising Capabilities of Diffusion-based Deep Generative Models ( http://arxiv.org/abs/2206.00070v1 )

ライセンス: Link先を確認
Kamil Deja, Anna Kuzina, Tomasz Trzci\'nski, Jakub M. Tomczak(参考訳) 拡散に基づくDeep Generative Models (DDGM)は、生成モデルにおける最先端のパフォーマンスを提供する。 その主な強みは、モデル(後方拡散過程)が前方拡散過程を反転するように訓練され、入力信号にノイズが徐々に増加するというユニークな設定から来ている。 DDGMはよく研究されているが、後向き拡散過程においてどのように少量のノイズが変換されるかはいまだ不明である。 本稿では,DDGMの行動と,その認知・生成能力についてより深い知見を得るために,この問題の分析に焦点をあてる。 逆方向拡散過程の機能を変化させる流体遷移点をノイズから(破損した)画像を生成して、劣化した画像を最終サンプルに分解する。 本研究は,DDGMをデノイザとジェネレータの2つの部分に分割することを仮定する。 デノイザーはデノイジングオートエンコーダによってパラメータ化できるが、ジェネレータは独自のパラメータセットを持つ拡散ベースのモデルである。 提案の長所と短所を実験的に検証した。

Diffusion-based Deep Generative Models (DDGMs) offer state-of-the-art performance in generative modeling. Their main strength comes from their unique setup in which a model (the backward diffusion process) is trained to reverse the forward diffusion process, which gradually adds noise to the input signal. Although DDGMs are well studied, it is still unclear how the small amount of noise is transformed during the backward diffusion process. Here, we focus on analyzing this problem to gain more insight into the behavior of DDGMs and their denoising and generative capabilities. We observe a fluid transition point that changes the functionality of the backward diffusion process from generating a (corrupted) image from noise to denoising the corrupted image to the final sample. Based on this observation, we postulate to divide a DDGM into two parts: a denoiser and a generator. The denoiser could be parameterized by a denoising auto-encoder, while the generator is a diffusion-based model with its own set of parameters. We experimentally validate our proposition, showing its pros and cons.
翻訳日:2022-06-02 12:48:02 公開日:2022-05-31
# FHIST: 画像の断片的分類のためのベンチマーク

FHIST: A Benchmark for Few-shot Classification of Histological Images ( http://arxiv.org/abs/2206.00092v1 )

ライセンス: Link先を確認
Fereshteh Shakeri, Malik Boudiaf, Sina Mohammadi, Ivaxi Sheth, Mohammad Havaei, Ismail Ben Ayed, Samira Ebrahimi Kahou(参考訳) 少数ショット学習は最近、画像分類に広く関心を集めているが、現在の公開ベンチマークのほとんどが自然画像に焦点を当てている。 アノテーションは高価で専門的な専門知識を必要とするため、ラベル付きデータの不足のため、医療画像の応用に非常に関係がある。 しかし、医用イメージングでは、わずかなショット学習研究は乏しく、プライベートデータセットに限定され、初期段階にある。 特に、がん関連組織分類タスクの多様性と粒度、および様々なデータ準備技術により、いくつかのショットセットは組織学に高い関心を寄せている。 本稿では,様々な公開データセットから収集した高度に多様化した公開ベンチマークを紹介し,ヒストロジーデータ分類について述べる。 さまざまな組織タイプ,癌部位から発生したドメインシフトの異なるレベル,クラスグラニュラリティのレベルなど,現実のシナリオを反映した,少ないショットタスクとベーストレーニングデータを構築します。 本ベンチマークでは,最新の数ショット学習手法の性能評価を行い,簡単な微調整法と正規化法が,一般的なメタラーニングやエピソード学習のパラダイムよりも優れた結果が得られることを示した。 さらに,ソースとターゲットのヒストロジーデータ間の領域シフトに基づいて,ニアドメイン,ミドルドメイン,アウトドメインという3つのシナリオを導入する。 実験では, 近距離領域における教師付き学習ベースラインに接近する最新のショット学習手法を用いて, 組織分類における少数ショット学習の可能性を示す。 ドメイン外設定では、5-way 5-shotでは、最高の実行方法が60%の精度に達する。 我々の研究は、数ショットの学習方法の現実的な評価と公正な比較を構築するのに役立ち、数ショットのパラダイムの研究をさらに促進できると考えている。

Few-shot learning has recently attracted wide interest in image classification, but almost all the current public benchmarks are focused on natural images. The few-shot paradigm is highly relevant in medical-imaging applications due to the scarcity of labeled data, as annotations are expensive and require specialized expertise. However, in medical imaging, few-shot learning research is sparse, limited to private data sets and is at its early stage. In particular, the few-shot setting is of high interest in histology due to the diversity and fine granularity of cancer related tissue classification tasks, and the variety of data-preparation techniques. This paper introduces a highly diversified public benchmark, gathered from various public datasets, for few-shot histology data classification. We build few-shot tasks and base-training data with various tissue types, different levels of domain shifts stemming from various cancer sites, and different class-granularity levels, thereby reflecting realistic scenarios. We evaluate the performances of state-of-the-art few-shot learning methods on our benchmark, and observe that simple fine-tuning and regularization methods achieve better results than the popular meta-learning and episodic-training paradigm. Furthermore, we introduce three scenarios based on the domain shifts between the source and target histology data: near-domain, middle-domain and out-domain. Our experiments display the potential of few-shot learning in histology classification, with state-of-art few shot learning methods approaching the supervised-learning baselines in the near-domain setting. In our out-domain setting, for 5-way 5-shot, the best performing method reaches 60% accuracy. We believe that our work could help in building realistic evaluations and fair comparisons of few-shot learning methods and will further encourage research in the few-shot paradigm.
翻訳日:2022-06-02 12:21:32 公開日:2022-05-31
# (参考訳) 属性の自動生成によるデータ駆動型数値不変合成 [全文訳有]

Data-driven Numerical Invariant Synthesis with Automatic Generation of Attributes ( http://arxiv.org/abs/2205.14943v2 )

ライセンス: CC BY 4.0
Ahmed Bouajjani and Wael-Amine Boutglay and Peter Habermehl(参考訳) 数値不変合成と検証のためのデータ駆動アルゴリズムを提案する。 このアルゴリズムは、プログラムの遷移に対応する正および負の状態のサンプルから決定木を学習するためのICE-DTスキーマに基づいている。 私たちが取り組んだ主な問題は、数値不変量の学習プロセスで使用される関連する属性の発見である。 データサンプルによって導かれるこの問題を解決する方法を定義する。 これは正の状態をカバーし、負の状態を除外するセパレータの構築に基づいている。 セパレータは凸集合の抽象ドメイン表現を用いて構成される。 分母の制約から決定木学習の一般化機構は一般不変量の推論を可能にし、対象の性質を証明するのに十分正確である。 我々はアルゴリズムを実装し、その効率性を示した。

We propose a data-driven algorithm for numerical invariant synthesis and verification. The algorithm is based on the ICE-DT schema for learning decision trees from samples of positive and negative states and implications corresponding to program transitions. The main issue we address is the discovery of relevant attributes to be used in the learning process of numerical invariants. We define a method for solving this problem guided by the data sample. It is based on the construction of a separator that covers positive states and excludes negative ones, consistent with the implications. The separator is constructed using an abstract domain representation of convex sets. The generalization mechanism of the decision tree learning from the constraints of the separator allows the inference of general invariants, accurate enough for proving the targeted property. We implemented our algorithm and showed its efficiency.
翻訳日:2022-06-02 11:52:32 公開日:2022-05-31
# (参考訳) psnet:point cloud上の階層型ディープラーニングのための高速データ構造化 [全文訳有]

PSNet: Fast Data Structuring for Hierarchical Deep Learning on Point Cloud ( http://arxiv.org/abs/2205.14965v2 )

ライセンス: CC BY 4.0
Luyang Li, Ligang He, Jinjin Gao and Xie Han(参考訳) ポイントクラウド上のローカル領域の特徴情報を保持するために、ローカルグループ化とサブサンプリングは、ほとんどの階層的ディープラーニングモデルにおいて必要なデータ構造化ステップである。 ポイントクラウド内のポイントの障害性のため、ポイントをグループ化してサブサンプリングする際にかなりの時間コストが消費され、結果としてスケーラビリティが低下する。 本稿ではPSNet(Point Structuring Net)と呼ばれる高速なデータ構造化手法を提案する。 psnetはポイントの空間的特徴を変換し、ポイントクラウド内のローカル領域の特徴にマッチさせる。 PSNetはグループ化とサンプリングを同時に達成し、既存のメソッドは2つの別々のステップ(FPS+kNNなど)でサンプリングとグループ化を行う。 既存の手法では,グループ化の基準として点間の空間的関係を用いて,特徴変換をポイントワイズで行う。 これらの機能のおかげで、PSNetには2つの重要な利点がある。 1)psnetによるグループ化・サンプリング結果は安定であり、置換不変である。 2)PSNetを容易に並列化できる。 PSNetは、主流のクラウドディープラーニングモデルのデータ構造化方法をプラグアンドプレイで置き換えることができる。 我々は広範な実験を行った。 その結果,PSNetはモデルの精度を維持しながらトレーニング速度と推論速度を大幅に改善できることがわかった。

In order to retain more feature information of local areas on a point cloud, local grouping and subsampling are the necessary data structuring steps in most hierarchical deep learning models. Due to the disorder nature of the points in a point cloud, the significant time cost may be consumed when grouping and subsampling the points, which consequently results in poor scalability. This paper proposes a fast data structuring method called PSNet (Point Structuring Net). PSNet transforms the spatial features of the points and matches them to the features of local areas in a point cloud. PSNet achieves grouping and sampling at the same time while the existing methods process sampling and grouping in two separate steps (such as using FPS plus kNN). PSNet performs feature transformation pointwise while the existing methods uses the spatial relationship among the points as the reference for grouping. Thanks to these features, PSNet has two important advantages: 1) the grouping and sampling results obtained by PSNet is stable and permutation invariant; and 2) PSNet can be easily parallelized. PSNet can replace the data structuring methods in the mainstream point cloud deep learning models in a plug-and-play manner. We have conducted extensive experiments. The results show that PSNet can improve the training and inference speed significantly while maintaining the model accuracy.
翻訳日:2022-06-02 11:29:46 公開日:2022-05-31
# (参考訳) オブジェクト追跡システムにおける効率的かつリアルタイムラベル検索のためのツリーベース手法の導入 [全文訳有]

Introduction of a tree-based technique for efficient and real-time label retrieval in the object tracking system ( http://arxiv.org/abs/2205.15477v1 )

ライセンス: CC BY 4.0
Ala-Eddine Benrazek, Zineddine Kouahla, Brahim Farou, Hamid Seridi, Imane Allele(参考訳) 本稿では,大規模ビデオ監視システムにおける移動物体のリアルタイム追跡品質の問題に対処する。 追跡プロセスの間、システムは、追跡された各オブジェクトに識別子またはラベルを割り当て、他のオブジェクトと区別する。 このようなミッションでは、同じ物体、その領域、出現時間、または検出カメラに対して、この識別子を保持することが不可欠である。 これは、トラッキング対象に関する情報を可能な限り保存し、ID切替数(ID-Sw)を減らし、オブジェクト追跡の品質を高めることである。 オブジェクトラベリングを達成するには、カメラが収集した膨大なデータを検索して、最も類似した(ネアレストの隣の)オブジェクト識別子を取得する必要がある。 このタスクは単純だが、データが非常に大きい大規模なビデオ監視ネットワークでは、非常に複雑になる。 この場合、この増加に伴いラベル検索時間が大幅に増加し、リアルタイムトラッキングシステムの性能に悪影響を及ぼす。 このような問題を避けるため、索引付け機構を用いた効率的なリアルタイムトラッキングのために複数のオブジェクトを自動的にラベル付けする新しい手法を提案する。 このメカニズムは、Adaptive BCCF-treeで検出および追跡フェーズ中に抽出されたオブジェクトのメタデータを整理する。 この構造の主な利点は、マルチカメラによって生成された膨大なメタデータをインデックスする能力、暗黙的に検索応答時間を短縮する対数検索の複雑さ、追跡されたオブジェクトのコヒーレントなラベリングを保証する研究結果の品質である。 システムの負荷は、データ処理とリアルタイムオブジェクトトラッキングのパフォーマンスを改善するために、新しいInternet of Video Thingsインフラストラクチャベースのアーキテクチャを介して分散される。 実験評価は,群衆活動の異なるマルチカメラが生成する公開データセットを用いて行った。

This paper addresses the issue of the real-time tracking quality of moving objects in large-scale video surveillance systems. During the tracking process, the system assigns an identifier or label to each tracked object to distinguish it from other objects. In such a mission, it is essential to keep this identifier for the same objects, whatever the area, the time of their appearance, or the detecting camera. This is to conserve as much information about the tracking object as possible, decrease the number of ID switching (ID-Sw), and increase the quality of object tracking. To accomplish object labeling, a massive amount of data collected by the cameras must be searched to retrieve the most similar (nearest neighbor) object identifier. Although this task is simple, it becomes very complex in large-scale video surveillance networks, where the data becomes very large. In this case, the label retrieval time increases significantly with this increase, which negatively affects the performance of the real-time tracking system. To avoid such problems, we propose a new solution to automatically label multiple objects for efficient real-time tracking using the indexing mechanism. This mechanism organizes the metadata of the objects extracted during the detection and tracking phase in an Adaptive BCCF-tree. The main advantage of this structure is: its ability to index massive metadata generated by multi-cameras, its logarithmic search complexity, which implicitly reduces the search response time, and its quality of research results, which ensure coherent labeling of the tracked objects. The system load is distributed through a new Internet of Video Things infrastructure-based architecture to improve data processing and real-time object tracking performance. The experimental evaluation was conducted on a publicly available dataset generated by multi-camera containing different crowd activities.
翻訳日:2022-06-02 04:34:09 公開日:2022-05-31
# (参考訳) ポストホック概念ボトルネックモデル [全文訳有]

Post-hoc Concept Bottleneck Models ( http://arxiv.org/abs/2205.15480v1 )

ライセンス: CC BY 4.0
Mert Yuksekgonul, Maggie Wang, James Zou(参考訳) 概念ボトルネックモデル(CBM)は、入力を解釈可能な概念のセット(``the bottleneck''')にマッピングし、その概念を使用して予測を行う。 概念ボトルネックは、モデルがどの概念を「見る」のか、どの概念が重要かを理解するために研究できるため、解釈可能性を高める。 しかし、CBMはボトルネックを学習するためにトレーニングデータに概念ラベルを必要とするため、実際には制限的であり、強い事前訓練されたモデルを活用しない。 さらに、CBMは、制限のないニューラルネットワークの精度に合わないことが多いため、実際にデプロイするインセンティブが低下する。 本稿では,ポストホック概念ボトルネックモデル(PCBM)を導入することで,CBMの限界に対処する。 モデル性能を犠牲にすることなく、解釈可能性の利点を保ちながら、任意のニューラルネットワークをpcbmにすることができることを示す。 トレーニングデータでは概念アノテーションが利用できない場合,PCBMは他のデータセットや概念の自然言語記述から概念を転送可能であることを示す。 PCBMはまた、ユーザーがモデルの迅速なデバッグと更新を可能にし、スプリアス相関を減らし、新しい(潜在的に異なる)データへの一般化を改善する。 モデル編集ユーザスタディを通じて、ターゲットドメインのデータやモデル再トレーニングを使わずに、概念レベルのフィードバックによるPCBMの編集が、大きなパフォーマンス向上をもたらすことを示す。

Concept Bottleneck Models (CBMs) map the inputs onto a set of interpretable concepts (``the bottleneck'') and use the concepts to make predictions. A concept bottleneck enhances interpretability since it can be investigated to understand what concepts the model "sees" in an input and which of these concepts are deemed important. However, CBMs are restrictive in practice as they require concept labels in the training data to learn the bottleneck and do not leverage strong pretrained models. Moreover, CBMs often do not match the accuracy of an unrestricted neural network, reducing the incentive to deploy them in practice. In this work, we address the limitations of CBMs by introducing Post-hoc Concept Bottleneck models (PCBMs). We show that we can turn any neural network into a PCBM without sacrificing model performance while still retaining interpretability benefits. When concept annotation is not available on the training data, we show that PCBM can transfer concepts from other datasets or from natural language descriptions of concepts. PCBM also enables users to quickly debug and update the model to reduce spurious correlations and improve generalization to new (potentially different) data. Through a model-editing user study, we show that editing PCBMs via concept-level feedback can provide significant performance gains without using any data from the target domain or model retraining.
翻訳日:2022-06-02 04:17:17 公開日:2022-05-31
# (参考訳) 複数物体追跡のための変圧器を用いた空間時間・外観同時モデリング

Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking ( http://arxiv.org/abs/2205.15495v1 )

ライセンス: CC BY 4.0
Peng Dai and Yiqiang Feng and Renliang Weng and Changshui Zhang(参考訳) マルチオブジェクトトラッキング(MOT)の最近のトレンドは、ディープラーニングを活用してトラッキングパフォーマンスを向上させることに向かっている。 本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係を効果的にモデル化する。 TransSTAMは,(1)トランスフォーマーの強力な自己認識機構を利用して,各トラックレットの識別的特徴を学習し,(2)デコーダは標準のクロスアテンション機構を採用し,トラックレットと検出の親和性を空間時間的特徴と外観的特徴の両方を考慮してモデル化する。 transstamには2つの大きな利点がある:(1)エンコーダ-デコーダアーキテクチャのみに基づいており、コンパクトなネットワーク設計を享受しており、計算効率が良い。 提案手法はMOT16,MOT17,MOT20を含む複数の公開ベンチマークで評価され,すべてのベンチマークに対する従来の最先端アプローチに対して,IDF1とHOTAの両方で明確な性能向上を実現している。 私たちのコードは \url{https://github.com/i cicle4/TranSTAM} で利用可能です。

The recent trend in multiple object tracking (MOT) is heading towards leveraging deep learning to boost the tracking performance. In this paper, we propose a novel solution named TransSTAM, which leverages Transformer to effectively model both the appearance features of each object and the spatial-temporal relationships among objects. TransSTAM consists of two major parts: (1) The encoder utilizes the powerful self-attention mechanism of Transformer to learn discriminative features for each tracklet; (2) The decoder adopts the standard cross-attention mechanism to model the affinities between the tracklets and the detections by taking both spatial-temporal and appearance features into account. TransSTAM has two major advantages: (1) It is solely based on the encoder-decoder architecture and enjoys a compact network design, hence being computationally efficient; (2) It can effectively learn spatial-temporal and appearance features within one model, hence achieving better tracking accuracy. The proposed method is evaluated on multiple public benchmarks including MOT16, MOT17, and MOT20, and it achieves a clear performance improvement in both IDF1 and HOTA with respect to previous state-of-the-art approaches on all the benchmarks. Our code is available at \url{https://github.com/i cicle4/TranSTAM}.
翻訳日:2022-06-02 03:47:11 公開日:2022-05-31
# (参考訳) 自己学習のための自然言語インタラクションの合理化のための事前学習言語モデルの活用 [全文訳有]

Leveraging Pre-Trained Language Models to Streamline Natural Language Interaction for Self-Tracking ( http://arxiv.org/abs/2205.15503v1 )

ライセンス: CC BY 4.0
Young-Ho Kim, Sungdong Kim, Minsuk Chang, Sang-Woo Lee(参考訳) 現在のセルフトラッキングツールの自然言語インタラクションは、特定のトラッキングテーマとデータフォーマットに最適化された独自実装に大きく依存しています。 しかし、多種多様なトラッキングトピックやデータフォーマットのため、セルフトラッキングの文脈で機械学習モデルをトレーニングすることは困難である。 本稿では,平文として記述された振り返りアクティビティログから近・オープンな情報を抽出する自己追跡のための新しいNLPタスクと,このタスクを実行するドメインに依存しないGPT-3ベースのNLUフレームワークを提案する。 このフレームワークは、合成サンプルを使用してタスクを10ショットの学習に変換するプロンプトを強化し、新しいトラッキングトピックをブートストラップする際のコールドスタート問題に対処する。 予備評価は,本手法がベースラインQAモデルよりも有意に優れていることを示唆している。 さらに、NLPとHCIの研究者が協力できる将来的なアプリケーション領域について論じる。

Current natural language interaction for self-tracking tools largely depends on bespoke implementation optimized for a specific tracking theme and data format, which is neither generalizable nor scalable to a tremendous design space of self-tracking. However, training machine learning models in the context of self-tracking is challenging due to the wide variety of tracking topics and data formats. In this paper, we propose a novel NLP task for self-tracking that extracts close- and open-ended information from a retrospective activity log described as a plain text, and a domain-agnostic, GPT-3-based NLU framework that performs this task. The framework augments the prompt using synthetic samples to transform the task into 10-shot learning, to address a cold-start problem in bootstrapping a new tracking topic. Our preliminary evaluation suggests that our approach significantly outperforms the baseline QA models. Going further, we discuss future application domains toward which the NLP and HCI researchers can collaborate.
翻訳日:2022-06-02 03:45:47 公開日:2022-05-31
# (参考訳) 構造化Argumentsを用いたイベントレベル感性分析の強化 [全文訳有]

Enhancing Event-Level Sentiment Analysis with Structured Arguments ( http://arxiv.org/abs/2205.15511v1 )

ライセンス: CC BY 4.0
Qi Zhang, Jie Zhou, Qin Chen, Qinchun Bai, Liang He(参考訳) 事象レベルの感情分析(SA)に関する以前の研究は、通常、事象を話題、カテゴリーまたは対象用語としてモデル化するが、感情に潜在的な影響を持つ構造化された議論(主題、対象、時間、位置など)は十分に研究されていない。 本稿では,そのタスクを構造化イベントレベルSAとして再定義し,その問題を解決するためのエンド・ツー・エンドイベントレベル感性分析(\textit{E}^{3}\textit{SA}$)アプローチを提案する。 具体的には、イベントレベルのsaを強化するためにイベント構造情報を明示的に抽出しモデル化する。 広範な実験により,最先端手法に対する提案手法の長所を実証した。 データセットの欠如に注目して、さらに研究を促進するイベント引数と感情ラベリングを備えた、大規模な実世界のデータセットもリリースしています。

Previous studies about event-level sentiment analysis (SA) usually model the event as a topic, a category or target terms, while the structured arguments (e.g., subject, object, time and location) that have potential effects on the sentiment are not well studied. In this paper, we redefine the task as structured event-level SA and propose an End-to-End Event-level Sentiment Analysis ($\textit{E}^{3}\textit{SA}$) approach to solve this issue. Specifically, we explicitly extract and model the event structure information for enhancing event-level SA. Extensive experiments demonstrate the great advantages of our proposed approach over the state-of-the-art methods. Noting the lack of the dataset, we also release a large-scale real-world dataset with event arguments and sentiment labelling for promoting more researches\footnote{The dataset is available at https://github.com/z hangqi-here/E3SA}.
翻訳日:2022-06-02 03:31:54 公開日:2022-05-31
# (参考訳) 対話における感情識別と生成の統一的枠組み [全文訳有]

A Unified Framework for Emotion Identification and Generation in Dialogues ( http://arxiv.org/abs/2205.15513v1 )

ライセンス: CC BY 4.0
Avinash Madasu, Mauajama Firdaus, Asif Eqbal(参考訳) ソーシャルチャットボットは大いに人気を集めており、その魅力はユーザーからの多様なリクエストに対応する能力だけでなく、ユーザーとの感情的なつながりを発達させる能力にある。 ソーシャルチャットボットをさらに発展させ、普及させるためには、ユーザーインタラクションの増加に集中し、会話エージェントの知的および感情的商の両方を考慮する必要がある。 本稿では,与えられた対話の感情を協調的に識別し,その感情に応じて応答を生成するマルチタスクフレームワークを提案する。 BERTをベースとしたネットワークを用いて共感システムを構築し、分類と生成損失の両方でエンドツーエンドネットワークを訓練する混合目的関数を用いる。 実験結果から,提案フレームワークが現在の最先端モデルを上回ることが示された。

Social chatbots have gained immense popularity, and their appeal lies not just in their capacity to respond to the diverse requests from users, but also in the ability to develop an emotional connection with users. To further develop and promote social chatbots, we need to concentrate on increasing user interaction and take into account both the intellectual and emotional quotient in the conversational agents. In this paper, we propose a multi-task framework that jointly identifies the emotion of a given dialogue and generates response in accordance to the identified emotion. We employ a BERT based network for creating an empathetic system and use a mixed objective function that trains the end-to-end network with both the classification and generation loss. Experimental results show that our proposed framework outperforms current state-of-the-art models
翻訳日:2022-06-02 03:20:18 公開日:2022-05-31
# (参考訳) 言語間構造化感情分析のための知識エンハンスド・アドバーサリーモデル [全文訳有]

A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured Sentiment Analysis ( http://arxiv.org/abs/2205.15514v1 )

ライセンス: CC BY 4.0
Qi Zhang, Jie Zhou, Qin Chen, Qingchun Bai, Jun Xiao, Liang He(参考訳) ホルダー,表現,目標,極性といった複雑な意味構造を抽出することを目的とした構造化感情分析は,産学界から広く注目を集めている。 残念ながら、既存の構造化感情分析データセットはいくつかの言語を参照しており、比較的小さく、ニューラルネットワークモデルのパフォーマンスを制限している。 本稿では,ソース言語から対象言語へ知識を伝達することを目的とした,言語間構造的感情分析タスクに焦点をあてる。 特に,言語間移動を促進するために,暗黙的な分散と明示的な構造的知識を持つ知識強化適応モデル(\texttt{KEAM})を提案する。 まず,多言語多言語組込みから暗黙的な意味情報を適応的に捉えることで,情報的かつロバストな表現を学習するための,敵対的組込みアダプタを設計する。 次に,複数の言語間で明示的な意味情報(ユニバーサル依存木など)を伝達するための構文GCNエンコーダを提案する。 5つのデータセットで実験を行い, 教師なし手法と教師なし手法を比較した。 実験結果から, 各種メトリクスにおける教師なしベースラインのすべてより優れた性能が得られた。

Structured sentiment analysis, which aims to extract the complex semantic structures such as holders, expressions, targets, and polarities, has obtained widespread attention from both industry and academia. Unfortunately, the existing structured sentiment analysis datasets refer to a few languages and are relatively small, limiting neural network models' performance. In this paper, we focus on the cross-lingual structured sentiment analysis task, which aims to transfer the knowledge from the source language to the target one. Notably, we propose a Knowledge-Enhanced Adversarial Model (\texttt{KEAM}) with both implicit distributed and explicit structural knowledge to enhance the cross-lingual transfer. First, we design an adversarial embedding adapter for learning an informative and robust representation by capturing implicit semantic information from diverse multi-lingual embeddings adaptively. Then, we propose a syntax GCN encoder to transfer the explicit semantic information (e.g., universal dependency tree) among multiple languages. We conduct experiments on five datasets and compare \texttt{KEAM} with both the supervised and unsupervised methods. The extensive experimental results show that our \texttt{KEAM} model outperforms all the unsupervised baselines in various metrics.
翻訳日:2022-06-02 03:11:06 公開日:2022-05-31
# (参考訳) クロスドメイン潜在変調を用いた変分伝達学習

Variational Transfer Learning using Cross-Domain Latent Modulation ( http://arxiv.org/abs/2205.15523v1 )

ライセンス: CC BY 4.0
Jinyong Hou, Jeremiah D. Deng, Stephen Cranefield, Xuejie Din(参考訳) トレーニング済みニューラルネットワークモデルを新しいドメインに適用するには、強力なトランスファー学習ソリューションが不可欠である。 本稿では,可変オートエンコーダフレームワークに新しいクロスドメイン潜在変調機構を導入し,効果的な転送学習を実現する。 私たちの重要なアイデアは、あるデータドメインから深い表現を取得し、他のドメインの潜在変数の再パラメータ化に影響を与えるためにそれを使用することです。 具体的には、まず、ソースとターゲットドメインの深い表現を統一推論モデルで抽出し、勾配反転を用いて整列する。 学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングに相互変調される。 教師なしドメイン適応とイメージ・ツー・イメージ翻訳のための多くの移行学習ベンチマークタスクを含む実証的検証において,本モデルは,可視化から得られた証拠を裏付ける競合性能を示す。

To successfully apply trained neural network models to new domains, powerful transfer learning solutions are essential. We propose to introduce a novel cross-domain latent modulation mechanism to a variational autoencoder framework so as to achieve effective transfer learning. Our key idea is to procure deep representations from one data domain and use it to influence the reparameterization of the latent variable of another domain. Specifically, deep representations of the source and target domains are first extracted by a unified inference model and aligned by employing gradient reversal. The learned deep representations are then cross-modulated to the latent encoding of the alternative domain, where consistency constraints are also applied. In the empirical validation that includes a number of transfer learning benchmark tasks for unsupervised domain adaptation and image-to-image translation, our model demonstrates competitive performance, which is also supported by evidence obtained from visualization.
翻訳日:2022-06-02 02:53:42 公開日:2022-05-31
# (参考訳) itKD:3Dオブジェクト検出のためのインターチェンジ転送に基づく知識蒸留 [全文訳有]

itKD: Interchange Transfer-based Knowledge Distillation for 3D Object Detection ( http://arxiv.org/abs/2205.15531v1 )

ライセンス: CC BY 4.0
Hyeon Cho, Junyong Choi, Geonwoo Baek, Wonjun Hwang(参考訳) 近年,点雲型3次元物体検出器は目覚ましい進歩を遂げている。 しかし、ほとんどの研究は、精度向上のため、ディープラーニングアーキテクチャの開発に限定されている。 本稿では,知識蒸留のための交換転送によるチャネル回り圧縮と減圧縮からなるオートエンコーダ方式のフレームワークを提案する。 教師ネットワークのmap-view特徴を学習するために、教師と学生ネットワークからの機能は、共用オートエンコーダを介して独立に受け継がれ、ここでは、両ネットワークからのチャネル毎の圧縮知識を正規化の一種として、圧縮表現損失を用いる。 減圧された特徴は、交換再構成のギャップを減らすために反対方向に伝達される。 最後に,マルチヘッド自己認識機構によって引き起こされる位置検出情報に一致する注意的頭部損失を示す。 広範にわたる実験により,本手法が3Dポイントクラウド検出タスクとよく整合した軽量モデルを学習できることを確認し,その優位性をWaymoとnuScenesを用いて実証した。

Recently, point-cloud based 3D object detectors have achieved remarkable progress. However, most studies are limited to the development of deep learning architectures for improving only their accuracy. In this paper, we propose an autoencoder-style framework comprising channel-wise compression and decompression via interchange transfer for knowledge distillation. To learn the map-view feature of a teacher network, the features from a teacher and student network are independently passed through the shared autoencoder; here, we use a compressed representation loss that binds the channel-wised compression knowledge from both the networks as a kind of regularization. The decompressed features are transferred in opposite directions to reduce the gap in the interchange reconstructions. Lastly, we present an attentive head loss for matching the pivotal detection information drawn by the multi-head self-attention mechanism. Through extensive experiments, we verify that our method can learn the lightweight model that is well-aligned with the 3D point cloud detection task and we demonstrate its superiority using the well-known public datasets Waymo and nuScenes.
翻訳日:2022-06-02 02:52:44 公開日:2022-05-31
# (参考訳) 超次元計算を象徴するニューラルネットワーク [全文訳有]

Gluing Neural Networks Symbolically Through Hyperdimensional Computing ( http://arxiv.org/abs/2205.15534v1 )

ライセンス: CC BY 4.0
Peter Sutor, Dehao Yuan, Douglas Summers-Stay, Cornelia Fermuller, Yiannis Aloimonos(参考訳) 超次元コンピューティングは、情報を効率的にエンコードし、学習に使用し、オンザフライで修正できるほど動的である長大超次元ベクトル(hypervector)を作成するための単純かつ強力な操作を可能にする。 本稿では,二元超ベクトルを用いてニューラルネットワークの出力信号を直接符号化し,異なるネットワークを記号レベルで融合させるという概念について検討する。 これにより、複数のニューラルネットワークが連携して問題を解決することができる。 分類直前の出力信号はハイパーベクトルとして符号化され、コンセンサス和によって束ねられ、分類ハイパーベクトルを訓練する。 このプロセスは、複数の分類ハイパーベクトルのコンセンサスを作ることで、反復的かつ単一のニューラルネットワークでも実行することができる。 これは、ハイパーベクトルの操作がニューラルネットワークに比べて非常に高速で効率的であるため、非常に少ないオーバーヘッドで、最先端やそれと同等のレベルにあることが分かっています。 このコンセンサスプロセスはオンラインで学び、リアルタイムでモデルを成長または失うことができる。 ハイパーベクトルは記憶される記憶として働き、さらに時間とともに束ねられ、生涯学習能力を得ることができる。 さらに、このコンセンサス構造は、現代の機械学習の性能を犠牲にすることなく、超次元コンピューティングの利点を継承する。 このテクニックは、事実上あらゆるニューラルモデルに外挿することができ、採用するためにはほとんど変更を必要とせず、テスト例で提示されたネットワークの出力信号を記録するだけでよい。

Hyperdimensional Computing affords simple, yet powerful operations to create long Hyperdimensional Vectors (hypervectors) that can efficiently encode information, be used for learning, and are dynamic enough to be modified on the fly. In this paper, we explore the notion of using binary hypervectors to directly encode the final, classifying output signals of neural networks in order to fuse differing networks together at the symbolic level. This allows multiple neural networks to work together to solve a problem, with little additional overhead. Output signals just before classification are encoded as hypervectors and bundled together through consensus summation to train a classification hypervector. This process can be performed iteratively and even on single neural networks by instead making a consensus of multiple classification hypervectors. We find that this outperforms the state of the art, or is on a par with it, while using very little overhead, as hypervector operations are extremely fast and efficient in comparison to the neural networks. This consensus process can learn online and even grow or lose models in real time. Hypervectors act as memories that can be stored, and even further bundled together over time, affording life long learning capabilities. Additionally, this consensus structure inherits the benefits of Hyperdimensional Computing, without sacrificing the performance of modern Machine Learning. This technique can be extrapolated to virtually any neural model, and requires little modification to employ - one simply requires recording the output signals of networks when presented with a testing example.
翻訳日:2022-06-02 02:38:49 公開日:2022-05-31
# (参考訳) 多言語モデルの言語差分による低リソース非教師翻訳の精製 [全文訳有]

Refining Low-Resource Unsupervised Translation by Language Disentanglement of Multilingual Model ( http://arxiv.org/abs/2205.15544v1 )

ライセンス: CC BY 4.0
Xuan-Phi Nguyen, Shafiq Joty, Wu Kui, Ai Ti Aw(参考訳) unsupervised machine translation (umt) に関する最近の多くの研究は、ネパール語やシンハラ語のような、低リソース言語や非関連言語の有能な非教師なし翻訳は、モデルが大量の多言語環境で訓練されている場合にのみ可能であることを示唆している。 それでも、高リソース言語は、ターゲットとする低リソース翻訳タスクの起動に大いに役立ちますが、それらの言語間の相違により、さらなる改善が妨げられます。 本研究では,対象とする低リソースタスクのみに焦点を合わせるために,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。 本手法は,ネパール語,シンハラ語,グジャラト語,ラトビア語,エストニア語,カザフ語への完全教師なし翻訳タスクにおいて,それぞれ3.5,3.5,3.5,3.3,4.1, 4.2,3。 私たちのコードベースはhttps://github.com/n xphi47/refine_unsup_ multilingual_mtで利用可能です。

Numerous recent work on unsupervised machine translation (UMT) implies that competent unsupervised translations of low-resource and unrelated languages, such as Nepali or Sinhala, are only possible if the model is trained in a massive multilingual environment, where theses low-resource languages are mixed with high-resource counterparts. Nonetheless, while the high-resource languages greatly help kick-start the target low-resource translation tasks, the language discrepancy between them may hinder their further improvement. In this work, we propose a simple refinement procedure to disentangle languages from a pre-trained multilingual UMT model for it to focus on only the target low-resource task. Our method achieves the state of the art in the fully unsupervised translation tasks of English to Nepali, Sinhala, Gujarati, Latvian, Estonian and Kazakh, with BLEU score gains of 3.5, 3.5, 3.3, 4.1, 4.2, and 3.3, respectively. Our codebase is available at https://github.com/n xphi47/refine_unsup_ multilingual_mt
翻訳日:2022-06-02 02:22:05 公開日:2022-05-31
# (参考訳) vcによる二重降下の理論的説明 [全文訳有]

VC Theoretical Explanation of Double Descent ( http://arxiv.org/abs/2205.15549v1 )

ライセンス: CC BY 4.0
Eng Hock Lee and Vladimir Cherkassky(参考訳) テストデータに精通しながら、トレーニングエラーをゼロにする訓練が可能な、大規模多層ニューラルネットワークの一般化性能への関心が高まっている。 この体制は「第二の降下」として知られており、最適モデルの複雑さは過度な適合と過度な適合の最適なバランスを反映すべきであるという従来の見解とは矛盾している。 本稿では,二重降下のvc理論的解析を行い,古典vc一般化境界によって完全に説明できることを示す。 本稿では,SVM,Last Squares,Multilayer Perceptron分類器などの学習手法における実験結果を用いて,分析VCバウンドの分類問題のモデル化への応用について述べる。 また,機械学習コミュニティにおけるVC理論結果の誤解釈の可能性についても論じる。

There has been growing interest in generalization performance of large multilayer neural networks that can be trained to achieve zero training error, while generalizing well on test data. This regime is known as 'second descent' and it appears to contradict conventional view that optimal model complexity should reflect optimal balance between underfitting and overfitting, aka the bias-variance trade-off. This paper presents VC-theoretical analysis of double descent and shows that it can be fully explained by classical VC generalization bounds. We illustrate an application of analytic VC-bounds for modeling double descent for classification problems, using empirical results for several learning methods, such as SVM, Least Squares, and Multilayer Perceptron classifiers. In addition, we discuss several possible reasons for misinterpretation of VC-theoretical results in the machine learning community.
翻訳日:2022-06-02 02:01:02 公開日:2022-05-31
# (参考訳) 低リソース自然言語推論のためのマルチレベル教師付きコントラスト学習フレームワーク [全文訳有]

A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference ( http://arxiv.org/abs/2205.15550v1 )

ライセンス: CC0 1.0
Shu'ang Li, Xuming Hu, Li Lin, Aiwei Liu, Lijie Wen, Philip S. Yu(参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、文対(前提と仮説)の関係を推論する必要がある自然言語理解において、ますます重要な課題である。 近年,手動アノテーションのコストが大幅に削減され,実世界のシナリオに適合するため,低リソースな自然言語推論が注目されている。 既存の研究は、ラベル予測の欠陥を引き起こす可能性のある限られたトレーニングデータを持つ異なるクラス間の差別表現を特徴付けることができない。 本稿では,低リソース自然言語推論のためのマルチsclという,マルチレベル教師付きコントラスト学習フレームワークを提案する。 MultiSCLは、文レベルとペアレベルのコントラスト学習の目的を利用して、1つのクラスにそれらをまとめて、異なるクラスにそれらをプッシュすることで、異なるクラスの文ペアを識別する。 multisclはデータ拡張モジュールを採用しており、入力サンプルの異なるビューを生成し、潜在表現をよりよく学習する。 対レベルの表現は、クロスアテンションモジュールから得られる。 低リソース環境で2つのパブリックNLIデータセットに対して広範な実験を行い、MultiSCLの精度は平均3.1%以上である。 さらに,本手法はテキスト分類のクロスドメインタスクにおいて,従来の最先端手法よりも優れていた。

Natural Language Inference (NLI) is a growingly essential task in natural language understanding, which requires inferring the relationship between the sentence pairs (premise and hypothesis). Recently, low-resource natural language inference has gained increasing attention, due to significant savings in manual annotation costs and a better fit with real-world scenarios. Existing works fail to characterize discriminative representations between different classes with limited training data, which may cause faults in label prediction. Here we propose a multi-level supervised contrastive learning framework named MultiSCL for low-resource natural language inference. MultiSCL leverages a sentence-level and pair-level contrastive learning objective to discriminate between different classes of sentence pairs by bringing those in one class together and pushing away those in different classes. MultiSCL adopts a data augmentation module that generates different views for input samples to better learn the latent representation. The pair-level representation is obtained from a cross attention module. We conduct extensive experiments on two public NLI datasets in low-resource settings, and the accuracy of MultiSCL exceeds other models by 3.1% on average. Moreover, our method outperforms the previous state-of-the-art method on cross-domain tasks of text classification.
翻訳日:2022-06-02 01:49:41 公開日:2022-05-31
# (参考訳) iFS-RCNN: インクリメンタルないくつかのインスタンスセグメンタ

iFS-RCNN: An Incremental Few-shot Instance Segmenter ( http://arxiv.org/abs/2205.15562v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Sinisa Todorovic(参考訳) ここでは、古いクラスのトレーニング例にアクセスできない場合に、新しいオブジェクトクラスのいくつかの例が到着し、古いクラスと新しいクラスの両方でうまく機能することを目的としている。 我々は,その第2段階で共通Mask-RCNNフレームワークを拡張し,プロビット関数に基づく新しいオブジェクトクラス分類器と,新しい不確実性誘導境界ボックス予測器を指定することによって2つのコントリビューションを行う。 前者はベイズ学習を活用し、新しいクラスのトレーニング例のpaucityに対処している。 後者は、オブジェクト境界ボックスの予測だけでなく、予測の不確実性をバウンディングボックスリファインメントのガイダンスとして推定することを学ぶ。 また、推定対象クラス分布とバウンディングボックスの不確実性の観点から、2つの新たな損失関数を規定する。 当社のコントリビューションは,最先端のCOCOデータセットに対して,特に新たなクラスでは+6,APインスタンスセグメンテーションメトリックでは+16という,大幅なパフォーマンス向上を実現しています。 さらに、より困難なLVISデータセット上で、インクリメンタルな数ショット設定を評価するのはこれが初めてです。

This paper addresses incremental few-shot instance segmentation, where a few examples of new object classes arrive when access to training examples of old classes is not available anymore, and the goal is to perform well on both old and new classes. We make two contributions by extending the common Mask-RCNN framework in its second stage -- namely, we specify a new object class classifier based on the probit function and a new uncertainty-guided bounding-box predictor. The former leverages Bayesian learning to address a paucity of training examples of new classes. The latter learns not only to predict object bounding boxes but also to estimate the uncertainty of the prediction as guidance for bounding box refinement. We also specify two new loss functions in terms of the estimated object-class distribution and bounding-box uncertainty. Our contributions produce significant performance gains on the COCO dataset over the state of the art -- specifically, the gain of +6 on the new classes and +16 on the old classes in the AP instance segmentation metric. Furthermore, we are the first to evaluate the incremental few-shot setting on the more challenging LVIS dataset.
翻訳日:2022-06-02 01:21:09 公開日:2022-05-31
# (参考訳) 3PSDF:任意位相をもつ表面学習のための3極符号距離関数 [全文訳有]

3PSDF: Three-Pole Signed Distance Function for Learning Surfaces with Arbitrary Topologies ( http://arxiv.org/abs/2205.15572v1 )

ライセンス: CC BY 4.0
Weikai Chen, Cheng Lin, Weiyang Li, Bo Yang(参考訳) 神経的暗黙関数を用いた3次元形状学習の最近の進歩は、様々な位相の解像度と多様性の障壁を破ることで、印象的な結果を得た。 しかし、そのようなアプローチのほとんどは、空間を内側と外側に分割する必要があるため、閉曲面に限られる。 符号のない距離関数に基づく最近の研究は、開曲面と閉曲面の両方を含む複素幾何学を扱うために提案されている。 それでも、それらの直接出力はポイントクラウドであるため、離散的なポイントから高品質なメッシュ結果を堅牢に得ることは、未解決の問題である。 本稿では,従来のマーチングキューブアルゴリズムを用いて手軽なフィールド・ツー・メッシュ変換をサポートしながら,任意のトポロジで非水密な3次元形状を表現できる3極符号距離関数(3PSDF)を提案する。 提案手法の鍵は,従来のイン・アンド・アウトラベルに加えて,新しい符号であるNULL符号の導入である。 ヌル記号の存在は、イン/アウト領域のビセクターに由来する閉じた等方面の形成を止めることができる。 さらに,Nullラベルによる消失勾配を気にすることなく3PSDFを効果的に学習するための学習フレームワークを提案する。 実験結果から,本手法は従来手法よりも定量的,定性的に幅広いベンチマークにおいて優れていた。

Recent advances in learning 3D shapes using neural implicit functions have achieved impressive results by breaking the previous barrier of resolution and diversity for varying topologies. However, most of such approaches are limited to closed surfaces as they require the space to be divided into inside and outside. More recent works based on unsigned distance function have been proposed to handle complex geometry containing both the open and closed surfaces. Nonetheless, as their direct outputs are point clouds, robustly obtaining high-quality meshing results from discrete points remains an open question. We present a novel learnable implicit representation, called the three-pole signed distance function (3PSDF), that can represent non-watertight 3D shapes with arbitrary topologies while supporting easy field-to-mesh conversion using the classic Marching Cubes algorithm. The key to our method is the introduction of a new sign, the NULL sign, in addition to the conventional in and out labels. The existence of the null sign could stop the formation of a closed isosurface derived from the bisector of the in/out regions. Further, we propose a dedicated learning framework to effectively learn 3PSDF without worrying about the vanishing gradient due to the null labels. Experimental results show that our approach outperforms the previous state-of-the-art methods in a wide range of benchmarks both quantitatively and qualitatively.
翻訳日:2022-06-02 01:20:06 公開日:2022-05-31
# (参考訳) 深層学習モデルを用いた精神状態復号解析における解釈法の比較 [全文訳有]

Comparing interpretation methods in mental state decoding analyses with deep learning models ( http://arxiv.org/abs/2205.15581v1 )

ライセンス: CC0 1.0
Armin W. Thomas and Christopher R\'e and Russell A. Poldrack(参考訳) 深層学習(deep learning, dl)の手法は、精神状態(ギャンブルの受容や拒否など)と脳活動のマッピングを理解するために、活動によってこれらの状態を正確に識別(すなわちデコード)できる脳領域(およびネットワーク)を特定することで、精神状態のデコーディングに応用される。 dlモデルが精神状態を正確にデコードするように訓練されると、神経画像研究者は、説明可能な人工知能研究からの解釈手法を使用して、精神状態と脳活動の間の学習されたマッピングを理解する。 本稿では,3つの機能的磁気共鳴イメージング(fmri)データセットで訓練されたdlモデルの精神状態復号決定に対する著名な解釈法の説明を比較する。 モデル決定過程をよく捉えた解釈手法は, 忠実性の低い解釈方法の説明と比較して, 一般的に, fmriデータの標準分析結果と一致しない説明を生成する。 Specifically, we find that interpretation methods that focus on how sensitively a model's decoding decision changes with the values of the input produce explanations that better match with the results of a standard general linear model analysis of the fMRI data, while interpretation methods that focus on identifying the specific contribution of an input feature's value to the decoding decision produce overall more faithful explanations that align less well with the results of standard analyses of the fMRI data.

Deep learning (DL) methods find increasing application in mental state decoding, where researchers seek to understand the mapping between mental states (such as accepting or rejecting a gamble) and brain activity, by identifying those brain regions (and networks) whose activity allows to accurately identify (i.e., decode) these states. Once DL models have been trained to accurately decode a set of mental states, neuroimaging researchers often make use of interpretation methods from explainable artificial intelligence research to understand their learned mappings between mental states and brain activity. Here, we compare the explanations of prominent interpretation methods for the mental state decoding decisions of DL models trained on three functional Magnetic Resonance Imaging (fMRI) datasets. We find that interpretation methods that capture the model's decision process well, by producing faithful explanations, generally produce explanations that are less in line with the results of standard analyses of the fMRI data, when compared to the explanations of interpretation methods with less explanation faithfulness. Specifically, we find that interpretation methods that focus on how sensitively a model's decoding decision changes with the values of the input produce explanations that better match with the results of a standard general linear model analysis of the fMRI data, while interpretation methods that focus on identifying the specific contribution of an input feature's value to the decoding decision produce overall more faithful explanations that align less well with the results of standard analyses of the fMRI data.
翻訳日:2022-06-02 01:00:59 公開日:2022-05-31
# (参考訳) diffeomorphic registrationを用いた脳画像の生成的老化 [全文訳有]

Generative Aging of Brain Images with Diffeomorphic Registration ( http://arxiv.org/abs/2205.15607v1 )

ライセンス: CC BY 4.0
Jingru Fu, Antonios Tzortzakakis, Jos\'e Barroso, Eric Westman, Daniel Ferreira, Rodrigo Moreno(参考訳) 脳の老化の分析と予測は、早期の予後と認知疾患の正確な診断に不可欠である。 磁気共鳴イメージング(MRI)のような神経イメージング技術は、脳内の老化過程を観察する非侵襲的な手段を提供する。 縦方向の画像データ収集では、データ集約人工知能(AI)アルゴリズムが脳の老化を調べるために使われている。 しかし、既存の最先端アルゴリズムはグループレベルの予測に制限され、非現実的な予測に苦しむ傾向がある。 本稿では, 経時的MRI画像から被検体特異的神経変性を捕捉し, 加齢に伴う解剖学的妥当性を維持する手法を提案する。 提案手法はディフォモーフィック登録の枠組みの中で開発され、主題レベルの解剖学的に妥当な予測を生成するための3つの重要な技術進歩に依存している。 一 登録に基づく計算上効率的かつ個別化された生成枠組み 二 生物学的に線形な老化の進行に基づく老化発生モジュール 三 生成タスクの登録に適合する品質管理モジュール 2662 T1-weighted (T1-w) MRIで3種類のコホート群796名を対象に検討を行った。 第1に,提案手法の老化シミュレーション能力を示すために6つの基準を適用し,第2に,定量的測定と定性評価を用いて合成画像の品質評価を行った。 実験結果から, 提案手法は, 縦断データセットの強化に使用できる解剖学的に妥当な予測を生成できることがわかった。

Analyzing and predicting brain aging is essential for early prognosis and accurate diagnosis of cognitive diseases. The technique of neuroimaging, such as Magnetic Resonance Imaging (MRI), provides a noninvasive means of observing the aging process within the brain. With longitudinal image data collection, data-intensive Artificial Intelligence (AI) algorithms have been used to examine brain aging. However, existing state-of-the-art algorithms tend to be restricted to group-level predictions and suffer from unreal predictions. This paper proposes a methodology for generating longitudinal MRI scans that capture subject-specific neurodegeneration and retain anatomical plausibility in aging. The proposed methodology is developed within the framework of diffeomorphic registration and relies on three key novel technological advances to generate subject-level anatomically plausible predictions: i) a computationally efficient and individualized generative framework based on registration; ii) an aging generative module based on biological linear aging progression; iii) a quality control module to fit registration for generation task. Our methodology was evaluated on 2662 T1-weighted (T1-w) MRI scans from 796 participants from three different cohorts. First, we applied 6 commonly used criteria to demonstrate the aging simulation ability of the proposed methodology; Secondly, we evaluated the quality of the synthetic images using quantitative measurements and qualitative assessment by a neuroradiologist. Overall, the experimental results show that the proposed method can produce anatomically plausible predictions that can be used to enhance longitudinal datasets, in turn enabling data-hungry AI-driven healthcare tools.
翻訳日:2022-06-02 00:21:55 公開日:2022-05-31
# (参考訳) ドメイン適応型マルチオブジェクトトラッキングのためのバグ・オブ・トリック [全文訳有]

Bag of Tricks for Domain Adaptive Multi-Object Tracking ( http://arxiv.org/abs/2205.15609v1 )

ライセンス: CC BY 4.0
Minseok Seo, Jeongwon Ryu, Kwangjin Yoon(参考訳) 本稿では,SI Analytics の研究チームが開発した SIA_Track について述べる。 提案手法は追跡・検出パラダイムの下で既存の検出器とトラッカーから構築した。 私たちが使ったトラッカーは、新しく受信した検出情報を既存のトラックにリンクするだけのオンライントラッカーです。 本手法の中核となるのは, 合成およびラベルなし実データがトレーニングにのみ使用される物体検出器の訓練手順である。 実データの性能を最大化するために,まず,合成データセットで学習したモデルを用いて実データに対する不完全なラベルを生成する擬似ラベルを用いることを提案する。 その後, 繰り返し擬似ラベル付け時に生成した重み付けにスープスキームを適用した。 さらに、クロスドメイン混合サンプリングは、実データの検出性能の向上にも寄与した。 SIA_Trackは、BMTT 2022チャレンジでMOTSynth2MOT17トラックで初となる。 コードはhttps://github.com/S IAnalytics/BMTT2022_ SIA_trackで公開されている。

In this paper, SIA_Track is presented which is developed by a research team from SI Analytics. The proposed method was built from pre-existing detector and tracker under the tracking-by-detectio n paradigm. The tracker we used is an online tracker that merely links newly received detections with existing tracks. The core part of our method is training procedure of the object detector where synthetic and unlabeled real data were only used for training. To maximize the performance on real data, we first propose to use pseudo-labeling that generates imperfect labels for real data using a model trained with synthetic dataset. After that model soups scheme was applied to aggregate weights produced during iterative pseudo-labeling. Besides, cross-domain mixed sampling also helped to increase detection performance on real data. Our method, SIA_Track, takes the first place on MOTSynth2MOT17 track at BMTT 2022 challenge. The code is available on https://github.com/S IAnalytics/BMTT2022_ SIA_track.
翻訳日:2022-06-01 23:57:33 公開日:2022-05-31
# (参考訳) 保証付き非凸最適化クラスにおけるスケーラブル分布ロバスト性 [全文訳有]

Scalable Distributional Robustness in a Class of Non Convex Optimization with Guarantees ( http://arxiv.org/abs/2205.15624v1 )

ライセンス: CC BY 4.0
Avinandan Bose, Arunesh Sinha, Tien Mai(参考訳) 分散ロバスト最適化(DRO)は、サンプルベースの最適化問題と同様に、学習におけるロバスト性を提供することに多くの期待を示している。 我々は,施設の位置やセキュリティゲームなどの重要な領域における意思決定に使用される,分数的な非凸最適化のクラスに対して,DROソリューションを提供する。 以前の研究とは対照的に、ミニマックス形式よりも DRO の同値な分散正規化形式を最適化することがより困難である。 分散正規化形式を混合整数型2次円錐プログラム(misocp)に変換し,大域的最適性が保証されているものの,実世界のデータセットで問題を解くには十分にスケールしない。 さらに,クラスタ化と階層化サンプリングに基づく2つの抽象化アプローチを提案する。 重要となるのは,我々のアプローチにほぼ大域的最適性を保証することであり,最先端の勾配に基づく手法で達成された局所的最適値よりも解の質が良好であることを実験的に示すことである。 我々は異なるアプローチとベースラインを実験的に比較し、DRO溶液のニュアンス特性を明らかにする。

Distributionally robust optimization (DRO) has shown lot of promise in providing robustness in learning as well as sample based optimization problems. We endeavor to provide DRO solutions for a class of sum of fractionals, non-convex optimization which is used for decision making in prominent areas such as facility location and security games. In contrast to previous work, we find it more tractable to optimize the equivalent variance regularized form of DRO rather than the minimax form. We transform the variance regularized form to a mixed-integer second order cone program (MISOCP), which, while guaranteeing near global optimality, does not scale enough to solve problems with real world data-sets. We further propose two abstraction approaches based on clustering and stratified sampling to increase scalability, which we then use for real world data-sets. Importantly, we provide near global optimality guarantees for our approach and show experimentally that our solution quality is better than the locally optimal ones achieved by state-of-the-art gradient-based methods. We experimentally compare our different approaches and baselines, and reveal nuanced properties of a DRO solution.
翻訳日:2022-06-01 23:51:53 公開日:2022-05-31
# (参考訳) 微分可能な不変因果発見 [全文訳有]

Differentiable Invariant Causal Discovery ( http://arxiv.org/abs/2205.15638v1 )

ライセンス: CC BY 4.0
Yu Wang, An Zhang, Xiang Wang, Xiangnan He, Tat-Seng Chua(参考訳) 観測データから因果構造を学ぶことは、機械学習の基本的な課題である。 一般的に用いられる微分可能な因果探索法の大部分は識別不可能であり、この問題をデータバイアスによる連続的な最適化タスクに変換する。 多くの実生活環境では、データは異なる環境から収集され、そこでは機能的関係は環境間で一定であり、加法的雑音の分布は様々である。 本稿では,微分可能不変因果関係発見(dicd)を提案し,微分可能枠組みに基づく多環境情報を活用し,スプリアスエッジと誤った因果関係の学習を回避した。 特に、dicdは環境依存相関を取り除きながら、環境不変因果関係を発見することを目的としている。 さらに, 対象構造方程式モデルを強制する制約を定式化し, 環境をまたいで最適に維持する。 提案したDICDの識別可能性に関する理論的保証は,十分な環境条件下で提供される。 合成および実世界のデータセットに関する大規模な実験は、DICDがSHDの36%まで最先端の因果発見手法より優れていることを検証している。 私たちのコードは受け入れ次第オープンソースになります。

Learning causal structure from observational data is a fundamental challenge in machine learning. The majority of commonly used differentiable causal discovery methods are non-identifiable, turning this problem into a continuous optimization task prone to data biases. In many real-life situations, data is collected from different environments, in which the functional relations remain consistent across environments, while the distribution of additive noises may vary. This paper proposes Differentiable Invariant Causal Discovery (DICD), utilizing the multi-environment information based on a differentiable framework to avoid learning spurious edges and wrong causal directions. Specifically, DICD aims to discover the environment-invarian t causation while removing the environment-dependen t correlation. We further formulate the constraint that enforces the target structure equation model to maintain optimal across the environments. Theoretical guarantees for the identifiability of proposed DICD are provided under mild conditions with enough environments. Extensive experiments on synthetic and real-world datasets verify that DICD outperforms state-of-the-art causal discovery methods up to 36% in SHD. Our code will be open-sourced upon acceptance.
翻訳日:2022-06-01 22:59:57 公開日:2022-05-31
# (参考訳) NEWTS:ニューストピックの要約のためのコーパス [全文訳有]

NEWTS: A Corpus for News Topic-Focused Summarization ( http://arxiv.org/abs/2205.15661v1 )

ライセンス: CC BY 4.0
Seyed Ali Bahrainian, Sheridan Feucht, Carsten Eickhoff(参考訳) テキスト要約モデルは人間の忠実度に近づいている。 既存のベンチマークコーパスは、Web、ニュース、プロ向けコンテンツのフルバージョンとアブリッドバージョンのコンコーダントペアを提供する。 現在まで、すべての要約データセットは、すべての有機的な要約要求を反映しない一大のパラダイムの下で運用されている。 最近提案されたいくつかのモデル(例えばプラグ&プレイ言語モデル)は、生成された要約を望ましいテーマの範囲で条件付けする能力を持っている。 これらのキャパシティは、トピックにフォーカスした要約のタスクをサポートする専用のデータセットがないため、ほとんど使われず、未評価のままである。 本稿では,cnn/dailymailデータセットに基づく最初のトピック要約コーパスnewtsを紹介し,オンラインクラウドソーシングによる注釈付けを行う。 各ソース記事は、ソースドキュメントの異なるテーマに焦点を当てた、2つの参照要約とペアリングされる。 既存の技術の代表的範囲を評価し,異なるプロンプト手法の有効性を解析する。

Text summarization models are approaching human levels of fidelity. Existing benchmarking corpora provide concordant pairs of full and abridged versions of Web, news or, professional content. To date, all summarization datasets operate under a one-size-fits-all paradigm that may not reflect the full range of organic summarization needs. Several recently proposed models (e.g., plug and play language models) have the capacity to condition the generated summaries on a desired range of themes. These capacities remain largely unused and unevaluated as there is no dedicated dataset that would support the task of topic-focused summarization. This paper introduces the first topical summarization corpus NEWTS, based on the well-known CNN/Dailymail dataset, and annotated via online crowd-sourcing. Each source article is paired with two reference summaries, each focusing on a different theme of the source document. We evaluate a representative range of existing techniques and analyze the effectiveness of different prompting methods.
翻訳日:2022-06-01 22:34:33 公開日:2022-05-31
# (参考訳) vit-bevseg:単眼鳥眼セグメンテーションのための階層的トランスフォーマーネットワーク [全文訳有]

ViT-BEVSeg: A Hierarchical Transformer Network for Monocular Birds-Eye-View Segmentation ( http://arxiv.org/abs/2205.15667v1 )

ライセンス: CC BY 4.0
Pramit Dutta, Ganesh Sistu, Senthil Yogamani, Edgar Galv\'an and John McDonald(参考訳) 環境の詳細な近接場知覚モデルの生成は、自動運転車と自律移動ロボットの両方において重要かつ困難な問題である。 バードアイビュー(英: Bird Eye View、BEV)は、多くのダウンストリームタスクに対して正確なセマンティックレベルセグメンテーションを備えた、車両を取り巻く2D表現を単純化する手法である。 現在のBEVマップ生成技術では、畳み込みニューラルネットワーク(CNN)のバックボーンを使用し、空間トランスフォーマーを介して派生した特徴をBEV座標フレームに投影する特徴マップを作成する。 本稿では、BEVマップを生成するためのバックボーンアーキテクチャとして、視覚変換器(ViT)の使用を評価する。 我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。 得られた表現は、BEVグリッド内のセグメントマップを出力する空間変換器デコーダモジュールへの入力として提供される。 我々は,最新技術に対する性能改善を示すnuScenesデータセットに対するアプローチを評価した。

Generating a detailed near-field perceptual model of the environment is an important and challenging problem in both self-driving vehicles and autonomous mobile robotics. A Bird Eye View (BEV) map, providing a panoptic representation, is a commonly used approach that provides a simplified 2D representation of the vehicle surroundings with accurate semantic level segmentation for many downstream tasks. Current state-of-the art approaches to generate BEV-maps employ a Convolutional Neural Network (CNN) backbone to create feature-maps which are passed through a spatial transformer to project the derived features onto the BEV coordinate frame. In this paper, we evaluate the use of vision transformers (ViT) as a backbone architecture to generate BEV maps. Our network architecture, ViT-BEVSeg, employs standard vision transformers to generate a multi-scale representation of the input image. The resulting representation is then provided as an input to a spatial transformer decoder module which outputs segmentation maps in the BEV grid. We evaluate our approach on the nuScenes dataset demonstrating a considerable improvement in the performance relative to state-of-the-art approaches.
翻訳日:2022-06-01 22:19:55 公開日:2022-05-31
# (参考訳) WALDOを用いたシミュレーションに基づく推論: 予測・後推定アルゴリズムを用いた完全校正信頼領域 [全文訳有]

Simulation-Based Inference with WALDO: Perfectly Calibrated Confidence Regions Using Any Prediction or Posterior Estimation Algorithm ( http://arxiv.org/abs/2205.15680v1 )

ライセンス: CC BY 4.0
Luca Masserano, Tommaso Dorigo, Rafael Izbicki, Mikael Kuusela, Ann B. Lee(参考訳) 現代の機械学習の大半は予測問題をターゲットにしており、Deep Neural Networksのようなアルゴリズムは高次元の複雑なデータに対する点予測の精度に革命をもたらした。 予測的アプローチは、理論シミュレータに基づくモデルに興味のある内部パラメータを直接推定するために、多くのドメイン科学で使われている。 並行して、一般的な選択肢は、流れの正規化のような現代の神経密度推定器を用いて、全後方の推定に焦点を当てている。 しかしながら、シミュレーションベース推論(sbi)におけるオープン問題は、名目条件範囲と高出力を持つ内部パラメータの信頼領域を適切に調整する方法である。 多くのSBI法は、非常に確実な後続近似を生成することが知られており、誤った不確実性推定をもたらす。 同様に、ディープラーニングにおける不確実性定量化に対する既存のアプローチは、条件付きカバレッジを保証しない。 本研究では,SBIにおける信頼領域を正確に調整する新しい手法であるWALDOを提案する。 WALDO はよく知られた Wald テストを再設計し、Neyman の逆変換を用いて任意の予測や後続推定アルゴリズムから有限サンプルサイズであっても正しい条件付き信頼セットに変換する。 実例として、WALDOを用いて高エネルギー物理学における粒子エネルギーの深層学習予測手法を再構成して、正しいカバレッジと高出力で信頼区間を生成する方法を示す。

The vast majority of modern machine learning targets prediction problems, with algorithms such as Deep Neural Networks revolutionizing the accuracy of point predictions for high-dimensional complex data. Predictive approaches are now used in many domain sciences to directly estimate internal parameters of interest in theoretical simulator-based models. In parallel, common alternatives focus on estimating the full posterior using modern neural density estimators such as normalizing flows. However, an open problem in simulation-based inference (SBI) is how to construct properly calibrated confidence regions for internal parameters with nominal conditional coverage and high power. Many SBI methods are indeed known to produce overly confident posterior approximations, yielding misleading uncertainty estimates. Similarly, existing approaches for uncertainty quantification in deep learning provide no guarantees on conditional coverage. In this work, we present WALDO, a novel method for constructing correctly calibrated confidence regions in SBI. WALDO reframes the well-known Wald test and uses Neyman inversion to convert point predictions and posteriors from any prediction or posterior estimation algorithm to confidence sets with correct conditional coverage, even for finite sample sizes. As a concrete example, we demonstrate how a recently proposed deep learning prediction approach for particle energies in high-energy physics can be recalibrated using WALDO to produce confidence intervals with correct coverage and high power.
翻訳日:2022-06-01 22:09:32 公開日:2022-05-31
# (参考訳) NLPモデルはなぜ初等数学で融合するのか? 深層学習に基づく単語問題解の探索 [全文訳有]

Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers ( http://arxiv.org/abs/2205.15683v1 )

ライセンス: CC BY 4.0
Sowmya S Sundaram, Sairam Gurajada, Marco Fisichella, Deepak P, Savitha Sam Abraham(参考訳) この10年後半から、数学的単語問題(MWP)を自動的に解くアルゴリズムの開発への関心が高まっている。 表面レベルのテキストパターン認識と数学的推論のブレンドを必要とする、挑戦的でユニークなタスクである。 広範な研究にもかかわらず、基本的な数学用語の問題や一般的なタスクに対する効果的な解決策の堅牢な表現の構築には程遠い。 本稿では,単語問題を解決するために開発された様々なモデル,その長所と短所,今後の課題について批判的に検討する。 過去2年間、多くのディープラーニングモデルがベンチマークデータセットで競合する結果を記録しており、この統合で文学の批判的かつ概念的な分析は非常に有用である。 学術的な関心が豊富にあるにもかかわらず、主に使われている実験とデータセットの設計が、いまだに崩壊し続けている理由を分析して分析する。 文献を綿密に分析した先駆的視点から,今後の数学用語問題研究への道筋地図の提供にも尽力した。

From the latter half of the last decade, there has been a growing interest in developing algorithms for automatically solving mathematical word problems (MWP). It is a challenging and unique task that demands blending surface level text pattern recognition with mathematical reasoning. In spite of extensive research, we are still miles away from building robust representations of elementary math word problems and effective solutions for the general task. In this paper, we critically examine the various models that have been developed for solving word problems, their pros and cons and the challenges ahead. In the last two years, a lot of deep learning models have recorded competing results on benchmark datasets, making a critical and conceptual analysis of literature highly useful at this juncture. We take a step back and analyse why, in spite of this abundance in scholarly interest, the predominantly used experiment and dataset designs continue to be a stumbling block. From the vantage point of having analyzed the literature closely, we also endeavour to provide a road-map for future math word problem research.
翻訳日:2022-06-01 21:49:12 公開日:2022-05-31
# (参考訳) 情報空間に基づく科学テキストのセマンティック分析 [全文訳有]

An Informational Space Based Semantic Analysis for Scientific Texts ( http://arxiv.org/abs/2205.15696v1 )

ライセンス: CC BY 4.0
Neslihan Suzen, Alexander N. Gorban, Jeremy Levesley and Evgeny M. Mirkes(参考訳) 自然言語処理における大きな問題は、人間の言語の自動解析と表現である。 人間の言語は、意味論の曖昧さと深い理解と、人間と機械の相互作用を生み出すには、コミュニケーションの行為のためのスキームを作成し、テキストで「意味」を意味する共通知識ベースを構築する努力が必要である。 本稿では,意味分析のための計算手法と短文の意味の定量化について述べる。 意味的特徴を抽出する計算手法は、新たに作成された科学論文集Leicester Scientific Corpusにおいて、メッセージのテキストと「状況の表現」の関係を分析するために用いられる。 科学固有の意味の表現は、心理学的性質ではなく状況表現をいくつかの属性のベクトルに置き換えることで標準化される。 まず,「意味空間」について,各分野にまたがるテキスト中の単語の出現から意味の表現を抽出し,その意味を関連情報ゲインのベクトルで表現する手法を提案する。 そこで,Leicester Scientific Dictionary-Coreでは,意味空間を統計的に分析し,意味の適切な次元を記述するために「意味の主成分」について検討する。 本研究は,テキストの意味の幾何学的表現の基礎となる研究である。

One major problem in Natural Language Processing is the automatic analysis and representation of human language. Human language is ambiguous and deeper understanding of semantics and creating human-to-machine interaction have required an effort in creating the schemes for act of communication and building common-sense knowledge bases for the 'meaning' in texts. This paper introduces computational methods for semantic analysis and the quantifying the meaning of short scientific texts. Computational methods extracting semantic feature are used to analyse the relations between texts of messages and 'representations of situations' for a newly created large collection of scientific texts, Leicester Scientific Corpus. The representation of scientific-specific meaning is standardised by replacing the situation representations, rather than psychological properties, with the vectors of some attributes: a list of scientific subject categories that the text belongs to. First, this paper introduces 'Meaning Space' in which the informational representation of the meaning is extracted from the occurrence of the word in texts across the scientific categories, i.e., the meaning of a word is represented by a vector of Relative Information Gain about the subject categories. Then, the meaning space is statistically analysed for Leicester Scientific Dictionary-Core and we investigate 'Principal Components of the Meaning' to describe the adequate dimensions of the meaning. The research in this paper conducts the base for the geometric representation of the meaning of texts.
翻訳日:2022-06-01 21:27:07 公開日:2022-05-31
# (参考訳) リー群における機械学習とSDEによる評価遷移モデリングの新しいアプローチ [全文訳有]

A novel approach to rating transition modelling via Machine Learning and SDEs on Lie groups ( http://arxiv.org/abs/2205.15699v1 )

ライセンス: CC BY 4.0
Kevin Kamm and Michelle Muniz(参考訳) 本稿では,確率過程を用いて評価遷移をモデル化する新しい手法を提案する。 評価行列が有効である確率過程を導入するために,確率行列の幾何学的性質と行列リー群との関係に気づいた。 本稿では、このトピックについて穏やかな紹介を行い、R における It\^o-SDE がどのように評価遷移の望ましいモデルを生成するかを示す。 評価モデルを履歴データに校正するために,TimeGANと呼ばれるDeep-Neural-Network( DNN)を用いて,時系列の履歴評価行列の特徴を学習する。 そして、このDNNを用いて合成評価遷移行列を生成する。 その後、生成された評価行列のモーメントと、特定の時点における評価プロセスに適合し、その結果、良好な適合性が得られる。 キャリブレーション後,時系列のレイティング行列が満足すべき性質を検証し,キャリブレーション評価遷移過程の質について検討し,この幾何学的手法がうまく機能することを示す。

In this paper, we introduce a novel methodology to model rating transitions with a stochastic process. To introduce stochastic processes, whose values are valid rating matrices, we noticed the geometric properties of stochastic matrices and its link to matrix Lie groups. We give a gentle introduction to this topic and demonstrate how It\^o-SDEs in R will generate the desired model for rating transitions. To calibrate the rating model to historical data, we use a Deep-Neural-Network (DNN) called TimeGAN to learn the features of a time series of historical rating matrices. Then, we use this DNN to generate synthetic rating transition matrices. Afterwards, we fit the moments of the generated rating matrices and the rating process at specific time points, which results in a good fit. After calibration, we discuss the quality of the calibrated rating transition process by examining some properties that a time series of rating matrices should satisfy, and we will see that this geometric approach works very well.
翻訳日:2022-06-01 21:11:36 公開日:2022-05-31
# (参考訳) 量子化の一損失:離散Wasserstein分布マッチングによるディープハッシュ

One Loss for Quantization: Deep Hashing with Discrete Wasserstein Distributional Matching ( http://arxiv.org/abs/2205.15721v1 )

ライセンス: CC BY 4.0
Khoa D. Doan, Peng Yang, Ping Li(参考訳) イメージハッシュ(英: image hashing)は、画像の大規模なコレクションでクエリーと類似のアイテムを見つけるための原則に基づく近似的な近接アプローチである。 Hashingは、イメージをバイナリベクトルにマップするバイナリ出力関数を学ぶことを目的としている。 最適な検索性能を得るためには, 学習段階の連続緩和と推定段階の離散量子化とのギャップを埋めるために, 低量子化誤差のバランス付きハッシュ符号を生成することが重要である。 しかし、既存の深層教師付きハッシュ手法では、符号化バランスと低量子化誤差は達成が困難であり、いくつかの損失が伴う。 これは、既存の量子化手法がヒューリスティックに構築されており、これらの目的を達成するには効果がないためである。 本稿では,量子化制約を学習するための代替手法を検討する。 低量子化誤差でバランスの取れた符号を学習するタスクは、連続符号の学習された分布と事前定義された離散的一様分布とを一致させるものとして再形成される。 これは2つの分布間の距離を最小化するのと同値である。 次に,ハッシュ関数の離散特性を利用した計算効率の良い分布距離を提案する。 この分布距離は有効な距離であり、より短い時間とサンプルの複雑さを楽しむ。 提案する単一損失量子化の目的は、コードバランスと量子化エラーを改善するために、既存の教師付きハッシュ手法に統合することができる。 実験により,提案手法がいくつかの代表ハッシュ法の性能を大幅に向上させることを確認した。

Image hashing is a principled approximate nearest neighbor approach to find similar items to a query in a large collection of images. Hashing aims to learn a binary-output function that maps an image to a binary vector. For optimal retrieval performance, producing balanced hash codes with low-quantization error to bridge the gap between the learning stage's continuous relaxation and the inference stage's discrete quantization is important. However, in the existing deep supervised hashing methods, coding balance and low-quantization error are difficult to achieve and involve several losses. We argue that this is because the existing quantization approaches in these methods are heuristically constructed and not effective to achieve these objectives. This paper considers an alternative approach to learning the quantization constraints. The task of learning balanced codes with low quantization error is re-formulated as matching the learned distribution of the continuous codes to a pre-defined discrete, uniform distribution. This is equivalent to minimizing the distance between two distributions. We then propose a computationally efficient distributional distance by leveraging the discrete property of the hash functions. This distributional distance is a valid distance and enjoys lower time and sample complexities. The proposed single-loss quantization objective can be integrated into any existing supervised hashing method to improve code balance and quantization error. Experiments confirm that the proposed approach substantially improves the performance of several representative hashing~methods.
翻訳日:2022-06-01 20:52:47 公開日:2022-05-31
# (参考訳) ViNNPruner: ディープラーニングのためのビジュアルインタラクティブプルーニング [全文訳有]

ViNNPruner: Visual Interactive Pruning for Deep Learning ( http://arxiv.org/abs/2205.15731v1 )

ライセンス: CC BY 4.0
Udo Schlegel, Samuel Schiegg, Daniel A. Keim(参考訳) ニューラルネットワークは、より高度なタスクに取り組むために大きく成長する。 多くの場合、そのような大規模なネットワークは特定のハードウェアにデプロイできず、サイズを小さくする必要がある。 プルーニング技術は、パフォーマンスをできるだけ小さくすることで、ディープニューラルネットワークをより小さなサイズに縮小するのに役立つ。 しかし、そのような刈り取りアルゴリズムは、それらを適用することで理解しづらいことが多く、ユーザー目標に悪影響を与える可能性のあるドメイン知識を含まない。 我々は,最先端のプルーニングアルゴリズムを実装した視覚対話型プルーニングアプリケーションViNNPrunerと,その知識に基づいて手動プルーニングを行うオプションを提案する。 アプリケーションがどのようにして自動刈り込みアルゴリズムや半自動刈り込みネットワークの洞察を得やすくし、インタラクティブな視覚化によりより効率的に行うかを示す。

Neural networks grow vastly in size to tackle more sophisticated tasks. In many cases, such large networks are not deployable on particular hardware and need to be reduced in size. Pruning techniques help to shrink deep neural networks to smaller sizes by only decreasing their performance as little as possible. However, such pruning algorithms are often hard to understand by applying them and do not include domain knowledge which can potentially be bad for user goals. We propose ViNNPruner, a visual interactive pruning application that implements state-of-the-art pruning algorithms and the option for users to do manual pruning based on their knowledge. We show how the application facilitates gaining insights into automatic pruning algorithms and semi-automatically pruning oversized networks to make them more efficient using interactive visualizations.
翻訳日:2022-06-01 20:51:43 公開日:2022-05-31
# (参考訳) 関係領域のための知識強化ニューラルネットワーク [全文訳有]

Knowledge Enhanced Neural Networks for relational domains ( http://arxiv.org/abs/2205.15762v1 )

ライセンス: CC BY 4.0
Alessandro Daniele, Luciano Serafini(参考訳) 近年、ニューラル・シンボリック統合フレームワーク、すなわち接続主義とシンボリックなアプローチを統合して両世界のベストを得るハイブリッドシステムへの関心が高まっている。 本研究では、ニューラルネットワークに事前の論理知識を注入するニューラルシンボリックアーキテクチャであるkenn(knowledge enhanced neural networks)という特定の手法に注目した。 この戦略の利点の1つは、節の重み、節の強さを表す学習可能なパラメータ、すなわちモデルが各ルールが最終的な予測に与える影響を学ぶことができることである。 特別な場合として、トレーニングデータが制約に矛盾する場合、KENNはそれを無視することを学び、システムが間違った知識の存在に対して堅牢になる。 本稿では,関係データに対するKENNの拡張を提案する。 KENNの主な利点の1つは、複数の論理層を積み重ねることで得られるルール間の依存関係を柔軟に扱うことによるスケーラビリティにある。 この戦略の有効性を実験的に示す。 その結果、KENNは基礎となるニューラルネットワークの性能を向上することができ、学習と論理を結合する他の2つの関連手法と比較して、より良いあるいは同等の精度を得ることができ、学習に要する時間を大幅に削減できることがわかった。

In the recent past, there has been a growing interest in Neural-Symbolic Integration frameworks, i.e., hybrid systems that integrate connectionist and symbolic approaches to obtain the best of both worlds. In this work we focus on a specific method, KENN (Knowledge Enhanced Neural Networks), a Neural-Symbolic architecture that injects prior logical knowledge into a neural network by adding on its top a residual layer that modifies the initial predictions accordingly to the knowledge. Among the advantages of this strategy, there is the inclusion of clause weights, learnable parameters that represent the strength of the clauses, meaning that the model can learn the impact of each rule on the final predictions. As a special case, if the training data contradicts a constraint, KENN learns to ignore it, making the system robust to the presence of wrong knowledge. In this paper, we propose an extension of KENN for relational data. One of the main advantages of KENN resides in its scalability, thanks to a flexible treatment of dependencies between the rules obtained by stacking multiple logical layers. We show experimentally the efficacy of this strategy. The results show that KENN is capable of increasing the performances of the underlying neural network, obtaining better or comparable accuracies in respect to other two related methods that combine learning with logic, requiring significantly less time for learning.
翻訳日:2022-06-01 20:45:12 公開日:2022-05-31
# (参考訳) ハイパースペクトル画像のトモグラフィ再構成のための畳み込みニューラルネットワークと期待最大化アルゴリズムのハイブリッドアプローチ

The hybrid approach -- Convolutional Neural Networks and Expectation Maximization Algorithm -- for Tomographic Reconstruction of Hyperspectral Images ( http://arxiv.org/abs/2205.15772v1 )

ライセンス: CC BY 4.0
Mads J. Ahleb{\ae}k, Mads S. Peters, Wei-Chih Huang, Mads T. Frandsen, Ren\'e L. Eriksen, Bjarke J{\o}rgensen(参考訳) ニューラルネットワークと反復的期待最大化(em)アルゴリズムを逐次結合したct画像解析(ctis)画像から,超スペクトルデータキューブ再構成のための簡易かつ新しいハイブリッド手法を提案する。 我々は,ctisシミュレータによって生成されたシミュレーションctis画像から,25~100のスペクトルチャネルに対応する100\times100\times25 $と100\times100$voxelsのデータキューブを再構成する手法の訓練とテストを行った。 このハイブリッドアプローチは、ノイズに対する畳み込みニューラルネットワーク(cnn)の固有の強みと一貫した再構成を可能にする能力を利用し、トレーニングなしで任意の物体のスペクトル画像に一般化するemアルゴリズムの能力を利用する。 ハイブリッドアプローチは、25チャンネルと100チャンネルの両方のケースにおいて、CNNトレーニング(CNNトレーニングを含む)と見えないキューブ(CNNトレーニングを除く)の両方に対して、CNNとEM単独よりも優れたパフォーマンスを達成する。 25のスペクトルチャネルでは、平均二乗誤差の点でCNNからハイブリッドモデル(CNN + EM)への改善は14~26%である。 100のスペクトルチャネルにおいて、19~40%の改善は、トレーニング中にCNNが露出しない、見えないデータに対する40%の最大の改善によって達成される。

We present a simple but novel hybrid approach to hyperspectral data cube reconstruction from computed tomography imaging spectrometry (CTIS) images that sequentially combines neural networks and the iterative Expectation Maximization (EM) algorithm. We train and test the ability of the method to reconstruct data cubes of $100\times100\times2 5$ and $100\times100\times1 00$ voxels, corresponding to 25 and 100 spectral channels, from simulated CTIS images generated by our CTIS simulator. The hybrid approach utilizes the inherent strength of the Convolutional Neural Network (CNN) with regard to noise and its ability to yield consistent reconstructions and make use of the EM algorithm's ability to generalize to spectral images of any object without training. The hybrid approach achieves better performance than both the CNNs and EM alone for seen (included in CNN training) and unseen (excluded from CNN training) cubes for both the 25- and 100-channel cases. For the 25 spectral channels, the improvements from CNN to the hybrid model (CNN + EM) in terms of the mean-squared errors are between 14-26%. For 100 spectral channels, the improvements between 19-40% are attained with the largest improvement of 40% for the unseen data, to which the CNNs are not exposed during the training.
翻訳日:2022-06-01 20:32:35 公開日:2022-05-31
# (参考訳) セマンティックセグメンテーションモデルの教師なしドメイン適応のための共同学習 [全文訳有]

Co-Training for Unsupervised Domain Adaptation of Semantic Segmentation Models ( http://arxiv.org/abs/2205.15781v1 )

ライセンス: CC BY 4.0
Jose L. G\'omez, Gabriel Villalonga and Antonio M. L\'opez(参考訳) セマンティックイメージセグメンテーションは、深層モデルのトレーニングによって対処される。 教師付きトレーニングは人間による画像ラベリングの呪いに結びついているので、自動生成された地上の真実と、ラベルなしの現実世界の画像との合成画像を使うことは、有望な代替手段である。 これは、教師なしドメイン適応(UDA)問題に対処することを意味する。 本稿では,セマンティックセグメンテーションモデルの合成と実 UDA の協調学習手法を提案する。 まず、2つの初期モデルを提供する自己学習手順を設計する。 そして、最終的なモデルを得るために、これらのモデルを協調的にトレーニングし続ける。 全体的なプロセスは、深いモデルをブラックボックスとして扱い、それらのコラボレーションを擬似ラベル付きターゲット画像のレベルで推進し、損失関数の変更も明示的な特徴アライメントも必要としない。 提案手法は,標準合成および実世界のデータセットを用いて検証する。 共同トレーニングでは,mIoUの基準値よりも15~20ポイント向上し,新たな最先端結果が得られた。

Semantic image segmentation is addressed by training deep models. Since supervised training draws to a curse of human-based image labeling, using synthetic images with automatically generated ground truth together with unlabeled real-world images is a promising alternative. This implies to address an unsupervised domain adaptation (UDA) problem. In this paper, we proposed a new co-training process for synth-to-real UDA of semantic segmentation models. First, we design a self-training procedure which provides two initial models. Then, we keep training these models in a collaborative manner for obtaining the final model. The overall process treats the deep models as black boxes and drives their collaboration at the level of pseudo-labeled target images, {\ie}, neither modifying loss functions is required, nor explicit feature alignment. We test our proposal on standard synthetic and real-world datasets. Our co-training shows improvements of 15-20 percentage points of mIoU over baselines, so establishing new state-of-the-art results.
翻訳日:2022-06-01 20:29:32 公開日:2022-05-31
# (参考訳) 裁判裁判所における深度フェイク検出の実態調査 [全文訳有]

A Survey of Deep Fake Detection for Trial Courts ( http://arxiv.org/abs/2205.15792v1 )

ライセンス: CC BY-SA 4.0
Naciye Celebi, Qingzhong Liu, Muhammed Karatoprak(参考訳) 近年,高度な画像編集ツールの進歩により,画像操作が急速に成長している。 最近のニューラルネットワークを使った偽画像やビデオの急増はDeepFakeだ。 deepfakeアルゴリズムは、人間が本物のものと区別できない偽の画像やビデオを作成できる。 (ガン)は原画像にアクセスせずに写実的な画像を作成するために広く用いられてきた。 そのため,偽情報を拡散しないように偽ビデオを検出することが重要である。 本稿では,文献中のDeepFakeを検出可能なDeepFakeとデータセットの検索方法について述べる。 本稿ではDeepFake技術に関する広範な議論と研究動向を紹介する。

Recently, image manipulation has achieved rapid growth due to the advancement of sophisticated image editing tools. A recent surge of generated fake imagery and videos using neural networks is DeepFake. DeepFake algorithms can create fake images and videos that humans cannot distinguish from authentic ones. (GANs) have been extensively used for creating realistic images without accessing the original images. Therefore, it is become essential to detect fake videos to avoid spreading false information. This paper presents a survey of methods used to detect DeepFakes and datasets available for detecting DeepFakes in the literature to date. We present extensive discussions and research trends related to DeepFake technologies.
翻訳日:2022-06-01 20:07:32 公開日:2022-05-31
# (参考訳) クラウドにおける予測オートスケーリングのためのメタ強化学習手法

A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud ( http://arxiv.org/abs/2205.15795v1 )

ライセンス: CC BY 4.0
Siqiao Xue, Chao Qu, Xiaoming Shi, Cong Liao, Shiyi Zhu, Xiaoyu Tan, Lintao Ma, Shiyu Wang, Shijun Wang, Yun Hu, Lei Lei, Yangfei Zheng, Jianguo Li, James Zhang(参考訳) 予測オートスケーリング(ワークロード予測による自動スケーリング)は、クラウド内の変動するワークロード要求に応じて、コンピューティングリソースの自律的な調整をサポートする重要なメカニズムである。 近年,動的で不確定なクラウド環境下でのスケーリング動作を導くためのリソース管理ポリシを学ぶための有望なアプローチとして,強化学習(rl)が導入された。 しかし、RL法は、意思決定における精度の欠如、非効率なサンプリング、テスト時にポリシーが失敗する可能性のあるワークロードパターンの顕著な変動など、予測オートスケーリングを操る上で、次の課題に直面している。 そこで本研究では,エンド・ツー・エンドの予測メタモデルに基づくrlアルゴリズムを提案する。このアルゴリズムは,リソースを最適に割り当てて安定したcpu利用レベルを維持することを目的としており,特に設計した深層周期負荷予測モデルを入力として組み込んで,ニューラルネットワークを組み込み,クラウド上の多数のアプリケーションサービスに対する最適なスケーリング動作の学習を導く。 当社のアルゴリズムは,スケーリング戦略の予測可能性と精度を確保するだけでなく,スケーリング決定が変化するワークロードに高いサンプル効率で適応できるようにする。 本手法は,既存のアルゴリズムと比較して大幅な性能向上を達成し,alipayでオンライン展開され,世界有価証券プラットフォームのアプリケーションの自動スケーリングをサポートする。

Predictive autoscaling (autoscaling with workload forecasting) is an important mechanism that supports autonomous adjustment of computing resources in accordance with fluctuating workload demands in the Cloud. In recent works, Reinforcement Learning (RL) has been introduced as a promising approach to learn the resource management policies to guide the scaling actions under the dynamic and uncertain cloud environment. However, RL methods face the following challenges in steering predictive autoscaling, such as lack of accuracy in decision-making, inefficient sampling and significant variability in workload patterns that may cause policies to fail at test time. To this end, we propose an end-to-end predictive meta model-based RL algorithm, aiming to optimally allocate resource to maintain a stable CPU utilization level, which incorporates a specially-designed deep periodic workload prediction model as the input and embeds the Neural Process to guide the learning of the optimal scaling actions over numerous application services in the Cloud. Our algorithm not only ensures the predictability and accuracy of the scaling strategy, but also enables the scaling decisions to adapt to the changing workloads with high sample efficiency. Our method has achieved significant performance improvement compared to the existing algorithms and has been deployed online at Alipay, supporting the autoscaling of applications for the world-leading payment platform.
翻訳日:2022-06-01 19:54:38 公開日:2022-05-31
# (参考訳) 自己教師型音声モデルは人間の知覚バイアスを発達させるか? [全文訳有]

Do self-supervised speech models develop human-like perception biases? ( http://arxiv.org/abs/2205.15819v1 )

ライセンス: CC BY 4.0
Juliette Millet, Ewan Dunbar(参考訳) 外部ラベルを使わずに音声処理形式表現空間のための自己教師付きモデル コストのかかる手動アノテーションを少なくとも部分的に取り除くための実現可能な方法として,低リソース言語の特に懸念事項が増している。 しかし、これらのモデルはどのような表現空間を構成するのか? 人間の知覚は聞き手の母語の音に特化する。 同じことが自己監督モデルでも起こるのか? 我々は,3種類の最先端自己教師モデル(wav2vec 2.0, HuBERT, およびコントラスト予測符号化(CPC))の表現空間について検討し, 両言語群間の行動的差異を考慮して, フランス語話者と英語話者の知覚空間と比較した。 CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。 教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母語が知覚に与える影響を捉えている。

Self-supervised models for speech processing form representational spaces without using any external labels. Increasingly, they appear to be a feasible way of at least partially eliminating costly manual annotations, a problem of particular concern for low-resource languages. But what kind of representational spaces do these models construct? Human perception specializes to the sounds of listeners' native languages. Does the same thing happen in self-supervised models? We examine the representational spaces of three kinds of state-of-the-art self-supervised models: wav2vec 2.0, HuBERT and contrastive predictive coding (CPC), and compare them with the perceptual spaces of French-speaking and English-speaking human listeners, both globally and taking account of the behavioural differences between the two language groups. We show that the CPC model shows a small native language effect, but that wav2vec 2.0 and HuBERT seem to develop a universal speech perception space which is not language specific. A comparison against the predictions of supervised phone recognisers suggests that all three self-supervised models capture relatively fine-grained perceptual phenomena, while supervised models are better at capturing coarser, phone-level, effects of listeners' native language, on perception.
翻訳日:2022-06-01 19:44:49 公開日:2022-05-31
# (参考訳) 知覚同化モデルと最先端音響モデルを用いた非ネイティブ音声知覚予測 [全文訳有]

Predicting non-native speech perception using the Perceptual Assimilation Model and state-of-the-art acoustic models ( http://arxiv.org/abs/2205.15823v1 )

ライセンス: CC BY 4.0
Juliette Millet, Ioana Chitoran, Ewan Dunbar(参考訳) 我々の母国語は、音声を知覚する方法に影響を与え、非母国語を識別する能力に影響を与える。 自然言語が音声知覚に与える影響について, 知覚的同化モデル(知覚同化モデル)を母語音素カテゴリーに分類し, 豊かできめ細かい音声表現を母語の統計に合わせた場合, 十分である, という2つの概念を比較した。 我々はこのアイデアを、2つの最先端音声モデル、ディリクレプロセスガウス混合モデル、より最近のwav2vec 2.0モデルの表現を用いて運用する。 本研究では、6言語61母音に対するフランス語および英語話者の音声知覚行動の新しいオープンデータセットを提案する。 音素同化は, 識別行動全体および母国語背景の差異に伴う識別可能性の差を予測するため, 細粒度音声モデルよりも優れた予測因子であることを示す。 また、wav2vec 2.0は、ネイティブ言語が音声知覚に与える影響を捉えるのが苦手であるが、ネイティブ音素同化の情報と相補的であり、低レベルの音声表現の優れたモデルを提供し、音声知覚において分類的および微粒な知覚の両方が使用されるという考えを支持する。

Our native language influences the way we perceive speech sounds, affecting our ability to discriminate non-native sounds. We compare two ideas about the influence of the native language on speech perception: the Perceptual Assimilation Model, which appeals to a mental classification of sounds into native phoneme categories, versus the idea that rich, fine-grained phonetic representations tuned to the statistics of the native language, are sufficient. We operationalize this idea using representations from two state-of-the-art speech models, a Dirichlet process Gaussian mixture model and the more recent wav2vec 2.0 model. We present a new, open dataset of French- and English-speaking participants' speech perception behaviour for 61 vowel sounds from six languages. We show that phoneme assimilation is a better predictor than fine-grained phonetic modelling, both for the discrimination behaviour as a whole, and for predicting differences in discriminability associated with differences in native language background. We also show that wav2vec 2.0, while not good at capturing the effects of native language on speech perception, is complementary to information about native phoneme assimilation, and provides a good model of low-level phonetic representations, supporting the idea that both categorical and fine-grained perception are used during speech perception.
翻訳日:2022-06-01 19:25:10 公開日:2022-05-31
# (参考訳) マルコフ決定過程のロバストな時間学習 [全文訳有]

Robust Anytime Learning of Markov Decision Processes ( http://arxiv.org/abs/2205.15827v1 )

ライセンス: CC BY 4.0
Marnix Suilen, Thiago D. Sim\~ao, Nils Jansen, David Parker(参考訳) マルコフ決定プロセス(MDPs)は、シーケンシャルな意思決定で一般的に使用される形式モデルである。 MDPは、例えば遷移関数の確率を通じて不正確なアクチュエータから生じる確率をキャプチャする。 しかし、データ駆動のアプリケーションでは、(限られた)データから正確な確率を導き出すと、予期しない結果や望ましくない結果につながる統計的エラーが生じる。 不確実なMDP (uMDPs) は正確な確率を必要としないが、そのような制限されたデータを考慮して、遷移においていわゆる不確実性セットを使用する。 形式検証コミュニティのツールは、不確実性セットの最悪の例の下で、安全制約のような形式的仕様に確実に準拠する堅牢なポリシーを効率的に計算します。 我々は、ベイズ推論スキームとロバストポリシーの計算を組み合わせた頑健な任意の時間学習アプローチで、MDPの遷移確率を継続的に学習する。 特に,(1)間隔として確率を近似し,(2)中間モデルと矛盾する可能性のある新しいデータに適応し,(3)データを忠実にキャプチャするumdp上の強固なポリシーを計算するためにいつでも停止することができる。 本手法の有効性をucrl2強化学習アルゴリズムで学習したumdpsに基づく強固なポリシーと比較し,いくつかのベンチマークにおける実験評価を行った。

Markov decision processes (MDPs) are formal models commonly used in sequential decision-making. MDPs capture the stochasticity that may arise, for instance, from imprecise actuators via probabilities in the transition function. However, in data-driven applications, deriving precise probabilities from (limited) data introduces statistical errors that may lead to unexpected or undesirable outcomes. Uncertain MDPs (uMDPs) do not require precise probabilities but instead use so-called uncertainty sets in the transitions, accounting for such limited data. Tools from the formal verification community efficiently compute robust policies that provably adhere to formal specifications, like safety constraints, under the worst-case instance in the uncertainty set. We continuously learn the transition probabilities of an MDP in a robust anytime-learning approach that combines a dedicated Bayesian inference scheme with the computation of robust policies. In particular, our method (1) approximates probabilities as intervals, (2) adapts to new data that may be inconsistent with an intermediate model, and (3) may be stopped at any time to compute a robust policy on the uMDP that faithfully captures the data so far. We show the effectiveness of our approach and compare it to robust policies computed on uMDPs learned by the UCRL2 reinforcement learning algorithm in an experimental evaluation on several benchmarks.
翻訳日:2022-06-01 19:07:54 公開日:2022-05-31
# (参考訳) 視覚トランスフォーマによる表面分析 [全文訳有]

Surface Analysis with Vision Transformers ( http://arxiv.org/abs/2205.15836v1 )

ライセンス: CC BY 4.0
Simon Dahan, Logan Z. J. Williams, Abdulah Fawaz, Daniel Rueckert, Emma C. Robinson(参考訳) 畳み込みニューラルネットワーク(CNN)の非ユークリッド幾何学への拡張は、多様体を研究するための複数のフレームワークにつながった。 これらの方法の多くは、不規則曲面への畳み込みの一般化は非自明であるため、長距離関連のモデル化が不十分な設計上の限界を示している。 視覚トランスフォーマー(vits)の最近の最先端性能は、セルフアテンションを実装した汎用アーキテクチャが、cnnのローカル機能学習操作を置き換えることができることを示している。 コンピュータビジョンにおける注意モデリングの成功に動機づけられ,表面学習のタスクをシーケンス・トゥ・シーケンス問題として再構成し,表面メッシュへのパッチ適用機構を提案する。 本研究は,Human Connectome Project (dHCP) データセットにおける2つの脳年齢予測タスクにおけるSurface Vision Transformer (SiT) の性能を検証し,事前学習がモデル性能に与える影響について検討する。 実験により、SiTは多くの表面CNNよりも優れており、一般的な変換不変性の証拠を示している。 https://github.com/m etrics-lab/ surface-vision-trans formersで利用可能なコード

The extension of convolutional neural networks (CNNs) to non-Euclidean geometries has led to multiple frameworks for studying manifolds. Many of those methods have shown design limitations resulting in poor modelling of long-range associations, as the generalisation of convolutions to irregular surfaces is non-trivial. Recent state-of-the-art performance of Vision Transformers (ViTs) demonstrates that a general-purpose architecture, which implements self-attention, could replace the local feature learning operations of CNNs. Motivated by the success of attention-modelling in computer vision, we extend ViTs to surfaces by reformulating the task of surface learning as a sequence-to-sequence problem and propose a patching mechanism for surface meshes. We validate the performance of the proposed Surface Vision Transformer (SiT) on two brain age prediction tasks in the developing Human Connectome Project (dHCP) dataset and investigate the impact of pre-training on model performance. Experiments show that the SiT outperforms many surface CNNs, while indicating some evidence of general transformation invariance. Code available at https://github.com/m etrics-lab/surface-v ision-transformers
翻訳日:2022-06-01 18:45:48 公開日:2022-05-31
# (参考訳) d$^2$nerf:単眼ビデオからの動的および静的オブジェクトの自己教師付きデカップリング [全文訳有]

D$^2$NeRF: Self-Supervised Decoupling of Dynamic and Static Objects from a Monocular Video ( http://arxiv.org/abs/2205.15838v1 )

ライセンス: CC BY-SA 4.0
Tianhao Wu, Fangcheng Zhong, Andrea Tagliasacchi, Forrester Cole, Cengiz Oztireli(参考訳) モノクロビデオが与えられると、静的な環境を回復しながら動的オブジェクトのセグメンテーションとデカップリングは、マシンインテリジェンスにおいて広く研究されている問題である。 既存のソリューションは通常、イメージドメインでこの問題にアプローチし、パフォーマンスと環境の理解を制限します。 本研究では,単眼映像を撮影し,シャドウを含む動く物体を静的背景から分離する3次元シーン表現を学習する自己教師付き手法である,decoupled dynamic neural radiance field (d$^2$nerf)を導入する。 本手法は,運動物体と静的背景を2つの異なる神経放射場で表現し,時間変化を許容する。 このアプローチの素直な実装は、静的なコンポーネントを引き継ぎ、前者の表現は本質的により一般的であり、過度に適合する傾向にある。 そこで本研究では,現象の分離を促進する新しい損失を提案する。 さらに,動的に動く影を検出し,分離するシャドウフィールドネットワークを提案する。 様々な動的オブジェクトと影を含む新しいデータセットを導入し、動的および静的な3Dオブジェクトの分離、閉塞と影の除去、移動物体のイメージセグメンテーションにおける最先端のアプローチよりも優れた性能が得られることを示す。

Given a monocular video, segmenting and decoupling dynamic objects while recovering the static environment is a widely studied problem in machine intelligence. Existing solutions usually approach this problem in the image domain, limiting their performance and understanding of the environment. We introduce Decoupled Dynamic Neural Radiance Field (D$^2$NeRF), a self-supervised approach that takes a monocular video and learns a 3D scene representation which decouples moving objects, including their shadows, from the static background. Our method represents the moving objects and the static background by two separate neural radiance fields with only one allowing for temporal changes. A naive implementation of this approach leads to the dynamic component taking over the static one as the representation of the former is inherently more general and prone to overfitting. To this end, we propose a novel loss to promote correct separation of phenomena. We further propose a shadow field network to detect and decouple dynamically moving shadows. We introduce a new dataset containing various dynamic objects and shadows and demonstrate that our method can achieve better performance than state-of-the-art approaches in decoupling dynamic and static 3D objects, occlusion and shadow removal, and image segmentation for moving objects.
翻訳日:2022-06-01 18:30:17 公開日:2022-05-31
# (参考訳) 共分散ニューラルネットワーク [全文訳有]

coVariance Neural Networks ( http://arxiv.org/abs/2205.15856v1 )

ライセンス: CC BY 4.0
Saurabh Sihag, Gonzalo Mateos, Corey McMillan, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ内の相互関係を利用して学習する効果的なフレームワークである。 主成分分析(PCA)は共分散行列の固有空間上のデータの投影を伴い、GNNにおけるグラフ畳み込みフィルタと類似性を引き出す。 この観測により,サンプル共分散行列をグラフとして扱う,共分散ニューラルネットワーク(VNN)と呼ばれるGNNアーキテクチャを提案する。 共分散行列の摂動に対するVNNの安定性を理論的に確立し, 近接固有値に付随する主成分により不安定となる標準PCAに基づくデータ解析手法に対する優位性を示唆する。 実世界のデータセットを用いた実験では,PCAに基づく統計的手法よりも,VNNの性能が安定であることが確認された。 さらに,マルチレゾリューションデータセットを用いた実験により,vnnは,異なる次元の共分散行列による性能の伝達性に適していることが証明された。

Graph neural networks (GNN) are an effective framework that exploit inter-relationships within graph-structured data for learning. Principal component analysis (PCA) involves the projection of data on the eigenspace of the covariance matrix and draws similarities with the graph convolutional filters in GNNs. Motivated by this observation, we propose a GNN architecture, called coVariance neural network (VNN), that operates on sample covariance matrices as graphs. We theoretically establish the stability of VNNs to perturbations in the covariance matrix, thus, implying an advantage over standard PCA-based data analysis approaches that are prone to instability due to principal components associated with close eigenvalues. Our experiments on real-world datasets validate our theoretical results and show that VNN performance is indeed more stable than PCA-based statistical approaches. Moreover, our experiments on multi-resolution datasets also demonstrate that VNNs are amenable to transferability of performance over covariance matrices of different dimensions; a feature that is infeasible for PCA-based approaches.
翻訳日:2022-06-01 17:52:20 公開日:2022-05-31
# (参考訳) SOM-CPC:高次時系列構造表現のための自己組織化マップを用いた教師なしコントラスト学習 [全文訳有]

SOM-CPC: Unsupervised Contrastive Learning with Self-Organizing Maps for Structured Representations of High-Rate Time Series ( http://arxiv.org/abs/2205.15875v1 )

ライセンス: CC BY-SA 4.0
Iris A.M. Huijben, Arthur A. Nijdam, Sebastiaan Overeem, Merel M. van Gilst, Ruud J.G. van Sloun(参考訳) センサの数が増え続ける継続的監視は、多くのアプリケーションドメインで広く行われている。 取得されたデータは典型的には高次元で解釈が難しいが、それらは低次元多様体上にあると仮定される。 多くのディープラーニング(dl)モデルは、この多様体を識別することを目指しているが、構造や解釈性は促進しない。 本稿では,CPC(Contrastive Predictive Coding)とSOM(Self-Organizing Map)を併用したSOM-CPCモデルを提案する。 我々は、高レート時系列を含むほとんど探索されていない難解なシナリオに対処し、SOM-CPCがDLとSOMを組み合わせた強力なベースラインモデルより優れる合成および実生活医療およびオーディオデータを示す。 SOM-CPCは、高速なデータストリームで潜伏パターンを公開する大きな可能性があり、多くの異なるプロセスやシステムに対するより良い理解に寄与する可能性がある。

Continuous monitoring with an ever-increasing number of sensors has become ubiquitous across many application domains. Acquired data are typically high-dimensional and difficult to interpret, but they are also hypothesized to lie on a lower-dimensional manifold. Many deep learning (DL) models aim to identify this manifold, but do not promote structure nor interpretability. We propose the SOM-CPC model, which jointly optimizes Contrastive Predictive Coding (CPC), and a Self-Organizing Map (SOM) to find such an organized manifold. We address a largely unexplored and challenging set of scenarios comprising high-rate time series, and show on synthetic and real-life medical and audio data that SOM-CPC outperforms strong baseline models that combine DL with SOMs. SOM-CPC has great potential to expose latent patterns in high-rate data streams, and may therefore contribute to a better understanding of many different processes and systems.
翻訳日:2022-06-01 17:26:59 公開日:2022-05-31
# (参考訳) 1つのポリシーは十分である:単一ポリシーによる並列探索は報酬のない強化学習に最適である

One Policy is Enough: Parallel Exploration with a Single Policy is Minimax Optimal for Reward-Free Reinforcement Learning ( http://arxiv.org/abs/2205.15891v1 )

ライセンス: CC BY 4.0
Pedro Cisneros-Velarde and Boxiang Lyu and Sanmi Koyejo and Mladen Kolar(参考訳) 並列性は強化学習(RL)で広く用いられているが、並列探索の定量的効果は理論的にはよく理解されていない。 本稿では,リニアマルコフ決定過程 (MDP) と2プレーヤゼロサムマルコフゲーム (MG) において,報酬のないRLに対する単純な並列探索の利点について検討する。 エージェントが多様なポリシーを探索することを奨励するアプローチに焦点をあてた既存の文献とは対照的に、すべてのエージェントを探索するために単一のポリシーを使用することで、完全なシーケンシャルなアプローチと比較してほぼ直線的なスピードアップが得られることを示す。 さらに,この簡単な手順は,リニアmdpと2プレーヤゼロサムmgsの報奨フリー設定において,対数係数に最適であることを示す。 実用の観点からは,探索段階において並列性を取り入れる上で,一つの政策が十分かつ確実に最適であることを示す。

While parallelism has been extensively used in Reinforcement Learning (RL), the quantitative effects of parallel exploration are not well understood theoretically. We study the benefits of simple parallel exploration for reward-free RL for linear Markov decision processes (MDPs) and two-player zero-sum Markov games (MGs). In contrast to the existing literature focused on approaches that encourage agents to explore over a diverse set of policies, we show that using a single policy to guide exploration across all agents is sufficient to obtain an almost-linear speedup in all cases compared to their fully sequential counterpart. Further, we show that this simple procedure is minimax optimal up to logarithmic factors in the reward-free setting for both linear MDPs and two-player zero-sum MGs. From a practical perspective, our paper shows that a single policy is sufficient and provably optimal for incorporating parallelism during the exploration phase.
翻訳日:2022-06-01 16:52:54 公開日:2022-05-31
# (参考訳) 脳MRI品質制御の学習 : 多要素一般化問題 [全文訳有]

Learning brain MRI quality control: a multi-factorial generalization problem ( http://arxiv.org/abs/2205.15898v1 )

ライセンス: CC BY 4.0
Ghiles Reguig, Marie Chupin, Hugo Dary, Eric Bardinet, St\'ephane Leh\'ericy, Romain Valabregue(参考訳) MRIデータの増加に伴い、特に大規模解析において、自動品質制御(QC)が不可欠になっている。 信頼性とスケーラブルなQCパイプラインを開発するために、いくつかの試みがなされている。 しかし,mriデータに内在するバイアスのため,学習に使用するデータとは無関係な新たなデータに対する手法の一般化は難しい課題である。 この研究は、トレーニングと評価の両方に使用される様々な大規模データセット(abide、n = 1102およびcati派生データセット、n = 9037)におけるmriqcパイプラインのパフォーマンスを評価することを目的とした。 分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。 さらに, abideおよびcatiデータを用いた事前処理を行なわずに, 現場別および研究的に予測したモデルの分類確率分布を解析した。 その結果、MRIQCから前処理なしで抽出した特徴を用いたモデルが、異種集団を持つ大規模マルチセンターデータセットのトレーニングと評価において、最良の結果を得た(CATIデータセットのサブセットでトレーニングされたモデルに対して、未確認データ0.10に対するROC-AUCスコアの改善)。 catiデータセットのような異種集団のデータで訓練されたモデルが、見当たらないデータで最高のスコアを与えると結論づけた。 性能改善にもかかわらず、サイトワイド/スタディワイドの確率予測とそれに由来する最適分類しきい値を見ると、モデルの一般化能力は疑わしいままである。

Due to the growing number of MRI data, automated quality control (QC) has become essential, especially for larger scale analysis. Several attempts have been made in order to develop reliable and scalable QC pipelines. However, the generalization of these methods on new data independent of those used for learning is a difficult problem because of the biases inherent in MRI data. This work aimed at evaluating the performances of the MRIQC pipeline on various large-scale datasets (ABIDE, N = 1102 and CATI derived datasets, N = 9037) used for both training and evaluation purposes. We focused our analysis on the MRIQC preprocessing steps and tested the pipeline with and without them. We further analyzed the site-wise and study-wise predicted classification probability distributions of the models without preprocessing trained on ABIDE and CATI data. Our main results were that a model using features extracted from MRIQC without preprocessing yielded the best results when trained and evaluated on large multi-center datasets with a heterogeneous population (an improvement of the ROC-AUC score on unseen data of 0.10 for the model trained on a subset of the CATI dataset). We concluded that a model trained with data from a heterogeneous population, such as the CATI dataset, provides the best scores on unseen data. In spite of the performance improvement, the generalization abilities of the models remain questionable when looking at the site-wise/study-wise probability predictions and the optimal classification threshold derived from them.
翻訳日:2022-06-01 16:51:44 公開日:2022-05-31
# (参考訳) バイテンポラル光学画像からの3次元変化検出 [全文訳有]

Inferring 3D change detection from bitemporal optical images ( http://arxiv.org/abs/2205.15903v1 )

ライセンス: CC BY 4.0
Valerio Marsocci, Virginia Coletta, Roberta Ravanelli, Simone Scardapane, Mattia Crespi(参考訳) 変更検出はリモートセンシング(RS)において最も活発な研究分野の一つである。 最近開発された変更検出手法のほとんどは、ディープラーニング(DL)アルゴリズムに基づいている。 この種のアルゴリズムは一般的に2次元 (2D) の変化マップの生成に重点を置いているため、土地利用/土地被覆 (LULC) の平面的変化のみを識別し、対応する高度変化に関する情報を考慮も返却もしない。 私たちの研究はさらに一歩進んで、2Dと3DのCDタスクを同時に解決できる2つの新しいネットワークと、3DCDデータセットを提案しています。 特に、この研究の目的は、高度(3D)のCDマップと標準の2DのCDマップを自動的に推論できるDLアルゴリズムの開発の基礎を、バイテンポラルな光学画像から始めることにある。 提案したアーキテクチャは、前述したタスクを実行するために、トランスフォーマーベースのネットワーク、MTBIT(MultiTask Bitemporal Images Transformer)、深層畳み込みネットワークであるSamese ResUNet(SUNet)で構成されている。 特にmtbitは、セマンティックトークンライザに基づいたトランスフォーマティブベースのアーキテクチャである。 SUNetは、シアムエンコーダで接続と残層をスキップしてリッチな特徴を学習し、提案されたタスクを効率的に解決する。 これらのモデルは、推定ステップ中に直接標高データに依存することなく、異なるタイミングで撮影された2つの光学画像から3D CDマップを得ることができる。 新たな3DCDデータセットで得られたエンコーリング結果を示す。 コードと3dcdデータセットは \url{https://sites.google .com/uniroma1.it/3dc hangedetection/home- page} で利用可能である。

Change detection is one of the most active research areas in Remote Sensing (RS). Most of the recently developed change detection methods are based on deep learning (DL) algorithms. This kind of algorithms is generally focused on generating two-dimensional (2D) change maps, thus only identifying planimetric changes in land use/land cover (LULC) and not considering nor returning any information on the corresponding elevation changes. Our work goes one step further, proposing two novel networks, able to solve simultaneously the 2D and 3D CD tasks, and the 3DCD dataset, a novel and freely available dataset precisely designed for this multitask. Particularly, the aim of this work is to lay the foundations for the development of DL algorithms able to automatically infer an elevation (3D) CD map -- together with a standard 2D CD map --, starting only from a pair of bitemporal optical images. The proposed architectures, to perform the task described before, consist of a transformer-based network, the MultiTask Bitemporal Images Transformer (MTBIT), and a deep convolutional network, the Siamese ResUNet (SUNet). Particularly, MTBIT is a transformer-based architecture, based on a semantic tokenizer. SUNet instead combines, in a siamese encoder, skip connections and residual layers to learn rich features, capable to solve efficiently the proposed task. These models are, thus, able to obtain 3D CD maps from two optical images taken at different time instants, without the need to rely directly on elevation data during the inference step. Encouraging results, obtained on the novel 3DCD dataset, are shown. The code and the 3DCD dataset are available at \url{https://sites.google .com/uniroma1.it/3dc hangedetection/home- page}.
翻訳日:2022-06-01 16:32:53 公開日:2022-05-31
# (参考訳) マルチコプターUAVの3次元経路計画のための教師学習による最適化 [全文訳有]

Enhanced Teaching-Learning-ba sed Optimization for 3D Path Planning of Multicopter UAVs ( http://arxiv.org/abs/2205.15913v1 )

ライセンス: CC BY 4.0
Van Truong Hoang and Manh Duong Phung(参考訳) 本稿では,Linging-learning-ba sed optimization (TLBO) に基づく無人航空機(UAV)の経路計画アルゴリズムを提案する。 まず,経路長の要件と移動に対する制約,および経路計画を最適化問題に変換するためのuavの安全な操作を組み込んだ目的関数を定義する。 次に、定式化された目的関数を最小化するためにマルチサブジェクトtlboという最適化アルゴリズムを提案する。 このアルゴリズムはtlboに基づいて開発されているが、突然変異、エリート選択、マルチサブジェクトトレーニングなどの新しい操作により、ソリューションの品質向上と収束速度の向上が図られている。 提案アルゴリズムの性能を評価するために,最先端のアルゴリズムと実際のUAVを用いた実験を行った。 その結果, 複雑な運用環境下でのUAVの最適・無衝突・飛行可能経路の生成の有効性と有効性を確認した。

This paper introduces a new path planning algorithm for unmanned aerial vehicles (UAVs) based on the teaching-learning-ba sed optimization (TLBO) technique. We first define an objective function that incorporates requirements on the path length and constraints on the movement and safe operation of UAVs to convert the path planning into an optimization problem. The optimization algorithm named Multi-subject TLBO is then proposed to minimize the formulated objective function. The algorithm is developed based on TLBO but enhanced with new operations including mutation, elite selection and multi-subject training to improve the solution quality and speed up the convergence rate. Comparison with state-of-the-art algorithms and experiments with real UAVs have been conducted to evaluate the performance of the proposed algorithm. The results confirm its validity and effectiveness in generating optimal, collision-free and flyable paths for UAVs in complex operating environments.
翻訳日:2022-06-01 16:09:31 公開日:2022-05-31
# (参考訳) 部分的知識伝達を用いた半スーパービジョンクロスサイロ広告 [全文訳有]

Semi-Supervised Cross-Silo Advertising with Partial Knowledge Transfer ( http://arxiv.org/abs/2205.15987v1 )

ライセンス: CC BY 4.0
Wenjie Li, Qiaolin Xia, Junfeng Deng, Hao Cheng, Jiangming Liu, Kouying Xue, Yong Cheng and Shu-Tao Xia(参考訳) クロス緊急プライベートデータを活用するための新たなセキュアな学習パラダイムとして、広告主と出版社が私有する補完的ユーザ属性の合同学習を可能にすることで、垂直連合学習(VFL)が広告モデルを改善することが期待されている。 しかし、広告システムに適用する上で重要な課題は2つある。 a) ラベル付き重複サンプルの限られた規模、及び b) リアルタイムクロスアジェンシーサービスのコストが高いこと。 本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワークVFed-SSDを提案する。 私たちはそれを認識します i)広告システムで利用可能な大量のラベルなし重複データがあり、 二 フェデレーションモデルを分解することにより、モデル性能と推論コストのバランスを保てること。 具体的には,垂直分割された非ラベルデータを利用した自己教師付きタスクマッチングペア検出(mpd)を開発し,スプリットナレッジ蒸留(splitkd)スキーマを提案する。 3つの産業データセットに関する実証的研究は,各地域展開モードとフェデレート展開モードでそれぞれ0.86%,2.6%改善した全データセットに対する中央値AUCを用いて,本手法の有効性を示す。 全体として、当社のフレームワークは、デプロイコストの最小化と大幅なパフォーマンス向上により、リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。

As an emerging secure learning paradigm in leveraging cross-agency private data, vertical federated learning (VFL) is expected to improve advertising models by enabling the joint learning of complementary user attributes privately owned by the advertiser and the publisher. However, there are two key challenges in applying it to advertising systems: a) the limited scale of labeled overlapping samples, and b) the high cost of real-time cross-agency serving. In this paper, we propose a semi-supervised split distillation framework VFed-SSD to alleviate the two limitations. We identify that: i) there are massive unlabeled overlapped data available in advertising systems, and ii) we can keep a balance between model performance and inference cost by decomposing the federated model. Specifically, we develop a self-supervised task Matched Pair Detection (MPD) to exploit the vertically partitioned unlabeled data and propose the Split Knowledge Distillation (SplitKD) schema to avoid cross-agency serving. Empirical studies on three industrial datasets exhibit the effectiveness of our methods, with the median AUC over all datasets improved by 0.86% and 2.6% in the local deployment mode and the federated deployment mode respectively. Overall, our framework provides an efficient federation-enhanced solution for real-time display advertising with minimal deploying cost and significant performance lift.
翻訳日:2022-06-01 16:02:00 公開日:2022-05-31
# ニューラルSDE市場モデルを用いたヘッジオプションブック

Hedging option books using neural-SDE market models ( http://arxiv.org/abs/2205.15991v1 )

ライセンス: Link先を確認
Samuel N. Cohen, Christoph Reisinger, Sheng Wang(参考訳) 本研究では, 任意自由なニューラルSDE市場モデルを用いて, ヘッジオプションの効果的な戦略を導出する能力について検討する。 特に,これらのモデルを用いて感度ベースおよび最小分散ベースのヘッジ戦略を導出し,実世界データを用いた様々なオプションポートフォリオに適用した場合の性能を検討する。 典型的な, ストレスのある市場期間のバックテスト分析により, ニューラルSDE市場モデルは, 時間とともに一貫してブラック・スコルズデルタやデルタベガヘッジよりも低いヘッジ誤差を達成し, ヘッジ機器のテナー選択に敏感でないことを示す。 さらに、市場モデルを用いたヘッジは、hedgingとhedgingモデルと同様のパフォーマンスをもたらすが、前者は、ストレスのある市場期間中により堅牢になる傾向がある。

We study the capability of arbitrage-free neural-SDE market models to yield effective strategies for hedging options. In particular, we derive sensitivity-based and minimum-variance-bas ed hedging strategies using these models and examine their performance when applied to various option portfolios using real-world data. Through backtesting analysis over typical and stressed market periods, we show that neural-SDE market models achieve lower hedging errors than Black--Scholes delta and delta-vega hedging consistently over time, and are less sensitive to the tenor choice of hedging instruments. In addition, hedging using market models leads to similar performance to hedging using Heston models, while the former tends to be more robust during stressed market periods.
翻訳日:2022-06-01 15:37:18 公開日:2022-05-31
# 赤外線マイボーグラフィにおけるaiに基づく自動マイボーム腺分画,分類,反射補正

AI-based automated Meibomian gland segmentation, classification and reflection correction in infrared Meibography ( http://arxiv.org/abs/2205.15543v1 )

ライセンス: Link先を確認
Ripon Kumar Saha, A. M. Mahmud Chowdhury, Kyung-Sun Na, Gyu Deok Hwang, Youngsub Eom, Jaeyoung Kim, Hae-Gon Jeon, Ho Sik Hwang, Euiheon Chung(参考訳) 目的: マイボーム腺(MG)とまぶたを分離し, MG面積とMG比を定量的に分析し, マイボースコアを推定し, 赤外線画像からスペクトル反射を除去する, 深層学習に基づく自動化手法を開発する。 方法: 臨床現場で1600枚のメボグラフィー画像が得られた。 1000枚の画像に複数のリビジョンを施し, マイボーム腺機能障害(MGD)の専門家によって6回評価された。 mgとeyelidの領域を分割するために2つのディープラーニング(dl)モデルを別々に訓練した。 これらのセグメンテーションは分類に基づくdlモデルを用いてmg比とmeibosコアの推定に用いられた。 画像から鏡面反射を除去するための生成的逆ネットワークが実装された。 結果: 調査医が算出したMGの平均値は, 上まぶたでは26.23%, 下まぶたでは25.12%, 下まぶたでは32.34%, 下まぶたでは32.29%であった。 mgdの専門家による53.44%の検証精度と比較し,検証セットのmeiboscore分類の精度は73.01%,独立中心画像では59.17%であった。 DLベースのアプローチは、マイボスコアグレーディングに影響を与えることなく、元のMG画像からの反射をうまく除去する。 結語: dl with infrared meibographyは, ドライアイ疾患の診断に十分正確であるmg形態(mg分画, mg面積, mg比, meiboscore)の完全自動化, 迅速な定量評価を提供する。 また、DLは、眼科医が不注意な評価のために使用する画像からの反射を除去する。

Purpose: Develop a deep learning-based automated method to segment meibomian glands (MG) and eyelids, quantitatively analyze the MG area and MG ratio, estimate the meiboscore, and remove specular reflections from infrared images. Methods: A total of 1600 meibography images were captured in a clinical setting. 1000 images were precisely annotated with multiple revisions by investigators and graded 6 times by meibomian gland dysfunction (MGD) experts. Two deep learning (DL) models were trained separately to segment areas of the MG and eyelid. Those segmentation were used to estimate MG ratio and meiboscores using a classification-based DL model. A generative adversarial network was implemented to remove specular reflections from original images. Results: The mean ratio of MG calculated by investigator annotation and DL segmentation was consistent 26.23% vs 25.12% in the upper eyelids and 32.34% vs. 32.29% in the lower eyelids, respectively. Our DL model achieved 73.01% accuracy for meiboscore classification on validation set and 59.17% accuracy when tested on images from independent center, compared to 53.44% validation accuracy by MGD experts. The DL-based approach successfully removes reflection from the original MG images without affecting meiboscore grading. Conclusions: DL with infrared meibography provides a fully automated, fast quantitative evaluation of MG morphology (MG Segmentation, MG area, MG ratio, and meiboscore) which are sufficiently accurate for diagnosing dry eye disease. Also, the DL removes specular reflection from images to be used by ophthalmologists for distraction-free assessment.
翻訳日:2022-06-01 15:36:37 公開日:2022-05-31
# セキュアなフェデレーションクラスタリング

Secure Federated Clustering ( http://arxiv.org/abs/2205.15564v1 )

ライセンス: Link先を確認
Songze Li, Sizai Hou, Baturalp Buyukates, Salman Avestimehr(参考訳) 我々は、中央サーバと多くの分散クライアントからなる連合学習(FL)環境で、$k$-meansのデータクラスタリングの基本的な教師なし学習タスクを考える。 我々は,セキュアなフェデレーションクラスタリングアルゴリズムであるsecfcを開発した。 1) ユニバーサルパフォーマンス: クライアント間のデータ分散に関係なく,集中型データに対するクラスタリングと比較してパフォーマンス損失は発生しない。 2) データのプライバシ: 各クライアントのプライベートデータとクラスタセンタは,他のクライアントやサーバにリークされることはない。 secfcでは、クライアントがローカルデータ上でラグランジュ符号化を行い、その符号化データを情報理論的にプライベートに共有し、その後、符号化の代数構造を利用して、flネットワークが符号化データ上でロイドの$k$-meansヒューリスティックを正確に実行し、最終的なクラスタリングを得る。 合成および実データを用いた実験結果は、クライアント間で異なるデータ分布に対するSecFCの普遍的に優れた性能を示し、システムパラメータの様々な組み合わせに対する計算的実用性を示す。 最後に,すべてのデータポイントに対するメンバシッププライバシをさらに提供するためのsecfcの拡張を提案する。

We consider a foundational unsupervised learning task of $k$-means data clustering, in a federated learning (FL) setting consisting of a central server and many distributed clients. We develop SecFC, which is a secure federated clustering algorithm that simultaneously achieves 1) universal performance: no performance loss compared with clustering over centralized data, regardless of data distribution across clients; 2) data privacy: each client's private data and the cluster centers are not leaked to other clients and the server. In SecFC, the clients perform Lagrange encoding on their local data and share the coded data in an information-theoreti cally private manner; then leveraging the algebraic structure of the coding, the FL network exactly executes the Lloyd's $k$-means heuristic over the coded data to obtain the final clustering. Experiment results on synthetic and real datasets demonstrate the universally superior performance of SecFC for different data distributions across clients, and its computational practicality for various combinations of system parameters. Finally, we propose an extension of SecFC to further provide membership privacy for all data points.
翻訳日:2022-06-01 15:35:43 公開日:2022-05-31
# データ駆動型ビルディングコントロール実験から学んだ教訓:ガウス的プロセスベースのMPC、双方向DeePC、深層強化学習

Lessons Learned from Data-Driven Building Control Experiments: Contrasting Gaussian Process-based MPC, Bilevel DeePC, and Deep Reinforcement Learning ( http://arxiv.org/abs/2205.15703v1 )

ライセンス: Link先を確認
Loris Di Natale, Yingzhao Lian, Emilio T. Maddalena, Jicheng Shi and Colin N. Jones(参考訳) この写本は、ガウス過程に依存するモデル予測制御、行動理論に基づく適応型データ駆動制御、深層強化学習など、現代のデータ駆動技術に関する実験者の視点を提供する。 これらの技術は、データ要件、使いやすさ、計算負荷、実世界のアプリケーションにおける堅牢性の観点から比較される。 講演室やマンションから病院の手術センターまで,様々な環境における建築管理の分野で実施された多くの実験結果から,留意点と考察が得られた。 最後のゴールは、他の人が自分の問題に取り組むのに最適なテクニックを特定するのを支援することです。

This manuscript offers the perspective of experimentalists on a number of modern data-driven techniques: model predictive control relying on Gaussian processes, adaptive data-driven control based on behavioral theory, and deep reinforcement learning. These techniques are compared in terms of data requirements, ease of use, computational burden, and robustness in the context of real-world applications. Our remarks and observations stem from a number of experimental investigations carried out in the field of building control in diverse environments, from lecture halls and apartment spaces to a hospital surgery center. The final goal is to support others in identifying what technique is best suited to tackle their own problems.
翻訳日:2022-06-01 15:35:24 公開日:2022-05-31
# fedwalk: ディファレンシャルプライバシを備えた通信効率のよいフェデレーションなしノード埋め込み

FedWalk: Communication Efficient Federated Unsupervised Node Embedding with Differential Privacy ( http://arxiv.org/abs/2205.15896v1 )

ライセンス: Link先を確認
Qiying Pan (1) and Yifei Zhu (1) ((1) Shanghai Jiao Tong University)(参考訳) node embeddedは、複雑なグラフのノードを低次元表現にマッピングすることを目的としている。 実世界の大規模グラフとラベル付けの難しさは、教師なしノード埋め込み問題の幅広い研究を動機付ける。 それでも、以前の取り組みは主に、完全なグラフが与えられる集中的な設定で動作します。 データプライバシの認知度が高まる中、頂点を1つだけ認識しているデータ保有者は、より多くのプライバシー保護を要求する。 本稿では,生のグラフ情報をローカルに残したノードレベルの可視グラフで動作する,ランダムウォークに基づく非教師なしノード埋め込みアルゴリズムであるfeedwalkを提案する。 FedWalkは、データプライバシ保護と優れた通信効率を備えた、集中型の競合グラフ表現機能を提供するように設計されている。 FedWalkは一般的なフェデレーションパラダイムをインスタンス化し、3つのモジュールを含んでいる。 まず,各ノードの構造特徴を抽出するために階層型クラスタリングツリー(hct)コンストラクタを設計する。 動的時間ラップアルゴリズムは、異なるノード間の構造的不均一性をシームレスに扱う。 構築したHCTに基づいてランダムウォークジェネレータを設計し,プライバシ保護のためにシーケンスエンコーダを設計し,通信コストを削減するために2ホップ隣の予測器を設計する。 生成されたランダムウォークは、SkipGramモデルに基づいたノード埋め込みの更新に使用される。 2つの大きなグラフに対する広範囲な実験により、集中ノード埋め込みアルゴリズムは1.8%のmicro-f1スコアと4.4%のmarco-f1スコアの損失しか持たず、デバイス間通信の約6.7倍の削減を実現している。

Node embedding aims to map nodes in the complex graph into low-dimensional representations. The real-world large-scale graphs and difficulties of labeling motivate wide studies of unsupervised node embedding problems. Nevertheless, previous effort mostly operates in a centralized setting where a complete graph is given. With the growing awareness of data privacy, data holders who are only aware of one vertex and its neighbours demand greater privacy protection. In this paper, we introduce FedWalk, a random-walk-based unsupervised node embedding algorithm that operates in such a node-level visibility graph with raw graph information remaining locally. FedWalk is designed to offer centralized competitive graph representation capability with data privacy protection and great communication efficiency. FedWalk instantiates the prevalent federated paradigm and contains three modules. We first design a hierarchical clustering tree (HCT) constructor to extract the structural feature of each node. A dynamic time wrapping algorithm seamlessly handles the structural heterogeneity across different nodes. Based on the constructed HCT, we then design a random walk generator, wherein a sequence encoder is designed to preserve privacy and a two-hop neighbor predictor is designed to save communication cost. The generated random walks are then used to update node embedding based on a SkipGram model. Extensive experiments on two large graphs demonstrate that Fed-Walk achieves competitive representativeness as a centralized node embedding algorithm does with only up to 1.8% Micro-F1 score and 4.4% Marco-F1 score loss while reducing about 6.7 times of inter-device communication per walk.
翻訳日:2022-06-01 15:35:10 公開日:2022-05-31
# haloマージツリー構築のためのディープラーニングアプローチ

A deep learning approach to halo merger tree construction ( http://arxiv.org/abs/2205.15988v1 )

ライセンス: Link先を確認
Sandra Robles, Jonathan S. G\'omez, Ad\'in Ram\'irez Rivera, Nelson D. Padilla, Diego Dujovne(参考訳) 銀河形成の半分析モデル(SAM)の鍵となる要素は、木構造にエンコードされたハロースの大量集合の歴史である。 ハロ融合史を構築する最も一般的な方法は、高分解能で計算集約的なN体シミュレーションの結果に基づいている。 機械学習(ML)技術,特にGAN(Generative Adversarial Networks)は,計算コストを緩やかに削減し,シミュレーションによる統合ツリーの最良の特徴を保ちながら,この問題に対処する,有望な新しいツールであることを示す。 EAGLEシュミレーションスイートから,GANモデルを限定してトレーニングし,2つのハロファインダーツリー構築アルゴリズムであるSUBFIND-D-TREESとROCKSTAR-ConsistentT reesを用いて構築した。 GANモデルは、時間分解能の高いよく構築された統合木構造を生成し、トレーニングプロセスにおいて最大3つの変数を考慮した場合、トレーニングに使用される統合木標本の統計的特徴を再現する。 これらの入力は、我々のganモデルによっても学習され、ハロ前駆体と最後の子孫である前駆体型(メインハロまたはサテライト)の質量であり、前駆体と本枝のそれとの距離である。 後者の2つのインプットを含めることで、特にSUBFINDのようなMLツリーにおいて、ハロー質量成長史の最終的な学習表現が大幅に向上する。 EAGLEシミュレーションと同等の大きさのMLマージツリーのサンプルを比較すると,SUBFINDのようなMLツリーとよりよく一致していることがわかった。 最終的に、我々のGANベースのフレームワークは、宇宙学シミュレーションで最も豊富な低質量ハローと中間質量ハローの融合履歴を構築するために利用することができる。

A key ingredient for semi-analytic models (SAMs) of galaxy formation is the mass assembly history of haloes, encoded in a tree structure. The most commonly used method to construct halo merger histories is based on the outcomes of high-resolution, computationally intensive N-body simulations. We show that machine learning (ML) techniques, in particular Generative Adversarial Networks (GANs), are a promising new tool to tackle this problem with a modest computational cost and retaining the best features of merger trees from simulations. We train our GAN model with a limited sample of merger trees from the EAGLE simulation suite, constructed using two halo finders-tree builder algorithms: SUBFIND-D-TREES and ROCKSTAR-ConsistentT rees. Our GAN model successfully learns to generate well-constructed merger tree structures with high temporal resolution, and to reproduce the statistical features of the sample of merger trees used for training, when considering up to three variables in the training process. These inputs, whose representations are also learned by our GAN model, are mass of the halo progenitors and the final descendant, progenitor type (main halo or satellite) and distance of a progenitor to that in the main branch. The inclusion of the latter two inputs greatly improves the final learned representation of the halo mass growth history, especially for SUBFIND-like ML trees. When comparing equally sized samples of ML merger trees with those of the EAGLE simulation, we find better agreement for SUBFIND-like ML trees. Finally, our GAN-based framework can be utilised to construct merger histories of low and intermediate mass haloes, the most abundant in cosmological simulations.
翻訳日:2022-06-01 15:33:42 公開日:2022-05-31
# スパシフィケーションを用いたプライベートフェデレーションサブモデル学習

Private Federated Submodel Learning with Sparsification ( http://arxiv.org/abs/2205.15992v1 )

ライセンス: Link先を確認
Sajani Vithana, Sennur Ulukus(参考訳) フェデレーション付きサブモデル学習(FSL)におけるプライベートリード更新書き込み(PRUW)の問題について検討する。 FSLでは、機械学習モデルは複数のサブモデルに分割され、各ユーザーはユーザーのローカルデータに関連するサブモデルのみを更新する。 PRUWは、サブモデルインデックスやデータベース更新の値を明らかにすることなく、必要なサブモデルに読み書きすることで、FSLをプライベートに実行するプロセスである。 スパシフィケーションは学習において広く使われる概念であり、ユーザーは通信コストを削減するために少数のパラメータだけを更新する。 選択された(少ない)アップデートの座標を明らかにすると、ユーザのプライバシがリークする。 FSLにおけるPRUWのスペーサー化による効果を示す。 本稿では,サブモデルインデックスや更新値,スパース更新の座標をデータベースに公開することなく,任意のサブモデルの任意のパラメータに対してプライベートに読み出し,書き込みを行う方式を提案する。 提案手法は,スパーシフィケーションを使わずに実現した手法に比べて,読み書きコストを著しく低減する。

We investigate the problem of private read update write (PRUW) in federated submodel learning (FSL) with sparsification. In FSL, a machine learning model is divided into multiple submodels, where each user updates only the submodel that is relevant to the user's local data. PRUW is the process of privately performing FSL by reading from and writing to the required submodel without revealing the submodel index, or the values of updates to the databases. Sparsification is a widely used concept in learning, where the users update only a small fraction of parameters to reduce the communication cost. Revealing the coordinates of these selected (sparse) updates leaks privacy of the user. We show how PRUW in FSL can be performed with sparsification. We propose a novel scheme which privately reads from and writes to arbitrary parameters of any given submodel, without revealing the submodel index, values of updates, or the coordinates of the sparse updates, to databases. The proposed scheme achieves significantly lower reading and writing costs compared to what is achieved without sparsification.
翻訳日:2022-06-01 15:33:10 公開日:2022-05-31
# (参考訳) イベントベースグラフデータのための連続時間グラフネットワーク [全文訳有]

Continuous Temporal Graph Networks for Event-Based Graph Data ( http://arxiv.org/abs/2205.15924v1 )

ライセンス: CC BY 4.0
Jin Guo, Zhen Han, Zhou Su, Jiliang Li, Volker Tresp, Yuyi Wang(参考訳) 時系列グラフデータの連続時間ダイナミクスのモデリングへの関心が高まっている。 従来の手法では、時間発展する関係情報をニューラルネットワークの離散層を特定することで低次元表現にエンコードするが、現実世界の動的グラフはしばしば時間とともに変化する。 そこで我々は,時間グラフデータの連続的ダイナミクスを捉えるために,CTGN(Continuous Temporal Graph Networks)を提案する。 リンク開始タイムスタンプとリンク持続時間の両方を、ノードの連続的なダイナミクスをモデル化するために進化する情報として使用します。 鍵となる考え方は、ニューラルネットワークの常微分方程式(ODE)を用いて、動的グラフ上のノード表現の連続的ダイナミクスを特徴づけることである。 従来の微分方程式を新しいグラフニューラルネットワークを用いてパラメータ化する。 既存の動的グラフネットワークはCTGNの特定の離散化と見なすことができる。 トランスダクティブタスクとインダクティブタスクの両方の実験結果は,提案手法が競合ベースラインに対して有効であることを示す。

There has been an increasing interest in modeling continuous-time dynamics of temporal graph data. Previous methods encode time-evolving relational information into a low-dimensional representation by specifying discrete layers of neural networks, while real-world dynamic graphs often vary continuously over time. Hence, we propose Continuous Temporal Graph Networks (CTGNs) to capture the continuous dynamics of temporal graph data. We use both the link starting timestamps and link duration as evolving information to model the continuous dynamics of nodes. The key idea is to use neural ordinary differential equations (ODE) to characterize the continuous dynamics of node representations over dynamic graphs. We parameterize ordinary differential equations using a novel graph neural network. The existing dynamic graph networks can be considered as a specific discretization of CTGNs. Experiment results on both transductive and inductive tasks demonstrate the effectiveness of our proposed approach over competitive baselines.
翻訳日:2022-06-01 15:32:02 公開日:2022-05-31
# MontageGAN: GANによる複数コンポーネントの生成と組み立て

MontageGAN: Generation and Assembly of Multiple Components by GANs ( http://arxiv.org/abs/2205.15577v1 )

ライセンス: Link先を確認
Chean Fei Shee, Seiichi Uchida(参考訳) 多層画像は、グラフィックデザイナーの視点から見た単層画像よりも価値がある。 しかし,提案手法の大部分は単一層画像に焦点をあてている。 本稿では,多層画像を生成するためのGAN(Generative Adversarial Networks)フレームワークであるMontageGANを提案する。 本手法は局所ganとグローバルganからなる2段階アプローチを用いた。 各ローカルganは特定の画像層を生成することを学習し、グローバルganは生成された画像層の配置を学習する。 実験により,本手法の多層画像生成能力を示し,生成した画像層の配置を推定する。

A multi-layer image is more valuable than a single-layer image from a graphic designer's perspective. However, most of the proposed image generation methods so far focus on single-layer images. In this paper, we propose MontageGAN, which is a Generative Adversarial Networks (GAN) framework for generating multi-layer images. Our method utilized a two-step approach consisting of local GANs and global GAN. Each local GAN learns to generate a specific image layer, and the global GAN learns the placement of each generated image layer. Through our experiments, we show the ability of our method to generate multi-layer images and estimate the placement of the generated image layers.
翻訳日:2022-06-01 15:20:47 公開日:2022-05-31
# 特徴体蒸留による編集用NeRFの分解

Decomposing NeRF for Editing via Feature Field Distillation ( http://arxiv.org/abs/2205.15585v1 )

ライセンス: Link先を確認
Sosuke Kobayashi, Eiichi Matsumoto, Vincent Sitzmann(参考訳) 新興神経放射場(NeRF)はコンピュータグラフィックスにおける将来性のあるシーン表現であり、高品質な3D再構成と画像観察による新しいビュー合成を可能にする。 しかし、mlpやvoxelグリッドのような接続性表現はオブジェクト中心や構成的ではないため、nerfで表現されたシーンの編集は困難である。 特に特定の領域やオブジェクトを選択的に編集することは困難である。 本研究では,nerfの意味的シーン分解の問題に取り組み,表現された3dシーンのクエリベースのローカル編集を可能にする。 本稿では,CLIP-LSeg や DINO などの市販2次元画像特徴抽出器の知識を,放射場と平行に最適化された3次元特徴場に抽出することを提案する。 テキスト,イメージパッチ,ポイント・アンド・クリック選択など,さまざまなモダリティのユーザ指定クエリを与えられた3d特徴フィールドは,再トレーニングを必要とせず,意味的に3d空間を分解する。 実験により, 蒸留された特徴場 (DFF) は近年の2次元視覚と言語基盤モデルの進歩を3次元シーン表現に伝達し, 説得力のある3次元セグメンテーションとニューラルグラフィック表現の選択的編集を可能にした。

Emerging neural radiance fields (NeRF) are a promising scene representation for computer graphics, enabling high-quality 3D reconstruction and novel view synthesis from image observations. However, editing a scene represented by a NeRF is challenging, as the underlying connectionist representations such as MLPs or voxel grids are not object-centric or compositional. In particular, it has been difficult to selectively edit specific regions or objects. In this work, we tackle the problem of semantic scene decomposition of NeRFs to enable query-based local editing of the represented 3D scenes. We propose to distill the knowledge of off-the-shelf, self-supervised 2D image feature extractors such as CLIP-LSeg or DINO into a 3D feature field optimized in parallel to the radiance field. Given a user-specified query of various modalities such as text, an image patch, or a point-and-click selection, 3D feature fields semantically decompose 3D space without the need for re-training and enable us to semantically select and edit regions in the radiance field. Our experiments validate that the distilled feature fields (DFFs) can transfer recent progress in 2D vision and language foundation models to 3D scene representations, enabling convincing 3D segmentation and selective editing of emerging neural graphics representations.
翻訳日:2022-06-01 15:20:37 公開日:2022-05-31
# マルチクラスファンドス病変分割のためのプログレッシブ・マルチスケール一貫性ネットワーク

Progressive Multi-scale Consistent Network for Multi-class Fundus Lesion Segmentation ( http://arxiv.org/abs/2205.15720v1 )

ライセンス: Link先を確認
Along He, Kai Wang, Tao Li, Wang Bo, Hong Kang, Huazhu Fu(参考訳) 異なる病変はスケールや形状によって大きく異なるため,多種多種多様な病変の分類において効果的に統合することが重要な意味を持つ。 マルチスケールオブジェクトセグメンテーションをうまく処理するためのいくつかの手法が提案されている。 しかし、以前の研究では2つの問題が考慮されていない。 ひとつは、隣接する機能レベル間のインタラクションの欠如であり、低レベルの機能からハイレベルな機能の逸脱と、詳細なヒントの喪失につながる。 ふたつめは、低レベル機能と高レベル機能の間の競合であり、異なる機能のスケールを学び、モデルが混乱し、最終予測の精度が低下するためである。 本稿では,提案するプログレッシブ・フィーチャー・フュージョン(PFF)ブロックと動的アテンション・ブロック(DAB)を統合し,上記の問題に対処する,プログレッシブ・マルチスケール・一貫性ネットワーク(PMCNet)を提案する。 具体的には、PFFブロックは、隣接するエンコーディング層からのマルチスケール機能を段階的に統合し、きめ細かい詳細と高レベルのセマンティクスを集約することにより、各層の特徴学習を容易にする。 異なるスケールの機能は一貫性を持つべきであるため、DABは、異なるスケールで融合した機能から注意深い手がかりを動的に学習するように設計されており、マルチスケールの機能に存在する本質的な矛盾を円滑にすることを目的としている。 提案した2つのPFFブロックとDABブロックは既設のバックボーンネットワークと統合して, 機能空間のより優れた特徴表現を生み出す, 基礎病変のマルチクラスセグメンテーションにおいて, マルチスケールと特徴整合性の2つの問題に対処することができる。 3つの公開データセットにおける実験結果は,提案手法が最新の最新手法よりも有効であることを示している。

Effectively integrating multi-scale information is of considerable significance for the challenging multi-class segmentation of fundus lesions because different lesions vary significantly in scales and shapes. Several methods have been proposed to successfully handle the multi-scale object segmentation. However, two issues are not considered in previous studies. The first is the lack of interaction between adjacent feature levels, and this will lead to the deviation of high-level features from low-level features and the loss of detailed cues. The second is the conflict between the low-level and high-level features, this occurs because they learn different scales of features, thereby confusing the model and decreasing the accuracy of the final prediction. In this paper, we propose a progressive multi-scale consistent network (PMCNet) that integrates the proposed progressive feature fusion (PFF) block and dynamic attention block (DAB) to address the aforementioned issues. Specifically, PFF block progressively integrates multi-scale features from adjacent encoding layers, facilitating feature learning of each layer by aggregating fine-grained details and high-level semantics. As features at different scales should be consistent, DAB is designed to dynamically learn the attentive cues from the fused features at different scales, thus aiming to smooth the essential conflicts existing in multi-scale features. The two proposed PFF and DAB blocks can be integrated with the off-the-shelf backbone networks to address the two issues of multi-scale and feature inconsistency in the multi-class segmentation of fundus lesions, which will produce better feature representation in the feature space. Experimental results on three public datasets indicate that the proposed method is more effective than recent state-of-the-art methods.
翻訳日:2022-06-01 15:20:09 公開日:2022-05-31
# Geo-Neus:多視点再構成のための幾何整合型ニューラルインプリシト表面学習

Geo-Neus: Geometry-Consistent Neural Implicit Surfaces Learning for Multi-view Reconstruction ( http://arxiv.org/abs/2205.15848v1 )

ライセンス: Link先を確認
Qiancheng Fu, Qingshan Xu, Yew-Soon Ong, Wenbing Tao(参考訳) 近年,ボリュームレンダリングによるニューラル暗黙的表面学習が多視点再構成に普及している。 既存のアプローチは明示的なマルチビューの幾何学的制約を欠いているため、通常は幾何学的一貫性のある表面再構成の生成に失敗する。 この課題に対処するために,多視点再構成のための幾何整合型ニューラルサーフェス学習を提案する。 理論的には、ボリュームレンダリング積分とポイントベース符号距離関数(SDF)モデリングの間にギャップがあることを解析する。 このギャップを埋めるために,我々はsdfネットワークのゼロレベル集合を直接位置決めし,sfm(structure from motion)からのスパース幾何とマルチビューステレオのフォトメトリック一貫性を活用し,マルチビュー幾何最適化を明示的に行う。 これにより、sdf最適化が偏りなくなり、マルチビュー幾何制約が真の表面最適化に焦点を合わせることができます。 提案手法は, 複雑な細い構造と大きな滑らかな領域の両方において, 高品質な表面再構成を実現し, 高いマージンを達成できることを示す。

Recently, neural implicit surfaces learning by volume rendering has become popular for multi-view reconstruction. However, one key challenge remains: existing approaches lack explicit multi-view geometry constraints, hence usually fail to generate geometry consistent surface reconstruction. To address this challenge, we propose geometry-consistent neural implicit surfaces learning for multi-view reconstruction. We theoretically analyze that there exists a gap between the volume rendering integral and point-based signed distance function (SDF) modeling. To bridge this gap, we directly locate the zero-level set of SDF networks and explicitly perform multi-view geometry optimization by leveraging the sparse geometry from structure from motion (SFM) and photometric consistency in multi-view stereo. This makes our SDF optimization unbiased and allows the multi-view geometry constraints to focus on the true surface optimization. Extensive experiments show that our proposed method achieves high-quality surface reconstruction in both complex thin structures and large smooth regions, thus outperforming the state-of-the-arts by a large margin.
翻訳日:2022-06-01 15:19:17 公開日:2022-05-31
# オーバーコンプリート畳み込みネットワークを用いたSAR再検討

SAR Despeckling Using Overcomplete Convolutional Networks ( http://arxiv.org/abs/2205.15906v1 )

ライセンス: Link先を確認
Malsha V. Perera, Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, and Vishal M. Patel(参考訳) 合成開口レーダ(SAR)の切り離しは、スペックルがSARイメージを劣化させ、検出やセグメンテーションなどの下流タスクに影響を与えるため、リモートセンシングにおいて重要な問題である。 近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。 従来のcnnは、ネットワークがより深くなるにつれて受容フィールドサイズを増加させ、グローバルな特徴を抽出する。 しかし、スペックルは比較的小さく、受容野の増大はスペックルの特徴の抽出に役立たない。 本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。 提案するネットワークは,局所構造に着目した過完全分枝と,大域構造に注目した過完全分枝からなる。 提案ネットワークは,合成および実sar画像のデスペックリング手法と比較して,デスペックリング性能が向上することを示す。

Synthetic Aperture Radar (SAR) despeckling is an important problem in remote sensing as speckle degrades SAR images, affecting downstream tasks like detection and segmentation. Recent studies show that convolutional neural networks(CNNs) outperform classical despeckling methods. Traditional CNNs try to increase the receptive field size as the network goes deeper, thus extracting global features. However,speckle is relatively small, and increasing receptive field does not help in extracting speckle features. This study employs an overcomplete CNN architecture to focus on learning low-level features by restricting the receptive field. The proposed network consists of an overcomplete branch to focus on the local structures and an undercomplete branch that focuses on the global structures. We show that the proposed network improves despeckling performance compared to recent despeckling methods on synthetic and real SAR images.
翻訳日:2022-06-01 15:18:58 公開日:2022-05-31
# 高解像度ボリュームCT画像のメモリ効率分割

Memory-efficient Segmentation of High-resolution Volumetric MicroCT Images ( http://arxiv.org/abs/2205.15941v1 )

ライセンス: Link先を確認
Yuan Wang, Laura Blackie, Irene Miguel-Aliaga, Wenjia Bai(参考訳) 近年,3次元畳み込みニューラルネットワークが医療画像の領域分割において主流のアプローチとなっている。 しかし、3Dネットワークは2Dネットワークと比較して、トレーニングパラメータが大幅に多くなり、GPUメモリの要求がより高くなる。 これは高解像度ボリューム画像のための3dネットワークの設計とトレーニングの大きな制限要因となっている。 本研究では,3次元高解像度画像分割のための新しいメモリ効率ネットワークアーキテクチャを提案する。 このネットワークは、2段階のU-netベースのカスケードフレームワークを介してグローバル機能とローカル機能の両方を組み込んでおり、第1段階ではメモリ効率の良いU-net(meU-net)が開発された。 2つの段階で学習した特徴は、後連結によって接続され、情報の流れをさらに改善する。 提案手法は,通常2億ボクセルの超高分解能マイクロctデータセット上で評価される。 実験により, セグメント化精度とメモリ効率の両方の観点から, 最先端の3Dセグメンテーション法より優れていることが示された。

In recent years, 3D convolutional neural networks have become the dominant approach for volumetric medical image segmentation. However, compared to their 2D counterparts, 3D networks introduce substantially more training parameters and higher requirement for the GPU memory. This has become a major limiting factor for designing and training 3D networks for high-resolution volumetric images. In this work, we propose a novel memory-efficient network architecture for 3D high-resolution image segmentation. The network incorporates both global and local features via a two-stage U-net-based cascaded framework and at the first stage, a memory-efficient U-net (meU-net) is developed. The features learnt at the two stages are connected via post-concatenation, which further improves the information flow. The proposed segmentation method is evaluated on an ultra high-resolution microCT dataset with typically 250 million voxels per volume. Experiments show that it outperforms state-of-the-art 3D segmentation methods in terms of both segmentation accuracy and memory efficiency.
翻訳日:2022-06-01 15:18:40 公開日:2022-05-31
# CropMix: マルチスケールクロッピングによるリッチな入力分布のサンプリング

CropMix: Sampling a Rich Input Distribution via Multi-Scale Cropping ( http://arxiv.org/abs/2205.15955v1 )

ライセンス: Link先を確認
Junlin Han, Lars Petersson, Hongdong Li, Ian Reid(参考訳) 本稿では,オリジナルデータセット分布からリッチな入力分布を生成するための簡単な手法であるcropmixを提案する。 制限された情報のみを不注意にキャプチャする単一ランダムクロッピングや、純粋な背景、無関係なオブジェクトなどの無関係な情報と異なり、異なる作物スケールで複数回画像を収穫し、複数の規模の情報をキャプチャする。 新たな入力分布は、複数の視覚タスクに有用なトレーニングデータとして機能し、複数のトリミングされたビューを単純に混ぜて形成される。 まず,分類タスクを実行するトレーニングレシピやニューラルネットワークアーキテクチャに対して,cropmixをシームレスに適用できることを実証する。 CropMixは、計算の単純さと効率を犠牲にすることなく、複数のベンチマークタスクにおける画像分類器の性能を向上させる。 さらに,CropMixは,学習した表現が下流タスクに転送される場合に,より強力な表現に対して,コントラスト学習とマスク画像モデリングの両方の利点があることを示す。 コードはGitHubで入手できる。

We present a simple method, CropMix, for the purpose of producing a rich input distribution from the original dataset distribution. Unlike single random cropping, which may inadvertently capture only limited information, or irrelevant information, like pure background, unrelated objects, etc, we crop an image multiple times using distinct crop scales, thereby ensuring that multi-scale information is captured. The new input distribution, serving as training data, useful for a number of vision tasks, is then formed by simply mixing multiple cropped views. We first demonstrate that CropMix can be seamlessly applied to virtually any training recipe and neural network architecture performing classification tasks. CropMix is shown to improve the performance of image classifiers on several benchmark tasks across-the-board without sacrificing computational simplicity and efficiency. Moreover, we show that CropMix is of benefit to both contrastive learning and masked image modeling towards more powerful representations, where preferable results are achieved when learned representations are transferred to downstream tasks. Code is available at GitHub.
翻訳日:2022-06-01 15:16:36 公開日:2022-05-31
# コード階層によるプログラム表現の学習

Learning to Represent Programs with Code Hierarchies ( http://arxiv.org/abs/2205.15479v1 )

ライセンス: Link先を確認
Minh Nguyen, Nghi D. Q. Bui(参考訳) ソースコードの処理に使用すると、グラフニューラルネットワークは、幅広いソフトウェアエンジニアリングタスクに対して印象的な結果をもたらすことが示されている。 しかし、既存の技術には依然として2つの問題がある。(1) 長期依存と(2) 異なるコードコンポーネントは、そうでない場合は等しく扱われる。 これらの問題に対処するため,我々は,様々な粒度で異なるコードコンポーネントを別々に表現する階層(コード階層)としてコードを表現する手法を提案する。 そして、各レベルの表現を処理するために、ヘテロジニアスグラフトランスフォーマーネットワークとツリーベースの畳み込みニューラルネットワークの強みを組み合わせた新しいネットワークアーキテクチャ、HIRGASTを設計し、コード依存情報に富んだ抽象構文木を学習する。 また,コード階層を補完するために,欠落部分木予測と呼ばれる新しい事前学習目標を提案する。 評価の結果,提案手法は,任意のコード補完,コード分類,コードクローン検出という3つの下流タスクにおいて,他のベースラインよりも有意に優れていた。

When used to process source code, graph neural networks have been shown to produce impressive results for a wide range of software engineering tasks. Existing techniques, however, still have two issues: (1) long-term dependency and (2) different code components are treated as equals when they should not be. To address these issues, we propose a method for representing code as a hierarchy (Code Hierarchy), in which different code components are represented separately at various levels of granularity. Then, to process each level of representation, we design a novel network architecture, HIRGAST, which combines the strengths of Heterogeneous Graph Transformer Networks and Tree-based Convolutional Neural Networks to learn Abstract Syntax Trees enriched with code dependency information. We also propose a novel pretraining objective called Missing Subtree Prediction to complement our Code Hierarchy. The evaluation results show that our method significantly outperforms other baselines in three downstream tasks: any-code completion, code classification, and code clone detection.
翻訳日:2022-06-01 15:15:56 公開日:2022-05-31
# サブポピュレーション分解による分布フェアネスの認定

Certifying Some Distributional Fairness with Subpopulation Decomposition ( http://arxiv.org/abs/2205.15494v1 )

ライセンス: Link先を確認
Mintong Kang, Linyi Li, Maurice Weber, Yang Liu, Ce Zhang, Bo Li(参考訳) 医療保険、教育、雇用決定などの高度な分野において、観察指標に基づく機械学習モデルの公正性を理解し改善するために、広範囲にわたる努力がなされている。 しかし、MLモデルのエンドツーエンドのパフォーマンスを考えると、証明された公正さは欠如している。 本稿では、与えられたデータ分布に基づいて訓練されたMLモデルの正当性を、トレーニング分布との境界分布距離内である公正制約分布に縛られたモデル性能損失に基づいて最適化問題として定式化する。 次に,一般的なフェアネス認定フレームワークを提案し,センシティブシフトと一般的なシフトシナリオの両方に対してインスタンス化する。 特に,元データ分布を解析的サブ集団に分解し,サブプロブレムの凸性を証明し,最適化問題を解くことを提案する。 実世界の6つのデータセットに対する証明された公正性を評価し、センシティブなシフトシナリオが厳密であることを示し、一般的なシフトの下では非自明な認証を提供する。 我々のフレームワークは、追加の非スキューネス制約を統合する柔軟性があり、異なる実世界のシナリオ下でさらに厳密な認証を提供することを示す。 また,gaussianデータに対する既存の分布的ロバスト性境界と比較し,本手法がはるかに密なものであることを示す。

Extensive efforts have been made to understand and improve the fairness of machine learning models based on observational metrics, especially in high-stakes domains such as medical insurance, education, and hiring decisions. However, there is a lack of certified fairness considering the end-to-end performance of an ML model. In this paper, we first formulate the certified fairness of an ML model trained on a given data distribution as an optimization problem based on the model performance loss bound on a fairness constrained distribution, which is within bounded distributional distance with the training distribution. We then propose a general fairness certification framework and instantiate it for both sensitive shifting and general shifting scenarios. In particular, we propose to solve the optimization problem by decomposing the original data distribution into analytical subpopulations and proving the convexity of the subproblems to solve them. We evaluate our certified fairness on six real-world datasets and show that our certification is tight in the sensitive shifting scenario and provides non-trivial certification under general shifting. Our framework is flexible to integrate additional non-skewness constraints and we show that it provides even tighter certification under different real-world scenarios. We also compare our certified fairness bound with adapted existing distributional robustness bounds on Gaussian data and demonstrate that our method is significantly tighter.
翻訳日:2022-06-01 15:15:11 公開日:2022-05-31
# 異常検出のためのグラフニューラルネットワーク再考

Rethinking Graph Neural Networks for Anomaly Detection ( http://arxiv.org/abs/2205.15508v1 )

ライセンス: Link先を確認
Jianheng Tang, Jiajin Li, Ziqi Gao, Jia Li(参考訳) グラフニューラルネットワーク(GNN)はグラフ異常検出に広く応用されている。 GNN設計の鍵となる要素の1つは、調整されたスペクトルフィルタを選択することであるので、グラフスペクトルのレンズを通して異常を分析するための第一歩を踏み出す。 我々の重要な観察は、異常の存在は「右シフト」現象につながり、スペクトルエネルギー分布は低周波数よりも高周波数に集中する。 この事実は、Beta Wavelet Graph Neural Network (BWGNN)を提案する動機となっている。 実際、BWGNNはスペクトルおよび空間的局所化バンドパスフィルタを持ち、異常の「右シフト」現象をよりよく扱う。 4つの大規模異常検出データセットに対するBWGNNの有効性を示す。 私たちのコードとデータはhttps://github.com/s quareRoot3/Rethinkin g-Anomaly-Detectionでリリースされます。

Graph Neural Networks (GNNs) are widely applied for graph anomaly detection. As one of the key components for GNN design is to select a tailored spectral filter, we take the first step towards analyzing anomalies via the lens of the graph spectrum. Our crucial observation is the existence of anomalies will lead to the `right-shift' phenomenon, that is, the spectral energy distribution concentrates less on low frequencies and more on high frequencies. This fact motivates us to propose the Beta Wavelet Graph Neural Network (BWGNN). Indeed, BWGNN has spectral and spatial localized band-pass filters to better handle the `right-shift' phenomenon in anomalies. We demonstrate the effectiveness of BWGNN on four large-scale anomaly detection datasets. Our code and data are released at https://github.com/s quareRoot3/Rethinkin g-Anomaly-Detection
翻訳日:2022-06-01 15:14:49 公開日:2022-05-31
# 分子軌道型機械学習における導関数を用いた回転同値ガウス過程回帰による分子双極子モーメント学習

Molecular Dipole Moment Learning via Rotationally Equivariant Gaussian Process Regression with Derivatives in Molecular-orbital-ba sed Machine Learning ( http://arxiv.org/abs/2205.15510v1 )

ライセンス: Link先を確認
Jiace Sun, Lixue Cheng, and Thomas F. Miller III(参考訳) 本研究では,高精度かつ伝達可能な分子軌道ベース機械学習(MOB-ML)アプローチを拡張し,ハーツリー・フォック計算のコストによる双極子モーメントへの電子相関の寄与をモデル化する。 双極子モーメントの相関部の分子軌道ベース(MOB)対分解を応用し、これらの双極子モーメントを分子軌道(MO)の普遍関数としてさらに回帰させることができる。 双極子MOBの特徴は、エネルギーMOBの特徴と電場に対する応答から成り立っている。 ディポールモーメントをより効率的に学習するために、微分アルゴリズムによる解釈可能かつ回転同変ガウス過程回帰(GPR)を導入する。 提案する問題設定,特徴設計,mlアルゴリズムは,水と14個の小分子上の双極子モーメントとエネルギーの両方の高精度モデルを提供する。 分子双極子モーメントや有機分子のエネルギーの一般密度行列関数として機能するMOB-MLの能力を実証するために,提案したMOB-MLアプローチを用いてQM9データセットから分子を訓練・試験する。 ガウス混合クラスタリング(GMM/GPR)を用いた局所拡張GPRの応用は、予測精度を維持しつつ、MOB-MLを大規模データ構造にスケールアップする。 さらに、文献と比較すると、MOB-MLは110000QM9分子のトレーニングにおいて、それぞれ双極子モーメントとエネルギーモデルのための4.21mDebyeと0.045kcal/molの最良のMAEを提供する。 得られたqm9モデルの優れた移動性は、4つの異なるペプチドの正確な予測によって示される。

This study extends the accurate and transferable molecular-orbital-ba sed machine learning (MOB-ML) approach to modeling the contribution of electron correlation to dipole moments at the cost of Hartree-Fock computations. A molecular-orbital-ba sed (MOB) pairwise decomposition of the correlation part of the dipole moment is applied, and these pair dipole moments could be further regressed as a universal function of molecular orbitals (MOs). The dipole MOB features consist of the energy MOB features and their responses to electric fields. An interpretable and rotationally equivariant Gaussian process regression (GPR) with derivatives algorithm is introduced to learn the dipole moment more efficiently. The proposed problem setup, feature design, and ML algorithm are shown to provide highly-accurate models for both dipole moment and energies on water and fourteen small molecules. To demonstrate the ability of MOB-ML to function as generalized density-matrix functionals for molecular dipole moments and energies of organic molecules, we further apply the proposed MOB-ML approach to train and test the molecules from the QM9 dataset. The application of local scalable GPR with Gaussian mixture model unsupervised clustering (GMM/GPR) scales up MOB-ML to a large-data regime while retaining the prediction accuracy. In addition, compared with literature results, MOB-ML provides the best test MAEs of 4.21 mDebye and 0.045 kcal/mol for dipole moment and energy models, respectively, when training on 110000 QM9 molecules. The excellent transferability of the resulting QM9 models is also illustrated by the accurate predictions for four different series of peptides.
翻訳日:2022-06-01 15:14:36 公開日:2022-05-31
# 探索時間とロバスト性を改善するDNNオートチューニングのHW対応初期化

HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time and Robustness ( http://arxiv.org/abs/2205.15568v1 )

ライセンス: Link先を確認
Dennis Rieber and Moritz Reiber and Oliver Bringmann and Holger Fr\"oning(参考訳) MLモデルと自動チューニングと呼ばれるハードウェア・イン・ザ・ループによるDNNオペレータのレイテンシを最適化するプロセスは、ニューラルネットワークの展開に広く利用される方法として確立されている。 ループ最適化の探索空間から、最高のパフォーマンスを提供する候補を選択する必要がある。 ハードウェア測定により個々の構成の性能を評価する。 可能な構成の組合せ的な爆発とハードウェア評価のコストは、探索空間の徹底的な探索を実際に実現不可能にする。 ランダムな森林や強化学習のような機械学習手法は、ハードウェア評価のための候補の選択に役立つ。 x86やGPGPUのような汎用ハードウェアでは、cuDNNのような手動最適化ライブラリと比較して、優れたパフォーマンス向上が達成できる。 この手法はハードウェアアクセラレーターの分野でも有用であり、高性能ライブラリが常に利用できるとは限らない。 しかしながら、ハードウェアアクセラレーションは、ハードウェアターゲット上で実行できないオペレータ構成につながるプログラミングに関して、柔軟性が低いことが多い。 本研究は,VTAハードウェアの性能予測モデルを用いて,これらの無効な構成が自動チューニングプロセスに与える影響を評価する。 これらの結果から,autotvmの有効性に基づく初期化手法が開発され,最適解を求めるのに必要なハードウェア測定の41.6%しか必要とせず,検索の堅牢性も向上した。

The process of optimizing the latency of DNN operators with ML models and hardware-in-the-loop , called auto-tuning, has established itself as a pervasive method for the deployment of neural networks. From a search space of loop-optimizations, the candidate providing the best performance has to be selected. Performance of individual configurations is evaluated through hardware measurements. The combinatorial explosion of possible configurations, together with the cost of hardware evaluation makes exhaustive explorations of the search space infeasible in practice. Machine Learning methods, like random forests or reinforcement learning are used to aid in the selection of candidates for hardware evaluation. For general purpose hardware like x86 and GPGPU architectures impressive performance gains can be achieved, compared to hand-optimized libraries like cuDNN. The method is also useful in the space of hardware accelerators with less wide-spread adoption, where a high-performance library is not always available. However, hardware accelerators are often less flexible with respect to their programming which leads to operator configurations not executable on the hardware target. This work evaluates how these invalid configurations affect the auto-tuning process and its underlying performance prediction model for the VTA hardware. From these results, a validity-driven initialization method for AutoTVM is developed, only requiring 41.6% of the necessary hardware measurements to find the best solution, while improving search robustness.
翻訳日:2022-06-01 15:14:06 公開日:2022-05-31
# 部分的参加設定における分散非凸問題の計算・通信効率化手法

A Computation and Communication Efficient Method for Distributed Nonconvex Problems in the Partial Participation Setting ( http://arxiv.org/abs/2205.15580v1 )

ライセンス: Link先を確認
Alexander Tyurin, Peter Richt\'arik(参考訳) 本稿では,分散最適化とフェデレート学習の3つの重要な要素を含む新しい手法を提案する。 本手法は, 部分参加環境において, 最適オラクル複雑性と最先端通信複雑性を有することを示す。 さらに,「1 + 1 + 1 is not 3」は, 確率勾配の分散還元と, 圧縮通信と部分的参加を混合することにより, 完全に相乗効果が得られない。 この現象の性質を説明し、この現象が期待されていることを論じ、可能な回避策を提案する。

We present a new method that includes three key components of distributed optimization and federated learning: variance reduction of stochastic gradients, compressed communication, and partial participation. We prove that the new method has optimal oracle complexity and state-of-the-art communication complexity in the partial participation setting. Moreover, we observe that "1 + 1 + 1 is not 3": by mixing variance reduction of stochastic gradients with compressed communication and partial participation, we do not obtain a fully synergetic effect. We explain the nature of this phenomenon, argue that this is to be expected, and propose possible workarounds.
翻訳日:2022-06-01 15:13:05 公開日:2022-05-31
# セマンティックオートエンコーダとその敵攻撃への応用

Semantic Autoencoder and Its Potential Usage for Adversarial Attack ( http://arxiv.org/abs/2205.15592v1 )

ライセンス: Link先を確認
Yurui Ming, Cuihuan Du, and Chin-Teng Lin(参考訳) オートエンコーダは入力データの適切な潜在表現を生じさせるが、入力データの本質的な性質にのみ依存する表現は通常、いくつかの意味情報を表現するために劣る。 典型的なケースは、これらの表現のクラスタリング時に明確な境界を形成することができないことである。 入力データの内容だけでなく、ラベル情報などの入力データの意味にも依存する潜在表現を符号化することにより、セマンティックオートエンコーダと呼ばれる拡張されたオートエンコーダアーキテクチャを提案する。 t-sneによる表現分布の実験は、これらの2種類のエンコーダの明確な区別を示し、セマンティックなエンコーダの優位性を確認する一方で、これらの2種類のオートエンコーダのデコードされたサンプルは客観的にも主観的にもかすかな相似性を示す。 この観察に基づいて,オートエンコーダによって得られる潜在表現に依存する学習アルゴリズムに対する逆攻撃を考える。 その結果,有意なラベル情報を持つセマンティックエンコーダから構築した敵対的サンプルの潜在内容は,元の入力データと異なる分布を示し,両者の差は非常に小さいことがわかった。 我々の研究によって構築されたこの新たな攻撃方法は、広範なディープラーニングアプリケーションを確保する必要性から、注目に値するものです。

Autoencoder can give rise to an appropriate latent representation of the input data, however, the representation which is solely based on the intrinsic property of the input data, is usually inferior to express some semantic information. A typical case is the potential incapability of forming a clear boundary upon clustering of these representations. By encoding the latent representation that not only depends on the content of the input data, but also the semantic of the input data, such as label information, we propose an enhanced autoencoder architecture named semantic autoencoder. Experiments of representation distribution via t-SNE shows a clear distinction between these two types of encoders and confirm the supremacy of the semantic one, whilst the decoded samples of these two types of autoencoders exhibit faint dissimilarity either objectively or subjectively. Based on this observation, we consider adversarial attacks to learning algorithms that rely on the latent representation obtained via autoencoders. It turns out that latent contents of adversarial samples constructed from semantic encoder with deliberate wrong label information exhibit different distribution compared with that of the original input data, while both of these samples manifest very marginal difference. This new way of attack set up by our work is worthy of attention due to the necessity to secure the widespread deep learning applications.
翻訳日:2022-06-01 15:12:54 公開日:2022-05-31
# 位相探索のための生成モデルの中間表現の最適化

Optimizing Intermediate Representations of Generative Models for Phase Retrieval ( http://arxiv.org/abs/2205.15617v1 )

ライセンス: Link先を確認
Tobias Uelwer, Sebastian Konietzny, Stefan Harmeling(参考訳) 位相検索は、マグニチュードのみの測定から画像を再構成する問題である。 多くの実世界のアプリケーションでは、問題は過小評価されている。 トレーニングデータが利用可能であれば、生成モデルはソリューションセットを制約する新しいアイデアになります。 しかし、すべての可能な解が生成器の範囲内にあるわけではない。 代わりに、何らかのエラーで表される。 この表現誤差を位相検索の文脈で低減するため,我々はまず,中間層最適化(ilo)の新たな変種を利用して,トレーニングデータに整合した画像を作成しながら,生成器の範囲を拡大する。 第2に,再建の質をさらに向上する新たな初期化手法を導入する。 フーリエおよびガウス位相検索問題および徹底的なアブレーション研究に関する広範な実験により,改良iloと新しい初期化スキームの利点を示すことができる。

Phase retrieval is the problem of reconstructing images from magnitude-only measurements. In many real-world applications the problem is underdetermined. When training data is available, generative models are a new idea to constrain the solution set. However, not all possible solutions are within the range of the generator. Instead, they are represented with some error. To reduce this representation error in the context of phase retrieval, we first leverage a novel variation of intermediate layer optimization (ILO) to extend the range of the generator while still producing images consistent with the training data. Second, we introduce new initialization schemes that further improve the quality of the reconstruction. With extensive experiments on Fourier and Gaussian phase retrieval problems and thorough ablation studies, we can show the benefits of our modified ILO and the new initialization schemes.
翻訳日:2022-06-01 15:12:32 公開日:2022-05-31
# 3次元タンパク質構造のコントラスト表現学習

Contrastive Representation Learning for 3D Protein Structures ( http://arxiv.org/abs/2205.15675v1 )

ライセンス: Link先を確認
Pedro Hermosilla and Timo Ropinski(参考訳) 3Dタンパク質構造からの学習は、タンパク質モデリングと構造生物情報学に広く関心を集めている。 残念ながら、利用可能な構造の数は、コンピュータビジョンや機械学習で一般的に使用されるトレーニングデータサイズよりも桁違いに少ない。 さらに、アノテートされたタンパク質構造のみを考慮すれば、この数がさらに減少し、既存のモデルのトレーニングが難しくなり、過剰に適合しやすくなる。 この課題に対処するために、3Dタンパク質構造のための新しい表現学習フレームワークを導入する。 我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習し、タンパク質データバンクからタンパク質を利用する。 我々は、これらの表現がタンパク質機能予測、タンパク質折り畳み分類、構造類似性予測、タンパク質結合親和性予測など、様々なタスクの解決にどのように役立つかを示す。 さらに,アルゴリズムで事前学習した細かなネットワークがタスク性能を著しく向上させ,多数のタスクで新たな最先端結果が得られることを示す。

Learning from 3D protein structures has gained wide interest in protein modeling and structural bioinformatics. Unfortunately, the number of available structures is orders of magnitude lower than the training data sizes commonly used in computer vision and machine learning. Moreover, this number is reduced even further, when only annotated protein structures can be considered, making the training of existing models difficult and prone to over-fitting. To address this challenge, we introduce a new representation learning framework for 3D protein structures. Our framework uses unsupervised contrastive learning to learn meaningful representations of protein structures, making use of proteins from the Protein Data Bank. We show, how these representations can be used to solve a large variety of tasks, such as protein function prediction, protein fold classification, structural similarity prediction, and protein-ligand binding affinity prediction. Moreover, we show how fine-tuned networks, pre-trained with our algorithm, lead to significantly improved task performance, achieving new state-of-the-art results in many tasks.
翻訳日:2022-06-01 15:12:19 公開日:2022-05-31
# 検索エンジンクエリボリュームを用いた日先株価の予測:S&P100への勾配ブースト決定木の適用

Predicting Day-Ahead Stock Returns using Search Engine Query Volumes: An Application of Gradient Boosted Decision Trees to the S&P 100 ( http://arxiv.org/abs/2205.15853v1 )

ライセンス: Link先を確認
Christopher Bockel-Rickermann(参考訳) インターネットは私たちの生活、働き方、意思決定方法を変えました。 研究のための主要な現代資料であるため、インターネット利用に関する詳細なデータは大量の行動情報を示している。 本論文は、金融資本市場における将来の株式リターンを予測するために、この情報が促進されるかどうかを問うものである。 実証分析では、s&p 100指数における株価の異常リターンと、過去の財務データに由来する遅延予測者、およびインターネット検索エンジンgoogleの検索項クエリボリュームの関係を学習するために、勾配強化決定木を実装している。 モデルは、指数中央値を超える日平均株価のリターンを予測します。 2005年から2017年までの期間において、すべての異なるデータセットが貴重な情報を表示する。 評価されたモデルは、受信機の動作特性の54.2%から56.7%の平均領域を持ち、明らかにランダムな推測よりも優れた分類を示している。 単純な統計的仲裁戦略を実装し、モデルは10株の日替わり取引ポートフォリオを作成するために使用され、取引コストよりも57%以上パフォーマンスを達成している。 さまざまなデータセットがパフォーマンスランキングを上回り、その結果は現代の金融資本市場の弱体化と半強体化にさらに疑問を呈する。 トランザクションコストは含まれていないが、このアプローチは既存の文献に追加される。 金融と経済のモデリングと予測のためのインターネット利用行動のデータの使用と変換に関するガイダンスを提供する。

The internet has changed the way we live, work and take decisions. As it is the major modern resource for research, detailed data on internet usage exhibits vast amounts of behavioral information. This paper aims to answer the question whether this information can be facilitated to predict future returns of stocks on financial capital markets. In an empirical analysis it implements gradient boosted decision trees to learn relationships between abnormal returns of stocks within the S&P 100 index and lagged predictors derived from historical financial data, as well as search term query volumes on the internet search engine Google. Models predict the occurrence of day-ahead stock returns in excess of the index median. On a time frame from 2005 to 2017, all disparate datasets exhibit valuable information. Evaluated models have average areas under the receiver operating characteristic between 54.2% and 56.7%, clearly indicating a classification better than random guessing. Implementing a simple statistical arbitrage strategy, models are used to create daily trading portfolios of ten stocks and result in annual performances of more than 57% before transaction costs. With ensembles of different data sets topping up the performance ranking, the results further question the weak form and semi-strong form efficiency of modern financial capital markets. Even though transaction costs are not included, the approach adds to the existing literature. It gives guidance on how to use and transform data on internet usage behavior for financial and economic modeling and forecasting.
翻訳日:2022-06-01 15:12:00 公開日:2022-05-31
# (参考訳) Neural Retriever and Go Beyond: テーマ提案 [全文訳有]

Neural Retriever and Go Beyond: A Thesis Proposal ( http://arxiv.org/abs/2205.16005v1 )

ライセンス: CC BY 4.0
Man Luo(参考訳) Information Retriever (IR) は、あるクエリに関連するドキュメント(スニペット、パス、記事など)を大規模に検索することを目的としている。 IRは、外部知識が必要なオープンドメイン質問応答や対話システムなど、多くのタスクにおいて重要な役割を果たす。 これまで,項マッチングに基づく探索アルゴリズムが広く用いられてきた。 近年,ニューラルレトリバーと呼ばれるニューラルベースアルゴリズムが注目され,従来の手法の限界を緩和している。 ニューラルレトリバーの成功にかかわらず、少量のトレーニングデータに苦しむことや、単純なエンティティ中心の質問に答えられないことなど、多くの課題に直面している。 さらに、既存のニューラルレトリバーのほとんどは、純粋テキストクエリのために開発されている。 これにより、マルチモーダルなクエリ(すなわち、クエリはテキスト記述とイメージで構成されている)を扱うことができない。 この提案には2つの目標がある。 まず,3つの角度からのニューラルレトリバー,新しいモデルアーキテクチャ,IR指向事前学習タスク,大規模トレーニングデータの生成といった課題に対処する手法を提案する。 第2に,今後の研究方向を特定し,潜在的な対応策を提案する。

Information Retriever (IR) aims to find the relevant documents (e.g. snippets, passages, and articles) to a given query at large scale. IR plays an important role in many tasks such as open domain question answering and dialogue systems, where external knowledge is needed. In the past, searching algorithms based on term matching have been widely used. Recently, neural-based algorithms (termed as neural retrievers) have gained more attention which can mitigate the limitations of traditional methods. Regardless of the success achieved by neural retrievers, they still face many challenges, e.g. suffering from a small amount of training data and failing to answer simple entity-centric questions. Furthermore, most of the existing neural retrievers are developed for pure-text query. This prevents them from handling multi-modality queries (i.e. the query is composed of textual description and images). This proposal has two goals. First, we introduce methods to address the abovementioned issues of neural retrievers from three angles, new model architectures, IR-oriented pretraining tasks, and generating large scale training data. Second, we identify the future research direction and propose potential corresponding solution.
翻訳日:2022-06-01 15:11:06 公開日:2022-05-31
# テンポラルチャネルアグリゲーションによる骨格に基づく行動認識

Skeleton-based Action Recognition via Temporal-Channel Aggregation ( http://arxiv.org/abs/2205.15936v1 )

ライセンス: Link先を確認
Shengqin Wang, Yongji Zhang, Fenglin Wei, Kai Wang, Minghao Zhao, Yu Jiang(参考訳) スケルトンに基づく行動認識法は時空間骨格図の意味抽出によって制限される。 しかし、現在の手法は時間グラフ次元と空間グラフ次元の両方の特徴を効果的に組み合わせることが困難であり、一方は厚く、他方は薄い傾向にある。 本稿では,時間的・時間的トポロジーを動的に学習し,スケルトンベース行動認識のための時間的・チャネル的特徴を効率的に集約する時間的チャネル集約グラフ畳み込みネットワーク(tca-gcn)を提案する。 時間的アグリゲーションモジュールを用いて時間的次元特徴を学習し,チャネルアグリゲーションモジュールを用いて時間的動的位相特徴と時間的動的位相特徴を用いて学習した空間的動的位相特徴を効率的に結合する。 さらに,時間モデルにおける多次元骨格特徴を抽出し,注意機構を用いて先行骨格知識と融合する。 実験の結果,NTU RGB+D, NTU RGB+D 120, NW-UCLAデータセットでは, 最先端の手法よりも優れた結果が得られた。

Skeleton-based action recognition methods are limited by the semantic extraction of spatio-temporal skeletal maps. However, current methods have difficulty in effectively combining features from both temporal and spatial graph dimensions and tend to be thick on one side and thin on the other. In this paper, we propose a Temporal-Channel Aggregation Graph Convolutional Networks (TCA-GCN) to learn spatial and temporal topologies dynamically and efficiently aggregate topological features in different temporal and channel dimensions for skeleton-based action recognition. We use the Temporal Aggregation module to learn temporal dimensional features and the Channel Aggregation module to efficiently combine spatial dynamic topological features learned using Channel-wise with temporal dynamic topological features. In addition, we extract multi-scale skeletal features on temporal modeling and fuse them with priori skeletal knowledge with an attention mechanism. Extensive experiments show that our model results outperform state-of-the-art methods on the NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
翻訳日:2022-06-01 14:57:41 公開日:2022-05-31
# 3次元物体検出のためのVoxel Field Fusion

Voxel Field Fusion for 3D Object Detection ( http://arxiv.org/abs/2205.15938v1 )

ライセンス: Link先を確認
Yanwei Li, Xiaojuan Qi, Yukang Chen, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia(参考訳) 本稿では,ボクセル場融合(voxel field fusion)という,概念的に単純かつ有効な3次元物体検出フレームワークを提案する。 提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。 この目的のために、学習可能なサンプルは、まず、空間的コンテキストによる特徴表現の整合性を維持するために、ボクセルグリッドに投影される画像平面から重要な特徴をサンプリングするように設計されている。 さらに、構築されたボクセル場において、補足コンテキストで特徴を融合するために線量融合を行う。 さらに,データ拡張におけるモダリティギャップを橋渡しする特徴変化変換を調整するための混合拡張器の開発を行った。 提案手法は,kitti と nuscenes のデータセットに対する以前の fusion ベースの手法よりも優れた結果が得られることを示す。 コードはhttps://github.com/d vlab-research/vffで入手できる。

In this work, we present a conceptually simple yet effective framework for cross-modality 3D object detection, named voxel field fusion. The proposed approach aims to maintain cross-modality consistency by representing and fusing augmented image features as a ray in the voxel field. To this end, the learnable sampler is first designed to sample vital features from the image plane that are projected to the voxel grid in a point-to-ray manner, which maintains the consistency in feature representation with spatial context. In addition, ray-wise fusion is conducted to fuse features with the supplemental context in the constructed voxel field. We further develop mixed augmentor to align feature-variant transformations, which bridges the modality gap in data augmentation. The proposed framework is demonstrated to achieve consistent gains in various benchmarks and outperforms previous fusion-based methods on KITTI and nuScenes datasets. Code is made available at https://github.com/d vlab-research/VFF.
翻訳日:2022-06-01 14:57:21 公開日:2022-05-31
# Text2Human: テキスト駆動制御可能な人体画像生成

Text2Human: Text-Driven Controllable Human Image Generation ( http://arxiv.org/abs/2205.15996v1 )

ライセンス: Link先を確認
Yuming Jiang, Shuai Yang, Haonan Qiu, Wayne Wu, Chen Change Loy, Ziwei Liu(参考訳) 高品質で多様な人間の画像を生成することは、視覚とグラフィックスにおいて重要な課題である。 しかし、既存の生成モデルは衣服の形状やテクスチャの多様性に欠けることが多い。 さらに、生成プロセスは、素人ユーザに対して直感的に制御可能であることも望まれる。 本稿では,高品質かつ多様な人間世代のためのテキスト駆動制御フレームワークtext2humanを提案する。 我々は、与えられた人間のポーズから始めて、人間の全身イメージを2つの専用ステップで合成する。 1) 衣服の形状を記述した書面がいくつかあることから, 与えられた人間のポーズをまず人間のパーシングマップに翻訳する。 2)最終的な人間の画像は,衣服のテクスチャに関する属性をシステムに提供することで生成される。 具体的には、衣服のテクスチャの多様性をモデル化するために、階層的なテクスチャ対応のコードブックを構築します。 粗いレベルのコードブックにはテクスチャの構造表現が含まれており、細かいレベルのコードブックはテクスチャの詳細に焦点を当てている。 学習された階層的コードブックを用いて所望の画像を合成するために、まず、コードブックの粗いレベルからインデックスをサンプリングするために、専門家が混在した拡散ベースのトランスフォーマサンプラーを使用し、より細かいレベルでコードブックのインデックスを予測する。 異なるレベルの予測インデックスは、階層的なコードブックとともに学習したデコーダによって人間の画像に変換される。 mix-of-expertsを使用することで、きめ細かいテキスト入力に基づいて生成された画像を生成することができる。 より細かいレベルの指標の予測は、衣料品のテクスチャの質を洗練させる。 定量的・質的評価により,提案手法は最先端の手法に比べ,より多様で現実的な人間像を生成できることを示した。

Generating high-quality and diverse human images is an important yet challenging task in vision and graphics. However, existing generative models often fall short under the high diversity of clothing shapes and textures. Furthermore, the generation process is even desired to be intuitively controllable for layman users. In this work, we present a text-driven controllable framework, Text2Human, for a high-quality and diverse human generation. We synthesize full-body human images starting from a given human pose with two dedicated steps. 1) With some texts describing the shapes of clothes, the given human pose is first translated to a human parsing map. 2) The final human image is then generated by providing the system with more attributes about the textures of clothes. Specifically, to model the diversity of clothing textures, we build a hierarchical texture-aware codebook that stores multi-scale neural representations for each type of texture. The codebook at the coarse level includes the structural representations of textures, while the codebook at the fine level focuses on the details of textures. To make use of the learned hierarchical codebook to synthesize desired images, a diffusion-based transformer sampler with mixture of experts is firstly employed to sample indices from the coarsest level of the codebook, which then is used to predict the indices of the codebook at finer levels. The predicted indices at different levels are translated to human images by the decoder learned accompanied with hierarchical codebooks. The use of mixture-of-experts allows for the generated image conditioned on the fine-grained text input. The prediction for finer level indices refines the quality of clothing textures. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework can generate more diverse and realistic human images compared to state-of-the-art methods.
翻訳日:2022-06-01 14:57:02 公開日:2022-05-31
# 画像修正のためのカスケード輝度とクロミナンス:アーティストに近い

Cascade Luminance and Chrominance for Image Retouching: More Like Artist ( http://arxiv.org/abs/2205.15999v1 )

ライセンス: Link先を確認
Hailong Ma, Sibo Feng, Xi Xiao, Chenyu Dong and Xingyue Cheng(参考訳) photo retouchingは、画像の輝度、コントラスト、彩度を調整し、より人間の美的に望ましいものにすることを目的としている。 しかし,写真再生におけるアーティストの行動は定量的に分析することは困難である。 そこで我々は,2段階のネットワークを提案し,まず画像の鮮明化と彩色面の濃厚化を図った。 画像EXIFから有用な6つの情報をネットワークの条件入力として選択する。 さらに、色調パレットの損失が加わり、画像がより鮮やかになる。 上記の3つの側面に基づいて、Luminance-Chrominanc e Cascading Net(LCCNet)は、アーティストを写真修正で模倣する機械学習問題をより合理的に解決する。 実験の結果,提案手法はMIT-Adobe FiveK データセットのベンチマークに有効であり,定量評価と定性評価の両面において最先端の性能が得られた。

Photo retouching aims to adjust the luminance, contrast, and saturation of the image to make it more human aesthetically desirable. However, artists' actions in photo retouching are difficult to quantitatively analyze. By investigating their retouching behaviors, we propose a two-stage network that brightens images first and then enriches them in the chrominance plane. Six pieces of useful information from image EXIF are picked as the network's condition input. Additionally, hue palette loss is added to make the image more vibrant. Based on the above three aspects, Luminance-Chrominanc e Cascading Net(LCCNet) makes the machine learning problem of mimicking artists in photo retouching more reasonable. Experiments show that our method is effective on the benchmark MIT-Adobe FiveK dataset, and achieves state-of-the-art performance for both quantitative and qualitative evaluation.
翻訳日:2022-06-01 14:56:36 公開日:2022-05-31
# ベクトル量子化拡散モデルの改良

Improved Vector Quantized Diffusion Models ( http://arxiv.org/abs/2205.16007v1 )

ライセンス: Link先を確認
Zhicong Tang, Shuyang Gu, Jianmin Bao, Dong Chen, Fang Wen(参考訳) ベクトル量子化拡散(VQ-Diffusion)はテキスト対画像合成の強力な生成モデルであるが、低品質のサンプルや弱い相関画像を生成することもある。 これらの問題は、主にサンプリング戦略の欠陥によるものである。 本稿では,VQ拡散の試料品質をさらに向上する2つの重要な手法を提案する。 1)離散分別拡散モデルに対する分類器フリー誘導サンプリングについて検討し,分類器フリー誘導のより汎用的かつ効果的な実装を提案する。 2)VQ拡散における連立分布問題を軽減するための高品質な推論手法を提案する。 最後に,様々なデータセットを用いてその効果を検証する実験を行い,改良vq-diffusionがバニラバージョンを大きなマージンで抑制することを示した。 MSCOCOの8.44 FIDスコアを達成し、VQ-Diffusionを5.42 FIDスコアで上回った。 ImageNet上でのトレーニングでは、FIDスコアを11.89から4.83に劇的に改善し、提案手法の優位性を実証した。

Vector quantized diffusion (VQ-Diffusion) is a powerful generative model for text-to-image synthesis, but sometimes can still generate low-quality samples or weakly correlated images with text input. We find these issues are mainly due to the flawed sampling strategy. In this paper, we propose two important techniques to further improve the sample quality of VQ-Diffusion. 1) We explore classifier-free guidance sampling for discrete denoising diffusion model and propose a more general and effective implementation of classifier-free guidance. 2) We present a high-quality inference strategy to alleviate the joint distribution issue in VQ-Diffusion. Finally, we conduct experiments on various datasets to validate their effectiveness and show that the improved VQ-Diffusion suppresses the vanilla version by large margins. We achieve an 8.44 FID score on MSCOCO, surpassing VQ-Diffusion by 5.42 FID score. When trained on ImageNet, we dramatically improve the FID score from 11.89 to 4.83, demonstrating the superiority of our proposed techniques.
翻訳日:2022-06-01 14:56:20 公開日:2022-05-31
# 時間畳み込みネットワークを用いたセプシス予測

Sepsis Prediction with Temporal Convolutional Networks ( http://arxiv.org/abs/2205.15492v1 )

ライセンス: Link先を確認
Xing Wang, Yuntian He(参考訳) セシスの開始を予測するための時間畳み込みネットワークモデルの設計と実装を行う。 本モデルは, 入院時に敗血症の定義に陥らない集中治療室に入院した患者の振り返り分析に基づいて, 模倣iiiデータベースから抽出したデータに基づいて訓練を行った。 いくつかの機械学習モデルとベンチマークし、このバイナリ分類タスクよりも優れたモデルを示し、時間的パターンに対する畳み込みネットワークの予測能力を示し、セシス予測に長い時間を振り返ることによる大きな影響を示す。

We design and implement a temporal convolutional network model to predict sepsis onset. Our model is trained on data extracted from MIMIC III database, based on a retrospective analysis of patients admitted to intensive care unit who did not fall under the definition of sepsis at the time of admission. Benchmarked with several machine learning models, our model is superior on this binary classification task, demonstrates the prediction power of convolutional networks for temporal patterns, also shows the significant impact of having longer look back time on sepsis prediction.
翻訳日:2022-06-01 14:53:56 公開日:2022-05-31
# グラフレベルニューラルネットワークの現状と今後の方向性

Graph-level Neural Networks: Current Progress and Future Directions ( http://arxiv.org/abs/2205.15555v1 )

ライセンス: Link先を確認
Ge Zhang, Jia Wu, Jian Yang, Shan Xue, Wenbin Hu, Chuan Zhou, Hao Peng, Quan Z. Sheng, Charu Aggarwal(参考訳) オブジェクト(つまりノード)とオブジェクト(つまりエッジ)間の関係からなるグラフ構造化データは、ユビキタスである。 グラフレベルの学習は、単一のグラフではなく、グラフの集合を研究する問題である。 従来のグラフレベルの学習手法が主流だった。 しかし,グラフのスケールと複雑さの増大に伴い,グラフレベルのニューラルネットワーク(GLNN,ディープラーニングに基づくグラフレベルの学習手法)は,高次元データのモデリングにおいて優位性から注目されている。 したがって、GLNNに関する調査が必要である。 本研究では,深層ニューラルネットワーク,グラフニューラルネットワーク,グラフプール上でのGLNNを網羅する系統分類法を提案する。 各カテゴリの代表モデルと最先端モデルがこの調査に焦点を当てている。 また、GLNNの再現性、ベンチマーク、新しいグラフデータセットについても検討する。 最後に,GLNNのさらなる推進に向けた今後の方向性について述べる。 この調査のリポジトリはhttps://github.com/g ezhangmq/awesome-gra ph-level-neural-netw orksで入手できる。

Graph-structured data consisting of objects (i.e., nodes) and relationships among objects (i.e., edges) are ubiquitous. Graph-level learning is a matter of studying a collection of graphs instead of a single graph. Traditional graph-level learning methods used to be the mainstream. However, with the increasing scale and complexity of graphs, Graph-level Neural Networks (GLNNs, deep learning-based graph-level learning methods) have been attractive due to their superiority in modeling high-dimensional data. Thus, a survey on GLNNs is necessary. To frame this survey, we propose a systematic taxonomy covering GLNNs upon deep neural networks, graph neural networks, and graph pooling. The representative and state-of-the-art models in each category are focused on this survey. We also investigate the reproducibility, benchmarks, and new graph datasets of GLNNs. Finally, we conclude future directions to further push forward GLNNs. The repository of this survey is available at https://github.com/G eZhangMQ/Awesome-Gra ph-level-Neural-Netw orks.
翻訳日:2022-06-01 14:53:47 公開日:2022-05-31
# モデルインバージョンによるマイトショットアンラーニング

Few-Shot Unlearning by Model Inversion ( http://arxiv.org/abs/2205.15567v1 )

ライセンス: Link先を確認
Youngsik Yoon, Jinhwan Nam, Hyojeong Yun, Dongwoo Kim, Jungseul Ok(参考訳) トレーニングデータセットが与えられていない場合、トレーニングモデルから不要な振る舞いを引き起こすターゲットデータセットを消去する機械学習の問題を考える。 以前の研究では、ターゲットデータセットが望ましくない行動を構成するすべてのトレーニングデータを示していると仮定している。 しかし、そのような完全な指示を得ることは、しばしば不可能である。 そこで我々は,対象データのサンプルとして,いわゆる数発のアンラーニングを行った。 この目的のために、モデルからトレーニングデータを取得するための新しいモデル反転手法を含む、簡単なフレームワークを考案し、続いてターゲットサンプルに似たサンプルをフィルタリングし、再学習する。 対象データのサブセットのみを用いた手法は,対象データの完全な表示で最先端の手法より優れていることを示す。

We consider the problem of machine unlearning to erase a target dataset, which causes an unwanted behavior, from the trained model when the training dataset is not given. Previous works have assumed that the target dataset indicates all the training data imposing the unwanted behavior. However, it is often infeasible to obtain such a complete indication. We hence address a practical scenario of unlearning provided a few samples of target data, so-called few-shot unlearning. To this end, we devise a straightforward framework, including a new model inversion technique to retrieve the training data from the model, followed by filtering out samples similar to the target samples and then relearning. We demonstrate that our method using only a subset of target data can outperform the state-of-the-art methods with a full indication of target data.
翻訳日:2022-06-01 14:53:31 公開日:2022-05-31
# GlanceNets:インタープリタブル、リーク防止コンセプトベースモデル

GlanceNets: Interpretabile, Leak-proof Concept-based Models ( http://arxiv.org/abs/2205.15612v1 )

ライセンス: Link先を確認
Emanuele Marconato, Andrea Passerini, Stefano Teso(参考訳) ハイレベルな概念の語彙の獲得と推論によってハイパフォーマンスと解釈可能性を組み合わせたコンセプトベースモデル(CBM)への関心が高まっている。 重要な要件は、概念が解釈可能であることである。 既存のCBMは、解釈可能性の不明な概念に基づいて様々なヒューリスティックを使ってこのデシダーラトゥムに取り組み、意図された意味論で概念を習得できなかった。 本稿では,モデル表現と基礎となるデータ生成プロセスとのアライメントの観点から,解釈可能性を明確に定義し,不等角表現学習とオープンセット認識を駆使してアライメントを実現する新しいcbmであるshoenetsを導入することで,学習概念の解釈性を向上させる。 GlanceNetsは、概念レベルの監視と組み合わせて、最先端のアプローチよりも整合性を向上しつつ、意図せずに学習概念に情報が流出することを防ぐ。

There is growing interest in concept-based models (CBMs) that combine high-performance and interpretability by acquiring and reasoning with a vocabulary of high-level concepts. A key requirement is that the concepts be interpretable. Existing CBMs tackle this desideratum using a variety of heuristics based on unclear notions of interpretability, and fail to acquire concepts with the intended semantics. We address this by providing a clear definition of interpretability in terms of alignment between the model's representation and an underlying data generation process, and introduce GlanceNets, a new CBM that exploits techniques from disentangled representation learning and open-set recognition to achieve alignment, thus improving the interpretability of the learned concepts. We show that GlanceNets, paired with concept-level supervision, achieve better alignment than state-of-the-art approaches while preventing spurious information from unintendedly leaking into the learned concepts.
翻訳日:2022-06-01 14:53:18 公開日:2022-05-31
# k平均最大エントロピー探索

k-Means Maximum Entropy Exploration ( http://arxiv.org/abs/2205.15623v1 )

ライセンス: Link先を確認
Alexander Nedergaard, Matthew Cook(参考訳) スパース報酬を伴う高次元連続空間の探索は強化学習においてオープンな問題である。 人工好奇心アルゴリズムは、探索につながる報酬を作成することでこの問題に対処する。 報酬を最大化できる強化学習アルゴリズムを考えると、この問題は探索と整合した最適化目標を見つけることにつながる。 最大エントロピー探索は、そのような目的として状態訪問分布のエントロピーを用いる。 しかし,高次元連続空間において,状態訪問分布のエントロピーを効率的に推定することは困難である。 本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。 境界は k-平均を用いた任意の次元における非パラメトリック密度推定の結果に依存する。 提案手法は,高次元連続空間における探索のためのベンチマーク,特に強化学習アルゴリズムが報酬を見つけられないタスクにおいて,計算効率が高く競争力があることを示す。

Exploration in high-dimensional, continuous spaces with sparse rewards is an open problem in reinforcement learning. Artificial curiosity algorithms address this by creating rewards that lead to exploration. Given a reinforcement learning algorithm capable of maximizing rewards, the problem reduces to finding an optimization objective consistent with exploration. Maximum entropy exploration uses the entropy of the state visitation distribution as such an objective. However, efficiently estimating the entropy of the state visitation distribution is challenging in high-dimensional, continuous spaces. We introduce an artificial curiosity algorithm based on lower bounding an approximation to the entropy of the state visitation distribution. The bound relies on a result for non-parametric density estimation in arbitrary dimensions using k-means. We show that our approach is both computationally efficient and competitive on benchmarks for exploration in high-dimensional, continuous spaces, especially on tasks where reinforcement learning algorithms are unable to find rewards.
翻訳日:2022-06-01 14:52:59 公開日:2022-05-31
# 半教師付きノード分類のためのラベル強調グラフニューラルネットワーク

Label-Enhanced Graph Neural Network for Semi-supervised Node Classification ( http://arxiv.org/abs/2205.15653v1 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Tongyu Zhu, Weifeng Lv(参考訳) グラフニューラルネットワーク(GNN)は半教師付きノード分類タスクにおいて広く応用されている。 古典的なGNNの多くは、出力における分類損失を計算するために既知のラベルのみを使用する。 近年,入力時にラベルを付加的に利用する手法がいくつか提案されている。 方法の1つは、隣接ノードが同じラベルを持つ傾向があると仮定してグラフ構造を最適化するのに対し、ラベルの1ホットエンコーディングを連結または追加することでノード機能を増強する。 本稿では,ラベルの豊富な情報をフルに活用するために,まず各ラベルをクラス内ノードの仮想センターとしてモデル化し,各ノードとラベルの表現を共同で学習する,GNNのためのラベル強化学習フレームワークを提案する。 提案手法は,同一クラスに属するノードの表現を滑らかにするだけでなく,ラベルの意味をgnnの学習プロセスに明示的にエンコードする。 さらに、潜在的なラベルリーク問題を排除し、モデル一般化能力を保証するためのトレーニングノード選択技術を提供する。 最後に、より信頼性の高い擬似ラベルでトレーニングセットを反復的に拡大し、モデル学習過程における各擬似ラベルノードの重要性を区別する適応型自己学習戦略を提案する。 実世界および合成データセットにおける実験結果から,本手法は最先端のノードを一貫して上回るだけでなく,クラス内ノードの表現を効果的にスムーズに表現できることを示した。

Graph Neural Networks (GNNs) have been widely applied in the semi-supervised node classification task, where a key point lies in how to sufficiently leverage the limited but valuable label information. Most of the classical GNNs solely use the known labels for computing the classification loss at the output. In recent years, several methods have been designed to additionally utilize the labels at the input. One part of the methods augment the node features via concatenating or adding them with the one-hot encodings of labels, while other methods optimize the graph structure by assuming neighboring nodes tend to have the same label. To bring into full play the rich information of labels, in this paper, we present a label-enhanced learning framework for GNNs, which first models each label as a virtual center for intra-class nodes and then jointly learns the representations of both nodes and labels. Our approach could not only smooth the representations of nodes belonging to the same class, but also explicitly encode the label semantics into the learning process of GNNs. Moreover, a training node selection technique is provided to eliminate the potential label leakage issue and guarantee the model generalization ability. Finally, an adaptive self-training strategy is proposed to iteratively enlarge the training set with more reliable pseudo labels and distinguish the importance of each pseudo-labeled node during the model training process. Experimental results on both real-world and synthetic datasets demonstrate our approach can not only consistently outperform the state-of-the-arts, but also effectively smooth the representations of intra-class nodes.
翻訳日:2022-06-01 14:52:45 公開日:2022-05-31
# ルーティング問題に対するサンプル効率・探索型政策最適化

Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems ( http://arxiv.org/abs/2205.15656v1 )

ライセンス: Link先を確認
Nasrin Sultana, Jeffrey Chan, Tabinda Sarwar, A. K. Qin(参考訳) モデルのない深層強化に基づく学習アルゴリズムは、COPs~\cite{bello2016neural}〜\cite{kool2018attention}〜\cite{nazari2018reinforcem ent}の範囲に適用されている。 しかし、これらのアプローチは組合せ問題に適用する際の2つの重要な課題に直面している: 不十分な探索と、合理的な性能を達成するために検索空間の多くの訓練例の必要性である。 組合せ最適化は複雑で、探索と学習のための多くの最適化と大きな空間を持つ探索空間によって特徴づけられる。 そのため, より試料効率が良く, 優れた解を見つけるためには, 新たな方法が必要である。 本稿では,エントロピーに基づく新しい強化学習手法を提案する。 さらに,期待値の最大化とサンプル効率の向上による学習時間短縮を実現する,オフポリシーに基づく強化学習手法を考案した。 本手法は,tsp(traveling salesman problem)やcvrp(capacitated vehicle routing problem)など,学習に基づく最適化を評価するのに一般的に用いられる経路最適化タスクを体系的に評価する。 本稿では,分割配信VRP (SDVRP) などの経路問題を一般化し,提案手法の性能と現状技術との比較を行う。 実験の結果,提案手法は解の質と計算時間の観点から最先端の手法を改善し,異なる大きさの問題に一般化できることがわかった。

Model-free deep-reinforcement-b ased learning algorithms have been applied to a range of COPs~\cite{bello2016neural}~\cite{kool2018attention}~\cite{nazari2018reinforcem ent}. However, these approaches suffer from two key challenges when applied to combinatorial problems: insufficient exploration and the requirement of many training examples of the search space to achieve reasonable performance. Combinatorial optimisation can be complex, characterised by search spaces with many optimas and large spaces to search and learn. Therefore, a new method is needed to find good solutions that are more efficient by being more sample efficient. This paper presents a new reinforcement learning approach that is based on entropy. In addition, we design an off-policy-based reinforcement learning technique that maximises the expected return and improves the sample efficiency to achieve faster learning during training time. We systematically evaluate our approach on a range of route optimisation tasks typically used to evaluate learning-based optimisation, such as the such as the Travelling Salesman problems (TSP), Capacitated Vehicle Routing Problem (CVRP). In this paper, we show that our model can generalise to various route problems, such as the split-delivery VRP (SDVRP), and compare the performance of our method with that of current state-of-the-art approaches. The Empirical results show that the proposed method can improve on state-of-the-art methods in terms of solution quality and computation time and generalise to problems of different sizes.
翻訳日:2022-06-01 14:52:16 公開日:2022-05-31
# サンプル毎勾配を用いたデータセットバイアスの軽減

Mitigating Dataset Bias by Using Per-sample Gradient ( http://arxiv.org/abs/2205.15704v1 )

ライセンス: Link先を確認
Sumyeong Ahn, Seongyoon Kim, and Se-young Yun(参考訳) 深層ニューラルネットワークの性能は、トレーニングデータセット設定の影響を強く受けている。 特に、ターゲット属性と強い相関を持つ属性が存在する場合、トレーニングされたモデルは意図しない偏見を提供し、重要な推論エラー(すなわちデータセットバイアス問題)を示すことができる。 データセットバイアスを軽減するための様々な手法が提案されており、その重点はバイアス強調サンプルと呼ばれる弱い相関サンプルに向けられている。 これらの方法は、人間または経験的相関メトリクス(例えばトレーニング損失)を含む明示的なバイアスラベルに基づいている。 しかし、そのような指標は人的コストを必要とするか、理論的な説明が不十分である。 本研究では,(1)一様バッチサンプリングでモデルを訓練すること,(2)サンプル勾配のノルムに比例して各サンプルの重要性を設定すること,(2)ステップで確率が得られる重要バッチサンプリングを用いてモデルを訓練すること,の3つのステップからなる,pgd(per-sample gradient-based debiasing)と呼ばれるデバイアスアルゴリズムを提案する。 種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。 さらに、PGDがデータセットバイアスを緩和する方法に関する理論的理解についても述べる。

The performance of deep neural networks is strongly influenced by the training dataset setup. In particular, when attributes having a strong correlation with the target attribute are present, the trained model can provide unintended prejudgments and show significant inference errors (i.e., the dataset bias problem). Various methods have been proposed to mitigate dataset bias, and their emphasis is on weakly correlated samples, called bias-conflicting samples. These methods are based on explicit bias labels involving human or empirical correlation metrics (e.g., training loss). However, such metrics require human costs or have insufficient theoretical explanation. In this study, we propose a debiasing algorithm, called PGD (Per-sample Gradient-based Debiasing), that comprises three steps: (1) training a model on uniform batch sampling, (2) setting the importance of each sample in proportion to the norm of the sample gradient, and (3) training the model using importance-batch sampling, whose probability is obtained in step (2). Compared with existing baselines for various synthetic and real-world datasets, the proposed method showed state-of-the-art accuracy for a the classification task. Furthermore, we describe theoretical understandings about how PGD can mitigate dataset bias.
翻訳日:2022-06-01 14:51:50 公開日:2022-05-31
# 最適移動距離を用いたテンプレートベースグラフニューラルネットワーク

Template based Graph Neural Network with Optimal Transport Distances ( http://arxiv.org/abs/2205.15733v1 )

ライセンス: Link先を確認
C\'edric Vincent-Cuaz, R\'emi Flamary, Marco Corneli, Titouan Vayer, Nicolas Courty(参考訳) 現在のグラフニューラルネットワーク(GNN)アーキテクチャは一般的に2つの重要なコンポーネントに依存している。 構造的(あるいは位相的)情報は、この2つのステップで暗黙的に考慮される。 本稿では,学習可能なグラフテンプレートとの距離をグラフ表現のコアに配置する新しい視点を提案する。 この距離埋め込みは、最適な移動距離によって構成される: ソフトグラフマッチング問題を解くことによって、特徴と構造の相似性を同時に符号化する融合グロモフ=ワッセルシュタイン距離(fgw)である。 テンプレートグラフの集合に対するFGW距離のベクトルは強い判別力を持ち、最終的な予測のために非線形分類器に送られると仮定する。 距離埋め込みは新しいレイヤと見なすことができ、既存のメッセージパッシング技術を利用して、賢明な特徴表現を促進することができる。 興味深いことに、私たちの研究では、テンプレートグラフの最適なセットも、この層を通して差別化することでエンドツーエンドで学習されます。 対応する学習手順を記述した後、本手法はカーネルやgnnの最先端のアプローチに匹敵する、いくつかの合成および実生活グラフ分類データセットの主張を実証的に検証する。 実験はアブレーション研究とパラメータに対する感度解析により完了している。

Current Graph Neural Networks (GNN) architectures generally rely on two important components: node features embedding through message passing, and aggregation with a specialized form of pooling. The structural (or topological) information is implicitly taken into account in these two steps. We propose in this work a novel point of view, which places distances to some learnable graph templates at the core of the graph representation. This distance embedding is constructed thanks to an optimal transport distance: the Fused Gromov-Wasserstein (FGW) distance, which encodes simultaneously feature and structure dissimilarities by solving a soft graph-matching problem. We postulate that the vector of FGW distances to a set of template graphs has a strong discriminative power, which is then fed to a non-linear classifier for final predictions. Distance embedding can be seen as a new layer, and can leverage on existing message passing techniques to promote sensible feature representations. Interestingly enough, in our work the optimal set of template graphs is also learnt in an end-to-end fashion by differentiating through this layer. After describing the corresponding learning procedure, we empirically validate our claim on several synthetic and real life graph classification datasets, where our method is competitive or surpasses kernel and GNN state-of-the-art approaches. We complete our experiments by an ablation study and a sensitivity analysis to parameters.
翻訳日:2022-06-01 14:51:24 公開日:2022-05-31
# ニューラルネットワークにおける厳密な特徴衝突

Exact Feature Collisions in Neural Networks ( http://arxiv.org/abs/2205.15763v1 )

ライセンス: Link先を確認
Utku Ozbulak, Manvel Gasparyan, Shodhan Rao, Wesley De Neve, Arnout Van Messem(参考訳) 深層ニューラルネットワークによる予測は、小さな摂動を含む悪意あるデータポイントを敵の例と呼ぶ入力空間における小さな変化に非常に敏感であることが示されている。 一方で、最近の研究では、同じネットワークは大きな大きさの変化に非常に敏感であり、2つの大まかに異なるデータポイントの予測をほぼ同じ出力にマッピングできることが示唆されている。 このような場合、2つのデータポイントの特徴は概ね衝突すると言われるため、ほぼ同様の予測に繋がる。 結果は、liとalの仕事を改善し、拡張します。 (2019)は、ニューラルネットワークの重みの観点から、特徴を分解するデータポイントの理論的根拠を定め、ニューラルネットワークが概ね衝突する特徴だけでなく、完全に衝突する特徴も損なうことを明らかにした。 このようなシナリオが存在するために必要な条件を,様々なコンピュータビジョン問題を解決するために用いられてきた多数のdnnを調査した。 さらに,任意の入力と任意のタスク,すなわち分類,局所化,セグメンテーションを含む,あるいは制限されない任意の特徴を衝突させたデータポイントを作成するための,ヒューリスティックスに依存しない数値的手法であるnull-space searchを提案する。

Predictions made by deep neural networks were shown to be highly sensitive to small changes made in the input space where such maliciously crafted data points containing small perturbations are being referred to as adversarial examples. On the other hand, recent research suggests that the same networks can also be extremely insensitive to changes of large magnitude, where predictions of two largely different data points can be mapped to approximately the same output. In such cases, features of two data points are said to approximately collide, thus leading to the largely similar predictions. Our results improve and extend the work of Li et al.(2019), laying out theoretical grounds for the data points that have colluding features from the perspective of weights of neural networks, revealing that neural networks not only suffer from features that approximately collide but also suffer from features that exactly collide. We identify the necessary conditions for the existence of such scenarios, hereby investigating a large number of DNNs that have been used to solve various computer vision problems. Furthermore, we propose the Null-space search, a numerical approach that does not rely on heuristics, to create data points with colliding features for any input and for any task, including, but not limited to, classification, localization, and segmentation.
翻訳日:2022-06-01 14:51:01 公開日:2022-05-31
# グラフニューラルネットワークによる戦略的分類

Strategic Classification with Graph Neural Networks ( http://arxiv.org/abs/2205.15765v1 )

ライセンス: Link先を確認
Itay Eilat, Ben Finkelshtein, Chaim Baskin, Nir Rosenfeld(参考訳) 戦略分類は、ユーザーが好ましい予測を得るために機能を変更できるような環境で学習する。 現在の作業のほとんどは、独立したユーザ応答をトリガーする単純な分類器に重点を置いている。 ここでは、独立仮説を破るより精巧なモデルを用いて学習の意味を検討する。 戦略的分類の応用は本質的に社会的であることが多いという考えに動機付けられ,ユーザ間の社会的関係を利用して予測を改善する「emph{graph neural network}」に焦点をあてる。 私たちのキーポイントは、戦略的ユーザーがそれらを活用して目標を推進できるということです。 分析とシミュレーションを通して示すように、これはシステム -- あるいはそれのために -- に対して機能します。 そこで本研究では,グラフベース分類器の戦略ロバスト学習のための微分可能なフレームワークを提案する。 いくつかの実ネットワークデータセットの実験は、我々のアプローチの有用性を実証している。

Strategic classification studies learning in settings where users can modify their features to obtain favorable predictions. Most current works focus on simple classifiers that trigger independent user responses. Here we examine the implications of learning with more elaborate models that break the independence assumption. Motivated by the idea that applications of strategic classification are often social in nature, we focus on \emph{graph neural networks}, which make use of social relations between users to improve predictions. Using a graph for learning introduces inter-user dependencies in prediction; our key point is that strategic users can exploit these to promote their goals. As we show through analysis and simulation, this can work either against the system -- or for it. Based on this, we propose a differentiable framework for strategically-robust learning of graph-based classifiers. Experiments on several real networked datasets demonstrate the utility of our approach.
翻訳日:2022-06-01 14:50:40 公開日:2022-05-31
# AdaTask: 適応型マルチタスクオンライン学習

AdaTask: Adaptive Multitask Online Learning ( http://arxiv.org/abs/2205.15802v1 )

ライセンス: Link先を確認
Pierre Laforgue, Andrea Della Vecchia, Nicol\`o Cesa-Bianchi, Lorenzo Rosasco(参考訳) 我々は,タスクの未知構造に適応するマルチタスクオンライン学習アルゴリズムadataskを紹介し,解析する。 N$タスクが確率的にアクティベートされると、AdaTaskの後悔は、$\sqrt{N}$と同じ大きさの要因によって、各タスクに対して1つの独立したアルゴリズムを実行することで達成される後悔よりも、よいことが示されます。 adataskは、マハラノビスノルムポテンシャルを持つフォロー・ザ・レギュラライズド・リーダーのコンパレータ適応版と見なすことができる。 このポテンシャルの変分定式化を通じて,AdaTaskがタスクとその構造を共同で学習する方法を明らかにする。 以上の知見を裏付ける実験を行った。

We introduce and analyze AdaTask, a multitask online learning algorithm that adapts to the unknown structure of the tasks. When the $N$ tasks are stochastically activated, we show that the regret of AdaTask is better, by a factor that can be as large as $\sqrt{N}$, than the regret achieved by running $N$ independent algorithms, one for each task. AdaTask can be seen as a comparator-adaptive version of Follow-the-Regulariz ed-Leader with a Mahalanobis norm potential. Through a variational formulation of this potential, our analysis reveals how AdaTask jointly learns the tasks and their structure. Experiments supporting our findings are presented.
翻訳日:2022-06-01 14:50:29 公開日:2022-05-31
# グラフバックアップ: マルコフ遷移を爆発させるデータ効率の良いバックアップ

Graph Backup: Data Efficient Backup Exploiting Markovian Transitions ( http://arxiv.org/abs/2205.15824v1 )

ライセンス: Link先を確認
Zhengyao Jiang, Tianjun Zhang, Robert Kirk, Tim Rockt\"aschel, Edward Grefenstette(参考訳) deep reinforcement learning(rl)の成功は、オンライン体験の大規模なストリームがある設定に限定されていますが、オンラインインタラクションへのアクセスが制限されたデータ効率な設定でrlを適用することは依然として難しいのです。 データ効率の良いrlの鍵は良い値推定であるが、この空間における現在の手法では、環境から収集された軌道データの構造を十分に活用できていない。 本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。 n$-step $Q$-LearningやTD($\lambda$)といったマルチステップのバックアップメソッドと比較して、Graph Backupは偽のクレジット代入を実行でき、状態がどの軌道からサンプリングされたかに関わらず、安定した値推定を行うことができる。 一般的な値ベース手法と組み合わせることで,MiniGridやMinatar,Atari100Kなど,データ効率のよいRLベンチマークスイート上での一段階および多段階の手法による性能向上を実現している。 さらに,この性能向上の理由を,アタリゲームの遷移グラフの新たな視覚化を通じて解析する。

The successes of deep Reinforcement Learning (RL) are limited to settings where we have a large stream of online experiences, but applying RL in the data-efficient setting with limited access to online interactions is still challenging. A key to data-efficient RL is good value estimation, but current methods in this space fail to fully utilise the structure of the trajectory data gathered from the environment. In this paper, we treat the transition data of the MDP as a graph, and define a novel backup operator, Graph Backup, which exploits this graph structure for better value estimation. Compared to multi-step backup methods such as $n$-step $Q$-Learning and TD($\lambda$), Graph Backup can perform counterfactual credit assignment and gives stable value estimates for a state regardless of which trajectory the state is sampled from. Our method, when combined with popular value-based methods, provides improved performance over one-step and multi-step methods on a suite of data-efficient RL benchmarks including MiniGrid, Minatar and Atari100K. We further analyse the reasons for this performance boost through a novel visualisation of the transition graphs of Atari games.
翻訳日:2022-06-01 14:50:18 公開日:2022-05-31
# Convolutional Autoencoder ModelとInterval Type-2 Fuzzy Regressionを用いたRS-fMRIモダリティにおける統合失調症と注意欠陥高活動障害の自動診断

Automatic Diagnosis of Schizophrenia and Attention Deficit Hyperactivity Disorder in rs-fMRI Modality using Convolutional Autoencoder Model and Interval Type-2 Fuzzy Regression ( http://arxiv.org/abs/2205.15858v1 )

ライセンス: Link先を確認
Afshin Shoeibi, Navid Ghassemi, Marjane Khodatars, Parisa Moridian, Abbas Khosravi, Assef Zare, Juan M. Gorriz, Amir Hossein Chale-Chale, Ali Khadem, U. Rajendra Acharya(参考訳) 現在、世界中の多くの人々が脳疾患に苦しんでおり、その健康が危ぶまれている。 統合失調症 (sz) と注意欠陥多動性障害 (adhd) の診断には, これまで数多くの方法が提案されてきた。 本稿では,新しいディープラーニング(DL)法を用いた静止状態fMRI(rs-fMRI)のSZおよびADHDインテリジェント検出法を提案する。 カリフォルニア大学ロサンゼルス校(ucla)のデータセットは、sz患者とadhd患者のrs-fmriモダリティを含んでおり、実験に使われている。 FMRIBソフトウェアライブラリ(FSL)ツールボックスは、rs-fMRIデータで最初に前処理を行った。 次に,提案するレイヤ数を持つ畳み込みオートエンコーダ(CNN-AE)モデルを用いて,rs-fMRIデータから特徴を抽出する。 分類段階において、間隔型2ファジィ回帰(IT2FR)と呼ばれる新しいファジィ手法を導入し、遺伝的アルゴリズム(GA)、粒子群最適化(PSO)、灰色のオオカミ最適化(GWO)技術を用いて最適化する。 また、IT2FR法の結果を、多層パーセプトロン(MLP)、k-nearest neighbors(KNN)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、決定木(DT)、適応型ニューロファジィ推論システム(ANFIS)と比較した。 実験の結果, GWO最適化アルゴリズムを用いたIT2FR法は, 他の分類法と比較して良好な結果を得た。 最後に,提案手法により72.71%の精度が得られた。

Nowadays, many people worldwide suffer from brain disorders, and their health is in danger. So far, numerous methods have been proposed for the diagnosis of Schizophrenia (SZ) and attention deficit hyperactivity disorder (ADHD), among which functional magnetic resonance imaging (fMRI) modalities are known as a popular method among physicians. This paper presents an SZ and ADHD intelligent detection method of resting-state fMRI (rs-fMRI) modality using a new deep learning (DL) method. The University of California Los Angeles (UCLA) dataset, which contains the rs-fMRI modalities of SZ and ADHD patients, has been used for experiments. The FMRIB software library (FSL) toolbox first performed preprocessing on rs-fMRI data. Then, a convolutional Autoencoder (CNN-AE) model with the proposed number of layers is used to extract features from rs-fMRI data. In the classification step, a new fuzzy method called interval type-2 fuzzy regression (IT2FR) is introduced and then optimized by genetic algorithm (GA), particle swarm optimization (PSO), and gray wolf optimization (GWO) techniques. Also, the results of IT2FR methods are compared with multilayer perceptron (MLP), k-nearest neighbors (KNN), support vector machine (SVM), random forest (RF), decision tree (DT), and adaptive neuro-fuzzy inference system (ANFIS) methods. The experiment results show that the IT2FR method with the GWO optimization algorithm has achieved satisfactory results compared to other classifier methods. Finally, the proposed classification technique was able to provide 72.71% accuracy.
翻訳日:2022-06-01 14:49:52 公開日:2022-05-31
# マルチクラスデータセットのデバイアスに対するバイナリアプローチの削減

A Reduction to Binary Approach for Debiasing Multiclass Datasets ( http://arxiv.org/abs/2205.15860v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin and Jessica Schrouff and Oluwasanmi Koyejo(参考訳) 本稿では,非二項性属性を持つ多クラス分類において,二項性障害タスクの列への還元により,階層性に比例したR2B(Reduce-to-binary )アプローチを提案する。 我々はr2bが最適性とバイアスの保証を満たすことを証明し、(1)ラベルを独立にデバイアスすることでマルチラベルとしてマルチクラス問題を扱うこと、(2)ラベルの代わりに特徴を変換することの2つのベースラインに対して改善をもたらすことを実証的に証明する。 驚くべきことに、独立ラベルのデバイアスがほとんどの(すべてではないが)設定で競争結果をもたらすことも示しています。 これらの結論は、社会科学、コンピュータビジョン、医療からの合成および実世界のデータセット上で検証される。

We propose a novel reduction-to-binary (R2B) approach that enforces demographic parity for multiclass classification with non-binary sensitive attributes via a reduction to a sequence of binary debiasing tasks. We prove that R2B satisfies optimality and bias guarantees and demonstrate empirically that it can lead to an improvement over two baselines: (1) treating multiclass problems as multi-label by debiasing labels independently and (2) transforming the features instead of the labels. Surprisingly, we also demonstrate that independent label debiasing yields competitive results in most (but not all) settings. We validate these conclusions on synthetic and real-world datasets from social science, computer vision, and healthcare.
翻訳日:2022-06-01 14:49:19 公開日:2022-05-31
# マルチタスク学習とタスククラスタリングのための圧縮階層表現

Compressed Hierarchical Representations for Multi-Task Learning and Task Clustering ( http://arxiv.org/abs/2205.15882v1 )

ライセンス: Link先を確認
Jo\~ao Machado de Freitas, Sebastian Berg, Bernhard C. Geiger and Manfred M\"ucke(参考訳) 本稿では,タスク非依存かつ複数のタスク固有の潜在表現を用いて,同質なマルチタスク学習(MTL)を階層的表現学習問題とみなす。 情報ボトルネックの原理からインスピレーションを得て,タスク非依存表現とタスク特化表現の間に付加的な独立ノイズモデルを仮定し,各タスク特化表現に含まれる情報を制限する。 これらの結果から,MTLベンチマークの競合性能が得られた。 さらに,特定の設定において,付加雑音モデルの学習パラメータが異なるタスクの類似度と密接に関連していることを示す。 このことから,本手法は,タスク固有の視点から個々の次元が解釈可能であるという意味では,タスクに依存しない表現を導出することを示す。

In this paper, we frame homogeneous-feature multi-task learning (MTL) as a hierarchical representation learning problem, with one task-agnostic and multiple task-specific latent representations. Drawing inspiration from the information bottleneck principle and assuming an additive independent noise model between the task-agnostic and task-specific latent representations, we limit the information contained in each task-specific representation. It is shown that our resulting representations yield competitive performance for several MTL benchmarks. Furthermore, for certain setups, we show that the trained parameters of the additive noise model are closely related to the similarity of different tasks. This indicates that our approach yields a task-agnostic representation that is disentangled in the sense that its individual dimensions may be interpretable from a task-specific perspective.
翻訳日:2022-06-01 14:49:07 公開日:2022-05-31
# タイミングはすべて:コストのかかる行動と予算制約で選択的に行動することを学ぶ

Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints ( http://arxiv.org/abs/2205.15953v1 )

ライセンス: Link先を確認
David Mguni, Aivar Sootla, Juliusz Ziomek, Oliver Slumbers, Zipeng Dai, Kun Shao, Jun Wang(参考訳) 多くの現実世界の設定では、アクションの実行にコストがかかり、金融システムのトランザクションコストや燃料コストが一般的な例である。 これらの設定では、各ステップでのアクションの実行は、すぐにコストを蓄積し、非常に低い結果をもたらす。 さらに、反復的な演技は、摩耗と涙を生じさせ、最終的にダメージを与える。 成功を達成するにはいつ行動すべきかを決定することが不可欠であるが、最小限の制限付きコストを伴わないアクションが最適に振る舞うように効率的に学習することの課題は解決されていない。 本稿では,学習者がいつ行動すべきか,どの行動にコストがかかるのかを最適に選択するための,Learable Impulse Control Reinforcement Algorithm (LICRA) という強化学習フレームワークを提案する。 licRAの中核は、RLとインパルス制御と呼ばれるポリシーの形式を組み合わせたネスト構造で、アクションがコストを発生させたときに目的を最大化する。 我々は,任意のRL法をシームレスに採用したlicRAが,動作のタイミングと最適等級を最適に選択するポリシーに収束していることを証明する。 次に、エージェントが最大$k<\infty$アクションで実行できる問題に対処するためにlicRAを増強し、より一般的には予算制約に直面します。 licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。 我々は,openai gym のlunar lander および高速道路環境におけるベンチマーク rl 手法に対する licra の優れた性能と,金融におけるmerton portfolio 問題の変種を示す。

Many real-world settings involve costs for performing actions; transaction costs in financial systems and fuel costs being common examples. In these settings, performing actions at each time step quickly accumulates costs leading to vastly suboptimal outcomes. Additionally, repeatedly acting produces wear and tear and ultimately, damage. Determining when to act is crucial for achieving successful outcomes and yet, the challenge of efficiently learning to behave optimally when actions incur minimally bounded costs remains unresolved. In this paper, we introduce a reinforcement learning (RL) framework named Learnable Impulse Control Reinforcement Algorithm (LICRA), for learning to optimally select both when to act and which actions to take when actions incur costs. At the core of LICRA is a nested structure that combines RL and a form of policy known as impulse control which learns to maximise objectives when actions incur costs. We prove that LICRA, which seamlessly adopts any RL method, converges to policies that optimally select when to perform actions and their optimal magnitudes. We then augment LICRA to handle problems in which the agent can perform at most $k<\infty$ actions and more generally, faces a budget constraint. We show LICRA learns the optimal value function and ensures budget constraints are satisfied almost surely. We demonstrate empirically LICRA's superior performance against benchmark RL methods in OpenAI gym's Lunar Lander and in Highway environments and a variant of the Merton portfolio problem within finance.
翻訳日:2022-06-01 14:48:17 公開日:2022-05-31
# 移動ロボット被覆経路計画のための高速スパンニングアントコロニー最適化(FaSACO)

Fast-Spanning Ant Colony Optimisation (FaSACO) for Mobile Robot Coverage Path Planning ( http://arxiv.org/abs/2205.15691v1 )

ライセンス: Link先を確認
Christopher Carr and Peng Wang(参考訳) カバーパス計画は、移動ロボット掃除機や病院消毒ロボットなどのアプリケーションにとって重要な要素である。 しかし、NPハードな性質のため、カバレッジパス計画問題は依然として課題である。 Ant Colony Optimisation (ACO)のようなバイオインスパイアされたアルゴリズムは、経路計画の複雑さを軽減するためにヒューリスティックな情報を利用することができるため、この問題を解決するために利用される。 本稿では,アリが様々な速度で環境を探索できるaco(fast-spanning ant colony optimization, fasaco)の新たな変種を提案する。 これにより、高速度のアリは目標や障害物を素早く見つけ出し、その情報をトレイルフェロモンを介して伝達することで、低い速度のアリに知らせることができる。 このメカニズムにより、経路全体の計画時間を短縮しながら最適な経路が見つかることが保証される。 実験の結果、FaSACOの効率はACOよりも19.3-32.3.%高く、ACOよりも6.9-12.5.%低い細胞が再発見された。 これにより、FaSACOはリアルタイムおよびエネルギー制限のアプリケーションでより魅力的になる。

Coverage path planning acts as a key component for applications such as mobile robot vacuum cleaners and hospital disinfecting robots. However, the coverage path planning problem remains a challenge due to its NP-hard nature. Bio-inspired algorithms such as Ant Colony Optimisation (ACO) have been exploited to solve the problem because they can utilise heuristic information to mitigate the path planning complexity. This paper proposes a new variant of ACO - the Fast-Spanning Ant Colony Optimisation (FaSACO), where ants can explore the environment with various velocities. By doing so, ants with higher velocities can find targets or obstacles faster and keep lower velocity ants informed by communicating such information via trail pheromones. This mechanism ensures the optimal path is found while reducing the overall path planning time. Experimental results show that FaSACO is $19.3-32.3\%$ more efficient than ACO, and re-covers $6.9-12.5\%$ fewer cells than ACO. This makes FaSACO more appealing in real-time and energy-limited applications.
翻訳日:2022-06-01 14:47:49 公開日:2022-05-31
# フィードにおける適応的広告露出の階層的制約

Hierarchically Constrained Adaptive Ad Exposure in Feeds ( http://arxiv.org/abs/2205.15759v1 )

ライセンス: Link先を確認
Dagui Chen, Qi Yan, Chunjie Chen, Zhenzhe Zheng, Yangsu Liu, Zhenjia Ma and Chuan Yu, Jian Xu and Bo Zheng(参考訳) 現代のフィードアプリケーションは、通常、有機アイテムとスポンサーアイテムのブレンド結果(ads)をユーザーに提供します。 従来、広告は固定位置で露出される。 このような静的露光戦略は、広告に対するユーザのパーソナライズされた好みを無視しているため、非効率である。 この目的のために、アダプティブ広告の露出はフィード全体のパフォーマンスを高めるための魅力的な戦略となっている。 しかし、適応型広告露出を実装する既存のアプローチには、いくつかの制限がある。 1) 長期的なアプリケーションレベルのパフォーマンスと制約を考慮せずに、要求レベルの最適化にのみ注目するため、通常はサブ最適ソリューションに陥ります。 2)彼らは広告オークションのゲーム理論的な性質を維持する必要性を無視し、競売におけるアナキシーにつながる可能性がある。 3) 計算の複雑さが高いため,大規模アプリケーションではデプロイできない。 本稿では,フィードの階層的制約の下での長期的性能最適化に着目し,適応型広告露出を動的ナップサック問題として定式化する。 階層的に制約された適応広告露出~(HCA2E)を提案する。 hca2eは所望のゲーム理論特性,計算効率,性能ロバスト性を有する。 主要なeコマースアプリケーションにおける包括的なオフラインおよびオンライン実験は、代表的ベースラインよりもhca2eの優れたパフォーマンスを示している。 HCA2Eはこのアプリケーションにデプロイされ、数百万の毎日のユーザにサービスを提供している。

A contemporary feed application usually provides blended results of organic items and sponsored items~(ads) to users. Conventionally, ads are exposed at fixed positions. Such a static exposure strategy is inefficient due to ignoring users' personalized preferences towards ads. To this end, adaptive ad exposure has become an appealing strategy to boost the overall performance of the feed. However, existing approaches to implementing the adaptive ad exposure still suffer from several limitations: 1) they usually fall into sub-optimal solutions because of only focusing on request-level optimization without consideration of the long-term application-level performance and constraints, 2) they neglect the necessity of keeping the game-theoretical properties of ad auctions, which may lead to anarchy in bidding, and 3) they can hardly be deployed in large-scale applications due to high computational complexity. In this paper, we focus on long-term performance optimization under hierarchical constraints in feeds and formulate the adaptive ad exposure as a Dynamic Knapsack Problem. We propose an effective approach: Hierarchically Constrained Adaptive Ad Exposure~(HCA2E). We present that HCA2E possesses desired game-theoretical properties, computational efficiency, and performance robustness. Comprehensive offline and online experiments on a leading e-commerce application demonstrate the significant performance superiority of HCA2E over representative baselines. HCA2E has also been deployed on this application to serve millions of daily users.
翻訳日:2022-06-01 14:47:29 公開日:2022-05-31
# coot最適化アルゴリズムによるセグメンテーションとパラメータ選択のためのサブイメージヒストグラム等化

Sub-Image Histogram Equalization using Coot Optimization Algorithm for Segmentation and Parameter Selection ( http://arxiv.org/abs/2205.15565v1 )

ライセンス: Link先を確認
Emre Can Kuran, Umut Kuran and Mehmet Bilal Er(参考訳) コントラスト向上は、客観的な画像評価において非常に重要である。 コントラストの強化は、サンプルの正確な分類のための教師付きおよび教師なしのアルゴリズムを含む様々なアルゴリズムにも重要である。 いくつかのコントラスト拡張アルゴリズムは、低コントラスト問題に対処することでこの問題を解決する。 平均および分散に基づくサブイメージヒストグラム等化(MVSIHE)アルゴリズムは,これらのコントラスト強化手法の1つである。 最適な結果を得るためには、異なるパラメータをチューニングする必要がある。 そこで本研究では,直近の最適化アルゴリズムであるcoot Optimization algorithm(COA)を用いて,MVSIHEアルゴリズムの適切なパラメータを選択する。 ブラインド/レファレンス画像空間品質評価器 (brisque) と自然画像品質評価器 (niqe) は, 群れの適合性を評価するために用いられる。 その結果, バイオメディカル画像処理の分野では, 提案手法が有効であることが示唆された。

Contrast enhancement is very important in terms of assessing images in an objective way. Contrast enhancement is also significant for various algorithms including supervised and unsupervised algorithms for accurate classification of samples. Some contrast enhancement algorithms solve this problem by addressing the low contrast issue. Mean and variance based sub-image histogram equalization (MVSIHE) algorithm is one of these contrast enhancements methods proposed in the literature. It has different parameters which need to be tuned in order to achieve optimum results. With this motivation, in this study, we employed one of the most recent optimization algorithms, namely, coot optimization algorithm (COA) for selecting appropriate parameters for the MVSIHE algorithm. Blind/referenceless image spatial quality evaluator (BRISQUE) and natural image quality evaluator (NIQE) metrics are used for evaluating fitness of the coot swarm population. The results show that the proposed method can be used in the field of biomedical image processing.
翻訳日:2022-06-01 14:47:12 公開日:2022-05-31
# (参考訳) NusaX: インドネシアの10のローカル言語のための多言語並列感データセット [全文訳有]

NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages ( http://arxiv.org/abs/2205.15960v1 )

ライセンス: CC BY-SA 4.0
Genta Indra Winata, Alham Fikri Aji, Samuel Cahyawijaya, Rahmad Mahendra, Fajri Koto, Ade Romadhony, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Pascale Fung, Timothy Baldwin, Jey Han Lau, Rico Sennrich, Sebastian Ruder(参考訳) 自然言語処理(nlp)は機械翻訳や検索エンジンといった技術によって社会に大きな影響を与える。 その成功にもかかわらず、NLP技術は英語や中国語のような高リソース言語でしか利用できないが、データリソースやベンチマークが利用できないため、多くの言語で利用できない。 本研究は,インドネシアにおける言語資源の開発に焦点をあてる。 最も言語的に多様であるにもかかわらず、インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。 我々はインドネシアで10の低リソース言語で最初の並列リソースを開発する。 私たちのリソースには、データセット、マルチタスクベンチマーク、レキシコン、並列インドネシア英語データセットが含まれています。 このような資源を創出する際の課題について,広範な分析と解説を行う。 インドネシアや他の少数言語に関するNLP研究のきっかけになることを期待しています。

Natural language processing (NLP) has a significant impact on society via technologies such as machine translation and search engines. Despite its success, NLP technology is only widely available for high-resource languages such as English and Chinese, while it remains inaccessible to many languages due to the unavailability of data resources and benchmarks. In this work, we focus on developing resources for languages in Indonesia. Despite being the second most linguistically diverse country, most languages in Indonesia are categorized as endangered and some are even extinct. We develop the first-ever parallel resource for 10 low-resource languages in Indonesia. Our resource includes datasets, a multi-task benchmark, and lexicons, as well as a parallel Indonesian-English dataset. We provide extensive analyses and describe the challenges when creating such resources. We hope that our work can spark NLP research on Indonesian and other underrepresented languages.
翻訳日:2022-06-01 14:44:57 公開日:2022-05-31
# IDE-3D:高分解能3D画像合成のための対話型遠方編集

IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis ( http://arxiv.org/abs/2205.15517v1 )

ライセンス: Link先を確認
Jingxiang Sun, Xuan Wang, Yichun Shi, Lizhen Wang, Jue Wang, Yebin Liu(参考訳) 既存の3D対応の顔生成手法は品質と編集性にジレンマに直面し、低解像度で編集可能な結果を生成するか、編集の柔軟性のない高品質な結果を生成する。 本研究では,両世界の長所を一つにまとめる新たなアプローチを提案する。 システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構成のために最適化するハイブリッドGANインバージョンアプローチ,(3)標準視におけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。 私たちのアプローチは、フリービューのフェイス描画、編集、スタイル制御など、多くのアプリケーションに適しています。 定量的・定性的な結果から,本手法はフォトリアリズム,忠実性,効率の面で最先端に到達した。

Existing 3D-aware facial generation methods face a dilemma in quality versus editability: they either generate editable results in low resolution or high-quality ones with no editing flexibility. In this work, we propose a new approach that brings the best of both worlds together. Our system consists of three major components: (1) a 3D-semantics-aware generative model that produces view-consistent, disentangled face images and semantic masks; (2) a hybrid GAN inversion approach that initialize the latent codes from the semantic and texture encoder, and further optimized them for faithful reconstruction; and (3) a canonical editor that enables efficient manipulation of semantic masks in canonical view and product high-quality editing results. Our approach is competent for many applications, e.g. free-view face drawing, editing, and style control. Both quantitative and qualitative results show that our method reaches the state-of-the-art in terms of photorealism, faithfulness, and efficiency.
翻訳日:2022-06-01 14:20:13 公開日:2022-05-31
# 擬似データに基づく自己監督型フェデレーション学習による病理像の分類

Pseudo-Data based Self-Supervised Federated Learning for Classification of Histopathological Images ( http://arxiv.org/abs/2205.15530v1 )

ライセンス: Link先を確認
Jun Shi, Yuanming Zhang, Zheng Li, Xiangmin Han, Saisai Ding, Jun Wang, Shihui Ying(参考訳) コンピュータ支援診断(CAD)は、がんに対する一貫性と再現性とともに、病理医が診断精度を向上させるのに役立つ。 しかし, 単一中心(ホスピタル)からのみ組織像で訓練したCADモデルは, 異なる中心間の歪みの不整合により, 一般に一般化問題に悩まされる。 本研究では,cadモデルの診断精度と一般化の両方を改善するために,擬似データに基づく自己教師付きフェデレーション学習(fl)フレームワークであるssl-ft-btを提案する。 具体的には、このセンターの実際の画像に対応する固有の特性と特定の特性を含むが、プライバシ情報は含まない、各センターから擬似病理像を生成する。 これらの擬似イメージは、自己教師付き学習(SSL)のために中央サーバで共有される。 マルチタスクSSLは、データ特性に応じて、センター固有の情報と共通の固有表現の両方を完全に学習するように設計される。 さらに,各中心におけるCADモデルの局所的訓練を改善するために,新たなバーロウツイン系FL(FL-BT)アルゴリズムを提案する。 3つの病理組織像データセットの実験結果から,SSL-FL-BTが診断精度および一般化に与える影響が示唆された。

Computer-aided diagnosis (CAD) can help pathologists improve diagnostic accuracy together with consistency and repeatability for cancers. However, the CAD models trained with the histopathological images only from a single center (hospital) generally suffer from the generalization problem due to the straining inconsistencies among different centers. In this work, we propose a pseudo-data based self-supervised federated learning (FL) framework, named SSL-FT-BT, to improve both the diagnostic accuracy and generalization of CAD models. Specifically, the pseudo histopathological images are generated from each center, which contains inherent and specific properties corresponding to the real images in this center, but does not include the privacy information. These pseudo images are then shared in the central server for self-supervised learning (SSL). A multi-task SSL is then designed to fully learn both the center-specific information and common inherent representation according to the data characteristics. Moreover, a novel Barlow Twins based FL (FL-BT) algorithm is proposed to improve the local training for the CAD model in each center by conducting contrastive learning, which benefits the optimization of the global model in the FL procedure. The experimental results on three public histopathological image datasets indicate the effectiveness of the proposed SSL-FL-BT on both diagnostic accuracy and generalization.
翻訳日:2022-06-01 14:19:53 公開日:2022-05-31
# Mask2Hand:3Dハンドポースとシェイプをシャドーから予測する学習

Mask2Hand: Learning to Predict the 3D Hand Pose and Shape from Shadow ( http://arxiv.org/abs/2205.15553v1 )

ライセンス: Link先を確認
Li-Jen Chang, Yu-Cheng Liao, Chia-Hui Lin, Hwann-Tzong Chen(参考訳) 本研究では,手指のシルエット/シェードウの2次元2次元マスクから手指のポーズと形状を予測するという課題を解決するための自己学習可能なMask2Handを提案する。 カメラ空間における固有のカメラパラメータとパラメトリックハンドモデルを考えると、2次元2Dシルエット空間に3次元推定を投影するために微分可能なレンダリング手法を採用する。 レンダリングされたシルエットと入力されたバイナリマスクの損失を調整した組み合わせを適用することで,グローバルメッシュの登録とポーズ推定を制約するエンドツーエンド最適化プロセスに自己誘導機構を統合することができる。 実験の結果,RGB入力や深度入力を必要とする最先端の手法として,整列状態と整列状態の両方において,単一の二項マスクを入力として用いた手法が同等の予測精度を達成できることが判明した。

We present a self-trainable method, Mask2Hand, which learns to solve the challenging task of predicting 3D hand pose and shape from a 2D binary mask of hand silhouette/shadow without additional manually-annotated data. Given the intrinsic camera parameters and the parametric hand model in the camera space, we adopt the differentiable rendering technique to project 3D estimations onto the 2D binary silhouette space. By applying a tailored combination of losses between the rendered silhouette and the input binary mask, we are able to integrate the self-guidance mechanism into our end-to-end optimization process for constraining global mesh registration and hand pose estimation. The experiments show that our method, which takes a single binary mask as the input, can achieve comparable prediction accuracy on both unaligned and aligned settings as state-of-the-art methods that require RGB or depth inputs.
翻訳日:2022-06-01 14:19:32 公開日:2022-05-31
# CNNのロバスト性を高める効果的な融合法

An Effective Fusion Method to Enhance the Robustness of CNN ( http://arxiv.org/abs/2205.15582v1 )

ライセンス: Link先を確認
Yating Ma and Zhichao Lian(参考訳) 技術の急速な発展により、畳み込みニューラルネットワークの応用により、私たちの生活の利便性が向上した。 しかし、画像分類の分野では、いくつかの摂動が画像に追加されると、CNNはそれを誤分類することを発見した。 様々な防御方法が提案されている。 以前のアプローチでは、ロバスト性を改善するためにモジュールをネットワークに組み込む方法を考慮していたが、モジュールを組み込む方法に注目しなかった。 本稿では,CNNのロバスト性を高めるために,新しい融合法を設計する。 我々はdot製品ベースのアプローチを用いて,resnet18にデノイジングモジュールとアテンション機構を追加し,モデルのロバスト性をさらに向上させる。 cifar10の実験結果から,本手法はfgsmおよびpgd攻撃時の最先端手法よりも効果的かつ優れた結果を得た。

With the development of technology rapidly, applications of convolutional neural networks have improved the convenience of our life. However, in image classification field, it has been found that when some perturbations are added to images, the CNN would misclassify it. Thus various defense methods have been proposed. The previous approach only considered how to incorporate modules in the network to improve robustness, but did not focus on the way the modules were incorporated. In this paper, we design a new fusion method to enhance the robustness of CNN. We use a dot product-based approach to add the denoising module to ResNet18 and the attention mechanism to further improve the robustness of the model. The experimental results on CIFAR10 have shown that our method is effective and better than the state-of-the-art methods under the attack of FGSM and PGD.
翻訳日:2022-06-01 14:19:14 公開日:2022-05-31
# 高精細度ヘッドショットシーンのための新しいビュー合成

Novel View Synthesis for High-fidelity Headshot Scenes ( http://arxiv.org/abs/2205.15595v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, Weijia Mao, Sijing Lin, Yunyi Zhu, Murong Ma, Mike Zheng Shou(参考訳) 任意の視点から高品質な人間の顔をレンダリングすることは、現実の多くのアプリケーションにとって実用的で有用な手法である。 近年,ニューラルネットワークを用いて古典的レイトレーシングを近似するレンダリング手法であるneural radiance fields(nerf)が,画像群から新たなビューを合成するための有望なアプローチの一つであると考えられている。 我々はNeRFが幾何的整合性を維持しながら新しいビューを描画できることを発見したが、モルや毛穴などの皮膚の詳細を適切に保持していない。 これらの詳細は特に顔にとって重要である。なぜなら、顔の画像を見るとき、私たちは他の物体を見るときよりも細部に敏感だからだ。 一方、従来のメッシュやテクスチャをベースとした3次元モーパブルモデル(3DMM)は、正確な形状が低く、頭部とシーン全体を背景で覆うことができないにもかかわらず、皮膚の細部において良好に機能する。 そこで本研究では,NeRFと3DMMを併用して,顔を持つシーンの高忠実な新規ビューを合成する手法を提案する。 提案手法は,NRF合成画像と3DMMレンダリング画像とを混合するGAN(Generative Adversarial Network)を学習し,皮膚の細部を保存した顔の写実的シーンを生成する。 実世界の様々なシーンによる実験は、我々のアプローチの有効性を実証している。 コードはhttps://github.com/s howlab/headshotで入手できる。

Rendering scenes with a high-quality human face from arbitrary viewpoints is a practical and useful technique for many real-world applications. Recently, Neural Radiance Fields (NeRF), a rendering technique that uses neural networks to approximate classical ray tracing, have been considered as one of the promising approaches for synthesizing novel views from a sparse set of images. We find that NeRF can render new views while maintaining geometric consistency, but it does not properly maintain skin details, such as moles and pores. These details are important particularly for faces because when we look at an image of a face, we are much more sensitive to details than when we look at other objects. On the other hand, 3D Morpable Models (3DMMs) based on traditional meshes and textures can perform well in terms of skin detail despite that it has less precise geometry and cannot cover the head and the entire scene with background. Based on these observations, we propose a method to use both NeRF and 3DMM to synthesize a high-fidelity novel view of a scene with a face. Our method learns a Generative Adversarial Network (GAN) to mix a NeRF-synthesized image and a 3DMM-rendered image and produces a photorealistic scene with a face preserving the skin details. Experiments with various real-world scenes demonstrate the effectiveness of our approach. The code will be available on https://github.com/s howlab/headshot .
翻訳日:2022-06-01 14:16:35 公開日:2022-05-31
# 対照的なCentroid Supervisionは医療画像分類におけるドメインシフトを緩和する

Contrastive Centroid Supervision Alleviates Domain Shift in Medical Image Classification ( http://arxiv.org/abs/2205.15658v1 )

ライセンス: Link先を確認
Wenshuo Zhou, Dalu Yang, Binghong Wu, Yehui Yang, Junde Wu, Xiaorong Wang, Lei Wang, Haifeng Huang, Yanwu Xu(参考訳) 深層学習に基づく医用画像分類モデルは通常、訓練データと実世界のデータが撮像装置メーカー、画像取得プロトコル、患者集団などによって異なる場合に分類性能が低下する領域シフト問題に悩まされる。 そこで本研究では,学習中に追加の監督を行うことで,対象領域の分類性能を向上し,インスタンスとクラスを対比的に損なう特徴量型コントラスト学習(fccl)を提案する。 現在の教師なし領域適応法やドメイン一般化法と比較して、FCCLは、単一のソースドメインとターゲットドメインのラベル付き画像データのみを必要としながら、性能が向上する。 我々は、FCCLが少なくとも3つの画像モダリティ(眼底写真、皮膚内視鏡画像、H&E組織画像)で優れた性能を達成できるという広範な実験を通して検証する。

Deep learning based medical imaging classification models usually suffer from the domain shift problem, where the classification performance drops when training data and real-world data differ in imaging equipment manufacturer, image acquisition protocol, patient populations, etc. We propose Feature Centroid Contrast Learning (FCCL), which can improve target domain classification performance by extra supervision during training with contrastive loss between instance and class centroid. Compared with current unsupervised domain adaptation and domain generalization methods, FCCL performs better while only requires labeled image data from a single source domain and no target domain. We verify through extensive experiments that FCCL can achieve superior performance on at least three imaging modalities, i.e. fundus photographs, dermatoscopic images, and H & E tissue images.
翻訳日:2022-06-01 14:16:08 公開日:2022-05-31
# devrf: 動的シーンのための高速変形可能なvoxelラミアンスフィールド

DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2205.15723v1 )

ライセンス: Link先を確認
Jia-Wei Liu, Yan-Pei Cao, Weijia Mao, Wenqiao Zhang, David Junhao Zhang, Jussi Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou(参考訳) ダイナミックシーンのモデリングは、仮想現実やテレプレゼンスといった多くのアプリケーションにとって重要である。 動的シーンにおける新規な視点合成のための前例のない忠実さを達成したにもかかわらず、ニューラルレイディアンス場(NeRF)に基づく既存の手法は、収束が遅い(つまり、数日で測定されたモデルトレーニング時間)。 本稿では,動的放射場を学習するための新しい表現であるDeVRFを提案する。 DeVRFの中核は、明示的で離散的なボクセルベースの表現を持つダイナミックで非剛体シーンの3次元標準空間と4次元変形場の両方をモデル化することである。 しかし、多数のモデルパラメータを持つそのような表現を訓練することは非常に困難であり、しばしば過度な問題を引き起こします。 この課題を克服するために、我々は、実際にデプロイするのに便利な新しいデータキャプチャセットアップと共に、新しい静的-動的学習パラダイムを考案する。 このパラダイムは、多視点静的画像から学習した3次元体積標準空間を利用して、変形可能な放射場の効率的な学習を可能にし、4次元ボクセル変形場の学習を容易にする。 われわれのdevrfの効率をさらに向上し,新しい視点の質を合成するために,徹底的な探索を行い,戦略のセットを同定する。 変形の異なる合成・実世界の動的シーンにおけるDeVRFの評価を行った。 実験により、DeVRFは従来の最先端手法と比較して2桁の速度アップ(100倍高速)をオンパー高忠実度で達成していることが示された。 コードとデータセットはhttps://github.com/s howlab/devrfでリリースされる。

Modeling dynamic scenes is important for many applications such as virtual reality and telepresence. Despite achieving unprecedented fidelity for novel view synthesis in dynamic scenes, existing methods based on Neural Radiance Fields (NeRF) suffer from slow convergence (i.e., model training time measured in days). In this paper, we present DeVRF, a novel representation to accelerate learning dynamic radiance fields. The core of DeVRF is to model both the 3D canonical space and 4D deformation field of a dynamic, non-rigid scene with explicit and discrete voxel-based representations. However, it is quite challenging to train such a representation which has a large number of model parameters, often resulting in overfitting issues. To overcome this challenge, we devise a novel static-to-dynamic learning paradigm together with a new data capture setup that is convenient to deploy in practice. This paradigm unlocks efficient learning of deformable radiance fields via utilizing the 3D volumetric canonical space learnt from multi-view static images to ease the learning of 4D voxel deformation field with only few-view dynamic sequences. To further improve the efficiency of our DeVRF and its synthesized novel view's quality, we conduct thorough explorations and identify a set of strategies. We evaluate DeVRF on both synthetic and real-world dynamic scenes with different types of deformation. Experiments demonstrate that DeVRF achieves two orders of magnitude speedup (100x faster) with on-par high-fidelity results compared to the previous state-of-the-art approaches. The code and dataset will be released in https://github.com/s howlab/DeVRF.
翻訳日:2022-06-01 14:15:52 公開日:2022-05-31
# 集合型表現学習における二次代入の対比

Contrasting quadratic assignments for set-based representation learning ( http://arxiv.org/abs/2205.15814v1 )

ライセンス: Link先を確認
Artem Moskalev and Ivan Sosnovik and Volker Fischer and Arnold Smeulders(参考訳) コントラスト学習の標準的なアプローチは、データの異なるビュー間の合意を最大化することである。 ビューは、同じオブジェクトの異なるビューをエンコードする、または異なるオブジェクトのビューに対応する負のどちらかであるように、ペアで順序付けされる。 監督信号は正の対に対する全類似性を最大化することに由来するが、負の対は崩壊を避けるために必要である。 本研究では,データセットがデータビューから生成される場合,個々のペアを考えるアプローチは,セット内およびセット間類似性の両方を考慮できないことに留意する。 これにより、列車表現に利用可能な監視信号の情報内容が制限される。 我々は、オブジェクトを集合として対比することに集中することで、個々のオブジェクトの対を対比する以上のことを提案する。 このために,集合およびグラフの類似性を評価するために考案された組合せ二次代入理論を用い,コントラスト学習法の正則化として集合連続目的を導出する。 評価実験を行い, 計量学習と自己教師付き分類の課題に対する学習表現の改善を実証した。

The standard approach to contrastive learning is to maximize the agreement between different views of the data. The views are ordered in pairs, such that they are either positive, encoding different views of the same object, or negative, corresponding to views of different objects. The supervisory signal comes from maximizing the total similarity over positive pairs, while the negative pairs are needed to avoid collapse. In this work, we note that the approach of considering individual pairs cannot account for both intra-set and inter-set similarities when the sets are formed from the views of the data. It thus limits the information content of the supervisory signal available to train representations. We propose to go beyond contrasting individual pairs of objects by focusing on contrasting objects as sets. For this, we use combinatorial quadratic assignment theory designed to evaluate set and graph similarities and derive set-contrastive objective as a regularizer for contrastive learning methods. We conduct experiments and demonstrate that our method improves learned representations for the tasks of metric learning and self-supervised classification.
翻訳日:2022-06-01 14:15:22 公開日:2022-05-31
# モバイルマッピングシステムの現状と展望:センサから応用へ

A Review of Mobile Mapping Systems: From Sensors to Applications ( http://arxiv.org/abs/2205.15865v1 )

ライセンス: Link先を確認
Mostafa Elhashash, Hessah Albanwan, Rongjun Qin(参考訳) モバイルマッピングシステム(MMS)の進化は、ここ数十年で注目されている。 MMSは様々なアプリケーションに価値ある資産を提供するために広く使われてきた。 これは、低コストのセンサーの普及、計算資源の進歩、マッピングアルゴリズムの成熟、正確でオンデマンドな地理情報システム(GIS)データとデジタルマップの必要性によって促進されてきた。 多くのMSMはハイブリッドセンサーを組み合わせて、お互いを補完することでより情報に富み、堅牢で安定したソリューションを提供する。 本稿では,現代MSの総合的なレビューを焦点をあてて紹介する。 1) センサやプラットフォームの種類について,その機能や限界について論じるとともに,最近市場に出回っているMS技術の概要を概観する。 2) MMSデータを処理するための一般的なワークフローを強調します。 3)共通アプリケーションの一部をレビューして,モバイルマッピング技術の異なる利用事例を特定する。 4) メリット,課題,及び今後の研究方向性に関する見解の共有に関する議論を行う。

The evolution of mobile mapping systems (MMSs) has gained more attention in the past few decades. MMSs have been widely used to provide valuable assets in different applications. This has been facilitated by the wide availability of low-cost sensors, the advances in computational resources, the maturity of the mapping algorithms, and the need for accurate and on-demand geographic information system (GIS) data and digital maps. Many MMSs combine hybrid sensors to provide a more informative, robust, and stable solution by complementing each other. In this paper, we present a comprehensive review of the modern MMSs by focusing on 1) the types of sensors and platforms, where we discuss their capabilities, limitations, and also provide a comprehensive overview of recent MMS technologies available in the market, 2) highlighting the general workflow to process any MMS data, 3) identifying the different use cases of mobile mapping technology by reviewing some of the common applications, and 4) presenting a discussion on the benefits, challenges, and share our views on the potential research directions.
翻訳日:2022-06-01 14:15:04 公開日:2022-05-31
# 自己学習対応によるキーポイントからオブジェクトランドマークへ:教師なしランドマーク発見への新しいアプローチ

From Keypoints to Object Landmarks via Self-Training Correspondence: A novel approach to Unsupervised Landmark Discovery ( http://arxiv.org/abs/2205.15895v1 )

ライセンス: Link先を確認
Dimitrios Mallis, Enrique Sanchez, Matt Bell and Georgios Tzimiropoulos(参考訳) 本稿ではオブジェクトランドマーク検出器の教師なし学習のための新しいパラダイムを提案する。 画像生成や等価性などの補助的タスクに基づく既存の手法とは対照的に,汎用的なキーポイントから離れて,ランドマーク検出器とディスクリプタをトレーニングして,キーポイントを目立ったランドマークに調整する自己学習手法を提案する。 そこで本稿では,特徴クラスタリングによる新しい擬似ラベルの生成と,対比学習による各擬似クラス固有の特徴の学習を交互に行う反復アルゴリズムを提案する。 ランドマーク検出器とディスクリプタの共有バックボーンにより、キーポイントの位置は徐々に安定なランドマークに収束し、安定でないものをフィルタリングする。 従来の研究と比較すると,大きな視点の変化を捉えることで,よりフレキシブルな点を学習することができる。 我々は,LS3D,BBCPose,Human3 .6M,PennActionなど,さまざまな難易度データセットを用いて手法を検証する。

This paper proposes a novel paradigm for the unsupervised learning of object landmark detectors. Contrary to existing methods that build on auxiliary tasks such as image generation or equivariance, we propose a self-training approach where, departing from generic keypoints, a landmark detector and descriptor is trained to improve itself, tuning the keypoints into distinctive landmarks. To this end, we propose an iterative algorithm that alternates between producing new pseudo-labels through feature clustering and learning distinctive features for each pseudo-class through contrastive learning. With a shared backbone for the landmark detector and descriptor, the keypoint locations progressively converge to stable landmarks, filtering those less stable. Compared to previous works, our approach can learn points that are more flexible in terms of capturing large viewpoint changes. We validate our method on a variety of difficult datasets, including LS3D, BBCPose, Human3.6M and PennAction, achieving new state of the art results.
翻訳日:2022-06-01 14:14:50 公開日:2022-05-31
# (参考訳) FedHarmony: 分散データによる非学習スキャナバイアス [全文訳有]

FedHarmony: Unlearning Scanner Bias with Distributed Data ( http://arxiv.org/abs/2205.15970v1 )

ライセンス: CC BY 4.0
Nicola K Dinsdale, Mark Jenkinson, Ana IL Namburete(参考訳) スキャナーと研究にまたがるデータを組み合わせる能力は、統計能力と生物学的多様性の表現の両方を増大させる神経イメージングに不可欠である。 ひとつはスキャナと取得の違いによる望ましくない非生物学的なばらつきの増加、もうひとつはハーモニゼーションの問題、もうひとつは、医用画像データの本質的に個人的な性質によるデータプライバシの懸念である。 これらの制約を克服するために、フェデラル学習パラダイムで動作する調和フレームワークであるFedHarmonyを提案する。 スキャナー固有の効果を除去するためには、学習した機能の平均的および標準的偏差を共有するだけで、個人のプライバシ保護に役立ちます。 我々は,ABIDEデータセットからの実際のマルチサイトデータを用いて,現実的なデータシナリオにまたがってアプローチを実証する。 私たちのコードはhttps://github.com/n kdinsdale/fedharmony で利用可能です。

The ability to combine data across scanners and studies is vital for neuroimaging, to increase both statistical power and the representation of biological variability. However, combining datasets across sites leads to two challenges: first, an increase in undesirable non-biological variance due to scanner and acquisition differences - the harmonisation problem - and second, data privacy concerns due to the inherently personal nature of medical imaging data, meaning that sharing them across sites may risk violation of privacy laws. To overcome these restrictions, we propose FedHarmony: a harmonisation framework operating in the federated learning paradigm. We show that to remove the scanner-specific effects, we only need to share the mean and standard deviation of the learned features, helping to protect individual subjects' privacy. We demonstrate our approach across a range of realistic data scenarios, using real multi-site data from the ABIDE dataset, thus showing the potential utility of our method for MRI harmonisation across studies. Our code is available at https://github.com/n kdinsdale/FedHarmony .
翻訳日:2022-06-01 14:12:50 公開日:2022-05-31
# deepdefacer: u-netイメージセグメンテーションによる顔特徴の自動除去

DeepDefacer: Automatic Removal of Facial Features via U-Net Image Segmentation ( http://arxiv.org/abs/2205.15536v1 )

ライセンス: Link先を確認
Anish Khazane, Julien Hoachuck, Krzysztof J. Gorgolewski, Russell A. Poldrack(参考訳) 磁気共鳴イメージング(MRI)の分野での最近の進歩は、臨床医と研究者の間で大規模なコラボレーションを可能にしている。 しかし、研究者はしばしば、古い遅いソフトウェアを使って、出版のためにMRI画像の匿名化を迫られる。 これらのプログラムは特に3d画像上で高価な数学的操作を行い、画像のサイズが大きくなるにつれて匿名化速度を急速に遅くする。 本稿では,mri画像中の顔領域を高速にマスキングする3d u-netネットワークを用いた,ディープラーニングを用いたmri匿名化手法であるdeepdefacerについて紹介する。 我々は、脳開発機構(IXI)と国際脳マッピング機構(ICBM)からMRI画像のDeepDefacerをトレーニングし、Dice、リコール、精度スコアに関するベースライン3D U-Netモデルに対して、我々のモデルを定量的に評価する。 また,従来のデファクトアプリケーションであるpydefaceに対するdeepdefacerの評価を行い,cpuおよびgpuデバイスの速度について評価し,pydefaceが生成するグランド・トゥルート画像と比較して,モデルのデファクトアウトプットを質的に評価した。 我々は,この原稿の最後にPyPiプログラムへのリンクを提供し,深層学習のMRI匿名化への応用についてさらなる研究を奨励する。

Recent advancements in the field of magnetic resonance imaging (MRI) have enabled large-scale collaboration among clinicians and researchers for neuroimaging tasks. However, researchers are often forced to use outdated and slow software to anonymize MRI images for publication. These programs specifically perform expensive mathematical operations over 3D images that rapidly slow down anonymization speed as an image's volume increases in size. In this paper, we introduce DeepDefacer, an application of deep learning to MRI anonymization that uses a streamlined 3D U-Net network to mask facial regions in MRI images with a significant increase in speed over traditional de-identification software. We train DeepDefacer on MRI images from the Brain Development Organization (IXI) and International Consortium for Brain Mapping (ICBM) and quantitatively evaluate our model against a baseline 3D U-Net model with regards to Dice, recall, and precision scores. We also evaluate DeepDefacer against Pydeface, a traditional defacing application, with regards to speed on a range of CPU and GPU devices and qualitatively evaluate our model's defaced output versus the ground truth images produced by Pydeface. We provide a link to a PyPi program at the end of this manuscript to encourage further research into the application of deep learning to MRI anonymization.
翻訳日:2022-06-01 13:58:49 公開日:2022-05-31
# SymFormer: Transformer-based Architecture を用いたエンドツーエンドのシンボリックレグレッション

SymFormer: End-to-end symbolic regression using transformer-based architecture ( http://arxiv.org/abs/2205.15764v1 )

ライセンス: Link先を確認
Vastl, Martin and Kulh\'anek, Jon\'a\v{s} and Kubal\'ik, Ji\v{r}\'i and Derner, Erik and Babu\v{s}ka, Robert(参考訳) 新しいビュー合成は長年の問題である。 本研究では,シーンやオブジェクトをまばらにカバーする,いくつかのコンテキストビューしか与えられていない問題の変種について考察する。 目標は、学習の優先順位を必要とするシーンで、新しい視点を予測することである。 この技術の現状はNeural Radiance Fields(NeRF)に基づいており、印象的な結果を得る一方で、各画像のディープニューラルネットワークを介して何千もの3Dポイントサンプルを評価する必要があるため、長いトレーニング時間に悩まされている。 ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。 我々のモデルは、コードブックとトランスフォーマーモデルからなる2段階アーキテクチャを使用する。 コードブックは個々の画像を小さな潜在空間に埋め込むのに使われ、変換器はこのよりコンパクトな空間でビュー合成タスクを解く。 モデルを効率的にトレーニングするために、ニューラルネットワークのレンダリングだけでなく、カメラのポーズ推定にも、同じモデルを使用できる新しい分岐注意機構を導入しました。 実世界のシーンにおける実験結果から,提案手法はNeRF法と競合するが,3次元の推論は行わず,訓練の高速化が期待できる。

Novel view synthesis is a long-standing problem. In this work, we consider a variant of the problem where we are given only a few context views sparsely covering a scene or an object. The goal is to predict novel viewpoints in the scene, which requires learning priors. The current state of the art is based on Neural Radiance Fields (NeRFs), and while achieving impressive results, the methods suffer from long training times as they require evaluating thousands of 3D point samples via a deep neural network for each image. We propose a 2D-only method that maps multiple context views and a query pose to a new image in a single pass of a neural network. Our model uses a two-stage architecture consisting of a codebook and a transformer model. The codebook is used to embed individual images into a smaller latent space, and the transformer solves the view synthesis task in this more compact space. To train our model efficiently, we introduce a novel branching attention mechanism that allows us to use the same model not only for neural rendering but also for camera pose estimation. Experimental results on real-world scenes show that our approach is competitive compared to NeRF-based methods while not reasoning in 3D, and it is faster to train.
翻訳日:2022-06-01 13:58:25 公開日:2022-05-31
# サムライ:無拘束実世界任意画像コレクションの形状と素材

SAMURAI: Shape And Material from Unconstrained Real-world Arbitrary Image collections ( http://arxiv.org/abs/2205.15768v1 )

ライセンス: Link先を確認
Mark Boss, Andreas Engelhardt, Abhishek Kar, Yuanzhen Li, Deqing Sun, Jonathan T. Barron, Hendrik P. A. Lensch, Varun Jampani(参考訳) 全く未知のキャプチャ条件下でのオブジェクトの逆レンダリングは、コンピュータビジョンとグラフィックスにおける根本的な課題である。 NeRFのようなニューラルアプローチは、新しいビュー合成においてフォトリアリスティックな結果を得たが、既知のカメラポーズが必要である。 この問題を未知のカメラのポーズで解くことは、形状、放射率、ポーズに対する共同最適化を必要とするため、非常に難しい。 この問題は、入力画像が背景や照明の異なる野生で撮影されるとさらに悪化する。 標準ポーズ推定手法は、画像間で推定される対応が極めて少ないため、野生のそのような画像コレクションでは失敗する。 さらに、nerfは光度(反射率と照明の積)で操作するため、いかなる照明下でもシーンを照らすことができない。 形状, BRDF, 画像当たりのカメラのポーズと照明を推定するための共同最適化フレームワークを提案する。 提案手法はオブジェクトのオンライン画像収集に利用し,AR/VRなどのいくつかのユースケースに対して,再生可能な3Dアセットを生成する。 私たちの知る限り、ユーザインタラクションを最小限に抑えながら、この厳しい制約のないタスクに最初に取り組みます。 プロジェクトページ: https://markboss.me/ publication/2022-sam urai/ Video: https://youtu.be/LlY uGDjXp-8

Inverse rendering of an object under entirely unknown capture conditions is a fundamental challenge in computer vision and graphics. Neural approaches such as NeRF have achieved photorealistic results on novel view synthesis, but they require known camera poses. Solving this problem with unknown camera poses is highly challenging as it requires joint optimization over shape, radiance, and pose. This problem is exacerbated when the input images are captured in the wild with varying backgrounds and illuminations. Standard pose estimation techniques fail in such image collections in the wild due to very few estimated correspondences across images. Furthermore, NeRF cannot relight a scene under any illumination, as it operates on radiance (the product of reflectance and illumination). We propose a joint optimization framework to estimate the shape, BRDF, and per-image camera pose and illumination. Our method works on in-the-wild online image collections of an object and produces relightable 3D assets for several use-cases such as AR/VR. To our knowledge, our method is the first to tackle this severely unconstrained task with minimal user interaction. Project page: https://markboss.me/ publication/2022-sam urai/ Video: https://youtu.be/LlY uGDjXp-8
翻訳日:2022-06-01 13:58:03 公開日:2022-05-31
# FinBERT-MRC:機械読解パラダイム下でのBERTを用いたファイナンシャルエンティティ認識

FinBERT-MRC: financial named entity recognition using BERT under the machine reading comprehension paradigm ( http://arxiv.org/abs/2205.15485v1 )

ライセンス: Link先を確認
Yuzhe Zhang and Hong Zhang(参考訳) 文献からのファイナンシャルネームエンティティ認識(FinNER)は、構造化されていないテキストから大量の財務知識を抽出することを目的として、財務テキスト情報抽出の分野で難しい課題である。 FinNERタスクを実装するためにシーケンスタグフレームワークを使用することは広く受け入れられている。 しかし、このようなシーケンスタグ付けモデルは、テキストのセマンティック情報を完全に活用することはできない。 代わりに、FinNERタスクを機械読解(MRC)問題として定式化し、FinBERT-MRCと呼ばれる新しいモデルを提案する。 この定式化は、よく設計されたクエリを利用して重要な事前情報を導入し、条件付きランダムフィールド(CRF)のようなデコードモジュールを使わずに、ターゲットエンティティの開始インデックスと終了インデックスを抽出する。 我々は,中国における公開財務データセットChFinAnnと実単語バスネスデータセットAdminPunishで実験を行った。 FinBERT-MRCモデルは、平均F1スコアが92.78%、96.80%、平均F1スコアが+3.94%、+0.89%である。 ソースコードはhttps://github.com/z yz0000/FinBERT-MRCで入手できる。

Financial named entity recognition (FinNER) from literature is a challenging task in the field of financial text information extraction, which aims to extract a large amount of financial knowledge from unstructured texts. It is widely accepted to use sequence tagging frameworks to implement FinNER tasks. However, such sequence tagging models cannot fully take advantage of the semantic information in the texts. Instead, we formulate the FinNER task as a machine reading comprehension (MRC) problem and propose a new model termed FinBERT-MRC. This formulation introduces significant prior information by utilizing well-designed queries, and extracts start index and end index of target entities without decoding modules such as conditional random fields (CRF). We conduct experiments on a publicly available Chinese financial dataset ChFinAnn and a real-word bussiness dataset AdminPunish. FinBERT-MRC model achieves average F1 scores of 92.78% and 96.80% on the two datasets, respectively, with average F1 gains +3.94% and +0.89% over some sequence tagging models including BiLSTM-CRF, BERT-Tagger, and BERT-CRF. The source code is available at https://github.com/z yz0000/FinBERT-MRC.
翻訳日:2022-06-01 13:55:14 公開日:2022-05-31
# hmBERT: 名前付きエンティティ認識のための歴史的多言語言語モデル

hmBERT: Historical Multilingual Language Models for Named Entity Recognition ( http://arxiv.org/abs/2205.15575v1 )

ライセンス: Link先を確認
Stefan Schweter, Luisa M\"arz, Katharina Schmid and Erion \c{C}ano(参考訳) 標準的な名前付きエンティティ認識(NER)と比較して、人物、場所、組織を歴史的テキストで識別することは大きな課題となる。 機械可読コーパスを得るには、通常、過去のテキストをスキャンし、光学文字認識(OCR)を行う必要がある。 その結果、歴史的コーパスには誤りが含まれている。 また、場所や組織のようなエンティティは時間とともに変化し、別の課題を引き起こします。 全体的な歴史的テキストには、現代のテキストと大きく異なるいくつかの特徴があり、ニューラルタグを訓練するための大きなラベル付きコーパスはこの領域ではほとんど利用できない。 本研究では,歴史ドイツ語,英語,フランス語,スウェーデン語,フィンランド語のnerに対して,大規模な歴史言語モデルの訓練を行った。 言語モデルの事前学習にラベル付きデータを用いることでラベル付きデータの必要性を回避する。 歴史的多言語BERTベースの言語モデルであるhmBERTが提案されている。 さらに、今年のHIPE-2022共有タスクの一環として、下流NERを解くことでhmBERTの能力を評価し、詳細な分析と洞察を提供する。 Multilingual Classical Commentary coarse-fine NER Challengeでは、タグ付けのHISTeriaが3言語中2言語で他チームのモデルを上回っています。

Compared to standard Named Entity Recognition (NER), identifying persons, locations, and organizations in historical texts forms a big challenge. To obtain machine-readable corpora, the historical text is usually scanned and optical character recognition (OCR) needs to be performed. As a result, the historical corpora contain errors. Also, entities like location or organization can change over time, which poses another challenge. Overall historical texts come with several peculiarities that differ greatly from modern texts and large labeled corpora for training a neural tagger are hardly available for this domain. In this work, we tackle NER for historical German, English, French, Swedish, and Finnish by training large historical language models. We circumvent the need for labeled data by using unlabeled data for pretraining a language model. hmBERT, a historical multilingual BERT-based language model is proposed, with different sizes of it being publicly released. Furthermore, we evaluate the capability of hmBERT by solving downstream NER as part of this year's HIPE-2022 shared task and provide detailed analysis and insights. For the Multilingual Classical Commentary coarse-grained NER challenge, our tagger HISTeria outperforms the other teams' models for two out of three languages.
翻訳日:2022-06-01 13:54:48 公開日:2022-05-31
# デジタル時代の絶滅危惧言語の作成 : ジュデオ・スペインを事例として

Preparing an Endangered Language for the Digital Age: The Case of Judeo-Spanish ( http://arxiv.org/abs/2205.15599v1 )

ライセンス: Link先を確認
Alp \"Oktem, Rodolfo Zevallos, Yasmin Moslem, G\"une\c{s} \"Ozt\"urk, Karen \c{S}arhon(参考訳) 我々は、何世紀にもわたって生き残ったセファルディム系ユダヤ人の亡命言語であるユダヤ・スペイン語を復活させる努力を補完するために、機械翻訳と音声合成システムを開発したが、現在ではデジタル時代の絶滅の脅威に直面している。 トルコのセファルディク人コミュニティによって作られた資源に基づいて、私たちはこの言語を将来の世代に保存するためのコーパスとツールを作りました。 機械翻訳では、まずスペイン語からスペイン語への規則に基づく機械翻訳システムを開発し、関連する言語対(トルコ語、英語、スペイン語)で大量の合成並列データを生成する。 そして、この合成データとセファルディック・コミュニティの翻訳から生成された真の並列データを用いてベースラインニューラルネットワーク翻訳エンジンを訓練する。 本稿では,音声合成エンジンを構築するための3.5時間1話者音声コーパスを提案する。 リソース、モデルウェイト、オンライン推論エンジンが公開されています。

We develop machine translation and speech synthesis systems to complement the efforts of revitalizing Judeo-Spanish, the exiled language of Sephardic Jews, which survived for centuries, but now faces the threat of extinction in the digital age. Building on resources created by the Sephardic community of Turkey and elsewhere, we create corpora and tools that would help preserve this language for future generations. For machine translation, we first develop a Spanish to Judeo-Spanish rule-based machine translation system, in order to generate large volumes of synthetic parallel data in the relevant language pairs: Turkish, English and Spanish. Then, we train baseline neural machine translation engines using this synthetic data and authentic parallel data created from translations by the Sephardic community. For text-to-speech synthesis, we present a 3.5 hour single speaker speech corpus for building a neural speech synthesis engine. Resources, model weights and online inference engines are shared publicly.
翻訳日:2022-06-01 13:54:26 公開日:2022-05-31
# appReddit: 評価のための注釈付きReddit投稿のコーパス

APPReddit: a Corpus of Reddit Posts Annotated for Appraisal ( http://arxiv.org/abs/2205.15627v1 )

ライセンス: Link先を確認
Marco Antonio Stranisci, Simona Frenda, Eleonora Ceccaldi, Valerio Basile, Rossana Damiano, Viviana Patti(参考訳) 感情認識のための膨大な計算資源にもかかわらず、評価モデルに依存するデータセットが不足している。 評価理論によれば、感情は事象の多次元評価の結果である。 本稿では,この理論に基づいて注釈付けされた実験データの最初のコーパスであるAPPRedditについて述べる。 その開発を説明した後、実験的な設定で作成され、評価用にアノテートされたイベントのコーパスであるenisearとリソースを比較します。 その結果,2つのコーパスは,データ型やアノテーション方式が異なるにもかかわらずマッピング可能であることがわかった。 APPRedditでトレーニングされたSVMモデルは、大きな損失のない4つの評価次元を予測する。 両方のコーパスを単一のトレーニングセットにマージすると、4次元のうち3次元の予測が増加する。 これらの結果は,評価予測のためのより良い分類モデルへの道を開いた。

Despite the large number of computational resources for emotion recognition, there is a lack of data sets relying on appraisal models. According to Appraisal theories, emotions are the outcome of a multi-dimensional evaluation of events. In this paper, we present APPReddit, the first corpus of non-experimental data annotated according to this theory. After describing its development, we compare our resource with enISEAR, a corpus of events created in an experimental setting and annotated for appraisal. Results show that the two corpora can be mapped notwithstanding different typologies of data and annotations schemes. A SVM model trained on APPReddit predicts four appraisal dimensions without significant loss. Merging both corpora in a single training set increases the prediction of 3 out of 4 dimensions. Such findings pave the way to a better performing classification model for appraisal prediction.
翻訳日:2022-06-01 13:54:09 公開日:2022-05-31
# 教師なしのバイリンガルの単語埋め込みを作る前に、安いトレーニング信号を忘れるな

Don't Forget Cheap Training Signals Before Building Unsupervised Bilingual Word Embeddings ( http://arxiv.org/abs/2205.15713v1 )

ライセンス: Link先を確認
Silvia Severini, Viktor Hangya, Masoud Jalili Sabet, Alexander Fraser, Hinrich Sch\"utze(参考訳) Bilingual Word Embeddings (BWE) は、NLPモデルの言語間移動の基盤の1つである。 それらは単言語コーポラのみを使用して構築でき、監督されていないbweに焦点をあてた多くの作品に繋がる。 しかしながら、教師なしのBWEを構築するための現在のアプローチのほとんどは、容易にアクセス可能な言語間信号に基づく手法と比較していない。 本稿では,教師なしbwe法を開発する場合,その信号は常に考慮すべきであると主張する。 最も効果的なアプローチは次の2つです。 1)同一語をシードレキシコン(非教師的アプローチが誤って想定している)として用いて、そして 2)このような辞書と単語のローマ字版と編集距離閾値を一致させて抽出したペアを組み合わせる。 13の非ラテン語(および英語)について実験を行い,そのような安価な信号が,中国語,日本語,カンナダ語,タミル語,タイ語などの遠隔言語対において,より複雑な教師なし手法を用いた場合よりも優れていることを示す。 さらに、彼らは監督されたアプローチにおける高品質のレキシコンの使用と競合する。 この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。

Bilingual Word Embeddings (BWEs) are one of the cornerstones of cross-lingual transfer of NLP models. They can be built using only monolingual corpora without supervision leading to numerous works focusing on unsupervised BWEs. However, most of the current approaches to build unsupervised BWEs do not compare their results with methods based on easy-to-access cross-lingual signals. In this paper, we argue that such signals should always be considered when developing unsupervised BWE methods. The two approaches we find most effective are: 1) using identical words as seed lexicons (which unsupervised approaches incorrectly assume are not available for orthographically distinct language pairs) and 2) combining such lexicons with pairs extracted by matching romanized versions of words with an edit distance threshold. We experiment on thirteen non-Latin languages (and English) and show that such cheap signals work well and that they outperform using more complex unsupervised methods on distant language pairs such as Chinese, Japanese, Kannada, Tamil, and Thai. In addition, they are even competitive with the use of high-quality lexicons in supervised approaches. Our results show that these training signals should not be neglected when building BWEs, even for distant languages.
翻訳日:2022-06-01 13:53:59 公開日:2022-05-31
# EMS: 効率的かつ効果的な多言語文表現学習

EMS: Efficient and Effective Massively Multilingual Sentence Representation Learning ( http://arxiv.org/abs/2205.15744v1 )

ライセンス: Link先を確認
Zhuoyuan Mao, Chenhui Chu, Sadao Kurohashi(参考訳) 大規模多言語文表現モデル(LASER、SBERT-distill、LaBSE)は、言語間下流タスクを大幅に改善する。 しかし、複数のトレーニング手順、大量のデータの使用、あるいは非効率的なモデルアーキテクチャは、我々の好む言語やドメインに従って新しいモデルをトレーニングするために重い計算結果をもたらす。 この問題を解決するために,クロスリンガル文再構成(XTR)と文レベルのコントラスト学習を訓練目的として用いた,効率的かつ効果的な多言語文表現学習(EMS)を導入する。 関連する研究と比較して,提案モデルは大規模事前学習モデルに依存することなく,極めて少ない並列文とGPU計算資源を用いて効率的に訓練することができる。 実験の結果,両文マイニング,ゼロショットクロスリンガル分類,感情分類において,提案モデルが有意な効果を示した。 Ablative Analysisは、提案モデルの各コンポーネントの有効性を示す。 我々は、モデルトレーニング用のコードと62言語(https://github.com/ mao-ku/ems)をサポートするemsプリトレーニングモデルをリリースします。

Massively multilingual sentence representation models, e.g., LASER, SBERT-distill, and LaBSE, help significantly improve cross-lingual downstream tasks. However, multiple training procedures, the use of a large amount of data, or inefficient model architectures result in heavy computation to train a new model according to our preferred languages and domains. To resolve this issue, we introduce efficient and effective massively multilingual sentence representation learning (EMS), using cross-lingual sentence reconstruction (XTR) and sentence-level contrastive learning as training objectives. Compared with related studies, the proposed model can be efficiently trained using significantly fewer parallel sentences and GPU computation resources without depending on large-scale pre-trained models. Empirical results show that the proposed model significantly yields better or comparable results with regard to bi-text mining, zero-shot cross-lingual genre classification, and sentiment classification. Ablative analyses demonstrate the effectiveness of each component of the proposed model. We release the codes for model training and the EMS pre-trained model, which supports 62 languages (https://github.com/ Mao-KU/EMS).
翻訳日:2022-06-01 13:52:08 公開日:2022-05-31
# LEXpander: 自動辞書展開にコネクティフィケーションネットワークを適用する

LEXpander: applying colexification networks to automated lexicon expansion ( http://arxiv.org/abs/2205.15850v1 )

ライセンス: Link先を確認
Anna Di Natale and David Garcia(参考訳) ソーシャルメディアや他のコーパスからのテキスト分析への最近のアプローチは、トピックの検出、意味の測定、関連する文書の選択にワードリストに依存している。 これらのリストは、計算レキシコン展開法を、手作業で計算された小さなルートワードの集合に適用することによって、しばしば生成される。 このアプローチが広く使われているにもかかわらず、語彙拡張法の性能と、追加の言語データでどのように改善できるかについて、徹底的な比較分析が不足している。 本稿では,共有概念と他言語への翻訳に基づいて単語を接続する意味ネットワークである語彙化に関する新しいデータを活用する,語彙展開の手法であるlexpanderを提案する。 我々は,様々な単語埋め込みモデルと同義語ネットワークに基づく辞書拡張手法を含むベンチマークでLEXpanderを評価した。 LEXpanderは、様々なテストで生成された単語リストの精度とリコールのトレードオフの両面で、既存のアプローチよりも優れていることがわかった。 私たちのベンチマークには、英語とドイツ語のいくつかの言語カテゴリと感情変数が含まれています。 また, 拡張された単語リストは, 各種コーパスへの適用事例における高い性能のテキスト解析手法であることを示す。 このようにして、LEXpanderは、短い単語のリストを、心理学や言語学の専門家が生成した単語リストと密に近似できる、徹底的で正確な単語リストに拡張する、体系的な自動化ソリューションを提供する。

Recent approaches to text analysis from social media and other corpora rely on word lists to detect topics, measure meaning, or to select relevant documents. These lists are often generated by applying computational lexicon expansion methods to small, manually-curated sets of root words. Despite the wide use of this approach, we still lack an exhaustive comparative analysis of the performance of lexicon expansion methods and how they can be improved with additional linguistic data. In this work, we present LEXpander, a method for lexicon expansion that leverages novel data on colexification, i.e. semantic networks connecting words based on shared concepts and translations to other languages. We evaluate LEXpander in a benchmark including widely used methods for lexicon expansion based on various word embedding models and synonym networks. We find that LEXpander outperforms existing approaches in terms of both precision and the trade-off between precision and recall of generated word lists in a variety of tests. Our benchmark includes several linguistic categories and sentiment variables in English and German. We also show that the expanded word lists constitute a high-performing text analysis method in application cases to various corpora. This way, LEXpander poses a systematic automated solution to expand short lists of words into exhaustive and accurate word lists that can closely approximate word lists generated by experts in psychology and linguistics.
翻訳日:2022-06-01 13:51:48 公開日:2022-05-31
# 自動生成テキストのクラスタベース評価

Cluster-based Evaluation of Automatically Generated Text ( http://arxiv.org/abs/2205.16001v1 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Ryan Cotterell(参考訳) 確率的言語生成器はここ数年で劇的に改善されているが、それらの評価に用いられる自動評価指標は、この進歩に追随していない。 言語生成の分野では、優れた計量は人間の判断と高く相関しなければならない。 しかし、例外は少ないが、文献にはそのような指標が欠如している。 本研究では,言語生成評価の一般的なパラダイムを分析する。 まず,ほとんどの言語生成器のバックボーンである文字列上の確率分布を操作する自動評価メトリクスを用いて,計算と定性の問題について議論する。 次に、クラスタ上での分散の利用を提案する。そこでは、テキストの埋め込みに基づいて文字列をクラスタ化する(事前訓練された言語モデルから得られる)。 この置換によってもたらされるバイアスは非常に強いが、実証的に、この手法は人間の判断と高い相関を持つ計量推定器につながり、同時に推定器の分散を減少させる。 テキストの構文的およびコヒーレンスレベルの特徴を符号化すると同時に、表面レベルの特徴を無視して、これらのクラスタは単に最先端の言語モデルを評価するためのより優れた装備である、という結論に至る。

While probabilistic language generators have improved dramatically over the last few years, the automatic evaluation metrics used to assess them have not kept pace with this progress. In the domain of language generation, a good metric must correlate highly with human judgements. Yet, with few exceptions, there is a lack of such metrics in the literature. In this work, we analyse the general paradigm of language generator evaluation. We first discuss the computational and qualitative issues with using automatic evaluation metrics that operate on probability distributions over strings, the backbone of most language generators. We then propose the use of distributions over clusters instead, where we cluster strings based on their text embeddings (obtained from a pretrained language model). While we find the biases introduced by this substitution to be quite strong, we observe that, empirically, this methodology leads to metric estimators with higher correlation with human judgements, while simultaneously reducing estimator variance. We finish the paper with a probing analysis, which leads us to conclude that -- by encoding syntactic- and coherence-level features of text, while ignoring surface-level features -- these clusters may simply be better equipped to evaluate state-of-the-art language models.
翻訳日:2022-06-01 13:51:25 公開日:2022-05-31
# マルチコントラクト部分的エキスパートによる属性探索

Attribute Exploration with Multiple Contradicting Partial Experts ( http://arxiv.org/abs/2205.15714v1 )

ライセンス: Link先を確認
Maximilian Felde and Gerd Stumme(参考訳) 属性探索(英: attribute exploration)は、形式的概念分析(fca)の手法であり、ドメインの専門家が形式的コンテキスト(オブジェクトと属性のクロステーブル)として表現できる知識ドメインの構造的依存関係を発見するのに役立つ。 本稿では、ドメインの専門家のグループによる共有ビューの探索を可能にする属性探索の拡張について述べる。 各専門家はドメインに対する独自の見解を持ち、複数の専門家の見解には矛盾する情報が含まれるかもしれない。

Attribute exploration is a method from Formal Concept Analysis (FCA) that helps a domain expert discover structural dependencies in knowledge domains which can be represented as formal contexts (cross tables of objects and attributes). In this paper we present an extension of attribute exploration that allows for a group of domain experts and explores their shared views. Each expert has their own view of the domain and the views of multiple experts may contain contradicting information.
翻訳日:2022-06-01 13:51:06 公開日:2022-05-31
# (参考訳) Hollywood Identity Bias Dataset: 映画対話のコンテキスト指向バイアス分析 [全文訳有]

Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues ( http://arxiv.org/abs/2205.15951v1 )

ライセンス: CC BY 4.0
Sandhya Singh, Prapti Roy, Nihar Sahoo, Niteesh Mallela, Himanshu Gupta, Pushpak Bhattacharyya, Milind Savagaonkar, Nidhi, Roshni Ramnani, Anutosh Maitra, Shubhashis Sengupta(参考訳) 映画は社会を反映し、意見を変える力を持っている。 映画に現れる社会的バイアスやステレオタイプは、そのリーチによって広範囲にダメージを与える可能性がある。 これらのバイアスが必ずしもストーリーラインの必要性であるとは限らないが、著者のバイアスとして忍び寄ることがある。 映画のプロダクションハウスは、脚本にある偏見が物語の要求であることを確認することを好んでいる。 今日では、ディープラーニングモデルが複数のタスクにおいて人間レベルの精度を提供できる場合、執筆段階でスクリプトに存在するバイアスを特定するAIソリューションを持つことで、リリースの停滞や訴訟などの不便さを回避することができる。 AIソリューションはデータ集約型であり、スクリプトのバイアス問題に対処するドメイン固有のデータはないため、IDバイアスに注釈を付けた新しい映画のスクリプトデータセットを導入する。 データセットには注釈付きの対話ターンが含まれています i) 性別、人種・民族性、宗教、年齢、職業、LGBTQなどの7つのカテゴリーのバイアスラベル。 (ii)感受性、ステレオタイプ、感情、感情、感情の強さのラベル (三)文脈認識を付したすべてのラベル (iv)バイアスラベルのターゲットグループと理由 (v) 高品質なアノテーションのためのエキスパート主導のグループ検証プロセス。 また、バイアス識別とカテゴリ検出のための様々なベースライン性能をデータセット上で報告する。

Movies reflect society and also hold power to transform opinions. Social biases and stereotypes present in movies can cause extensive damage due to their reach. These biases are not always found to be the need of storyline but can creep in as the author's bias. Movie production houses would prefer to ascertain that the bias present in a script is the story's demand. Today, when deep learning models can give human-level accuracy in multiple tasks, having an AI solution to identify the biases present in the script at the writing stage can help them avoid the inconvenience of stalled release, lawsuits, etc. Since AI solutions are data intensive and there exists no domain specific data to address the problem of biases in scripts, we introduce a new dataset of movie scripts that are annotated for identity bias. The dataset contains dialogue turns annotated for (i) bias labels for seven categories, viz., gender, race/ethnicity, religion, age, occupation, LGBTQ, and other, which contains biases like body shaming, personality bias, etc. (ii) labels for sensitivity, stereotype, sentiment, emotion, emotion intensity, (iii) all labels annotated with context awareness, (iv) target groups and reason for bias labels and (v) expert-driven group-validation process for high quality annotations. We also report various baseline performances for bias identification and category detection on our dataset.
翻訳日:2022-06-01 13:48:16 公開日:2022-05-31
# 対戦型マルチアーマッドバンドにおけるオンラインメタラーニング

Online Meta-Learning in Adversarial Multi-Armed Bandits ( http://arxiv.org/abs/2205.15921v1 )

ライセンス: Link先を確認
Ilya Osadchiy, Kfir Y. Levy, Ron Meir(参考訳) 敵対的多腕バンディットのメタラーニングについて検討した。 オンライン・ウィズ・イン・オンライン・セットアップでは、プレイヤー(学習者)が複数の腕のバンディットエピソードに遭遇する。 プレイヤーのパフォーマンスは、敵が生み出した損失に応じて、各エピソードの最高の腕に対する後悔として測定される。 問題の難易度は、敵によって選択された最善の腕ごとの経験的分布に依存する。 この経験的分布における不均一性を生かし,問題依存的後悔境界を導出するアルゴリズムを提案する。 本ソリューションは、各エピソードを個別に演奏する内的学習者と、各エピソード間の内的アルゴリズムのハイパーパラメータを更新する外的学習者とを含む。 最適な腕の分布が一様ではない場合、メタ学習なしで各エピソードで個別に実行されるオンラインアルゴリズムによって達成される最良の境界を改善する。

We study meta-learning for adversarial multi-armed bandits. We consider the online-within-online setup, in which a player (learner) encounters a sequence of multi-armed bandit episodes. The player's performance is measured as regret against the best arm in each episode, according to the losses generated by an adversary. The difficulty of the problem depends on the empirical distribution of the per-episode best arm chosen by the adversary. We present an algorithm that can leverage the non-uniformity in this empirical distribution, and derive problem-dependent regret bounds. This solution comprises an inner learner that plays each episode separately, and an outer learner that updates the hyper-parameters of the inner algorithm between the episodes. In the case where the best arm distribution is far from uniform, it improves upon the best bound that can be achieved by any online algorithm executed on each episode individually without meta-learning.
翻訳日:2022-06-01 13:31:41 公開日:2022-05-31
# 多次元適応と性能保証による概念ドリフト下のミニマックス分類

Minimax Classification under Concept Drift with Multidimensional Adaptation and Performance Guarantees ( http://arxiv.org/abs/2205.15942v1 )

ライセンス: Link先を確認
Ver\'onica \'Alvarez, Santiago Mazuelas, and Jose A. Lozano(参考訳) インスタンスラベル対の統計的特性は、教師付き分類の実用的なシナリオにおいて時間とともに変化する。 従来の学習手法は、注意深く選択された学習率、忘れる要因、ウィンドウサイズによって変化のスカラー率を計算した、このような概念ドリフトに適応する。 しかし、共通シナリオにおける時間変化は多次元的、すなわち異なる統計特性は、しばしば異なる方法で変化する。 本稿では,多変量分布と高次追跡による多次元時間変化を考慮した適応最小リスク分類器(AMRC)を提案する。 加えて、従来の手法とは異なり、AMRCは計算可能な厳密な性能保証を提供することができる。 複数のベンチマークデータセットにおける実験は、amrcの分類の改善と、提示された性能保証の信頼性を示している。

The statistical characteristics of instance-label pairs often change with time in practical scenarios of supervised classification. Conventional learning techniques adapt to such concept drift accounting for a scalar rate of change by means of a carefully chosen learning rate, forgetting factor, or window size. However, the time changes in common scenarios are multidimensional, i.e., different statistical characteristics often change in a different manner. This paper presents adaptive minimax risk classifiers (AMRCs) that account for multidimensional time changes by means of a multivariate and high-order tracking of the time-varying underlying distribution. In addition, differently from conventional techniques, AMRCs can provide computable tight performance guarantees. Experiments on multiple benchmark datasets show the classification improvement of AMRCs compared to the state-of-the-art and the reliability of the presented performance guarantees.
翻訳日:2022-06-01 13:31:22 公開日:2022-05-31
# パラメトリックロバストネスセットによるデータセットシフトのロバスト性評価

Evaluating Robustness to Dataset Shift via Parametric Robustness Sets ( http://arxiv.org/abs/2205.15947v1 )

ライセンス: Link先を確認
Nikolaj Thams, Michael Oberst, David Sontag(参考訳) モデル性能に大きな違いをもたらす分布の変化を積極的に同定する手法を提案する。 これらのシフトが妥当であることを保証するため、観測変数の因果メカニズムの解釈可能な変化の観点からパラメータ化する。 これは、可算分布のパラメトリックロバストネス集合と対応する最悪のケース損失を定義する。 個別のパラメトリックシフトによる損失は、重要サンプリングなどの再重み付け手法によって推定できるが、結果として生じる最悪の最適化問題は非凸であり、その推定は大きな分散に悩まされる可能性がある。 しかし、小さなシフトに対しては、シフト中の損失に対する局所的な二階近似を構築し、効率的なアルゴリズムが利用できる特定の非凸二次最適化問題として最悪の場合のシフトを見つける問題をキャストすることができる。 この二階近似を条件付き指数関数系モデルのシフトに対して直接推定できることを実証し,近似誤差を限定した。 このアプローチをコンピュータビジョンタスク(画像から性別を分類する)に適用し、非因果属性のシフトに対する感度を明らかにする。

We give a method for proactively identifying small, plausible shifts in distribution which lead to large differences in model performance. To ensure that these shifts are plausible, we parameterize them in terms of interpretable changes in causal mechanisms of observed variables. This defines a parametric robustness set of plausible distributions and a corresponding worst-case loss. While the loss under an individual parametric shift can be estimated via reweighting techniques such as importance sampling, the resulting worst-case optimization problem is non-convex, and the estimate may suffer from large variance. For small shifts, however, we can construct a local second-order approximation to the loss under shift and cast the problem of finding a worst-case shift as a particular non-convex quadratic optimization problem, for which efficient algorithms are available. We demonstrate that this second-order approximation can be estimated directly for shifts in conditional exponential family models, and we bound the approximation error. We apply our approach to a computer vision task (classifying gender from images), revealing sensitivity to shifts in non-causal attributes.
翻訳日:2022-06-01 13:31:09 公開日:2022-05-31
# 点雲のマルチオブジェクト追跡のためのトランスフォーマー

Transformers for Multi-Object Tracking on Point Clouds ( http://arxiv.org/abs/2205.15730v1 )

ライセンス: Link先を確認
Felicia Ruppel, Florian Faion, Claudius Gl\"aser and Klaus Dietmayer(参考訳) TransMOTは、新しいトランスフォーマーベースのトレーニング可能なオンライントラッカーで、ポイントクラウドデータのための検出器である。 このモデルは、クロス・アンド・セルフ・アテンション・メカニズムを使用しており、自動車のコンテキストにおけるライダーデータやレーダーなどの他のデータタイプに適用できる。 トラック管理と新しいトラックの検出は、同一のトランスフォーマーデコーダモジュールによって行われ、トラッカー状態は特徴空間で符号化される。 このアプローチでは、低次元の有界箱に頼るのではなく、検知器のリッチな潜在空間を用いて追跡を行う。 それでも、センサ入力を任意のタイミングで処理したり、フレームスキップを補償したりといった、従来のKalman-filterベースのアプローチの望ましい特性を維持できます。 これは、1つのフレームから次のフレームに特徴レベルでトラック情報を変換し、カルマンフィルタの予測ステップと同じようなタスクを果たす新しいモジュールによって可能となる。 実世界のデータセットであるnuscenesでは、提案モデルがkalmanフィルタベースのトラッキングベースラインを上回っている。

We present TransMOT, a novel transformer-based end-to-end trainable online tracker and detector for point cloud data. The model utilizes a cross- and a self-attention mechanism and is applicable to lidar data in an automotive context, as well as other data types, such as radar. Both track management and the detection of new tracks are performed by the same transformer decoder module and the tracker state is encoded in feature space. With this approach, we make use of the rich latent space of the detector for tracking rather than relying on low-dimensional bounding boxes. Still, we are able to retain some of the desirable properties of traditional Kalman-filter based approaches, such as an ability to handle sensor input at arbitrary timesteps or to compensate frame skips. This is possible due to a novel module that transforms the track information from one frame to the next on feature-level and thereby fulfills a similar task as the prediction step of a Kalman filter. Results are presented on the challenging real-world dataset nuScenes, where the proposed model outperforms its Kalman filter-based tracking baseline.
翻訳日:2022-06-01 13:30:52 公開日:2022-05-31
# 生成モデルを用いた非線形観測からの非イテレーティブ回復

Non-Iterative Recovery from Nonlinear Observations using Generative Models ( http://arxiv.org/abs/2205.15749v1 )

ライセンス: Link先を確認
Jiulong Liu, Zhaoqiang Liu(参考訳) 本稿では,半パラメトリック単一指数モデル(sim)に基づく非線形観測から基礎となる信号の方向を推定することを目的とする。 信号がスパースであると仮定される従来の圧縮センシングとは異なり、信号は境界付き$k$-次元入力を持つ$l$-lipschitz連続生成モデルの範囲内にあると仮定する。 これは主に、様々な実アプリケーションにおける深い生成モデルの成功に動機づけられている。 提案手法は非定性的であり(プロジェクションステップの近似は反復的な手順を用いる場合もあるが)、非常に効率的であり、$m$が測定数であるようなオーダー$\sqrt{(k \log L)/m}$のほぼ最適統計率が得られることを示す。 SIMの2つの具体例,すなわち1ドルのノイズと3乗の測定モデルについて検討し,本手法の有効性を示すために画像データセットの実験を行った。 特に、ノイズの多い1ドルの測度モデルでは、非定位法が精度と効率の両面で最先端の反復法よりも優れていることを示す。

In this paper, we aim to estimate the direction of an underlying signal from its nonlinear observations following the semi-parametric single index model (SIM). Unlike conventional compressed sensing where the signal is assumed to be sparse, we assume that the signal lies in the range of an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs. This is mainly motivated by the tremendous success of deep generative models in various real applications. Our reconstruction method is non-iterative (though approximating the projection step may use an iterative procedure) and highly efficient, and it is shown to attain the near-optimal statistical rate of order $\sqrt{(k \log L)/m}$, where $m$ is the number of measurements. We consider two specific instances of the SIM, namely noisy $1$-bit and cubic measurement models, and perform experiments on image datasets to demonstrate the efficacy of our method. In particular, for the noisy $1$-bit measurement model, we show that our non-iterative method significantly outperforms a state-of-the-art iterative method in terms of both accuracy and efficiency.
翻訳日:2022-06-01 13:30:33 公開日:2022-05-31
# パートプロトタイプネットワークの概念レベルデバッギング

Concept-level Debugging of Part-Prototype Networks ( http://arxiv.org/abs/2205.15769v1 )

ライセンス: Link先を確認
Andrea Bontempelli, Stefano Teso, Fausto Giunchiglia, Andrea Passerini(参考訳) Part-Prototype Networks (ProtoPNets) は、透明性を損なうことなくブラックボックスモデルと同じ性能を実現するために設計された概念ベースの分類器である。 ProtoPNetsは、トレーニングサンプルの一部を認識するために学んだクラス固有の部分プロトタイプとの類似性に基づいて、予測を計算する。 しかし、他のモデルと同様に、データから欠点やショートカットを拾う傾向にあり、予測精度が損なわれ、一般化が制限される。 本稿では,ProtoPDebugを提案する。ProtoPDebugは,モデルの説明に導かれて,部分プロトタイプを忘れるか,保持するかという形式でフィードバックを提供する,ProtoPNetの効果的なコンセプトレベルのデバッガである。 合成および実世界のデータに対する広範な経験的評価は、ProtoPDebugがアノテーションコストのごく一部で最先端のデバッガより優れていることを示している。

Part-prototype Networks (ProtoPNets) are concept-based classifiers designed to achieve the same performance as black-box models without compromising transparency. ProtoPNets compute predictions based on similarity to class-specific part-prototypes learned to recognize parts of training examples, making it easy to faithfully determine what examples are responsible for any target prediction and why. However, like other models, they are prone to picking up confounds and shortcuts from the data, thus suffering from compromised prediction accuracy and limited generalization. We propose ProtoPDebug, an effective concept-level debugger for ProtoPNets in which a human supervisor, guided by the model's explanations, supplies feedback in the form of what part-prototypes must be forgotten or kept, and the model is fine-tuned to align with this supervision. An extensive empirical evaluation on synthetic and real-world data shows that ProtoPDebug outperforms state-of-the-art debuggers for a fraction of the annotation cost.
翻訳日:2022-06-01 13:30:14 公開日:2022-05-31
# 知識蒸留における知識の希薄化

What Knowledge Gets Distilled in Knowledge Distillation? ( http://arxiv.org/abs/2205.16004v1 )

ライセンス: Link先を確認
Utkarsh Ojha, Yuheng Li, Yong Jae Lee(参考訳) 知識蒸留は教師ネットワークから学生ネットワークへ有用な情報を伝達することを目的としており、目前の課題に対する生徒のパフォーマンス向上を主な目的としている。 長年にわたり、新しい技術や知識蒸留のユースケースが発達してきた。 しかし、様々な改善があったにもかかわらず、コミュニティのプロセスに対する根本的な理解には大きなギャップがあるようだ。 具体的には、知識蒸留で蒸留される知識は何か。 言い換えれば、学生はどんなふうに教師に似ていますか。 同じ方法でオブジェクトをローカライズするのでしょうか? 同じ敵のサンプルに騙されるのか? データ不変性は似ているか? 私たちの研究は、これらの疑問にもっと答えるために包括的な研究を提示します。 本研究は, 画像分類と3つの最先端知識蒸留技術を用いて, 作業性能の向上以上の他の特性を間接的に蒸留できることを実証した。 これらの疑問を探求することで、知識蒸留の過程で何が起こるのかをより明確にしたいと思っています。

Knowledge distillation aims to transfer useful information from a teacher network to a student network, with the primary goal of improving the student's performance for the task at hand. Over the years, there has a been a deluge of novel techniques and use cases of knowledge distillation. Yet, despite the various improvements, there seems to be a glaring gap in the community's fundamental understanding of the process. Specifically, what is the knowledge that gets distilled in knowledge distillation? In other words, in what ways does the student become similar to the teacher? Does it start to localize objects in the same way? Does it get fooled by the same adversarial samples? Does its data invariance properties become similar? Our work presents a comprehensive study to try to answer these questions and more. Our results, using image classification as a case study and three state-of-the-art knowledge distillation techniques, show that knowledge distillation methods can indeed indirectly distill other kinds of properties beyond improving task performance. By exploring these questions, we hope for our work to provide a clearer picture of what happens during knowledge distillation.
翻訳日:2022-06-01 13:28:44 公開日:2022-05-31
# GSR: 一般化されたシンボリック回帰アプローチ

GSR: A Generalized Symbolic Regression Approach ( http://arxiv.org/abs/2205.15569v1 )

ライセンス: Link先を確認
Tony Tohme, Dehong Liu, Kamal Youcef-Toumi(参考訳) データセットを最もよく記述する数学的関係を特定することは、機械学習において非常に難しい問題であり、シンボリック回帰(SR)として知られている。 しばしばブラックボックスとして扱われるニューラルネットワークとは対照的に、SRは分析関数を組み立てることで、独立変数と与えられたデータセットのターゲット変数との間の基盤となる関係について洞察を得ようとする。 本稿では,従来のSR最適化問題の定式化を改良し,主SRの目的をそのまま維持し,一般化記号回帰手法であるGSRを提案する。 GSRでは、独立変数と対象変数の変換の間の数学的関係を推測する。 我々は,基本関数の重み付け和に探索空間を制約し,行列に基づく符号化方式を用いた遺伝的プログラミング手法を提案する。 本稿では,gsr法がsrベンチマーク問題に対する最先端手法よりも優れていることを示す。 最後に、GSRの強みを強調し、既存のベンチマークと比較してより難しい新しいSRベンチマークセットであるSymSetを導入する。

Identifying the mathematical relationships that best describe a dataset remains a very challenging problem in machine learning, and is known as Symbolic Regression (SR). In contrast to neural networks which are often treated as black boxes, SR attempts to gain insight into the underlying relationships between the independent variables and the target variable of a given dataset by assembling analytical functions. In this paper, we present GSR, a Generalized Symbolic Regression approach, by modifying the conventional SR optimization problem formulation, while keeping the main SR objective intact. In GSR, we infer mathematical relationships between the independent variables and some transformation of the target variable. We constrain our search space to a weighted sum of basis functions, and propose a genetic programming approach with a matrix-based encoding scheme. We show that our GSR method outperforms several state-of-the-art methods on the well-known SR benchmark problem sets. Finally, we highlight the strengths of GSR by introducing SymSet, a new SR benchmark set which is more challenging relative to the existing benchmarks.
翻訳日:2022-06-01 13:26:24 公開日:2022-05-31
# コミュニケーション効率のよい分散ロバスト分散学習

Communication-Effici ent Distributionally Robust Decentralized Learning ( http://arxiv.org/abs/2205.15614v1 )

ライセンス: Link先を確認
Matteo Zecchin, Marios Kountouris, David Gesbert(参考訳) 分散学習アルゴリズムは、相互接続されたエッジデバイスにデータと計算資源を共有させ、中央コーディネータ(例えばオーケストレーションベースステーション)の助けなしに機械学習モデルを協調的に訓練する。 ネットワークデバイスにおける異種データ分散の場合、協調によってデバイスのサブセットのパフォーマンスが不十分な予測器が得られる。 そこで本研究では,分散ロバストな分散学習タスクの定式化について検討し,基礎となるミニマックス最適化問題を解くために,分散化シングルループ勾配降下・上昇アルゴリズム(ad-gda)を提案する。 我々は圧縮コンセンサススキームを用いてアルゴリズム通信を効率化し,滑らかな凸損失関数と非凸損失関数の収束保証を提供する。 最後に,提案アルゴリズムが高度に異質なデータ分布を持つ協調デバイスネットワーク上で,不偏予測器を提供する能力の実証的証拠と理論的知見を相関させた。

Decentralized learning algorithms empower interconnected edge devices to share data and computational resources to collaboratively train a machine learning model without the aid of a central coordinator (e.g. an orchestrating basestation). In the case of heterogeneous data distributions at the network devices, collaboration can yield predictors with unsatisfactory performance for a subset of the devices. For this reason, in this work we consider the formulation of a distributionally robust decentralized learning task and we propose a decentralized single loop gradient descent/ascent algorithm (AD-GDA) to solve the underlying minimax optimization problem. We render our algorithm communication efficient by employing a compressed consensus scheme and we provide convergence guarantees for smooth convex and non-convex loss functions. Finally, we corroborate the theoretical findings with empirical evidence of the ability of the proposed algorithm in providing unbiased predictors over a network of collaborating devices with highly heterogeneous data distributions.
翻訳日:2022-06-01 13:26:08 公開日:2022-05-31
# 消費電力予測のためのマルチタスク最適化に基づくコトレーニング

Multi-task Optimization Based Co-training for Electricity Consumption Prediction ( http://arxiv.org/abs/2205.15663v1 )

ライセンス: Link先を確認
Hui Song, A. K. Qin and Chenggang Yan(参考訳) 実世界の電力消費予測は、例えば、異なる時間ステップの予測や異なる位置情報の予測など、異なるタスクを含むことがある。 これらのタスクは、それらのタスクから抽出して共有できる共通の問題解決知識を使わずに、独立して解決されることが多い。 本研究では,MTO(Multi-task Optimization)に基づく協調学習(MTO-CT)フレームワークを提案する。 MTO-CTは、長い短期記憶(LSTM)ベースのモデルを、接続重みとバイアスによって知識が表現される予測器として利用する。 MTO-CTでは、タスク間の知識伝達モジュールを設計し、確率マッチングと確率的普遍選択を用いて最も有用なソースタスクを選択し、ターゲットタスクにおいて選択されたソースタスクから知識を再利用するための突然変異やクロスオーバーのような進化操作を行う。 オーストラリアの5州の電力消費データを使って、2つのタスクを異なるスケールで設計します。 a) 各状態(5つのタスク)の1段階先行予測と b)各状態に対する6ステップ、12ステップ、18ステップ、24ステップの予測(20タスク)。 MTO-CTの性能は、同じ設定下で知識を共有することなく、各タスクを個別に解決することと比較して、これらの2つのタスクのそれぞれを解く上で評価し、予測精度の観点から、MTO-CTの優位性を示す。

Real-world electricity consumption prediction may involve different tasks, e.g., prediction for different time steps ahead or different geo-locations. These tasks are often solved independently without utilizing some common problem-solving knowledge that could be extracted and shared among these tasks to augment the performance of solving each task. In this work, we propose a multi-task optimization (MTO) based co-training (MTO-CT) framework, where the models for solving different tasks are co-trained via an MTO paradigm in which solving each task may benefit from the knowledge gained from when solving some other tasks to help its solving process. MTO-CT leverages long short-term memory (LSTM) based model as the predictor where the knowledge is represented via connection weights and biases. In MTO-CT, an inter-task knowledge transfer module is designed to transfer knowledge between different tasks, where the most helpful source tasks are selected by using the probability matching and stochastic universal selection, and evolutionary operations like mutation and crossover are performed for reusing the knowledge from selected source tasks in a target task. We use electricity consumption data from five states in Australia to design two sets of tasks at different scales: a) one-step ahead prediction for each state (five tasks) and b) 6-step, 12-step, 18-step, and 24-step ahead prediction for each state (20 tasks). The performance of MTO-CT is evaluated on solving each of these two sets of tasks in comparison to solving each task in the set independently without knowledge sharing under the same settings, which demonstrates the superiority of MTO-CT in terms of prediction accuracy.
翻訳日:2022-06-01 13:25:13 公開日:2022-05-31
# 一般化された暗黙的ニューラル表現

Generalised Implicit Neural Representations ( http://arxiv.org/abs/2205.15674v1 )

ライセンス: Link先を確認
Daniele Grattarola, Pierre Vandergheynst(参考訳) 非ユークリッド領域における信号に対する暗黙的神経表現(INR)の学習の問題を考える。 ユークリッドの場合、INRは正規格子上の信号の離散サンプリングに基づいて訓練される。 ここでは、連続信号が未知の位相空間に存在すると仮定し、そこから離散グラフをサンプリングする。 サンプルノードを識別する座標系がないため,グラフのスペクトル埋め込みによる位置の近似を提案する。 これにより、基礎となる連続領域を知らずにINRsを訓練することができ、これは自然界のほとんどのグラフ信号のケースであり、同時に領域の対称性群の下でINRsを同変させる。 非ユークリッド領域上の実世界の様々な信号について実験を行った。

We consider the problem of learning implicit neural representations (INRs) for signals on non-Euclidean domains. In the Euclidean case, INRs are trained on a discrete sampling of a signal over a regular lattice. Here, we assume that the continuous signal exists on some unknown topological space from which we sample a discrete graph. In the absence of a coordinate system to identify the sampled nodes, we propose approximating their location with a spectral embedding of the graph. This allows us to train INRs without knowing the underlying continuous domain, which is the case for most graph signals in nature, while also making the INRs equivariant under the symmetry group of the domain. We show experiments with our method on various real-world signals on non-Euclidean domains.
翻訳日:2022-06-01 13:24:44 公開日:2022-05-31
# Dec-MDPによる双曲型PDEの数値解法のマルチエージェント学習

Multi-Agent Learning of Numerical Methods for Hyperbolic PDEs with Factored Dec-MDP ( http://arxiv.org/abs/2205.15716v1 )

ライセンス: Link先を確認
Yiwei Fu, Dheeraj S.K. Kapilavai, Elliot Way(参考訳) factored decentralized markov decision process (dec-mdp) はマルチエージェントシステムにおける逐次意思決定問題のモデル化のためのフレームワークである。 本稿では,双曲型偏微分方程式(PDE)の数値解法,特に重み付き基本非振動(WENO)スキームの学習をDec-MDP問題として定式化する。 報酬の定式化は強化学習 (RL) や行動クローニングにつながり, 政策勾配アルゴリズムを用いてRLの定式化の下で全てのエージェントに対して均質なポリシーを学習できることを示した。 訓練されたエージェントは局所的な観測にのみ作用するため、マルチエージェントシステムは双曲型pdesの一般的な数値解法として使われ、異なる空間的離散化、エピソード長、次元、さらには方程式型に一般化することができる。

Factored decentralized Markov decision process (Dec-MDP) is a framework for modeling sequential decision making problems in multi-agent systems. In this paper, we formalize the learning of numerical methods for hyperbolic partial differential equations (PDEs), specifically the Weighted Essentially Non-Oscillatory (WENO) scheme, as a factored Dec-MDP problem. We show that different reward formulations lead to either reinforcement learning (RL) or behavior cloning, and a homogeneous policy could be learned for all agents under the RL formulation with a policy gradient algorithm. Because the trained agents only act on their local observations, the multi-agent system can be used as a general numerical method for hyperbolic PDEs and generalize to different spatial discretizations, episode lengths, dimensions, and even equation types.
翻訳日:2022-06-01 13:24:31 公開日:2022-05-31
# 単純性ニューラルポピュレーション学習:シンメトリゼロサムゲームにおける任意のミクチャーベイズ最適性

Simplex Neural Population Learning: Any-Mixture Bayes-Optimality in Symmetric Zero-sum Games ( http://arxiv.org/abs/2205.15879v1 )

ライセンス: Link先を確認
Siqi Liu, Marc Lanctot, Luke Marris, Nicolas Heess(参考訳) 多様な戦略上の混合に対して最適にプレーすることを学ぶことは、競争ゲームにおいて重要な実用的関心事である。 本稿では,二つのデシデラタを同時に満たすsimplex-neuplを提案する。 一 単一条件ネットワークに代表される戦略的に多様な基本方針の集団を学習すること。 二 同じネットワークを用いて、基本方針の単純さについて、あらゆる混合に対する最良応答を学習すること。 その結果, 条件付ポリシーは, 対戦相手に関する情報を効果的に取り込み, 任意の混合ポリシーに対して最適に近いリターンを得られることを示した。 このようなポリシーが不確実性の下で最適に振る舞うことを検証し、テスト時にこの柔軟性を使用するための洞察を提供する。 最後に,混合政策への最善の対応を学習することが戦略探索の効果的な補助課題であることを示す。

Learning to play optimally against any mixture over a diverse set of strategies is of important practical interests in competitive games. In this paper, we propose simplex-NeuPL that satisfies two desiderata simultaneously: i) learning a population of strategically diverse basis policies, represented by a single conditional network; ii) using the same network, learn best-responses to any mixture over the simplex of basis policies. We show that the resulting conditional policies incorporate prior information about their opponents effectively, enabling near optimal returns against arbitrary mixture policies in a game with tractable best-responses. We verify that such policies behave Bayes-optimally under uncertainty and offer insights in using this flexibility at test time. Finally, we offer evidence that learning best-responses to any mixture policies is an effective auxiliary task for strategic exploration, which, by itself, can lead to more performant populations.
翻訳日:2022-06-01 13:24:15 公開日:2022-05-31
# hide and seek: ディープラーニングシステムに対する攻撃のステルス性について

Hide and Seek: on the Stealthiness of Attacks against Deep Learning Systems ( http://arxiv.org/abs/2205.15944v1 )

ライセンス: Link先を確認
Zeyan Liu, Fengjun Li, Jingqiang Lin, Zhu Li, Bo Luo(参考訳) 人工知能と機械学習の人気が高まっているため、ディープラーニングモデルに対する幅広い攻撃が文献で提案されている。 脱走攻撃と毒殺攻撃の両方が、敵に変化したサンプルを利用し、被害者のモデルを騙して敵のサンプルを誤分類しようとする。 このような攻撃は、ステルス性、すなわち人間の目には受け入れられないと主張するが、そのような主張はめったに評価されない。 本稿では,深層学習に対する攻撃に使用される敵試料のステルス性に関する最初の大規模研究を行う。 我々は、6つの人気のあるベンチマークデータセットに20の代表的な敵ml攻撃を実装した。 1)画像の類似度や品質評価に24の指標を用いる数値的研究,(2)1000以上の回答から2万以上のアノテーションを収集した3種類のアンケートのユーザ調査,という2つの相補的なアプローチを用いて,攻撃サンプルのステルス性を評価する。 以上の結果から,既存の攻撃のほとんどは,人間の目には盗みのない非無視的摂動をもたらすことが明らかとなった。 我々はさらに、ステルスネス攻撃に寄与する要因を分析する。 さらに, 数値解析とユーザスタディの相関について検討し, 画像品質指標が攻撃設計に有用であることを示すとともに, 画像品質と攻撃の視覚的ステルスネスの間には大きなギャップがあることを示す。

With the growing popularity of artificial intelligence and machine learning, a wide spectrum of attacks against deep learning models have been proposed in the literature. Both the evasion attacks and the poisoning attacks attempt to utilize adversarially altered samples to fool the victim model to misclassify the adversarial sample. While such attacks claim to be or are expected to be stealthy, i.e., imperceptible to human eyes, such claims are rarely evaluated. In this paper, we present the first large-scale study on the stealthiness of adversarial samples used in the attacks against deep learning. We have implemented 20 representative adversarial ML attacks on six popular benchmarking datasets. We evaluate the stealthiness of the attack samples using two complementary approaches: (1) a numerical study that adopts 24 metrics for image similarity or quality assessment; and (2) a user study of 3 sets of questionnaires that has collected 20,000+ annotations from 1,000+ responses. Our results show that the majority of the existing attacks introduce nonnegligible perturbations that are not stealthy to human eyes. We further analyze the factors that contribute to attack stealthiness. We further examine the correlation between the numerical analysis and the user studies, and demonstrate that some image quality metrics may provide useful guidance in attack designs, while there is still a significant gap between assessed image quality and visual stealthiness of attacks.
翻訳日:2022-06-01 13:24:01 公開日:2022-05-31
# 線形関数近似を用いた最小最小オフライン強化学習 : 単一エージェントmdpとマルコフゲーム

Nearly Minimax Optimal Offline Reinforcement Learning with Linear Function Approximation: Single-Agent MDP and Markov Game ( http://arxiv.org/abs/2205.15512v1 )

ライセンス: Link先を確認
Wei Xiong, Han Zhong, Chengshuai Shi, Cong Shen, Liwei Wang, Tong Zhang(参考訳) オフライン強化学習(RL)は、環境とのさらなる相互作用を伴わずに、事前に収集したデータセットを用いて最適な戦略を学ぶことを目的としている。 従来の文献ではオフラインRLに対して様々なアルゴリズムが提案されているが、最小値の最適性能は(ほぼ)表形式マルコフ決定プロセス(MDP)に対してのみ達成されている。 本稿では,線形関数近似を用いたオフラインRLに着目し,SPEVI+とSPMVI+の2つの新しいアルゴリズムを提案する。 提案アルゴリズムは、データ分割機構と新しい分散還元悲観的推定器を慎重に構築する。 理論的解析は、対数的要因までの性能の低い境界をマッチングできることを示した。 副産物として、MGに対して新しいパフォーマンスローバウンドが確立され、既存の結果を締め付ける。 我々の知る限り、これらは線形関数近似を用いたオフライン単エージェントMDPとMGのための計算効率が良く、最小に近いアルゴリズムである。

Offline reinforcement learning (RL) aims at learning an optimal strategy using a pre-collected dataset without further interactions with the environment. While various algorithms have been proposed for offline RL in the previous literature, the minimax optimal performance has only been (nearly) achieved for tabular Markov decision processes (MDPs). In this paper, we focus on offline RL with linear function approximation and propose two new algorithms, SPEVI+ and SPMVI+, for single-agent MDPs and two-player zero-sum Markov games (MGs), respectively. The proposed algorithms feature carefully crafted data splitting mechanisms and novel variance-reduction pessimistic estimators. Theoretical analysis demonstrates that they are capable of matching the performance lower bounds up to logarithmic factors. As a byproduct, a new performance lower bound is established for MGs, which tightens the existing results. To the best of our knowledge, these are the first computationally efficient and nearly minimax optimal algorithms for offline single-agent MDPs and MGs with linear function approximation.
翻訳日:2022-06-01 13:21:50 公開日:2022-05-31
# CLRSアルゴリズム推論ベンチマーク

The CLRS Algorithmic Reasoning Benchmark ( http://arxiv.org/abs/2205.15659v1 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c, Adri\`a Puigdom\`enech Badia, David Budden, Razvan Pascanu, Andrea Banino, Misha Dashevskiy, Raia Hadsell, Charles Blundell(参考訳) アルゴリズムの学習表現は、ニューラルネットワークから古典的なアルゴリズムの概念を橋渡ししようとする機械学習の新しい分野である。 いくつかの重要な研究は、ニューラルネットワークがアルゴリズムのように効果的に推論できるかどうかを調査してきた。 しかし、この分野で一般的な傾向は、特定の仮説を評価するためにターゲットとするアルゴリズムデータを生成し、結果を出版物間で転送しにくくし、参入障壁を増加させることである。 アルゴリズム入門教科書から古典的アルゴリズムをカバーするclrsアルゴリズム推論ベンチマークを提案する。 我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。 これらのタスクにおいて,いくつかのアルゴリズム推論ベースラインがどのように機能するかを実証するために,広範な実験を行い,オープン課題へのリンクを強調する。 私たちのライブラリはhttps://github.com/d eepmind/clrsで簡単に利用できます。

Learning representations of algorithms is an emerging area of machine learning, seeking to bridge concepts from neural networks with classical algorithms. Several important works have investigated whether neural networks can effectively reason like algorithms, typically by learning to execute them. The common trend in the area, however, is to generate targeted kinds of algorithmic data to evaluate specific hypotheses, making results hard to transfer across publications, and increasing the barrier of entry. To consolidate progress and work towards unified evaluation, we propose the CLRS Algorithmic Reasoning Benchmark, covering classical algorithms from the Introduction to Algorithms textbook. Our benchmark spans a variety of algorithmic reasoning procedures, including sorting, searching, dynamic programming, graph algorithms, string algorithms and geometric algorithms. We perform extensive experiments to demonstrate how several popular algorithmic reasoning baselines perform on these tasks, and consequently, highlight links to several open challenges. Our library is readily available at https://github.com/d eepmind/clrs.
翻訳日:2022-06-01 13:21:30 公開日:2022-05-31
# スコーリングルール最小化による生成ニューラルネットワークによる自由度推論

Likelihood-Free Inference with Generative Neural Networks via Scoring Rule Minimization ( http://arxiv.org/abs/2205.15784v1 )

ライセンス: Link先を確認
Lorenzo Pacchiardi and Ritabrata Dutta(参考訳) ベイズ自由度推定法は、難解な可能性を持つシミュレータモデルの後続近似を与える。 近年、多くの研究がニューラルネットワークを訓練して、難易度または後部に直接近似している。 ほとんどの提案では、正規化フロー、すなわち、基底測度からサンプルを変換するために使用される可逆写像をパラメタライズするニューラルネットワークを用いており、変換されたサンプルの確率密度はアクセス可能であり、シミュレーションされたパラメータ-観測ペア上で最大でトレーニングできる。 最近の研究 (Ramesh et al., 2022) では、後部を生成ネットワークで近似し、可逆性要件を低減し、高次元および構造化データにスケールするより柔軟な分布のクラスである。 しかし、生成的ネットワークはパラメータ化された分布からのみサンプリングすることができる。 2022] は、生成ネットワークが「批判的」ネットワークに対してmin-maxゲームを行う敵のトレーニングの共通解に従う。 この手順は不安定であり、学習された分布が不確実性を過小評価する可能性がある。 本稿では,スムーズなトレーニングと不確かさの定量化を実現するために,スコーリングルールの最小化によって訓練された生成ネットワークを後方に近似する手法を提案する。 シミュレーション研究において、スコアリングルールアプローチは、敵の枠組みに関して、より短いトレーニング時間でより良いパフォーマンスをもたらす。

Bayesian Likelihood-Free Inference methods yield posterior approximations for simulator models with intractable likelihood. Recently, many works trained neural networks to approximate either the intractable likelihood or the posterior directly. Most proposals use normalizing flows, namely neural networks parametrizing invertible maps used to transform samples from an underlying base measure; the probability density of the transformed samples is then accessible and the normalizing flow can be trained via maximum likelihood on simulated parameter-observatio n pairs. A recent work [Ramesh et al., 2022] approximated instead the posterior with generative networks, which drop the invertibility requirement and are thus a more flexible class of distributions scaling to high-dimensional and structured data. However, generative networks only allow sampling from the parametrized distribution; for this reason, Ramesh et al. [2022] follows the common solution of adversarial training, where the generative network plays a min-max game against a "critic" network. This procedure is unstable and can lead to a learned distribution underestimating the uncertainty - in extreme cases collapsing to a single point. Here, we propose to approximate the posterior with generative networks trained by Scoring Rule minimization, an overlooked adversarial-free method enabling smooth training and better uncertainty quantification. In simulation studies, the Scoring Rule approach yields better performances with shorter training time with respect to the adversarial framework.
翻訳日:2022-06-01 13:21:13 公開日:2022-05-31
# ワッサーシュタイン勾配流による変分推定

Variational inference via Wasserstein gradient flows ( http://arxiv.org/abs/2205.15902v1 )

ライセンス: Link先を確認
Marc Lambert, Sinho Chewi, Francis Bach, Silv\`ere Bonnabel, Philippe Rigollet(参考訳) マルコフ連鎖モンテカルロ法 (MCMC) とともに、変分推論 (VI) は大規模ベイズ推論における中心的な計算手法として登場した。 真の$\pi$からサンプリングするのではなく、VI は単純だが効果的な近似 $\hat \pi$ to $\pi$ を生成することを目的としており、要約統計は計算が容易である。 しかし、よく研究されているMCMC方法論とは異なり、VIはいまだに理解されておらず、ヒューリスティックスに支配されている。 本研究では, ガウス測度のベレス=ヴァッサーシュタイン空間上の勾配流の理論に従えば, $\hat \pi$ をガウスあるいはガウスの混合とする VI の原理的手法を提案する。 MCMCと同様、$\pi$がlog-concaveである場合、理論上の保証が強い。

Along with Markov chain Monte Carlo (MCMC) methods, variational inference (VI) has emerged as a central computational approach to large-scale Bayesian inference. Rather than sampling from the true posterior $\pi$, VI aims at producing a simple but effective approximation $\hat \pi$ to $\pi$ for which summary statistics are easy to compute. However, unlike the well-studied MCMC methodology, VI is still poorly understood and dominated by heuristics. In this work, we propose principled methods for VI, in which $\hat \pi$ is taken to be a Gaussian or a mixture of Gaussians, which rest upon the theory of gradient flows on the Bures-Wasserstein space of Gaussian measures. Akin to MCMC, it comes with strong theoretical guarantees when $\pi$ is log-concave.
翻訳日:2022-06-01 13:20:47 公開日:2022-05-31
# バイアスの誘発は想像以上にシンプルです

Inducing bias is simpler than you think ( http://arxiv.org/abs/2205.15935v1 )

ライセンス: Link先を確認
Stefano Sarao Mannelli, Federica Gerace, Negar Rostamzadeh, Luca Saglietti(参考訳) 機械学習は人間のバイアスには従わないかもしれないが、その持続性に免疫はない。 マージナライゼーションと不公平なグループ表現は、しばしば訓練に使用されるデータの中でトレース可能であり、学習モデルによって反映または強化される。 これに対抗するために、モデルの精度のいくつかは、特定のタイプのバイアスを防ぐための二次目的のためにトレードオフすることができる。 フェアネスの複数の概念がこの目的のために提案されているが、近年の研究では、フェアネスの基準が互いに競合していることが多いことが示されている。 本研究では,多くのバイアス誘導因子に対するパラメトリック制御により,バイアス継承機構の広範囲な探索が可能となる,可解な高次元データ不均衡モデルを提案する。 統計物理学のツールを通して,合成フレームワークで訓練された学習モデルの典型的な振る舞いを分析的に特徴付け,より現実的なデータで観察されたような不公平な振る舞いを見出す。 しかし,データ内の異なる部分集団間での正の伝達効果も確認した。 このことは、学習モデルがこの構造に気付いていれば、異なる統計特性とデータを混ぜることが役立つことを示唆している。 最後に、バイアス緩和の問題を分析し、トレーニング損失の諸条件を和らげることで、標準不公平度メトリクスを間接的に最小化し、それらの非互換性を強調する。 また,肯定的伝達に関する知見を活用することで,協調学習モデルの導入に基づく理論インフォームド緩和戦略を提案する。 各モデルがデータ内の異なるコミュニティを専門とすることで、複数のフェアネス基準と高い精度を同時に達成できることがわかった。

Machine learning may be oblivious to human bias but it is not immune to its perpetuation. Marginalisation and iniquitous group representation are often traceable in the very data used for training, and may be reflected or even enhanced by the learning models. To counter this, some of the model accuracy can be traded off for a secondary objective that helps prevent a specific type of bias. Multiple notions of fairness have been proposed to this end but recent studies show that some fairness criteria often stand in mutual competition. In the present work, we introduce a solvable high-dimensional model of data imbalance, where parametric control over the many bias-inducing factors allows for an extensive exploration of the bias inheritance mechanism. Through the tools of statistical physics, we analytically characterise the typical behaviour of learning models trained in our synthetic framework and find similar unfairness behaviours as those observed on more realistic data. However, we also identify a positive transfer effect between the different subpopulations within the data. This suggests that mixing data with different statistical properties could be helpful, provided the learning model is made aware of this structure. Finally, we analyse the issue of bias mitigation: by reweighing the various terms in the training loss, we indirectly minimise standard unfairness metrics and highlight their incompatibilities. Leveraging the insights on positive transfer, we also propose a theory-informed mitigation strategy, based on the introduction of coupled learning models. By allowing each model to specialise on a different community within the data, we find that multiple fairness criteria and high accuracy can be achieved simultaneously.
翻訳日:2022-06-01 13:20:35 公開日:2022-05-31
# 単純な生成モデルを学ぶのは難しい

Learning (Very) Simple Generative Models Is Hard ( http://arxiv.org/abs/2205.16003v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Yuanzhi Li(参考訳) 近年の深層生成モデルの実証的成功に触発され, 以下の教師なし学習問題の計算複雑性について検討した。 未知のニューラルネットワーク $f:\mathbb{r}^d\to\mathbb{r}^{d'}$ に対して、$d$ を標準のガウス的$\mathcal{n}(0,\textrm{id}_d)$ を$f$ で押すことによって与えられる$\mathbb{r}^{d'}$ の分布とする。 d$からのi.i.d.サンプルを考えると、目標はd$に近い分布を統計距離で出力することである。 統計的クエリ(SQ)モデルでは、$F$の出力座標が$\log(d)$ニューロンを持つ1層ReLUネットワークであっても、多項式時間アルゴリズムではこの問題を解決できない。 これまで、この問題の最良の下限は単に教師付き学習の下位境界から導かれ、少なくとも2つの隠れた層と$\mathrm{poly}(d)$ neurons [Daniely-Vardi '21, Chen-Gollakota-Kliva ns-Meka '22]が必要だった。 この証明の鍵となる要素は、コンパクトに支持された分割線形関数 $f$ を多項式境界の傾斜で構成することであり、$f$ 以下のプッシュフォワードは$\mathcal{n}(0,1)$ のすべての低次モーメントに一致する。

Motivated by the recent empirical successes of deep generative models, we study the computational complexity of the following unsupervised learning problem. For an unknown neural network $F:\mathbb{R}^d\to\mathbb{R}^{d'}$, let $D$ be the distribution over $\mathbb{R}^{d'}$ given by pushing the standard Gaussian $\mathcal{N}(0,\textrm{Id}_d)$ through $F$. Given i.i.d. samples from $D$, the goal is to output any distribution close to $D$ in statistical distance. We show under the statistical query (SQ) model that no polynomial-time algorithm can solve this problem even when the output coordinates of $F$ are one-hidden-layer ReLU networks with $\log(d)$ neurons. Previously, the best lower bounds for this problem simply followed from lower bounds for supervised learning and required at least two hidden layers and $\mathrm{poly}(d)$ neurons [Daniely-Vardi '21, Chen-Gollakota-Kliva ns-Meka '22]. The key ingredient in our proof is an ODE-based construction of a compactly supported, piecewise-linear function $f$ with polynomially-bounded slopes such that the pushforward of $\mathcal{N}(0,1)$ under $f$ matches all low-degree moments of $\mathcal{N}(0,1)$.
翻訳日:2022-06-01 13:20:07 公開日:2022-05-31
# (参考訳) vq-ar:ベクトル量子化自己回帰確率時系列予測 [全文訳有]

VQ-AR: Vector Quantized Autoregressive Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2205.15894v1 )

ライセンス: CC BY 4.0
Kashif Rasul, Young-Jin Park, Max Nihl\'en Ramstr\"om, Kyung-Min Kim(参考訳) 時系列モデルは過去の予測を正確に予測することを目的としており、予測はビジネス意思決定のような下流の重要なタスクに使用される。 実際には、深層学習に基づく時系列モデルは、多くの形式があるが、高いレベルでは過去の連続的な表現を学び、それを点や確率予測の出力に利用する。 本稿では,新しい自己回帰型アーキテクチャであるVQ-ARを導入し,その代わりに未来を予測するために使用される表現のemph{discrete}集合を学習する。 他の競争的深層学習モデルと比較すると、驚くほど離散的な表現セットは、様々な時系列データセットに最先端または同等の結果をもたらす。 また,このアプローチの欠点を浮き彫りにし,ゼロショット一般化能力について検討し,表現数に関するアブレーション研究を行った。 この方法の完全なソースコードは公開時点で利用可能になる予定で、研究者はこの重要なが見過ごされている時系列領域の帰納的バイアスをさらに調査できることを期待している。

Time series models aim for accurate predictions of the future given the past, where the forecasts are used for important downstream tasks like business decision making. In practice, deep learning based time series models come in many forms, but at a high level learn some continuous representation of the past and use it to output point or probabilistic forecasts. In this paper, we introduce a novel autoregressive architecture, VQ-AR, which instead learns a \emph{discrete} set of representations that are used to predict the future. Extensive empirical comparison with other competitive deep learning models shows that surprisingly such a discrete set of representations gives state-of-the-art or equivalent results on a wide variety of time series datasets. We also highlight the shortcomings of this approach, explore its zero-shot generalization capabilities, and present an ablation study on the number of representations. The full source code of the method will be available at the time of publication with the hope that researchers can further investigate this important but overlooked inductive bias for the time series domain.
翻訳日:2022-06-01 13:17:50 公開日:2022-05-31
# MACE: 対実的説明のための効率的なモデルに依存しないフレームワーク

MACE: An Efficient Model-Agnostic Framework for Counterfactual Explanation ( http://arxiv.org/abs/2205.15540v1 )

ライセンス: Link先を確認
Wenzhuo Yang and Jia Li and Caiming Xiong and Steven C.H. Hoi(参考訳) 事実的説明は、機械学習の予測を説明するための重要な説明可能なAI技術である。 活発に研究されているにもかかわらず、既存の最適化ベースの手法では、基礎となる機械学習モデルは微分可能であり、分類属性を連続的なものとして扱うことがしばしば想定されている。 実世界の応用に適した反現実的説明を行うために,多数の特徴値に基づいて非微分不可能な機械学習モデルを効率的に処理できるパイプラインを新たに設計したMACE(Model-Agnostic Counterfactual Explanation)を提案する。 MACEアプローチでは,優れた反実例を見つけるための新しいRL法と,近接性を改善するための勾配のない降下法を提案する。 公開データセットの実験は、有効性、空間性、近接性を向上して検証する。

Counterfactual explanation is an important Explainable AI technique to explain machine learning predictions. Despite being studied actively, existing optimization-based methods often assume that the underlying machine-learning model is differentiable and treat categorical attributes as continuous ones, which restricts their real-world applications when categorical attributes have many different values or the model is non-differentiable. To make counterfactual explanation suitable for real-world applications, we propose a novel framework of Model-Agnostic Counterfactual Explanation (MACE), which adopts a newly designed pipeline that can efficiently handle non-differentiable machine-learning models on a large number of feature values. in our MACE approach, we propose a novel RL-based method for finding good counterfactual examples and a gradient-less descent method for improving proximity. Experiments on public datasets validate the effectiveness with better validity, sparsity and proximity.
翻訳日:2022-06-01 12:53:59 公開日:2022-05-31
# 機械学習に基づく疾患予防のための個別健康・退院相図

Individual health-disease phase diagrams for disease prevention based on machine learning ( http://arxiv.org/abs/2205.15598v1 )

ライセンス: Link先を確認
Kazuki Nakamura, Eiichiro Uchino, Noriaki Sato, Ayano Araki, Kei Terayama, Ryosuke Kojima, Koichi Murashita, Ken Itoh, Tatsuya Mikami, Yoshinori Tamada and Yasushi Okuno(参考訳) 効果的な介入に基づく早期疾患の検出と予防方法が注目されている。 機械学習技術は、多変量データの個人差を捉えることによって、正確な疾患予測を可能にした。 精密医療の進歩は、個々のレベルでの健康データにかなりの不均一性が存在し、慢性疾患の発生に複雑な健康要因が関与していることを明らかにしている。 しかし, 複数のバイオマーカー間の複雑な関係から, クロスダイザス発症過程における個々の生理的変化を同定することが課題である。 本稿では,疾患進行過程の初期に変動する複数のバイオマーカーの境界値を可視化することにより,個人の健康状態を表す健康診断位相図(hdpd)を提案する。 HDPDでは、将来の発症予測は変数間の依存関係を考慮しながら複数のバイオマーカー値の摂動によって表現される。 我々は3,238人の縦断健康診査コホートから,11の非感染性疾患(NCD)のHDPDを構築した。 HDPDの非発症領域に対するバイオマーカー値の改善は11NCD中7NCDの発症を著しく妨げた。 以上の結果から,HDPDは発症過程における個々の生理的状態を表わし,疾患予防の介入目標として使用できることが示された。

Early disease detection and prevention methods based on effective interventions are gaining attention. Machine learning technology has enabled precise disease prediction by capturing individual differences in multivariate data. Progress in precision medicine has revealed that substantial heterogeneity exists in health data at the individual level and that complex health factors are involved in the development of chronic diseases. However, it remains a challenge to identify individual physiological state changes in cross-disease onset processes because of the complex relationships among multiple biomarkers. Here, we present the health-disease phase diagram (HDPD), which represents a personal health state by visualizing the boundary values of multiple biomarkers that fluctuate early in the disease progression process. In HDPDs, future onset predictions are represented by perturbing multiple biomarker values while accounting for dependencies among variables. We constructed HDPDs for 11 non-communicable diseases (NCDs) from a longitudinal health checkup cohort of 3,238 individuals, comprising 3,215 measurement items and genetic data. Improvement of biomarker values to the non-onset region in HDPD significantly prevented future disease onset in 7 out of 11 NCDs. Our results demonstrate that HDPDs can represent individual physiological states in the onset process and be used as intervention goals for disease prevention.
翻訳日:2022-06-01 12:53:44 公開日:2022-05-31
# マルチタスク帯域とMDPにおける確率的一般関数クラス表現学習

Provable General Function Class Representation Learning in Multitask Bandits and MDPs ( http://arxiv.org/abs/2205.15701v1 )

ライセンス: Link先を確認
Rui Lu, Andrew Zhao, Simon S. Du, Gao Huang(参考訳) マルチタスク表現学習は、サンプル効率を高めるために強化学習(RL)において一般的なアプローチとなっているが、その理由と動作方法に関する理論的理解はまだ限られている。 一般関数クラス表現の分析は、一般化保証や抽象関数空間に束縛された信頼の定式化といった非自明な技術的障害に遭遇するためである。 しかしながら、線形ケース解析は線形関数クラスの特異性に大きく依存するが、現実の実践は通常、ニューラルネットワークのような一般的な非線形表現関数を採用する。 これにより適用性が大幅に低下する。 本研究では,解析結果を一般関数クラス表現に拡張する。 具体的には、提案した汎関数的上部信頼境界アルゴリズム(GFUCB)を用いて、M$コンテキスト帯域幅(MDP)を同時に演奏し、共有表現関数$\phi$を特定の関数クラス$\Phi$から抽出するエージェントについて検討する。 バンディットと線形mdpの一般関数クラスにおけるマルチタスク表現学習の利点を初めて理論的に検証した。 最後に,ニューラルネット表現を用いたアルゴリズムの有効性を示す実験を行った。

While multitask representation learning has become a popular approach in reinforcement learning (RL) to boost the sample efficiency, the theoretical understanding of why and how it works is still limited. Most previous analytical works could only assume that the representation function is already known to the agent or from linear function class, since analyzing general function class representation encounters non-trivial technical obstacles such as generalization guarantee, formulation of confidence bound in abstract function space, etc. However, linear-case analysis heavily relies on the particularity of linear function class, while real-world practice usually adopts general non-linear representation functions like neural networks. This significantly reduces its applicability. In this work, we extend the analysis to general function class representations. Specifically, we consider an agent playing $M$ contextual bandits (or MDPs) concurrently and extracting a shared representation function $\phi$ from a specific function class $\Phi$ using our proposed Generalized Functional Upper Confidence Bound algorithm (GFUCB). We theoretically validate the benefit of multitask representation learning within general function class for bandits and linear MDP for the first time. Lastly, we conduct experiments to demonstrate the effectiveness of our algorithm with neural net representation.
翻訳日:2022-06-01 12:53:25 公開日:2022-05-31
# HyperMAML: HypernetworksによるDeep ModelのFew-Shot Adaptation

HyperMAML: Few-Shot Adaptation of Deep Models with Hypernetworks ( http://arxiv.org/abs/2205.15745v1 )

ライセンス: Link先を確認
M. Przewi\k{e}\'zlikowski, P. Przybysz, J. Tabor, M. Zi\k{e}ba, P. Spurek(参考訳) 少数ショット学習の目標は、少量のデータに基づいて、未発見のタスクに容易に適応できるモデルを訓練することである。 最も人気がありエレガントなFew-Shot学習アプローチの1つは、モデルに依存しないメタラーニング(MAML)である。 この手法の背後にある主なアイデアは、少数の勾配ステップで特定の問題にさらに適応するメタモデルの一般的な重みを学習することである。 しかし、モデルの主な制限は、勾配に基づく最適化によって更新手順が実現されるという事実にある。 結果として、MAMLは、1回または数回の勾配反復において、常に重みを必須レベルに修正することはできない。 一方で、多くの勾配ステップを使用することで、複雑で時間を要する最適化手順が実現し、実際には訓練が難しく、過度に適合する可能性がある。 本稿では,更新手順のトレーニングをモデルの一部として行う,新しいMAMLの一般化であるHyperMAMLを提案する。 すなわち、HyperMAMLでは、勾配降下で重みを更新するのではなく、トレーニング可能なHypernetworkを使用する。 したがって、このフレームワークでは、一定数の勾配ステップに限定されない重要な更新を生成することができる。 実験によると、HyperMAMLは一貫してMAMLより優れており、多くの標準的なFew-Shot学習ベンチマークで他の最先端技術と互換性がある。

The aim of Few-Shot learning methods is to train models which can easily adapt to previously unseen tasks, based on small amounts of data. One of the most popular and elegant Few-Shot learning approaches is Model-Agnostic Meta-Learning (MAML). The main idea behind this method is to learn the general weights of the meta-model, which are further adapted to specific problems in a small number of gradient steps. However, the model's main limitation lies in the fact that the update procedure is realized by gradient-based optimisation. In consequence, MAML cannot always modify weights to the essential level in one or even a few gradient iterations. On the other hand, using many gradient steps results in a complex and time-consuming optimization procedure, which is hard to train in practice, and may lead to overfitting. In this paper, we propose HyperMAML, a novel generalization of MAML, where the training of the update procedure is also part of the model. Namely, in HyperMAML, instead of updating the weights with gradient descent, we use for this purpose a trainable Hypernetwork. Consequently, in this framework, the model can generate significant updates whose range is not limited to a fixed number of gradient steps. Experiments show that HyperMAML consistently outperforms MAML and performs comparably to other state-of-the-art techniques in a number of standard Few-Shot learning benchmarks.
翻訳日:2022-06-01 12:53:01 公開日:2022-05-31
# リワードマシンの階層性

Hierarchies of Reward Machines ( http://arxiv.org/abs/2205.15752v1 )

ライセンス: Link先を確認
Daniel Furelos-Blanco, Mark Law, Anders Jonsson, Krysia Broda, Alessandra Russo(参考訳) Reward Machine(RM)は、高レベルイベントを用いてタスクのランドマークを符号化した有限状態マシンを通じて強化学習タスクの報酬関数を表現するための最近の形式である。 RMの構造は、タスクを単純かつ独立に解けるサブタスクに分解し、長い水平および/またはスパース報酬タスクに取り組むのに役立つ。 本稿では,RMを他のRMを呼ばせることによってサブタスク構造をさらに抽象化するフォーマリズムを提案し,RMの階層構造を構成する。 我々は、オプションフレームワークを用いてRMへの各呼び出しを独立して解決可能なサブタスクとして扱い、エージェントが観察したサンプルトレースからHRMを誘導するカリキュラムベースの方法を記述する。 実験の結果,手作りのHRMを活用すれば,平らなHRMよりも収束が早くなり,等価な平らなHRMを学習するよりも,HRMの学習がスケーラブルであることが判明した。

Reward machines (RMs) are a recent formalism for representing the reward function of a reinforcement learning task through a finite-state machine whose edges encode landmarks of the task using high-level events. The structure of RMs enables the decomposition of a task into simpler and independently solvable subtasks that help tackle long-horizon and/or sparse reward tasks. We propose a formalism for further abstracting the subtask structure by endowing an RM with the ability to call other RMs, thus composing a hierarchy of RMs (HRM). We exploit HRMs by treating each call to an RM as an independently solvable subtask using the options framework, and describe a curriculum-based method to induce HRMs from example traces observed by the agent. Our experiments reveal that exploiting a handcrafted HRM leads to faster convergence than with a flat HRM, and that learning an HRM is more scalable than learning an equivalent flat HRM.
翻訳日:2022-06-01 12:52:40 公開日:2022-05-31
# 運が良くない: 確率的環境において、意思決定のトランスフォーマーが失敗する理由

You Can't Count on Luck: Why Decision Transformers Fail in Stochastic Environments ( http://arxiv.org/abs/2205.15967v1 )

ライセンス: Link先を確認
Keiran Paster and Sheila McIlraith and Jimmy Ba(参考訳) 近年、予測タスクへの強化学習を削減し、教師付き学習(supervised learning:rvs)によって解決する決定トランスフォーマーなどの手法が、その単純さ、ハイパーパラメータへの堅牢性、オフラインrlタスクにおける全体的なパフォーマンスの強化などにより人気を集めている。 しかし、単に所望の回帰を確率モデルに条件付けし、予測された作用を取ることは、確率的環境では劇的に失敗する可能性がある。 本稿では,確率環境におけるRvSアプローチの限界について述べ,その解決策を提案する。 従来の手法のように単一軌道の戻りを単に条件づけるのではなく,提案手法であるESPERは,環境確率から独立した平均クラスタリターンにおけるクラスタトラジェクトリと条件を学習する。 そうすることでESPERは、実際の環境での目標リターンと期待されるパフォーマンスの強いアライメントを達成することができる。 難解なパズルゲーム2048や、確率的相手と対戦するConnect Fourなど、難解なオフラインRLタスクでこれを実証する。 テスト対象のすべてのドメインにおいて、ESPERはリターンを単に条件付けするよりも、ターゲットのリターンとリターンの間のアライメントが大幅に向上する。 ESPERは値ベースのベースラインよりも高い最大パフォーマンスを実現している。

Recently, methods such as Decision Transformer that reduce reinforcement learning to a prediction task and solve it via supervised learning (RvS) have become popular due to their simplicity, robustness to hyperparameters, and strong overall performance on offline RL tasks. However, simply conditioning a probabilistic model on a desired return and taking the predicted action can fail dramatically in stochastic environments since trajectories that result in a return may have only achieved that return due to luck. In this work, we describe the limitations of RvS approaches in stochastic environments and propose a solution. Rather than simply conditioning on the return of a single trajectory as is standard practice, our proposed method, ESPER, learns to cluster trajectories and conditions on average cluster returns, which are independent from environment stochasticity. Doing so allows ESPER to achieve strong alignment between target return and expected performance in real environments. We demonstrate this in several challenging stochastic offline-RL tasks including the challenging puzzle game 2048, and Connect Four playing against a stochastic opponent. In all tested domains, ESPER achieves significantly better alignment between the target return and achieved return than simply conditioning on returns. ESPER also achieves higher maximum performance than even the value-based baselines.
翻訳日:2022-06-01 12:51:26 公開日:2022-05-31
# 機能空間分割による共有カーネルモデルの教師付きem学習の改善

Improvements to Supervised EM Learning of Shared Kernel Models by Feature Space Partitioning ( http://arxiv.org/abs/2205.15304v1 )

ライセンス: Link先を確認
Graham W. Pulford(参考訳) 予測最大化(EM)は通常、混合分布のパラメータを推定する教師なし学習法として考えられているが、クラスラベルが利用可能であれば教師なし学習にも利用できる。 そのため、EMは確率的ラジアル基底関数(PRBF)ネットワークや共有カーネル(SK)モデルを含むニューラルネットワークのトレーニングに応用されている。 本稿では、EMトレーニングアルゴリズムの導出における厳密さの欠如と、低次元データセットに制限された手法の計算複雑性の2点について述べる。 まず,gaussian shared kernel model prbf分類器のためのemの詳細な導出を行い,データ関連理論を用いてbaumの補助関数(e-step)とそれに続く最大化(m-step)の完全なデータ度を求める。 結果のSKEMアルゴリズムの複雑さを軽減するために、特徴空間を変数の非重複部分集合$R$に分割する。 その結果、機能分割が独立であるときに正確であるジョイントデータ度を分解することで、skumは並列に実装でき、r^2$倍の複雑さで実装できる。 分割されたSKEMアルゴリズムの動作は、MNISTデータセット上で実証され、その非分割されたアルゴリズムと比較される。 複雑さの低減によるパフォーマンスの向上は実現可能である。 標準分類アルゴリズムとの比較は、他の多くのベンチマークデータセットで提供されている。

Expectation maximisation (EM) is usually thought of as an unsupervised learning method for estimating the parameters of a mixture distribution, however it can also be used for supervised learning when class labels are available. As such, EM has been applied to train neural nets including the probabilistic radial basis function (PRBF) network or shared kernel (SK) model. This paper addresses two major shortcomings of previous work in this area: the lack of rigour in the derivation of the EM training algorithm; and the computational complexity of the technique, which has limited it to low dimensional data sets. We first present a detailed derivation of EM for the Gaussian shared kernel model PRBF classifier, making use of data association theory to obtain the complete data likelihood, Baum's auxiliary function (the E-step) and its subsequent maximisation (M-step). To reduce complexity of the resulting SKEM algorithm, we partition the feature space into $R$ non-overlapping subsets of variables. The resulting product decomposition of the joint data likelihood, which is exact when the feature partitions are independent, allows the SKEM to be implemented in parallel and at $R^2$ times lower complexity. The operation of the partitioned SKEM algorithm is demonstrated on the MNIST data set and compared with its non-partitioned counterpart. It eventuates that improved performance at reduced complexity is achievable. Comparisons with standard classification algorithms are provided on a number of other benchmark data sets.
翻訳日:2022-06-01 12:51:03 公開日:2022-05-31
# 効率的な探索による予測による静的スケジューリング

Static Scheduling with Predictions Learned through Efficient Exploration ( http://arxiv.org/abs/2205.15695v1 )

ライセンス: Link先を確認
Hugo Richard, Flore Sentenac, Corentin Odic, Mathieu Molina, Vianney Perchet(参考訳) オンラインアルゴリズムの最悪のケース解析を超越する一般的なアプローチは、パフォーマンスを改善するために活用できる予測の存在を仮定することです。 これらの予測は通常、完全に信頼できない外部ソースによって与えられる。 その代わり、信頼できる予測は、実行中にアルゴリズムによって構築できると主張する。 指数関数的なジョブサイズを持つ静的スケジューリングの例示的文脈で,この概念を考察する。 実際、この構造に非依存なアルゴリズムは最悪の場合よりも性能が良くないことを示す。 対照的に、期待されるジョブサイズが分かっている場合、この情報を利用する最良のアルゴリズムであるFollow-The-Perfect-P rediction (FTPP)は、はるかに優れたパフォーマンスを示す。 次に,2つの適応型探索型アルゴリズムを導入する。2つのアルゴリズムは,それぞれが(部分的に)期待されるジョブサイズを学習し,自己予測が十分に自信があればftppをフォローする。 一方、ETCUは「シリーズ」を探索し、連続的に仕事を完了して情報を取得する。 一方、最短ケースアルゴリズムであるラウンドロビン(RR)にインスパイアされたETCRRは、「並列」を効率的に探索する。 ETCRRよりも速い速度でFTPPの性能に漸近的に到達することが証明された。 これらの結果は合成データで実証的に評価される。

A popular approach to go beyond the worst-case analysis of online algorithms is to assume the existence of predictions that can be leveraged to improve performances. Those predictions are usually given by some external sources that cannot be fully trusted. Instead, we argue that trustful predictions can be built by algorithms, while they run. We investigate this idea in the illustrative context of static scheduling with exponential job sizes. Indeed, we prove that algorithms agnostic to this structure do not perform better than in the worst case. In contrast, when the expected job sizes are known, we show that the best algorithm using this information, called Follow-The-Perfect-P rediction (FTPP), exhibits much better performances. Then, we introduce two adaptive explore-then-commit types of algorithms: they both first (partially) learn expected job sizes and then follow FTPP once their self-predictions are confident enough. On the one hand, ETCU explores in "series", by completing jobs sequentially to acquire information. On the other hand, ETCRR, inspired by the optimal worst-case algorithm Round-Robin (RR), explores efficiently in "parallel". We prove that both of them asymptotically reach the performances of FTPP, with a faster rate for ETCRR. Those findings are empirically evaluated on synthetic data.
翻訳日:2022-06-01 12:50:38 公開日:2022-05-31
# Recourseを提供する属性ベースの説明はロバストではない

Attribution-based Explanations that Provide Recourse Cannot be Robust ( http://arxiv.org/abs/2205.15834v1 )

ライセンス: Link先を確認
Hidde Fokkema, Rianne de Heide, Tim van Erven(参考訳) 異なる機械学習のユーザは、目的に応じて異なる説明を必要とする。 機械学習を社会に説明責任を持たせるためには、recourseのアクション可能なオプションを得ることが重要な目標だ。これにより、影響を受けるユーザーが入力である$x$を限定的に変更することで、マシンラーニングシステムの$f(x)$を変更できるようになる。 我々は、リコメンデーションの感度の一般的な定義を提供することでこれを形式化する。これは、どの決定がユーザに関連するかを記述するユーティリティ関数でインスタンス化する必要がある。 この定義は各入力特徴に重要な重みを持つ局所帰属法に適用される。 このような局所帰属は、説明されている入力$x$の小さな変更が、機能重みに大きな変化を引き起こすべきではないという意味で、堅牢であるべきである、としばしば主張される。 しかし, 一つの帰属法が, 相互に敏感かつ頑健に同時に行うことは, 一般に不可能であることを示す。 これらの性質の少なくとも1つに対して、常に反例が存在することが従う。 我々は、LIME、SHAP、Integrated Gradients、SmoothGradなど、いくつかの一般的な属性手法に対する反例を提供する。 私たちの結果は、x$の摂動を記述する帰属と見なされる反事実的説明もカバーしています。 さらに、出力が複数の属性を持つ集合から成り立つことを許すことで、不可能な結果を回避できる可能性についても論じる。 最後に、ユーザがx の1つの属性だけを変更できる制限された場合の可視性は、不視性を適用する関数 $f$ を正確に特徴づけることによって強化する。

Different users of machine learning methods require different explanations, depending on their goals. To make machine learning accountable to society, one important goal is to get actionable options for recourse, which allow an affected user to change the decision $f(x)$ of a machine learning system by making limited changes to its input $x$. We formalize this by providing a general definition of recourse sensitivity, which needs to be instantiated with a utility function that describes which changes to the decisions are relevant to the user. This definition applies to local attribution methods, which attribute an importance weight to each input feature. It is often argued that such local attributions should be robust, in the sense that a small change in the input $x$ that is being explained, should not cause a large change in the feature weights. However, we prove formally that it is in general impossible for any single attribution method to be both recourse sensitive and robust at the same time. It follows that there must always exist counterexamples to at least one of these properties. We provide such counterexamples for several popular attribution methods, including LIME, SHAP, Integrated Gradients and SmoothGrad. Our results also cover counterfactual explanations, which may be viewed as attributions that describe a perturbation of $x$. We further discuss possible ways to work around our impossibility result, for instance by allowing the output to consist of sets with multiple attributions. Finally, we strengthen our impossibility result for the restricted case where users are only able to change a single attribute of x, by providing an exact characterization of the functions $f$ to which impossibility applies.
翻訳日:2022-06-01 12:50:17 公開日:2022-05-31
# (参考訳) ウズベク地方のレストランレビューに基づく感情分析 [全文訳有]

Uzbek Sentiment Analysis based on local Restaurant Reviews ( http://arxiv.org/abs/2205.15930v1 )

ライセンス: CC BY 4.0
Sanatbek Matlatipov, Hulkar Rahimboeva, Jaloliddin Rajabov, Elmurod Kuriyozov(参考訳) 感情分析や分類問題のための有用な情報を、レストランレビューなどの大量のユーザー生成フィードバックから抽出することは、自然言語処理の重要なタスクであり、パーソナライズされたサービスを提供できる顧客満足だけでなく、企業のさらなる発展にも影響を及ぼす可能性がある。 本稿では,低リソース制約の影響を受けやすいトルコ語族であるウズベク語に対する感情分析データセットとしてレストランレビューデータを収集し,ロジスティック回帰モデルからベクターマシン,さらにはリカレントニューラルネットワークや畳み込みニューラルネットワークなどの深層学習モデルまで,さまざまな手法を用いて,新たなデータセットのさらなる分析を行う。 本論文は,データの収集方法,品質最適化のための事前処理方法,評価プロセスの実験的な設定について,詳細な情報を含む。 総合評価の結果, 凝集度の高い言語に対するstemなどの前処理ステップを行うことで, システムの性能が向上し, 最終的に91%の精度が得られることがわかった。

Extracting useful information for sentiment analysis and classification problems from a big amount of user-generated feedback, such as restaurant reviews, is a crucial task of natural language processing, which is not only for customer satisfaction where it can give personalized services, but can also influence the further development of a company. In this paper, we present a work done on collecting restaurant reviews data as a sentiment analysis dataset for the Uzbek language, a member of the Turkic family which is heavily affected by the low-resource constraint, and provide some further analysis of the novel dataset by evaluation using different techniques, from logistic regression based models, to support vector machines, and even deep learning models, such as recurrent neural networks, as well as convolutional neural networks. The paper includes detailed information on how the data was collected, how it was pre-processed for better quality optimization, as well as experimental setups for the evaluation process. The overall evaluation results indicate that by performing pre-processing steps, such as stemming for agglutinative languages, the system yields better results, eventually achieving 91% accuracy result in the best performing model
翻訳日:2022-06-01 12:47:21 公開日:2022-05-31
# データ効率ganトレーニングのための拡張認識自己スーパービジョン

Augmentation-Aware Self-Supervision for Data-Efficient GAN Training ( http://arxiv.org/abs/2205.15677v1 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Huawei Shen, Siyuan Pan, Xiaoshuang Li, Xueqi Cheng(参考訳) 限られたデータで生成的敵ネットワーク(GAN)を訓練することは価値があるが、差別者はそのような状況では過度に適合しがちである。 近年, 識別器の識別可能データ拡張技術により, GANの学習効率が向上した。 しかし、ナイーブなデータ拡張は、識別器に不要な不変性を導入する。 この不変性は、判別器の表現学習能力を低下させ、生成器の生成的モデリング性能に影響を及ぼす可能性がある。 データ拡張の利点を継承しながら不変性を軽減するために,拡張データとオリジナルデータから拡張パラメータを予測する新しい拡張認識自己教師付き判別器を提案する。 また, 実データと生成データとの識別は, 訓練中に異なるため, 予測タスクが要求される。 さらに,拡張予測可能な実データを生成することにより,提案する判別器から学習を促す。 提案手法を,CIFAR-10/100上のクラス条件のBigGANと非条件のStyleGAN2アーキテクチャにまたがる最新技術と比較した。 実験の結果,データ効率のよいGANを学習するための競合手法に比べて,提案手法の生成性能が大幅に向上した。

Training generative adversarial networks (GANs) with limited data is valuable but challenging because discriminators are prone to over-fitting in such situations. Recently proposed differentiable data augmentation techniques for discriminators demonstrate improved data efficiency of training GANs. However, the naive data augmentation introduces undesired invariance to augmentation into the discriminator. The invariance may degrade the representation learning ability of the discriminator, thereby affecting the generative modeling performance of the generator. To mitigate the invariance while inheriting the benefits of data augmentation, we propose a novel augmentation-aware self-supervised discriminator that predicts the parameter of augmentation given the augmented and original data. Moreover, the prediction task is required to distinguishable between real data and generated data since they are different during training. We further encourage the generator to learn from the proposed discriminator by generating augmentation-predict able real data. We compare the proposed method with state-of-the-arts across the class-conditional BigGAN and unconditional StyleGAN2 architectures on CIFAR-10/100 and several low-shot datasets, respectively. Experimental results show a significantly improved generation performance of our method over competing methods for training data-efficient GANs.
翻訳日:2022-06-01 12:31:54 公開日:2022-05-31
# 自動関係認識グラフネットワークの増殖

Automatic Relation-aware Graph Network Proliferation ( http://arxiv.org/abs/2205.15678v1 )

ライセンス: Link先を確認
Shaofei Cai, Liang Li, Xinzhe Han, Jiebo Luo, Zheng-Jun Zha, Qingming Huang(参考訳) グラフニューラルネットワーク(GNN)は多くのリレーショナルタスクにおいて強力な推論能力を示しているため、グラフニューラルネットワーク検索が注目を集めている。 しかし、現在使われているグラフ検索空間は、学習ノードの機能を強調し、階層的関係情報のマイニングを無視している。 さらに、メッセージパッシングの様々なメカニズムのため、グラフ検索空間はcnnのそれよりもはるかに大きい。 これは、複雑なグラフ探索空間を探索する古典的な探索戦略の直接的な応用を妨げる。 関係誘導型メッセージパッシング機構を用いて,GNNを効率的に検索するためのARGNP(Automatic Relation-Aware Graph Network Proliferation)を提案する。 具体的には、まずノードと関係学習操作の両方からなる、新しい二重関係認識グラフ探索空間を考案する。 これらの操作は、階層的なノード/リレーショナル情報を抽出し、グラフ上のメッセージパッシングの異方性ガイダンスを提供することができる。 第2に、細胞増殖に類似したネットワーク拡散探索パラダイムを設計し、ネットワーク分割と分化を反復的に行うことにより、GNNアーキテクチャを段階的に決定する。 4つのグラフ学習タスクのための6つのデータセットに対する実験により、我々の手法で作成したGNNは、現在最先端の手作りおよび検索に基づくGNNよりも優れていることが示された。 コードはhttps://github.com/p hython96/argnpで入手できる。

Graph neural architecture search has sparked much attention as Graph Neural Networks (GNNs) have shown powerful reasoning capability in many relational tasks. However, the currently used graph search space overemphasizes learning node features and neglects mining hierarchical relational information. Moreover, due to diverse mechanisms in the message passing, the graph search space is much larger than that of CNNs. This hinders the straightforward application of classical search strategies for exploring complicated graph search space. We propose Automatic Relation-aware Graph Network Proliferation (ARGNP) for efficiently searching GNNs with a relation-guided message passing mechanism. Specifically, we first devise a novel dual relation-aware graph search space that comprises both node and relation learning operations. These operations can extract hierarchical node/relational information and provide anisotropic guidance for message passing on a graph. Second, analogous to cell proliferation, we design a network proliferation search paradigm to progressively determine the GNN architectures by iteratively performing network division and differentiation. The experiments on six datasets for four graph learning tasks demonstrate that GNNs produced by our method are superior to the current state-of-the-art hand-crafted and search-based GNNs. Codes are available at https://github.com/p hython96/ARGNP.
翻訳日:2022-06-01 12:31:33 公開日:2022-05-31
# 自己教師付きグラフ表現学習のためのOmni-Granular Ego-Semantic Propagation

Omni-Granular Ego-Semantic Propagation for Self-Supervised Graph Representation Learning ( http://arxiv.org/abs/2205.15746v1 )

ライセンス: Link先を確認
Ling Yang, Shenda Hong(参考訳) 下流ノードとグラフレベルの分類タスクでは,教師なし/自己教師付きグラフ表現学習が重要である。 グラフのグローバル構造は表現の識別に役立ち、既存の手法は追加の監督を課すことでグローバル構造を主に活用している。 しかしながら、グローバルセマンティクスは通常すべてのノード/グラフに対して不変であり、表現を豊かにするためにグローバルセマンティクスを明示的に埋め込むことができない。 本稿では,Omni-Granular Ego-Semantic Propagation for Self-Supervised Graph Representation Learning (OEPG)を提案する。 具体的には、グラフデータセット全体のノード/グラフと階層的グローバルクラスタ間の1階と2階の特徴差を利用した、インスタンス適応型グローバルアウェアなエゴセマンティックディスクリプタを提案する。 ディスクリプタは新しい隣接ノードとして、ローカルグラフ畳み込みに明示的に統合することができる。 さらに,全粒正規化をエゴ・セマンティクスの全体スケールと階層上で設計し,各記述者に対して全粒的視点から注意重みを割り当てる。 局所的グローバル相互適応のための特殊前文タスクとクロスイテレーションモーメント更新がさらに開発されている。 ダウンストリームタスクでは、OEPGは、複数のデータセットのクロススケールとドメインで2%~6%の精度で最高のパフォーマンスを達成する。 特に、OEPGは量的および位相的不均衡のシナリオにも一般化する。

Unsupervised/self-su pervised graph representation learning is critical for downstream node- and graph-level classification tasks. Global structure of graphs helps discriminating representations and existing methods mainly utilize the global structure by imposing additional supervisions. However, their global semantics are usually invariant for all nodes/graphs and they fail to explicitly embed the global semantics to enrich the representations. In this paper, we propose Omni-Granular Ego-Semantic Propagation for Self-Supervised Graph Representation Learning (OEPG). Specifically, we introduce instance-adaptive global-aware ego-semantic descriptors, leveraging the first- and second-order feature differences between each node/graph and hierarchical global clusters of the entire graph dataset. The descriptors can be explicitly integrated into local graph convolution as new neighbor nodes. Besides, we design an omni-granular normalization on the whole scales and hierarchies of the ego-semantic to assign attentional weight to each descriptor from an omni-granular perspective. Specialized pretext tasks and cross-iteration momentum update are further developed for local-global mutual adaptation. In downstream tasks, OEPG consistently achieves the best performance with a 2%~6% accuracy gain on multiple datasets cross scales and domains. Notably, OEPG also generalizes to quantity- and topology-imbalance scenarios.
翻訳日:2022-06-01 12:31:16 公開日:2022-05-31
# ビジュアルローカライゼーションにおける画像検索の役割の検討 - 徹底的なベンチマーク

Investigating the Role of Image Retrieval for Visual Localization -- An exhaustive benchmark ( http://arxiv.org/abs/2205.15761v1 )

ライセンス: Link先を確認
Martin Humenberger and Yohann Cabon and No\'e Pion and Philippe Weinzaepfel and Donghwan Lee and Nicolas Gu\'erin and Torsten Sattler and Gabriela Csurka(参考訳) 視覚の定位、すなわち既知のシーンにおけるカメラのポーズ推定は、自動運転や拡張現実といった技術のコアコンポーネントである。 最先端のローカライゼーションアプローチは,(1)近似ポーズ推定,(2)所定のクエリ画像でシーンのどの部分が潜在的に見えるかを決定する,という2つの目的で画像検索技術に依存することが多い。 どちらも最先端の画像検索アルゴリズムを用いるのが一般的である。 これらのアルゴリズムは、しばしば視覚的ローカライゼーションの要求と異なる幅広い視点の変化の下で同じランドマークを取得することを目標に訓練される。 視覚的ローカライゼーションの結果を明らかにするために,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てた。 まず,ローカライズ性能を指標として,複数のデータセットにおける最先端の検索表現を比較する。 次に,画像検索における「根拠真理」の定義について検討する。 これらの定義を視覚的ローカライゼーションのパラダイムの上限として用いることで、改善の余地がまだ残っていることを示す。 第3に、これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能が、ローカライズ性能の全てのパラダイムにのみ相関していることを示す。 最後に、画像中のぼやけやダイナミックなシーンの影響を分析する。 我々は,ローカライゼーションパラダイムに特化した検索アプローチの必要性を結論づける。 ベンチマークおよび評価プロトコルはhttps://github.com/n aver/kapture-localiz ationで利用可能です。

Visual localization, i.e., camera pose estimation in a known scene, is a core component of technologies such as autonomous driving and augmented reality. State-of-the-art localization approaches often rely on image retrieval techniques for one of two purposes: (1) provide an approximate pose estimate or (2) determine which parts of the scene are potentially visible in a given query image. It is common practice to use state-of-the-art image retrieval algorithms for both of them. These algorithms are often trained for the goal of retrieving the same landmark under a large range of viewpoint changes which often differs from the requirements of visual localization. In order to investigate the consequences for visual localization, this paper focuses on understanding the role of image retrieval for multiple visual localization paradigms. First, we introduce a novel benchmark setup and compare state-of-the-art retrieval representations on multiple datasets using localization performance as metric. Second, we investigate several definitions of "ground truth" for image retrieval. Using these definitions as upper bounds for the visual localization paradigms, we show that there is still sgnificant room for improvement. Third, using these tools and in-depth analysis, we show that retrieval performance on classical landmark retrieval or place recognition tasks correlates only for some but not all paradigms to localization performance. Finally, we analyze the effects of blur and dynamic scenes in the images. We conclude that there is a need for retrieval approaches specifically designed for localization paradigms. Our benchmark and evaluation protocols are available at https://github.com/n aver/kapture-localiz ation.
翻訳日:2022-06-01 12:30:56 公開日:2022-05-31
# 深層粒子を用いた教師なし画像表現学習

Unsupervised Image Representation Learning with Deep Latent Particles ( http://arxiv.org/abs/2205.15821v1 )

ライセンス: Link先を確認
Tal Daniel and Aviv Tamar(参考訳) 本稿では,物体の位置と外観を区別する視覚データの新たな表現法を提案する。 我々の手法はディープ潜時粒子 (DLP) と呼ばれ, 低次元潜時粒子に視覚的入力を分解し, それぞれの粒子が周囲の空間的位置と特徴によって記述される。 このような表現の学習を促進するために、VAEに基づくアプローチを踏襲し、空間ソフトマックスアーキテクチャに基づく粒子位置の先行を導入し、粒子間のチャムファー距離にインスパイアされた証拠の低い境界損失を補正する。 DLP表現は、教師なしキーポイント(KP)検出、画像操作、複数の動的オブジェクトからなるシーンの映像予測などの下流タスクに有用であることを示す。 さらに,問題に対する確率論的解釈により,モデル選択に使用可能な粒子位置の不確実性推定が自然に得られることを示した。 https://taldatech.gi thub.io/deep-latent- particles-web/

We propose a new representation of visual data that disentangles object position from appearance. Our method, termed Deep Latent Particles (DLP), decomposes the visual input into low-dimensional latent ``particles'', where each particle is described by its spatial location and features of its surrounding region. To drive learning of such representations, we follow a VAE-based approach and introduce a prior for particle positions based on a spatial-softmax architecture, and a modification of the evidence lower bound loss inspired by the Chamfer distance between particles. We demonstrate that our DLP representations are useful for downstream tasks such as unsupervised keypoint (KP) detection, image manipulation, and video prediction for scenes composed of multiple dynamic objects. In addition, we show that our probabilistic interpretation of the problem naturally provides uncertainty estimates for particle locations, which can be used for model selection, among other tasks. Videos and code are available: https://taldatech.gi thub.io/deep-latent- particles-web/
翻訳日:2022-06-01 12:30:30 公開日:2022-05-31
# TransFuser: 自動運転のためのトランスフォーマーを用いたセンサフュージョン

TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2205.15997v1 )

ライセンス: Link先を確認
Kashyap Chitta, Aditya Prakash, Bernhard Jaeger, Zehao Yu, Katrin Renz, Andreas Geiger(参考訳) 自律運転のための補完センサからの表現をどのように統合するか 幾何学に基づく融合は、知覚(物体の検出、動き予測など)を約束している。 しかし、エンド・ツー・エンド駆動の文脈では、既存のセンサフュージョン法に基づく模倣学習は、動的エージェントの密度が高い複雑な運転シナリオにおいて性能が低い。 そこで本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。 提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。 長距離道路と密集した交通量の多い新しいベンチマークと、carla urban driving simulatorの公式リーダーボードで、その効果を実験的に検証した。 提出時点では、TransFuserはCARLAのリーダーボードにおいて、大きなマージンでスコアを上げるという点で、これまでのすべての仕事を上回っている。 幾何ベースの融合と比較すると、TransFuserは1キロあたりの平均衝突を48%削減する。

How should we integrate representations from complementary sensors for autonomous driving? Geometry-based fusion has shown promise for perception (e.g. object detection, motion forecasting). However, in the context of end-to-end driving, we find that imitation learning based on existing sensor fusion methods underperforms in complex driving scenarios with a high density of dynamic agents. Therefore, we propose TransFuser, a mechanism to integrate image and LiDAR representations using self-attention. Our approach uses transformer modules at multiple resolutions to fuse perspective view and bird's eye view feature maps. We experimentally validate its efficacy on a challenging new benchmark with long routes and dense traffic, as well as the official leaderboard of the CARLA urban driving simulator. At the time of submission, TransFuser outperforms all prior work on the CARLA leaderboard in terms of driving score by a large margin. Compared to geometry-based fusion, TransFuser reduces the average collisions per kilometer by 48%.
翻訳日:2022-06-01 12:30:14 公開日:2022-05-31
# リフティングベース適応ウェーブレットを用いた階層型球面CNN

Hierarchical Spherical CNNs with Lifting-based Adaptive Wavelets for Pooling and Unpooling ( http://arxiv.org/abs/2205.15571v1 )

ライセンス: Link先を確認
Mingxing Xu, Chenglin Li, Wenrui Dai, Siheng Chen, Junni Zou, Pascal Frossard, Hongkai Xiong(参考訳) プールとアンプールは、階層型球面畳み込みニューラルネットワーク(hs-cnns)の構築において、球面領域における包括的特徴学習のための2つの重要な操作である。 既存のモデルの多くはダウンサンプリングベースのプーリングを採用しており、必然的に情報損失を発生させ、異なる球面信号やタスクに適応できない。 また、その後のアンプールにより、プール後の保存情報を適切に復元することができず、タスクの望ましい特徴を特徴づける。 本稿では,画像レベルと画素レベルの両方のタスクにおいて,より効率的な階層的特徴学習を実現するlifths-cnnと呼ばれる,適応型球面ウェーブレットを学習するための昇降構造を備えたhs-cnnsの新しいフレームワークを提案する。 具体的には、適応球面ウェーブレットを、訓練可能な昇降演算子(すなわち更新および予測演算子)からなる昇降構造で学習する。 この学習可能なリフト構造により、信号は低周波成分と高周波成分を含む2つのサブバンドに適応的に分割することができ、低周波サブバンドにより多くの情報を保存することにより、プールのためのより良いダウンスケール表現を生成することができる。 更新演算子と予測演算子は、グラフベースの注意でパラメータ化され、信号の特性と基礎となるジオメトリを共同で考慮する。 さらに、学習したウェーブレットによって特定の特性が保証されることを示し、空間および周波数領域における信号の相関をよりよく活用するために、空間周波数の局所化を保証する。 次に,学習した昇降演算子を用いて逆ウェーブレット変換を行い,スケールアップした表現を復元する,昇降ベースのプーリングに可逆なアンプール操作を提案する。 各種球面領域タスクに対する広範囲な実験評価により,提案したLiftHS-CNNの優位性を検証した。

Pooling and unpooling are two essential operations in constructing hierarchical spherical convolutional neural networks (HS-CNNs) for comprehensive feature learning in the spherical domain. Most existing models employ downsampling-based pooling, which will inevitably incur information loss and cannot adapt to different spherical signals and tasks. Besides, the preserved information after pooling cannot be well restored by the subsequent unpooling to characterize the desirable features for a task. In this paper, we propose a novel framework of HS-CNNs with a lifting structure to learn adaptive spherical wavelets for pooling and unpooling, dubbed LiftHS-CNN, which ensures a more efficient hierarchical feature learning for both image- and pixel-level tasks. Specifically, adaptive spherical wavelets are learned with a lifting structure that consists of trainable lifting operators (i.e., update and predict operators). With this learnable lifting structure, we can adaptively partition a signal into two sub-bands containing low- and high-frequency components, respectively, and thus generate a better down-scaled representation for pooling by preserving more information in the low-frequency sub-band. The update and predict operators are parameterized with graph-based attention to jointly consider the signal's characteristics and the underlying geometries. We further show that particular properties are promised by the learned wavelets, ensuring the spatial-frequency localization for better exploiting the signal's correlation in both spatial and frequency domains. We then propose an unpooling operation that is invertible to the lifting-based pooling, where an inverse wavelet transform is performed by using the learned lifting operators to restore an up-scaled representation. Extensive empirical evaluations on various spherical domain tasks validate the superiority of the proposed LiftHS-CNN.
翻訳日:2022-06-01 12:28:42 公開日:2022-05-31
# 確率的人間の運動予測のための弱教師付き行動遷移学習

Weakly-supervised Action Transition Learning for Stochastic Human Motion Prediction ( http://arxiv.org/abs/2205.15608v1 )

ライセンス: Link先を確認
Wei Mao and Miaomiao Liu and Mathieu Salzmann(参考訳) 動作ラベルと短い動作履歴を列挙して複数の可視な将来の動作を予測することを目的とした,行動駆動型確率的人間の動作予測の課題を紹介する。 これは、特定のアクションカテゴリを尊重しない、または単一のアクションラベルに従う動作を予測する既存の作品とは異なる。 特に、このタスクに対処するには2つの課題に取り組む必要がある: 異なるアクション間の遷移は滑らかでなければならない; 予測された動きの長さはアクションシーケンスに依存し、サンプル間で大きく異なる。 様々な動作遷移と動作長を十分にカバーするトレーニングデータを現実的に期待することはできないため,異なる動作からの複数の動作を結合し,円滑な遷移を促すための弱い監督形態を導入することで,効果的なトレーニング戦略を提案する。 次に、観測された動きとアクションラベルシーケンスの両方を条件としたVAEモデルを作成し、様々な長さの複数の可視な将来の動きを生成する。 本稿では、RNNとTransformersという2つの異なる時間符号化モデルを用いて、このアプローチの汎用性を考察する。 本手法は,最先端の単一動作条件動生成法と確率的人間の動き予測手法を,新たな行動駆動確率運動予測タスクに適用して構築したベースラインモデルを上回るものである。 私たちのコードはhttps://github.com/w ei-mao-2019/watで利用可能です。

We introduce the task of action-driven stochastic human motion prediction, which aims to predict multiple plausible future motions given a sequence of action labels and a short motion history. This differs from existing works, which predict motions that either do not respect any specific action category, or follow a single action label. In particular, addressing this task requires tackling two challenges: The transitions between the different actions must be smooth; the length of the predicted motion depends on the action sequence and varies significantly across samples. As we cannot realistically expect training data to cover sufficiently diverse action transitions and motion lengths, we propose an effective training strategy consisting of combining multiple motions from different actions and introducing a weak form of supervision to encourage smooth transitions. We then design a VAE-based model conditioned on both the observed motion and the action label sequence, allowing us to generate multiple plausible future motions of varying length. We illustrate the generality of our approach by exploring its use with two different temporal encoding models, namely RNNs and Transformers. Our approach outperforms baseline models constructed by adapting state-of-the-art single action-conditioned motion generation methods and stochastic human motion prediction approaches to our new task of action-driven stochastic motion prediction. Our code is available at https://github.com/w ei-mao-2019/WAT.
翻訳日:2022-06-01 12:28:10 公開日:2022-05-31
# 大規模XBD衛星画像ベンチマークデータセットによる建物被害評価のための自己教師付き学習

Self-Supervised Learning for Building Damage Assessment from Large-scale xBD Satellite Imagery Benchmark Datasets ( http://arxiv.org/abs/2205.15688v1 )

ライセンス: Link先を確認
Zaishuo Xia, Zelin Li, Yanbing Bai, Jinze Yu, Bruno Adriano(参考訳) 災害後評価の分野では、災害後のタイムリーかつ正確な救助・現地化のために、被害を受けた建物の位置を知る必要がある。 ディープラーニングでは、リモートセンシング画像による建物損傷を自動的に高精度に評価する方法を提案する研究者もおり、ドメインの専門家による評価よりも効率的であることが証明されている。 しかし、大量のラベル付きデータがないため、深層学習モデルの効率はラベル付きデータに大きく依存するため、これらのタスクは正確な評価を行うことができない。 既存の半教師と無監督の研究はこの分野でブレークスルーを遂げているが、いずれも完全に解決していない。 そこで本稿では,ラベル付きデータを必要としない自己教師付き比較学習手法を提案する。 我々は、新しい非対称双対ネットワークアーキテクチャを構築し、その性能をxBDデータセット上で検証した。 モデル実験の結果,ベースラインや一般的な手法と比較して改善が見られた。 また,建物損傷認識に対する自己監視手法の可能性を示した。

In the field of post-disaster assessment, for timely and accurate rescue and localization after a disaster, people need to know the location of damaged buildings. In deep learning, some scholars have proposed methods to make automatic and highly accurate building damage assessments by remote sensing images, which are proved to be more efficient than assessment by domain experts. However, due to the lack of a large amount of labeled data, these kinds of tasks can suffer from being able to do an accurate assessment, as the efficiency of deep learning models relies highly on labeled data. Although existing semi-supervised and unsupervised studies have made breakthroughs in this area, none of them has completely solved this problem. Therefore, we propose adopting a self-supervised comparative learning approach to address the task without the requirement of labeled data. We constructed a novel asymmetric twin network architecture and tested its performance on the xBD dataset. Experiment results of our model show the improvement compared to baseline and commonly used methods. We also demonstrated the potential of self-supervised methods for building damage recognition awareness.
翻訳日:2022-06-01 12:27:47 公開日:2022-05-31
# 犬のNose-print再識別のための競合的手法

A Competitive Method for Dog Nose-print Re-identification ( http://arxiv.org/abs/2205.15934v1 )

ライセンス: Link先を確認
Fei Shen, Zhe Wang, Zijun Wang, Xiaode Fu, Jiayi Chen and Xiaoyu Du(参考訳) 視覚に基づくパターン識別(顔、指紋、虹彩など)は、長年にわたって人間の生体認証にうまく適用されてきた。 しかし、大量のラベル付きデータがないため、犬の鼻指紋認証は難しい問題である。 そこで本稿では, cvpr 2022 pet biometric challengeにおいて, 犬鼻認証 (re-id) タスクを提案する。 まず、各クラスがトレーニングセットにサンプルをほとんど持たないという問題を考慮し、自動オフラインデータ拡張戦略を提案する。 そして、トレーニングとテストデータセットのサンプルスタイルの違いに対して、ネットワーク最適化のために、クロスエントロピー、トリプレット、ペアワイド円損失関数を併用する。 最後に,複数のモデルをアンサンブルすることで,テストセット上で86.67\%のAUCを実現する。 コードはhttps://github.com/m uzishen/Pet-ReID-IMA Gで公開されている。

Vision-based pattern identification (such as face, fingerprint, iris etc.) has been successfully applied in human biometrics for a long history. However, dog nose-print authentication is a challenging problem since the lack of a large amount of labeled data. For that, this paper presents our proposed methods for dog nose-print authentication (Re-ID) task in CVPR 2022 pet biometric challenge. First, considering the problem that each class only with few samples in the training set, we propose an automatic offline data augmentation strategy. Then, for the difference in sample styles between the training and test datasets, we employ joint cross-entropy, triplet and pair-wise circle losses function for network optimization. Finally, with multiple models ensembled adopted, our methods achieve 86.67\% AUC on the test set. Codes are available at https://github.com/m uzishen/Pet-ReID-IMA G.
翻訳日:2022-06-01 12:25:36 公開日:2022-05-31
# 深層学習における自己注意とソフトラベルによる2次元量子材料同定

Two-Dimensional Quantum Material Identification via Self-Attention and Soft-labeling in Deep Learning ( http://arxiv.org/abs/2205.15948v1 )

ライセンス: Link先を確認
Xuan Bac Nguyen, Apoorva Bisht, Hugh Churchill, Khoa Luu(参考訳) 量子機械分野では、シリコンチップ内の2次元材料(2D)を検出することが最も重要な問題の一つである。 インスタンスセグメンテーションは、この問題を解決する潜在的アプローチとして考えられる。 しかし、他のディープラーニング手法と同様に、インスタンスセグメンテーションは、かなりのパフォーマンスを達成するために、大規模なトレーニングデータセットと高品質なアノテーションを必要とする。 実際には、アノテータは2K解像度や非常に高密度なオブジェクトといった大きなイメージを扱う必要があるため、トレーニングデータセットの作成は難しい。 本研究では,2次元量子材料識別におけるインスタンスセグメンテーションにおけるアノテーション不足の問題に対処する新しい手法を提案する。 本稿では, 偽陰性物体を自動的に検出する機構と, 全体損失関数に寄与する物体の負の影響を低減するための注意に基づく損失戦略を提案する。 本研究では,2次元材料検出データセットを実験し,従来の手法よりも優れた性能を示す。

In quantum machine field, detecting two-dimensional (2D) materials in Silicon chips is one of the most critical problems. Instance segmentation can be considered as a potential approach to solve this problem. However, similar to other deep learning methods, the instance segmentation requires a large scale training dataset and high quality annotation in order to achieve a considerable performance. In practice, preparing the training dataset is a challenge since annotators have to deal with a large image, e.g 2K resolution, and extremely dense objects in this problem. In this work, we present a novel method to tackle the problem of missing annotation in instance segmentation in 2D quantum material identification. We propose a new mechanism for automatically detecting false negative objects and an attention based loss strategy to reduce the negative impact of these objects contributing to the overall loss function. We experiment on the 2D material detection datasets, and the experiments show our method outperforms previous works.
翻訳日:2022-06-01 12:25:24 公開日:2022-05-31
# 製品マッチングのための多言語トランスフォーマー -- ポーランドにおける実験と新しいベンチマーク

Multilingual Transformers for Product Matching -- Experiments and a New Benchmark in Polish ( http://arxiv.org/abs/2205.15712v1 )

ライセンス: Link先を確認
Micha{\l} Mo{\.z}d{\.z}onek, Anna Wr\'oblewska, Sergiy Tkachuk, Szymon {\L}ukasik(参考訳) 製品マッチングは、異なるデータソース間で同じ製品をマッチングするタスクに対応します。 一般的には、マルチモーダルである以外、さまざまなデータ型で構成され、非均質で不完全である利用可能な製品機能を採用している。 本論文は,英語とポーランド語の両方でテキスト特徴を用いた製品マッチング問題の解決に適した,事前学習された多言語トランスフォーマーモデルを示す。 Web Data CommonsでマルチリンガルmBERTとXLM-RoBERTaモデル(大規模製品マッチングのためのトレーニングデータセットとゴールド標準)を英語でテストした。 得られた結果から,これらのモデルは,このセットでテストした最新のソリューションと同等に動作し,場合によってはさらに優れた結果が得られた。 さらに、調査目的で複数のオンラインストアから選択したカテゴリのオファーに基づいて、完全にポーランド語である新しいデータセット、productmatch.plを作成しました。 これはポーランドで製品マッチングタスクのための最初のオープンデータセットであり、事前訓練されたモデルの有効性を比較することができる。 そこで,ポーランドのデータセット上でmBERTモデルとXLM-RoBERTaモデルにより得られたベースライン結果を示した。

Product matching corresponds to the task of matching identical products across different data sources. It typically employs available product features which, apart from being multimodal, i.e., comprised of various data types, might be non-homogeneous and incomplete. The paper shows that pre-trained, multilingual Transformer models, after fine-tuning, are suitable for solving the product matching problem using textual features both in English and Polish languages. We tested multilingual mBERT and XLM-RoBERTa models in English on Web Data Commons - training dataset and gold standard for large-scale product matching. The obtained results show that these models perform similarly to the latest solutions tested on this set, and in some cases, the results were even better. Additionally, we prepared a new dataset -- ProductMatch.pl -- that is entirely in Polish and based on offers in selected categories obtained from several online stores for the research purpose. It is the first open dataset for product matching tasks in Polish, which allows comparing the effectiveness of the pre-trained models. Thus, we also showed the baseline results obtained by the fine-tuned mBERT and XLM-RoBERTa models on the Polish datasets.
翻訳日:2022-06-01 12:25:10 公開日:2022-05-31
# GateNLP-UShef at SemEval-2022 Task 8: Entity-Enriched Siamese Transformer for Multilingual News Article similarity (英語)

GateNLP-UShef at SemEval-2022 Task 8: Entity-Enriched Siamese Transformer for Multilingual News Article Similarity ( http://arxiv.org/abs/2205.15812v1 )

ライセンス: Link先を確認
Iknoor Singh, Yue Li, Melissa Thong, Carolina Scarton(参考訳) 本稿では,SemEval-2022 Task 8: Multilingual News Article similarityにおける第2位システムについて述べる。 本稿では,ニュース記事において議論された出来事の共有された物語,実体,場所,時刻など,異なるサブディメンションに基づくニュース記事の類似度を計算するエンティティエンリッチシアームトランスを提案する。 本稿では,トランスフォーマーエンコーダを用いたシームズネットワークアーキテクチャを用いて,ニュース記事から抽出した補助エンティティベースの特徴と合わせて,物語を捉えた文書レベルの表現を学習する。 これらすべての機能を一緒に使う背景にある直感は、異なる粒度のニュース記事間の類似性を捉え、異なるニュースメディアが"同じイベント"について書く程度を評価することである。 実験結果と詳細なアブレーション実験により,提案手法の有効性と妥当性が示された。

This paper describes the second-placed system on the leaderboard of SemEval-2022 Task 8: Multilingual News Article Similarity. We propose an entity-enriched Siamese Transformer which computes news article similarity based on different sub-dimensions, such as the shared narrative, entities, location and time of the event discussed in the news article. Our system exploits a Siamese network architecture using a Transformer encoder to learn document-level representations for the purpose of capturing the narrative together with the auxiliary entity-based features extracted from the news articles. The intuition behind using all these features together is to capture the similarity between news articles at different granularity levels and to assess the extent to which different news outlets write about "the same events". Our experimental results and detailed ablation study demonstrate the effectiveness and the validity of our proposed method.
翻訳日:2022-06-01 12:24:52 公開日:2022-05-31
# (参考訳) 知識グラフ-深層学習 : 航空安全領域における質問応答の事例研究 [全文訳有]

Knowledge Graph -- Deep Learning: A Case Study in Question Answering in Aviation Safety Domain ( http://arxiv.org/abs/2205.15952v1 )

ライセンス: CC BY 4.0
Ankush Agarwal, Raj Gite, Shreya Laddha, Pushpak Bhattacharyya, Satyanarayan Kar, Asif Ekbal, Prabhjit Thind, Rajesh Zele, Ravi Shankar(参考訳) 商業航空分野では、事故報告(NTSB、ASRS)や規制指令(AD)など、多くの文書がある。 メンテナンス、コンプライアンス、安全性といった航空業界のニーズに応えるために、これらの多様なリポジトリに効率的にアクセスするシステムが必要である。 本稿では,航空安全のための知識グラフ(KG)による深層学習(DL)に基づく質問応答システムを提案する。 航空機事故報告から知識グラフを構築し,研究者のコミュニティに貢献する。 この資源の有効性を、前述のQAシステムで検証し、実証する。 上記の文書から構築された自然言語クエリは、SPARQL(RDFグラフデータベースのインタフェース言語)クエリに変換され、答えられる。 DL側では、2つの異なるQAモデルがあります。 (i)通路検索(sentence-bert based)と質問応答(bert based)のパイプラインであるbert qa (II)最近リリースされたGPT-3。 事故報告から得られた一連の問い合わせに基づいてシステムを評価する。 統合QAシステムは,GPT-3よりも9.3%,BERT QAより40.3%の精度向上を実現している。 そこで我々は,KG-DLが単独よりも優れていることを推測した。

In the commercial aviation domain, there are a large number of documents, like, accident reports (NTSB, ASRS) and regulatory directives (ADs). There is a need for a system to access these diverse repositories efficiently in order to service needs in the aviation industry, like maintenance, compliance, and safety. In this paper, we propose a Knowledge Graph (KG) guided Deep Learning (DL) based Question Answering (QA) system for aviation safety. We construct a Knowledge Graph from Aircraft Accident reports and contribute this resource to the community of researchers. The efficacy of this resource is tested and proved by the aforesaid QA system. Natural Language Queries constructed from the documents mentioned above are converted into SPARQL (the interface language of the RDF graph database) queries and answered. On the DL side, we have two different QA models: (i) BERT QA which is a pipeline of Passage Retrieval (Sentence-BERT based) and Question Answering (BERT based), and (ii) the recently released GPT-3. We evaluate our system on a set of queries created from the accident reports. Our combined QA system achieves 9.3% increase in accuracy over GPT-3 and 40.3% increase over BERT QA. Thus, we infer that KG-DL performs better than either singly.
翻訳日:2022-06-01 12:22:34 公開日:2022-05-31
# 衛星・衛星統合ネットワークにおける機械学習に基づくユーザスケジューリング

Machine Learning-Based User Scheduling in Integrated Satellite-HAPS-Groun d Networks ( http://arxiv.org/abs/2205.13958v2 )

ライセンス: Link先を確認
Shasha Liu, Hayssam Dahrouj, Mohamed-Slim Alouini(参考訳) 統合された宇宙空間の地上ネットワークは、第6世代の通信ネットワーク(6G)、特に接続されていない接続とウルトラ接続のコンテキストにおいて、有用なソリューション空間を提供する。 このようなデジタルインクルージョンは、特にロードバランシングを考慮したリソース管理の問題に特に関心を寄せている。 しかし、従来のモデルに基づく最適化手法は、時空ネットワークの多様性が高く、古典的なアルゴリズムの典型的複雑さのため、リアルタイム処理やサービス品質の要求を満たさないことが多い。 本稿では,ワイヤレスネットワーク設計における人工知能の前提を考慮し,空間・地上統合通信におけるユーザスケジューリングの文脈における機械学習の展望を示す。 本稿はまず,機械学習応用の文脈における最も関連する技術と資源割当問題について概説し,特に空間・地上ネットワークに注目した。 そこで本論文では,深層ニューラルネットワークを統合型宇宙高度プラットフォームステーション(HAPS)におけるユーザスケジューリングポリシの最適化に利用する,特定のアプリケーションを提案する。 最後に、この論文は、オンラインHAPS電力適応、学習に基づくチャネルセンシング、データ駆動型マルチHAPSリソース管理、インテリジェントな空飛ぶタクシー駆動システムなど、宇宙空間のネットワークにおける機械学習の統合を促進するための課題と課題を明らかにする。

Integrated space-air-ground networks promise to offer a valuable solution space for empowering the sixth generation of communication networks (6G), particularly in the context of connecting the unconnected and ultraconnecting the connected. Such digital inclusion thrive makes resource management problems, especially those accounting for load-balancing considerations, of particular interest. The conventional model-based optimization methods, however, often fail to meet the real-time processing and quality-of-service needs, due to the high heterogeneity of the space-air-ground networks, and the typical complexity of the classical algorithms. Given the premises of artificial intelligence at automating wireless networks design, this paper focuses on showcasing the prospects of machine learning in the context of user scheduling in integrated space-air-ground communications. The paper first overviews the most relevant state-of-the art in the context of machine learning applications to the resource allocation problems, with a dedicated attention to space-air-ground networks. The paper then proposes, and shows the benefit of, one specific application that uses ensembling deep neural networks for optimizing the user scheduling policies in integrated space-high altitude platform station (HAPS)-ground networks. Finally, the paper sheds light on the challenges and open issues that promise to spur the integration of machine learning in space-air-ground networks, namely, online HAPS power adaptation, learning-based channel sensing, data-driven multi-HAPSs resource management, and intelligent flying taxis-empowered systems.
翻訳日:2022-06-01 12:07:54 公開日:2022-05-31
# ディエンス予測のためのマルチクエリ変換器を用いたマルチタスク学習

Multi-Task Learning with Multi-query Transformer for Dense Prediction ( http://arxiv.org/abs/2205.14354v2 )

ライセンス: Link先を確認
Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, Jing Zhang, Yunhai Tong, Lefei Zhang, Dacheng Tao(参考訳) 従来のマルチタスク密集予測研究では、複数段階のマルチモーダル蒸留やタスク毎のタスク関係コンテキストの探索といった複雑なパイプラインが開発された。 これらの手法を超えた中核的な洞察は、各タスク間の相互効果を最大化することである。 最近のクエリベースのトランスフォーマーに触発されて、異なるタスクからの複数のクエリーを備え、複数のタスク間の推論を容易にし、クロスタスクパイプラインをシンプルにする、multi-query transformer(mqtransf ormer)というシンプルなパイプラインを提案しました。 異なるタスク間でピクセル当たりの密接なコンテキストをモデル化するのではなく、タスクに関連したコンテキストをエンコードする複数のクエリを通じてタスク間の推論を行うタスク固有のプロキシを求める。 MQTransformerは、共有エンコーダ、クロスタスクアテンション、共有デコーダの3つの主要なコンポーネントで構成されている。 まず、各タスクをタスク関連およびスケール対応クエリでモデル化し、次に、特徴抽出器によって出力される画像特徴とタスク関連クエリ特徴の両方を共有エンコーダに供給し、画像特徴からクエリ特徴を符号化する。 第2に,複数のタスク間の依存関係を推論するためのクロスタスクアテンションモジュールを,同じスケールの異なるタスクと,同じタスクの異なるスケールを含む2つの視点から設計する。 次に、共有デコーダを使用して、異なるタスクから推論されたクエリ機能を使って、画像機能を徐々に洗練します。 2つの高密度予測データセット (NYUD-v2 と PASCAL-Context) の大規模な実験結果から,提案手法は有効な手法であり,最先端の結果が得られることが示された。 コードは利用可能だ。

Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects between each task. Inspired by the recent query-based Transformers, we propose a simpler pipeline named Multi-Query Transformer (MQTransformer) that is equipped with multiple queries from different tasks to facilitate the reasoning among multiple tasks and simplify the cross task pipeline. Instead of modeling the dense per-pixel context among different tasks, we seek a task-specific proxy to perform cross-task reasoning via multiple queries where each query encodes the task-related context. The MQTransformer is composed of three key components: shared encoder, cross task attention and shared decoder. We first model each task with a task-relevant and scale-aware query, and then both the image feature output by the feature extractor and the task-relevant query feature are fed into the shared encoder, thus encoding the query feature from the image feature. Secondly, we design a cross task attention module to reason the dependencies among multiple tasks and feature scales from two perspectives including different tasks of the same scale and different scales of the same task. Then we use a shared decoder to gradually refine the image features with the reasoned query features from different tasks. Extensive experiment results on two dense prediction datasets (NYUD-v2 and PASCAL-Context) show that the proposed method is an effective approach and achieves the state-of-the-art result. Code will be available.
翻訳日:2022-06-01 12:07:27 公開日:2022-05-31
# ディープニューラルネットワークを用いた文字のデブラリング

Deblurring Photographs of Characters Using Deep Neural Networks ( http://arxiv.org/abs/2205.15053v2 )

ライセンス: Link先を確認
Thomas Germer, Tobias Uelwer and Stefan Harmeling(参考訳) 本稿では,Helsinki Deblur Challenge (HDC2021)の取り組みについて述べる。 この課題の課題は、ポイントスプレッド機能(PSF)を知らずに文字のイメージを損なうことである。 主催者は鮮明でぼやけた画像のデータセットを提供した。 まず,鮮明な画像とぼやけた画像とを一致させるために,画像の歪み変換を推定する。 次に準ニュートン法を用いてPSFを推定する。 推定されたPSFは、鮮明でぼやけた画像を新たに生成することができる。 最後に,深層畳み込みニューラルネットワークを訓練し,ぼやけた画像からシャープな画像を再構成する。 本手法は,HDC 2021データの最初の10段階から画像の再構成に成功した。 私たちのコードはhttps://github.com/h hu-machine-learning/ hdc2021-psfnnで利用可能です。

In this paper, we present our approach for the Helsinki Deblur Challenge (HDC2021). The task of this challenge is to deblur images of characters without knowing the point spread function (PSF). The organizers provided a dataset of pairs of sharp and blurred images. Our method consists of three steps: First, we estimate a warping transformation of the images to align the sharp images with the blurred ones. Next, we estimate the PSF using a quasi-Newton method. The estimated PSF allows to generate additional pairs of sharp and blurred images. Finally, we train a deep convolutional neural network to reconstruct the sharp images from the blurred images. Our method is able to successfully reconstruct images from the first 10 stages of the HDC 2021 data. Our code is available at https://github.com/h hu-machine-learning/ hdc2021-psfnn.
翻訳日:2022-06-01 12:06:58 公開日:2022-05-31
# EAMM:音声による感情認識運動モデルによるワンショット感情会話

EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model ( http://arxiv.org/abs/2205.15278v2 )

ライセンス: Link先を確認
Xinya Ji, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Wayne Wu, Feng Xu, Xun Cao(参考訳) 音声による発話顔生成には大きな進歩があったが、既存の方法は顔の感情を無視するか、任意の被験者に適用できない。 本稿では、感情源映像を取り入れたワンショットの感情会話顔を生成するための感情認識運動モデル(EAMM)を提案する。 具体的には,まず音声駆動非教師なしのゼロ・ファースト・オーダー・キーポイント・モーションから対話面を描画するaudio2facial-dynamic sモジュールを提案する。 さらに, 動きモデルの特性を探索し, 感情関係の表情動態を, 以前取得した動き表現に対する線形付加的変位として表現するインプリシット感情変位学習器を提案する。 包括的実験により,両モジュールの結果を組み込むことで,現実的な感情パターンを持つ任意の被験者に対して,良好な話し面結果を生成することができることを示した。

Although significant progress has been made to audio-driven talking face generation, existing methods either neglect facial emotion or cannot be applied to arbitrary subjects. In this paper, we propose the Emotion-Aware Motion Model (EAMM) to generate one-shot emotional talking faces by involving an emotion source video. Specifically, we first propose an Audio2Facial-Dynamic s module, which renders talking faces from audio-driven unsupervised zero- and first-order key-points motion. Then through exploring the motion model's properties, we further propose an Implicit Emotion Displacement Learner to represent emotion-related facial dynamics as linearly additive displacements to the previously acquired motion representations. Comprehensive experiments demonstrate that by incorporating the results from both modules, our method can generate satisfactory talking face results on arbitrary subjects with realistic emotion patterns.
翻訳日:2022-06-01 12:06:46 公開日:2022-05-31
# 非定常変圧器:時系列予測における定常性再考

Non-stationary Transformers: Rethinking the Stationarity in Time Series Forecasting ( http://arxiv.org/abs/2205.14415v2 )

ライセンス: Link先を確認
Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(参考訳) トランスフォーマーは、そのグローバルレンジモデリング能力により、時系列予測において大きな力を発揮している。 しかし、それらの性能は、時間とともにジョイント分布が変化する非定常実世界データ上で著しく低下する可能性がある。 以前の研究は主に、予測可能性を高めるために元の系列の非定常性を減らすために定常化を採用する。 しかし、本質的な非定常性を欠いた固定化されたシリーズは、現実世界のバーストイベントの予測には役に立たない。 過定常化と呼ばれるこの問題により、トランスフォーマーは、異なる系列に対して識別不能な時間的注意を発生させ、深層モデルの予測能力を妨げる。 直列予測可能性とモデル能力のジレンマに対処するために,直列固定化と非定常注意という2つの相互依存モジュールを持つ汎用フレームワークとして非定常トランスフォーマーを提案する。 具体的には、直列定常化は各入力の統計を統一し、より良い予測可能性のために復元された統計で出力を変換する。 過定常化に対処するために,非定常的非定常的情報を時間依存に復元するために,非定常的系列から学習した顕著な注意を近似することにより考案した。 我々の非定常トランスフォーマーフレームワークは、トランスフォーマーの49.43%、インフォーマーの47.34%、リフォーマーの46.89%を減らし、主要なトランスフォーマーのマージンを大きく向上させる。

Transformers have shown great power in time series forecasting due to their global-range modeling ability. However, their performance can degenerate terribly on non-stationary real-world data in which the joint distribution changes over time. Previous studies primarily adopt stationarization to reduce the non-stationarity of original series for better predictability. But the stationarized series deprived of inherent non-stationarity can be less instructive for real-world bursty events forecasting. This problem, termed over-stationarizatio n in this paper, leads Transformers to generate indistinguishable temporal attentions for different series and impedes the predictive capability of deep models. To tackle the dilemma between series predictability and model capability, we propose Non-stationary Transformers as a generic framework with two interdependent modules: Series Stationarization and De-stationary Attention. Concretely, Series Stationarization unifies the statistics of each input and converts the output with restored statistics for better predictability. To address over-stationarizatio n, De-stationary Attention is devised to recover the intrinsic non-stationary information into temporal dependencies by approximating distinguishable attentions learned from unstationarized series. Our Non-stationary Transformers framework consistently boosts mainstream Transformers by a large margin, which reduces 49.43% MSE on Transformer, 47.34% on Informer, and 46.89% on Reformer, making them the state-of-the-art in time series forecasting.
翻訳日:2022-06-01 12:06:30 公開日:2022-05-31
# 深層学習によるサブタスク分類に基づくロボットによる協調掘削のための適応型アドミタンス制御

An adaptive admittance controller for collaborative drilling with a robot based on subtask classification via deep learning ( http://arxiv.org/abs/2205.14457v2 )

ライセンス: Link先を確認
Berk Guler, Pouya P. Niaz, Alireza Madani, Yusuf Aydin, Cagatay Basdogan(参考訳) 本稿では,人工ニューラルネットワーク(ann)モデルに基づく教師付き学習手法を提案し,硬い環境との接触を伴う人間-ロボット間インタラクション(phri)タスクにおけるサブタスクのリアルタイム分類を行う。 ここでは,pHRIタスクのサブタスクとして,アイドル,ドライビング,コンタクトの3つを考える。 この分類に基づいて、人間とロボットの相互作用を調節するアクセタンスコントローラのパラメータをリアルタイムで調整し、運転段階においてロボットが操作者に対してより透明になり(すなわち抵抗が小さく)、接触段階においてより安定したものにする。 アイドルフェーズは主にタスクの開始を検出するために使用される。 実験の結果、annモデルは12人の被験者に対して98%の精度で異なるアドミタンス制御条件下でサブタスクを検出できることが示されている。 最後に,提案するサブタスク分類器に基づくアドミタンス適応により,駆動相での人間の労力(すなわち高い透明性)が20%低減し,接触相での掘削時の振動振幅(すなわち高い安定性)が25%低下することを示した。

In this paper, we propose a supervised learning approach based on an Artificial Neural Network (ANN) model for real-time classification of subtasks in a physical human-robot interaction (pHRI) task involving contact with a stiff environment. In this regard, we consider three subtasks for a given pHRI task: Idle, Driving, and Contact. Based on this classification, the parameters of an admittance controller that regulates the interaction between human and robot are adjusted adaptively in real time to make the robot more transparent to the operator (i.e. less resistant) during the Driving phase and more stable during the Contact phase. The Idle phase is primarily used to detect the initiation of task. Experimental results have shown that the ANN model can learn to detect the subtasks under different admittance controller conditions with an accuracy of 98% for 12 participants. Finally, we show that the admittance adaptation based on the proposed subtask classifier leads to 20% lower human effort (i.e. higher transparency) in the Driving phase and 25% lower oscillation amplitude (i.e. higher stability) during drilling in the Contact phase compared to an admittance controller with fixed parameters.
翻訳日:2022-06-01 12:06:07 公開日:2022-05-31
# 微分的プライベート共分散再訪

Differentially Private Covariance Revisited ( http://arxiv.org/abs/2205.14324v2 )

ライセンス: Link先を確認
Wei Dong, Yuting Liang, Ke Yi(参考訳) 本稿では, 微分プライバシー下での共分散推定のために, フロベニウスノルムの観点から, (1) 標準ガウス機構である$\tilde{o}(d/n)$ を改良する$\tilde{o}(d^{1/4}/\sqrt{n})$ という最悪のケースバウンド, (2) 値が$\sqrt{d}$-factor でアートの状態を改善するようなトレースに敏感なバウンド, (3) よりインスタンス固有の結果を与えるテール感性バウンドの3つの新しい誤差境界を提案する。 対応するアルゴリズムは単純で効率的である。 実験の結果,先行作業よりも大幅な改善が得られた。

In this paper, we present three new error bounds, in terms of the Frobenius norm, for covariance estimation under differential privacy: (1) a worst-case bound of $\tilde{O}(d^{1/4}/\sqrt{n})$, which improves the standard Gaussian mechanism $\tilde{O}(d/n)$ for the regime $d>\widetilde{\Omega}(n^{2/3})$; (2) a trace-sensitive bound that improves the state of the art by a $\sqrt{d}$-factor, and (3) a tail-sensitive bound that gives a more instance-specific result. The corresponding algorithms are also simple and efficient. Experimental results show that they offer significant improvements over prior work.
翻訳日:2022-06-01 12:04:36 公開日:2022-05-31
# adapt: モダリティアラインアクションプロンプトによる視覚言語ナビゲーション

ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts ( http://arxiv.org/abs/2205.15509v1 )

ライセンス: Link先を確認
Bingqian Lin, Yi Zhu, Zicong Chen, Xiwen Liang, Jianzhuang Liu, Xiaodan Liang(参考訳) VLN(Vision-Language Navigation)は、複雑な視覚環境において、インボディードエージェントがアクションレベルのモダリティアライメントを実行することを必要とする、困難なタスクである。 既存のVLNエージェントは命令パスデータを直接学習し、マルチモーダル入力内のアクションレベルのアライメント知識を十分に探索することができない。 本稿では、vlnエージェントにアクションプロンプトを提供し、アクションレベルのモダリティアライメントの明示的な学習を可能にし、ナビゲーションを成功させるモダリティ調整アクションプロンプト(adapt)を提案する。 具体的には、アクションプロンプトを、画像サブプロンプトとテキストサブプロンプトとのモダリティ整合対として定義し、前者は単視点観察であり、後者は「椅子を通り抜ける」ようなフレーズとする。 ナビゲーションを開始すると、予め構築したアクションプロンプトベースから命令関連アクションプロンプトセットを検索し、プロンプトエンコーダを通過してプロンプト特徴を得る。 次に、プロンプト特徴を元の命令特徴と連結し、動作予測のために多層トランスに供給する。 高品質なアクションプロンプトをプロンプトベースに集めるために, 強力なモダリティアライメント能力を持つContrastive Language-Image Pretraining (CLIP) モデルを用いる。 さらに、アクションプロンプトのアライメントを強化し、エージェントが関連するプロンプトに順次集中するよう強制するために、モダリティアライメントロスとシーケンシャル一貫性損失がさらに導入される。 R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。

Vision-Language Navigation (VLN) is a challenging task that requires an embodied agent to perform action-level modality alignment, i.e., make instruction-asked actions sequentially in complex visual environments. Most existing VLN agents learn the instruction-path data directly and cannot sufficiently explore action-level alignment knowledge inside the multi-modal inputs. In this paper, we propose modAlity-aligneD Action PrompTs (ADAPT), which provides the VLN agent with action prompts to enable the explicit learning of action-level modality alignment to pursue successful navigation. Specifically, an action prompt is defined as a modality-aligned pair of an image sub-prompt and a text sub-prompt, where the former is a single-view observation and the latter is a phrase like ''walk past the chair''. When starting navigation, the instruction-related action prompt set is retrieved from a pre-built action prompt base and passed through a prompt encoder to obtain the prompt feature. Then the prompt feature is concatenated with the original instruction feature and fed to a multi-layer transformer for action prediction. To collect high-quality action prompts into the prompt base, we use the Contrastive Language-Image Pretraining (CLIP) model which has powerful cross-modality alignment ability. A modality alignment loss and a sequential consistency loss are further introduced to enhance the alignment of the action prompt and enforce the agent to focus on the related prompt sequentially. Experimental results on both R2R and RxR show the superiority of ADAPT over state-of-the-art methods.
翻訳日:2022-06-01 12:04:14 公開日:2022-05-31
# 一様時系列におけるロバスト投影に基づく異常抽出(RPE)

Robust Projection based Anomaly Extraction (RPE) in Univariate Time-Series ( http://arxiv.org/abs/2205.15548v1 )

ライセンス: Link先を確認
Mostafa Rahmani, Anoop Deoras, Laurent Callot(参考訳) 本稿では,時系列データに対する新しい,クローズドフォーム,データ/計算効率のよいオンライン異常検出アルゴリズムを提案する。 提案手法はウィンドウベース手法であり,既存のウィンドウベース手法とは対照的に,ウィンドウ内の異常の存在に頑健であり,タイムスタンプレベルの異常を識別することができる。 rpeは時系列の軌道行列の線形構造を利用し、ロバストな投影ステップを採用し、アルゴリズムがそのウィンドウに複数の任意に大きな異常が存在することを処理可能にしている。 ロバストな投影ステップのためのクローズドフォーム/非イテレーティブアルゴリズムが提供され、破損したタイムスタンプを識別できることが証明される。 RPEは、時系列領域で一般的なシナリオである大規模なトレーニングデータが利用できないアプリケーションにとって、優れた候補である。 広範な数値実験により、RPEは既存のアプローチよりも顕著なマージンで優れていることが示された。

This paper presents a novel, closed-form, and data/computation efficient online anomaly detection algorithm for time-series data. The proposed method, dubbed RPE, is a window-based method and in sharp contrast to the existing window-based methods, it is robust to the presence of anomalies in its window and it can distinguish the anomalies in time-stamp level. RPE leverages the linear structure of the trajectory matrix of the time-series and employs a robust projection step which makes the algorithm able to handle the presence of multiple arbitrarily large anomalies in its window. A closed-form/non-iter ative algorithm for the robust projection step is provided and it is proved that it can identify the corrupted time-stamps. RPE is a great candidate for the applications where a large training data is not available which is the common scenario in the area of time-series. An extensive set of numerical experiments show that RPE can outperform the existing approaches with a notable margin.
翻訳日:2022-06-01 12:03:43 公開日:2022-05-31
# meta-ticket:ランダム初期化ニューラルネットワークにおける最小ショット学習のための最適サブネットワークの探索

Meta-ticket: Finding optimal subnetworks for few-shot learning within randomly initialized neural networks ( http://arxiv.org/abs/2205.15619v1 )

ライセンス: Link先を確認
Daiki Chijiwa, Shin'ya Yamaguchi, Atsutoshi Kumagai, Yasutoshi Ida(参考訳) ニューラルネットワーク(NN)のためのわずかなショット学習は、少数のデータでNNをトレーニングすることを目的とした重要な問題である。 大きな課題は、オーバーパラメータのnnがこのような小さなデータセットに簡単にオーバーフィットできるため、オーバーフィットを避ける方法である。 これまでの作業(例えばFinnらによるMAMLなど)では、さまざまなタスクを使用していくつかのデータから学習する方法を学ぶメタラーニングによって、この課題に対処している。 一方で、オーバーフィッティングを避けるための従来のアプローチは、コンピュータビジョンにおける畳み込み層のようなスパースnn構造を内挿することで仮説空間を制限することである。 しかし、手動で設計したスパース構造は十分に大きなデータセットではサンプリング効率が良いが、数発の学習では不十分である。 1)メタラーニングによる数発学習に有効なスパース構造を見いだせるか? (2)メタ一般化の観点で、どのようなメリットをもたらすのか? そこで本研究では,無作為に初期化したNNにおいて,数発の学習に最適なスパースサブネットワークを見つけるメタティケットというメタラーニング手法を提案する。 我々は、meta-ticketが与えられたタスクごとに特別な特徴を学習できるスパースサブネットワークをうまく発見できることを実証的に検証した。 このタスクワイド適応能力により、特に大規模なNNでは、MAMLベースの手法に比べてメタ汎用性が優れている。

Few-shot learning for neural networks (NNs) is an important problem that aims to train NNs with a few data. The main challenge is how to avoid overfitting since over-parameterized NNs can easily overfit to such small dataset. Previous work (e.g. MAML by Finn et al. 2017) tackles this challenge by meta-learning, which learns how to learn from a few data by using various tasks. On the other hand, one conventional approach to avoid overfitting is restricting hypothesis spaces by endowing sparse NN structures like convolution layers in computer vision. However, although such manually-designed sparse structures are sample-efficient for sufficiently large datasets, they are still insufficient for few-shot learning. Then the following questions naturally arise: (1) Can we find sparse structures effective for few-shot learning by meta-learning? (2) What benefits will it bring in terms of meta-generalization? In this work, we propose a novel meta-learning approach, called Meta-ticket, to find optimal sparse subnetworks for few-shot learning within randomly initialized NNs. We empirically validated that Meta-ticket successfully discover sparse subnetworks that can learn specialized features for each given task. Due to this task-wise adaptation ability, Meta-ticket achieves superior meta-generalization compared to MAML-based methods especially with large NNs.
翻訳日:2022-06-01 12:03:27 公開日:2022-05-31
# 不可能なデータのない可変的重要性

Variable importance without impossible data ( http://arxiv.org/abs/2205.15750v1 )

ライセンス: Link先を確認
Masayoshi Mase, Art B. Owen, Benjamin B. Seiler(参考訳) ブラックボックス予測アルゴリズムにおける変数の重要性を測定する最も一般的な方法は、複数の被験者からの予測変数を結合する合成入力を用いる。 これらの入力は、不可能、物理的に不可能、あるいは論理的に不可能である。 その結果、このようなケースの予測は、トレーニングされたブラックボックスと非常に異なるデータに基づいて行うことができる。 このような値を用いた場合,ユーザは予測アルゴリズムの決定について,その説明を信頼できないと考える。 代わりに、経済ゲーム理論の基礎となるCohort Shapleyと呼ばれる手法を提唱し、他のゲーム理論とは異なり、実際に観測されたデータのみを用いて変数の重要性を定量化する。 コホート・シャプリー(Cohort Shapley)は、1つ以上の特徴において対象と類似していると判断された被験者のコホートを狭めることで機能する。 コホートを狭めるためにそれを使用する場合、コホート平均に大きな差をもたらすような特徴が重要である。 モデルが訓練されていない保護変数に重要な属性を割り当てることが不可欠であるアルゴリズムフェアネス問題について説明する。 全ての被験者と予測変数について、その被験者の予測応答や実際の反応に対する予測器の重要性を計算することができる。 これらの値は、例えば、すべての黒人被験者に集約することができ、個々のシャプリー値と集合シャプリー値の両方における不確かさを定量化するベイズブートストラップを提案する。

The most popular methods for measuring importance of the variables in a black box prediction algorithm make use of synthetic inputs that combine predictor variables from multiple subjects. These inputs can be unlikely, physically impossible, or even logically impossible. As a result, the predictions for such cases can be based on data very unlike any the black box was trained on. We think that users cannot trust an explanation of the decision of a prediction algorithm when the explanation uses such values. Instead we advocate a method called Cohort Shapley that is grounded in economic game theory and unlike most other game theoretic methods, it uses only actually observed data to quantify variable importance. Cohort Shapley works by narrowing the cohort of subjects judged to be similar to a target subject on one or more features. A feature is important if using it to narrow the cohort makes a large difference to the cohort mean. We illustrate it on an algorithmic fairness problem where it is essential to attribute importance to protected variables that the model was not trained on. For every subject and every predictor variable, we can compute the importance of that predictor to the subject's predicted response or to their actual response. These values can be aggregated, for example over all Black subjects, and we propose a Bayesian bootstrap to quantify uncertainty in both individual and aggregate Shapley values.
翻訳日:2022-06-01 12:03:02 公開日:2022-05-31
# l_{2}$-regularized dnnにおける特徴学習:アトラクション/反発とスパーシティ

Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and Sparsity ( http://arxiv.org/abs/2205.15809v1 )

ライセンス: Link先を確認
Arthur Jacot, Eugene Golikov, Cl\'ement Hongler, Franck Gabriel(参考訳) 我々はDNNの損失面を$L_{2}$正規化で調べる。 パラメータの観点からの損失は、トレーニングセットの階層的活性化$z_{\ell}$という観点で、損失に再構成できることを示す。 それぞれの隠れ表現 $z_{\ell}$ は、アトラクション/反発問題に対して最適な w.r.t であり、入力と出力の表現の間を補間し、次のレイヤのアクティベーションを構築するために、入力から必要最小限の情報を保持します。 正に同質な非線型性に対して、損失は、凸錐上の部分凸最適化の形をとる隠蔽表現の共分散の観点からさらに再構成することができる。 L_{2}$-regularized lossの任意の局所最小値は、各隠れた層(N$がトレーニングセットのサイズである場合)に少なくとも$N(N+1)$のニューロンで達成できる。 この境界は、N^{2}/4$の隠されたニューロンを必要とする局所的な最小値の例を示すことによって、きついことを示す。 しかし、より伝統的な環境ではミニマムに到達するのにn^{2}$のニューロンが必要となることを数値的に観察する。

We study the loss surface of DNNs with $L_{2}$ regularization. We show that the loss in terms of the parameters can be reformulated into a loss in terms of the layerwise activations $Z_{\ell}$ of the training set. This reformulation reveals the dynamics behind feature learning: each hidden representations $Z_{\ell}$ are optimal w.r.t. to an attraction/repulsion problem and interpolate between the input and output representations, keeping as little information from the input as necessary to construct the activation of the next layer. For positively homogeneous non-linearities, the loss can be further reformulated in terms of the covariances of the hidden representations, which takes the form of a partially convex optimization over a convex cone. This second reformulation allows us to prove a sparsity result for homogeneous DNNs: any local minimum of the $L_{2}$-regularized loss can be achieved with at most $N(N+1)$ neurons in each hidden layer (where $N$ is the size of the training set). We show that this bound is tight by giving an example of a local minimum which requires $N^{2}/4$ hidden neurons. But we also observe numerically that in more traditional settings much less than $N^{2}$ neurons are required to reach the minima.
翻訳日:2022-06-01 12:02:38 公開日:2022-05-31
# (参考訳) 二重会話:音声対話システムにおけるヒューマンライクな対話を目指して [全文訳有]

Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue System ( http://arxiv.org/abs/2205.15060v2 )

ライセンス: CC BY 4.0
Ting-En Lin, Yuchuan Wu, Fei Huang, Luo Si, Jian Sun, Yongbin Li(参考訳) 本稿では,電話エージェントが人間のような顧客と対話できるマルチターン・マルチモーダル音声対話システムであるDuplex Conversationを提案する。 我々は,電気通信におけるフルデュプレックスの概念を用いて,ユーザ状態検出,バックチャネル選択,バージイン検出の3つのサブタスクによるスムーズなターンテイクを実現する方法を示す。 さらに,ラベルなしデータの活用によるモデル一般化の促進を目的とした,マルチモーダルデータ拡張による半教師付き学習を提案する。 3つのサブタスクの実験結果から,提案手法はベースラインに比べて一貫した改善が得られた。 Duplex ConversationをAlibabaのインテリジェントなカスタマーサービスにデプロイし、本番で学んだ教訓を共有します。 オンラインA/B実験の結果,提案システムは応答遅延を50%削減できることがわかった。

In this paper, we present Duplex Conversation, a multi-turn, multimodal spoken dialogue system that enables telephone-based agents to interact with customers like a human. We use the concept of full-duplex in telecommunication to demonstrate what a human-like interactive experience should be and how to achieve smooth turn-taking through three subtasks: user state detection, backchannel selection, and barge-in detection. Besides, we propose semi-supervised learning with multimodal data augmentation to leverage unlabeled data to increase model generalization. Experimental results on three sub-tasks show that the proposed method achieves consistent improvements compared with baselines. We deploy the Duplex Conversation to Alibaba intelligent customer service and share lessons learned in production. Online A/B experiments show that the proposed system can significantly reduce response latency by 50%.
翻訳日:2022-06-01 12:00:19 公開日:2022-05-31
# 自己注意に必要なのはどんなDense Graphか?

What Dense Graph Do You Need for Self-Attention? ( http://arxiv.org/abs/2205.14014v2 )

ライセンス: Link先を確認
Yuxing Wang, Chu-Tak Lee, Qipeng Guo, Zhangyue Yin, Yunhua Zhou, Xuanjing Huang, Xipeng Qiu(参考訳) トランスフォーマーは様々なタスクで進歩してきたが、二次計算とメモリの複雑さに苦しんでいる。 近年の研究では,スパースグラフに着目したスパーストランスフォーマーが提案されている。 効果的ではあるが、グラフをうまく機能させるために必要な重要な部分は十分に検討されていない。 本稿では,グラフ上での情報伝達を測定するグラフスコアリング機能である正規化情報ペイロード(nip)を提案する。 この理論解析で導かれたハイパーキューブ変換器は、ハイパーキューブ内のトークン相互作用をモデル化し、バニラ変換器と同等またはそれ以上の結果を示すスパース変換器であり、配列長が$N$の複雑さを持つ$O(N\log N)$である。 様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をよく行います。

Transformers have made progress in miscellaneous tasks, but suffer from quadratic computational and memory complexities. Recent works propose sparse Transformers with attention on sparse graphs to reduce complexity and remain strong performance. While effective, the crucial parts of how dense a graph needs to be to perform well are not fully explored. In this paper, we propose Normalized Information Payload (NIP), a graph scoring function measuring information transfer on graph, which provides an analysis tool for trade-offs between performance and complexity. Guided by this theoretical analysis, we present Hypercube Transformer, a sparse Transformer that models token interactions in a hypercube and shows comparable or even better results with vanilla Transformer while yielding $O(N\log N)$ complexity with sequence length $N$. Experiments on tasks requiring various sequence lengths lay validation for our graph function well.
翻訳日:2022-06-01 11:44:18 公開日:2022-05-31
# 視覚トランスフォーマーを用いた肺癌マルチラベル分類のためのゼロショット・マイノショット学習

Zero-Shot and Few-Shot Learning for Lung Cancer Multi-Label Classification using Vision Transformer ( http://arxiv.org/abs/2205.15290v2 )

ライセンス: Link先を確認
Fu-Ming Guo, Yingfang Fan(参考訳) 肺がんは世界中でがん関連死亡の原因となっている。 肺腺癌(LUAD)と肺扁平上皮癌(LUSC)は非小細胞肺癌(NSCLC)の最も一般的な組織型である。 病理組織学は肺癌の診断に必須のツールである。 病理学者は支配的なサブタイプに従って分類を行う。 形態学は依然として診断の標準であるが,診断の解明には重要なツールを開発する必要がある。 本研究では,Zero-Shot と Few-Shot の両設定において,前訓練した Vision Transformer (ViT) モデルを用いて,病理組織学的スライス(LC25000 データセット)に基づいて複数ラベルの肺がんを分類する。 次に、Zero-ShotとFew-Shot ViTのパフォーマンスを精度、精度、リコール、感度、特異性について比較する。 本研究では,事前学習したViTモデルがゼロショット設定において優れた性能を示し,Fewショット設定({epoch = 1})における競合精度(99.87\%$)とFewショット表示({epoch = 5})における最適結果(検証セットとテストセットの両方において100.00\%$)が得られた。

Lung cancer is the leading cause of cancer-related death worldwide. Lung adenocarcinoma (LUAD) and lung squamous cell carcinoma (LUSC) are the most common histologic subtypes of non-small-cell lung cancer (NSCLC). Histology is an essential tool for lung cancer diagnosis. Pathologists make classifications according to the dominant subtypes. Although morphology remains the standard for diagnosis, significant tool needs to be developed to elucidate the diagnosis. In our study, we utilize the pre-trained Vision Transformer (ViT) model to classify multiple label lung cancer on histologic slices (from dataset LC25000), in both Zero-Shot and Few-Shot settings. Then we compare the performance of Zero-Shot and Few-Shot ViT on accuracy, precision, recall, sensitivity and specificity. Our study show that the pre-trained ViT model has a good performance in Zero-Shot setting, a competitive accuracy ($99.87\%$) in Few-Shot setting ({epoch = 1}) and an optimal result ($100.00\%$ on both validation set and test set) in Few-Shot seeting ({epoch = 5}).
翻訳日:2022-06-01 11:44:03 公開日:2022-05-31
# V-Doc : 文書による視覚的質問

V-Doc : Visual questions answers with Documents ( http://arxiv.org/abs/2205.13724v2 )

ライセンス: Link先を確認
Yihao Ding, Zhe Huang, Runlin Wang, Yanhang Zhang, Xianru Chen, Yuzhong Ma, Hyunsuk Chung and Soyeon Caren Han(参考訳) 本稿では,文書画像とPDFを用いた質問応答ツールであるV-Docを提案する。 V-Docは、文書イメージを使用して抽出的および抽象的な問合せペアの生成と使用をサポートする。 抽出QAは、文書内容からトークンまたはフレーズのサブセットを選択して回答を予測する一方、抽象QAは内容中の言語を認識し、訓練されたモデルに基づいて回答を生成する。 どちらの側面も、特に画像フォーマットで文書を理解するのに不可欠である。 抽象的なQAタスクに対する質問生成の詳細なシナリオを含める。 V-Docは幅広いデータセットとモデルをサポートし、宣言的なフレームワークに依存しないプラットフォームを通じて非常に拡張性が高い。

We propose V-Doc, a question-answering tool using document images and PDF, mainly for researchers and general non-deep learning experts looking to generate, process, and understand the document visual question answering tasks. The V-Doc supports generating and using both extractive and abstractive question-answer pairs using documents images. The extractive QA selects a subset of tokens or phrases from the document contents to predict the answers, while the abstractive QA recognises the language in the content and generates the answer based on the trained model. Both aspects are crucial to understanding the documents, especially in an image format. We include a detailed scenario of question generation for the abstractive QA task. V-Doc supports a wide range of datasets and models, and is highly extensible through a declarative, framework-agnostic platform.
翻訳日:2022-06-01 11:43:37 公開日:2022-05-31
# L3Cube-MahaNLP:Marat hi自然言語処理データセット、モデル、ライブラリ

L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models, and Library ( http://arxiv.org/abs/2205.14728v2 )

ライセンス: Link先を確認
Raviraj Joshi(参考訳) インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。 さらに、人気のあるNLPライブラリは、Marathi言語をサポートしていない。 L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目指している。 我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。 また,教師なし言語モデリングタスクのための単言語Marathiコーパスも公開している。 全体として、MahaCorpus、MahaSent、MahaNER、MahaHateのデータセットとその対応するMahaBERTモデルをこれらのデータセットで微調整する。 ベンチマークデータセットに先んじて、Marathiの有用なリソースを準備したいと思っています。 リソースはhttps://github.com/l 3cube-pune/MarathiNL Pで入手できる。

Despite being the third most popular language in India, the Marathi language lacks useful NLP resources. Moreover, popular NLP libraries do not have support for the Marathi language. With L3Cube-MahaNLP, we aim to build resources and a library for Marathi natural language processing. We present datasets and transformer models for supervised tasks like sentiment analysis, named entity recognition, and hate speech detection. We have also published a monolingual Marathi corpus for unsupervised language modeling tasks. Overall we present MahaCorpus, MahaSent, MahaNER, and MahaHate datasets and their corresponding MahaBERT models fine-tuned on these datasets. We aim to move ahead of benchmark datasets and prepare useful resources for Marathi. The resources are available at https://github.com/l 3cube-pune/MarathiNL P.
翻訳日:2022-06-01 11:43:26 公開日:2022-05-31
# 不変表現によるPAC一般化

PAC Generalization via Invariant Representations ( http://arxiv.org/abs/2205.15196v2 )

ライセンス: Link先を確認
Advait Parulekar, Karthikeyan Shanmugam, Sanjay Shakkottai(参考訳) 多様なトレーニング環境で提示された機械学習タスクに対する一般化可能なソリューションの1つは、データの不変表現を見つけることである。 これらは共変量の表現であり、表現の上の最良のモデルは訓練環境間で不変である。 線形構造方程式モデル(SEM)の文脈では、不変表現は分布外保証付きモデル、すなわちSEMの介入に対して堅牢なモデルを学ぶことができる。 有限標本集合における不変表現問題に対処するために、$\epsilon$-approxima te invariance という概念を考える。 我々は、ある表現が与えられた訓練介入の数に対して大まかに不変であるなら、その表現は、より大きなsemの集合に対して大まかに不変となるだろうか? このより大きなsemのコレクションはパラメータ化された介入のファミリーによって生成される。 PAC学習に触発されて、忠実性の仮定を伴わない線形SEMの族に対して確率的に保たれる近似不変性に対する有限サンプル分布一般化保証を得る。 この結果から, 介入部位が非次境界ノードの一定サイズの部分集合内にある場合に, 周囲次元でスケールしない境界が示された。 また, 潜在変数を組み込んだ線形間接観測モデルに結果を拡張する方法を示す。

One method for obtaining generalizable solutions to machine learning tasks when presented with diverse training environments is to find invariant representations of the data. These are representations of the covariates such that the best model on top of the representation is invariant across training environments. In the context of linear Structural Equation Models (SEMs), invariant representations might allow us to learn models with out-of-distribution guarantees, i.e., models that are robust to interventions in the SEM. To address the invariant representation problem in a finite sample setting, we consider the notion of $\epsilon$-approxima te invariance. We study the following question: If a representation is approximately invariant with respect to a given number of training interventions, will it continue to be approximately invariant on a larger collection of unseen SEMs? This larger collection of SEMs is generated through a parameterized family of interventions. Inspired by PAC learning, we obtain finite-sample out-of-distribution generalization guarantees for approximate invariance that holds probabilistically over a family of linear SEMs without faithfulness assumptions. Our results show bounds that do not scale in ambient dimension when intervention sites are restricted to lie in a constant size subset of in-degree bounded nodes. We also show how to extend our results to a linear indirect observation model that incorporates latent variables.
翻訳日:2022-06-01 11:43:12 公開日:2022-05-31
# 粒状一般化可変精度粗集合と合理的近似

Granular Generalized Variable Precision Rough Sets and Rational Approximations ( http://arxiv.org/abs/2205.14365v2 )

ライセンス: Link先を確認
Mani A and Sushmita Mitra(参考訳) 近年の研究論文において、第一著者により、粒度の次数集合とその一般化に合理的近似を導入、研究している。 合理性の概念は、文脈で用いられる粒度、部分的視点、近似の間の関係するオントロジーとコヒーレンスによって決定される。 また、前述の論文(s)で、彼女によってフレームワークが紹介されている。 VPRSの手順に従って構築された粒状近似は、ある条件下で古典的な視点から構築されたものよりも合理的である可能性が高い。 これは前者のいくつかの一般化に対して継続されるが、そのような条件の形式的特徴付けは以前に出版された文献では利用できない。 本研究では, 問題の理論的側面を批判的に検討し, 粒状vprの一様一般化を導入し, 粒状粗さ集合との新たな接続を証明し, 実質的部分集合の適切な概念を導入し, フレームワークとの互換性の程度にアクセスする。 さらに,クラスタ検証,画像分割,動的ソートなどのメタ応用が提案されている。 基本的な仮定が説明され、可読性のための追加の例が構築される。

Rational approximations are introduced and studied in granular graded sets and generalizations thereof by the first author in recent research papers. The concept of rationality is determined by related ontologies and coherence between granularity, parthood perspective and approximations used in the context. In addition, a framework is introduced by her in the mentioned paper(s). Granular approximations constructed as per the procedures of VPRS are likely to be more rational than those constructed from a classical perspective under certain conditions. This may continue to hold for some generalizations of the former; however, a formal characterization of such conditions is not available in the previously published literature. In this research, theoretical aspects of the problem are critically examined, uniform generalizations of granular VPRS are introduced, new connections with granular graded rough sets are proved, appropriate concepts of substantial parthood are introduced, and their extent of compatibility with the framework is accessed. Furthermore, meta applications to cluster validation, image segmentation and dynamic sorting are invented. Basic assumptions made are explained, and additional examples are constructed for readability.
翻訳日:2022-06-01 11:42:47 公開日:2022-05-31
# 双方向最適化はループから利益を得るか

Will Bilevel Optimizers Benefit from Loops ( http://arxiv.org/abs/2205.14224v2 )

ライセンス: Link先を確認
Kaiyi Ji, Mingrui Liu, Yingbin Liang, Lei Ying(参考訳) バイレベル最適化は、さまざまな機械学習問題を解決する強力なツールとして生まれました。 現在一般的な2レベル最適化ツールである aid-bio と itd-bio の2つは、自然に1つまたは2つのサブプロブレムを解決し、その結果、これらの問題をループ(多くのイテレーションが必要)で解決するか、ループ(数回のイテレーションしか要らない)なしで解決するかは、全体的な計算効率に大きな影響を与えます。 文献における既存の研究は、これらの実装選択のいくつかのみをカバーしており、利用可能な複雑さの境界は、異なる実装間で厳密な比較を可能にするには不十分である。 本稿では,まず,AID-BiOとITD-BiOの両方に対して,ループのすべての実装選択に適用可能な統一収束解析を確立する。 次に、各実装の計算複雑性を特徴付けるために結果の専門化を行い、その比較を明示する。 その結果,aid-bioでは,内部関数の最適点を推定するループは全体の効率に有益であるが,更新ステップごとに複雑度が高くなり,外層ヘッセン逆ベクトル積を近似するループは勾配複雑性を減少させることがわかった。 itd-bioでは、2つのループは常に共存しており、上界と下界の収束は、そのようなループが消滅する収束誤差を保証するために必要であることを示している。 我々の数値実験は我々の理論結果をさらに裏付ける。

Bilevel optimization has arisen as a powerful tool for solving a variety of machine learning problems. Two current popular bilevel optimizers AID-BiO and ITD-BiO naturally involve solving one or two sub-problems, and consequently, whether we solve these problems with loops (that take many iterations) or without loops (that take only a few iterations) can significantly affect the overall computational efficiency. Existing studies in the literature cover only some of those implementation choices, and the complexity bounds available are not refined enough to enable rigorous comparison among different implementations. In this paper, we first establish unified convergence analysis for both AID-BiO and ITD-BiO that are applicable to all implementation choices of loops. We then specialize our results to characterize the computational complexity for all implementations, which enable an explicit comparison among them. Our result indicates that for AID-BiO, the loop for estimating the optimal point of the inner function is beneficial for overall efficiency, although it causes higher complexity for each update step, and the loop for approximating the outer-level Hessian-inverse-vect or product reduces the gradient complexity. For ITD-BiO, the two loops always coexist, and our convergence upper and lower bounds show that such loops are necessary to guarantee a vanishing convergence error, whereas the no-loop scheme suffers from an unavoidable non-vanishing convergence error. Our numerical experiments further corroborate our theoretical results.
翻訳日:2022-06-01 11:42:30 公開日:2022-05-31
# マルコフポテンシャルゲームにおける独立学習と分散学習

Independent and Decentralized Learning in Markov Potential Games ( http://arxiv.org/abs/2205.14590v2 )

ライセンス: Link先を確認
Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry(参考訳) マルチエージェント強化学習ダイナミクスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束特性を解析する。 我々は、プレイヤーが現実の状態とそれぞれの報酬を各ステージでのみ観察できる、独立的で分散化された設定に焦点を当てる。 プレイヤーはゲームモデルについての知識がなく、互いに協調することができない。 学習力学の各段階において、プレイヤーは、現実の1段階の報酬に基づいて、各時点の報酬を非同期に評価する摂動Q関数の見積を更新する。 そして、プレイヤーは、推定Q-関数に基づいて、スムーズな最適1段偏差戦略を組み込むことで、それぞれのポリシーを独立に更新する。 学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。 学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおいて定常ナッシュ平衡に収束することを示す。 この結果は,2つの時間スケール非同期確率近似の理論と,マルコフポテンシャルゲームにおける方針更新の軌跡に沿ったポテンシャル関数の単調性に関する新しい解析に基づいている。

We propose a multi-agent reinforcement learning dynamics, and analyze its convergence properties in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players can only observe the realized state and their own reward in every stage. Players do not have knowledge of the game model, and cannot coordinate with each other. In each stage of our learning dynamics, players update their estimate of a perturbed Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating a smoothed optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to a stationary Nash equilibrium in Markov potential games with probability 1. Our results build on the theory of two timescale asynchronous stochastic approximation, and new analysis on the monotonicity of potential function along the trajectory of policy updates in Markov potential games.
翻訳日:2022-06-01 11:42:01 公開日:2022-05-31