このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211209となっている論文です。

PDF登録状況(公開日: 20211209)

TitleAuthorsAbstract論文公表日・翻訳日
# ターゲット空間における深層学習

Deep Learning in Target Space ( http://arxiv.org/abs/2006.01578v3 )

ライセンス: Link先を確認
Michael Fairbank, Spyridon Samothrakis and Luca Citi(参考訳) ディープラーニングは、重みによってパラメータ化されるニューラルネットワークを使用する。 ニューラルネットワークは通常、与えられた損失関数を直接最小化するために重みをチューニングすることで訓練される。 本稿では,ネットワーク内の個々のノードの発火強度を目標に再パラメータ化することを提案する。 一組の目標が与えられると、その目標に最も適した射撃力を与える重みを計算することができる。 トレーニングにターゲットを使用することで、カスケードアンタングリングと呼ばれるプロセスによって、勾配の爆発の問題に対処し、損失関数表面をトラバースに滑らかにすることで、ニューラルネットワークの容易で高速なトレーニング、そして潜在的によりよい一般化につながる、と論じている。 また、より深い再帰的なネットワーク構造の学習を容易にする。 目標から重み付けへの必要な変換は余分な計算コストで行われ、多くの場合、管理可能である。 ターゲット空間での学習は、追加利益のために既存のニューラルネットワークオプティマイザと組み合わせることができる。 実験結果から,対象空間の利用速度,完全接続ネットワークや畳み込みネットワークの一般化向上例,長時間のシーケンスをリコール・処理し,再帰的なネットワークで自然言語処理を行う能力などが示された。

Deep learning uses neural networks which are parameterised by their weights. The neural networks are usually trained by tuning the weights to directly minimise a given loss function. In this paper we propose to re-parameterise the weights into targets for the firing strengths of the individual nodes in the network. Given a set of targets, it is possible to calculate the weights which make the firing strengths best meet those targets. It is argued that using targets for training addresses the problem of exploding gradients, by a process which we call cascade untangling, and makes the loss-function surface smoother to traverse, and so leads to easier, faster training, and also potentially better generalisation, of the neural network. It also allows for easier learning of deeper and recurrent network structures. The necessary conversion of targets to weights comes at an extra computational expense, which is in many cases manageable. Learning in target space can be combined with existing neural-network optimisers, for extra gain. Experimental results show the speed of using target space, and examples of improved generalisation, for fully-connected networks and convolutional networks, and the ability to recall and process long time sequences and perform natural-language processing with recurrent networks.
翻訳日:2022-11-25 23:44:52 公開日:2021-12-09
# 時系列アプリケーションシステムにおけるデータ変換と逆ロバスト性とのジレンマ

The Dilemma Between Data Transformations and Adversarial Robustness for Time Series Application Systems ( http://arxiv.org/abs/2006.10885v2 )

ライセンス: Link先を確認
Sheila Alemany, Niki Pissinou(参考訳) 敵の例、あるいは攻撃者が生成したほぼ区別できない入力は、機械学習の精度を著しく低下させる。 理論的証拠は、データセットの内在的な高次元性は、分類モデルにおいて効果的な敵例を開発する敵の能力を促進することを示している。 学習モデルへのデータの提示は、そのパフォーマンスに影響を与える。 例えば、機械学習アプリケーションにおける特徴の一般化を支援するために使われる次元削減技術を通してこれを見てきた。 このように、データ変換技術は、インテリジェント医療や軍事システムといった意思決定アプリケーションにおける最先端の学習モデルと密接に連携する。 本研究では,特徴選択や次元減少,トレンド抽出といったデータ変換技術が,繰り返しニューラルネットワーク上で効果的な対向サンプルを作成する敵の能力にどのように影響するかを検討する。 具体的には、データ多様体の観点から分析し、本質的な特徴を提示する。 我々の評価は,特徴選択と傾向抽出技術がRNNの脆弱性を増加させる可能性を実証的に示している。 データ変換技術は、データセットの内在次元を近似し、余次元を最小化し、より高い多様体カバレッジを維持する場合に限り、逆例に対する脆弱性を低減する。

Adversarial examples, or nearly indistinguishable inputs created by an attacker, significantly reduce machine learning accuracy. Theoretical evidence has shown that the high intrinsic dimensionality of datasets facilitates an adversary's ability to develop effective adversarial examples in classification models. Adjacently, the presentation of data to a learning model impacts its performance. For example, we have seen this through dimensionality reduction techniques used to aid with the generalization of features in machine learning applications. Thus, data transformation techniques go hand-in-hand with state-of-the-art learning models in decision-making applications such as intelligent medical or military systems. With this work, we explore how data transformations techniques such as feature selection, dimensionality reduction, or trend extraction techniques may impact an adversary's ability to create effective adversarial samples on a recurrent neural network. Specifically, we analyze it from the perspective of the data manifold and the presentation of its intrinsic features. Our evaluation empirically shows that feature selection and trend extraction techniques may increase the RNN's vulnerability. A data transformation technique reduces the vulnerability to adversarial examples only if it approximates the dataset's intrinsic dimension, minimizes codimension, and maintains higher manifold coverage.
翻訳日:2022-11-19 13:16:19 公開日:2021-12-09
# FLUID: フレキシブルシーケンスデータのための統一評価フレームワーク

FLUID: A Unified Evaluation Framework for Flexible Sequential Data ( http://arxiv.org/abs/2007.02519v5 )

ライセンス: Link先を確認
Matthew Wallingford, Aditya Kusupati, Keivan Alizadeh-Vahid, Aaron Walsman, Aniruddha Kembhavi, Ali Farhadi(参考訳) 現在のMLメソッドは、トレーニングデータがID、大規模、ラベル付けされたときに優れている。 理想的でない条件下での学習は、依然としてオープンな課題である。 少数ショット、連続、移動、表現学習のサブフィールドは、悪条件下での学習において大きな進歩を遂げている。 これらのメソッドは、シーケンシャルに到着するデータやトレーニング例の不足など、さまざまな課題に対処するが、MLシステムが生涯にわたって直面する難しい条件は、デプロイ前に予測できないことが多い。 したがって,実践的な環境で学習する上で多くの課題に対処できる汎用MLシステムが必要である。 汎用ML手法の目標に向けた研究を促進するために,新しい統合評価フレームワークであるFLUID(Flexible Sequential Data)を導入する。 FLUIDは、これらのサブフィールドにまたがる技術の比較と統合を可能にしながら、少数ショット、連続、転送、表現学習の目的を統合している。 FLUIDでは、学習者はデータのストリームに直面し、自身の更新方法を選択し、新しいクラスに迅速に適応し、データ分散の変化に対処し、計算の総量を考慮しつつ、シーケンシャルな予測をしなければならない。 我々は,現在のソリューションの利点と限界に関する新たな洞察を与え,解決すべき新たな研究課題を示す,幅広い手法の実験を行う。 より一般的な手法への出発点として、FLUID上の他の評価手法よりも優れた2つの新しいベースラインを提案する。 プロジェクトページ: https://raivn.cs.washington.edu/projects/fluid/

Modern ML methods excel when training data is IID, large-scale, and well labeled. Learning in less ideal conditions remains an open challenge. The sub-fields of few-shot, continual, transfer, and representation learning have made substantial strides in learning under adverse conditions; each affording distinct advantages through methods and insights. These methods address different challenges such as data arriving sequentially or scarce training examples, however often the difficult conditions an ML system will face over its lifetime cannot be anticipated prior to deployment. Therefore, general ML systems which can handle the many challenges of learning in practical settings are needed. To foster research towards the goal of general ML methods, we introduce a new unified evaluation framework - FLUID (Flexible Sequential Data). FLUID integrates the objectives of few-shot, continual, transfer, and representation learning while enabling comparison and integration of techniques across these subfields. In FLUID, a learner faces a stream of data and must make sequential predictions while choosing how to update itself, adapt quickly to novel classes, and deal with changing data distributions; while accounting for the total amount of compute. We conduct experiments on a broad set of methods which shed new insight on the advantages and limitations of current solutions and indicate new research problems to solve. As a starting point towards more general methods, we present two new baselines which outperform other evaluated methods on FLUID. Project page: https://raivn.cs.washington.edu/projects/FLUID/.
翻訳日:2022-11-13 01:50:50 公開日:2021-12-09
# エネルギーに基づくレトロシンセシスの展望

Energy-based View of Retrosynthesis ( http://arxiv.org/abs/2007.13437v2 )

ライセンス: Link先を確認
Ruoxi Sun, Hanjun Dai, Li Li, Steven Kearnes, Bo Dai(参考訳) ターゲット分子を合成するための一連の反応物質を同定するプロセスであるレトロシンセシスは、物質設計と創薬にとって極めて重要である。 言語モデルとグラフニューラルネットワークに基づく既存の機械学習アプローチは、奨励的な結果を得た。 本稿では,エネルギー関数の異なるエネルギーモデル (EBM) としてシーケンス法とグラフ法を統一する枠組みを提案する。 この統一的な視点は、パフォーマンスの包括的な評価を通じてebmの変種について批判的な洞察を与えます。 さらに,両方向の合意を制約することにより,ベイズ前方および後方予測に対して一貫したトレーニングを行う,フレームワーク内の新しい双対型を提案する。 このモデルは、反応型が不明なテンプレートフリーアプローチに対して、最先端の性能を9.6%向上させる。

Retrosynthesis -- the process of identifying a set of reactants to synthesize a target molecule -- is of vital importance to material design and drug discovery. Existing machine learning approaches based on language models and graph neural networks have achieved encouraging results. In this paper, we propose a framework that unifies sequence- and graph-based methods as energy-based models (EBMs) with different energy functions. This unified perspective provides critical insights about EBM variants through a comprehensive assessment of performance. Additionally, we present a novel dual variant within the framework that performs consistent training over Bayesian forward- and backward-prediction by constraining the agreement between the two directions. This model improves state-of-the-art performance by 9.6% for template-free approaches where the reaction type is unknown.
翻訳日:2022-11-10 15:45:47 公開日:2021-12-09
# mpNet:大容量MIMOチャネル推定のための可変深度展開ニューラルネットワーク

mpNet: variable depth unfolded neural network for massive MIMO channel estimation ( http://arxiv.org/abs/2008.04088v3 )

ライセンス: Link先を確認
Taha Yassine (IRT b-com, Hypermedia), Luc Le Magoarou (IRT b-com, Hypermedia)(参考訳) mimo(massive multi-input multiple-output)通信システムは、データレートとエネルギー効率の両方において大きな可能性を秘めているが、多くのアンテナではチャネル推定が難しい。 物理モデルを用いることで、伝播の物理に基づく事前情報を注入することで問題を緩和することができる。 しかし,このようなモデルは仮定の単純化に重きを置き,実際には非現実的なシステム構成を正確に把握する必要がある。本論文では,大規模mimoチャネル推定用に設計された,未解決のニューラルネットワークmpnetを提案する。 オンラインでは教師なしで訓練されている。 さらにmpnetは計算効率が良く、信号対雑音比(snr)に自動的に適応する。 そこで本提案手法では,受信したデータに基づいてチャネル推定アルゴリズムを自動修正することで,物理チャネルモデルに柔軟性を付与し,実際のミリ波チャネルに適用し,完全に校正されたシステムとほぼ同等の精度でチャネル推定誤差を実現する。 また、インシデント検出と自動修正が可能で、BSは弾力性があり、環境の変化に自動的に適応できる。

Massive multiple-input multiple-output (MIMO) communication systems have a huge potential both in terms of data rate and energy efficiency, although channel estimation becomes challenging for a large number of antennas. Using a physical model allows to ease the problem by injecting a priori information based on the physics of propagation. However, such a model rests on simplifying assumptions and requires to know precisely the configuration of the system, which is unrealistic in practice.In this paper we present mpNet, an unfolded neural network specifically designed for massive MIMO channel estimation. It is trained online in an unsupervised way. Moreover, mpNet is computationally efficient and automatically adapts its depth to the signal-to-noise ratio (SNR). The method we propose adds flexibility to physical channel models by allowing a base station (BS) to automatically correct its channel estimation algorithm based on incoming data, without the need for a separate offline training phase.It is applied to realistic millimeter wave channels and shows great performance, achieving a channel estimation error almost as low as one would get with a perfectly calibrated system. It also allows incident detection and automatic correction, making the BS resilient and able to automatically adapt to changes in its environment.
翻訳日:2022-11-02 01:04:18 公開日:2021-12-09
# ISSAFE:イベントベースデータによる事故のセマンティックセグメンテーションの改善

ISSAFE: Improving Semantic Segmentation in Accidents by Fusing Event-based Data ( http://arxiv.org/abs/2008.08974v2 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen(参考訳) 全ての交通参加者の安全を確保することは、インテリジェントな車両を実用化に近づけるための前提条件である。 補助システムは、通常の条件下で高い精度を達成するだけでなく、極端な状況に対する堅牢な認識を得る必要がある。 しかしながら、物体衝突、変形、転倒などを含む交通事故は、ほとんどのトレーニングセットでは見られないが、既存のセマンティックセグメンテーションモデルの性能に大きな影響を及ぼす。 この問題に対処するために,事故シナリオにおけるセマンティックセグメンテーションに関する課題を,事故データセットDADA-segとともに提示する。 それぞれ40フレームの様々な事故シーケンスが313あり、そのうちの1つが交通事故前後の時間窓である。 セグメンテーション性能をベンチマークするために、11フレームごとに手動でアノテートする。 さらに,イベントベースのマルチモーダルセグメンテーションアーキテクチャISSAFEを提案する。 本研究は,事故時の高速移動フォアグラウンド(crash objects)の微粒化を保ちながら,有害条件下での意味セグメンテーションを安定化するための補完的情報を提供できることを示す。 提案手法は,提案評価セットにおいて,10以上の最先端セグメンテーション法を越え,+8.2%のmiou性能向上を達成している。 提案したISSAFEアーキテクチャは、Cityscapes、KITTI-360、BDD、ApolloScapeといった複数のソースデータベースで学習したモデルに対して一貫して有効であることが示されている。

Ensuring the safety of all traffic participants is a prerequisite for bringing intelligent vehicles closer to practical applications. The assistance system should not only achieve high accuracy under normal conditions, but obtain robust perception against extreme situations. However, traffic accidents that involve object collisions, deformations, overturns, etc., yet unseen in most training sets, will largely harm the performance of existing semantic segmentation models. To tackle this issue, we present a rarely addressed task regarding semantic segmentation in accidental scenarios, along with an accident dataset DADA-seg. It contains 313 various accident sequences with 40 frames each, of which the time windows are located before and during a traffic accident. Every 11th frame is manually annotated for benchmarking the segmentation performance. Furthermore, we propose a novel event-based multi-modal segmentation architecture ISSAFE. Our experiments indicate that event-based data can provide complementary information to stabilize semantic segmentation under adverse conditions by preserving fine-grain motion of fast-moving foreground (crash objects) in accidents. Our approach achieves +8.2% mIoU performance gain on the proposed evaluation set, exceeding more than 10 state-of-the-art segmentation methods. The proposed ISSAFE architecture is demonstrated to be consistently effective for models learned on multiple source databases including Cityscapes, KITTI-360, BDD and ApolloScape.
翻訳日:2022-10-27 03:52:05 公開日:2021-12-09
# 連続事象検出のための確率的ランダムインデックス化

Probabilistic Random Indexing for Continuous Event Detection ( http://arxiv.org/abs/2008.12552v3 )

ライセンス: Link先を確認
Yashank Singh, Niladri Chatterjee(参考訳) 本稿では,連続的なイベントが進行する動的シナリオにおいて,言語データのエンコードを行うためのRandom Indexing(RI)に基づく表現の新たな変種について検討する。 ワンホット符号化の一般的な方法における表現のサイズが語彙のサイズとともに線形に大きくなるにつれて、高ボリュームの動的データを持つオンライン目的にはスケールできない。 一方,既存の事前学習型埋め込みモデルは,テキストデータの動的性質から新たな事象の発生を検出するには適していない。 本研究は, RI表現のクラスにつながるランダム化エントリ数に確率分布を付与することにより, 新規なRI表現を用いてこの問題に対処する。 また、直交性の確率の観点から意味情報をエンコードする表現法の良さの厳密な分析も提供する。 これらのアイデアに基づいて,質問語と他の単語の意味的関係を追跡するために,語彙の大きさの対数線形なアルゴリズムを提案し,その単語に関連する事象を提案する。 3つのイベントに特有のツイートデータに対して提案アルゴリズムを用いてシミュレーションを行い,その結果を報告する。 提案した確率的 RI 表現は、意味的関係を描写する精度を維持しながら、Bag of Words (BoW) の埋め込みよりもはるかに高速でスケーラブルである。

The present paper explores a novel variant of Random Indexing (RI) based representations for encoding language data with a view to using them in a dynamic scenario where events are happening in a continuous fashion. As the size of the representations in the general method of onehot encoding grows linearly with the size of the vocabulary, they become non-scalable for online purposes with high volumes of dynamic data. On the other hand, existing pre-trained embedding models are not suitable for detecting happenings of new events due to the dynamic nature of the text data. The present work addresses this issue by using a novel RI representation by imposing a probability distribution on the number of randomized entries which leads to a class of RI representations. It also provides a rigorous analysis of the goodness of the representation methods to encode semantic information in terms of the probability of orthogonality. Building on these ideas we propose an algorithm that is log-linear with the size of vocabulary to track the semantic relationship of a query word to other words for suggesting the events that are relevant to the word in question. We ran simulations using the proposed algorithm for tweet data specific to three different events and present our findings. The proposed probabilistic RI representations are found to be much faster and scalable than Bag of Words (BoW) embeddings while maintaining accuracy in depicting semantic relationships.
翻訳日:2022-10-24 01:19:42 公開日:2021-12-09
# Qibo:ハードウェアアクセラレーションによる量子シミュレーションのためのフレームワーク

Qibo: a framework for quantum simulation with hardware acceleration ( http://arxiv.org/abs/2009.01845v2 )

ライセンス: Link先を確認
Stavros Efthymiou, Sergi Ramos-Calderer, Carlos Bravo-Prieto, Adri\'an P\'erez-Salinas, Diego Garc\'ia-Mart\'in, Artur Garcia-Saez, Jos\'e Ignacio Latorre, Stefano Carrazza(参考訳) ハードウェアアクセラレータをフル活用した量子回路と断熱的進化を高速に評価するための,新たなオープンソースソフトウェアであるQiboを紹介する。 量子コンピューティングへの関心の高まりと最近の量子ハードウェアデバイスの発展は、パフォーマンスと使用の単純さに焦点を当てた新しい高度な計算ツールの開発を動機付けている。 本稿では,ハードウェアやプラットフォーム実装の複雑な部分をすべてライブラリに委譲し,問題や手元にある量子アルゴリズムに焦点を合わせることを可能にする,新たな量子シミュレーションフレームワークを提案する。 このソフトウェアは、シミュレーション性能、コードの単純さ、ユーザフレンドリーなインターフェースを目標とするゼロから設計されている。 マルチスレッドCPU、シングルGPU、マルチGPUデバイスなどのハードウェアアクセラレーションを利用する。

We present Qibo, a new open-source software for fast evaluation of quantum circuits and adiabatic evolution which takes full advantage of hardware accelerators. The growing interest in quantum computing and the recent developments of quantum hardware devices motivates the development of new advanced computational tools focused on performance and usage simplicity. In this work we introduce a new quantum simulation framework that enables developers to delegate all complicated aspects of hardware or platform implementation to the library so they can focus on the problem and quantum algorithms at hand. This software is designed from scratch with simulation performance, code simplicity and user friendly interface as target goals. It takes advantage of hardware acceleration such as multi-threading CPU, single GPU and multi-GPU devices.
翻訳日:2022-10-22 08:16:40 公開日:2021-12-09
# 実験バイアス下における化学特性予測

Chemical Property Prediction Under Experimental Biases ( http://arxiv.org/abs/2009.08687v3 )

ライセンス: Link先を確認
Yang Liu and Hisashi Kashima(参考訳) 化合物の化学的性質の予測は、特定の望ましい特性を持つ新規な物質や薬物の発見に不可欠である。 機械学習技術の最近の顕著な進歩は、文献に報告された過去の実験データから自動予測モデリングを可能にした。 しかし、これらのデータセットは、実験計画や公開決定など、さまざまな理由により偏りがしばしばあり、これらの偏りのあるデータセットを使って訓練された予測モデルは、偏りのある分布に過剰に適合し、その後の用途に悪影響を与えることが多い。 そこで本研究では,実験データセットのバイアス軽減に焦点を当てた。 因果推論と,分子構造を表現するグラフニューラルネットワークを組み合わせた2つの手法を採用した。 4つのバイアスシナリオによる実験結果から,逆確率スコア法と反実回帰法が絶対的改善を示した。

Predicting the chemical properties of compounds is crucial in discovering novel materials and drugs with specific desired characteristics. Recent significant advances in machine learning technologies have enabled automatic predictive modeling from past experimental data reported in the literature. However, these datasets are often biased because of various reasons, such as experimental plans and publication decisions, and the prediction models trained using such biased datasets often suffer from over-fitting to the biased distributions and perform poorly on subsequent uses. Hence, this study focused on mitigating bias in the experimental datasets. We adopted two techniques from causal inference combined with graph neural networks that can represent molecular structures. The experimental results in four possible bias scenarios indicated that the inverse propensity scoring-based method and the counter-factual regression-based method made solid improvements.
翻訳日:2022-10-17 03:33:03 公開日:2021-12-09
# 非現実的な刺激からリアルなパターンを学ぶ:一般化とデータ匿名化

Learning Realistic Patterns from Unrealistic Stimuli: Generalization and Data Anonymization ( http://arxiv.org/abs/2009.10007v2 )

ライセンス: Link先を確認
Konstantinos Nikolaidis, Stein Kristiansen, Thomas Plagemann, Vera Goebel, Knut Liest{\o}l, Mohan Kankanhalli, Gunn Marit Traaen, Britt {\O}verland, Harriet Akre, Lars Aaker{\o}y, Sigurd Steinshamn(参考訳) 優れたトレーニングデータは、有用なMLアプリケーションを開発するための前提条件である。 しかし、多くの分野において、既存のデータセットはプライバシー規則(例えば医学研究)によって共有できない。 本研究は、匿名化データ合成のための単純かつ非慣習的なアプローチを調査し、第三者がそのようなプライベートデータから恩恵を受けられるようにする。 我々は、訓練された深層ニューラルネットワーク(DNN)のニューロンを刺激することによって合成される非現実的タスク関連刺激から暗黙的に学習する可能性を探る。 したがって、神経細胞の励起は擬似生成モデルとして機能する。 刺激データは、新しい分類モデルのトレーニングに使用される。 さらに、この枠組みを拡張し、特定の個人に関連する表現を抑制する。 オープンおよび大規模臨床研究の睡眠モニタリングデータを用いて,(1)エンドユーザーが睡眠時無呼吸検出のためにカスタマイズされた分類モデルを作成し,有効活用できるかどうかを評価し,(2)研究参加者の身元を保護した。 広範囲にわたる比較実験により、刺激で訓練された異なるアルゴリズムが元のモデルと同じタスクでうまく一般化できることが示されている。 しかし、新しいモデルとオリジナルモデルのアーキテクチャ的およびアルゴリズム的類似性は、パフォーマンスにおいて重要な役割を果たす。 類似したアーキテクチャでは、真のデータ(例えば 0.56\% の精度差、 0.03-0.04 のkappa係数差)を使うパフォーマンスに近い。 さらなる実験により、この刺激は臨床研究の参加者をかなりうまく匿名化できることが示されている。

Good training data is a prerequisite to develop useful ML applications. However, in many domains existing data sets cannot be shared due to privacy regulations (e.g., from medical studies). This work investigates a simple yet unconventional approach for anonymized data synthesis to enable third parties to benefit from such private data. We explore the feasibility of learning implicitly from unrealistic, task-relevant stimuli, which are synthesized by exciting the neurons of a trained deep neural network (DNN). As such, neuronal excitation serves as a pseudo-generative model. The stimuli data is used to train new classification models. Furthermore, we extend this framework to inhibit representations that are associated with specific individuals. We use sleep monitoring data from both an open and a large closed clinical study and evaluate whether (1) end-users can create and successfully use customized classification models for sleep apnea detection, and (2) the identity of participants in the study is protected. Extensive comparative empirical investigation shows that different algorithms trained on the stimuli are able generalize successfully on the same task as the original model. However, architectural and algorithmic similarity between new and original models play an important role in performance. For similar architectures, the performance is close to that of using the true data (e.g., Accuracy difference of 0.56\%, Kappa coefficient difference of 0.03-0.04). Further experiments show that the stimuli can to a large extent successfully anonymize participants of the clinical studies.
翻訳日:2022-10-16 04:24:30 公開日:2021-12-09
# ニューラルセマンティックパーザの更新における競合データ克服

Overcoming Conflicting Data when Updating a Neural Semantic Parser ( http://arxiv.org/abs/2010.12675v3 )

ライセンス: Link先を確認
David Gaddy, Alex Kouzemtchenko, Pavankumar Reddy Muddireddy, Prateek Kolhar, and Rushin Shah(参考訳) 本稿では,いくつかの例の所望のアウトプットが変更された場合にタスク指向意味解析モデルを更新するために,少量の新しいデータをどのように利用するかを検討する。 このように更新を行う場合、潜在的な問題の一つは、競合するデータの存在、あるいは元のトレーニングセットで古いラベルの存在である。 そこで本研究では,ニューラルネットワークのセマンティックパーザの変更をシミュレートする実験装置を提案する。 矛盾するデータの存在が更新の学習を著しく妨げていることを示し、その影響を軽減するためにいくつかの方法を模索する。 当社のマルチタスクとデータ選択手法は,ナイーブなデータ混合戦略と比較して,モデルの精度を大幅に向上させると同時に,このベースラインとoracleの上限との精度ギャップの86%を最善の方法で閉じます。

In this paper, we explore how to use a small amount of new data to update a task-oriented semantic parsing model when the desired output for some examples has changed. When making updates in this way, one potential problem that arises is the presence of conflicting data, or out-of-date labels in the original training set. To evaluate the impact of this understudied problem, we propose an experimental setup for simulating changes to a neural semantic parser. We show that the presence of conflicting data greatly hinders learning of an update, then explore several methods to mitigate its effect. Our multi-task and data selection methods lead to large improvements in model accuracy compared to a naive data-mixing strategy, and our best method closes 86% of the accuracy gap between this baseline and an oracle upper bound.
翻訳日:2022-10-03 21:40:57 公開日:2021-12-09
# 中間層エンコーダ層を用いた脳腫瘍の分類

Brain Tumor Classification Using Medial Residual Encoder Layers ( http://arxiv.org/abs/2011.00628v2 )

ライセンス: Link先を確認
Zahra SobhaniNia, Nader Karimi, Pejman Khadivi, Roshank Roshandel, Shadrokh Samavi(参考訳) 世界保健機関(WHO)によると、2018年だけで950万人以上が死亡し、がんは世界で2番目に大きな死因となっている。 脳腫瘍は4つのがん死亡のうち1つを数えている。 したがって、脳腫瘍の正確なタイムリーな診断は、より効果的な治療につながる。 医師は,脳外科手術による生検手術のみで脳腫瘍を分類し,腫瘍の種類を診断した後,患者に対して治療計画を検討する。 機械学習アルゴリズムに基づく自動システムにより、医師は非侵襲的な手段で脳腫瘍を診断することができる。 これまで,診断と治療を支援する画像分類手法がいくつか提案されてきた。 本研究における脳腫瘍分類には,エンコーダブロックを含む深層学習に基づくシステムを提案する。 これらのブロックは、残差学習として、マックスプール後の機能で供給される。 MRI画像の腫瘍分類精度を, 限られた医用画像データセットを用いて向上させることにより, 有望な結果が得られた。 3064 mr画像からなるデータセットにおけるこのモデルの実験的評価は95.98%の精度を示し、このデータベースの以前の研究よりも優れている。

According to the World Health Organization (WHO), cancer is the second leading cause of death worldwide, responsible for over 9.5 million deaths in 2018 alone. Brain tumors count for one out of every four cancer deaths. Therefore, accurate and timely diagnosis of brain tumors will lead to more effective treatments. Physicians classify brain tumors only with biopsy operation by brain surgery, and after diagnosing the type of tumor, a treatment plan is considered for the patient. Automatic systems based on machine learning algorithms can allow physicians to diagnose brain tumors with noninvasive measures. To date, several image classification approaches have been proposed to aid diagnosis and treatment. For brain tumor classification in this work, we offer a system based on deep learning, containing encoder blocks. These blocks are fed with post-max-pooling features as residual learning. Our approach shows promising results by improving the tumor classification accuracy in Magnetic resonance imaging (MRI) images using a limited medical image dataset. Experimental evaluations of this model on a dataset consisting of 3064 MR images show 95.98% accuracy, which is better than previous studies on this database.
翻訳日:2022-09-30 23:57:19 公開日:2021-12-09
# ディープラーニング技術によるマルチドキュメント要約:調査

Multi-document Summarization via Deep Learning Techniques: A Survey ( http://arxiv.org/abs/2011.04843v3 )

ライセンス: Link先を確認
Congbo Ma, Wei Emma Zhang, Mingyu Guo, Hu Wang, Quan Z. Sheng(参考訳) マルチドキュメント要約(MDS)は、トピック関連の文書群から情報的かつ簡潔な要約を生成する情報集約の有効なツールである。 私たちの調査は、この種の最初のもので、最近のディープラーニングに基づくMDSモデルについて体系的に概説している。 本稿では,ニューラルネットワークの設計戦略を要約し,最先端の総合的な要約を行うための新しい分類法を提案する。 既存の文献ではほとんど議論されない様々な目的関数の違いを強調する。 最後に、この新しくエキサイティングな分野に関する今後の方向性をいくつか提案する。

Multi-document summarization (MDS) is an effective tool for information aggregation that generates an informative and concise summary from a cluster of topic-related documents. Our survey, the first of its kind, systematically overviews the recent deep learning based MDS models. We propose a novel taxonomy to summarize the design strategies of neural networks and conduct a comprehensive summary of the state-of-the-art. We highlight the differences between various objective functions that are rarely discussed in the existing literature. Finally, we propose several future directions pertaining to this new and exciting field.
翻訳日:2022-09-27 06:39:41 公開日:2021-12-09
# ピンボール損失を超える:不確かさの校正のための量的方法

Beyond Pinball Loss: Quantile Methods for Calibrated Uncertainty Quantification ( http://arxiv.org/abs/2011.09588v4 )

ライセンス: Link先を確認
Youngseog Chung, Willie Neiswanger, Ian Char, Jeff Schneider(参考訳) 回帰設定における不確実性を定量化する多くの方法の中で、完全量子化関数の指定は、量子化関数の解釈と評価が可能であるため魅力的である。 各入力に対する真の条件量子化を予測するモデルは、全ての量子化レベルにおいて、基礎となる不確実性の正しい効率的な表現を示す。 これを達成するために、多くの現在の量子的手法はいわゆるピンボール損失の最適化に重点を置いている。 しかし、この損失は適用可能な回帰モデルの範囲を制限し、多くの望ましい特性(例えば、キャリブレーション、シャープネス、中心間隔)をターゲットにする能力を制限する。 本研究では,これらの欠点に対処する新しい量子的手法を提案する。 特に,どのような回帰モデルにも適用可能な手法を提案し,キャリブレーションとシャープネスのトレードオフを選定し,中心間隔のキャリブレーションを最適化し,より正確な条件量を生成する。 核融合における高次元不確実性定量化タスクを含む,本手法の徹底的な実験評価を行う。

Among the many ways of quantifying uncertainty in a regression setting, specifying the full quantile function is attractive, as quantiles are amenable to interpretation and evaluation. A model that predicts the true conditional quantiles for each input, at all quantile levels, presents a correct and efficient representation of the underlying uncertainty. To achieve this, many current quantile-based methods focus on optimizing the so-called pinball loss. However, this loss restricts the scope of applicable regression models, limits the ability to target many desirable properties (e.g. calibration, sharpness, centered intervals), and may produce poor conditional quantiles. In this work, we develop new quantile methods that address these shortcomings. In particular, we propose methods that can apply to any class of regression model, allow for selecting a trade-off between calibration and sharpness, optimize for calibration of centered intervals, and produce more accurate conditional quantiles. We provide a thorough experimental evaluation of our methods, which includes a high dimensional uncertainty quantification task in nuclear fusion.
翻訳日:2022-09-24 03:38:07 公開日:2021-12-09
# BlindsightとAIの関連: レビュー

Relating Blindsight and AI: A Review ( http://arxiv.org/abs/2201.00616v1 )

ライセンス: Link先を確認
Joshua Bensemann, Qiming Bao, Ga\"el Gendron, Tim Hartill, Michael Witbrock(参考訳) 脳、すなわち生物学的ニューラルネットワークで発生するプロセスは、ニューラルネットワークアーキテクチャ内でモデル化することができる。 そこで我々は,人工知能モデルのためのアイデアを創出する試みとして,視覚現象の研究のレビューを行った。 Blindsightは、視覚経験の減少形と見なすことができる。 もし、ニューラルネットワークが視覚経験の形式を持たないと仮定すると、視覚障害者による欠陥は、人工ニューラルネットワークに組み込むことのできる視覚経験内で起こるプロセスについての洞察を与える。 この記事は3部に分かれている。 第2節は目視研究のレビューであり、通常の視覚と比較して、この状態の間に発生するエラーを特に検討している。 セクション3は、ビジョンの計算モデルに対する洞察を生み出すために、セクション2から全体的なパターンを識別する。 第4節は,第3節で発生した知見の1つに関連する視覚的注意の計算モデルを調べることにより,人工知能研究に影響を及ぼす生物学的研究の活用を実証する。 第4節で取り上げた研究は、計算ビジョンに私たちの洞察の1つを組み込むことが、これらのモデルに利益をもたらすことを示している。 他の洞察が有益かどうかを判断するには、今後の研究が必要です。

Processes occurring in brains, a.k.a. biological neural networks, can and have been modeled within artificial neural network architectures. Due to this, we have conducted a review of research on the phenomenon of blindsight in an attempt to generate ideas for artificial intelligence models. Blindsight can be considered as a diminished form of visual experience. If we assume that artificial networks have no form of visual experience, then deficits caused by blindsight give us insights into the processes occurring within visual experience that we can incorporate into artificial neural networks. This article has been structured into three parts. Section 2 is a review of blindsight research, looking specifically at the errors occurring during this condition compared to normal vision. Section 3 identifies overall patterns from Section 2 to generate insights for computational models of vision. Section 4 demonstrates the utility of examining biological research to inform artificial intelligence research by examining computation models of visual attention relevant to one of the insights generated in Section 3. The research covered in Section 4 shows that incorporating one of our insights into computational vision does benefit those models. Future research will be required to determine whether our other insights are as valuable.
翻訳日:2022-01-09 13:24:12 公開日:2021-12-09
# E2E ASRモデルは工業利用の準備が整っているか?

Are E2E ASR models ready for an industrial usage? ( http://arxiv.org/abs/2112.12572v1 )

ライセンス: Link先を確認
Valentin Vielzeuf, Grigory Antipov(参考訳) 自動音声認識(ASR)コミュニティは、完全ニューロン(End-to-End, E2E)アプローチの台頭とともに大きな転換点を経験している。 同時に、従来のハイブリッドモデルがASRの実用的利用の標準選択として残っている。 以前の研究によると、現実世界のアプリケーションにおけるE2E ASRの採用は、目に見えないドメインを一般化する能力と高い運用コストという2つの大きな制限によって妨げられた。 本稿では,複数の現代E2Eモデルとハイブリッドベースラインの総合的マルチドメインベンチマークを行うことにより,上記の両方の欠点を考察する。 実験により,E2Eモデルはハイブリッドアプローチの代替として有効であり,精度と操作効率の両方でベースラインを上回ります。 その結果, 一般化と複雑性の問題が産業統合の大きな障害ではなく, 特定のユースケースにおけるE2Eアプローチの潜在的な限界にコミュニティの注意を向けることが示唆された。

The Automated Speech Recognition (ASR) community experiences a major turning point with the rise of the fully-neural (End-to-End, E2E) approaches. At the same time, the conventional hybrid model remains the standard choice for the practical usage of ASR. According to previous studies, the adoption of E2E ASR in real-world applications was hindered by two main limitations: their ability to generalize on unseen domains and their high operational cost. In this paper, we investigate both above-mentioned drawbacks by performing a comprehensive multi-domain benchmark of several contemporary E2E models and a hybrid baseline. Our experiments demonstrate that E2E models are viable alternatives for the hybrid approach, and even outperform the baseline both in accuracy and in operational efficiency. As a result, our study shows that the generalization and complexity issues are no longer the major obstacle for industrial integration, and draws the community's attention to other potential limitations of the E2E approaches in some specific use-cases.
翻訳日:2021-12-26 13:19:25 公開日:2021-12-09
# 個人格付けモデルによる校正確率の獲得

Obtaining Calibrated Probabilities with Personalized Ranking Models ( http://arxiv.org/abs/2112.07428v1 )

ライセンス: Link先を確認
Wonbin Kweon, SeongKu Kang, Hwanjo Yu(参考訳) パーソナライズされたランキングモデルでは、ユーザが好むアイテムの良好な校正確率は、非常に実用的価値がある。 既存の研究は、画像分類における有望な結果を示しているが、パーソナライズされたランキングでは、確率キャリブレーションはあまり研究されていない。 本稿では,ユーザがどの程度アイテムを好むかという,キャリブレーションされた確率を推定することを目的とする。 パラメトリック分布を調査し,ガウスキャリブレーションとガンマキャリブレーションという2つのパラメトリックキャリブレーション手法を提案する。 提案手法は,事前学習したモデルのランキングスコアを,推奨性能に影響を与えることなく,適切な選好確率にマップするポストプロセッシング関数と見なすことができる。 また,バイアス付きユーザ・テーマインタラクションデータセットから真の嗜好確率を学習するために,キャリブレーション手法を導く非バイアス型経験的リスク最小化フレームワークを設計した。 実世界のデータセット上での様々なパーソナライズされたランキングモデルによる広範囲な評価は、提案手法と非偏見的リスク最小化の両方がキャリブレーション性能を著しく向上させることを示している。

For personalized ranking models, the well-calibrated probability of an item being preferred by a user has great practical value. While existing work shows promising results in image classification, probability calibration has not been much explored for personalized ranking. In this paper, we aim to estimate the calibrated probability of how likely a user will prefer an item. We investigate various parametric distributions and propose two parametric calibration methods, namely Gaussian calibration and Gamma calibration. Each proposed method can be seen as a post-processing function that maps the ranking scores of pre-trained models to well-calibrated preference probabilities, without affecting the recommendation performance. We also design the unbiased empirical risk minimization framework that guides the calibration methods to learning of true preference probability from the biased user-item interaction dataset. Extensive evaluations with various personalized ranking models on real-world datasets show that both the proposed calibration methods and the unbiased empirical risk minimization significantly improve the calibration performance.
翻訳日:2021-12-19 12:26:00 公開日:2021-12-09
# (参考訳) MR画像再構成のための特異性保存フェデレーション学習

Specificity-Preserving Federated Learning for MR Image Reconstruction ( http://arxiv.org/abs/2112.05752v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng and Yunlu Yan and Huazhu Fu and Yong Xu and Ling Shao(参考訳) フェデレートラーニング(FL)は、複数の機関がローカルデータを集約することなく協力できるようにすることにより、MR画像再構成におけるデータのプライバシーと効率を改善するために用いられる。 しかし、異なるMRイメージングプロトコルによって引き起こされる領域シフトは、FLモデルの性能を著しく低下させることができる。 近年のFL技術は,グローバルモデルの一般化によりこれを解消する傾向にあるが,デバイス特性に関する重要な情報を含むドメイン固有の特徴を無視し,局所的な再構築に有用である。 本稿では,MR画像再構成(FedMRI)のための特異性保存FLアルゴリズムを提案する。 MR再構成モデルは,グローバルレベルでの汎用表現を実現するグローバル共有エンコーダと,各クライアントのドメイン固有の特性を保持するクライアント固有のデコーダの2つの部分に分けられる。 さらに、ドメインシフトが存在する場合のグローバル共有エンコーダの収束をさらに促進するため、最適化中にクライアントとサーバ間の偏差を直接補正する重み付きコントラスト正規化を導入する。 広範な実験により,fedmriの再構成結果が多施設データに最も近いことを証明し,最先端fl法を上回った。

Federated learning (FL) can be used to improve data privacy and efficiency in magnetic resonance (MR) image reconstruction by enabling multiple institutions to collaborate without needing to aggregate local data. However, the domain shift caused by different MR imaging protocols can substantially degrade the performance of FL models. Recent FL techniques tend to solve this by enhancing the generalization of the global model, but they ignore the domain-specific features, which may contain important information about the device properties and be useful for local reconstruction. In this paper, we propose a specificity-preserving FL algorithm for MR image reconstruction (FedMRI). The core idea is to divide the MR reconstruction model into two parts: a globally shared encoder to obtain a generalized representation at the global level, and a client-specific decoder to preserve the domain-specific properties of each client, which is important for collaborative reconstruction when the clients have unique distribution. Moreover, to further boost the convergence of the globally shared encoder when a domain shift is present, a weighted contrastive regularization is introduced to directly correct any deviation between the client and server during optimization. Extensive experiments demonstrate that our FedMRI's reconstructed results are the closest to the ground-truth for multi-institutional data, and that it outperforms state-of-the-art FL methods.
翻訳日:2021-12-18 21:07:06 公開日:2021-12-09
# スマートウォッチで毎日手洗いのアセスメントができる

You Can Wash Better: Daily Handwashing Assessment with Smartwatches ( http://arxiv.org/abs/2112.06657v1 )

ライセンス: Link先を確認
Fei Wang, Xilei Wu, Xin Wang, Jianlei Chi, Jingang Shi, Dong Huang(参考訳) 高級手洗いにおけるユーザの意識を高め,習慣を育む目的で手洗いを評価するための,スマートウォッチに対するインテリジェントなソリューションであるuwashを提案する。 UWashは、手洗いのオンセット/オフセットを特定し、各ジェスチャーの時間を測定し、WHOガイドラインに従って各ジェスチャーと手順全体のスコアを付けることができる。 技術的には、コンピュータビジョンにおけるセマンティックセグメンテーション問題としてのハンドウォッシングアセスメントの課題に対処し、496KBの軽量なUNetネットワークを提案する。 51人以上の被験者による実験の結果,UWashはサンプルワイドハンドウォッシングジェスチャー認識において92.27\%の精度,オンセット/オフセット検出における$<$0.5 \textit{seconds}エラー,ユーザ依存設定における100 \textit{points}エラーの$<$5が得られた。

We propose UWash, an intelligent solution upon smartwatches, to assess handwashing for the purpose of raising users' awareness and cultivating habits in high-quality handwashing. UWash can identify the onset/offset of handwashing, measure the duration of each gesture, and score each gesture as well as the entire procedure in accordance with the WHO guidelines. Technically, we address the task of handwashing assessment as the semantic segmentation problem in computer vision, and propose a lightweight UNet-like network, only 496KBits, to achieve it effectively. Experiments over 51 subjects show that UWash achieves the accuracy of 92.27\% on sample-wise handwashing gesture recognition, $<$0.5 \textit{seconds} error in onset/offset detection, and $<$5 out of 100 \textit{points} error in scoring in the user-dependent setting, while remains promising in the cross-user evaluation and in the cross-user-cross-location evaluation.
翻訳日:2021-12-14 19:19:59 公開日:2021-12-09
# 材料の接着過程の多目的シミュレーション最適化

Multi-objective simulation optimization of the adhesive bonding process of materials ( http://arxiv.org/abs/2112.06769v1 )

ライセンス: Link先を確認
Alejandro Morales-Hern\'andez, Inneke Van Nieuwenhuyse, Sebastian Rojas Gonzalez, Jeroen Jordens, Maarten Witters, and Bart Van Doninck(参考訳) 自動車企業は、新しい素材と新しいボンディングプロセスを使ってこれらの材料を結合して、製品をより軽くする方法を模索している。 このような接着プロセスの最適プロセスパラメータを見つけることは困難である。 本研究では,ガウス過程の回帰とロジスティック回帰を用いたベイズ最適化を効果的に適用し,実験の設計をパレート最適プロセスパラメータ設定に導く。

Automotive companies are increasingly looking for ways to make their products lighter, using novel materials and novel bonding processes to join these materials together. Finding the optimal process parameters for such adhesive bonding process is challenging. In this research, we successfully applied Bayesian optimization using Gaussian Process Regression and Logistic Regression, to efficiently (i.e., requiring few experiments) guide the design of experiments to the Pareto-optimal process parameter settings.
翻訳日:2021-12-14 18:22:28 公開日:2021-12-09
# 協調型マルチエージェント強化学習のためのハイパーグラフ畳み込みを用いた値関数分解

Value Function Factorisation with Hypergraph Convolution for Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2112.06771v1 )

ライセンス: Link先を確認
Yunpeng Bai, Chen Gong, Bin Zhang, Guoliang Fan, Xinwen Hou(参考訳) 近年,マルチエージェントシステム(MAS)におけるエージェント間の協調がホットな話題となり,VDNやQMIXといった分散実行(CTDE)を用いた集中学習に基づくアルゴリズムが数多く提案されている。 しかし、これらの方法は個々のアクション値に隠された情報を無視する。 本稿では,ハイパーグラフ畳み込みと値分解を組み合わせたHyperGraph CoNvolution MIX(HGCN-MIX)を提案する。 アクション値を信号として扱うことで、HGCN-MIXは自己学習ハイパーグラフを通じてこれらの信号間の関係を探究することを目指している。 実験結果から、HGCN-MIXはStarCraft IIマルチエージェントチャレンジ(SMAC)ベンチマークにおいて、様々な状況、特に多数のエージェントで、最先端技術に適合するか、超越していることがわかった。

Cooperation between agents in a multi-agent system (MAS) has become a hot topic in recent years, and many algorithms based on centralized training with decentralized execution (CTDE), such as VDN and QMIX, have been proposed. However, these methods disregard the information hidden in the individual action values. In this paper, we propose HyperGraph CoNvolution MIX (HGCN-MIX), a method that combines hypergraph convolution with value decomposition. By treating action values as signals, HGCN-MIX aims to explore the relationship between these signals via a self-learning hypergraph. Experimental results present that HGCN-MIX matches or surpasses state-of-the-art techniques in the StarCraft II multi-agent challenge (SMAC) benchmark on various situations, notably those with a number of agents.
翻訳日:2021-12-14 16:30:22 公開日:2021-12-09
# 第二モーメントとマグニチュードの活用によるAdamWの拡張

Extending AdamW by Leveraging Its Second Moment and Magnitude ( http://arxiv.org/abs/2112.06125v1 )

ライセンス: Link先を確認
Guoqiang Zhang and Niwa Kenta and W. Bastiaan Kleijn(参考訳) 最近の研究[4]は、2次微分可能関数に対する最適解の近傍におけるアダムの局所収束を分析する。 最適解の局所安定性を確保するためには,学習速度を十分に小さくする必要がある。 上記の収束結果はAdamWにも当てはまる。 本研究では,aidaと呼ばれる局所安定のための小さな学習率の要求を緩和することを目的として,adamwを2つの側面に拡張した適応最適化手法を提案する。 まず,勾配マグニチュードのp次パワーの第2モーメントr_tの追跡について検討する。 r_t は p=2 のとき adamw の v_t に減少する。 m_t をAdamW の最初の瞬間とする。 アダムW(またはアダム)の更新方向 m_{t+1}/(v_{t+1}+epsilon)^0.5 (またはm_{t+1}/(v_{t+1}^0.5+epsilon) は、大きさのベクトル |m_{t+1}|/(v_{t+1}+epsilon)^0.5 (または |m_{t+1}|/(v_{t+1}^0.5+epsilon) によって符号ベクトル記号(m_{t+1})乗算元として分解できることが知られている。 aida は |m_{t+1}|^q/(r_{t+1}+epsilon)^(q/p) (または |m_{t+1}|^q/((r_{t+1})^(q/p)+epsilon) という形でマグニチュード q のパワーを計算するように設計されている。 原点 0 を 2 つの微分可能な函数の局所最適解とする。 理論的には、aida における q>1 と p>1 のとき、原点 0 は重みが 0 でないときのみ局所安定である。 10個の玩具最適化問題の解決と2つのディープラーニング(DL)タスクのためのTransformerとSwin-Transformerのトレーニング実験を行った。 2つのDLタスクを含む)いくつかのシナリオにおいて、(p,q) の特定のセットアップが (2,1) に等しくないことが、AdamW のセットアップ (p,q)=(2,1) より優れていることを示す実証的研究である。

Recent work [4] analyses the local convergence of Adam in a neighbourhood of an optimal solution for a twice-differentiable function. It is found that the learning rate has to be sufficiently small to ensure local stability of the optimal solution. The above convergence results also hold for AdamW. In this work, we propose a new adaptive optimisation method by extending AdamW in two aspects with the purpose to relax the requirement on small learning rate for local stability, which we refer to as Aida. Firstly, we consider tracking the 2nd moment r_t of the pth power of the gradient-magnitudes. r_t reduces to v_t of AdamW when p=2. Suppose {m_t} is the first moment of AdamW. It is known that the update direction m_{t+1}/(v_{t+1}+epsilon)^0.5 (or m_{t+1}/(v_{t+1}^0.5+epsilon) of AdamW (or Adam) can be decomposed as the sign vector sign(m_{t+1}) multiplied elementwise by a vector of magnitudes |m_{t+1}|/(v_{t+1}+epsilon)^0.5 (or |m_{t+1}|/(v_{t+1}^0.5+epsilon)). Aida is designed to compute the qth power of the magnitude in the form of |m_{t+1}|^q/(r_{t+1}+epsilon)^(q/p) (or |m_{t+1}|^q/((r_{t+1})^(q/p)+epsilon)), which reduces to that of AdamW when (p,q)=(2,1). Suppose the origin 0 is a local optimal solution of a twice-differentiable function. It is found theoretically that when q>1 and p>1 in Aida, the origin 0 is locally stable only when the weight-decay is non-zero. Experiments are conducted for solving ten toy optimisation problems and training Transformer and Swin-Transformer for two deep learning (DL) tasks. The empirical study demonstrates that in a number of scenarios (including the two DL tasks), Aida with particular setups of (p,q) not equal to (2,1) outperforms the setup (p,q)=(2,1) of AdamW.
翻訳日:2021-12-14 15:48:29 公開日:2021-12-09
# 拡張カルマンフィルタによるニューラルネットワークモデルのオンライン適応化による運転行動予測のカスタマイズ

Online Adaptation of Neural Network Models by Modified Extended Kalman Filter for Customizable and Transferable Driving Behavior Prediction ( http://arxiv.org/abs/2112.06129v1 )

ライセンス: Link先を確認
Letian Wang, Yeping Hu, Changliu Liu(参考訳) 人間のドライバーの高忠実度行動予測は、人間の行動の確率性、不均一性、時間変化の性質のために困難である自動運転車の効率的かつ安全な展開に不可欠である。 一方、訓練された予測モデルは平均的な感覚でのみ運動パターンを捉えることができ、個人間のニュアンスをほとんど反映できない。 一方、トレーニングセットでトレーニングされた予測モデルは、異なるシナリオやデータ分布にあるテストセットに一般化することができないため、転送可能性や一般化性が低下する。 本稿では,これまで研究されていない運転行動予測タスクに対して,拡張カルマンフィルタパラメータ適応アルゴリズム(MEKF$_\lambda$)を適用した。 観測された軌道のフィードバックにより、ニューラルネットワークに基づくモデルに適用し、異なる被験者やシナリオにわたる運転行動予測の性能を向上させる。 異なる個人やシナリオの予測誤差を低減するために,オンライン適応性能の体系的評価のための新しい指標セットを提案する。 モデルにおける最良の層と適応のための観察手順に関する実証的研究も提供される。

High fidelity behavior prediction of human drivers is crucial for efficient and safe deployment of autonomous vehicles, which is challenging due to the stochasticity, heterogeneity, and time-varying nature of human behaviors. On one hand, the trained prediction model can only capture the motion pattern in an average sense, while the nuances among individuals can hardly be reflected. On the other hand, the prediction model trained on the training set may not generalize to the testing set which may be in a different scenario or data distribution, resulting in low transferability and generalizability. In this paper, we applied a $\tau$-step modified Extended Kalman Filter parameter adaptation algorithm (MEKF$_\lambda$) to the driving behavior prediction task, which has not been studied before in literature. With the feedback of the observed trajectory, the algorithm is applied to neural-network-based models to improve the performance of driving behavior predictions across different human subjects and scenarios. A new set of metrics is proposed for systematic evaluation of online adaptation performance in reducing the prediction error for different individuals and scenarios. Empirical studies on the best layer in the model and steps of observation to adapt are also provided.
翻訳日:2021-12-14 15:07:23 公開日:2021-12-09
# (参考訳) rgb熱シーン解析のためのエッジアウェア誘導融合ネットワーク

Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing ( http://arxiv.org/abs/2112.05144v1 )

ライセンス: CC BY 4.0
Wujie Zhou, Shaohua Dong, Caie Xu, Yaguan Qian(参考訳) RGB熱シーン解析は近年,コンピュータビジョンの分野で研究の関心が高まっている。 しかし、既存のほとんどの手法は予測マップの良質な境界抽出を行うことができず、高次特徴を完全に利用できない。 さらに, これらの手法は, RGBと熱モダリティを融合させるだけでは, 包括的に融合した特徴を得られない。 これらの問題に対処するため、RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。 まず,rgbと熱画像を用いて生成された先行エッジマップを導入し,予測マップに詳細な情報を取り込み,その先行エッジ情報を特徴マップに埋め込む。 RGBと熱情報を効果的に融合させるため,適切な相互融合を保証するマルチモーダル融合モジュールを提案する。 高レベルの意味情報の重要性を考慮して,高レベルの特徴からリッチな意味情報を抽出するグローバル情報モジュールとセマンティック情報モジュールを提案する。 復号化には、カスケード特徴融合に単純な要素分割加算を用いる。 最後に,解析精度を向上させるために,意味マップと境界マップにマルチタスクの深い監督を適用する。 提案するegfnetの有効性と,その優れた性能を示すために,ベンチマークデータセット上で広範な実験を行った。 コードと結果はhttps://github.com/ShaohuaDong2021/EGFNetで確認できる。

RGB thermal scene parsing has recently attracted increasing research interest in the field of computer vision. However, most existing methods fail to perform good boundary extraction for prediction maps and cannot fully use high level features. In addition, these methods simply fuse the features from RGB and thermal modalities but are unable to obtain comprehensive fused features. To address these problems, we propose an edge-aware guidance fusion network (EGFNet) for RGB thermal scene parsing. First, we introduce a prior edge map generated using the RGB and thermal images to capture detailed information in the prediction map and then embed the prior edge information in the feature maps. To effectively fuse the RGB and thermal information, we propose a multimodal fusion module that guarantees adequate cross-modal fusion. Considering the importance of high level semantic information, we propose a global information module and a semantic information module to extract rich semantic information from the high-level features. For decoding, we use simple elementwise addition for cascaded feature fusion. Finally, to improve the parsing accuracy, we apply multitask deep supervision to the semantic and boundary maps. Extensive experiments were performed on benchmark datasets to demonstrate the effectiveness of the proposed EGFNet and its superior performance compared with state of the art methods. The code and results can be found at https://github.com/ShaohuaDong2021/EGFNet.
翻訳日:2021-12-14 04:39:34 公開日:2021-12-09
# (参考訳) bpMRIにおけるディープラーニングによる前立腺癌検出のための自動病変アノテーションの報告

Report-Guided Automatic Lesion Annotation for Deep Learning-Based Prostate Cancer Detection in bpMRI ( http://arxiv.org/abs/2112.05151v1 )

ライセンス: CC BY 4.0
Joeran S. Bosma, Anindo Saha, Matin Hosseinzadeh, Ilse Slootweg, Maarten de Rooij, and Henkjan Huisman(参考訳) 深層学習に基づく診断性能は、より注釈付きデータによって向上するが、ほとんどの分野で手動アノテーションがボトルネックとなっている。 専門家は臨床経過中に診断画像を評価し、その結果をレポートに書き込む。 臨床報告に基づく自動アノテーションは手動ラベル付けのボトルネックを克服する可能性がある。 我々は,これらの報告から得られたスパース情報からモデル予測を用いて,検出タスクに対する密接なアノテーションを生成できると仮定する。 有効性を示すために, 臨床学的に有意な前立腺癌 (cspca) の注釈が得られた。 対象は前立腺MRI7,756例で,3,050例,4,706例であった。 我々は手動による注釈付サブセットの自動アノテーションの品質を評価し, スコア抽出により, csPCa 病変の数を99.3 %$で正しく同定し, csPCa セグメント化モデルでは, 83.8 pm 1.1 %$で正しく同定した。 前立腺癌検出能は, 病理組織学的確証により, 内科300検診で評価した。 自動ラベル付け試験によるトレーニングセットの強化により、患者ベースの診断領域が85.1\pm 1.1\%$から89.8\pm 1.0\%$ (p = 1.2 \cdot 10^{-4}$)に改善され、病変ベースの感度が79.2 \pm 2.8\%$から85.4 \pm 1.9\%$ (p<10^{-4}$) まで向上した。 15ドル以上 独立したランニング この改善されたパフォーマンスは、レポート誘導自動アノテーションの実現可能性を示している。 ソースコードはhttps://github.com/DIAGNijmegen/Report-Guided-Annotationで公開されている。 最高のcsPCa検出アルゴリズムはhttps://grand-challenge.org/algorithms/bpmri-cspca-detection-report-guided- Annotations/で公開されている。

Deep learning-based diagnostic performance increases with more annotated data, but manual annotation is a bottleneck in most fields. Experts evaluate diagnostic images during clinical routine, and write their findings in reports. Automatic annotation based on clinical reports could overcome the manual labelling bottleneck. We hypothesise that dense annotations for detection tasks can be generated using model predictions, guided by sparse information from these reports. To demonstrate efficacy, we generated clinically significant prostate cancer (csPCa) annotations, guided by the number of clinically significant findings in the radiology reports. We included 7,756 prostate MRI examinations, of which 3,050 were manually annotated and 4,706 were automatically annotated. We evaluated the automatic annotation quality on the manually annotated subset: our score extraction correctly identified the number of csPCa lesions for $99.3\%$ of the reports and our csPCa segmentation model correctly localised $83.8 \pm 1.1\%$ of the lesions. We evaluated prostate cancer detection performance on 300 exams from an external centre with histopathology-confirmed ground truth. Augmenting the training set with automatically labelled exams improved patient-based diagnostic area under the receiver operating characteristic curve from $88.1\pm 1.1\%$ to $89.8\pm 1.0\%$ ($P = 1.2 \cdot 10^{-4}$) and improved lesion-based sensitivity at one false positive per case from $79.2 \pm 2.8\%$ to $85.4 \pm 1.9\%$ ($P<10^{-4}$), with $mean \pm std.$ over 15 independent runs. This improved performance demonstrates the feasibility of our report-guided automatic annotations. Source code is made publicly available at https://github.com/DIAGNijmegen/Report-Guided-Annotation. Best csPCa detection algorithm is made available at https://grand-challenge.org/algorithms/bpmri-cspca-detection-report-guided-annotations/.
翻訳日:2021-12-14 04:28:01 公開日:2021-12-09
# (参考訳) 自己スーパービジョンを用いた文脈付き時空間コントラスト学習

Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision ( http://arxiv.org/abs/2112.05181v1 )

ライセンス: CC BY 4.0
Liangzhe Yuan, Rui Qian, Yin Cui, Boqing Gong, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu(参考訳) 現代の自己教師付き学習アルゴリズムは、通常、ビューをまたいでインスタンスの表現の持続性を強制する。 全体像とビデオ表現の学習に非常に効果的であるが、このようなアプローチは空間と時間を通してシーンやインスタンスが進化するビデオの時空間的特徴を学習するのに最適である。 本稿では,コンテキスト化された時空間コントラスト学習(const-cl)フレームワークを提案する。 まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型プリテキストタスクを設計する。 さらに,完全表現と局所表現の同時学習プロセスを効果的に両立させるシンプルなネットワーク設計を提案する。 さまざまな下流タスクで学習した表現を評価し,ConST-CLは4つのデータセットで最先端の結果を得る。 時空間の局所化のために、ConST-CLは39.4%のmAPと30.5%のmAPと、検出されたAVA-キネティクス検証セット上のボックスを達成している。 オブジェクト追跡において、ConST-CLは78.1%の精度と55.2%の成功率を達成した。 さらに、ConST-CLは、ビデオアクション認識データセット、UCF101、HMDB51において、94.8%、71.9%の微調整精度を達成した。 私たちはコードとモデルを一般公開する予定です。

A modern self-supervised learning algorithm typically enforces persistency of the representations of an instance across views. While being very effective on learning holistic image and video representations, such an approach becomes sub-optimal for learning spatio-temporally fine-grained features in videos, where scenes and instances evolve through space and time. In this paper, we present the Contextualized Spatio-Temporal Contrastive Learning (ConST-CL) framework to effectively learn spatio-temporally fine-grained representations using self-supervision. We first design a region-based self-supervised pretext task which requires the model to learn to transform instance representations from one view to another guided by context features. Further, we introduce a simple network design that effectively reconciles the simultaneous learning process of both holistic and local representations. We evaluate our learned representations on a variety of downstream tasks and ConST-CL achieves state-of-the-art results on four datasets. For spatio-temporal action localization, ConST-CL achieves 39.4% mAP with ground-truth boxes and 30.5% mAP with detected boxes on the AVA-Kinetics validation set. For object tracking, ConST-CL achieves 78.1% precision and 55.2% success scores on OTB2015. Furthermore, ConST-CL achieves 94.8% and 71.9% top-1 fine-tuning accuracy on video action recognition datasets, UCF101 and HMDB51 respectively. We plan to release our code and models to the public.
翻訳日:2021-12-14 03:58:09 公開日:2021-12-09
# (参考訳) 自己監督型ボットプレイによる正当化による会話推薦

Self-Supervised Bot Play for Conversational Recommendation with Justifications ( http://arxiv.org/abs/2112.05197v1 )

ライセンス: CC BY 4.0
Shuyang Li, Bodhisattwa Prasad Majumder, Julian McAuley(参考訳) 会話型レコメンデーションシステムは、ユーザーが楽しみたいアイテムを見つけるためのインタラクティブで魅力的な方法を提供する。 私たちは3次元を通して会話の推薦を改善することを目指している。 1) 専門家が提案を正当化し, 探究者がなぜその項目が気に入らないのかを説明し, 双方が対話を通じて適切な項目を探す。 2)主観的側面を批判することにより,ユーザが自然言語正当化と柔軟に対話できるように,会話的批判からのアイデアを活用する。 3) クラウドソースのグランド・トゥルート・ダイアログが利用できない広い範囲のドメインに会話型推薦を適用する。 会話レコメンデーションシステムのトレーニングのための新しい2部フレームワークを開発する。 まず,リコメンダシステムを用いて,項目の提案と主観的側面による推論の正当化を共同で行う。 次に、このモデルを微調整して、自己教師型ボットプレイによる反復的なユーザフィードバックを組み込む。 実世界の3つのデータセットを用いた実験により,本システムは様々なドメインの異なるレコメンデーションモデルに適用でき,最先端の手法と比較して対話型レコメンデーションにおいて優れた性能が得られることを示した。 また、私たちのフレームワークでトレーニングされたシステムは、温暖化と寒冷化の設定において、より有用で有用な、知識に富んだレコメンデーションを提供することを示した。

Conversational recommender systems offer the promise of interactive, engaging ways for users to find items they enjoy. We seek to improve conversational recommendation via three dimensions: 1) We aim to mimic a common mode of human interaction for recommendation: experts justify their suggestions, a seeker explains why they don't like the item, and both parties iterate through the dialog to find a suitable item. 2) We leverage ideas from conversational critiquing to allow users to flexibly interact with natural language justifications by critiquing subjective aspects. 3) We adapt conversational recommendation to a wider range of domains where crowd-sourced ground truth dialogs are not available. We develop a new two-part framework for training conversational recommender systems. First, we train a recommender system to jointly suggest items and justify its reasoning with subjective aspects. We then fine-tune this model to incorporate iterative user feedback via self-supervised bot-play. Experiments on three real-world datasets demonstrate that our system can be applied to different recommendation models across diverse domains to achieve superior performance in conversational recommendation compared to state-of-the-art methods. We also evaluate our model on human users, showing that systems trained under our framework provide more useful, helpful, and knowledgeable recommendations in warm- and cold-start settings.
翻訳日:2021-12-14 03:39:57 公開日:2021-12-09
# (参考訳) ほぼ確実に制約のある強化学習

Reinforcement Learning with Almost Sure Constraints ( http://arxiv.org/abs/2112.05198v1 )

ライセンス: CC BY 4.0
Agustin Castellano, Hancheng Min, Juan Bazerque, Enrique Mallada(参考訳) 本研究では,制約のあるマルコフ決定プロセスに対して,確率1の制約の下で実現可能なポリシーを見つける問題に対処する。 我々は、この問題を解決するには定常的なポリシーが不十分であり、また、エージェントが制約に違反する程度を追跡できる、いわゆる予算と呼ばれるスカラー量でコントローラを付与することで、リッチなポリシーのクラスを見つけることができると論じている。 安全に行動するために必要となる最小限の予算はベルマン作用素の最小の固定点として得られ、その収束特性を解析できることを示す。 また,マルコフ決定過程の真の核が分かっていない場合,その量をどのように学習するかを示す。 この最小予算を知るユーティリティは、エージェントがナビゲートしなければならない状態空間の領域を縮小することで、最適または至近の政策の探索を助けることができる。 シミュレーションは、予測において一般的に使われる制約に対する確率 1 の制約の異なる性質を示す。

In this work we address the problem of finding feasible policies for Constrained Markov Decision Processes under probability one constraints. We argue that stationary policies are not sufficient for solving this problem, and that a rich class of policies can be found by endowing the controller with a scalar quantity, so called budget, that tracks how close the agent is to violating the constraint. We show that the minimal budget required to act safely can be obtained as the smallest fixed point of a Bellman-like operator, for which we analyze its convergence properties. We also show how to learn this quantity when the true kernel of the Markov decision process is not known, while providing sample-complexity bounds. The utility of knowing this minimal budget relies in that it can aid in the search of optimal or near-optimal policies by shrinking down the region of the state space the agent must navigate. Simulations illustrate the different nature of probability one constraints against the typically used constraints in expectation.
翻訳日:2021-12-14 03:22:31 公開日:2021-12-09
# (参考訳) グラフニューラルネットワークを用いた頭上画像からの道路抽出

Road Extraction from Overhead Images with Graph Neural Networks ( http://arxiv.org/abs/2112.05215v1 )

ライセンス: CC BY 4.0
Gaetan Bahl, Mehdi Bahri, Florent Lafarge(参考訳) 航空・衛星画像からの道路グラフの自動抽出は長年の課題である。 既存のアルゴリズムはピクセルレベルのセグメンテーションとベクトル化、あるいは次の移動予測を用いた反復グラフ構築に基づいている。 これら2つの戦略は厳しい欠点、特に高い計算資源と不完全なアウトプットに苦しむ。 対照的に,1つのパスで最終道路グラフを直接推測する手法を提案する。 鍵となるアイデアは、交差点、デッドエンド、ターンなどの関心点の特定を担当する完全畳み込みネットワークと、これらのポイント間のリンクを予測するグラフニューラルネットワークを組み合わせることである。 このような戦略は反復的な手法よりも効率的であり、トレーニングをエンドツーエンドに保ちながら開始位置の生成を不要にすることで、トレーニングプロセスの合理化を可能にします。 我々は,一般的なRoadTracerデータセット上の既存の作業に対して評価を行い,競合する結果を得た。 また,提案手法の速度をベンチマークし,既存の手法よりも優れていることを示す。 これにより、組み込みデバイス上での飛行中の処理が可能となる。

Automatic road graph extraction from aerial and satellite images is a long-standing challenge. Existing algorithms are either based on pixel-level segmentation followed by vectorization, or on iterative graph construction using next move prediction. Both of these strategies suffer from severe drawbacks, in particular high computing resources and incomplete outputs. By contrast, we propose a method that directly infers the final road graph in a single pass. The key idea consists in combining a Fully Convolutional Network in charge of locating points of interest such as intersections, dead ends and turns, and a Graph Neural Network which predicts links between these points. Such a strategy is more efficient than iterative methods and allows us to streamline the training process by removing the need for generation of starting locations while keeping the training end-to-end. We evaluate our method against existing works on the popular RoadTracer dataset and achieve competitive results. We also benchmark the speed of our method and show that it outperforms existing approaches. This opens the possibility of in-flight processing on embedded devices.
翻訳日:2021-12-14 02:55:47 公開日:2021-12-09
# (参考訳) CLIP2StyleGAN:StyleGAN編集方向の教師なし抽出

CLIP2StyleGAN: Unsupervised Extraction of StyleGAN Edit Directions ( http://arxiv.org/abs/2112.05219v1 )

ライセンス: CC BY 4.0
Rameen Abdal, Peihao Zhu, John Femiani, Niloy J. Mitra, Peter Wonka(参考訳) StyleGANの成功により、合成画像と実画像の両方で前例のないセマンティック編集が可能になった。 しかし、このような編集作業は意味的な監督によって訓練されるか、人的指導を用いて記述される。 別の開発では、CLIPアーキテクチャはインターネットスケールの画像とテキストのペアリングで訓練されており、いくつかのゼロショット学習設定で有用であることが示されている。 本研究では,スタイルガンとクリップの事前学習済みの潜在空間を効果的にリンクさせる方法について検討し,スタイルガンから意味的にラベル付けされた編集指示を自動的に抽出し,人間の指示なしに意味のある編集操作を検索・命名することを可能にする。 技術的には、興味深いCLIP方向を見つけるためのブロックと、CLIP潜在空間内の任意の方向をラベル付けするためのブロックを2つ提案する。 設定は事前に決められたラベルを前提としないので、編集フレームワークを構築するために追加の教師付きテキスト/属性は必要ありません。 提案手法の有効性を評価し,不連続ラベル付きスタイルガン編集方向の抽出が可能であることを実証し,興味深い非自明な編集方向を示す。

The success of StyleGAN has enabled unprecedented semantic editing capabilities, on both synthesized and real images. However, such editing operations are either trained with semantic supervision or described using human guidance. In another development, the CLIP architecture has been trained with internet-scale image and text pairings and has been shown to be useful in several zero-shot learning settings. In this work, we investigate how to effectively link the pretrained latent spaces of StyleGAN and CLIP, which in turn allows us to automatically extract semantically labeled edit directions from StyleGAN, finding and naming meaningful edit operations without any additional human guidance. Technically, we propose two novel building blocks; one for finding interesting CLIP directions and one for labeling arbitrary directions in CLIP latent space. The setup does not assume any pre-determined labels and hence we do not require any additional supervised text/attributes to build the editing framework. We evaluate the effectiveness of the proposed method and demonstrate that extraction of disentangled labeled StyleGAN edit directions is indeed possible, and reveals interesting and non-trivial edit directions.
翻訳日:2021-12-14 02:35:25 公開日:2021-12-09
# (参考訳) 終端画像キャプションに意味概念を注入する

Injecting Semantic Concepts into End-to-End Image Captioning ( http://arxiv.org/abs/2112.05230v1 )

ライセンス: CC BY 4.0
Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu(参考訳) 近年では画像キャプションモデルの開発が盛んに進んでいるが、そのほとんどは地域的特徴を抽出するために別個の物体検出器に頼っている。 近年の視覚言語研究は、グリッド表現を活用してより柔軟なモデルトレーニングとより高速な推論速度を実現することで、ディテクターフリーな傾向に向かっている。 しかし、こうした開発は主に画像理解タスクに焦点を当てており、キャプション生成タスクについてはあまり調査されていない。 本稿では,より高性能な検出器フリーな画像キャプションモデルについて考察し,地域的特徴を抽出せずにグリッド表現を用いたvitcapと呼ばれる純粋視覚トランスベース画像キャプションモデルを提案する。 性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。 特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されており、そこからリッチな意味情報を含むものがキャプションタスクに多大な恩恵をもたらす。 従来の検出器ベースのモデルと比較して、ViTCAPはアーキテクチャを劇的に単純化し、同時に様々な挑戦的な画像キャプションデータセット上での競合性能を達成する。 特に、ViTCAPはCOCOカプセル化Karpathy-splitの138.1 CIDErスコア、nocapsの93.8と108.6 CIDErスコア、Google-CCキャプションデータセットにそれぞれ到達している。

Tremendous progress has been made in recent years in developing better image captioning models, yet most of them rely on a separate object detector to extract regional features. Recent vision-language studies are shifting towards the detector-free trend by leveraging grid representations for more flexible model training and faster inference speed. However, such development is primarily focused on image understanding tasks, and remains less investigated for the caption generation task. In this paper, we are concerned with a better-performing detector-free image captioning model, and propose a pure vision transformer-based image captioning model, dubbed as ViTCAP, in which grid representations are used without extracting the regional features. For improved performance, we introduce a novel Concept Token Network (CTN) to predict the semantic concepts and then incorporate them into the end-to-end captioning. In particular, the CTN is built on the basis of a vision transformer and is designed to predict the concept tokens through a classification task, from which the rich semantic information contained greatly benefits the captioning task. Compared with the previous detector-based models, ViTCAP drastically simplifies the architectures and at the same time achieves competitive performance on various challenging image captioning datasets. In particular, ViTCAP reaches 138.1 CIDEr scores on COCO-caption Karpathy-split, 93.8 and 108.6 CIDEr scores on nocaps, and Google-CC captioning datasets, respectively.
翻訳日:2021-12-14 02:15:06 公開日:2021-12-09
# (参考訳) 多変数ランダム化分類木について:$l_0$-based sparsity, vc~dimension and decomposition methods

On multivariate randomized classification trees: $l_0$-based sparsity, VC~dimension and decomposition methods ( http://arxiv.org/abs/2112.05239v1 )

ライセンス: CC BY 4.0
Edoardo Amaldi, Antonio Consolo, Andrea Manno(参考訳) 決定木は、解釈可能性と精度の良さから、広く使われている分類と回帰モデルである。 CARTのような古典的な手法は強欲なアプローチに基づいているが、近年は最適な決定木に注目が集まっている。 そこで,Blanquero et al. (EJOR, vol. 284, 2020; COR, vol. 132, 2021) で提案される非線形連続最適化の定式化について検討した。 スパーシリティは機能選択だけでなく、解釈可能性の向上にも重要である。 まず最初に、$l_{0}$ ``norm の凹凸近似に基づいて、そのような木をスカラー化する方法を検討する。 有望な結果は24のデータセットで得られ、$l_1$と$l_{\infty}$正規化と比較される。 次に、多変量ランダム化分類木のVC次元のバウンダリを導出する。 最後に,大規模データセットではトレーニングが計算上困難であるため,汎用的な分解スキームと,その効率的なバージョンを提案する。 より大きなデータセットに対する実験により,提案手法は精度を損なうことなく,トレーニング時間を著しく短縮できることが示された。

Decision trees are widely-used classification and regression models because of their interpretability and good accuracy. Classical methods such as CART are based on greedy approaches but a growing attention has recently been devoted to optimal decision trees. We investigate the nonlinear continuous optimization formulation proposed in Blanquero et al. (EJOR, vol. 284, 2020; COR, vol. 132, 2021) for (sparse) optimal randomized classification trees. Sparsity is important not only for feature selection but also to improve interpretability. We first consider alternative methods to sparsify such trees based on concave approximations of the $l_{0}$ ``norm". Promising results are obtained on 24 datasets in comparison with $l_1$ and $l_{\infty}$ regularizations. Then, we derive bounds on the VC dimension of multivariate randomized classification trees. Finally, since training is computationally challenging for large datasets, we propose a general decomposition scheme and an efficient version of it. Experiments on larger datasets show that the proposed decomposition method is able to significantly reduce the training times without compromising the accuracy.
翻訳日:2021-12-14 01:51:07 公開日:2021-12-09
# (参考訳) 欠落共変量における予測とインプテーション精度の関係について

On the Relation between Prediction and Imputation Accuracy under Missing Covariates ( http://arxiv.org/abs/2112.05248v1 )

ライセンス: CC BY 4.0
Burim Ramosaj, Justus Tulowietzki, Markus Pauly(参考訳) 回帰問題や分類問題における共変量の欠如は、さらなる分析に先進的なツールを直接使用することを禁じる可能性がある。 近年の研究では、計算のための現代の機械学習アルゴリズムの利用傾向が増している。 それは、異なる学習問題において好ましい予測精度を示す能力に由来する。 本研究では,共変量の欠如を伴う回帰学習問題におけるインプテーション精度と予測精度の相互作用をシミュレーションし,インプテーションと予測の両方の手法を用いた場合の解析を行った。 さらに,予測区間のカバレッジ率などの予測設定において,統計的推測手法を用いた場合の計算性能について検討する。 UCI Machine Learningレポジトリが提供する経験的データセットと、広範なシミュレーション研究に基づいて分析を行った。

Missing covariates in regression or classification problems can prohibit the direct use of advanced tools for further analysis. Recent research has realized an increasing trend towards the usage of modern Machine Learning algorithms for imputation. It originates from their capability of showing favourable prediction accuracy in different learning problems. In this work, we analyze through simulation the interaction between imputation accuracy and prediction accuracy in regression learning problems with missing covariates when Machine Learning based methods for both, imputation and prediction are used. In addition, we explore imputation performance when using statistical inference procedures in prediction settings, such as coverage rates of (valid) prediction intervals. Our analysis is based on empirical datasets provided by the UCI Machine Learning repository and an extensive simulation study.
翻訳日:2021-12-14 01:46:38 公開日:2021-12-09
# (参考訳) MAGMA --Adapter-based Finetuningによる生成モデルのマルチモーダル拡張

MAGMA -- Multimodal Augmentation of Generative Models through Adapter-based Finetuning ( http://arxiv.org/abs/2112.05253v1 )

ライセンス: CC BY 4.0
Constantin Eichenberg, Sidney Black, Samuel Weinbach, Letitia Parcalabescu, Anette Frank(参考訳) 大規模事前学習は視覚言語モデリング(VL)において急速に標準になりつつある。 しかしながら、ラベル付きデータの要求と複雑な多段階事前学習目的の使用により、VLアプローチは制限される。 magma - アダプタベースの微調整を使用して生成言語モデルを付加的なモダリティで拡張するシンプルな方法。 また,Frozen上に構築したVLモデルを用いて,視覚的入力とテキスト入力の任意の組み合わせからテキストを自動回帰生成する。 事前トレーニングは、単一の言語モデリングの目的を使ってエンドツーエンドで行われ、以前のアプローチと比較して最適化が簡単になる。 重要な点は、言語モデルの重み付けはトレーニング中も変化せず、言語前訓練から百科事典知識と文脈内学習能力の移行を可能にすることである。 MAGMAは、オープンソース生成タスクにおいてFrozenよりも優れており、OKVQAベンチマークにおける技術結果の状態を達成し、他の人気のあるVLベンチマークでの競争結果と、SimVLMのトレーニングに使用されるサンプルの0.2%を事前訓練している。

Large-scale pretraining is fast becoming the norm in Vision-Language (VL) modeling. However, prevailing VL approaches are limited by the requirement for labeled data and the use of complex multi-step pretraining objectives. We present MAGMA - a simple method for augmenting generative language models with additional modalities using adapter-based finetuning. Building on Frozen, we train a series of VL models that autoregressively generate text from arbitrary combinations of visual and textual input. The pretraining is entirely end-to-end using a single language modeling objective, simplifying optimization compared to previous approaches. Importantly, the language model weights remain unchanged during training, allowing for transfer of encyclopedic knowledge and in-context learning abilities from language pretraining. MAGMA outperforms Frozen on open-ended generative tasks, achieving state of the art results on the OKVQA benchmark and competitive results on a range of other popular VL benchmarks, while pretraining on 0.2% of the number of samples used to train SimVLM.
翻訳日:2021-12-14 01:45:35 公開日:2021-12-09
# 機械学習を用いたアヌランフロッグ種の分類

Classification of Anuran Frog Species Using Machine Learning ( http://arxiv.org/abs/2112.05148v1 )

ライセンス: Link先を確認
Miriam Alabi(参考訳) カエルの音響分類は、生態学的調査に応用できる可能性から、最近注目されている。 カエルの種を特定するために多くの研究がなされているが、記録された種の大半は単型であると考えられている。 本研究の目的は, カエル種を音声記録を用いて分類する方法を示すことである。 より正確に言うと、連続したカエルの録音はまず音声スニペット(10秒)に切り替わる。 そして、10秒毎に複数の時間周波数表現を構築する。 その後、手動で作成する機能ではなく、カエルの種を分類するために機械学習の手法が用いられる。 データ削減技術;主成分分析(PCA)と独立成分分析(ICA)は、分類の前に最も重要な特徴を抽出するために用いられる。 最後に、分類精度を検証するために、クロス検証と予測精度を用いる。 実験の結果,PCAはクロスバリデーションと予測精度の両方でより良い分類精度を達成できる特徴を抽出した。

Acoustic classification of frogs has gotten a lot of attention recently due to its potential applicability in ecological investigations. Numerous studies have been presented for identifying frog species, although the majority of recorded species are thought to be monotypic. The purpose of this study is to demonstrate a method for classifying various frog species using an audio recording. To be more exact, continuous frog recordings are cut into audio snippets first (10 seconds). Then, for each ten-second recording, several time-frequency representations are constructed. Following that, rather than using manually created features, Machine Learning methods are employed to classify the frog species. Data reduction techniques; Principal Component Analysis (PCA) and Independent Component Analysis (ICA) are used to extract the most important features before classification. Finally, to validate our classification accuracy, cross validation and prediction accuracy are used. Experimental results show that PCA extracted features that achieved better classification accuracy both with cross validation and prediction accuracy.
翻訳日:2021-12-13 15:51:39 公開日:2021-12-09
# 低照度画像強調のための深部文脈感性分解の学習

Learning Deep Context-Sensitive Decomposition for Low-Light Image Enhancement ( http://arxiv.org/abs/2112.05147v1 )

ライセンス: Link先を確認
Long Ma, Risheng Liu, Jiaao Zhang, Xin Fan, Zhongxuan Luo(参考訳) ローライト画像の品質向上は、多くの画像処理やマルチメディアアプリケーションにおいて非常に重要な役割を果たす。 近年,この課題に対処するために,様々なディープラーニング技術が開発されている。 典型的な枠組みは照明と反射を同時に推定することであるが、それらは特徴空間にカプセル化されたシーンレベルの文脈情報を無視し、詳細損失、彩色不飽和、アーティファクトなど多くの好ましくない結果を引き起こす。 これらの問題に対処するために,空間スケールにおけるシーンレベルのコンテキスト依存を活かした,コンテキスト依存型分解ネットワークアーキテクチャを開発した。 より具体的には、反射率と照明推定ネットワークを含む二流推定機構を構築する。 物理原理を取り入れた2ストリーム機構を橋渡しする新しいコンテキスト依存分解接続を設計する。 照明成分のエッジ認識平滑性を達成するため、空間変動照明指導をさらに構築する。 異なるトレーニングパターンに従って、設計したアーキテクチャを十分に評価するために、CSDNet(ペア化監視)とCSDGAN(ペア化監視)を構築します。 本手法を7つのテストベンチマークで検証し,多くの解析および評価実験を行った。 設計した文脈依存分解接続により,既存の最先端手法に対する優位性を示す優れた拡張結果が得られた。 最後に, 高効率性を実現するために, 軽量なCSDNet(LiteCSDNet)を開発し, チャネル数を削減した。 さらに、この2つのコンポーネントのエンコーダを共有することで、より軽量なバージョン(略してSLiteCSDNet)が得られる。 SLiteCSDNetには0.0301Mのパラメータが含まれているが、CSDNetとほぼ同等のパフォーマンスを実現する。

Enhancing the quality of low-light images plays a very important role in many image processing and multimedia applications. In recent years, a variety of deep learning techniques have been developed to address this challenging task. A typical framework is to simultaneously estimate the illumination and reflectance, but they disregard the scene-level contextual information encapsulated in feature spaces, causing many unfavorable outcomes, e.g., details loss, color unsaturation, artifacts, and so on. To address these issues, we develop a new context-sensitive decomposition network architecture to exploit the scene-level contextual dependencies on spatial scales. More concretely, we build a two-stream estimation mechanism including reflectance and illumination estimation network. We design a novel context-sensitive decomposition connection to bridge the two-stream mechanism by incorporating the physical principle. The spatially-varying illumination guidance is further constructed for achieving the edge-aware smoothness property of the illumination component. According to different training patterns, we construct CSDNet (paired supervision) and CSDGAN (unpaired supervision) to fully evaluate our designed architecture. We test our method on seven testing benchmarks to conduct plenty of analytical and evaluated experiments. Thanks to our designed context-sensitive decomposition connection, we successfully realized excellent enhanced results, which fully indicates our superiority against existing state-of-the-art approaches. Finally, considering the practical needs for high-efficiency, we develop a lightweight CSDNet (named LiteCSDNet) by reducing the number of channels. Further, by sharing an encoder for these two components, we obtain a more lightweight version (SLiteCSDNet for short). SLiteCSDNet just contains 0.0301M parameters but achieves the almost same performance as CSDNet.
翻訳日:2021-12-13 15:27:56 公開日:2021-12-09
# マルチスケール双方向伝搬を用いたビデオデブラリング用ディープリカレントニューラルネットワーク

Deep Recurrent Neural Network with Multi-scale Bi-directional Propagation for Video Deblurring ( http://arxiv.org/abs/2112.05150v1 )

ライセンス: Link先を確認
Chao Zhu, Hang Dong, Jinshan Pan, Boyang Liang, Yuhao Huang, Lean Fu, Fei Wang(参考訳) 最新のビデオデブラリング手法の成功は、主に隣接フレーム間のアライメントの暗黙的または明示的な推定による潜伏ビデオ復元に起因している。 しかし, ブラー効果の影響により, 隣接するフレームからアライメント情報を推定することは簡単な作業ではない。 不正確な推定は次のフレームの復元を妨げる。 本稿では,アライメント情報を推定する代わりに,マルチスケール双方向伝搬(rnn-mbp)を用いた簡易かつ効果的なディープリカレントニューラルネットワークを提案する。 具体的には、2つのU-Net RNNセルを持つマルチスケール双方向プロパゲーション(MBP)モジュールを構築し、異なるスケールに統合することで、非整合した隠れ状態からのフレーム間情報を直接利用することができる。 さらに,提案したアルゴリズムと既存の最先端手法を現実世界のぼやけたシーンでよりよく評価するために,よく設計されたDVAS(Digital Video Acquisition System)による実世界Blurry Video Dataset(RBVD)を作成し,トレーニングおよび評価データセットとして利用する。 広汎な実験結果から,提案したRBVDデータセットは実世界のぼやけたビデオ上での既存のアルゴリズムの性能を効果的に向上することが示された。 コードはhttps://github.com/XJTU-CVLAB-LOWLEVEL/RNN-MBPで公開されている。

The success of the state-of-the-art video deblurring methods stems mainly from implicit or explicit estimation of alignment among the adjacent frames for latent video restoration. However, due to the influence of the blur effect, estimating the alignment information from the blurry adjacent frames is not a trivial task. Inaccurate estimations will interfere the following frame restoration. Instead of estimating alignment information, we propose a simple and effective deep Recurrent Neural Network with Multi-scale Bi-directional Propagation (RNN-MBP) to effectively propagate and gather the information from unaligned neighboring frames for better video deblurring. Specifically, we build a Multi-scale Bi-directional Propagation~(MBP) module with two U-Net RNN cells which can directly exploit the inter-frame information from unaligned neighboring hidden states by integrating them in different scales. Moreover, to better evaluate the proposed algorithm and existing state-of-the-art methods on real-world blurry scenes, we also create a Real-World Blurry Video Dataset (RBVD) by a well-designed Digital Video Acquisition System (DVAS) and use it as the training and evaluation dataset. Extensive experimental results demonstrate that the proposed RBVD dataset effectively improves the performance of existing algorithms on real-world blurry videos, and the proposed algorithm performs favorably against the state-of-the-art methods on three typical benchmarks. The code is available at https://github.com/XJTU-CVLAB-LOWLEVEL/RNN-MBP.
翻訳日:2021-12-13 15:27:31 公開日:2021-12-09
# リモートセンシング画像の意味セグメンテーションのための隠れ経路選択ネットワーク

Hidden Path Selection Network for Semantic Segmentation of Remote Sensing Images ( http://arxiv.org/abs/2112.05220v1 )

ライセンス: Link先を確認
Kunping Yang, Xin-Yi Tong, Gui-Song Xia, Weiming Shen, Liangpei Zhang(参考訳) ピクセル単位のセマンティックカテゴリによる土地被覆の描写をターゲットとし、リモートセンシング画像における意味セグメンテーションは、広大な地理的位置における多様な分布を描写する必要があるが、既存の深層モデルのアーキテクチャにおける均質な画素単位の前方経路によって達成することは困難である。 いくつかのアルゴリズムは自然画像解析のために画素順に適応する前方経路を選択するよう設計されているが、最適な選択を得るための理論的支援はいまだに欠けている。 本稿では,隠れ経路選択ネットワーク (hidden path selection network, hps-net) と呼ばれる手法の設計を導くパラメータ最適化の観点から数学的解析を行う。 余剰のミニブランチから派生した隠れ変数の助けを借り、HPS-Netは特徴写像と既存アルゴリズムにおける画素幅の経路選択との直接的関係を調整することで、到達不能なグローバル最適性に関する固有の問題に取り組むことができる。 より優れたトレーニングと評価を行うため、5クラスのGaofen Image Dataset(GID-5)を15の土地被覆カテゴリ(GID-15)に改良・拡張する。 GID-5 と GID-15 の両実験結果から,提案モジュールは異なる深部構造の性能を安定的に向上できることを示した。

Targeting at depicting land covers with pixel-wise semantic categories, semantic segmentation in remote sensing images needs to portray diverse distributions over vast geographical locations, which is difficult to be achieved by the homogeneous pixel-wise forward paths in the architectures of existing deep models. Although several algorithms have been designed to select pixel-wise adaptive forward paths for natural image analysis, it still lacks theoretical supports on how to obtain optimal selections. In this paper, we provide mathematical analyses in terms of the parameter optimization, which guides us to design a method called Hidden Path Selection Network (HPS-Net). With the help of hidden variables derived from an extra mini-branch, HPS-Net is able to tackle the inherent problem about inaccessible global optimums by adjusting the direct relationships between feature maps and pixel-wise path selections in existing algorithms, which we call hidden path selection. For the better training and evaluation, we further refine and expand the 5-class Gaofen Image Dataset (GID-5) to a new one with 15 land-cover categories, i.e., GID-15. The experimental results on both GID-5 and GID-15 demonstrate that the proposed modules can stably improve the performance of different deep structures, which validates the proposed mathematical analyses.
翻訳日:2021-12-13 15:25:22 公開日:2021-12-09
# MantissaCam: 知覚に基づく画素内照射符号化による高ダイナミックレンジ画像の学習

MantissaCam: Learning Snapshot High-dynamic-range Imaging with Perceptually-based In-pixel Irradiance Encoding ( http://arxiv.org/abs/2112.05221v1 )

ライセンス: Link先を確認
Haley M. So, Julien N.P. Martel, Piotr Dudek, and Gordon Wetzstein(参考訳) 高ダイナミックレンジ(HDR)シーンを画像化できることは多くのコンピュータビジョンアプリケーションにおいて重要である。 しかし、従来のセンサーのダイナミックレンジは、その容量によって基本的に制限され、明るいシーンの部分が飽和する。 この制限を克服するため、新興センサーは入射光を符号化する画素内処理機能を提供する。 最も有望な符号化方式の1つはモジュロラップであり、これはHDRシーンがラップされた低ダイナミックレンジ(LDR)センサ画像から照射アンラッピングアルゴリズムによって計算される計算写真問題をもたらす。 そこで我々は,従来の照射アンラッピング法より優れたニューラルネットワークベースのアルゴリズムを設計し,さらに重要なことは,HDRシーンをより効率的にLDRセンサーにラップする知覚的にインスピレーションを受けた"マンティッサ"符号化スキームを設計することである。 再建フレームワークと組み合わせたMantissaCamは、モジュロ型スナップショットHDRイメージング手法の最先端結果を実現する。 シミュレーションにおける本手法の有効性を実証し,プログラム可能なセンサで実装したプロトタイプMantissaCamの予備的な結果を示す。

The ability to image high-dynamic-range (HDR) scenes is crucial in many computer vision applications. The dynamic range of conventional sensors, however, is fundamentally limited by their well capacity, resulting in saturation of bright scene parts. To overcome this limitation, emerging sensors offer in-pixel processing capabilities to encode the incident irradiance. Among the most promising encoding schemes is modulo wrapping, which results in a computational photography problem where the HDR scene is computed by an irradiance unwrapping algorithm from the wrapped low-dynamic-range (LDR) sensor image. Here, we design a neural network--based algorithm that outperforms previous irradiance unwrapping methods and, more importantly, we design a perceptually inspired "mantissa" encoding scheme that more efficiently wraps an HDR scene into an LDR sensor. Combined with our reconstruction framework, MantissaCam achieves state-of-the-art results among modulo-type snapshot HDR imaging approaches. We demonstrate the efficacy of our method in simulation and show preliminary results of a prototype MantissaCam implemented with a programmable sensor.
翻訳日:2021-12-13 15:24:56 公開日:2021-12-09
# 耳提示検出のためのディープニューラルネットワークを用いた伝達学習:PADのための新しいデータベース

Transfer learning using deep neural networks for Ear Presentation Attack Detection: New Database for PAD ( http://arxiv.org/abs/2112.05237v1 )

ライセンス: Link先を確認
Jalil Nourmohammadi Khiarak(参考訳) 音声認識システムは広く研究されているが,音声認識システムでは耳提示攻撃検出方法が少数しか存在せず,一般に利用可能な耳提示攻撃検出(pad)データベースは存在していない。 本稿では,事前学習したディープニューラルネットワークを用いたパディング手法を提案し,ワルシャワ工科大学のプレゼンテーションアタック検出用耳データセット(wut-ear v1.0)を新たに公開する。 モバイルデバイスを使ってキャプチャされる耳データベースはありません。 したがって、134人の被験者から8500以上の本物の耳画像と8500以上の偽の耳画像が得られた。 3種類のモバイルデバイスでリプレイアタックや写真プリント攻撃を行いました。 本手法は,リプレイ・アタック・データベース上で,ハーフ・トータル・エラーレート (hter) とアタック・プレゼンテーション・分類エラーレート (apcer) に対して99.83% と 0.08% をそれぞれ達成した。 取得したデータは統計的に分析され視覚化され、その重要性を把握し、さらなる研究のためのベンチマークとなる。 実験により、耳認識システムのための安全なPAD法、公用耳画像、耳PADデータセットが発見された。 コードと評価結果はhttps://github.com/Jalilnkh/KartalOl-EAR-PADで公開されている。

Ear recognition system has been widely studied whereas there are just a few ear presentation attack detection methods for ear recognition systems, consequently, there is no publicly available ear presentation attack detection (PAD) database. In this paper, we propose a PAD method using a pre-trained deep neural network and release a new dataset called Warsaw University of Technology Ear Dataset for Presentation Attack Detection (WUT-Ear V1.0). There is no ear database that is captured using mobile devices. Hence, we have captured more than 8500 genuine ear images from 134 subjects and more than 8500 fake ear images using. We made replay-attack and photo print attacks with 3 different mobile devices. Our approach achieves 99.83% and 0.08% for the half total error rate (HTER) and attack presentation classification error rate (APCER), respectively, on the replay-attack database. The captured data is analyzed and visualized statistically to find out its importance and make it a benchmark for further research. The experiments have been found out a secure PAD method for ear recognition system, publicly available ear image, and ear PAD dataset. The codes and evaluation results are publicly available at https://github.com/Jalilnkh/KartalOl-EAR-PAD.
翻訳日:2021-12-13 15:24:40 公開日:2021-12-09
# Web APIへの自然言語インタフェースの合成一般化

Compositional Generalization for Natural Language Interfaces to Web APIs ( http://arxiv.org/abs/2112.05209v1 )

ライセンス: Link先を確認
Saghar Hosseini, Ahmed Hassan Awadallah, Yu Su(参考訳) 本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。 このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。 NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。 また、プレースホルダー値によるクエリを評価する既存のアプローチとは対照的に、正しく実行されるAPIコールを生成する必要がある。 我々のデータセットは、低リソース環境で構成一般化を研究する非合成データセットであるため、既存の構成意味解析データセットのほとんどとは異なる。 Okapiは、既存のデータセットとタスクと一緒に構成一般化を研究するための、現実的なデータセットとベンチマークを作成するためのステップである。 各種SCANおよびOkapiデータセットタスクに基づいて訓練されたシーケンス・ツー・シーケンスベースラインモデルの一般化機能について報告する。 最高のモデルは、単純なAPI呼び出しからより複雑なAPI呼び出しまでを一般化する際に、正確なマッチング精度を15倍にします。 これは将来の研究の課題を浮き彫りにする。 Okapiデータセットとタスクはhttps://aka.ms/nl2api/dataで公開されている。

This paper presents Okapi, a new dataset for Natural Language to executable web Application Programming Interfaces (NL2API). This dataset is in English and contains 22,508 questions and 9,019 unique API calls, covering three domains. We define new compositional generalization tasks for NL2API which explore the models' ability to extrapolate from simple API calls in the training set to new and more complex API calls in the inference phase. Also, the models are required to generate API calls that execute correctly as opposed to the existing approaches which evaluate queries with placeholder values. Our dataset is different than most of the existing compositional semantic parsing datasets because it is a non-synthetic dataset studying the compositional generalization in a low-resource setting. Okapi is a step towards creating realistic datasets and benchmarks for studying compositional generalization alongside the existing datasets and tasks. We report the generalization capabilities of sequence-to-sequence baseline models trained on a variety of the SCAN and Okapi datasets tasks. The best model achieves 15\% exact match accuracy when generalizing from simple API calls to more complex API calls. This highlights some challenges for future research. Okapi dataset and tasks are publicly available at https://aka.ms/nl2api/data.
翻訳日:2021-12-13 14:55:56 公開日:2021-12-09
# ビジュアルリライトルールによる一般化行動の学習

Learning Generalizable Behavior via Visual Rewrite Rules ( http://arxiv.org/abs/2112.05218v1 )

ライセンス: Link先を確認
Yiheng Xie, Mingxuan Li, Shangqun Yu, Michael Littman(参考訳) 深層強化学習エージェントは近年、前例のない成功を収めているが、その学習方針は不安定であり、環境のわずかな変更や不慣れな状況にまで一般化できない。 ニューラルネットワーク学習ダイナミクスのブラックボックスの性質は、訓練された深層エージェントを監査し、そのような障害から回復することを不可能にする。 本稿では,ニューラルネットワークを使わずに環境動態を捉えるための新しい表現と学習手法を提案する。 これは、人々のために設計されたゲームにおいて、アクションの効果が連続する視覚観察における局所的な変化の形で知覚されるという観察から生まれたものである。 我々のアルゴリズムは、このような視覚に基づく変化を抽出し、それらを一連のアクション依存記述規則に凝縮するように設計されている。 また,VRRのルールセットを探索し,拡張し,学習したVRRワールドモデルで計画することでゲームを解くことができるVRRエージェントの予備的な結果も提示する。 いくつかの古典的ゲームにおいて、我々の非ディープエージェントは、主要なディープエージェントと比較して優れた性能、極端なサンプル効率、堅牢な一般化能力を示す。

Though deep reinforcement learning agents have achieved unprecedented success in recent years, their learned policies can be brittle, failing to generalize to even slight modifications of their environments or unfamiliar situations. The black-box nature of the neural network learning dynamics makes it impossible to audit trained deep agents and recover from such failures. In this paper, we propose a novel representation and learning approach to capture environment dynamics without using neural networks. It originates from the observation that, in games designed for people, the effect of an action can often be perceived in the form of local changes in consecutive visual observations. Our algorithm is designed to extract such vision-based changes and condense them into a set of action-dependent descriptive rules, which we call ''visual rewrite rules'' (VRRs). We also present preliminary results from a VRR agent that can explore, expand its rule set, and solve a game via planning with its learned VRR world model. In several classical games, our non-deep agent demonstrates superior performance, extreme sample efficiency, and robust generalization ability compared with several mainstream deep agents.
翻訳日:2021-12-13 14:55:39 公開日:2021-12-09
# 教師なしポイントクラウド学習のためのプログレッシブシード生成自動エンコーダ

Progressive Seed Generation Auto-encoder for Unsupervised Point Cloud Learning ( http://arxiv.org/abs/2112.05213v1 )

ライセンス: Link先を確認
Juyoung Yang, Pyunghwan Ahn, Doyeon Kim, Haeil Lee, Junmo Kim(参考訳) 3Dスキャン技術の発展に伴い、3D視覚タスクはポピュラーな研究領域となった。 センサが取得する大量のデータのために、教師なし学習は、高価な注釈処理なしでポイントクラウドの理解と活用に不可欠である。 本稿では,ポイントクラウドの再構成学習のための新しいフレームワークと,PSG-Netという名の自動エンコーダアーキテクチャを提案する。 固定あるいはランダムな2D点を用いた既存の研究とは異なり、我々のフレームワークは潜在点集合に対して入力依存の点ワイズ特徴を生成する。 PSG-Netは、コード化された入力を用いて、シード生成モジュールを通じてポイントワイズな特徴を生成し、よりリッチな特徴を複数の段階で抽出する。 我々はPSG-Netの有効性を実験的に証明し、PSG-Netはポイントクラウドの再構築と教師なし分類における最先端の性能を示し、教師なし補完における他の手法と同等の性能を達成する。

With the development of 3D scanning technologies, 3D vision tasks have become a popular research area. Owing to the large amount of data acquired by sensors, unsupervised learning is essential for understanding and utilizing point clouds without an expensive annotation process. In this paper, we propose a novel framework and an effective auto-encoder architecture named "PSG-Net" for reconstruction-based learning of point clouds. Unlike existing studies that used fixed or random 2D points, our framework generates input-dependent point-wise features for the latent point set. PSG-Net uses the encoded input to produce point-wise features through the seed generation module and extracts richer features in multiple stages with gradually increasing resolution by applying the seed feature propagation module progressively. We prove the effectiveness of PSG-Net experimentally; PSG-Net shows state-of-the-art performances in point cloud reconstruction and unsupervised classification, and achieves comparable performance to counterpart methods in supervised completion.
翻訳日:2021-12-13 14:53:14 公開日:2021-12-09
# 深層ニューラルネットワークによる虹彩セグメンテーションと局所化のためのトランスファー学習:虹彩セグメンテーションのための新しいデータセット

KartalOl: Transfer learning using deep neural network for iris segmentation and localization: New dataset for iris segmentation ( http://arxiv.org/abs/2112.05236v1 )

ライセンス: Link先を確認
Jalil Nourmohammadi Khiarak, Samaneh Salehi Nasab, Farhang Jaryani, Seyed Naeim Moafinejad, Rana Pourmohamad, Yasin Amini, Morteza Noshad(参考訳) 非拘束環境における虹彩セグメンテーションと局所化は, 遠距離, 照明変動, ユーザ協力の制限, 被写体移動などにより困難である。 この問題に対処するため,事前学習したMobileNetV2ディープニューラルネットワークを用いたU-Netを提案する。 我々は、ImageNetデータセットにMobileNetV2で与えられたトレーニング済み重量を使い、虹彩認識およびローカライゼーションドメイン上で微調整する。 さらに,虹彩認識シナリオにおける検出器の評価を改善するために,カルタロールと呼ばれる新しいデータセットを導入した。 CASIA-Iris-Asia, CASIA-Iris-M1, CASIA-Iris-Africaおよび我々のデータセットから得られたNIR-ISL 2021のデータに基づいてMobileNetV2モデルを微調整する。 また、左右のフリップ、回転、ズーム、明るさでデータを増強します。 得られたデータセットの画像を反復することで、バイナリマスクのバイナライゼーションしきい値を選択した。 提案手法はカルタルオールデータセットに沿って,CASIA-Iris-Asia,CASIA-Iris-M1,CASIA-Iris-Africaで試験および訓練を行った。 実験結果から,本手法はモバイルベンチマークの最先端手法を上回ることがわかった。 コードと評価結果はhttps://github.com/Jalilnkh/KartalOl-NIR-ISL2021031301で公開されている。

Iris segmentation and localization in unconstrained environments is challenging due to long distances, illumination variations, limited user cooperation, and moving subjects. To address this problem, we present a U-Net with a pre-trained MobileNetV2 deep neural network method. We employ the pre-trained weights given with MobileNetV2 for the ImageNet dataset and fine-tune it on the iris recognition and localization domain. Further, we have introduced a new dataset, called KartalOl, to better evaluate detectors in iris recognition scenarios. To provide domain adaptation, we fine-tune the MobileNetV2 model on the provided data for NIR-ISL 2021 from the CASIA-Iris-Asia, CASIA-Iris-M1, and CASIA-Iris-Africa and our dataset. We also augment the data by performing left-right flips, rotation, zoom, and brightness. We chose the binarization threshold for the binary masks by iterating over the images in the provided dataset. The proposed method is tested and trained in CASIA-Iris-Asia, CASIA-Iris-M1, CASIA-Iris-Africa, along the KartalOl dataset. The experimental results highlight that our method surpasses state-of-the-art methods on mobile-based benchmarks. The codes and evaluation results are publicly available at https://github.com/Jalilnkh/KartalOl-NIR-ISL2021031301.
翻訳日:2021-12-13 14:52:57 公開日:2021-12-09
# 因果推論による単語埋め込み:ジェンダーバイアス低減と意味情報保存

Word Embeddings via Causal Inference: Gender Bias Reducing and Semantic Information Preserving ( http://arxiv.org/abs/2112.05194v1 )

ライセンス: Link先を確認
Lei Ding, Dengdeng Yu, Jinhan Xie, Wenxing Guo, Shenggang Hu, Meichen Liu, Linglong Kong, Hongsheng Dai, Yanchun Bao, Bei Jiang(参考訳) 日常生活における自然言語処理(NLP)の展開の拡大に伴い、NLPモデルから受け継いだ社会的偏見はより深刻で問題になっている。 以前の研究では、人間の生成したコーパスで訓練された単語埋め込みは、下流のタスクで差別的な結果をもたらす強いジェンダーバイアスを持っていることが示されている。 従来のデバイアス手法は主にバイアスのモデル化と、バイアスとセマンティクスコンポーネント間の複雑な因果構造を完全に見落としながら、暗黙的に意味情報のみを考察することに焦点を当てている。 これらの問題に対処するために,因果推論フレームワークを活用し,ジェンダーバイアスを効果的に除去する手法を提案する。 提案手法は,単語の埋め込み内にオラクルの意味情報を保持しながら,ジェンダー情報の流れを容易にする複雑な因果メカニズムの構築と解析を可能にする。 包括的実験により,提案手法は男女識別課題において最先端の結果が得られることを示した。 また,提案手法は,単語類似度評価や,下流のnlpタスクの処理性能が向上する。

With widening deployments of natural language processing (NLP) in daily life, inherited social biases from NLP models have become more severe and problematic. Previous studies have shown that word embeddings trained on human-generated corpora have strong gender biases that can produce discriminative results in downstream tasks. Previous debiasing methods focus mainly on modeling bias and only implicitly consider semantic information while completely overlooking the complex underlying causal structure among bias and semantic components. To address these issues, we propose a novel methodology that leverages a causal inference framework to effectively remove gender bias. The proposed method allows us to construct and analyze the complex causal mechanisms facilitating gender information flow while retaining oracle semantic information within word embeddings. Our comprehensive experiments show that the proposed method achieves state-of-the-art results in gender-debiasing tasks. In addition, our methods yield better performance in word similarity evaluation and various extrinsic downstream NLP tasks.
翻訳日:2021-12-13 14:44:37 公開日:2021-12-09
# 動的疾患グラフの遷移関数によるコンテキスト認識型ヘルスイベント予測

Context-aware Health Event Prediction via Transition Functions on Dynamic Disease Graphs ( http://arxiv.org/abs/2112.05195v1 )

ライセンス: Link先を確認
Chang Lu, Tian Han, Yue Ning(参考訳) 医療施設における電子健康記録(ehr)の広範な適用により,深層学習による健康事象予測が注目されるようになった。 ディープラーニングに基づく予測に使用されるEHRデータの一般的な特徴は、歴史的診断である。 現存する研究は、主に独立した疾患と診断され、訪問中の疾患間の臨床関係を考慮していない。 多くの機械学習アプローチは、患者の異なる訪問で病気の表現が静的であると仮定している。 しかし実際には、同時に診断される複数の疾患は、予後に起因した隠れたパターンを反映している。 さらに、いくつかの疾患が出現または消失し、患者の異なる訪問で様々な症状を示す可能性があるため、疾患の発生は静的ではない。 この組み合わせ疾患情報を効果的に活用し,疾患のダイナミクスを探求するために,動的疾患グラフ上の遷移関数を用いた新しい文脈認識学習フレームワークを提案する。 具体的には,複数のノード特性を持つグローバルな疾患共起グラフを構築した。 我々は,グローバル・ローカル・コンテクストを活用した患者訪問のための動的サブグラフを設計する。 さらに,各訪問における3つの診断の役割を,モデル疾患遷移過程におけるノード特性の変化に基づいて定義する。 実世界の2つのehrデータセットにおける実験結果は、提案されたモデルが健康事象の予測における最先端技術を上回ることを示している。

With the wide application of electronic health records (EHR) in healthcare facilities, health event prediction with deep learning has gained more and more attention. A common feature of EHR data used for deep-learning-based predictions is historical diagnoses. Existing work mainly regards a diagnosis as an independent disease and does not consider clinical relations among diseases in a visit. Many machine learning approaches assume disease representations are static in different visits of a patient. However, in real practice, multiple diseases that are frequently diagnosed at the same time reflect hidden patterns that are conducive to prognosis. Moreover, the development of a disease is not static since some diseases can emerge or disappear and show various symptoms in different visits of a patient. To effectively utilize this combinational disease information and explore the dynamics of diseases, we propose a novel context-aware learning framework using transition functions on dynamic disease graphs. Specifically, we construct a global disease co-occurrence graph with multiple node properties for disease combinations. We design dynamic subgraphs for each patient's visit to leverage global and local contexts. We further define three diagnosis roles in each visit based on the variation of node properties to model disease transition processes. Experimental results on two real-world EHR datasets show that the proposed model outperforms state of the art in predicting health events.
翻訳日:2021-12-13 14:43:39 公開日:2021-12-09
# Propaganda-As-A-Serviceのためのスピン言語モデル

Spinning Language Models for Propaganda-As-A-Service ( http://arxiv.org/abs/2112.05224v1 )

ライセンス: Link先を確認
Eugene Bagdasaryan and Vitaly Shmatikov(参考訳) ニューラル・シークエンス・トゥ・シークエンス(seq2seq)モデルに対する新たな脅威について検討する。 モデルの出力を「スピン」させるトレーニングタイム攻撃は、敵の感情や視点をサポートするが、入力が敵のチョーセントリガーワードを含む場合に限られる。 例えば、スピンした要約モデルは、ある個人や組織の名前に言及している任意のテキストのポジティブな要約を出力する。 モデル回転はプロパガンダ・アズ・ア・サービスを可能にする。 相手は選択したトリガのために望ましいスピンを生成するカスタマイズされた言語モデルを作成し、デシ情報(プラットフォームアタック)を生成するためにデプロイするか、あるいはMLトレーニングパイプライン(サプライチェーンアタック)に注入して、悪意のある機能を下流モデルに転送する。 技術的には、モデル回転は「メタバックドア」をモデルに導入する。 従来のバックドアではモデルがトリガーで入力に対して誤った出力を生成するが、スピンしたモデルの出力は文脈を保持し、標準精度のメトリクスを保持するが、敵によって選択されたメタタスク(例えばポジティブな感情)も満たしている。 モデル回転の実現可能性を示すため,新しいバックドア技術を開発した。 逆のメタタスクをSeq2seqモデルに積み重ね、私たちが"pseudo-words"と呼ぶワード埋め込み空間のポイントに所望のメタタスク出力をバックプロパゲートし、擬似ワードを使用してseq2seqモデルの全出力分布をシフトする。 我々は、この言語生成、要約、翻訳モデルに対する攻撃を、感情、毒性、エンテーメントなどの異なるトリガーとメタタスクで評価する。 スピン化されたモデルは、敵のメタタスクを満たしながら精度の指標を維持する。 サプライチェーン攻撃では、スピンは下流モデルに転送される。 最後に、特定のトリガで入力にスピンを選択的に適用するモデルを検出するブラックボックス、メタタスク非依存ディフェンスを提案する。

We investigate a new threat to neural sequence-to-sequence (seq2seq) models: training-time attacks that cause models to "spin" their outputs so as to support an adversary-chosen sentiment or point of view, but only when the input contains adversary-chosen trigger words. For example, a spinned summarization model would output positive summaries of any text that mentions the name of some individual or organization. Model spinning enables propaganda-as-a-service. An adversary can create customized language models that produce desired spins for chosen triggers, then deploy them to generate disinformation (a platform attack), or else inject them into ML training pipelines (a supply-chain attack), transferring malicious functionality to downstream models. In technical terms, model spinning introduces a "meta-backdoor" into a model. Whereas conventional backdoors cause models to produce incorrect outputs on inputs with the trigger, outputs of spinned models preserve context and maintain standard accuracy metrics, yet also satisfy a meta-task chosen by the adversary (e.g., positive sentiment). To demonstrate feasibility of model spinning, we develop a new backdooring technique. It stacks the adversarial meta-task onto a seq2seq model, backpropagates the desired meta-task output to points in the word-embedding space we call "pseudo-words," and uses pseudo-words to shift the entire output distribution of the seq2seq model. We evaluate this attack on language generation, summarization, and translation models with different triggers and meta-tasks such as sentiment, toxicity, and entailment. Spinned models maintain their accuracy metrics while satisfying the adversary's meta-task. In supply chain attack the spin transfers to downstream models. Finally, we propose a black-box, meta-task-independent defense to detect models that selectively apply spin to inputs with a certain trigger.
翻訳日:2021-12-13 14:06:31 公開日:2021-12-09
# ニューラルネットワークにおける区間算術の基本限界

The Fundamental Limits of Interval Arithmetic for Neural Networks ( http://arxiv.org/abs/2112.05235v1 )

ライセンス: Link先を確認
Matthew Mirman, Maximilian Baader, Martin Vechev(参考訳) インターバル解析(Interval Analysis, IBP)は、信頼性の高い機械学習領域における基本的な課題である、証明可能な堅牢なディープニューラルネットワークの検証とトレーニングのための一般的なテクニックである。 しかし、かなりの努力にもかかわらず、この重要な課題に対処する進歩は停滞し、インターバル算術が前進可能な経路であるかどうかを問うようになった。 本稿では,ニューラルネットワーク解析のためのインターバル演算の限界に関する2つの基本的結果を示す。 我々の主要な不合理性定理は、わずか3つの点を分類するニューラルネットワークに対して、区間解析が証明できない点に対して有効な仕様が存在することを述べている。 任意の半径 $\alpha < 1$ が与えられたとき、ロバストな半径 $\alpha$ を持つ一組の $o(\alpha^{-1})$ が存在し、距離$$ で区切られ、一方の階層ネットワークが区間分析によってロバストに分類できることを証明できない。

Interval analysis (or interval bound propagation, IBP) is a popular technique for verifying and training provably robust deep neural networks, a fundamental challenge in the area of reliable machine learning. However, despite substantial efforts, progress on addressing this key challenge has stagnated, calling into question whether interval arithmetic is a viable path forward. In this paper we present two fundamental results on the limitations of interval arithmetic for analyzing neural networks. Our main impossibility theorem states that for any neural network classifying just three points, there is a valid specification over these points that interval analysis can not prove. Further, in the restricted case of one-hidden-layer neural networks we show a stronger impossibility result: given any radius $\alpha < 1$, there is a set of $O(\alpha^{-1})$ points with robust radius $\alpha$, separated by distance $2$, that no one-hidden-layer network can be proven to classify robustly via interval analysis.
翻訳日:2021-12-13 14:04:41 公開日:2021-12-09
# 移動操作のための遠隔操作データからの誤り認識模倣学習

Error-Aware Imitation Learning from Teleoperation Data for Mobile Manipulation ( http://arxiv.org/abs/2112.05251v1 )

ライセンス: Link先を確認
Josiah Wong, Albert Tung, Andrey Kurenkov, Ajay Mandlekar, Li Fei-Fei, Silvio Savarese, Roberto Mart\'in-Mart\'in(参考訳) モバイル操作(mm)では、ロボットは環境内をナビゲートしたり操作したりできるため、ナビゲーションや操作しかできないロボットよりも多くのタスクを完了することができる。 本研究では,模倣学習(il)をmmタスクの連続的viso-motorポリシーに適用する方法について検討する。 多くの先行研究により、ILは操作またはナビゲーションのドメインに対してvisuo-motorポリシーをトレーニングできることが示されている。 データ側では、現在のインターフェースによって、高品質な人間のデモの収集が難しくなり、学習側では、限られたデータでトレーニングされたポリシーは、デプロイ時に共変量シフトに悩まされる。 これらの問題を解決するために,移動マニピュレータの同時ナビゲーションと操作が可能な新しい遠隔操作フレームワークであるMobile Manipulation RoboTurk (MoMaRT) を提案する。 次に,エージェントが潜在的な故障状態にあることを検知することで,共変量シフトに対処する学習誤り検出システムを提案する。 このデータから高性能ilポリシとエラー検出をトレーニングし,専門家データを用いた複数の多段階タスクにおいて45%以上のタスク成功率と85%のエラー検出成功率を達成した。 Codebase、データセット、ビジュアライゼーションなどがhttps://sites.google.com/view/il-for-mm/home.comで公開されている。

In mobile manipulation (MM), robots can both navigate within and interact with their environment and are thus able to complete many more tasks than robots only capable of navigation or manipulation. In this work, we explore how to apply imitation learning (IL) to learn continuous visuo-motor policies for MM tasks. Much prior work has shown that IL can train visuo-motor policies for either manipulation or navigation domains, but few works have applied IL to the MM domain. Doing this is challenging for two reasons: on the data side, current interfaces make collecting high-quality human demonstrations difficult, and on the learning side, policies trained on limited data can suffer from covariate shift when deployed. To address these problems, we first propose Mobile Manipulation RoboTurk (MoMaRT), a novel teleoperation framework allowing simultaneous navigation and manipulation of mobile manipulators, and collect a first-of-its-kind large scale dataset in a realistic simulated kitchen setting. We then propose a learned error detection system to address the covariate shift by detecting when an agent is in a potential failure state. We train performant IL policies and error detectors from this data, and achieve over 45% task success rate and 85% error detection success rate across multiple multi-stage tasks when trained on expert data. Codebase, datasets, visualization, and more available at https://sites.google.com/view/il-for-mm/home.
翻訳日:2021-12-13 14:04:22 公開日:2021-12-09
# DiffuseMorph:拡散モデルを用いた連続軌道に沿った教師なし変形画像登録

DiffuseMorph: Unsupervised Deformable Image Registration Along Continuous Trajectory Using Diffusion Models ( http://arxiv.org/abs/2112.05149v1 )

ライセンス: Link先を確認
Boah Kim, Inhwa Han, Jong Chul Ye(参考訳) 変形可能な画像登録は、医療画像とコンピュータビジョンの基本的なタスクの1つである。 古典的な登録アルゴリズムは通常、高い計算コストを必要とする正確な変形を提供するために反復最適化アプローチに依存する。 高速画像登録を行うために多くの深層学習に基づく手法が開発されているが、位相的折り畳み問題が少ない変形場を推定することは依然として困難である。 さらに、これらの手法は単一の固定画像への登録のみを可能にし、移動画像と固定画像の間で連続的に変化する登録結果を得ることはできない。 そこで,本稿では拡散モデルに基づく確率的画像登録の新たなアプローチについて述べる。 具体的には,移動画像と固定画像の変形のスコア関数を学習する。 既存の拡散モデルと同様に、DiffuseMorphは逆拡散過程を通じて合成変形画像を提供するだけでなく、遅延空間とともに移動画像の様々なレベルの変形を可能にする。 2次元顔表情画像と3次元脳画像登録タスクの実験結果は, トポロジー保存機能を備えた柔軟かつ高精度な変形を実現することを証明した。

Deformable image registration is one of the fundamental tasks for medical imaging and computer vision. Classical registration algorithms usually rely on iterative optimization approaches to provide accurate deformation, which requires high computational cost. Although many deep-learning-based methods have been developed to carry out fast image registration, it is still challenging to estimate the deformation field with less topological folding problem. Furthermore, these approaches only enable registration to a single fixed image, and it is not possible to obtain continuously varying registration results between the moving and fixed images. To address this, here we present a novel approach of diffusion model-based probabilistic image registration, called DiffuseMorph. Specifically, our model learns the score function of the deformation between moving and fixed images. Similar to the existing diffusion models, DiffuseMorph not only provides synthetic deformed images through a reverse diffusion process, but also enables various levels of deformation of the moving image along with the latent space. Experimental results on 2D face expression image and 3D brain image registration tasks demonstrate that our method can provide flexible and accurate deformation with a capability of topology preservation.
翻訳日:2021-12-13 14:03:30 公開日:2021-12-09
# 第7回ai運転オリンピック:パンオプティカルトラッキング第1位

7th AI Driving Olympics: 1st Place Report for Panoptic Tracking ( http://arxiv.org/abs/2112.05210v1 )

ライセンス: Link先を確認
Rohit Mohan, Abhinav Valada(参考訳) この技術レポートでは、NeurIPS 2021で開かれた第7回AI運転オリンピックにおいて、パン光学追跡の挑戦に勝利した効率の良いLPTアーキテクチャについて述べる。 我々のアーキテクチャは、トップダウンの高効率LPSパノプティカルセグメンテーションアプローチに基づいている。 効率的なLPTは、近接畳み込みモジュールをエンコーダとする改良されたEfficientNet-B5モデルと、セマンティックにリッチな範囲対応のマルチスケール特徴を集約する範囲対応FPNからなる共有バックボーンで構成される。 次に,semantic headをインスタンスヘッドとして,scale-invariant semantic headとhybrid task cascadeの2つのタスク固有ヘッドを用いた。 さらに,各頭部のロジットを適応的に融合させてパン光学追跡出力を得るために,新しいパン光学融合モジュールを用いる。 提案手法では,3つの連続的に蓄積したスキャンを用いて局所的に一貫した汎視追跡IDを推定し,同時にスキャン間の重なりを推定し,与えられたシーケンスに対して一貫した汎視追跡IDを予測する。 ニューオリプス2021年の第7回ai運転オリンピックのベンチマーク結果は、我々のモデルはpanoptic nuscenesデータセットのpanopticトラッキングタスクで1位にランクされていることを示している。

In this technical report, we describe our EfficientLPT architecture that won the panoptic tracking challenge in the 7th AI Driving Olympics at NeurIPS 2021. Our architecture builds upon the top-down EfficientLPS panoptic segmentation approach. EfficientLPT consists of a shared backbone with a modified EfficientNet-B5 model comprising the proximity convolution module as the encoder followed by the range-aware FPN to aggregate semantically rich range-aware multi-scale features. Subsequently, we employ two task-specific heads, the scale-invariant semantic head and hybrid task cascade with feedback from the semantic head as the instance head. Further, we employ a novel panoptic fusion module to adaptively fuse logits from each of the heads to yield the panoptic tracking output. Our approach exploits three consecutive accumulated scans to predict locally consistent panoptic tracking IDs and also the overlap between the scans to predict globally consistent panoptic tracking IDs for a given sequence. The benchmarking results from the 7th AI Driving Olympics at NeurIPS 2021 show that our model is ranked #1 for the panoptic tracking task on the Panoptic nuScenes dataset.
翻訳日:2021-12-13 14:03:12 公開日:2021-12-09
# モデルベース強化学習における実験設計の展望

An Experimental Design Perspective on Model-Based Reinforcement Learning ( http://arxiv.org/abs/2112.05244v1 )

ライセンス: Link先を確認
Viraj Mehta and Biswajit Paria and Jeff Schneider and Stefano Ermon and Willie Neiswanger(参考訳) RLの多くの実用的な応用において、環境からの状態遷移を観察することは高価である。 例えば、核融合のためのプラズマ制御の問題では、与えられた状態-作用対に対する次の状態の計算には高価な遷移関数をクエリする必要がある。 このような高価なデータ収集は、通常学習するために多くの観測を必要とする標準RLアルゴリズムの適用を禁止している。 本研究では,遷移関数に対して最小限のステートアクションクエリを行いながら,ポリシーを効率的に学習する問題に対処する。 特に,ベイズ最適実験設計のアイデアを活用し,効率的な学習のための状態動作クエリの選択を導く。 本稿では,マルコフ決定過程に対する最適解について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。 各イテレーションにおいて,本アルゴリズムは,この取得関数を最大化し,クエリする最も情報性の高い状態-動作ペアを選択する。 我々は,モデルベースのrlベースラインよりも最大$1,000\times$,モデルフリーのrlベースラインより$10^3$~$10^5\times$少ないデータで最適なポリシーを学習できることを検証した。 また,データ取得の原理的な方法から生じる実質的な改善を示すいくつかの補間比較を行った。

In many practical applications of RL, it is expensive to observe state transitions from the environment. For example, in the problem of plasma control for nuclear fusion, computing the next state for a given state-action pair requires querying an expensive transition function which can lead to many hours of computer simulation or dollars of scientific research. Such expensive data collection prohibits application of standard RL algorithms which usually require a large number of observations to learn. In this work, we address the problem of efficiently learning a policy while making a minimal number of state-action queries to the transition function. In particular, we leverage ideas from Bayesian optimal experimental design to guide the selection of state-action queries for efficient learning. We propose an acquisition function that quantifies how much information a state-action pair would provide about the optimal solution to a Markov decision process. At each iteration, our algorithm maximizes this acquisition function, to choose the most informative state-action pair to be queried, thus yielding a data-efficient RL approach. We experiment with a variety of simulated continuous control problems and show that our approach learns an optimal policy with up to $5$ -- $1,000\times$ less data than model-based RL baselines and $10^3$ -- $10^5\times$ less data than model-free RL baselines. We also provide several ablated comparisons which point to substantial improvements arising from the principled method of obtaining data.
翻訳日:2021-12-13 13:21:24 公開日:2021-12-09
# come-closer-diffuse-faster: 確率的収縮による逆問題に対する条件拡散促進モデル

Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models for Inverse Problems through Stochastic Contraction ( http://arxiv.org/abs/2112.05146v1 )

ライセンス: Link先を確認
Hyungjin Chung, Byeongsu Sim, Jong Chul Ye(参考訳) 拡散モデルは最近、生成モデルとしての性能が高く、コミュニティ内で大きな関心を集めている。 さらに、逆問題に対するその応用は最先端のパフォーマンスを示している。 残念ながら、拡散モデルは、本質的にサンプリングが遅く、純粋なガウスノイズから画像を生成するのに数千ステップの反復を必要とします。 本研究ではガウスノイズから始めることは不要であることを示す。 代わりに、より良い初期化で単一の前方拡散から始めると、逆条件拡散におけるサンプリングステップの数は大幅に減少する。 この現象は、条件拡散戦略のような確率的差分方程式の縮約理論によって形式的に説明され、逆拡散の交互応用と非拡張的データ一貫性ステップが続く。 Come-Closer-Diffuse-Faster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。 超高分解能, 画像インパインティング, 圧縮センシングMRIによる実験結果から, 本手法はサンプリング工程を大幅に短縮し, 最先端の再構成性能を達成できることが判明した。

Diffusion models have recently attained significant interest within the community owing to their strong performance as generative models. Furthermore, its application to inverse problems have demonstrated state-of-the-art performance. Unfortunately, diffusion models have a critical downside - they are inherently slow to sample from, needing few thousand steps of iteration to generate images from pure Gaussian noise. In this work, we show that starting from Gaussian noise is unnecessary. Instead, starting from a single forward diffusion with better initialization significantly reduces the number of sampling steps in the reverse conditional diffusion. This phenomenon is formally explained by the contraction theory of the stochastic difference equations like our conditional diffusion strategy - the alternating applications of reverse diffusion followed by a non-expansive data consistency step. The new sampling strategy, dubbed Come-Closer-Diffuse-Faster (CCDF), also reveals a new insight on how the existing feed-forward neural network approaches for inverse problems can be synergistically combined with the diffusion models. Experimental results with super-resolution, image inpainting, and compressed sensing MRI demonstrate that our method can achieve state-of-the-art reconstruction performance at significantly reduced sampling steps.
翻訳日:2021-12-13 13:12:39 公開日:2021-12-09
# 全微分近似と加速度勾配降下を用いた逆画像フィルタリング

Reverse image filtering using total derivative approximation and accelerated gradient descent ( http://arxiv.org/abs/2112.04121v2 )

ライセンス: Link先を確認
Fernando J. Galetto, Guang Deng(参考訳) 本稿では,線形あるいは非線形な画像フィルタの効果を逆転する新たな問題に対処する。 この仮定では、フィルタのアルゴリズムは未知であり、フィルタはブラックボックスとして利用できる。 この逆問題を,局所パッチベースのコスト関数を最小化し,勾配降下に使用される勾配を近似するために全微分を用いて近似する。 フーリエ領域における出力の収束と品質に影響する要因を分析した。 また,本論文で提案する3つの逆フィルタにおける加速度勾配降下アルゴリズムの適用について検討した。 本稿では,提案アルゴリズムの複雑さと有効性を評価するための実験結果について述べる。 その結果,提案アルゴリズムは,(1)最も高速な逆フィルタと同程度の複雑性で,また,(2)非常に複雑な逆フィルタの逆フィルタと同一のフィルタのリストを逆転させることができるが,その複雑さははるかに小さい。

In this paper, we address a new problem of reversing the effect of an image filter, which can be linear or nonlinear. The assumption is that the algorithm of the filter is unknown and the filter is available as a black box. We formulate this inverse problem as minimizing a local patch-based cost function and use total derivative to approximate the gradient which is used in gradient descent to solve the problem. We analyze factors affecting the convergence and quality of the output in the Fourier domain. We also study the application of accelerated gradient descent algorithms in three gradient-free reverse filters, including the one proposed in this paper. We present results from extensive experiments to evaluate the complexity and effectiveness of the proposed algorithm. Results demonstrate that the proposed algorithm outperforms the state-of-the-art in that (1) it is at the same level of complexity as that of the fastest reverse filter, but it can reverse a larger number of filters, and (2) it can reverse the same list of filters as that of the very complex reverse filter, but its complexity is much smaller.
翻訳日:2021-12-13 11:29:54 公開日:2021-12-09
# (参考訳) 議論に基づく計算文の実用性予測のための機械学習

Machine Learning for Utility Prediction in Argument-Based Computational Persuasion ( http://arxiv.org/abs/2112.04953v1 )

ライセンス: CC BY 4.0
Ivan Donadello, Anthony Hunter, Stefano Teso, Mauro Dragoni(参考訳) 自動説得システム(APS)は、議論や反論を交換する対話に参加することによって、何かを信じるようユーザーに説得することを目的としている。 ユーザを説得する上でAPSが成功する確率を最大化するために、ユーザが提示する議論のそれぞれの段階で提示する最良の議論を選択できるように、グローバルポリシーを識別することができる。 しかし、医療などの実際のアプリケーションでは、APSとユーザにとって、対話の結果が同じ、あるいは正反対になる可能性は低い。 この状況に対処するために、拡張形式のゲームは二者決定理論の議論に利用されてきた。 1) 機械学習(ML)メソッドを使って、ユーザの異なるサブポピュレーションに対するユーティリティ関数を予測するにはどうすればよいか? そして(2) 学習したユーザの中から、新しいユーザを最適なユーティリティ関数として識別するにはどうすればよいのか? そこで我々は,ユーザからの情報を活用してユーティリティを予測する2つのML手法 EAI と EDS を開発した。 EAIは一定量の情報に制限されるが、EDSはユーザのサブポピュレーションを最も検出する情報を選択することができる。 本研究は,健康な食事習慣に関する実例とシミュレーション環境でのEAIとEDSを評価した。 どちらの場合も結果は有望だが、EDSは有用なユーティリティ関数を予測するのに効果的である。

Automated persuasion systems (APS) aim to persuade a user to believe something by entering into a dialogue in which arguments and counterarguments are exchanged. To maximize the probability that an APS is successful in persuading a user, it can identify a global policy that will allow it to select the best arguments it presents at each stage of the dialogue whatever arguments the user presents. However, in real applications, such as for healthcare, it is unlikely the utility of the outcome of the dialogue will be the same, or the exact opposite, for the APS and user. In order to deal with this situation, games in extended form have been harnessed for argumentation in Bi-party Decision Theory. This opens new problems that we address in this paper: (1) How can we use Machine Learning (ML) methods to predict utility functions for different subpopulations of users? and (2) How can we identify for a new user the best utility function from amongst those that we have learned? To this extent, we develop two ML methods, EAI and EDS, that leverage information coming from the users to predict their utilities. EAI is restricted to a fixed amount of information, whereas EDS can choose the information that best detects the subpopulations of a user. We evaluate EAI and EDS in a simulation setting and in a realistic case study concerning healthy eating habits. Results are promising in both cases, but EDS is more effective at predicting useful utility functions.
翻訳日:2021-12-12 13:10:52 公開日:2021-12-09
# (参考訳) 不確実性評価のための多変量・グローバル・アモータイズド対策

Diverse, Global and Amortised Counterfactual Explanations for Uncertainty Estimates ( http://arxiv.org/abs/2112.02646v3 )

ライセンス: CC BY 4.0
Dan Ley, Umang Bhatt, Adrian Weller(参考訳) 微分確率モデルからの不確実性推定を解釈するために、最近の研究は、モデルが不確実である与えられたデータポイントに対して、モデルが予測においてより確実になるように、入力に対する1つのオンマンフォールドな変化を識別する単一の非確実性説明(CLUE)を生成することを提案した。 我々は、潜在空間における元の入力の$\delta$ボール内の潜在的な手がかりのセットである$\delta$-clueを調べるために探索を広げる。 このような集合の多様性を研究し,多くの手掛かりが冗長であることを見いだす。そのために我々は,入力に関する不確実性をいかに減少させるか,それぞれが個別に説明できる手掛かりである多様手掛かり(\nabla$-clue)を提案する。 さらに,GLobal AMortized CLUE (GLAM-CLUE) を提案する。これは,不確実な入力の特定のグループに対する償却写像を学習し,それらを単一の関数呼び出しで効率的に変換し,モデルが確実な入力に変換する方法である。 実験の結果, CLUE の欠点は $\delta$-CLUE, $\nabla$-CLUE および GLAM-CLUE がすべて解決し, 実践者に不確実性推定の有益な説明を提供することがわかった。

To interpret uncertainty estimates from differentiable probabilistic models, recent work has proposed generating a single Counterfactual Latent Uncertainty Explanation (CLUE) for a given data point where the model is uncertain, identifying a single, on-manifold change to the input such that the model becomes more certain in its prediction. We broaden the exploration to examine $\delta$-CLUE, the set of potential CLUEs within a $\delta$ ball of the original input in latent space. We study the diversity of such sets and find that many CLUEs are redundant; as such, we propose DIVerse CLUE ($\nabla$-CLUE), a set of CLUEs which each propose a distinct explanation as to how one can decrease the uncertainty associated with an input. We then further propose GLobal AMortised CLUE (GLAM-CLUE), a distinct and novel method which learns amortised mappings on specific groups of uncertain inputs, taking them and efficiently transforming them in a single function call into inputs for which a model will be certain. Our experiments show that $\delta$-CLUE, $\nabla$-CLUE, and GLAM-CLUE all address shortcomings of CLUE and provide beneficial explanations of uncertainty estimates to practitioners.
翻訳日:2021-12-11 04:47:30 公開日:2021-12-09
# (参考訳) 半可視噴流検出用オートエンコーダ

Autoencoders for Semivisible Jet Detection ( http://arxiv.org/abs/2112.02864v2 )

ライセンス: CC BY 4.0
Florencia Canelli, Annapaola de Cosa, Luc Le Pottier, Jeremi Niedziela, Kevin Pedro, Maurizio Pierini(参考訳) 閉じ込めるダークセクターからのダークマター粒子の生成は、多くの新しい実験的署名をもたらす可能性がある。 理論の詳細によっては、陽子-陽子衝突におけるダーククォークの生成は、半可視的な粒子の噴流をもたらす可能性がある: ダークハドロンのコリメーテッドスプレーは、粒子衝突実験によって検出できるものはごく一部である。 実験的なシグネチャは、ジェットの可視成分と再構成された運動量コリナーの存在によって特徴づけられる。 この複雑なトポロジーは、人工的欠落運動量を生成する検出器の非効率性と誤再構成に敏感である。 本研究では,通常のジェットを拒絶し,異常検出技術を用いて半可視ジェットを識別する信号認識戦略を提案する。 入力としてジェットサブ構造変数を持つディープニューラルオートエンコーダネットワークは異常ジェットの解析に非常に有用である。 この研究は半可視ジェットシグネチャに焦点を当てているが、この手法は非SM粒子からのジェットとのシグネチャを予測する新しい物理モデルに適用できる。

The production of dark matter particles from confining dark sectors may lead to many novel experimental signatures. Depending on the details of the theory, dark quark production in proton-proton collisions could result in semivisible jets of particles: collimated sprays of dark hadrons of which only some are detectable by particle collider experiments. The experimental signature is characterised by the presence of reconstructed missing momentum collinear with the visible components of the jets. This complex topology is sensitive to detector inefficiencies and mis-reconstruction that generate artificial missing momentum. With this work, we propose a signal-agnostic strategy to reject ordinary jets and identify semivisible jets via anomaly detection techniques. A deep neural autoencoder network with jet substructure variables as input proves highly useful for analyzing anomalous jets. The study focuses on the semivisible jet signature; however, the technique can apply to any new physics model that predicts signatures with jets from non-SM particles.
翻訳日:2021-12-11 04:22:34 公開日:2021-12-09
# (参考訳) 医療のランドマークを見つけるために、どの画像にラベルをつけるか?

Which images to label for few-shot medical landmark detection? ( http://arxiv.org/abs/2112.04386v2 )

ライセンス: CC BY-SA 4.0
Quan Quan, Qingsong Yao, Jun Li, S. Kevin Zhou(参考訳) ディープラーニング手法の成功は、十分にラベル付けされた大規模データセットの可用性に依存している。 しかし、医用画像の場合、このような豊富なトレーニングデータに注釈をつけるには経験豊富な放射線技師が必要であり、限られた時間を消費する。 この負担を軽減するために,いくつかのラベル付きデータだけで競争力のあるパフォーマンスを実現する,少数ショット学習が開発されている。 しかし、数ショット学習においてこれまで見過ごされてきた重要な問題は、学習前のアノテーションのためのテンプレートイメージの選択であり、最終的なパフォーマンスに影響する。 本稿では,アノテーションのための「最も価値のある」画像を選択するための新しいサンプル選択ポリシー(scp)を提案する。 scpは3つの部分からなる。 1)放射線画像から特徴を抽出する事前訓練された深部モデル構築のための自己指導型訓練 2)情報パッチのローカライズのためのキーポイント提案及び 3)最も代表的なサンプルやテンプレートを検索するための代表スコア推定。 SCPの利点は、広く使われている3つの公開データセットに関する様々な実験によって示される。 一発の医用ランドマーク検出では、ケパロメトリデータセットとハンドX線データセットの平均放射誤差をそれぞれ14.2%(3.595mmから3.083mm)、35.5%(4.114mmから2.653mm)削減する。

The success of deep learning methods relies on the availability of well-labeled large-scale datasets. However, for medical images, annotating such abundant training data often requires experienced radiologists and consumes their limited time. Few-shot learning is developed to alleviate this burden, which achieves competitive performances with only several labeled data. However, a crucial yet previously overlooked problem in few-shot learning is about the selection of template images for annotation before learning, which affects the final performance. We herein propose a novel Sample Choosing Policy (SCP) to select "the most worthy" images for annotation, in the context of few-shot medical landmark detection. SCP consists of three parts: 1) Self-supervised training for building a pre-trained deep model to extract features from radiological images, 2) Key Point Proposal for localizing informative patches, and 3) Representative Score Estimation for searching the most representative samples or templates. The advantage of SCP is demonstrated by various experiments on three widely-used public datasets. For one-shot medical landmark detection, its use reduces the mean radial errors on Cephalometric and HandXray datasets by 14.2% (from 3.595mm to 3.083mm) and 35.5% (4.114mm to 2.653mm), respectively.
翻訳日:2021-12-11 03:22:32 公開日:2021-12-09
# (参考訳) vitsのブートストラップ: 視覚トランスフォーマーをプリトレーニングから解放する

Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training ( http://arxiv.org/abs/2112.03552v2 )

ライセンス: CC BY 4.0
Haofei Zhang, Jiarui Duan, Mengqi Xue, Jie Song, Li Sun, Mingli Song(参考訳) 近年、視覚変換器(ViT)は急速に発展し、コンピュータビジョン(CV)の領域における畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。 畳み込みのハードコード化による帰納バイアスを置き換える汎用トランスフォーマーアーキテクチャにより、ViTは特にデータに十分な状況においてCNNを超越した。 しかし、ViTは小さなデータセットに過度に適合する傾向があるため、大規模な事前トレーニングに依存しているため、膨大な時間が費やされる。 本稿では,ネットワークアーキテクチャを高い上限に保ち,より適切な最適化目標を設定しながら,CNNの帰納バイアスをViTに戻すことで,ViTの事前学習を解放する。 まず、エージェントCNNは、誘導バイアスのある与えられたViTに基づいて設計される。 次に,VTがエージェントの中間的特徴から誘導バイアスを学習する際の重み共有を伴うエージェントとViTを協調的に最適化するブートストラップトレーニングアルゴリズムを提案する。 CIFAR-10/100とImageNet-1kの限られたトレーニングデータによる大規模な実験により、インダクティブバイアスがViTsをはるかに高速に収束させ、パラメータの少ない従来のCNNを上回る結果が得られた。

Recently, vision Transformers (ViTs) are developing rapidly and starting to challenge the domination of convolutional neural networks (CNNs) in the realm of computer vision (CV). With the general-purpose Transformer architecture for replacing the hard-coded inductive biases of convolution, ViTs have surpassed CNNs, especially in data-sufficient circumstances. However, ViTs are prone to over-fit on small datasets and thus rely on large-scale pre-training, which expends enormous time. In this paper, we strive to liberate ViTs from pre-training by introducing CNNs' inductive biases back to ViTs while preserving their network architectures for higher upper bound and setting up more suitable optimization objectives. To begin with, an agent CNN is designed based on the given ViT with inductive biases. Then a bootstrapping training algorithm is proposed to jointly optimize the agent and ViT with weight sharing, during which the ViT learns inductive biases from the intermediate features of the agent. Extensive experiments on CIFAR-10/100 and ImageNet-1k with limited training data have shown encouraging results that the inductive biases help ViTs converge significantly faster and outperform conventional CNNs with even fewer parameters.
翻訳日:2021-12-11 03:05:13 公開日:2021-12-09
# (参考訳) データストリームのための微分プライベートアンサンブル分類器

Differentially Private Ensemble Classifiers for Data Streams ( http://arxiv.org/abs/2112.04640v1 )

ライセンス: CC BY 4.0
Lovedeep Gondara, Ke Wang, Ricardo Silva Carvalho(参考訳) 分類/回帰による継続的データストリームからの学習は、多くのドメインで一般的です。 データ所有者のプライベート情報を保護しながら、データ特性(コンセプトドリフト)の進化に適応することは、オープンな課題である。 固定されたプライバシ予算の下で、潜在的に終わらないデータストリームを扱うために、 \textit{unbounded} の多数のアンサンブル更新を可能にすることと、事前訓練された差分的プライベートな分類/回帰モデルをブラックボックスとして扱うことを特徴とする、差分的プライベートなアンサンブルソリューションを提示する。 提案手法は,プライバシ設定,概念ドリフト,データ分散などにおいて,実世界およびシミュレーションデータセットの競合を上回っている。

Learning from continuous data streams via classification/regression is prevalent in many domains. Adapting to evolving data characteristics (concept drift) while protecting data owners' private information is an open challenge. We present a differentially private ensemble solution to this problem with two distinguishing features: it allows an \textit{unbounded} number of ensemble updates to deal with the potentially never-ending data streams under a fixed privacy budget, and it is \textit{model agnostic}, in that it treats any pre-trained differentially private classification/regression model as a black-box. Our method outperforms competitors on real-world and simulated datasets for varying settings of privacy, concept drift, and data distribution.
翻訳日:2021-12-10 22:42:25 公開日:2021-12-09
# (参考訳) 予測不確実性推定のための自己回帰分位流

Autoregressive Quantile Flows for Predictive Uncertainty Estimation ( http://arxiv.org/abs/2112.04643v1 )

ライセンス: CC BY 4.0
Phillip Si, Allan Bishop, Volodymyr Kuleshov(参考訳) 機械学習の多くの応用は、モデル出力よりも柔軟な確率分布を予測することである。 本研究では,高次元変数上の確率モデルのフレキシブルなクラスである自己回帰的分位流を提案する。 これらのモデルは、適切なスコアリングルールに基づいた新しい目標を用いて訓練された自己回帰流の例であり、トレーニング中にヤコビアンの計算コストの高い行列式の計算を単純化し、新しいタイプのニューラルネットワークアーキテクチャをサポートする。 これらのモデルは,予測条件分布のパラメータ化や,時系列予測やオブジェクト検出における確率予測の品質向上に有効であることを示す。

Numerous applications of machine learning involve predicting flexible probability distributions over model outputs. We propose Autoregressive Quantile Flows, a flexible class of probabilistic models over high-dimensional variables that can be used to accurately capture predictive aleatoric uncertainties. These models are instances of autoregressive flows trained using a novel objective based on proper scoring rules, which simplifies the calculation of computationally expensive determinants of Jacobians during training and supports new types of neural architectures. We demonstrate that these models can be used to parameterize predictive conditional distributions and improve the quality of probabilistic predictions on time series forecasting and object detection.
翻訳日:2021-12-10 22:20:53 公開日:2021-12-09
# (参考訳) 脳腫瘍セグメンテーションのための拡張nn-UNet

Extending nn-UNet for brain tumor segmentation ( http://arxiv.org/abs/2112.04653v1 )

ライセンス: CC BY 4.0
Huan Minh Luu, Sung-Hong Park(参考訳) 脳腫瘍の分節化はグリオーマ患者の診断と予後に不可欠である。 脳腫瘍セグメンテーションチャレンジは、タスクを実行するための自動アルゴリズムを開発するための優れたデータソースを提供し続けている。 本稿では2021年大会への貢献について述べる。 我々は,昨年の優勝コンペティションであるnn-UNetをベースとした手法を開発した。 我々は,大規模ネットワークの利用,バッチ正規化をグループ正規化に置き換える,デコーダの軸方向の注意を利用するなど,いくつかの改良を行った。 内部5倍クロス検証および主催者によるオンライン評価により,本手法の有効性が示され,ベースラインと比較した場合の定量的指標の改善がみられた。 提案されたモデルは、見えないテストデータの最終ランキングで1位を獲得した。 優勝作品のコード、トレーニング済みのウェイト、dockerイメージはhttps://github.com/rixez/brats21_kaist_mri_labで公開されている。

Brain tumor segmentation is essential for the diagnosis and prognosis of patients with gliomas. The brain tumor segmentation challenge has continued to provide a great source of data to develop automatic algorithms to perform the task. This paper describes our contribution to the 2021 competition. We developed our methods based on nn-UNet, the winning entry of last year competition. We experimented with several modifications, including using a larger network, replacing batch normalization with group normalization, and utilizing axial attention in the decoder. Internal 5-fold cross validation as well as online evaluation from the organizers showed the effectiveness of our approach, with minor improvement in quantitative metrics when compared to the baseline. The proposed models won first place in the final ranking on unseen test data. The codes, pretrained weights, and docker image for the winning submission are publicly available at https://github.com/rixez/Brats21_KAIST_MRI_Lab
翻訳日:2021-12-10 22:03:13 公開日:2021-12-09
# (参考訳) f-measuresの比較について

A Note on Comparison of F-measures ( http://arxiv.org/abs/2112.04677v1 )

ライセンス: CC BY 4.0
Wei Ju and Wenxin Jiang(参考訳) 我々は最近のTKDE論文"Linear Approximation of F-measure for the Performance Evaluation of Classification Algorithms on Im Balanced Data Sets"にコメントし、2つの予測規則に対するF-measuresの比較に関する2つの改善点について述べる。

We comment on a recent TKDE paper "Linear Approximation of F-measure for the Performance Evaluation of Classification Algorithms on Imbalanced Data Sets", and make two improvements related to comparison of F-measures for two prediction rules.
翻訳日:2021-12-10 21:51:49 公開日:2021-12-09
# (参考訳) SimIPU:空間認識型視覚表現のための簡易2次元画像と3次元点雲教師なし事前訓練

SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for Spatial-Aware Visual Representations ( http://arxiv.org/abs/2112.04680v1 )

ライセンス: CC BY 4.0
Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming Liu, Junjun Jiang, Bolei Zhou, Hang Zhao(参考訳) プレトレーニングは多くのコンピュータビジョンタスクで標準的なパラダイムとなっている。 しかし、ほとんどの手法は一般的にRGB画像領域で設計されている。 2次元画像平面と3次元空間のずれのため、このような事前学習されたモデルは空間情報を認識できず、3d関連のタスクの副最適解となる。 このギャップを埋めるため、3次元空間を表現できる空間認識ビジュアル表現を学習し、これらのタスクにより適し、効果的である。 画像よりも空間情報の提供に優れる点雲を活用するために,SimIPUと呼ばれる単純な2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。 具体的には、点雲から空間認識表現を学習するためのモード内空間認識モジュールと、点雲エンコーダから画像エンコーダへ空間情報を知覚する能力を伝達するモード間特徴相互作用モジュールとから構成されるマルチモーダルコントラスト学習フレームワークを開発する。 コントラスト損失に対する正のペアはマッチングアルゴリズムと投影行列によって確立される。 フレームワーク全体が教師なしのエンドツーエンドでトレーニングされています。 我々の知る限りでは、ペアカメラ画像とLIDAR点雲を含む屋外マルチモーダルデータセットのための対照的な学習事前学習戦略を探求する最初の研究である。 コードとモデルはhttps://github.com/zhyever/SimIPU.comで入手できる。

Pre-training has become a standard paradigm in many computer vision tasks. However, most of the methods are generally designed on the RGB image domain. Due to the discrepancy between the two-dimensional image plane and the three-dimensional space, such pre-trained models fail to perceive spatial information and serve as sub-optimal solutions for 3D-related tasks. To bridge this gap, we aim to learn a spatial-aware visual representation that can describe the three-dimensional space and is more suitable and effective for these tasks. To leverage point clouds, which are much more superior in providing spatial information compared to images, we propose a simple yet effective 2D Image and 3D Point cloud Unsupervised pre-training strategy, called SimIPU. Specifically, we develop a multi-modal contrastive learning framework that consists of an intra-modal spatial perception module to learn a spatial-aware representation from point clouds and an inter-modal feature interaction module to transfer the capability of perceiving spatial information from the point cloud encoder to the image encoder, respectively. Positive pairs for contrastive losses are established by the matching algorithm and the projection matrix. The whole framework is trained in an unsupervised end-to-end fashion. To the best of our knowledge, this is the first study to explore contrastive learning pre-training strategies for outdoor multi-modal datasets, containing paired camera images and LIDAR point clouds. Codes and models are available at https://github.com/zhyever/SimIPU.
翻訳日:2021-12-10 21:43:29 公開日:2021-12-09
# (参考訳) DR3: 明示的な規則化を必要とする価値に基づく深層強化学習

DR3: Value-Based Deep Reinforcement Learning Requires Explicit Regularization ( http://arxiv.org/abs/2112.04716v1 )

ライセンス: CC BY 4.0
Aviral Kumar, Rishabh Agarwal, Tengyu Ma, Aaron Courville, George Tucker, Sergey Levine(参考訳) 過剰パラメータ化にもかかわらず、教師付き学習で訓練されたディープネットワークは最適化が容易であり、優れた一般化を示す。 これを説明する一つの仮説は、過パラメータのディープネットワークは確率的勾配降下によって引き起こされる暗黙の正規化の利点を享受しているということである。 深層強化学習(RL)法もこの効果の恩恵を受けると推測することは妥当である。 本稿では,教師付き学習で見られるSGDの暗黙的な正規化効果が,オフラインの深層RL設定において有害になり,一般化の低下や特徴表現の退化につながる可能性について論じる。 本理論解析により, 時間的差分学習に既存のモデルを適用した場合, 導出正規化器は, 教師あり学習とは対照的に, 過剰な「aliasing」を伴う縮退解を好むことが示された。 我々はこれらの発見を実証的に裏付け、ブートストラップによって訓練されたディープネットワーク値関数によって学習された特徴表現が実際に縮退し、ベルマンバックアップの両側に現れる状態-アクションペアの表現をエイリアスすることを示した。 この問題に対処するため、この暗黙正則化器の形式を導出し、この導出にインスパイアされて、単純で効果的な明示正則化器DR3を提案し、この暗黙正則化器の望ましくない効果に対処する。 既存のオフラインRLメソッドと組み合わせることで、DR3はパフォーマンスと安定性を大幅に改善し、Atari 2600ゲーム、D4RLドメイン、画像からのロボット操作を緩和する。

Despite overparameterization, deep networks trained via supervised learning are easy to optimize and exhibit excellent generalization. One hypothesis to explain this is that overparameterized deep networks enjoy the benefits of implicit regularization induced by stochastic gradient descent, which favors parsimonious solutions that generalize well on test inputs. It is reasonable to surmise that deep reinforcement learning (RL) methods could also benefit from this effect. In this paper, we discuss how the implicit regularization effect of SGD seen in supervised learning could in fact be harmful in the offline deep RL setting, leading to poor generalization and degenerate feature representations. Our theoretical analysis shows that when existing models of implicit regularization are applied to temporal difference learning, the resulting derived regularizer favors degenerate solutions with excessive "aliasing", in stark contrast to the supervised learning case. We back up these findings empirically, showing that feature representations learned by a deep network value function trained via bootstrapping can indeed become degenerate, aliasing the representations for state-action pairs that appear on either side of the Bellman backup. To address this issue, we derive the form of this implicit regularizer and, inspired by this derivation, propose a simple and effective explicit regularizer, called DR3, that counteracts the undesirable effects of this implicit regularizer. When combined with existing offline RL methods, DR3 substantially improves performance and stability, alleviating unlearning in Atari 2600 games, D4RL domains and robotic manipulation from images.
翻訳日:2021-12-10 21:28:22 公開日:2021-12-09
# (参考訳) マルチタスク学習のためのランク最小化の新しいタイト緩和

New Tight Relaxations of Rank Minimization for Multi-Task Learning ( http://arxiv.org/abs/2112.04734v1 )

ライセンス: CC BY 4.0
Wei Chang, Feiping Nie, Rong Wang, Xuelong Li(参考訳) マルチタスク学習は多くの研究者によって観察されており、様々なタスクが低ランクの共通部分空間を共有することができると仮定している。 複数のタスクを共同で学ぶことは、独立して学ぶことよりもよい、ということです。 本稿では,2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。 提案された正規化項は、トレースノルムよりもランク最小化のより厳密な近似である。 しかし、厳密なランク最小化問題を解決するのはNPハードの問題です。 そこで本研究では,大規模なペナライズパラメータを設定することで,厳密なランク最小化問題に戦術的に対処可能な,新たな再重み付け型反復戦略を設計する。 ベンチマークデータセットにおける実験結果は、タスク間で共有される低ランク構造を正しく復元し、関連するマルチタスク学習手法を上回ることができることを示した。

Multi-task learning has been observed by many researchers, which supposes that different tasks can share a low-rank common yet latent subspace. It means learning multiple tasks jointly is better than learning them independently. In this paper, we propose two novel multi-task learning formulations based on two regularization terms, which can learn the optimal shared latent subspace by minimizing the exactly $k$ minimal singular values. The proposed regularization terms are the more tight approximations of rank minimization than trace norm. But it's an NP-hard problem to solve the exact rank minimization problem. Therefore, we design a novel re-weighted based iterative strategy to solve our models, which can tactically handle the exact rank minimization problem by setting a large penalizing parameter. Experimental results on benchmark datasets demonstrate that our methods can correctly recover the low-rank structure shared across tasks, and outperform related multi-task learning methods.
翻訳日:2021-12-10 21:26:50 公開日:2021-12-09
# (参考訳) 深部ニューラルネットワークを用いた地震後の超高分解能画像からの超画素型建物被害検出

Superpixel-Based Building Damage Detection from Post-earthquake Very High Resolution Imagery Using Deep Neural Networks ( http://arxiv.org/abs/2112.04744v1 )

ライセンス: CC BY 4.0
Jun Wang, Zhoujing Li, Yixuan Qiao, Qiming Qin, Peng Gao, Guotong Xie(参考訳) 地震などの自然災害後の建物被害検知は, 緊急対応行動の実施に不可欠である。 リモートセンシングされた超高空間解像度(VHR)画像は、影響を受ける建物を高い幾何学的精度でマッピングできるため、重要な情報を提供することができる。 地震による建物被害を検知する手法が数多く開発されている。 しかし、ディープニューラルネットワーク(DNN)を使用してVHR画像に表現されたリッチな特徴を活用することにはほとんど注意が払われていない。 本稿では,vhr画像から損傷建物を検出するために,dnnと改良セグメント法を組み合わせた新しい超画素ベース手法を提案する。 まず、修正されたFast Scanning and Adaptive Mergingメソッドを拡張して、初期オーバーセグメンテーションを生成する。 第2に、これらのセグメントは、局所二項パターン(LBP)テクスチャ、スペクトル、形状特徴からなる意味的類似性基準を改善した領域隣接グラフ(RAG)に基づいてマージされる。 第三に、SDAE-DNNと呼ばれるスタックド・デノナイジング・オートエンコーダを用いた事前訓練されたDNNを示し、損傷検出を構築するためのリッチな意味的特徴を利用する。 SDAE-DNNの深層的特徴抽象化は、より本質的で差別的な特徴を学習することで検出精度を高めることができる。 2015年4月25日のネパール地震で被災したネパール・バクタプール(Bhaktapur)の複雑な都市部におけるWorldView-2画像のサブセットを用いて,本手法の有効性と有効性を示す。

Building damage detection after natural disasters like earthquakes is crucial for initiating effective emergency response actions. Remotely sensed very high spatial resolution (VHR) imagery can provide vital information due to their ability to map the affected buildings with high geometric precision. Many approaches have been developed to detect damaged buildings due to earthquakes. However, little attention has been paid to exploiting rich features represented in VHR images using Deep Neural Networks (DNN). This paper presents a novel super-pixel based approach combining DNN and a modified segmentation method, to detect damaged buildings from VHR imagery. Firstly, a modified Fast Scanning and Adaptive Merging method is extended to create initial over-segmentation. Secondly, the segments are merged based on the Region Adjacent Graph (RAG), considered an improved semantic similarity criterion composed of Local Binary Patterns (LBP) texture, spectral, and shape features. Thirdly, a pre-trained DNN using Stacked Denoising Auto-Encoders called SDAE-DNN is presented, to exploit the rich semantic features for building damage detection. Deep-layer feature abstraction of SDAE-DNN could boost detection accuracy through learning more intrinsic and discriminative features, which outperformed other methods using state-of-the-art alternative classifiers. We demonstrate the feasibility and effectiveness of our method using a subset of WorldView-2 imagery, in the complex urban areas of Bhaktapur, Nepal, which was affected by the Nepal Earthquake of April 25, 2015.
翻訳日:2021-12-10 21:19:11 公開日:2021-12-09
# (参考訳) 共進化型ハイブリッドインテリジェンス

Co-evolutionary hybrid intelligence ( http://arxiv.org/abs/2112.04751v1 )

ライセンス: CC BY 4.0
Kirill Krinkin and Yulia Shichkina and Andrey Ignatyev(参考訳) 人工知能は現代の技術開発の原動力の1つだ。 インテリジェントシステム開発に対する現在のアプローチは、データ中心である。 複雑なオブジェクトやプロセスのモデリングのためのデータ収集は基本的に不可能であり、ニューラルネットワークのトレーニングには膨大な計算とエネルギー資源が必要であり、ソリューションは説明できない。 本稿では,人間と機械のハイブリッド化と共進化に基づく人工知能システム開発への代替的アプローチについて論じる。

Artificial intelligence is one of the drivers of modern technological development. The current approach to the development of intelligent systems is data-centric. It has several limitations: it is fundamentally impossible to collect data for modeling complex objects and processes; training neural networks requires huge computational and energy resources; solutions are not explainable. The article discusses an alternative approach to the development of artificial intelligence systems based on human-machine hybridization and their co-evolution.
翻訳日:2021-12-10 21:08:23 公開日:2021-12-09
# (参考訳) BLPnet: Bengali OCRによるプレート自動検出のための新しいDNNモデル

BLPnet: A New DNN model for Automatic License Plate Detection with Bengali OCR ( http://arxiv.org/abs/2112.04752v1 )

ライセンス: CC BY 4.0
Md Saif Hassan Onim, Hussain Nyeem, Koushik Roy, Mahmudul Hasan, Abtahi Ishmam, Md. Akiful Hoque Akif and Tareque Bashar Ovi(参考訳) 画像処理とオブジェクトローカライゼーションを備えたディープニューラルネットワーク(DNN)モデルは、自動トラフィック制御と監視システムを前進させる可能性がある。 堅牢なプレート検出モデルの開発においていくつかの顕著な進歩があったが、研究は高い検出精度で計算の複雑さを減らし続けている。 本稿では,ベンガルライセンスプレートネットワーク(blpnet)と呼ばれる新しいdnnモデルを用いたベンガル文字の自動ライセンスプレート認識(alpr)システムについて報告する。 さらに,提案モデルでは,VLP以前の車両領域を検出するためのカスケードアーキテクチャにより,計算コストと偽陽性が大幅に削減され,より高速かつ精度が向上する。 さらに、新しいベンガルOCRエンジンとワードマッピングプロセスにより、モデルは車両の完全なライセンスプレート番号を抽出し、検出し、出力することができる。 リアルタイムビデオ映像に17フレーム/秒(fps)を供給したモデルは、平均二乗誤差(mse)0.0152、平均ライセンスプレート文字認識精度95%の車両を検出することができる。 他のモデルと比較すると、blpnetでは、ナンバープレート検出精度と時間要件に対して、著名なヨーロベースのalprモデルとtesseractモデルよりも5%と20%の改善が記録された。

Deep Neural Network (DNN) models with image processing and object localization have the potential to advance the automatic traffic control and monitoring system. Despite some notable progress in developing robust license plate detection models, research endeavours continue to reduce computational complexities with higher detection accuracy. This paper reports a computationally efficient and reasonably accurate Automatic License Plate Recognition (ALPR) system for Bengali characters with a new DNN model that we call Bengali License Plate Network (BLPnet). Additionally, the cascaded architectures for detecting vehicle regions prior to VLP in the proposed model, would significantly reduce computational cost and false-positives making the system faster and more accurate. Besides, with a new Bengali OCR engine and word-mapping process, the model can readily extract, detect and output the complete license-plate number of a vehicle. The model feeding with17 frames per second (fps) on real-time video footage can detect a vehicle with the Mean Squared Error (MSE) of 0.0152, and the mean license plate character recognition accuracy of 95%. While compared to the other models, an improvement of 5% and 20% were recorded for the BLPnet over the prominent YOLO-based ALPR model and Tesseract model for the number-plate detection accuracy and time requirement, respectively.
翻訳日:2021-12-10 21:02:06 公開日:2021-12-09
# (参考訳) twitter上で有害かつ保護的な自殺関連コンテンツの検出 - マシンラーニングによるアプローチ

Detecting Potentially Harmful and Protective Suicide-related Content on Twitter: A Machine Learning Approach ( http://arxiv.org/abs/2112.04796v1 )

ライセンス: CC BY-SA 4.0
Hannah Metzler, Hubert Baginski, Thomas Niederkrotenthaler, David Garcia(参考訳) 研究によると、自殺に関連するメディアコンテンツへの露出は自殺率と関連しており、一部のコンテンツの特徴は有害なものや、潜在的に保護効果がある可能性がある。 優れた証拠はいくつかあるが、組織的な大規模調査は一般的に、特にソーシャルメディアデータには欠落している。 大量のtwitterデータを自動ラベル付けするために機械学習手法を適用した。 我々は,自殺関連ツイートを異なるメッセージタイプと問題に分類する新しいアノテーションスキームを開発した。 次に、多数分類器、単語周波数に基づくアプローチ(線形SVM付きTF-IDF)および最先端ディープラーニングモデル(BERT、XLNet)を含む機械学習モデルのベンチマークを訓練した。 この2つのディープラーニングモデルは,2つの分類タスクで最高のパフォーマンスを達成した。まず,自殺意識や予防関連情報の拡散を目的とした行動要求,自殺事例の報告,その他の自殺関連およびオフトピックなツイートを含む,6つの主要なコンテンツカテゴリを分類した。 ディープラーニングモデルは6つのカテゴリの平均で73%以上の精度スコアに達し、f1-scoresは自殺イデオレーションと試行(55%)を除くすべてのカテゴリで69%から85%である。 第2に、オフトピーのツイートから実際の自殺を指す投稿を分離する際、BERTはF1スコアを93%と74%で達成し、ツイートの88%を正しくラベル付けした。 これらの分類性能は、同様のタスクの最先端に匹敵する。 データラベリングをより効率的にすることで、ソーシャルメディアの各種コンテンツが自殺率やヘルプシーキング行動に与える影響について、将来の大規模調査が可能になる。

Research shows that exposure to suicide-related news media content is associated with suicide rates, with some content characteristics likely having harmful and others potentially protective effects. Although good evidence exists for a few selected characteristics, systematic large scale investigations are missing in general, and in particular for social media data. We apply machine learning methods to automatically label large quantities of Twitter data. We developed a novel annotation scheme that classifies suicide-related tweets into different message types and problem- vs. solution-focused perspectives. We then trained a benchmark of machine learning models including a majority classifier, an approach based on word frequency (TF-IDF with a linear SVM) and two state-of-the-art deep learning models (BERT, XLNet). The two deep learning models achieved the best performance in two classification tasks: First, we classified six main content categories, including personal stories about either suicidal ideation and attempts or coping, calls for action intending to spread either problem awareness or prevention-related information, reportings of suicide cases, and other suicide-related and off-topic tweets. The deep learning models reach accuracy scores above 73% on average across the six categories, and F1-scores in between 69% and 85% for all but the suicidal ideation and attempts category (55%). Second, in separating postings referring to actual suicide from off-topic tweets, they correctly labelled around 88% of tweets, with BERT achieving F1-scores of 93% and 74% for the two categories. These classification performances are comparable to the state-of-the-art on similar tasks. By making data labeling more efficient, this work enables future large-scale investigations on harmful and protective effects of various kinds of social media content on suicide rates and on help-seeking behavior.
翻訳日:2021-12-10 20:54:32 公開日:2021-12-09
# (参考訳) タンパク質-タンパク質相互作用のシーケンスに基づく予測のためのマルチモーダル事前学習モデル

Multimodal Pre-Training Model for Sequence-based Prediction of Protein-Protein Interaction ( http://arxiv.org/abs/2112.04814v1 )

ライセンス: CC BY 4.0
Yang Xue, Zijing Liu, Xiaomin Fang, Fan Wang(参考訳) タンパク質-タンパク質相互作用(PPIs)は、2つ以上のタンパク質が物理的に結合して機能を達成する多くの生物学的プロセスにおいて必須である。 PPIのモデリングは、ワクチン設計、抗体治療、ペプチドドラッグ発見など、多くのバイオメディカル応用に有用である。 効果的な表現を学ぶためにタンパク質モデルを事前訓練することは、PPIにとって重要である。 PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。 より高度な研究は、既知のタンパク質構造の接触マップを利用して、構造認識事前学習技術を利用している。 しかし、配列や接触マップは、PPI問題と密接に関連するタンパク質の構造と機能を完全に特徴づけることができない。 この知見に触発されて,s2f(s sequence, structure, and function)の3つのモードを持つマルチモーダルタンパク質プレトレーニングモデルを提案する。 特に、接触マップを用いてアミノ酸レベルの剛性構造を学習する代わりに、重原子の点雲のトポロジー複合体で構造特徴を符号化する。 これにより、モデルがバックボーンだけでなく、サイドチェーンについても構造情報を学ぶことができます。 さらに,本モデルでは,文献や手動アノテーションから抽出したタンパク質の機能的記述から知識を取り入れた。 実験の結果、S2Fは多種多様なPPIタスクにおいて優れた性能を発揮するタンパク質埋め込みを学習し、例えば、クロス種PPI、抗体-抗原親和性予測、SARS-CoV-2の抗体中和予測、変異駆動性結合親和性変化予測などである。

Protein-protein interactions (PPIs) are essentials for many biological processes where two or more proteins physically bind together to achieve their functions. Modeling PPIs is useful for many biomedical applications, such as vaccine design, antibody therapeutics, and peptide drug discovery. Pre-training a protein model to learn effective representation is critical for PPIs. Most pre-training models for PPIs are sequence-based, which naively adopt the language models used in natural language processing to amino acid sequences. More advanced works utilize the structure-aware pre-training technique, taking advantage of the contact maps of known protein structures. However, neither sequences nor contact maps can fully characterize structures and functions of the proteins, which are closely related to the PPI problem. Inspired by this insight, we propose a multimodal protein pre-training model with three modalities: sequence, structure, and function (S2F). Notably, instead of using contact maps to learn the amino acid-level rigid structures, we encode the structure feature with the topology complex of point clouds of heavy atoms. It allows our model to learn structural information about not only the backbones but also the side chains. Moreover, our model incorporates the knowledge from the functional description of proteins extracted from literature or manual annotations. Our experiments show that the S2F learns protein embeddings that achieve good performances on a variety of PPIs tasks, including cross-species PPI, antibody-antigen affinity prediction, antibody neutralization prediction for SARS-CoV-2, and mutation-driven binding affinity change prediction.
翻訳日:2021-12-10 20:52:31 公開日:2021-12-09
# (参考訳) 顔認識モデルにおけるアクティベーションマップ変動解析による教師付きおよび教師なし顔画像品質推定の意義の解明

Explainability of the Implications of Supervised and Unsupervised Face Image Quality Estimations Through Activation Map Variation Analyses in Face Recognition Models ( http://arxiv.org/abs/2112.04827v1 )

ライセンス: CC BY 4.0
Biying Fu and Naser Damer(参考訳) 教師なしまたは統計ベースの顔画像品質評価法(FIQA)の説明可能性の導出は困難である。 そこで本研究では,FIQAの異なる決定とその顔認識(FR)性能に関する推論を導出する,新しい説明可能性ツールを提案する。 我々は、FIQA決定の異なるサンプルを処理する際に、FRモデルの振る舞いを分析することによって、ツールの特定のFIQAメソッドへの展開を制限することを避ける。 これにより、フェース埋め込みから導かれるネットワークの活性化を示すためにアクティベーションマッピングを使用する任意のCNNベースのFRソリューションを持つ任意のFIQAメソッドに適用可能な説明可能性ツールが導かれる。 FRモデルにおける画像の空間的アクティベーションマッピングと高画質画像との区別の低さを回避するために,画像集合のFRアクティベーションマップの変動を異なる品質決定で解析することにより,高階微分空間における説明可能性ツールを構築した。 本手法を実証し,FIQA法とFIQA法を併用して4種類のFIQA法について解析を行った。 提案手法と解析結果から,高画質画像は一般的に中央面領域外の領域で一貫した低活性化を引き起こすが,低画質画像は一般的には低活性化にもかかわらず,それらの領域では高い活性化のばらつきがあることが示唆された。 また,低画質画像がFRモデルの空間的アクティベーションを持つ傾向を示し,この差が中心の顔領域以外の領域にも現れる傾向があり,極端なポーズや顔のオクルージョンといった問題に対応しているような高画質画像とは大きく異なる傾向を示した。 提案されたツールの実装はここでアクセスできます[リンク]。

It is challenging to derive explainability for unsupervised or statistical-based face image quality assessment (FIQA) methods. In this work, we propose a novel set of explainability tools to derive reasoning for different FIQA decisions and their face recognition (FR) performance implications. We avoid limiting the deployment of our tools to certain FIQA methods by basing our analyses on the behavior of FR models when processing samples with different FIQA decisions. This leads to explainability tools that can be applied for any FIQA method with any CNN-based FR solution using activation mapping to exhibit the network's activation derived from the face embedding. To avoid the low discrimination between the general spatial activation mapping of low and high-quality images in FR models, we build our explainability tools in a higher derivative space by analyzing the variation of the FR activation maps of image sets with different quality decisions. We demonstrate our tools and analyze the findings on four FIQA methods, by presenting inter and intra-FIQA method analyses. Our proposed tools and the analyses based on them point out, among other conclusions, that high-quality images typically cause consistent low activation on the areas outside of the central face region, while low-quality images, despite general low activation, have high variations of activation in such areas. Our explainability tools also extend to analyzing single images where we show that low-quality images tend to have an FR model spatial activation that strongly differs from what is expected from a high-quality image where this difference also tends to appear more in areas outside of the central face region and does correspond to issues like extreme poses and facial occlusions. The implementation of the proposed tools is accessible here [link].
翻訳日:2021-12-10 20:36:37 公開日:2021-12-09
# (参考訳) siamese属性許容グラフ自動エンコーダ

Siamese Attribute-missing Graph Auto-encoder ( http://arxiv.org/abs/2112.04842v1 )

ライセンス: CC BY 4.0
Wenxuan Tu, Sihang Zhou, Yue Liu, Xinwang Liu(参考訳) 近年,属性欠落グラフのグラフ表現学習 (GRL) が注目されている。 既存の文献をご覧ください 1)属性と構造埋め込みの学習を分離するので、2種類の情報の利点をフルに活用できない。 2) 潜在空間変数にあまりにも厳密な分布仮定を課すため、識別的特徴表現は少なくなる。 本稿では,この2つの情報ソース間の親密な情報相互作用を導入するというアイデアに基づいて,我々のSiamese Attribute-missing Graph Auto-Encoder(SAGA)を提案する。 具体的には3つの戦略が実施されている。 まず、両方のプロセスで学習したパラメータを共有するためにシアムネットワーク構造を導入することで、属性の埋め込みと構造埋め込みを絡み合わせることにより、ネットワークトレーニングはより豊富で多様な情報から恩恵を受けることができる。 次に,K-nearest neighbor(KNN)と構造制約強化学習機構を導入し,信頼できない接続をフィルタリングすることで,欠落属性の潜伏特性の品質を向上させる。 第3に、複数の隣接行列上の接続を手動で隠蔽し、サブネットワークを埋め込んだ構造情報を強制して真の隣接行列を復元する。 6つのベンチマークデータセットに関する広範な実験は、最先端のメソッドに対するsagaの優位性を示しています。

Graph representation learning (GRL) on attribute-missing graphs, which is a common yet challenging problem, has recently attracted considerable attention. We observe that existing literature: 1) isolates the learning of attribute and structure embedding thus fails to take full advantages of the two types of information; 2) imposes too strict distribution assumption on the latent space variables, leading to less discriminative feature representations. In this paper, based on the idea of introducing intimate information interaction between the two information sources, we propose our Siamese Attribute-missing Graph Auto-encoder (SAGA). Specifically, three strategies have been conducted. First, we entangle the attribute embedding and structure embedding by introducing a siamese network structure to share the parameters learned by both processes, which allows the network training to benefit from more abundant and diverse information. Second, we introduce a K-nearest neighbor (KNN) and structural constraint enhanced learning mechanism to improve the quality of latent features of the missing attributes by filtering unreliable connections. Third, we manually mask the connections on multiple adjacent matrices and force the structural information embedding sub-network to recover the true adjacent matrix, thus enforcing the resulting network to be able to selectively exploit more high-order discriminative features for data completion. Extensive experiments on six benchmark datasets demonstrate the superiority of our SAGA against the state-of-the-art methods.
翻訳日:2021-12-10 20:35:13 公開日:2021-12-09
# (参考訳) ScaleNet: スケール推定のための浅層アーキテクチャ

ScaleNet: A Shallow Architecture for Scale Estimation ( http://arxiv.org/abs/2112.04846v1 )

ライセンス: CC BY 4.0
Axel Barroso-Laguna, Yurun Tian and Krystian Mikolajczyk(参考訳) 本稿では,画像間のスケール係数を推定する問題に対処する。 スケール推定問題を,スケール因子上の確率分布の予測として定式化する。 我々は、画像間のスケールを予測するために、拡張畳み込みと自己および相互相関レイヤを利用する新しいアーキテクチャであるScaleNetを設計する。 推定スケールによる画像の修正により,様々なタスクや手法の性能が大幅に向上することが実証された。 具体的には,カメラのポーズ推定,3次元再構成,多彩な幾何学的マッチングを異なるベンチマークやデータセットで改善するために,scalenetと疎局所的特徴と密接な対応ネットワークを組み合わせる方法を示す。 本論文では,複数のタスクについて広範囲な評価を行い,ScaleNetの計算オーバーヘッドを解析する。 コード、評価プロトコル、トレーニングされたモデルはhttps://github.com/axelbarroso/scalenetで公開されている。

In this paper, we address the problem of estimating scale factors between images. We formulate the scale estimation problem as a prediction of a probability distribution over scale factors. We design a new architecture, ScaleNet, that exploits dilated convolutions as well as self and cross-correlation layers to predict the scale between images. We demonstrate that rectifying images with estimated scales leads to significant performance improvements for various tasks and methods. Specifically, we show how ScaleNet can be combined with sparse local features and dense correspondence networks to improve camera pose estimation, 3D reconstruction, or dense geometric matching in different benchmarks and datasets. We provide an extensive evaluation on several tasks and analyze the computational overhead of ScaleNet. The code, evaluation protocols, and trained models are publicly available at https://github.com/axelBarroso/ScaleNet.
翻訳日:2021-12-10 20:21:12 公開日:2021-12-09
# (参考訳) KGE-CL:知識グラフ埋め込みの対照的な学習

KGE-CL: Contrastive Learning of Knowledge Graph Embeddings ( http://arxiv.org/abs/2112.04871v1 )

ライセンス: CC BY 4.0
Wentao Xu, Zhiping Luo, Weiqing Liu, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 知識グラフの埋め込みを学ぶことは人工知能では不可欠であり、レコメンデーションや質問応答など、下流のさまざまなアプリケーションに役立つ可能性がある。 近年,知識グラフ埋め込みに関する研究が数多く提案されている。 しかし,従来のナレッジグラフ埋め込み手法では,各トリプルをスコアリング関数で別々に最適化するため,関連するエンティティとエンティティ-リレーショナルカップル間の意味的類似性を無視している。 この問題に対処するために,知識グラフ埋め込みの簡易かつ効率的なコントラスト学習フレームワークを提案する。これは,知識グラフ埋め込みの表現性を向上し,関連するエンティティとエンティティ-リレーション・カップル間の意味的距離を3倍に短縮する。 提案手法を3つの標準知識グラフベンチマークで評価する。 WN18RRデータセットでは51.2% MRR、WN18RRデータセットでは46.8% Hits@1、YAGO3-10データセットでは59.1% Hits@1、51.8% Hits@1である。

Learning the embeddings of knowledge graphs is vital in artificial intelligence, and can benefit various downstream applications, such as recommendation and question answering. In recent years, many research efforts have been proposed for knowledge graph embedding. However, most previous knowledge graph embedding methods ignore the semantic similarity between the related entities and entity-relation couples in different triples since they separately optimize each triple with the scoring function. To address this problem, we propose a simple yet efficient contrastive learning framework for knowledge graph embeddings, which can shorten the semantic distance of the related entities and entity-relation couples in different triples and thus improve the expressiveness of knowledge graph embeddings. We evaluate our proposed method on three standard knowledge graph benchmarks. It is noteworthy that our method can yield some new state-of-the-art results, achieving 51.2% MRR, 46.8% Hits@1 on the WN18RR dataset, and 59.1% MRR, 51.8% Hits@1 on the YAGO3-10 dataset.
翻訳日:2021-12-10 20:00:10 公開日:2021-12-09
# (参考訳) 抽出パラフレーズスパン検出のための意味検索

Semantic Search as Extractive Paraphrase Span Detection ( http://arxiv.org/abs/2112.04886v1 )

ライセンス: CC BY 4.0
Jenna Kanerva, Hanna Kitti, Li-Hsin Chang, Teemu Vahtola, Mathias Creutz and Filip Ginter(参考訳) 本稿では,検索タスクをパラフレーズスパン検出,すなわちクエリ句としてテキストのセグメントを与えられた場合,そのタスクは,抽出質問応答において一般的に用いられるのと同じモデル設定である,与えられた文書中のそのパラフレーズを識別することである。 原文書を含むフィンランドのパラフレーズペア10万件のトゥルクパラフレーズコーパスにおいて,このパラフレーズスパン検出モデルでは, 一致率でそれぞれ31.9pp, 22.4pp, トークンレベルのFスコアで22.3pp, 12.9ppの2つの強い検索ベースライン(語彙的類似性およびBERT文の埋め込み)より優れていた。 これは文の類似性よりもスパン検索の観点でタスクをモデル化するという大きな利点を示している。 さらに,スパン検出モデルをトレーニングするための手動注釈付きパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。

In this paper, we approach the problem of semantic search by framing the search task as paraphrase span detection, i.e. given a segment of text as a query phrase, the task is to identify its paraphrase in a given document, the same modelling setup as typically used in extractive question answering. On the Turku Paraphrase Corpus of 100,000 manually extracted Finnish paraphrase pairs including their original document context, we find that our paraphrase span detection model outperforms two strong retrieval baselines (lexical similarity and BERT sentence embeddings) by 31.9pp and 22.4pp respectively in terms of exact match, and by 22.3pp and 12.9pp in terms of token-level F-score. This demonstrates a strong advantage of modelling the task in terms of span retrieval, rather than sentence similarity. Additionally, we introduce a method for creating artificial paraphrase data through back-translation, suitable for languages where manually annotated paraphrase resources for training the span detection model are not available.
翻訳日:2021-12-10 19:42:47 公開日:2021-12-09
# (参考訳) トランスを用いたバイリンガルなOpenWorldビデオテキストデータセットとエンドツーエンドビデオテキストスポッター

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer ( http://arxiv.org/abs/2112.04888v1 )

ライセンス: CC BY 4.0
Weijia Wu, Yuanqiang Cai, Debing Zhang, Sibo Wang, Zhuang Li, Jiahong Li, Yejun Tang, Hong Zhou(参考訳) 既存のビデオテキストスポッティングベンチマークのほとんどは、限られたデータで単一の言語とシナリオを評価することに焦点を当てている。 本稿では,大規模でバイリンガルなOpen World Videoテキストベンチマークデータセット(BOVText)を紹介する。 BOVTextには4つの機能がある。 まず、2000以上のビデオに1,750,000以上のフレームがあり、ビデオ中のテキストが付随する、既存の最大のデータセットの25倍の大きさです。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。 第3に、ビデオの異なる表現意味に対して豊富なテキストタイプアノテーション(タイトル、キャプション、シーンテキストなど)を提供する。 第4に、BOVTextはバイリンガルテキストアノテーションを提供し、複数の文化の生とコミュニケーションを促進する。 また,マルチオリエントなテキストスポッティングを簡易かつ効率的な注意に基づくクエリキー機構で解決するtransvtspotterという,transformerを用いたエンドツーエンドのビデオテキストスポッティングフレームワークを提案する。 前のフレームからのオブジェクト特徴を現在のフレームの追跡クエリとして適用し、マルチオリエントテキストインスタンスに適合する回転角予測を導入する。 ICDAR2015(ビデオ)では、TransVTSpotterは44.1%のMOTA、9fpsで最先端のパフォーマンスを達成した。 TransVTSpotterのデータセットとコードは、github:com=weijiawu=BOVTextとgithub:com=weijiawu=TransVTSpotterにある。

Most existing video text spotting benchmarks focus on evaluating a single language and scenario with limited data. In this work, we introduce a large-scale, Bilingual, Open World Video text benchmark dataset(BOVText). There are four features for BOVText. Firstly, we provide 2,000+ videos with more than 1,750,000+ frames, 25 times larger than the existing largest dataset with incidental text in videos. Secondly, our dataset covers 30+ open categories with a wide selection of various scenarios, e.g., Life Vlog, Driving, Movie, etc. Thirdly, abundant text types annotation (i.e., title, caption or scene text) are provided for the different representational meanings in video. Fourthly, the BOVText provides bilingual text annotation to promote multiple cultures live and communication. Besides, we propose an end-to-end video text spotting framework with Transformer, termed TransVTSpotter, which solves the multi-orient text spotting in video with a simple, but efficient attention-based query-key mechanism. It applies object features from the previous frame as a tracking query for the current frame and introduces a rotation angle prediction to fit the multiorient text instance. On ICDAR2015(video), TransVTSpotter achieves the state-of-the-art performance with 44.1% MOTA, 9 fps. The dataset and code of TransVTSpotter can be found at github:com=weijiawu=BOVText and github:com=weijiawu=TransVTSpotter, respectively.
翻訳日:2021-12-10 19:28:38 公開日:2021-12-09
# (参考訳) CNNとトランスフォーマーの相互指導による半監督的医用画像分割

Semi-Supervised Medical Image Segmentation via Cross Teaching between CNN and Transformer ( http://arxiv.org/abs/2112.04894v1 )

ライセンス: CC BY 4.0
Xiangde Luo, Minhao Hu, Tao Song, Guotai Wang, Shaoting Zhang(参考訳) 近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーによるディープラーニングは、完全に教師付き医療画像セグメンテーションの促進効果を示している。 しかし、トレーニングのための限られたアノテーションで優れたパフォーマンスを達成することは依然として難しい。 本稿では,cnnとtransformerの相互指導を導入することで,半教師付き医用画像セグメンテーションのための極めて単純かつ効率的な枠組みを提案する。 具体的には、ネットワークの予測を擬似ラベルとして、他のネットワークをエンドツーエンドで直接監視する、一貫性の正規化からクロスティーチングまでの古典的な深層学習を単純化する。 CNNとTransformerの学習パラダイムの違いを考慮して,単にCNNを使うのではなく,CNNとTransformerの相互指導を導入する。 提案手法は,より単純なフレームワークを用いて,既存の8つの半教師あり学習手法より優れていることを示す。 特に、この研究は、CNNとトランスフォーマーを組み合わせて半教師付き医療画像セグメンテーションを行い、公的なベンチマークで有望な結果を得る最初の試みかもしれない。 コードは、https://github.com/HiLab-git/SSL4MISでリリースされる。

Recently, deep learning with Convolutional Neural Networks (CNNs) and Transformers has shown encouraging results in fully supervised medical image segmentation. However, it is still challenging for them to achieve good performance with limited annotations for training. In this work, we present a very simple yet efficient framework for semi-supervised medical image segmentation by introducing the cross teaching between CNN and Transformer. Specifically, we simplify the classical deep co-training from consistency regularization to cross teaching, where the prediction of a network is used as the pseudo label to supervise the other network directly end-to-end. Considering the difference in learning paradigm between CNN and Transformer, we introduce the Cross Teaching between CNN and Transformer rather than just using CNNs. Experiments on a public benchmark show that our method outperforms eight existing semi-supervised learning methods just with a simpler framework. Notably, this work may be the first attempt to combine CNN and transformer for semi-supervised medical image segmentation and achieve promising results on a public benchmark. The code will be released at: https://github.com/HiLab-git/SSL4MIS.
翻訳日:2021-12-10 19:01:23 公開日:2021-12-09
# (参考訳) Model Doctor: CNN分類器の診断と治療のための簡易なグラディエント集約戦略

Model Doctor: A Simple Gradient Aggregation Strategy for Diagnosing and Treating CNN Classifiers ( http://arxiv.org/abs/2112.04934v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Jiacong Hu, Sai Wu, Xiaotian Yu, Jie Song, Mingli Song(参考訳) 近年,畳み込みニューラルネットワーク (CNN) は分類作業において優れた性能を発揮している。 CNNは、予測メカニズムを理解し、間違った予測をデバッグすることが難しい「ブラックボックス」と見なされていることが広く知られている。 いくつかのモデルデバッギングと説明作業は、上記の欠点を解決するために開発されている。 しかし,これらの手法はモデル予測の潜在的な原因の説明と診断に焦点が当てられており,研究者が手動でモデルの次の最適化を処理している。 本稿では,最初の完全自動診断・治療ツールであるモデルドクターを提案する。 2つの発見に基づいて 1)各カテゴリは、スパースおよび特定の畳み込み核とのみ相関しており、 2) 通常のサンプルが特徴空間に連続する間, 逆サンプルを分離し, cnn分類器を効果的に診断し最適化するために, 単純な集計勾配制約を考案する。 アグリゲートグラデーション戦略は主流のcnn分類器の汎用モジュールである。 大規模な実験では、提案されたモデルドクターが既存のCNN分類器すべてに適用され、メインストリームCNN分類器の精度を1%-5%向上することを示した。

Recently, Convolutional Neural Network (CNN) has achieved excellent performance in the classification task. It is widely known that CNN is deemed as a 'black-box', which is hard for understanding the prediction mechanism and debugging the wrong prediction. Some model debugging and explanation works are developed for solving the above drawbacks. However, those methods focus on explanation and diagnosing possible causes for model prediction, based on which the researchers handle the following optimization of models manually. In this paper, we propose the first completely automatic model diagnosing and treating tool, termed as Model Doctor. Based on two discoveries that 1) each category is only correlated with sparse and specific convolution kernels, and 2) adversarial samples are isolated while normal samples are successive in the feature space, a simple aggregate gradient constraint is devised for effectively diagnosing and optimizing CNN classifiers. The aggregate gradient strategy is a versatile module for mainstream CNN classifiers. Extensive experiments demonstrate that the proposed Model Doctor applies to all existing CNN classifiers, and improves the accuracy of $16$ mainstream CNN classifiers by 1%-5%.
翻訳日:2021-12-10 18:47:44 公開日:2021-12-09
# (参考訳) DVHN: 大規模車両再識別のためのディープハッシュフレームワーク

DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification ( http://arxiv.org/abs/2112.04937v1 )

ライセンス: CC BY 4.0
Yongbiao Chen, Sheng Zhang, Fangxin Liu, Chenggang Wu, Kaicheng Guo, Zhengwei Qi(参考訳) 本稿では,ディープハッシュ学習と車両再識別の統合について,最初の試みを行う。 本研究では,メモリ使用量を大幅に削減し,近接探索精度を保ちつつ検索効率を向上させる,dvhnと呼ばれる,ハッシュに基づく車両再識別フレームワークを提案する。 具体的には、〜DVHNは、特徴学習ネットワークとハッシュコード生成モジュールとを協調最適化することにより、各画像の離散コンパクトバイナリハッシュコードを直接学習する。 具体的には、畳み込みニューラルネットワークからの出力を個別のバイナリコードに拘束し、学習されたバイナリコードが分類に最適であることを保証します。 深部離散ハッシュフレームワークを最適化するために,二項類似性保存ハッシュ符号を学習するための交互最小化法を提案する。 広く研究されている2つの車両再識別データセット- \textbf{VehicleID} と \textbf{VeRi}-の広範な実験により、最先端のディープハッシュ法に対する我々の手法の優位性を実証した。 2048$ビットの \textbf{DVHN} は、 \textbf{VehicleID (800)} データセットの \textbf{mAP} と \textbf{Rank@1} で 13.94\% と 10.21\% の精度向上を達成することができる。 textbf{VeRi} の場合、それぞれ \textbf{Rank@1} と \textbf{mAP} の 35.45\% と 32.72\% のパフォーマンス向上を達成する。

In this paper, we make the very first attempt to investigate the integration of deep hash learning with vehicle re-identification. We propose a deep hash-based vehicle re-identification framework, dubbed DVHN, which substantially reduces memory usage and promotes retrieval efficiency while reserving nearest neighbor search accuracy. Concretely,~DVHN directly learns discrete compact binary hash codes for each image by jointly optimizing the feature learning network and the hash code generating module. Specifically, we directly constrain the output from the convolutional neural network to be discrete binary codes and ensure the learned binary codes are optimal for classification. To optimize the deep discrete hashing framework, we further propose an alternating minimization method for learning binary similarity-preserved hashing codes. Extensive experiments on two widely-studied vehicle re-identification datasets- \textbf{VehicleID} and \textbf{VeRi}-~have demonstrated the superiority of our method against the state-of-the-art deep hash methods. \textbf{DVHN} of $2048$ bits can achieve 13.94\% and 10.21\% accuracy improvement in terms of \textbf{mAP} and \textbf{Rank@1} for \textbf{VehicleID (800)} dataset. For \textbf{VeRi}, we achieve 35.45\% and 32.72\% performance gains for \textbf{Rank@1} and \textbf{mAP}, respectively.
翻訳日:2021-12-10 18:31:34 公開日:2021-12-09
# (参考訳) マニフォールド学習によるメディアソフトウェアのサイドチャネル自動解析

Automated Side Channel Analysis of Media Software with Manifold Learning ( http://arxiv.org/abs/2112.04947v1 )

ライセンス: CC BY 4.0
Yuanyuan Yuan, Qi Pang, Shuai Wang(参考訳) クラウドコンピューティングと機械学習のサービスとしての発展は、機密メディアデータを処理するためのメディアソフトウェアの普及につながった。 本稿では,メディアソフトウェアに対するサイドチャネル解析(SCA)を起動し,機密メディアのインプットを再構築する敵の能力について検討する。 近年の表現学習と知覚学習の進歩により,メディアインプットとサイドチャネル観察のマッピングを学習するオートエンコーダフレームワークを用いて,メディアインプットからメディアインプットの再構築を,一貫した方法で処理可能なクロスモーダルな多様体学習タスクとして考えることができた。 我々はさらに、SCAに主要な貢献をするプログラムポイントのローカライズに注意を払ってオートエンコーダを強化し、メディアソフトウェアにおける情報参照ポイントを自動的に特定する。 また,認知マスクを用いてメディア入力を摂動させ,多様体学習に基づくSCAを緩和する,視覚ブラインド方式という,新規で効果的な防御手法を提案する。 評価では,画像,音声,テキスト形式の入力を3つのメディアソフトウェアを用いて再構成する。 キャッシュバンク、キャッシュライン、ページテーブルの3つの一般的なサイドチャネルと、標準のPrime+Probeでログされたユーザスペースのみのキャッシュセットアクセスを分析します。 本フレームワークは,評価されたメディアソフトウェアから高品質な機密情報を復元し,脆弱なプログラムポイントを自動的に特定することに成功した。 さらに、知覚盲目は、余分なコストで多様体学習に基づくscaを緩和できることを示した。

The prosperous development of cloud computing and machine learning as a service has led to the widespread use of media software to process confidential media data. This paper explores an adversary's ability to launch side channel analyses (SCA) against media software to reconstruct confidential media inputs. Recent advances in representation learning and perceptual learning inspired us to consider the reconstruction of media inputs from side channel traces as a cross-modality manifold learning task that can be addressed in a unified manner with an autoencoder framework trained to learn the mapping between media inputs and side channel observations. We further enhance the autoencoder with attention to localize the program points that make the primary contribution to SCA, thus automatically pinpointing information-leakage points in media software. We also propose a novel and highly effective defensive technique called perception blinding that can perturb media inputs with perception masks and mitigate manifold learning-based SCA. Our evaluation exploits three popular media software to reconstruct inputs in image, audio, and text formats. We analyze three common side channels - cache bank, cache line, and page tables - and userspace-only cache set accesses logged by standard Prime+Probe. Our framework successfully reconstructs high-quality confidential inputs from the assessed media software and automatically pinpoint their vulnerable program points, many of which are unknown to the public. We further show that perception blinding can mitigate manifold learning-based SCA with negligible extra cost.
翻訳日:2021-12-10 18:08:35 公開日:2021-12-09
# (参考訳) PARL:Pairwise Adversarially Robust Loss Functionによるアンサンブルネットワークの多様性向上による敵攻撃の抑制

PARL: Enhancing Diversity of Ensemble Networks to Resist Adversarial Attacks via Pairwise Adversarially Robust Loss Function ( http://arxiv.org/abs/2112.04948v1 )

ライセンス: CC BY 4.0
Manaar Alam, Shubhajit Datta, Debdeep Mukhopadhyay, Arijit Mondal, Partha Pratim Chakrabarti(参考訳) ディープラーニング分類器のセキュリティは、敵対的攻撃が存在するため、重要な研究分野である。 このような攻撃は通常、転送可能性の原理に依存しており、サロゲート分類器を使った敵の例は、両方の分類器が全く異なるアーキテクチャを持つ場合でも、同じデータセットで訓練されたターゲット分類器を誤解させる傾向がある。 敵攻撃に対するアンサンブル法は、敵の例が多様な決定境界を持つアンサンブルにおいて複数の分類器を誤解させる可能性が低いことを示す。 しかし、最近のアンサンブル手法は、より強い敵に弱いか、エンドツーエンドの評価が欠如していることが示されている。 本稿では,Pairwise Adversarially Robust Loss (PARL) 関数を用いて,多種多様な分類器を構成する新しいアンサンブル手法を提案する。 PARLはアンサンブル内の各分類器の入力に対して各層の勾配を利用する。 提案手法では,従来のアンサンブル法に比べて,クリーンサンプルの精度に悪影響を及ぼすことなく,ブラックボックス転送攻撃に対して高いロバスト性を実現することができる。 また,ホワイトボックス攻撃が存在する場合のロバスト性も評価した。 我々は,CIFAR-10やCIFAR-100のような標準画像分類データセットを用いて,最先端の敵攻撃に対する標準ResNet20分類器を用いて訓練し,アンサンブル手法の堅牢性を示す。

The security of Deep Learning classifiers is a critical field of study because of the existence of adversarial attacks. Such attacks usually rely on the principle of transferability, where an adversarial example crafted on a surrogate classifier tends to mislead the target classifier trained on the same dataset even if both classifiers have quite different architecture. Ensemble methods against adversarial attacks demonstrate that an adversarial example is less likely to mislead multiple classifiers in an ensemble having diverse decision boundaries. However, recent ensemble methods have either been shown to be vulnerable to stronger adversaries or shown to lack an end-to-end evaluation. This paper attempts to develop a new ensemble methodology that constructs multiple diverse classifiers using a Pairwise Adversarially Robust Loss (PARL) function during the training procedure. PARL utilizes gradients of each layer with respect to input in every classifier within the ensemble simultaneously. The proposed training procedure enables PARL to achieve higher robustness against black-box transfer attacks compared to previous ensemble methods without adversely affecting the accuracy of clean examples. We also evaluate the robustness in the presence of white-box attacks, where adversarial examples are crafted using parameters of the target classifier. We present extensive experiments using standard image classification datasets like CIFAR-10 and CIFAR-100 trained using standard ResNet20 classifier against state-of-the-art adversarial attacks to demonstrate the robustness of the proposed ensemble methodology.
翻訳日:2021-12-10 18:07:18 公開日:2021-12-09
# (参考訳) ユニバーサル依存におけるジェンダーとは?

How Universal is Genre in Universal Dependencies? ( http://arxiv.org/abs/2112.04971v1 )

ライセンス: CC BY 4.0
Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank(参考訳) この研究は、Universal Dependencies (UD)におけるジャンルの詳細な分析を初めて提供する。 モノ/ビリンガルな設定で定義されたラベルの小さなセットを使用するジャンル識別に関する以前の研究とは対照的に、UDは114言語にまたがる特異性の異なる18のジャンルを含んでいる。 多くの木バンクは,どのジャンルに属しているのかアノテーションを欠いているが,複数のジャンルにラベル付けされているため,木バンクメタデータからの弱監督を利用して,インスタンスレベルのジャンルを予測する4つの手法を提案する。 提案手法は,ラベル付きインスタンスを持つudのサブセット上で測定した競合ベースラインよりもインスタンスレベルのジャンルを回復し,グローバル期待分布に適合する。 我々の分析では,木バンク選択のためのUDジャンルメタデータを用いた先行研究に光を当てており,メタデータのみがノイズの多い信号であり,木バンク内で普遍的に適用される前に切り離さなければならない。

This work provides the first in-depth analysis of genre in Universal Dependencies (UD). In contrast to prior work on genre identification which uses small sets of well-defined labels in mono-/bilingual setups, UD contains 18 genres with varying degrees of specificity spread across 114 languages. As most treebanks are labeled with multiple genres while lacking annotations about which instances belong to which genre, we propose four methods for predicting instance-level genre using weak supervision from treebank metadata. The proposed methods recover instance-level genre better than competitive baselines as measured on a subset of UD with labeled instances and adhere better to the global expected distribution. Our analysis sheds light on prior work using UD genre metadata for treebank selection, finding that metadata alone are a noisy signal and must be disentangled within treebanks before it can be universally applied.
翻訳日:2021-12-10 17:50:13 公開日:2021-12-09
# (参考訳) pe-former:ポーズ推定トランス

PE-former: Pose Estimation Transformer ( http://arxiv.org/abs/2112.04981v1 )

ライセンス: CC BY 4.0
Paschalis Panteleris, Antonis Argyros(参考訳) 視覚変換器アーキテクチャは、画像分類タスクに非常に効果的に機能することが示されている。 トランスフォーマーによるより困難な視覚タスクを解決する努力は、特徴抽出のための畳み込みバックボーンに依存している。 本稿では,2次元物体ポーズ推定問題に対する純変圧器アーキテクチャ(cnnバックボーンを持たないもの)の使用について検討する。 我々はCOCOデータセット上で2つのViTアーキテクチャを評価する。 エンコーダ-デコーダトランスフォーマアーキテクチャを用いることで,この推定問題に対する技術結果が得られることを示す。

Vision transformer architectures have been demonstrated to work very effectively for image classification tasks. Efforts to solve more challenging vision tasks with transformers rely on convolutional backbones for feature extraction. In this paper we investigate the use of a pure transformer architecture (i.e., one with no CNN backbone) for the problem of 2D body pose estimation. We evaluate two ViT architectures on the COCO dataset. We demonstrate that using an encoder-decoder transformer architecture yields state of the art results on this estimation problem.
翻訳日:2021-12-10 17:24:27 公開日:2021-12-09
# (参考訳) 浅層ニューラルネットワークを用いた不完全なトレーニングデータを用いたミリ波定位

Millimeter Wave Localization with Imperfect Training Data using Shallow Neural Networks ( http://arxiv.org/abs/2112.05008v1 )

ライセンス: CC BY 4.0
Anish Shastri, Joan Palacios, and Paolo Casari(参考訳) ミリ波ローカライゼーションアルゴリズムは、ミリ波信号の準光伝搬を利用しており、受信機で狭角スペクトルを生成する。 角度に基づく局所化への幾何学的アプローチは通常、環境の地図とアクセスポイントの位置を知る必要がある。 したがって、受信したmmWave信号の特性からデバイスの位置を推定するために、いくつかの研究が自動学習に頼っている。 しかし,このようなモデルのトレーニングデータ収集には大きな負担がかかる。 本研究では,mmwaveデバイスを屋内でローカライズするための浅層ニューラルネットワークモデルを提案する。 このモデルは文献で提案されているものよりもかなり少ない重量を必要とする。 したがって、リソース制約のあるハードウェアの実装には適しており、収束するトレーニングサンプルが少ない。 また,幾何に基づくmmwaveローカライズアルゴリズムから位置推定(不完全)を行うことで,データ収集のトレーニングを緩和する。 この場合でさえ、提案するニューラルネットワークは最先端のアルゴリズムと同等かそれ以上の性能を発揮することが示された。

Millimeter wave (mmWave) localization algorithms exploit the quasi-optical propagation of mmWave signals, which yields sparse angular spectra at the receiver. Geometric approaches to angle-based localization typically require to know the map of the environment and the location of the access points. Thus, several works have resorted to automated learning in order to infer a device's location from the properties of the received mmWave signals. However, collecting training data for such models is a significant burden. In this work, we propose a shallow neural network model to localize mmWave devices indoors. This model requires significantly fewer weights than those proposed in the literature. Therefore, it is amenable for implementation in resource-constrained hardware, and needs fewer training samples to converge. We also propose to relieve training data collection efforts by retrieving (inherently imperfect) location estimates from geometry-based mmWave localization algorithms. Even in this case, our results show that the proposed neural networks perform as good as or better than state-of-the-art algorithms.
翻訳日:2021-12-10 17:15:08 公開日:2021-12-09
# (参考訳) ソーシャルメディアにおけるエコーチェンバーの実態調査 : 説明・検出・緩和

A Survey on Echo Chambers on Social Media: Description, Detection and Mitigation ( http://arxiv.org/abs/2112.05084v1 )

ライセンス: CC BY 4.0
Faisal Alatawi, Lu Cheng, Anique Tahir, Mansooreh Karami, Bohan Jiang, Tyler Black, Huan Liu(参考訳) ソーシャルメディア上のエコーチェンバーは、多くのネガティブな結果をもたらす重要な問題であり、直近ではcovid-19への対応に影響を与えている。 エコーチェンバーはウイルスに関する陰謀論を奨励し、ワクチンの忌避性、マスクの義務に対するコンプライアンスの低下、社会的距離の確保に結びつくことが判明した。 さらに、エコーチェンバーの問題は、政治的分極や誤情報の拡散といった他の関連する問題と結びついている。 エコーチャンバーは、ユーザが既存の信念や意見を支持する意見とのみ対話し、他の視点を排除・無視する、ユーザのネットワークとして定義される。 本調査は,ソーシャルメディアにおけるエコーチャンバー現象をソーシャル・コンピューティングの観点から検討し,可能ソリューションの青写真を提供する。 関連文献を調査し、エコーチャンバーの属性と、それらが個人や社会全体に与える影響を理解する。 さらに,エコーチャンバーの形成に繋がるアルゴリズムと心理学の両方のメカニズムを示す。 これらのメカニズムは,(1)ソーシャルメディアのレコメンダシステムのバイアス,(2)確認バイアスや相同性などの内部バイアスという2つの形態で表せる。 内部バイアスを軽減することは極めて難しいが、レコメンデーションシステムのバイアスを軽減するための大きな努力が続けられている。 これらのレコメンデーターシステムは、われわれのバイアスを利用してコンテンツレコメンデーションをパーソナライズし、より多くの広告を見るために私たちをエンゲージする。 そこで本研究では,主にレコメンダシステムを中心に,エコーチャンバの検出と防止のための様々な計算手法について検討する。

Echo chambers on social media are a significant problem that can elicit a number of negative consequences, most recently affecting the response to COVID-19. Echo chambers promote conspiracy theories about the virus and are found to be linked to vaccine hesitancy, less compliance with mask mandates, and the practice of social distancing. Moreover, the problem of echo chambers is connected to other pertinent issues like political polarization and the spread of misinformation. An echo chamber is defined as a network of users in which users only interact with opinions that support their pre-existing beliefs and opinions, and they exclude and discredit other viewpoints. This survey aims to examine the echo chamber phenomenon on social media from a social computing perspective and provide a blueprint for possible solutions. We survey the related literature to understand the attributes of echo chambers and how they affect the individual and society at large. Additionally, we show the mechanisms, both algorithmic and psychological, that lead to the formation of echo chambers. These mechanisms could be manifested in two forms: (1) the bias of social media's recommender systems and (2) internal biases such as confirmation bias and homophily. While it is immensely challenging to mitigate internal biases, there has been great efforts seeking to mitigate the bias of recommender systems. These recommender systems take advantage of our own biases to personalize content recommendations to keep us engaged in order to watch more ads. Therefore, we further investigate different computational approaches for echo chamber detection and prevention, mainly based around recommender systems.
翻訳日:2021-12-10 17:05:18 公開日:2021-12-09
# (参考訳) 線形収束率による連続経路

Continuation Path with Linear Convergence Rate ( http://arxiv.org/abs/2112.05104v1 )

ライセンス: CC BY 4.0
Eugene Ndiaye and Ichiro Takeuchi(参考訳) 経路追従アルゴリズムは、様々な正規化ハイパーパラメータを持つ一連のサブプロブレムを順次解く複合最適化問題でよく用いられる。 前の解を初期化として再利用することで、収束速度が向上する。 これにより、機械学習における最適化アルゴリズムの実行をスピードアップするのにかなり有用なヒューリスティックとなる。 本稿では、経路追従アルゴリズムの原始的双対解析を行い、そのハイパーパラメータの設計方法と、対象問題に対する線形収束率を保証するために各部分問題の解法について検討する。 さらに,スパース性誘導ペナルティによる最適化を考慮し,正規化パラメータに対する活性集合の変化を分析する。 後者を適応的に調整して、ソリューションパスに沿って選択される特徴の数を微調整することができる。 これにより、アクティブなセットアプローチのハイパーパラメータをキャリブレーションするための単純なヒューリスティックスが実現され、複雑さを低減し、実行時間を改善する。

Path-following algorithms are frequently used in composite optimization problems where a series of subproblems, with varying regularization hyperparameters, are solved sequentially. By reusing the previous solutions as initialization, better convergence speeds have been observed numerically. This makes it a rather useful heuristic to speed up the execution of optimization algorithms in machine learning. We present a primal dual analysis of the path-following algorithm and explore how to design its hyperparameters as well as determining how accurately each subproblem should be solved to guarantee a linear convergence rate on a target problem. Furthermore, considering optimization with a sparsity-inducing penalty, we analyze the change of the active sets with respect to the regularization parameter. The latter can then be adaptively calibrated to finely determine the number of features that will be selected along the solution path. This leads to simple heuristics for calibrating hyperparameters of active set approaches to reduce their complexity and improve their execution time.
翻訳日:2021-12-10 16:34:24 公開日:2021-12-09
# ディープニューラルネットワークを用いたステレオ認識音声強調のための学習枠組み

A Training Framework for Stereo-Aware Speech Enhancement using Deep Neural Networks ( http://arxiv.org/abs/2112.04939v1 )

ライセンス: Link先を確認
Bahareh Tolooshams and Kazuhito Koishida(参考訳) 近年,ディープラーニングに基づく音声強調は前例のないパフォーマンスを示している。 最も一般的なモノラル音声強調フレームワークは、ノイズ混在をクリーン音声の推定にマッピングするエンドツーエンドネットワークである。 計算能力の増大とマルチチャネルマイクロホン記録の利用可能化により、従来の研究は空間統計とスペクトル情報を組み合わせて性能を高めることを目的としていた。 モノアウトプットのエンハンスメント性能は向上したが,空間的画像保存や主観評価は文献にはあまり注目されていない。 本稿では,音声強調のための新しいステレオ認識フレームワーク,すなわち,ステレオ混合を増強しながら空間画像を保存するための深層学習に基づく音声強調のための訓練損失を提案する。 提案するフレームワークはモデルに依存しないので,ディープラーニングベースのアーキテクチャにも適用可能だ。 聴取テストを通して訓練されたモデルの広範囲な客観的および主観評価を行う。 画像保存損失を正則化することにより、全体的な性能が向上し、音声のステレオ面の保存性が向上することを示す。

Deep learning-based speech enhancement has shown unprecedented performance in recent years. The most popular mono speech enhancement frameworks are end-to-end networks mapping the noisy mixture into an estimate of the clean speech. With growing computational power and availability of multichannel microphone recordings, prior works have aimed to incorporate spatial statistics along with spectral information to boost up performance. Despite an improvement in enhancement performance of mono output, the spatial image preservation and subjective evaluations have not gained much attention in the literature. This paper proposes a novel stereo-aware framework for speech enhancement, i.e., a training loss for deep learning-based speech enhancement to preserve the spatial image while enhancing the stereo mixture. The proposed framework is model independent, hence it can be applied to any deep learning based architecture. We provide an extensive objective and subjective evaluation of the trained models through a listening test. We show that by regularizing for an image preservation loss, the overall performance is improved, and the stereo aspect of the speech is better preserved.
翻訳日:2021-12-10 16:15:05 公開日:2021-12-09
# Atomistic Deep Learningをプライムタイムに導入

Bringing Atomistic Deep Learning to Prime Time ( http://arxiv.org/abs/2112.04977v1 )

ライセンス: Link先を確認
Nathan C. Frey, Siddharth Samsi, Bharath Ramsundar, Connor W. Coley, Vijay Gadepally(参考訳) 人工知能はまだ材料や分子の設計に革命を起こしていない。 この観点から、原子論的深層学習、分子科学、高性能コンピューティングの統合を防止するための4つの障壁を同定する。 これらの課題がもたらす機会に対処するための研究の取り組みを概説する。

Artificial intelligence has not yet revolutionized the design of materials and molecules. In this perspective, we identify four barriers preventing the integration of atomistic deep learning, molecular science, and high-performance computing. We outline focused research efforts to address the opportunities presented by these challenges.
翻訳日:2021-12-10 16:14:51 公開日:2021-12-09
# 連続時間視点によるより安定な加速勾配法

A More Stable Accelerated Gradient Method Inspired by Continuous-Time Perspective ( http://arxiv.org/abs/2112.04922v1 )

ライセンス: Link先を確認
Yasong Feng and Weiguo Gao(参考訳) ネステロフの加速勾配法(NAG)は、ディープラーニングを含む機械学習の背景問題において広く用いられ、連続時間微分方程式に対応する。 この関係から、微分方程式の性質とその数値近似を解析し、加速勾配法を改善することができる。 本研究は, 数値解析から着想を得た安定性の観点から, NAGの新たな改良を提案する。 我々はNAGの正確な順序を連続時間限界の数値近似として与え、より高い順序で新しい方法を示す。 提案手法は,大きなステップサイズにおいてNAGよりも安定であることを示す。 行列補完と手書き文字認識の実験により,本手法の安定性が向上したことを示す。 さらに、安定性の向上は、実験の計算速度の向上につながる。

Nesterov's accelerated gradient method (NAG) is widely used in problems with machine learning background including deep learning, and is corresponding to a continuous-time differential equation. From this connection, the property of the differential equation and its numerical approximation can be investigated to improve the accelerated gradient method. In this work we present a new improvement of NAG in terms of stability inspired by numerical analysis. We give the precise order of NAG as a numerical approximation of its continuous-time limit and then present a new method with higher order. We show theoretically that our new method is more stable than NAG for large step size. Experiments of matrix completion and handwriting digit recognition demonstrate that the stability of our new method is better. Furthermore, better stability leads to higher computational speed in experiments.
翻訳日:2021-12-10 16:14:47 公開日:2021-12-09
# (参考訳) plenoxels: ニューラルネットワークのない放射場

Plenoxels: Radiance Fields without Neural Networks ( http://arxiv.org/abs/2112.05131v1 )

ライセンス: CC BY 4.0
Alex Yu, Sara Fridovich-Keil, Matthew Tancik, Qinhong Chen, Benjamin Recht, Angjoo Kanazawa(参考訳) フォトリアリスティックなビュー合成システムであるPlenoxels (plenoptic voxels)を紹介する。 プレノキセルは球面調和を持つスパース3Dグリッドとしてシーンを表す。 この表現は、勾配法と正規化によって、神経コンポーネントを使わずに、調整された画像から最適化することができる。 標準的なベンチマークタスクでは、Plenoxelsは視覚的品質を失うことなく、Neural Radiance Fieldsよりも2桁高速に最適化されている。

We introduce Plenoxels (plenoptic voxels), a system for photorealistic view synthesis. Plenoxels represent a scene as a sparse 3D grid with spherical harmonics. This representation can be optimized from calibrated images via gradient methods and regularization without any neural components. On standard, benchmark tasks, Plenoxels are optimized two orders of magnitude faster than Neural Radiance Fields with no loss in visual quality.
翻訳日:2021-12-10 16:14:07 公開日:2021-12-09
# CLIP-NeRF:ニューラルラジアンス場のテキスト・画像駆動マニピュレーション

CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields ( http://arxiv.org/abs/2112.05139v1 )

ライセンス: Link先を確認
Can Wang and Menglei Chai and Mingming He and Dongdong Chen and Jing Liao(参考訳) ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。 近年のContrastive Language- Image Pre-Training (CLIP) モデルの言語画像の埋め込み空間を活用することで,短いテキストプロンプトや例の画像を用いて,NeRFをユーザフレンドリーに操作できる統一的なフレームワークを提案する。 具体的には, nerfの新しいビュー合成能力と, 生成モデルからの潜在表現の制御可能な操作能力とを組み合わせるために, 形状と外観の両方を個別に制御できる不連続条件付きnerfアーキテクチャを提案する。 学習した変形場を位置符号化に適用し、ボリュームレンダリングステージに色調を遅延させることにより形状条件付けを行う。 この非絡み合ったラテント表現をCLIP埋め込みにブリッジするために、CLIP埋め込みを入力として取り込んだ2つのコードマッパーを設計し、ターゲットの編集を反映するためにラテントコードを更新する。 マッパーはCLIPベースのマッチング損失でトレーニングされ、操作精度が保証される。 さらに,実画像の編集を可能にするために,入力画像を潜時符号に正確に投影する逆最適化手法を提案する。 我々は,様々なテキストプロンプトや模範画像の広範な実験によりアプローチを評価し,インタラクティブな編集のための直感的なインタフェースを提供する。 私たちの実装はhttps://cassiepython.github.io/clipnerf/で利用可能です。

We present CLIP-NeRF, a multi-modal 3D object manipulation method for neural radiance fields (NeRF). By leveraging the joint language-image embedding space of the recent Contrastive Language-Image Pre-Training (CLIP) model, we propose a unified framework that allows manipulating NeRF in a user-friendly way, using either a short text prompt or an exemplar image. Specifically, to combine the novel view synthesis capability of NeRF and the controllable manipulation ability of latent representations from generative models, we introduce a disentangled conditional NeRF architecture that allows individual control over both shape and appearance. This is achieved by performing the shape conditioning via applying a learned deformation field to the positional encoding and deferring color conditioning to the volumetric rendering stage. To bridge this disentangled latent representation to the CLIP embedding, we design two code mappers that take a CLIP embedding as input and update the latent codes to reflect the targeted editing. The mappers are trained with a CLIP-based matching loss to ensure the manipulation accuracy. Furthermore, we propose an inverse optimization method that accurately projects an input image to the latent codes for manipulation to enable editing on real images. We evaluate our approach by extensive experiments on a variety of text prompts and exemplar images and also provide an intuitive interface for interactive editing. Our implementation is available at https://cassiepython.github.io/clipnerf/
翻訳日:2021-12-10 15:53:28 公開日:2021-12-09
# 屋外シーンの照明のための神経放射場

Neural Radiance Fields for Outdoor Scene Relighting ( http://arxiv.org/abs/2112.05140v1 )

ライセンス: Link先を確認
Viktor Rudnev and Mohamed Elgharib and William Smith and Lingjie Liu and Vladislav Golyanik and Christian Theobalt(参考訳) 写真からの屋外シーンのフォトリアリスティックな編集には、画像形成過程の深い理解と、シーンの幾何、反射、照明の正確な推定が必要である。 照明の微妙な操作は、シーンアルベドと幾何学を変更せずに行うことができる。 我々は、NeRF-OSR、すなわち、ニューラルラジアンス場に基づく屋外シーンリライティングのための最初のアプローチを提案する。 先行技術とは対照的に,無制御で撮影された屋外写真のコレクションのみを用いて,シーン照明とカメラ視点の両方を同時に編集できる技術である。 さらに、球面調和モデルによって定義されるシーン照明を直接制御することができる。 また、シャドウを再現するための専用ネットワークも備えており、高品質な屋外シーンのリライトに欠かせない。 提案手法を評価するために,複数の屋外サイトにおいて,複数の視点から異なるタイミングで各サイトを撮影するベンチマークデータセットを収集した。 各タイミングについて、360度環境マップとカラーキャリブレーション式チェッカーボードを併用して、地上の真実に対する実際のデータの正確な数値評価を可能にする。 比較の結果,NeRF-OSRはより高品質でリアルな自己シェード再生が可能な照明と視点編集を可能にすることがわかった。 私たちのメソッドとデータセットはhttps://4dqv.mpi-inf.mpg.de/NeRF-OSR/で公開されます。

Photorealistic editing of outdoor scenes from photographs requires a profound understanding of the image formation process and an accurate estimation of the scene geometry, reflectance and illumination. A delicate manipulation of the lighting can then be performed while keeping the scene albedo and geometry unaltered. We present NeRF-OSR, i.e., the first approach for outdoor scene relighting based on neural radiance fields. In contrast to the prior art, our technique allows simultaneous editing of both scene illumination and camera viewpoint using only a collection of outdoor photos shot in uncontrolled settings. Moreover, it enables direct control over the scene illumination, as defined through a spherical harmonics model. It also includes a dedicated network for shadow reproduction, which is crucial for high-quality outdoor scene relighting. To evaluate the proposed method, we collect a new benchmark dataset of several outdoor sites, where each site is photographed from multiple viewpoints and at different timings. For each timing, a 360 degrees environment map is captured together with a colour-calibration chequerboard to allow accurate numerical evaluations on real data against ground truth. Comparisons against state of the art show that NeRF-OSR enables controllable lighting and viewpoint editing at higher quality and with realistic self-shadowing reproduction. Our method and the dataset will be made publicly available at https://4dqv.mpi-inf.mpg.de/NeRF-OSR/.
翻訳日:2021-12-10 15:53:03 公開日:2021-12-09
# HairCLIP:テキストと参照画像でヘアをデザインする

HairCLIP: Design Your Hair by Text and Reference Image ( http://arxiv.org/abs/2112.05142v1 )

ライセンス: Link先を確認
Tianyi Wei and Dongdong Chen and Wenbo Zhou and Jing Liao and Zhentao Tan and Lu Yuan and Weiming Zhang and Nenghai Yu(参考訳) 毛髪編集はコンピュータビジョンとグラフィックスにおいて興味深い、そして難しい問題である。 既存の方法の多くは、編集のための条件付き入力としてよく描かれたスケッチやマスクを必要とするが、これらの相互作用は単純でも効率的でもない。 退屈なインタラクションプロセスからユーザを解放するために,ユーザが提供するテキストや参照画像に基づいて,毛髪属性を個別に,あるいは共同で操作できる新しいヘア編集インタラクションモードを提案する。 この目的のために,画像とテキストの条件を共有埋め込み空間にエンコードし,コントラスト言語-画像事前学習(CLIP)モデルの強力な画像テキスト表現機能を活用することで,統一的なヘア編集フレームワークを提案する。 念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは,高品質な毛髪編集を行うことができる。 大規模な実験では,操作精度,編集結果の視覚的リアリズム,無関係な属性保存の観点から,アプローチの優位性を示す。 プロジェクトリポジトリはhttps://github.com/wty-ustc/HairCLIPです。

Hair editing is an interesting and challenging problem in computer vision and graphics. Many existing methods require well-drawn sketches or masks as conditional inputs for editing, however these interactions are neither straightforward nor efficient. In order to free users from the tedious interaction process, this paper proposes a new hair editing interaction mode, which enables manipulating hair attributes individually or jointly based on the texts or reference images provided by users. For this purpose, we encode the image and text conditions in a shared embedding space and propose a unified hair editing framework by leveraging the powerful image text representation capability of the Contrastive Language-Image Pre-Training (CLIP) model. With the carefully designed network structures and loss functions, our framework can perform high-quality hair editing in a disentangled manner. Extensive experiments demonstrate the superiority of our approach in terms of manipulation accuracy, visual realism of editing results, and irrelevant attribute preservation. Project repo is https://github.com/wty-ustc/HairCLIP.
翻訳日:2021-12-10 15:52:42 公開日:2021-12-09
# CWS-PResUNet:チャンネルワイドサブバンド位相認識ResUNetによる音源分離

CWS-PResUNet: Music Source Separation with Channel-wise Subband Phase-aware ResUNet ( http://arxiv.org/abs/2112.04685v1 )

ライセンス: Link先を確認
Haohe Liu, Qiuqiang Kong, Jiafeng Liu(参考訳) 近年の深層学習モデルでは,音楽音源分離(MSS)が活発に進展している。 多くのMSSモデルは、有界比マスクを推定し、混合物の位相を再利用することでスペクトル上で分離を行う。 畳み込みニューラルネットワーク(cnn)を使用する場合、重みは通常、周波数帯域間の異なるパターンに関わらず畳み込み中にスペクトログラム内で共有される。 本研究では、チャネルワイドのサブバンド位相認識型ResUNet(CWS-PResUNet)と呼ばれる新しいMSSモデルを提案し、信号をサブバンドに分解し、各ソースに対する非有界複素イデアル比マスク(cIRM)を推定する。 CWS-PResUNetは、チャネルワイドサブバンド(CWS)機能を利用して、スペクトログラム上の不要なグローバルな重量共有を制限し、計算資源消費を減らす。 セーブされた計算コストとメモリは、より大きなアーキテクチャを可能にする。 MUSDB18HQテストセットでは、276層CWS-PResUNetを提案し、8.92信号-歪み比(SDR)スコアを持つボーカルに対して最先端(SoTA)性能を実現する。 cws-presunetとdemucsを組み合わせることで,2021年のismir music demixing (mdx) challenge limited training data track (leaderboard a) において,ボーカルスコアで2位,平均スコアで5位とランク付けした。 私たちのコードと事前トレーニングされたモデルは、https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNetで公開されています。

Music source separation (MSS) shows active progress with deep learning models in recent years. Many MSS models perform separations on spectrograms by estimating bounded ratio masks and reusing the phases of the mixture. When using convolutional neural networks (CNN), weights are usually shared within a spectrogram during convolution regardless of the different patterns between frequency bands. In this study, we propose a new MSS model, channel-wise subband phase-aware ResUNet (CWS-PResUNet), to decompose signals into subbands and estimate an unbound complex ideal ratio mask (cIRM) for each source. CWS-PResUNet utilizes a channel-wise subband (CWS) feature to limit unnecessary global weights sharing on the spectrogram and reduce computational resource consumptions. The saved computational cost and memory can in turn allow for a larger architecture. On the MUSDB18HQ test set, we propose a 276-layer CWS-PResUNet and achieve state-of-the-art (SoTA) performance on vocals with an 8.92 signal-to-distortion ratio (SDR) score. By combining CWS-PResUNet and Demucs, our ByteMSS system ranks the 2nd on vocals score and 5th on average score in the 2021 ISMIR Music Demixing (MDX) Challenge limited training data track (leaderboard A). Our code and pre-trained models are publicly available at: https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet
翻訳日:2021-12-10 15:52:24 公開日:2021-12-09
# LipSound2:lip-to-Speechリコンストラクションとリップリードのための自己監督型事前訓練

LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading ( http://arxiv.org/abs/2112.04748v1 )

ライセンス: Link先を確認
Leyuan Qu, Cornelius Weber and Stefan Wermter(参考訳) 本研究の目的は,映像中の音声と映像ストリームの自然共生を活かし,音声再構成におけるクロスモーダル自己教師付き事前学習の効果を検討することである。 人間のアノテーションを必要とせずに,顔画像のシーケンスを直接メルスケールのスペクトログラムにマッピングする,エンコーダデコーダアーキテクチャと位置対応アテンション機構を組み合わせたLipSound2を提案する。 提案されたlipsound2モデルは、まず$\sim$2400hのマルチリンガル(英語とドイツ語)オーディオビジュアルデータ(voxceleb2)で事前学習される。 提案手法の一般化性を検証するため, 英語音声再構成のためのドメイン固有データセット(GRID, TCD-TIMIT)の事前学習モデルを微調整し, 従来の話者依存・非依存設定法と比較して, 音声品質と聞きやすさを著しく改善した。 英語に加えて、CMLRデータセット上で中国語の音声再構成を行い、転送性への影響を検証する。 最後に,前訓練された音声認識システム上で生成された音声を微調整し,英語と中国語のベンチマークデータセットの両方で最先端のパフォーマンスを実現することにより,逐次的な唇読解(ビデオからテキストへの)システムを訓練する。

The aim of this work is to investigate the impact of crossmodal self-supervised pre-training for speech reconstruction (video-to-audio) by leveraging the natural co-occurrence of audio and visual streams in videos. We propose LipSound2 which consists of an encoder-decoder architecture and location-aware attention mechanism to map face image sequences to mel-scale spectrograms directly without requiring any human annotations. The proposed LipSound2 model is firstly pre-trained on $\sim$2400h multi-lingual (e.g. English and German) audio-visual data (VoxCeleb2). To verify the generalizability of the proposed method, we then fine-tune the pre-trained model on domain-specific datasets (GRID, TCD-TIMIT) for English speech reconstruction and achieve a significant improvement on speech quality and intelligibility compared to previous approaches in speaker-dependent and -independent settings. In addition to English, we conduct Chinese speech reconstruction on the CMLR dataset to verify the impact on transferability. Lastly, we train the cascaded lip reading (video-to-text) system by fine-tuning the generated audios on a pre-trained speech recognition system and achieve state-of-the-art performance on both English and Chinese benchmark datasets.
翻訳日:2021-12-10 15:51:55 公開日:2021-12-09
# 連成幾何学・確率的星形成のエンドツーエンド学習

End-to-End Learning of Joint Geometric and Probabilistic Constellation Shaping ( http://arxiv.org/abs/2112.05050v1 )

ライセンス: Link先を確認
Vahid Aref, Mathieu Chagnon(参考訳) 本稿では,新しい自動エンコーダに基づく,共役幾何学的・確率的連星形成の学習法を提案する。 相互情報(シンボルメトリック復号法)や一般化相互情報(ビットメトリック復号法)を最大化することができる。

We present a novel autoencoder-based learning of joint geometric and probabilistic constellation shaping for coded-modulation systems. It can maximize either the mutual information (for symbol-metric decoding) or the generalized mutual information (for bit-metric decoding).
翻訳日:2021-12-10 15:51:29 公開日:2021-12-09
# グラフニューラルネットワークの転送性特性

Transferability Properties of Graph Neural Networks ( http://arxiv.org/abs/2112.04629v1 )

ライセンス: Link先を確認
Luana Ruiz, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、グラフ畳み込みとポイントワイド非線形性からなる層からなる深層畳み込みアーキテクチャである。 その不変性と安定性のため、GNNはネットワークデータから表現を学習することに成功している。 しかし、トレーニングには行列計算が必要であり、大きなグラフには高価である。 この制限に対処するため、GNNをグラフ間で転送する能力について検討する。 グラフ畳み込みとgnn(graphon convolutions and graphon neural networks,wnns)の極限オブジェクトを定義するために、重み付きグラフと確率的グラフのグラフ極限と生成モデルの両方であるgraphonを、グラフ畳み込みとgnnの生成モデルとして使用する。 これらのグラフフィルタとWNNは、重み付き確率グラフ上のグラフフィルタとGNNによって近似可能であることを示す。 これらの結果を用いて、グラフフィルタとGNNをそのようなグラフ間で転送する際の誤差境界を導出する。 これらの境界は、転送可能性はグラフサイズとともに増加し、GNNにおける転送可能性とスペクトル識別性の間のトレードオフがポイントワイドな非線形性によって緩和されることを示している。 これらの結果は,映画のレコメンデーションと分散ロボット制御における数値実験において,さらに実証的に検証されている。

Graph neural networks (GNNs) are deep convolutional architectures consisting of layers composed by graph convolutions and pointwise nonlinearities. Due to their invariance and stability properties, GNNs are provably successful at learning representations from network data. However, training them requires matrix computations which can be expensive for large graphs. To address this limitation, we investigate the ability of GNNs to be transferred across graphs. We consider graphons, which are both graph limits and generative models for weighted and stochastic graphs, to define limit objects of graph convolutions and GNNs -- graphon convolutions and graphon neural networks (WNNs) -- which we use as generative models for graph convolutions and GNNs. We show that these graphon filters and WNNs can be approximated by graph filters and GNNs sampled from them on weighted and stochastic graphs. Using these results, we then derive error bounds for transferring graph filters and GNNs across such graphs. These bounds show that transferability increases with the graph size, and reveal a tradeoff between transferability and spectral discriminability which in GNNs is alleviated by the pointwise nonlinearities. These findings are further verified empirically in numerical experiments in movie recommendation and decentralized robot control.
翻訳日:2021-12-10 15:51:12 公開日:2021-12-09
# 異種クライアントのための非同期半分散フェデレーションエッジ学習

Asynchronous Semi-Decentralized Federated Edge Learning for Heterogeneous Clients ( http://arxiv.org/abs/2112.04737v1 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Jun Zhang(参考訳) feel(federated edge learning)は,モバイルエッジネットワーク用のプライバシ保存型分散学習フレームワークとして注目されている。 本研究では,複数のエッジサーバが協調して,エッジデバイスからのより多くのデータをトレーニング中に組み込む,新たな半分散FEEL(SD-FEEL)アーキテクチャについて検討する。 高速なエッジアグリゲーションによる低トレーニング遅延にもかかわらず、計算資源の不均一性は効率を低下させる。 本稿では,SD-FEELの非同期トレーニングアルゴリズムを提案し,エッジサーバがクライアントノードのデッドラインを独立に設定し,モデルアグリゲーションをトリガーする。 異なる水準の定常性に対処するため,定常性認識集約スキームを設計し,その収束性能を解析する。 シミュレーションの結果,提案アルゴリズムの有効性が示され,学習性能が向上した。

Federated edge learning (FEEL) has drawn much attention as a privacy-preserving distributed learning framework for mobile edge networks. In this work, we investigate a novel semi-decentralized FEEL (SD-FEEL) architecture where multiple edge servers collaborate to incorporate more data from edge devices in training. Despite the low training latency enabled by fast edge aggregation, the device heterogeneity in computational resources deteriorates the efficiency. This paper proposes an asynchronous training algorithm for SD-FEEL to overcome this issue, where edge servers can independently set deadlines for the associated client nodes and trigger the model aggregation. To deal with different levels of staleness, we design a staleness-aware aggregation scheme and analyze its convergence performance. Simulation results demonstrate the effectiveness of our proposed algorithm in achieving faster convergence and better learning performance.
翻訳日:2021-12-10 15:50:24 公開日:2021-12-09
# androidデバイス上でのgpuによるデータマイニング

GPU backed Data Mining on Android Devices ( http://arxiv.org/abs/2112.04800v1 )

ライセンス: Link先を確認
Robert Fritze and Claudia Plant(参考訳) 低消費電力デバイス上での高性能コンピューティングに適したプログラミングパラダイムの選択は、計算の高速化に有用である。 多くのAndroidデバイスはGPUを統合しており、公式にはサポートされていないが、OpenCLフレームワークはこれらのGPUに対処するためにAndroidデバイスで使用できる。 openclはスレッドとデータ並列処理をサポートする。 GPUを使用するアプリケーションは、いつでもユーザまたはAndroidオペレーティングシステムによって停止できるという事実を考慮しなければならない。 私たちはandroidデバイスでopenclを使用できるラッパーライブラリを作成しました。 既に書かれたOpenCLプログラムはほとんど修正することなく実行できる。 我々はこのライブラリを用いて、Arm-v7タブレットのGPU上でのDBSCANとKmeansアルゴリズムの性能を、同一デバイス上での他のシングルおよびマルチスレッドの実装と比較した。 我々は,実行速度とエネルギー消費の最良のトレードオフを実現するプログラミングパラダイムと言語について検討した。 Androidデバイス上のHPCにGPUを使用することで、計算集約的な機械学習やデータマイニングタスクを、厳しい環境条件下で、およびエネルギー供給が問題となる領域で実行できるようになる。

Choosing an appropriate programming paradigm for high-performance computing on low-power devices can be useful to speed up calculations. Many Android devices have an integrated GPU and - although not officially supported - the OpenCL framework can be used on Android devices for addressing these GPUs. OpenCL supports thread and data parallelism. Applications that use the GPU must account for the fact that they can be suspended by the user or the Android operating system at any moment. We have created a wrapper library that allows to use OpenCL on Android devices. Already written OpenCL programs can be executed with almost no modification. We have used this library to compare the performance of the DBSCAN and Kmeans algorithms on an integrated GPU of an Arm-v7 tablet with other single and multithreaded implementations on the same device. We have investigated which programming paradigm and language allows the best tradeoff between execution speed and energy consumption. Using the GPU for HPC on Android devices can help to carry out computationally intensive machine learning or data mining tasks in remote areas, under harsh environmental conditions and in areas where energy supply is an issue.
翻訳日:2021-12-10 15:50:10 公開日:2021-12-09
# 次のステップ:四肢四足歩行における遠方歩行表現の学習

Next Steps: Learning a Disentangled Gait Representation for Versatile Quadruped Locomotion ( http://arxiv.org/abs/2112.04809v1 )

ライセンス: Link先を確認
Alexander L. Mitchell, Wolfgang Merkt, Mathieu Geisert, Siddhant Gangapurwala, Martin Engelcke, Oiwi Parker Jones, Ioannis Havoutis, and Ingmar Posner(参考訳) 四足歩行は急速に成熟し、ロボットは様々な非構造な地形を日常的に横断している。 しかし、様々な事前計算されたスタイルから選択することで、歩行は典型的には変化するが、現在のプランナーは、ロボットが動いている間、キー歩行パラメータを連続的に変化させることができない。 予期せぬ操作特性を持つ歩行の合成、オンザフライ、あるいは動的操作のブレンディングは、現在の最先端技術の能力を超えている。 本研究では,特定の歩行を構成する主要なスタンスフェーズを捉える潜在空間を学習することで,この制限に対処する。 これは、単一のトロットスタイルで訓練された生成モデルによって達成され、駆動信号の潜伏状態の1次元への適用が連続的なトロットスタイルを合成する全体計画を引き起こすような非絡み合いを促進する。 本研究では, 歩幅, 歩幅, 立位など, 歩行パラメータに直接対応した駆動信号マップの具体的特性を示す。 本手法の特性から,これらの合成歩行はロボット操作中にオンラインで連続的に変動し,運動の豊かさをトレーニング中に見られる比較的狭い動作よりもはるかに大きく捉えている。 さらに、生成モデルの使用は外乱の検出と緩和を容易にし、汎用的で堅牢な計画フレームワークを提供する。 本手法は,実4足歩行ロボットのアプローチを評価し,外部摂動に対して頑健かつ反応性を持ちながら,動的トロットスタイルの連続的なブレンドを実現することを実証する。

Quadruped locomotion is rapidly maturing to a degree where robots now routinely traverse a variety of unstructured terrains. However, while gaits can be varied typically by selecting from a range of pre-computed styles, current planners are unable to vary key gait parameters continuously while the robot is in motion. The synthesis, on-the-fly, of gaits with unexpected operational characteristics or even the blending of dynamic manoeuvres lies beyond the capabilities of the current state-of-the-art. In this work we address this limitation by learning a latent space capturing the key stance phases constituting a particular gait. This is achieved via a generative model trained on a single trot style, which encourages disentanglement such that application of a drive signal to a single dimension of the latent state induces holistic plans synthesising a continuous variety of trot styles. We demonstrate that specific properties of the drive signal map directly to gait parameters such as cadence, foot step height and full stance duration. Due to the nature of our approach these synthesised gaits are continuously variable online during robot operation and robustly capture a richness of movement significantly exceeding the relatively narrow behaviour seen during training. In addition, the use of a generative model facilitates the detection and mitigation of disturbances to provide a versatile and robust planning framework. We evaluate our approach on a real ANYmal quadruped robot and demonstrate that our method achieves a continuous blend of dynamic trot styles whilst being robust and reactive to external perturbations.
翻訳日:2021-12-10 15:49:55 公開日:2021-12-09
# 漂流概念を用いた風力タービンの健全性の測定

Measuring Wind Turbine Health Using Drifting Concepts ( http://arxiv.org/abs/2112.04933v1 )

ライセンス: Link先を確認
Agnieszka Jastrzebska, Alejandro Morales-Hern\'andez, Gonzalo N\'apoles, Yamisleydi Salgueiro, and Koen Vanhoof(参考訳) 時系列処理は風力タービンの健康モニタリングの重要な側面である。 この分野での進歩にもかかわらず、モデリングの品質を改善する新しい方法がまだ存在する。 本稿では,風力タービンの健全性解析のための2つの新しいアプローチを提案する。 どちらのアプローチも、基盤となる生データを要約し集約するファジィセットを使用して実装された抽象概念に基づいている。 概念の変化を観察することで、タービンの健康状態の変化を推測する。 異なる外部条件(風速と温度)に対して別々に解析を行う。 我々は、相対的に低い、中程度の、高出力生産を表す概念を抽出する。 第1の方法は、比較的高低電力生産の減少または増加を評価することを目的とする。 このタスクは回帰モデルを用いて実行される。 第2の方法は抽出された概念の全体的ドリフトを評価する。 大きなドリフトは、発電プロセスが時間的に変動することを示している。 概念は言語ラベルを用いてラベル付けされ,解釈可能性の向上が図られている。 提案手法を適用し, 風力タービン4基の公開データを解析した。 シミュレーションの結果,全風力タービンにおいて老化過程は均質ではないことがわかった。

Time series processing is an essential aspect of wind turbine health monitoring. Despite the progress in this field, there is still room for new methods to improve modeling quality. In this paper, we propose two new approaches for the analysis of wind turbine health. Both approaches are based on abstract concepts, implemented using fuzzy sets, which summarize and aggregate the underlying raw data. By observing the change in concepts, we infer about the change in the turbine's health. Analyzes are carried out separately for different external conditions (wind speed and temperature). We extract concepts that represent relative low, moderate, and high power production. The first method aims at evaluating the decrease or increase in relatively high and low power production. This task is performed using a regression-like model. The second method evaluates the overall drift of the extracted concepts. Large drift indicates that the power production process undergoes fluctuations in time. Concepts are labeled using linguistic labels, thus equipping our model with improved interpretability features. We applied the proposed approach to process publicly available data describing four wind turbines. The simulation results have shown that the aging process is not homogeneous in all wind turbines.
翻訳日:2021-12-10 15:49:03 公開日:2021-12-09
# モデル非依存型ハイブリッド数値気象予測と熱帯地域の太陽予報のための機械学習パラダイム

Model-Agnostic Hybrid Numerical Weather Prediction and Machine Learning Paradigm for Solar Forecasting in the Tropics ( http://arxiv.org/abs/2112.04963v1 )

ライセンス: Link先を確認
Nigel Yuan Yun Ng, Harish Gopalan, Venugopalan S.G. Raghavan, Chin Chun Ooi(参考訳) 数値天気予報(NWP)と機械学習(ML)の手法は、太陽の予測に人気がある。 しかし、NWPモデルは複数の物理パラメータ化が可能であり、サイト固有のNWP最適化が必要である。 地域NWPモデルが異なるパラメータ化可能なグローバル気候モデルで使用される場合、これはさらに複雑である。 本研究では, 4つの放射線モデルに対して, 代替手法を提案し, 評価した。 気象調査・予測 (WRF) モデルは, 太陽放射量の推定を行うため, グローバルモードと地域モードの両方で動作する。 この推定は、最終的な予測を提供するためにMLを使用して後処理される。 WRFからの正規化ルート平均二乗誤差は、このML誤差補正モデルにより最大40-50%削減される。 CAM, GFDL, New Goddard, RRTMG の放射線モデルを用いた結果, 補正後と同等であり, WRFパラメータ化チューニングの必要性が否定された。 近くの場所やセンサーデータを含む他のモデルも評価され、後者は特に有望である。

Numerical weather prediction (NWP) and machine learning (ML) methods are popular for solar forecasting. However, NWP models have multiple possible physical parameterizations, which requires site-specific NWP optimization. This is further complicated when regional NWP models are used with global climate models with different possible parameterizations. In this study, an alternative approach is proposed and evaluated for four radiation models. Weather Research and Forecasting (WRF) model is run in both global and regional mode to provide an estimate for solar irradiance. This estimate is then post-processed using ML to provide a final prediction. Normalized root-mean-square error from WRF is reduced by up to 40-50% with this ML error correction model. Results obtained using CAM, GFDL, New Goddard and RRTMG radiation models were comparable after this correction, negating the need for WRF parameterization tuning. Other models incorporating nearby locations and sensor data are also evaluated, with the latter being particularly promising.
翻訳日:2021-12-10 15:48:51 公開日:2021-12-09
# 完全微分可能圧縮性高次計算流体力学解法

A fully-differentiable compressible high-order computational fluid dynamics solver ( http://arxiv.org/abs/2112.04979v1 )

ライセンス: Link先を確認
Deniz A. Bezgin, Aaron B. Buhendwa, Nikolaus A. Adams(参考訳) 流体の流れは自然と工学の分野に共通している。 流体の信頼性の高い計算は、複数の時空間スケールでの非線形相互作用による長期的課題である。 圧縮可能なナビエ・ストークス方程式は圧縮可能な流れを制御し、乱流や衝撃のような複雑な現象を許容する。 ハードウェアとソフトウェアの飛躍的な進歩にもかかわらず、流体の流れの最小の長さスケールを捉えることは、まだ現実のアプリケーションに対して制限的な計算コストをもたらす。 現在、上記の問題に取り組む手段として、機械学習がサポートする数値スキームの設計へのパラダイムシフトを目の当たりにしている。 従来, 1次元あるいは2次元の非圧縮性流体の微分可能アルゴリズムについて検討してきたが, 高次数値計算法を用いて圧縮性流体の計算を行うための, 完全に微分可能な3次元フレームワークを提案する。 まず, 古典的2次元および3次元のテストケースを計算し, 強い衝撃や乱流遷移を含む解法の有効性を実証する。 第二に、我々のフレームワークは、計算流体力学アルゴリズム内の既存の数値スキームを改善するためにエンドツーエンドの最適化を可能にする。 特に,従来の数値フラックス関数の代用としてニューラルネットワークを用いた。

Fluid flows are omnipresent in nature and engineering disciplines. The reliable computation of fluids has been a long-lasting challenge due to nonlinear interactions over multiple spatio-temporal scales. The compressible Navier-Stokes equations govern compressible flows and allow for complex phenomena like turbulence and shocks. Despite tremendous progress in hardware and software, capturing the smallest length-scales in fluid flows still introduces prohibitive computational cost for real-life applications. We are currently witnessing a paradigm shift towards machine learning supported design of numerical schemes as a means to tackle aforementioned problem. While prior work has explored differentiable algorithms for one- or two-dimensional incompressible fluid flows, we present a fully-differentiable three-dimensional framework for the computation of compressible fluid flows using high-order state-of-the-art numerical methods. Firstly, we demonstrate the efficiency of our solver by computing classical two- and three-dimensional test cases, including strong shocks and transition to turbulence. Secondly, and more importantly, our framework allows for end-to-end optimization to improve existing numerical schemes inside computational fluid dynamics algorithms. In particular, we are using neural networks to substitute a conventional numerical flux function.
翻訳日:2021-12-10 15:48:37 公開日:2021-12-09
# 変形性物体マニピュレーションのための実次元ベイズ処理

A Bayesian Treatment of Real-to-Sim for Deformable Object Manipulation ( http://arxiv.org/abs/2112.05068v1 )

ライセンス: Link先を確認
Rika Antonova, Jingyun Yang, Priya Sundaresan, Dieter Fox, Fabio Ramos, Jeannette Bohg(参考訳) 変形可能なオブジェクト操作は、ロボティクス研究において依然として難しい課題である。 パラメータ推定と状態推定の従来の手法は、一般に状態空間とその力学の正確な定義に依存している。 これは固い物体やロボットの状態に適しているが、変形可能な物体の状態空間とそれがどのように進化するかを定義するのは難しい。 本研究では,変形可能な物体の物理パラメータをシミュレータで定義した確率的推論タスクとして推定する問題を提起する。 本稿では,変形可能な物体の状態を分布埋め込みとして表現するために,画像列から状態情報を抽出する手法を提案する。 これにより、現代のベイズシミュレーションに基づく推論ツールに直接ノイズの多い状態観測を原則的に組み込むことができる。 実験により, 布やロープなどの高変形性物体の弾性, 摩擦, スケールなどの物理特性の後方分布を推定できることが確認された。 全体として、本手法は実際のsim問題に確率的に対処し、変形可能なオブジェクトの状態の進化をより良く表現するのに役立つ。

Deformable object manipulation remains a challenging task in robotics research. Conventional techniques for parameter inference and state estimation typically rely on a precise definition of the state space and its dynamics. While this is appropriate for rigid objects and robot states, it is challenging to define the state space of a deformable object and how it evolves in time. In this work, we pose the problem of inferring physical parameters of deformable objects as a probabilistic inference task defined with a simulator. We propose a novel methodology for extracting state information from image sequences via a technique to represent the state of a deformable object as a distribution embedding. This allows to incorporate noisy state observations directly into modern Bayesian simulation-based inference tools in a principled manner. Our experiments confirm that we can estimate posterior distributions of physical properties, such as elasticity, friction and scale of highly deformable objects, such as cloth and ropes. Overall, our method addresses the real-to-sim problem probabilistically and helps to better represent the evolution of the state of deformable objects.
翻訳日:2021-12-10 15:47:08 公開日:2021-12-09
# 深層強化学習による高次元株式ポートフォリオ取引

High-Dimensional Stock Portfolio Trading with Deep Reinforcement Learning ( http://arxiv.org/abs/2112.04755v1 )

ライセンス: Link先を確認
Uta Pigorsch and Sebastian Sch\"afer(参考訳) 本稿では,金融ポートフォリオ取引における深層q-learningに基づく深層強化学習アルゴリズムを提案する。 このアルゴリズムは、資産内のデータギャップや非固有履歴長を含む任意のサイズの横断データセットから、高次元のポートフォリオを取引することができる。 我々は,各環境に対して1つの資産をサンプリングし,得られた資産のリターンと平均的な資産のリターンによるキャッシュ予約で投資を報奨し,環境を順次設定する。 これにより、エージェントは、平均以上の実行を予想する資産に戦略的に資本を割り当てる。 当社の方法論は、米国株ポートフォリオの48の設定において、選択基準および取引コストのレベルにおいて、10から500株までの株式数が異なる、サンプル外分析に適用します。 平均的なアルゴリズムは、すべてのポートフォリオに対して1つのハイパーパラメータ設定だけで、受動的かつアクティブなベンチマーク投資戦略を大きなマージンで上回っている。

This paper proposes a Deep Reinforcement Learning algorithm for financial portfolio trading based on Deep Q-learning. The algorithm is capable of trading high-dimensional portfolios from cross-sectional datasets of any size which may include data gaps and non-unique history lengths in the assets. We sequentially set up environments by sampling one asset for each environment while rewarding investments with the resulting asset's return and cash reservation with the average return of the set of assets. This enforces the agent to strategically assign capital to assets that it predicts to perform above-average. We apply our methodology in an out-of-sample analysis to 48 US stock portfolio setups, varying in the number of stocks from ten up to 500 stocks, in the selection criteria and in the level of transaction costs. The algorithm on average outperforms all considered passive and active benchmark investment strategies by a large margin using only one hyperparameter setup for all portfolios.
翻訳日:2021-12-10 15:45:31 公開日:2021-12-09
# (参考訳) 一般の深層学習の不確かさ推定手法の危険性

The Peril of Popular Deep Learning Uncertainty Estimation Methods ( http://arxiv.org/abs/2112.05000v1 )

ライセンス: CC BY 4.0
Yehao Liu and Matteo Pagliardini and Tatjana Chavdarova and Sebastian U. Stich(参考訳) ガウス過程(GP)、ベイジアンニューラルネットワーク(BNN)、モンテカルロドロップアウト(MCDropout)などの不確実性推定(UE)技術は、予測された不確実性値をそれぞれの予測出力に割り当てることで、機械学習モデルの解釈可能性を改善することを目指している。 しかし,不確実性評価が多すぎると致命的な結果が出るため,本論文は上記の手法を解析する。 まず,GP法は分布外(OOD)データに基づいて常に高い不確実性の推定値が得られることを示す。 第2に、BNNとMCDropoutの両者がOODサンプルに対して高い不確実性評価を与えていない2D玩具の例を示す。 最後に、BNNとMCDropoutのこの落とし穴が現実世界のデータセットにも当てはまることを実証的に示す。 私たちの洞察 (i)Deep Learningで現在普及しているUEメソッドのより慎重な使用に対する意識を高めること。 (II)BNNやMCDropoutの代わりにGPベースの手法を近似するUEメソッドの開発を奨励し、 3)実験的な設定は,他のUEメソッドのOOD性能を検証するのに利用できる。 ソースコードはhttps://github.com/epfml/uncertainity-estimationで入手できる。

Uncertainty estimation (UE) techniques -- such as the Gaussian process (GP), Bayesian neural networks (BNN), Monte Carlo dropout (MCDropout) -- aim to improve the interpretability of machine learning models by assigning an estimated uncertainty value to each of their prediction outputs. However, since too high uncertainty estimates can have fatal consequences in practice, this paper analyzes the above techniques. Firstly, we show that GP methods always yield high uncertainty estimates on out of distribution (OOD) data. Secondly, we show on a 2D toy example that both BNNs and MCDropout do not give high uncertainty estimates on OOD samples. Finally, we show empirically that this pitfall of BNNs and MCDropout holds on real world datasets as well. Our insights (i) raise awareness for the more cautious use of currently popular UE methods in Deep Learning, (ii) encourage the development of UE methods that approximate GP-based methods -- instead of BNNs and MCDropout, and (iii) our empirical setups can be used for verifying the OOD performances of any other UE method. The source code is available at https://github.com/epfml/uncertainity-estimation.
翻訳日:2021-12-10 15:43:42 公開日:2021-12-09
# ヘシアン逆数のない二値最適化のための完全単ループアルゴリズム

A Fully Single Loop Algorithm for Bilevel Optimization without Hessian Inverse ( http://arxiv.org/abs/2112.04660v1 )

ライセンス: Link先を確認
Junyi Li, Bin Gu, Heng Huang(参考訳) 本稿では,二値最適化問題に対する新しいヘッセン逆自由完全ループアルゴリズム(fsla)を提案する。 双レベル最適化のための古典的なアルゴリズムは計算コストのかかる二重ループ構造を持つ。 近年,インナー変数とアウター変数を交互に最適化する単一ループアルゴリズムが提案されている。 しかし、これらのアルゴリズムは完全な単一ループを達成していない。 それらを見渡すと、ループは与えられた内部状態と外部状態の過勾配を評価する必要がある。 完全な単一ループアルゴリズムを開発するために、まずハイパー勾配の構造を研究し、時間によるバックプロパゲーション、共役勾配、emph{etcなどのいくつかの一般的なアプローチを含む超勾配計算の一般的な近似式を同定する。 この定式化に基づき、歴史的過次情報を維持するための新しい状態変数を導入する。 新しい定式化と内部変数と外部変数の代替更新を組み合わせることで,効率的な完全単一ループアルゴリズムを提案する。 理論的には、新しい状態によって生成された誤差は有界であり、我々のアルゴリズムは$O(\epsilon^{-2})$と収束する。 最後に、複数の二段階最適化に基づく機械学習タスクにより、アルゴリズムの有効性を実証的に検証する。

In this paper, we propose a new Hessian inverse free Fully Single Loop Algorithm (FSLA) for bilevel optimization problems. Classic algorithms for bilevel optimization admit a double loop structure which is computationally expensive. Recently, several single loop algorithms have been proposed with optimizing the inner and outer variable alternatively. However, these algorithms not yet achieve fully single loop. As they overlook the loop needed to evaluate the hyper-gradient for a given inner and outer state. In order to develop a fully single loop algorithm, we first study the structure of the hyper-gradient and identify a general approximation formulation of hyper-gradient computation that encompasses several previous common approaches, e.g. back-propagation through time, conjugate gradient, \emph{etc.} Based on this formulation, we introduce a new state variable to maintain the historical hyper-gradient information. Combining our new formulation with the alternative update of the inner and outer variables, we propose an efficient fully single loop algorithm. We theoretically show that the error generated by the new state can be bounded and our algorithm converges with the rate of $O(\epsilon^{-2})$. Finally, we verify the efficacy our algorithm empirically through multiple bilevel optimization based machine learning tasks.
翻訳日:2021-12-10 15:30:48 公開日:2021-12-09
# 都市ビッグデータに基づく電気バスの知的経路計画

Clairvoyance: Intelligent Route Planning for Electric Buses Based on Urban Big Data ( http://arxiv.org/abs/2112.04682v1 )

ライセンス: Link先を確認
Xiangyong Lu, Kaoru Ota, Mianxiong Dong, Chen Yu, and Hai Jin(参考訳) 現在、世界中の多くの都市が都市交通を最適化し、地域の二酸化炭素排出量を減らすために電気バスを導入している。 二酸化炭素排出量を削減し、電気バスの有効性を最大化するためには、適切な経路を選択することが重要である。 伝統的に、ルート選択は時間と労働のコストがかかる専用の調査に基づいて行われる。 そこで,本稿では,各地域の特有なニーズに応じて,電気バス路線をインテリジェントに計画することに着目した。 本研究では,深層ニューラルネットワークと多層パーセプトロンを併用した経路計画システムであるclairvoyanceを提案する。 人々の旅行や輸送炭素排出量の今後の情報を考えると、理想的な状況で出発する電気バスのバス路線を推奨するために、欲張りのメカニズムを利用する。 さらに、異種都市データセットから2つのニューラルネットワークの代表的特徴を抽出する。 提案手法は,中国の朱海における実世界のデータソースに関する広範囲な実験を通じて評価する。 その結果,ニューラルネットワークに基づくアルゴリズムは,従来のベースラインよりも一貫して優れていることがわかった。 さらに、電気バスの推奨経路は、二酸化炭素排出量のピーク値の低減と、市内の電気バスのフル活用に役立っている。

Nowadays many cities around the world have introduced electric buses to optimize urban traffic and reduce local carbon emissions. In order to cut carbon emissions and maximize the utility of electric buses, it is important to choose suitable routes for them. Traditionally, route selection is on the basis of dedicated surveys, which are costly in time and labor. In this paper, we mainly focus attention on planning electric bus routes intelligently, depending on the unique needs of each region throughout the city. We propose Clairvoyance, a route planning system that leverages a deep neural network and a multilayer perceptron to predict the future people's trips and the future transportation carbon emission in the whole city, respectively. Given the future information of people's trips and transportation carbon emission, we utilize a greedy mechanism to recommend bus routes for electric buses that will depart in an ideal state. Furthermore, representative features of the two neural networks are extracted from the heterogeneous urban datasets. We evaluate our approach through extensive experiments on real-world data sources in Zhuhai, China. The results show that our designed neural network-based algorithms are consistently superior to the typical baselines. Additionally, the recommended routes for electric buses are helpful in reducing the peak value of carbon emissions and making full use of electric buses in the city.
翻訳日:2021-12-10 15:30:26 公開日:2021-12-09
# Ymir: 多変量時系列異常検出のための教師付きアンサンブルフレームワーク

Ymir: A Supervised Ensemble Framework for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2112.04704v1 )

ライセンス: Link先を確認
Zhanxiang Zhao(参考訳) 本稿では,アンサンブル学習と教師付き学習技術を活用した多変量時系列異常検出フレームワークymirを提案する。 Ymirはアンサンブル学習法により、現在広く使われているいくつかの教師なしの異常検出モデルを統合し、教師なしのシナリオで堅牢な前頭葉異常検出結果を提供する。 超視覚的な環境では、ドメインの専門家とシステム利用者は、特定のシステムの分類学的検出基準を反映したトレーニングデータについて、ラベルを議論し、提供します。 Ymirは前述の教師なし手法を利用して、生の多変量時系列データからリッチで有用な表現を抽出し、特徴とラベルを教師付き分類器 todo 異常検出と組み合わせる。 大規模監視システムからの内部多変量時系列データセット上でymirを評価し,良好な異常検出性能を得た。

We proposed a multivariate time series anomaly detection frame-work Ymir, which leverages ensemble learning and supervisedlearning technology to efficiently learn and adapt to anomaliesin real-world system applications. Ymir integrates several currentlywidely used unsupervised anomaly detection models through anensemble learning method, and thus can provide robust frontalanomaly detection results in unsupervised scenarios. In a super-vised setting, domain experts and system users discuss and providelabels (anomalous or not) for the training data, which reflects theiranomaly detection criteria for the specific system. Ymir leveragesthe aforementioned unsupervised methods to extract rich and usefulfeature representations from the raw multivariate time series data,then combines the features and labels with a supervised classifier todo anomaly detection. We evaluated Ymir on internal multivariatetime series datasets from large monitoring systems and achievedgood anomaly detection performance.
翻訳日:2021-12-10 15:30:06 公開日:2021-12-09
# 内因性再生を伴う自己組織的地図における破滅的忘れることの低減

Reducing Catastrophic Forgetting in Self Organizing Maps with Internally-Induced Generative Replay ( http://arxiv.org/abs/2112.04728v1 )

ライセンス: Link先を確認
Hitesh Vaidya, Travis Desell, and Alexander Ororbia(参考訳) 生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。 このように適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。 この問題は破滅的な忘れ(interference)と呼ばれ、今日まで機械学習の領域では未解決の問題である。 フィードフォワードネットワークのコンテキストを忘れることは、何十年にもわたって広く検討されてきたが、クラスタリングや次元減少といったタスクでよく使用される教師なしニューラルモデルであるベネラブル自己組織化マップ(SOM)のような代替アーキテクチャの文脈では、はるかに少ない。 内部ニューロン間の競合は、記憶保持性を向上させる可能性があるが、タスクインクリメンタルなデータに基づいて訓練された固定サイズのSOMは、特定の時間的増分時に特定のクラスに関連するデータポイントを受け取り、大きな忘れを経験する。 本研究では,情報処理時に自分自身の忘れを軽減できるモデルである連続SOM(c-SOM)を提案する。

A lifelong learning agent is able to continually learn from potentially infinite streams of pattern sensory data. One major historic difficulty in building agents that adapt in this way is that neural systems struggle to retain previously-acquired knowledge when learning from new samples. This problem is known as catastrophic forgetting (interference) and remains an unsolved problem in the domain of machine learning to this day. While forgetting in the context of feedforward networks has been examined extensively over the decades, far less has been done in the context of alternative architectures such as the venerable self-organizing map (SOM), an unsupervised neural model that is often used in tasks such as clustering and dimensionality reduction. Although the competition among its internal neurons might carry the potential to improve memory retention, we observe that a fixed-sized SOM trained on task incremental data, i.e., it receives data points related to specific classes at certain temporal increments, experiences significant forgetting. In this study, we propose the continual SOM (c-SOM), a model that is capable of reducing its own forgetting when processing information.
翻訳日:2021-12-10 15:29:50 公開日:2021-12-09
# 連続学習のための勾配整合コアセット

Gradient-matching coresets for continual learning ( http://arxiv.org/abs/2112.05025v1 )

ライセンス: Link先を確認
Lukas Balles and Giovanni Zappella and C\'edric Archambeau(参考訳) 我々は、勾配マッチングの考え方に基づいて、コアセット選択法を考案した: コアセットによって誘導される勾配は、可能な限り、元のトレーニングデータセットによって誘導される勾配と一致すべきである。 本手法は,リハーサル記憶のキュレーションに使用できる連続学習の文脈で評価する。 本手法は, 種々のメモリサイズにわたる貯水池サンプリングなどの強力な競合を行う。

We devise a coreset selection method based on the idea of gradient matching: The gradients induced by the coreset should match, as closely as possible, those induced by the original training dataset. We evaluate the method in the context of continual learning, where it can be used to curate a rehearsal memory. Our method performs strong competitors such as reservoir sampling across a range of memory sizes.
翻訳日:2021-12-10 15:27:46 公開日:2021-12-09
# 新しい熱帯幾何に基づく解釈型機械学習法:高度心不全の診断への応用

A Novel Tropical Geometry-based Interpretable Machine Learning Method: Application in Prognosis of Advanced Heart Failure ( http://arxiv.org/abs/2112.05071v1 )

ライセンス: Link先を確認
Heming Yao, Harm Derksen, Jessica R. Golbus, Justin Zhang, Keith D. Aaronson, Jonathan Gryak, and Kayvan Najarian(参考訳) 臨床診断支援システムなどの多くの実用化には,モデルの解釈可能性が不可欠である。 本稿では,人間の理解可能なルールにおける入力変数と応答の関係をモデル化する,新しい解釈可能な機械学習手法を提案する。 この方法はファジィ推論システムに熱帯幾何学を適用して構築され、教師あり学習により可変符号化関数と有能な規則を発見できる。 分類とルール発見における提案アルゴリズムの性能と能力を検討するために,合成データセットを用いた実験を行った。 さらに, 心臓移植や持続的機械的循環支援などの先進療法の恩恵を受ける心不全患者を同定する臨床応用に本法を適用した。 実験の結果,提案ネットワークは分類タスクにおいて優れた性能を得た。 データセットから人間の理解可能なルールを学ぶことに加えて、既存のファジィドメインの知識をネットワークに簡単に転送でき、モデルトレーニングを容易にするために使うことができる。 提案するモデルと既存のドメイン知識を学習する能力は,モデル一般化可能性を大幅に向上させることができる。 提案するネットワークの特性は,モデルの信頼性と正当性を必要とするアプリケーションにおいて有望である。

A model's interpretability is essential to many practical applications such as clinical decision support systems. In this paper, a novel interpretable machine learning method is presented, which can model the relationship between input variables and responses in humanly understandable rules. The method is built by applying tropical geometry to fuzzy inference systems, wherein variable encoding functions and salient rules can be discovered by supervised learning. Experiments using synthetic datasets were conducted to investigate the performance and capacity of the proposed algorithm in classification and rule discovery. Furthermore, the proposed method was applied to a clinical application that identified heart failure patients that would benefit from advanced therapies such as heart transplant or durable mechanical circulatory support. Experimental results show that the proposed network achieved great performance on the classification tasks. In addition to learning humanly understandable rules from the dataset, existing fuzzy domain knowledge can be easily transferred into the network and used to facilitate model training. From our results, the proposed model and the ability of learning existing domain knowledge can significantly improve the model generalizability. The characteristics of the proposed network make it promising in applications requiring model reliability and justification.
翻訳日:2021-12-10 15:27:40 公開日:2021-12-09
# B5G/6Gのための説明可能なAI: 技術的側面、ユースケース、研究課題

Explainable AI for B5G/6G: Technical Aspects, Use Cases, and Research Challenges ( http://arxiv.org/abs/2112.04698v1 )

ライセンス: Link先を確認
Shen Wang, M.Atif Qureshi, Luis Miralles-Pechua\'an, Thien Huynh-The, Thippa Reddy Gadekallu, Madhusanka Liyanage(参考訳) 5Gの商業化が2020年頃に始まったとき、6Gのビジョンに関する議論も浮上した。 研究者たちは6gの帯域幅、カバレッジ、信頼性、エネルギー効率、レイテンシーの低下、さらに重要なこととして、人工知能(ai)を活用した統合型"人間中心"ネットワークシステムの実現を期待している。 このような6Gネットワークは、1秒ごとに行われる自動決定の過剰な数につながる。 これらの決定は、ネットワークリソースの割り当てから自動運転車の衝突回避まで、広範囲にわたる。 しかしながら、意思決定に対するコントロールを失うリスクは、設計者やユーザの理解を超えた高速データ集約型ai意思決定によって増大する可能性がある。 有望な説明可能なAI(XAI)メソッドは、ブラックボックスAI意思決定プロセスの透明性を高めることによって、このようなリスクを軽減することができる。 この調査論文は、6G技術(インテリジェント無線、ゼロタッチネットワーク管理など)や6Gユースケース(業界5.0など)など、あらゆる面での今後6G時代へのXAIの必要性を強調している。 さらに、最近の試みから学んだ教訓を要約し、6Gシステム構築にXAIを適用する上で重要な研究課題を概説した。 この研究は国連持続可能な開発目標(un-sdg)の目標9,11,16,17と一致し、イノベーションとインフラ構築の促進、持続可能かつ包括的な人的解決、正義と強固な制度の推進、グローバルレベルでのパートナーシップの育成に寄与する。

When 5G began its commercialisation journey around 2020, the discussion on the vision of 6G also surfaced. Researchers expect 6G to have higher bandwidth, coverage, reliability, energy efficiency, lower latency, and, more importantly, an integrated "human-centric" network system powered by artificial intelligence (AI). Such a 6G network will lead to an excessive number of automated decisions made every second. These decisions can range widely, from network resource allocation to collision avoidance for self-driving cars. However, the risk of losing control over decision-making may increase due to high-speed data-intensive AI decision-making beyond designers and users' comprehension. The promising explainable AI (XAI) methods can mitigate such risks by enhancing the transparency of the black box AI decision-making process. This survey paper highlights the need for XAI towards the upcoming 6G age in every aspect, including 6G technologies (e.g., intelligent radio, zero-touch network management) and 6G use cases (e.g., industry 5.0). Moreover, we summarised the lessons learned from the recent attempts and outlined important research challenges in applying XAI for building 6G systems. This research aligns with goals 9, 11, 16, and 17 of the United Nations Sustainable Development Goals (UN-SDG), promoting innovation and building infrastructure, sustainable and inclusive human settlement, advancing justice and strong institutions, and fostering partnership at the global level.
翻訳日:2021-12-10 15:27:23 公開日:2021-12-09
# 階層強化学習を用いた四足歩行ロボットの複数歩行学習

Learning multiple gaits of quadruped robot using hierarchical reinforcement learning ( http://arxiv.org/abs/2112.04741v1 )

ライセンス: Link先を確認
Yunho Kim, Bukun Son, and Dongjun Lee(参考訳) 頑丈さとスケーラビリティから強化学習を用いて,四足歩行ロボットの速度コマンドトラッキングコントローラの学習への関心が高まっている。 しかし、訓練されたエンドツーエンドの単一のポリシーは、通常はコマンドの速度に関係なく単一の歩数を示す。 これは、四足動物の速度に応じて最適な歩行が存在することを考慮すれば、亜最適解となるかもしれない。 本研究では,速度指令を追従しながら複数の歩数(ペース,トロット,バウンド)を生成できる四足歩行ロボットの階層型制御器を提案する。 我々のコントローラは2つのポリシーで構成されており、それぞれが中央パターン生成器と局所フィードバック制御器として機能し、階層的強化学習で訓練されている。 実験の結果 1)特定速度範囲における最適歩行の存在 2) 階層型コントローラの効率は, 1 つのポリシーからなるコントローラと比較すると, 通常は1 つの歩行を示す。 コードは公開されている。

There is a growing interest in learning a velocity command tracking controller of quadruped robot using reinforcement learning due to its robustness and scalability. However, a single policy, trained end-to-end, usually shows a single gait regardless of the command velocity. This could be a suboptimal solution considering the existence of optimal gait according to the velocity for quadruped animals. In this work, we propose a hierarchical controller for quadruped robot that could generate multiple gaits (i.e. pace, trot, bound) while tracking velocity command. Our controller is composed of two policies, each working as a central pattern generator and local feedback controller, and trained with hierarchical reinforcement learning. Experiment results show 1) the existence of optimal gait for specific velocity range 2) the efficiency of our hierarchical controller compared to a controller composed of a single policy, which usually shows a single gait. Codes are publicly available.
翻訳日:2021-12-10 15:26:55 公開日:2021-12-09
# 集合論の決定可能な断片に対する複雑性評価 III: ブール公式へのネスト集合上の制約の二次的還元

Complexity assessments for decidable fragments of Set Theory. III: A quadratic reduction of constraints over nested sets to Boolean formulae ( http://arxiv.org/abs/2112.04797v1 )

ライセンス: Link先を確認
Domenico Cantone, Andrea De Domenico, Pietro Maugeri, Eugenio G. Omodeo(参考訳) 量的集合論的な推論への寄与として、$x=y\setminus z$, $x \neq y\setminus z$, and $z =\{x\}$, ここで$x,y,z$ は集合のフォン・ノイマン宇宙上の変数に対して、比較的単純な連結正規形式のブール式を不定式化したものである。 対象言語の式は、集合のブール環にまたがる変数と、等式、非可分性、包含性を指定する差分演算子とレギュレータを含む。 さらに、各翻訳の結果は、$x=y\setminus z$, $x\neq y\setminus z$という形式のリテラルと、先行項が孤立リテラルで変数間の包含(限定的または非限定的)か変数間の等式である含意の結合である。 満足度保存を保証する単純で自然なセマンティクスを反映するだけでなく、提案した翻訳は2次アルゴリズムの時間複雑度を持ち、どちらもNP完全満足度問題で知られている2つの言語を橋渡しする。

As a contribution to quantitative set-theoretic inferencing, a translation is proposed of conjunctions of literals of the forms $x=y\setminus z$, $x \neq y\setminus z$, and $z =\{x\}$, where $x,y,z$ stand for variables ranging over the von Neumann universe of sets, into unquantified Boolean formulae of a rather simple conjunctive normal form. The formulae in the target language involve variables ranging over a Boolean ring of sets, along with a difference operator and relators designating equality, non-disjointness and inclusion. Moreover, the result of each translation is a conjunction of literals of the forms $x=y\setminus z$, $x\neq y\setminus z$ and of implications whose antecedents are isolated literals and whose consequents are either inclusions (strict or non-strict) between variables, or equalities between variables. Besides reflecting a simple and natural semantics, which ensures satisfiability-preservation, the proposed translation has quadratic algorithmic time-complexity, and bridges two languages both of which are known to have an NP-complete satisfiability problem.
翻訳日:2021-12-10 15:26:39 公開日:2021-12-09
# 3次元医療ポイントトランスフォーマー:医療ポイントクラウド解析のためのアテンションネットワークへの畳み込みの導入

3D Medical Point Transformer: Introducing Convolution to Attention Networks for Medical Point Cloud Analysis ( http://arxiv.org/abs/2112.04863v1 )

ライセンス: Link先を確認
Jianhui Yu, Chaoyi Zhang, Heng Wang, Dingxin Zhang, Yang Song, Tiange Xiang, Dongnan Liu, Weidong Cai(参考訳) 一般的なポイントクラウドは様々なタスクで研究され、最近はポイントクラウド分析のためにトランスフォーマーベースのネットワークが提案されている。 しかし、病気の検出や治療に重要な医療用点雲については、ほとんど関連しない研究がある。 本研究では, 複雑な生体構造を調べるため, 3次元医療用ポイントトランスフォーマ(3dmedpt)という, 医療用ポイントクラウドに特化した注意に基づくモデルを提案する。 クエリでコンテキスト情報を強化し,局所的な応答を要約することで,ローカルコンテキストとグローバルコンテンツの機能インタラクションをキャプチャできる。 しかし, 医用データのトレーニングサンプルが不十分で特徴学習が不十分なため, 位置埋め込みを用いて正確な局所幾何学を学習し, マルチグラフ推論(MGR)を行い, チャネルグラフ上のグローバルな知識伝播を調べ, 特徴表現を豊かにする。 IntrAデータセットを用いて行った実験は、3DMedPTの優位性を証明し、最も優れた分類とセグメンテーション結果を得る。 さらに,本手法の有望な一般化能力は,ModelNet40とShapeNetPartの3Dポイントクラウドベンチマークで検証した。 コードはまもなくリリースされる。

General point clouds have been increasingly investigated for different tasks, and recently Transformer-based networks are proposed for point cloud analysis. However, there are barely related works for medical point clouds, which are important for disease detection and treatment. In this work, we propose an attention-based model specifically for medical point clouds, namely 3D medical point Transformer (3DMedPT), to examine the complex biological structures. By augmenting contextual information and summarizing local responses at query, our attention module can capture both local context and global content feature interactions. However, the insufficient training samples of medical data may lead to poor feature learning, so we apply position embeddings to learn accurate local geometry and Multi-Graph Reasoning (MGR) to examine global knowledge propagation over channel graphs to enrich feature representations. Experiments conducted on IntrA dataset proves the superiority of 3DMedPT, where we achieve the best classification and segmentation results. Furthermore, the promising generalization ability of our method is validated on general 3D point cloud benchmarks: ModelNet40 and ShapeNetPart. Code will be released soon.
翻訳日:2021-12-10 15:23:06 公開日:2021-12-09
# 潜在埋め込みによるタスク適応としての少数キーポイント検出

Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings ( http://arxiv.org/abs/2112.04910v1 )

ライセンス: Link先を確認
Mel Vecerik and Jackie Kay and Raia Hadsell and Lourdes Agapito and Jon Scholz(参考訳) 特定のオブジェクトポイントをピクセルレベルの精度でローカライズするDense Object Trackingは、ロボット工学における多くのダウンストリーム応用を伴う重要なコンピュータビジョンタスクである。 既存のアプローチでは、密度の高いキーポイント埋め込みを1回のフォワードパスで計算する、つまりモデルは、すべてを一度に追跡するように訓練される、あるいは完全な容量をスパースな事前定義されたポイントに割り当てる、という方法がある。 本稿では,対象物体の把持点など,ある時点の関連点数が比較的少ないという観測に基づいて,中間地盤を探索する。 私たちの主なコントリビューションは、少数ショットのタスク適応にインスパイアされた新しいアーキテクチャであり、どのポイントをトラックするかを示すキーポイント埋め込みにスパーススタイルのネットワークを条件付けることができます。 我々の中心的な発見は、このアプローチが密度埋め込みモデルの一般性を提供する一方で、スパースキーポイントアプローチにかなり近い精度を提供することである。 本稿では,このキャパシティ対精度トレードオフを実証し,実ロボットピック・アンド・プレイスタスクを用いて,新しいオブジェクトインスタンス(クラス内)へのゼロショット転送機能を示す。

Dense object tracking, the ability to localize specific object points with pixel-level accuracy, is an important computer vision task with numerous downstream applications in robotics. Existing approaches either compute dense keypoint embeddings in a single forward pass, meaning the model is trained to track everything at once, or allocate their full capacity to a sparse predefined set of points, trading generality for accuracy. In this paper we explore a middle ground based on the observation that the number of relevant points at a given time are typically relatively few, e.g. grasp points on a target object. Our main contribution is a novel architecture, inspired by few-shot task adaptation, which allows a sparse-style network to condition on a keypoint embedding that indicates which point to track. Our central finding is that this approach provides the generality of dense-embedding models, while offering accuracy significantly closer to sparse-keypoint approaches. We present results illustrating this capacity vs. accuracy trade-off, and demonstrate the ability to zero-shot transfer to new object instances (within-class) using a real-robot pick-and-place task.
翻訳日:2021-12-10 15:22:46 公開日:2021-12-09
# Recurrent Stacked Back Projection を用いたスパースビューCT再構成

Sparse-View CT Reconstruction using Recurrent Stacked Back Projection ( http://arxiv.org/abs/2112.04998v1 )

ライセンス: Link先を確認
Wenrui Li, Gregery T. Buzzard, Charles A. Bouman(参考訳) Sparse-view CT再構成は、コスト、取得時間、使用量に制限があるため、幅広い応用において重要である。 しかし、フィルターバックプロジェクション(FBP)のような従来の直接再建手法は、サブニキスト体制における低品質の再構築につながる。 対照的に、ディープニューラルネットワーク(DNN)は、例えばモデルベース反復再構成(MBIR)のように、FBP再構成の後処理を通じて、スパースデータやノイズデータから高品質な再構成を生成することができる。 本稿では,リカレント畳み込み型lstmネットワークへの入力として個々のビューの逐次獲得バックプロジェクションを用いる,recurrent stacked back projection(rsbp)と呼ばれる直接再構成dnn手法を提案する。 SBP構造は、シングラム内の全ての情報を保持し、リカレント処理は隣り合うビュー間の相関を利用して、新しいビューごとに更新された再構築を生成する。 シミュレーションデータ上でネットワークをトレーニングし,シミュレーションデータと実データの両方でテストし,fbp画像のdnn後処理と基本mbirを,mbirよりも低い計算コストでrsbpが上回ることを示す。

Sparse-view CT reconstruction is important in a wide range of applications due to limitations on cost, acquisition time, or dosage. However, traditional direct reconstruction methods such as filtered back-projection (FBP) lead to low-quality reconstructions in the sub-Nyquist regime. In contrast, deep neural networks (DNNs) can produce high-quality reconstructions from sparse and noisy data, e.g. through post-processing of FBP reconstructions, as can model-based iterative reconstruction (MBIR), albeit at a higher computational cost. In this paper, we introduce a direct-reconstruction DNN method called Recurrent Stacked Back Projection (RSBP) that uses sequentially-acquired backprojections of individual views as input to a recurrent convolutional LSTM network. The SBP structure maintains all information in the sinogram, while the recurrent processing exploits the correlations between adjacent views and produces an updated reconstruction after each new view. We train our network on simulated data and test on both simulated and real data and demonstrate that RSBP outperforms both DNN post-processing of FBP images and basic MBIR, with a lower computational cost than MBIR.
翻訳日:2021-12-10 15:22:24 公開日:2021-12-09
# 2つの射影ビューに対する臨界構成 : 新しいアプローチ

Critical configurations for two projective views, a new approach ( http://arxiv.org/abs/2112.05074v1 )

ライセンス: Link先を確認
Martin Br{\aa}telund(参考訳) 動きからの構造問題は、物体の3次元構造を2次元画像の集合から復元することに関わる。 一般に、十分な画像と画像ポイントが提供されると、すべての情報が一意に復元できるが、一意の回復が不可能な場合もあり、これらはクリティカルな構成と呼ばれる。 本稿では、2つの射影カメラの臨界構成を研究するために代数的手法を用いる。 すべての臨界構成は二次曲面上にあり、どの二次構成が臨界構成を構成するかを正確に分類する。 また, ユニークな再建が不可能な場合の異なる復元との関係についても述べる。

The problem of structure from motion is concerned with recovering 3-dimensional structure of an object from a set of 2-dimensional images. Generally, all information can be uniquely recovered if enough images and image points are provided, but there are certain cases where unique recovery is impossible; these are called critical configurations. In this paper we use an algebraic approach to study the critical configurations for two projective cameras. We show that all critical configurations lie on quadric surfaces, and classify exactly which quadrics constitute a critical configuration. The paper also describes the relation between the different reconstructions when unique reconstruction is impossible.
翻訳日:2021-12-10 15:22:03 公開日:2021-12-09
# (参考訳) Wikidated 1.0:Wikidataのリビジョン履歴の知識グラフデータセットの進化

Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's Revision History ( http://arxiv.org/abs/2112.05003v1 )

ライセンス: CC BY 4.0
Lukas Schmelzeisen, Corina Dima, Steffen Staab(参考訳) Wikidataは、一般公開されている最大の一般向け知識ベースである。 何千人ものボランティア編集者が共同編集し、2012年の開始以来大きく進化してきた。 本稿では、Wikidataの完全改訂履歴のデータセットであるWikidated 1.0を紹介し、Wikidataリビジョンを削除セットとRDFトリプルの追加としてエンコードする。 私たちの知る限りでは、semantic webコミュニティで最近登場した研究テーマである、進化する知識グラフの最初の大きなデータセットを構成する。 ウィキデータのダンプからwikidated 1.0を生成する手法を紹介し,その実装と限界について論じ,データセットの統計的特徴を示す。

Wikidata is the largest general-interest knowledge base that is openly available. It is collaboratively edited by thousands of volunteer editors and has thus evolved considerably since its inception in 2012. In this paper, we present Wikidated 1.0, a dataset of Wikidata's full revision history, which encodes changes between Wikidata revisions as sets of deletions and additions of RDF triples. To the best of our knowledge, it constitutes the first large dataset of an evolving knowledge graph, a recently emerging research subject in the Semantic Web community. We introduce the methodology for generating Wikidated 1.0 from dumps of Wikidata, discuss its implementation and limitations, and present statistical characteristics of the dataset.
翻訳日:2021-12-10 15:20:23 公開日:2021-12-09
# ベクトル射影距離と抽象三角CRFを持つFew-Shot NLU

Few-Shot NLU with Vector Projection Distance and Abstract Triangular CRF ( http://arxiv.org/abs/2112.04999v1 )

ライセンス: Link先を確認
Su Zhu, Lu Chen, Ruisheng Cao, Zhi Chen, Qingliang Miao, and Kai Yu(参考訳) データスパーシティ問題は、特に新しいターゲットドメインにおいて、自然言語理解(nlu)の重要な課題である。 ソースドメインでNLUモデルをトレーニングし、(微調整なしでも)任意のターゲットドメインに直接モデルを適用することによって、少数ショットのNLUは、データの不足を緩和するために重要となる。 本稿では,数発のNLUに対して,ベクトル射影距離と抽象三角条件ランダム場(CRF)によるプロトタイプネットワークの改善を提案する。 ベクトル射影距離は、ラベルベクトル上の文脈的単語埋め込みの投影を、正規化線形モデルと等価な単語ラベル類似性として活用する。 抽象三角CRFは、結合意図分類とスロット充填タスクのためのドメインに依存しないラベル遷移を学習する。 大規模な実験により,提案手法が強いベースラインをはるかに超えることを示す。 具体的には,中国語と英語の2つのNLUベンチマーク(Few-JointとSNIPS)に対して,ターゲットドメインを微調整することなく,最先端のNLUベンチマークを実現する。

Data sparsity problem is a key challenge of Natural Language Understanding (NLU), especially for a new target domain. By training an NLU model in source domains and applying the model to an arbitrary target domain directly (even without fine-tuning), few-shot NLU becomes crucial to mitigate the data scarcity issue. In this paper, we propose to improve prototypical networks with vector projection distance and abstract triangular Conditional Random Field (CRF) for the few-shot NLU. The vector projection distance exploits projections of contextual word embeddings on label vectors as word-label similarities, which is equivalent to a normalized linear model. The abstract triangular CRF learns domain-agnostic label transitions for joint intent classification and slot filling tasks. Extensive experiments demonstrate that our proposed methods can significantly surpass strong baselines. Specifically, our approach can achieve a new state-of-the-art on two few-shot NLU benchmarks (Few-Joint and SNIPS) in Chinese and English without fine-tuning on target domains.
翻訳日:2021-12-10 15:05:22 公開日:2021-12-09
# オーサシップ検証のためのbert様トランスフォーマーの知識伝達

Transferring BERT-like Transformers' Knowledge for Authorship Verification ( http://arxiv.org/abs/2112.05125v1 )

ライセンス: Link先を確認
Andrei Manolache, Florin Brad, Elena Burceanu, Antonio Barbalau, Radu Ionescu, Marius Popescu(参考訳) テキストの著者を特定する作業は数十年にわたって行われ、言語学、統計学、そして最近では機械学習を用いて取り組まれている。 広範囲にわたる自然言語処理タスクにおける顕著なパフォーマンス向上と,近頃のPAN大規模オーサシップデータセットの利用可能性に着想を得て,著者認証作業におけるBERTライクなトランスフォーマの有効性について検討した。 このようなモデルは、非常に高いスコアを一貫して達成することを証明する。 次に,データセット内の既存のバイアスを生かして,著者の執筆スタイルの特徴よりも,話題の手がかりに注目していることが実証的に示される。 この問題に対処するため,不連続なトピックや著者からトレーニングデータやテストデータをサンプリングするPAN-2020に新たなスプリットを提供する。 最後に、異なる入力データ分布を持つデータセットであるdarkredditを紹介する。 我々はさらに,低データ領域におけるモデルのドメイン一般化性能と,提案するpan-2020分割を用いた微調整時の性能変化について解析する。 これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。

The task of identifying the author of a text spans several decades and was tackled using linguistics, statistics, and, more recently, machine learning. Inspired by the impressive performance gains across a broad range of natural language processing tasks and by the recent availability of the PAN large-scale authorship dataset, we first study the effectiveness of several BERT-like transformers for the task of authorship verification. Such models prove to achieve very high scores consistently. Next, we empirically show that they focus on topical clues rather than on author writing style characteristics, taking advantage of existing biases in the dataset. To address this problem, we provide new splits for PAN-2020, where training and test data are sampled from disjoint topics or authors. Finally, we introduce DarkReddit, a dataset with a different input data distribution. We further use it to analyze the domain generalization performance of models in a low-data regime and how performance varies when using the proposed PAN-2020 splits for fine-tuning. We show that those splits can enhance the models' capability to transfer knowledge over a new, significantly different dataset.
翻訳日:2021-12-10 15:05:04 公開日:2021-12-09
# 3次元物体検出を支援する補助的単眼環境の学習

Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection ( http://arxiv.org/abs/2112.04628v1 )

ライセンス: Link先を確認
Xianpeng Liu, Nan Xue, Tianfu Wu(参考訳) モノクロ3Dオブジェクト検出は、入力された単一2D画像内の3Dバウンディングボックスをローカライズすることを目的としている。 これは非常に困難な問題であり、特にトレーニングや推論で余分な情報(深さ、ライダー、マルチフレームなど)が利用できない場合、オープンのままである。 本稿では, 余分な情報を生かさずに, 単眼的3次元物体検出のための簡易かつ効果的な定式化を提案する。 モノラルな3Dオブジェクト検出を支援するために、トレーニングの補助タスクとしてモノラルなコンテキストを学習するMonoConメソッドを提案する。 キーとなるアイデアは、画像中のオブジェクトの注釈付き3Dバウンディングボックスによって、投影されたコーナーキーポイントとその関連するオフセットベクトルのようなトレーニングで利用可能な、十分にプロジェクションされた2D監視信号の豊富なセットが2Dバウンディングボックスの中心に対して存在することである。 提案されたMonoConは、高レベルでの測定理論におけるクレイマー・ウォルドの定理によって動機付けられている。 実装では、Deep Neural Network(DNN)ベースの機能バックボーン、3Dバウンディングボックス予測で使用される必須パラメータを学習するためのレグレッションヘッドブランチ、補助コンテキストを学習するためのレグレッションヘッドブランチの3つのコンポーネントからなる、補助的なモノラルコンテキストの学習の有効性を正当化するために、非常に単純なエンドツーエンド設計を使用する。 トレーニング後、補助コンテキスト回帰分岐はより良い推論効率のために破棄される。 実験では、提案するモノコンをkittiベンチマーク(car, pedestrain, cyclist)でテストした。 自動車カテゴリーのリーダーボードですべての先行芸術を上回り、正確性で歩行者やサイクリストに匹敵するパフォーマンスを得る。 単純な設計により、提案するmonocon法は38.7fpsで最速の推論速度を得る。

Monocular 3D object detection aims to localize 3D bounding boxes in an input single 2D image. It is a highly challenging problem and remains open, especially when no extra information (e.g., depth, lidar and/or multi-frames) can be leveraged in training and/or inference. This paper proposes a simple yet effective formulation for monocular 3D object detection without exploiting any extra information. It presents the MonoCon method which learns Monocular Contexts, as auxiliary tasks in training, to help monocular 3D object detection. The key idea is that with the annotated 3D bounding boxes of objects in an image, there is a rich set of well-posed projected 2D supervision signals available in training, such as the projected corner keypoints and their associated offset vectors with respect to the center of 2D bounding box, which should be exploited as auxiliary tasks in training. The proposed MonoCon is motivated by the Cramer-Wold theorem in measure theory at a high level. In implementation, it utilizes a very simple end-to-end design to justify the effectiveness of learning auxiliary monocular contexts, which consists of three components: a Deep Neural Network (DNN) based feature backbone, a number of regression head branches for learning the essential parameters used in the 3D bounding box prediction, and a number of regression head branches for learning auxiliary contexts. After training, the auxiliary context regression branches are discarded for better inference efficiency. In experiments, the proposed MonoCon is tested in the KITTI benchmark (car, pedestrain and cyclist). It outperforms all prior arts in the leaderboard on car category and obtains comparable performance on pedestrian and cyclist in terms of accuracy. Thanks to the simple design, the proposed MonoCon method obtains the fastest inference speed with 38.7 fps in comparisons
翻訳日:2021-12-10 15:03:53 公開日:2021-12-09
# 変圧器を用いた再帰的スピープベースデコーダ

Recurrent Glimpse-based Decoder for Detection with Transformer ( http://arxiv.org/abs/2112.04632v1 )

ライセンス: Link先を確認
Zhe Chen, Jing Zhang, Dacheng Tao(参考訳) Transformer (DETR) による検出はますます普及しているが、そのグローバルアテンションモデリングは、期待できる検出性能を最適化し達成するために非常に長い訓練期間を必要とする。 学習課題に対処するための高度な特徴や組込み設計を主に開発する既存の研究とは対照的に,RoI(Regional-of-Interest)に基づく検出改善は,DETR法の訓練の難しさを軽減するのに役立つと指摘する。 そこで本稿では,Recurrent Glimpse-based decOder (REGO)について紹介する。 特に、REGOは多段階のリカレント処理構造を用いて、DETRの注意が徐々に前景オブジェクトに焦点を合わせるのを助ける。 各処理段階において、前段から検出結果を拡大した境界ボックス領域を有するRoIから視特徴として視覚特徴を抽出する。 そして、前段の目視特徴と注意モデリング出力の両方に基づいて洗練された検出結果を提供するために、目視に基づくデコーダを導入する。 実際には、REGOは完全なエンドツーエンドのトレーニングと推論パイプラインを維持しながら、代表的なDETRバリアントに簡単に組み込むことができる。 特にREGOは、Deformable DETRがMSCOCOデータセット上でわずか36のトレーニングエポックで44.8 APを達成するのに役立ち、Deformable DETRは500エポックと50エポックを必要とする。 また実験の結果、REGOは50の訓練エポックのセットで異なるDETR検出器の性能を最大7%向上させることを示した。 コードはhttps://github.com/zhechen/Deformable-DETR-REGOから入手できる。

Although detection with Transformer (DETR) is increasingly popular, its global attention modeling requires an extremely long training period to optimize and achieve promising detection performance. Alternative to existing studies that mainly develop advanced feature or embedding designs to tackle the training issue, we point out that the Region-of-Interest (RoI) based detection refinement can easily help mitigate the difficulty of training for DETR methods. Based on this, we introduce a novel REcurrent Glimpse-based decOder (REGO) in this paper. In particular, the REGO employs a multi-stage recurrent processing structure to help the attention of DETR gradually focus on foreground objects more accurately. In each processing stage, visual features are extracted as glimpse features from RoIs with enlarged bounding box areas of detection results from the previous stage. Then, a glimpse-based decoder is introduced to provide refined detection results based on both the glimpse features and the attention modeling outputs of the previous stage. In practice, REGO can be easily embedded in representative DETR variants while maintaining their fully end-to-end training and inference pipelines. In particular, REGO helps Deformable DETR achieve 44.8 AP on the MSCOCO dataset with only 36 training epochs, compared with the first DETR and the Deformable DETR that require 500 and 50 epochs to achieve comparable performance, respectively. Experiments also show that REGO consistently boosts the performance of different DETR detectors by up to 7% relative gain at the same setting of 50 training epochs. Code is available via https://github.com/zhechen/Deformable-DETR-REGO.
翻訳日:2021-12-10 15:03:20 公開日:2021-12-09
# 人物再同定のための二重クラスタコントラスト学習

Dual Cluster Contrastive learning for Person Re-Identification ( http://arxiv.org/abs/2112.04662v1 )

ライセンス: Link先を確認
Hantao Yao, Changsheng Xu(参考訳) 近年、個人特徴量とクラスタメモリの対比損失を計算し、クラスタコントラスト学習が個人reidに有効であることが証明されている。 しかしながら、クラスタメモリのモーメント更新に個々の機能を使用する既存の方法は、間違った注釈付きラベルのサンプルや擬似ラベルなど、ノイズの多いサンプルには堅牢ではない。 個々の更新機構とは異なり、クラスタメモリを更新するために各クラスタの平均機能を適用するcentroidベースの更新機構は、少数派のノイズサンプルに対して堅牢である。 そこで我々は,dcc (dual cluster contrastive learning) と呼ばれる統合クラスタコントラストフレームワークを用いて,個別のクラスタ・メモリバンクと百万単位のクラスタ・メモリバンクの2つのタイプのメモリバンクを保持する個別のクラスタ・コントラスト・ラーニング機構を定式化した。 重要な点として、個々のクラスタメモリは個々の特徴に基づいてモーメントを更新するが、センタロイドクラスタメモリは対応するクラスタメモリを更新するために各クラスタの平均的特徴を適用している。 各メモリのボリナコントラスト損失に加えて、2つのメモリの出力の整合性を保証するために一貫性制約が適用される。 なお,DCCは,クラスタリング法で生成された接地トラスラベルや擬似ラベルを用いて,教師なしあるいは教師なしのReIDに容易に適用できる。 教師なしのReIDと教師なしのReIDの2つのベンチマークによる大規模な実験は、提案したDCCよりも優れていることを示した。 https://github.com/htyao89/Dual-Cluster-Contrastive/

Recently, cluster contrastive learning has been proven effective for person ReID by computing the contrastive loss between the individual feature and the cluster memory. However, existing methods that use the individual feature to momentum update the cluster memory are not robust to the noisy samples, such as the samples with wrong annotated labels or the pseudo-labels. Unlike the individual-based updating mechanism, the centroid-based updating mechanism that applies the mean feature of each cluster to update the cluster memory is robust against minority noisy samples. Therefore, we formulate the individual-based updating and centroid-based updating mechanisms in a unified cluster contrastive framework, named Dual Cluster Contrastive learning (DCC), which maintains two types of memory banks: individual and centroid cluster memory banks. Significantly, the individual cluster memory is momentum updated based on the individual feature.The centroid cluster memory applies the mean feature of each cluter to update the corresponding cluster memory. Besides the vallina contrastive loss for each memory, a consistency constraint is applied to guarantee the consistency of the output of two memories. Note that DCC can be easily applied for unsupervised or supervised person ReID by using ground-truth labels or pseudo-labels generated with clustering method, respectively. Extensive experiments on two benchmarks under supervised person ReID and unsupervised person ReID demonstrate the superior of the proposed DCC. Code is available at: https://github.com/htyao89/Dual-Cluster-Contrastive/
翻訳日:2021-12-10 15:02:00 公開日:2021-12-09
# ワンショット非教師付きドメイン適応意味セグメンテーションのためのスタイル混合とパッチワイズ型マッチング

Style Mixing and Patchwise Prototypical Matching for One-Shot Unsupervised Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2112.04665v1 )

ライセンス: Link先を確認
Xinyi Wu and Zhenyao Wu and Yuhang Lu and Lili Ju and Song Wang(参考訳) 本稿では,セグメンタが学習中にラベルなしの目標画像のみを表示するセマンティックセグメンテーションのための,ワンショット非教師なし領域適応(osuda)の問題に取り組む。 この場合、従来の教師なしドメイン適応モデルは、1つの(または少数の)ターゲットサンプルに過度に適合するターゲットドメインに適応できないため、通常失敗する。 この問題に対処するため、既存のOSUDAメソッドは、通常、トレーニング中にターゲットサンプル周辺の複数のドメインを探索する未ラベルのターゲットサンプルに基づいてドメインランダム化を行うためにスタイル転送モジュールを統合する。 しかし、このようなスタイル転送モジュールは、事前トレーニングのためのスタイル参照として追加のイメージセットに依存しており、ドメイン適応のためのメモリ要求も増大する。 本稿では,計算負荷を効果的に軽減できるosuda法を提案する。 具体的には,複数のスタイルミキシングレイヤをセグメンタに統合し,スタイルトランスファーモジュールの役割を担い,学習パラメータを導入せずにソースコードをスタイリングする。 さらに、教師付きトレーニングにおいて、ソース画素の重要性を重み付けし、負適応を緩和するパッチワイズプロトタイプマッチング(PPM)手法を提案する。 実験結果から,本手法はドメイン適応型セマンティックセマンティックセグメンテーションを1ショット設定で2つのベンチマークで評価し,全ての比較手法よりも効率的であることがわかった。

In this paper, we tackle the problem of one-shot unsupervised domain adaptation (OSUDA) for semantic segmentation where the segmentors only see one unlabeled target image during training. In this case, traditional unsupervised domain adaptation models usually fail since they cannot adapt to the target domain with over-fitting to one (or few) target samples. To address this problem, existing OSUDA methods usually integrate a style-transfer module to perform domain randomization based on the unlabeled target sample, with which multiple domains around the target sample can be explored during training. However, such a style-transfer module relies on an additional set of images as style reference for pre-training and also increases the memory demand for domain adaptation. Here we propose a new OSUDA method that can effectively relieve such computational burden. Specifically, we integrate several style-mixing layers into the segmentor which play the role of style-transfer module to stylize the source images without introducing any learned parameters. Moreover, we propose a patchwise prototypical matching (PPM) method to weighted consider the importance of source pixels during the supervised training to relieve the negative adaptation. Experimental results show that our method achieves new state-of-the-art performance on two commonly used benchmarks for domain adaptive semantic segmentation under the one-shot setting and is more efficient than all comparison approaches.
翻訳日:2021-12-10 15:01:35 公開日:2021-12-09
# 視覚位置認識のための教師なし相補的アウェアマルチプロセス融合

Unsupervised Complementary-aware Multi-process Fusion for Visual Place Recognition ( http://arxiv.org/abs/2112.04701v1 )

ライセンス: Link先を確認
Stephen Hausler, Tobias Fischer and Michael Milford(参考訳) 視覚的位置認識(VPR)問題に対する最近のアプローチは、複数の相補的なVPR技術の場所認識推定を同時に融合させることである。 しかしながら、特定のデプロイメント環境で使用する最適なテクニックのセットを選択することは、困難かつ未解決の課題である。 さらに,我々の知る限りでは,画像と画像のバリエーションに応じて,フレーム単位のテクニックを選択できる手法は存在しない。 本研究では,現在のデプロイメント環境において,フレーム単位で最も堅牢なVPR手法の集合を探索する教師なしアルゴリズムを提案する。 手法の選択は、現在の問合せ画像とデータベース画像の収集との類似度スコアの分析により決定され、接地情報を必要としない。 提案手法は,多種多様なデータセットとvpr技術に適用し,提案手法であるdyn-mpf(dynamic multi-process fusion)が様々な競合手法に比べて優れたvpr性能を持つことを示す。

A recent approach to the Visual Place Recognition (VPR) problem has been to fuse the place recognition estimates of multiple complementary VPR techniques simultaneously. However, selecting the optimal set of techniques to use in a specific deployment environment a-priori is a difficult and unresolved challenge. Further, to the best of our knowledge, no method exists which can select a set of techniques on a frame-by-frame basis in response to image-to-image variations. In this work, we propose an unsupervised algorithm that finds the most robust set of VPR techniques to use in the current deployment environment, on a frame-by-frame basis. The selection of techniques is determined by an analysis of the similarity scores between the current query image and the collection of database images and does not require ground-truth information. We demonstrate our approach on a wide variety of datasets and VPR techniques and show that the proposed dynamic multi-process fusion (Dyn-MPF) has superior VPR performance compared to a variety of challenging competitive methods, some of which are given an unfair advantage through access to the ground-truth information.
翻訳日:2021-12-10 15:01:08 公開日:2021-12-09
# 高速点変圧器

Fast Point Transformer ( http://arxiv.org/abs/2112.04702v1 )

ライセンス: Link先を確認
Chunghyun Park, Yoonwoo Jeong, Minsu Cho, Jaesik Park(参考訳) 最近のニューラルネットワークの成功により、3Dポイントクラウドの解釈がより良くなったが、大規模な3Dシーンの処理は依然として難しい問題である。 現在のほとんどのアプローチでは、大規模なシーンを小さなリージョンに分割し、ローカルな予測を組み合わせる。 しかし、このスキームは必然的に前処理と後処理のための追加段階を伴い、また局所的な観点からの予測によって最終的な出力が低下する可能性がある。 本稿では,新しい軽量セルフアテンション層からなるFast Point Transformerを提案する。 提案手法は連続3次元座標を符号化し,voxelハッシュに基づくアーキテクチャにより計算効率が向上する。 提案手法は3次元セマンティックセグメンテーションと3次元検出で実証される。 我々のアプローチの精度は、最も優れたvoxelベースの手法に匹敵するものであり、ネットワークは、合理的な精度のトレードオフで、最先端のポイントトランスフォーマーよりも136倍高速に推論できる。

The recent success of neural networks enables a better interpretation of 3D point clouds, but processing a large-scale 3D scene remains a challenging problem. Most current approaches divide a large-scale scene into small regions and combine the local predictions together. However, this scheme inevitably involves additional stages for pre- and post-processing and may also degrade the final output due to predictions in a local perspective. This paper introduces Fast Point Transformer that consists of a new lightweight self-attention layer. Our approach encodes continuous 3D coordinates, and the voxel hashing-based architecture boosts computational efficiency. The proposed method is demonstrated with 3D semantic segmentation and 3D detection. The accuracy of our approach is competitive to the best voxel-based method, and our network achieves 136 times faster inference time than the state-of-the-art, Point Transformer, with a reasonable accuracy trade-off.
翻訳日:2021-12-10 15:00:50 公開日:2021-12-09
# インスタンスセグメンテーションのためのインプシット機能強化

Implicit Feature Refinement for Instance Segmentation ( http://arxiv.org/abs/2112.04709v1 )

ライセンス: Link先を確認
Lufan Ma, Tiancai Wang, Bin Dong, Jiangpeng Yan, Xiu Li, Xiangyu Zhang(参考訳) 高品質なインスタンスセグメンテーションのための新しい暗黙的特徴リファインメントモジュールを提案する。 既存のイメージ/ビデオインスタンスのセグメンテーションメソッドは、最終予測の前にインスタンスの機能を洗練するために明示的に積み重ねられた畳み込みに依存している。 本稿では,まず,様々な精細化戦略を実証的に比較し,広く用いられている4つの連続畳み込みは不要であることを明らかにした。 代替として、重量共有畳み込みブロックは競合性能を提供する。 そのようなブロックが無限回繰り返しられると、ブロック出力は最終的に平衡状態へと収束する。 この観察に基づいて、暗黙的特徴改善(IFR)は暗黙的機能を構築することによって開発される。 インスタンス特徴の平衡状態は、シミュレートされた無限深度ネットワークを介して固定点反復によって得ることができる。 IFRにはいくつかの利点があります。 1) 1つの残差ブロックのパラメータのみを必要としながら、無限深絞りネットワークをシミュレートする。 2) グローバル受容分野の高レベルの平衡インスタンス特性を生産する。 3)ほとんどのオブジェクト認識フレームワークに簡単に拡張できるプラグイン・アンド・プレイの汎用モジュールとして機能する。 COCOとYouTube-VISベンチマークの実験では、IFRは最新の画像/ビデオインスタンスセグメンテーションフレームワークのパフォーマンスを改善し、パラメータの負担を低減している(マスクヘッドに30.0%のパラメータしか持たないMask R-CNNのAP改善など)。 コードはhttps://github.com/lufanma/ifr.gitで入手できる。

We propose a novel implicit feature refinement module for high-quality instance segmentation. Existing image/video instance segmentation methods rely on explicitly stacked convolutions to refine instance features before the final prediction. In this paper, we first give an empirical comparison of different refinement strategies,which reveals that the widely-used four consecutive convolutions are not necessary. As an alternative, weight-sharing convolution blocks provides competitive performance. When such block is iterated for infinite times, the block output will eventually convergeto an equilibrium state. Based on this observation, the implicit feature refinement (IFR) is developed by constructing an implicit function. The equilibrium state of instance features can be obtained by fixed-point iteration via a simulated infinite-depth network. Our IFR enjoys several advantages: 1) simulates an infinite-depth refinement network while only requiring parameters of single residual block; 2) produces high-level equilibrium instance features of global receptive field; 3) serves as a plug-and-play general module easily extended to most object recognition frameworks. Experiments on the COCO and YouTube-VIS benchmarks show that our IFR achieves improved performance on state-of-the-art image/video instance segmentation frameworks, while reducing the parameter burden (e.g.1% AP improvement on Mask R-CNN with only 30.0% parameters in mask head). Code is made available at https://github.com/lufanma/IFR.git
翻訳日:2021-12-10 15:00:35 公開日:2021-12-09
# Auto-X3D:Finer-Grained Neural Architecture Searchによる超効率的なビデオ理解

Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search ( http://arxiv.org/abs/2112.04710v1 )

ライセンス: Link先を確認
Yifan Jiang, Xinyu Gong, Junru Wu, Humphrey Shi, Zhicheng Yan, Zhangyang Wang(参考訳) 効率的なビデオアーキテクチャは、限られたコンピューティングリソースを持つデバイスにビデオ認識システムをデプロイする鍵となる。 残念ながら、既存のビデオアーキテクチャはしばしば計算集約的であり、そのような用途には適していない。 最近のX3D研究は、空間、時間、幅、深さなどの複数の軸に沿って手作りの画像アーキテクチャを拡張することで、効率的なビデオモデルの新たなファミリーを提示している。 概念的には大きな空間で動作するが、x3dは一度に一つの軸を探索し、空間を十分に探索しない30のアーキテクチャの小さなセットを探索するだけである。 本稿では,既存の2次元アーキテクチャをバイパスし,ブロックタイプ,フィルタ数,拡張比,アテンションブロックを共同で探索する,きめ細かい空間の3次元アーキテクチャを直接探索する。 このような大きな空間を効率的に探索するために確率論的ニューラルネットワーク探索法を採用する。 KineticsとSomething-V2ベンチマークによる評価では、AutoX3DモデルはFLOPの精度が1.3%まで向上し、同様の性能に達すると計算コストがx1.74まで削減された。

Efficient video architecture is the key to deploying video recognition systems on devices with limited computing resources. Unfortunately, existing video architectures are often computationally intensive and not suitable for such applications. The recent X3D work presents a new family of efficient video models by expanding a hand-crafted image architecture along multiple axes, such as space, time, width, and depth. Although operating in a conceptually large space, X3D searches one axis at a time, and merely explored a small set of 30 architectures in total, which does not sufficiently explore the space. This paper bypasses existing 2D architectures, and directly searched for 3D architectures in a fine-grained space, where block type, filter number, expansion ratio and attention block are jointly searched. A probabilistic neural architecture search method is adopted to efficiently search in such a large space. Evaluations on Kinetics and Something-Something-V2 benchmarks confirm our AutoX3D models outperform existing ones in accuracy up to 1.3% under similar FLOPs, and reduce the computational cost up to x1.74 when reaching similar performance.
翻訳日:2021-12-10 15:00:13 公開日:2021-12-09
# 低照度ビジョンのためのネステッドシーンモデリングと協調的アーキテクチャ探索による学習

Learning with Nested Scene Modeling and Cooperative Architecture Search for Low-Light Vision ( http://arxiv.org/abs/2112.04719v1 )

ライセンス: Link先を確認
Risheng Liu and Long Ma and Tengyu Ma and Xin Fan and Zhongxuan Luo(参考訳) 低照度シーンから撮影された画像は、視認性、カラーキャスト、集中雑音など、深刻な劣化に悩まされることが多い。 これらの要因は画質に影響を与えるだけでなく、下流の低照度(LLV)アプリケーションの性能も低下させる。 低照度画像の視覚品質を高めるために,様々なディープラーニング手法が提案されている。 しかし、これらのアプローチは主に適切な低光度モデルを得るために重要なアーキテクチャ工学に依存しており、しばしば高い計算負荷に苦しむ。 さらに、他のLLVを扱うためにこれらの拡張テクニックを拡張することは依然として困難である。 上記の問題に部分的に対処するために、我々は、低照度拡張タスクに対処できるだけでなく、他のより困難な下流視覚アプリケーションに対処する柔軟性を持つ一般的な学習フレームワークであるRetinex-inspired Unrolling with Architecture Search (RUAS)を確立する。 具体的には、まずネスト最適化の定式化とアンロール戦略を併用して、一連のLLVタスクの基本原理について検討する。 さらに,RUASの特定のシーンやタスクアーキテクチャを協調的に探索する,異なる戦略を構築する。 最後に、低レベルと高レベルの両方のllvアプリケーション(例:強化、検出、セグメンテーション)にruasを適用する方法を示します。 広範な実験は、ruasの柔軟性、有効性、効率性を検証する。

Images captured from low-light scenes often suffer from severe degradations, including low visibility, color cast and intensive noises, etc. These factors not only affect image qualities, but also degrade the performance of downstream Low-Light Vision (LLV) applications. A variety of deep learning methods have been proposed to enhance the visual quality of low-light images. However, these approaches mostly rely on significant architecture engineering to obtain proper low-light models and often suffer from high computational burden. Furthermore, it is still challenging to extend these enhancement techniques to handle other LLVs. To partially address above issues, we establish Retinex-inspired Unrolling with Architecture Search (RUAS), a general learning framework, which not only can address low-light enhancement task, but also has the flexibility to handle other more challenging downstream vision applications. Specifically, we first establish a nested optimization formulation, together with an unrolling strategy, to explore underlying principles of a series of LLV tasks. Furthermore, we construct a differentiable strategy to cooperatively search specific scene and task architectures for RUAS. Last but not least, we demonstrate how to apply RUAS for both low- and high-level LLV applications (e.g., enhancement, detection and segmentation). Extensive experiments verify the flexibility, effectiveness, and efficiency of RUAS.
翻訳日:2021-12-10 14:59:53 公開日:2021-12-09
# HBReID: 再識別の難しいバッチ

HBReID: Harder Batch for Re-identification ( http://arxiv.org/abs/2112.04761v1 )

ライセンス: Link先を確認
Wen Li, Furong Xu, Jianan Zhao, Ruobing Zheng, Cheng Zou, Meng Wang, Yuan Cheng(参考訳) トリプルト損失はReIDタスクにおいて広く採用されている損失関数であり、最も強い正のペアを閉じ、最も強い負のペアを遠くに押し出す。 しかし、選択されたサンプルは世界で一番難しいものではなく、パフォーマンスに影響するミニバッチでのみ最も難しい。 本報告では, 世界規模で最も硬い試料を採掘し, トリプルトを困難にする方法を提案する。 より具体的には、最も類似したクラスが同じミニバッチに選択され、類似したクラスがさらにプッシュされる。 また、シーン分類器と対向的損失とからなる対向的シーン除去モジュールを用いてシーン不変の特徴表現を学習する。 データセットMSMT17を用いて実験を行い,その有効性を検証し,提案手法は従来の手法を全て越えて最先端の結果を設定した。

Triplet loss is a widely adopted loss function in ReID task which pulls the hardest positive pairs close and pushes the hardest negative pairs far away. However, the selected samples are not the hardest globally, but the hardest only in a mini-batch, which will affect the performance. In this report, a hard batch mining method is proposed to mine the hardest samples globally to make triplet harder. More specifically, the most similar classes are selected into a same mini-batch so that the similar classes could be pushed further away. Besides, an adversarial scene removal module composed of a scene classifier and an adversarial loss is used to learn scene invariant feature representations. Experiments are conducted on dataset MSMT17 to prove the effectiveness, and our method surpasses all of the previous methods and sets state-of-the-art result.
翻訳日:2021-12-10 14:59:31 公開日:2021-12-09
# 事象境界検出のための多層距離差マップの進歩的注意

Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection ( http://arxiv.org/abs/2112.04771v1 )

ライセンス: Link先を確認
Jiaqi Tang, Zhaoyang Liu, Chen Qian, Wayne Wu, Limin Wang(参考訳) ジェネリックイベント境界検出は,人間が自然にイベント境界を知覚する瞬間を検出することを目的とした,ビデオ理解における重要な課題である。 このタスクの主な課題は、さまざまなイベント境界の時間的変動を認識することである。 そこで本稿では,効率的なエンドツーエンド学習フレームワーク(ddm-net)を提案する。 イベントバウンダリの多様性と複雑なセマンティクスに取り組むために、注目すべき改善点は3つある。 まず,空間と時間の多段階的特徴を格納する特徴バンクを構築し,差分計算を複数スケールで行う。 第2に,前手法の不適切な時空間モデリングを緩和するために,ddmを用いて運動パターンの包括的特徴付けを行う。 最後に,多レベルDDMの進行的注意を利用して外観と動きの手がかりを共同で収集する。 その結果、ddm-netは、それぞれkinetics-gebdベンチマークとtaposベンチマークで14%と8%の大幅な向上を達成し、ベルやホイッスルなしでloveu challenge@cvpr 2021の優勝ソリューションを上回っている。 その結果、よりリッチな動き表現とより洗練された集約の有効性が示され、汎用的な事象境界検出の多様性を扱うことができる。 私たちのコードはもうすぐ利用可能になるでしょう。

Generic event boundary detection is an important yet challenging task in video understanding, which aims at detecting the moments where humans naturally perceive event boundaries. The main challenge of this task is perceiving various temporal variations of diverse event boundaries. To this end, this paper presents an effective and end-to-end learnable framework (DDM-Net). To tackle the diversity and complicated semantics of event boundaries, we make three notable improvements. First, we construct a feature bank to store multi-level features of space and time, prepared for difference calculation at multiple scales. Second, to alleviate inadequate temporal modeling of previous methods, we present dense difference maps (DDM) to comprehensively characterize the motion pattern. Finally, we exploit progressive attention on multi-level DDM to jointly aggregate appearance and motion clues. As a result, DDM-Net respectively achieves a significant boost of 14% and 8% on Kinetics-GEBD and TAPOS benchmark, and outperforms the top-1 winner solution of LOVEU Challenge@CVPR 2021 without bells and whistles. The state-of-the-art result demonstrates the effectiveness of richer motion representation and more sophisticated aggregation, in handling the diversity of generic event boundary detection. Our codes will be made available soon.
翻訳日:2021-12-10 14:58:16 公開日:2021-12-09
# ランク模倣と予測誘導特徴模倣による物体検出のための知識蒸留

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation ( http://arxiv.org/abs/2112.04840v1 )

ライセンス: Link先を確認
Gang Li, Xiang Li, Yujie Wang, Shanshan Zhang, Yichao Wu, Ding Liang(参考訳) 知識蒸留(KD)は、面倒な教師モデルからコンパクトな学生モデルに情報を継承し、モデル圧縮と加速を実現するために広く使われている技術である。 画像分類と比較すると、オブジェクト検出はより複雑なタスクであり、オブジェクト検出のための特定のkdメソッドを設計することは自明ではない。 本研究は,教師と生徒の行動差を詳細に研究し,まず,教師と生徒が検出した候補箱を全く異なるランクでランク付けし,精度の相違をもたらす2つの興味深い観察結果を得た。 第2に,教師と生徒間の特徴応答差と予測差の間には大きなギャップがあり,教師のすべての特徴マップを等しく模倣することが,生徒の精度を向上させるための準最適選択であることを示す。 2つの観測結果に基づいて, 1段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。 rmは教師の候補ボックスのランクを、従来のソフトラベル蒸留を一貫して上回る新しい知識として取り上げている。 PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。 MS COCOとPASCAL VOCのベンチマークでは,バックボーンの異なる様々な検出器で広範囲に実験を行い,本手法の有効性を検証した。 具体的には、ResNet50のRetinaNetはMS COCOで40.4%のmAPを達成しており、これはベースラインよりも3.5%高い。

Knowledge Distillation (KD) is a widely-used technology to inherit information from cumbersome teacher models to compact student models, consequently realizing model compression and acceleration. Compared with image classification, object detection is a more complex task, and designing specific KD methods for object detection is non-trivial. In this work, we elaborately study the behaviour difference between the teacher and student detection models, and obtain two intriguing observations: First, the teacher and student rank their detected candidate boxes quite differently, which results in their precision discrepancy. Second, there is a considerable gap between the feature response differences and prediction differences between teacher and student, indicating that equally imitating all the feature maps of the teacher is the sub-optimal choice for improving the student's accuracy. Based on the two observations, we propose Rank Mimicking (RM) and Prediction-guided Feature Imitation (PFI) for distilling one-stage detectors, respectively. RM takes the rank of candidate boxes from teachers as a new form of knowledge to distill, which consistently outperforms the traditional soft label distillation. PFI attempts to correlate feature differences with prediction differences, making feature imitation directly help to improve the student's accuracy. On MS COCO and PASCAL VOC benchmarks, extensive experiments are conducted on various detectors with different backbones to validate the effectiveness of our method. Specifically, RetinaNet with ResNet50 achieves 40.4% mAP in MS COCO, which is 3.5% higher than its baseline, and also outperforms previous KD methods.
翻訳日:2021-12-10 14:57:51 公開日:2021-12-09
# pra-net:3dポイントクラウド解析のためのポイントリレーションアウェアネットワーク

PRA-Net: Point Relation-Aware Network for 3D Point Cloud Analysis ( http://arxiv.org/abs/2112.04903v1 )

ライセンス: Link先を確認
Silin Cheng, Xiwu Chen, Xinwei He, Zhe Liu, Xiang Bai(参考訳) 地域内コンテキストと地域間関係の学習は、ポイントクラウド分析のための特徴表現を強化するための2つの効果的な戦略である。 しかし、ポイントクラウド表現のための2つの戦略を統合することは、既存の手法では完全に強調されない。 そこで本研究では,地域内構造学習 (ISL) モジュールと地域間関係学習 (IRL) モジュールからなる新しいフレームワークであるPoint Relation-Aware Network (PRA-Net) を提案する。 ISLモジュールは、局所的な構造情報をポイント特徴に動的に統合し、IRLモジュールは、微分可能な領域分割スキームと代表点ベースの戦略により、地域間関係を適応的かつ効率的にキャプチャする。 PRA-Netの有効性と一般化能力を検証するために, 形状分類, キーポイント推定, 部分分割を含む複数の3次元ベンチマーク実験を行った。 コードはhttps://github.com/XiwuChen/PRA-Netで入手できる。

Learning intra-region contexts and inter-region relations are two effective strategies to strengthen feature representations for point cloud analysis. However, unifying the two strategies for point cloud representation is not fully emphasized in existing methods. To this end, we propose a novel framework named Point Relation-Aware Network (PRA-Net), which is composed of an Intra-region Structure Learning (ISL) module and an Inter-region Relation Learning (IRL) module. The ISL module can dynamically integrate the local structural information into the point features, while the IRL module captures inter-region relations adaptively and efficiently via a differentiable region partition scheme and a representative point-based strategy. Extensive experiments on several 3D benchmarks covering shape classification, keypoint estimation, and part segmentation have verified the effectiveness and the generalization ability of PRA-Net. Code will be available at https://github.com/XiwuChen/PRA-Net .
翻訳日:2021-12-10 14:57:25 公開日:2021-12-09
# CaSP: 検出とセグメンテーションのためのクラス非依存セミスーパートレーニング

CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and Segmentation ( http://arxiv.org/abs/2112.04966v1 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Zhe Lin, Jiuxiang Gu, Fengyun Rao, Dian Li, Weidong Guo, Zhen Wen, Jiaya Jia(参考訳) インスタンスレベルの検出・分離性能を向上させるため、既存の自己教師型および半教師型手法は、ラベルなしデータから非常にタスク非関連またはタスク固有のトレーニング信号を抽出する。 これらの2つのアプローチは、タスク固有性スペクトルの2つの極端において、タスク性能に最適であると主張する。 タスク固有のトレーニング信号が少なすぎると、下流のタスクのグランドトルースラベルに過度に適合するが、逆はグランドトルースラベルに過度に適合する。 そこで本研究では,未ラベルデータから学習信号を抽出する際のタスク固有性バランスを改善するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。 半教師付き学習と比較して、CaSPは擬似ラベルのクラス情報を無視し、タスク非ラベルデータのみを使用する個別の事前学習段階を有することにより、訓練信号のタスク特異性を減少させる。 一方、caspはbox/maskレベルの擬似ラベルを利用することで、適切なタスク特異性を保持します。 その結果、下流タスクで微調整された場合、事前訓練されたモデルは、接地ラベルへの不適合/オーバーフィットを回避できる。 我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の性能向上を達成した。 我々の事前訓練されたモデルは、他の検出およびセグメンテーションタスク/フレームワークへの優れた転送可能性を示す。

To improve instance-level detection/segmentation performance, existing self-supervised and semi-supervised methods extract either very task-unrelated or very task-specific training signals from unlabeled data. We argue that these two approaches, at the two extreme ends of the task-specificity spectrum, are suboptimal for the task performance. Utilizing too little task-specific training signals causes underfitting to the ground-truth labels of downstream tasks, while the opposite causes overfitting to the ground-truth labels. To this end, we propose a novel Class-agnostic Semi-supervised Pretraining (CaSP) framework to achieve a more favorable task-specificity balance in extracting training signals from unlabeled data. Compared to semi-supervised learning, CaSP reduces the task specificity in training signals by ignoring class information in the pseudo labels and having a separate pretraining stage that uses only task-unrelated unlabeled data. On the other hand, CaSP preserves the right amount of task specificity by leveraging box/mask-level pseudo labels. As a result, our pretrained model can better avoid underfitting/overfitting to ground-truth labels when finetuned on the downstream task. Using 3.6M unlabeled data, we achieve a remarkable performance gain of 4.7% over ImageNet-pretrained baseline on object detection. Our pretrained model also demonstrates excellent transferability to other detection and segmentation tasks/frameworks.
翻訳日:2021-12-10 14:57:07 公開日:2021-12-09
# AdaStereo: 効率的なドメイン適応ステレオマッチングアプローチ

AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach ( http://arxiv.org/abs/2112.04974v1 )

ライセンス: Link先を確認
Xiao Song, Guorun Yang, Xinge Zhu, Hui Zhou, Yuexin Ma, Zhe Wang, Jianping Shi(参考訳) 近年、ステレオマッチングベンチマークのレコードは、エンドツーエンドの格差ネットワークによって常に壊れている。 しかし、これらの深層モデルのドメイン適応能力は非常に限られている。 このような問題に対処するために,我々は,深層ステレオマッチングネットワークにおけるマルチレベル表現の整合を目的とした,adastereoと呼ばれる新しいドメイン適応アプローチを提案する。 従来の方法と比較して、AdaStereoはより標準的で完全で効果的なドメイン適応パイプラインを実現しています。 まず,入力画像レベルアライメントのための非逆プログレッシブカラー転送アルゴリズムを提案する。 第二に、内部特徴量アライメントのための効率的なパラメータフリーコスト正規化層を設計する。 最後に, 出力空間の隙間を狭めるために, 高度に関連する補助課題である自己教師付き咬合認識再構成を提案する。 提案するモジュールの有効性を検証するため,集中的アブレーション研究とブレークダウン比較を行った。 私たちのAdaStereoモデルは、追加の推論オーバーヘッドがなく、トレーニングの複雑さがわずかに増加するだけで、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメインパフォーマンスを実現しています。 さらに、さらに2つの評価基準に基づき、ドメイン適応型ステレオマッチングパイプラインの優位性がさらに多くの観点から明らかにされる。 最後に,本手法は様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に統合可能であることを示す。

Recently, records on stereo matching benchmarks are constantly broken by end-to-end disparity networks. However, the domain adaptation ability of these deep models is quite limited. Addressing such problem, we present a novel domain-adaptive approach called AdaStereo that aims to align multi-level representations for deep stereo matching networks. Compared to previous methods, our AdaStereo realizes a more standard, complete and effective domain adaptation pipeline. Firstly, we propose a non-adversarial progressive color transfer algorithm for input image-level alignment. Secondly, we design an efficient parameter-free cost normalization layer for internal feature-level alignment. Lastly, a highly related auxiliary task, self-supervised occlusion-aware reconstruction is presented to narrow the gaps in output space. We perform intensive ablation studies and break-down comparisons to validate the effectiveness of each proposed module. With no extra inference overhead and only a slight increase in training complexity, our AdaStereo models achieve state-of-the-art cross-domain performance on multiple benchmarks, including KITTI, Middlebury, ETH3D and DrivingStereo, even outperforming some state-of-the-art disparity networks finetuned with target-domain ground-truths. Moreover, based on two additional evaluation metrics, the superiority of our domain-adaptive stereo matching pipeline is further uncovered from more perspectives. Finally, we demonstrate that our method is robust to various domain adaptation settings, and can be easily integrated into quick adaptation application scenarios and real-world deployments.
翻訳日:2021-12-10 14:56:41 公開日:2021-12-09
# 事故シーンセグメンテーションのためのイベント駆動動的コンテキストの探索

Exploring Event-driven Dynamic Context for Accident Scene Segmentation ( http://arxiv.org/abs/2112.05006v1 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen(参考訳) 交通シーンのエッジケースにおけるセマンティックセグメンテーションの堅牢性は、インテリジェント交通の安全性にとって重要な要素である。 しかし、交通事故の致命的な場面のほとんどは非常にダイナミックで、以前は見えず、セマンティックセグメンテーションの手法の性能を著しく損なう。 さらに、高速運転時の従来のカメラの遅延は、時間次元の文脈情報をさらに減少させる。 そこで本稿では, 交通事故, 衝突, 変形, 転倒などの場合であっても, 時間分解能の高いイベントベースデータから動的コンテキストを抽出し, 静的なRGB画像を改善することを提案する。 さらに,交通事故のセグメンテーション性能を評価するために,事故からのさまざまな重要なシナリオを含む,ピクセル単位のアノテートされた事故データセットdada-segを提供する。 本研究は,事故時の高速移動フォアグラウンド(crash objects)の細かな動きを保存し,有害な状況下での意味セグメンテーションを安定化するための補完的情報を提供できることを示す。 提案手法は,20以上の最先端セマンティクスセグメンテーション法を越え,提案する事故データセットで8.2%のパフォーマンス向上を達成している。 この提案は、Cityscapes、KITTI-360、BDD、ApolloScapeなど、複数のソースデータベースで学んだモデルに対して一貫して有効であることが示されている。

The robustness of semantic segmentation on edge cases of traffic scene is a vital factor for the safety of intelligent transportation. However, most of the critical scenes of traffic accidents are extremely dynamic and previously unseen, which seriously harm the performance of semantic segmentation methods. In addition, the delay of the traditional camera during high-speed driving will further reduce the contextual information in the time dimension. Therefore, we propose to extract dynamic context from event-based data with a higher temporal resolution to enhance static RGB images, even for those from traffic accidents with motion blur, collisions, deformations, overturns, etc. Moreover, in order to evaluate the segmentation performance in traffic accidents, we provide a pixel-wise annotated accident dataset, namely DADA-seg, which contains a variety of critical scenarios from traffic accidents. Our experiments indicate that event-based data can provide complementary information to stabilize semantic segmentation under adverse conditions by preserving fine-grained motion of fast-moving foreground (crash objects) in accidents. Our approach achieves +8.2% performance gain on the proposed accident dataset, exceeding more than 20 state-of-the-art semantic segmentation methods. The proposal has been demonstrated to be consistently effective for models learned on multiple source databases including Cityscapes, KITTI-360, BDD, and ApolloScape.
翻訳日:2021-12-10 14:56:17 公開日:2021-12-09
# エッジコンピューティング可能な歩行者検出のための照明と温度対応マルチスペクトルネットワーク

Illumination and Temperature-Aware Multispectral Networks for Edge-Computing-Enabled Pedestrian Detection ( http://arxiv.org/abs/2112.05053v1 )

ライセンス: Link先を確認
Yifan Zhuang, Ziyuan Pu, Jia Hu, Yinhai Wang(参考訳) 高度な運転支援システムやスマート歩行者横断歩道システムなど、歩行者の安全と移動に関するインテリジェントな交通システムでは、正確で効率的な歩行者検出が不可欠である。 歩行者検出手法のすべてにおいて,視覚に基づく検出手法が先行研究で最も効果的であることが示されている。 しかし、既存の視覚に基づく歩行者検出アルゴリズムには、その実装を制限する2つの制限がある。 これらの課題に対処するために, 高精度かつ効率的な歩行者検出のための軽量照明・温度対応マルチスペクトルネットワーク(IT-MN)を提案する。 提案したIT-MNは効率的な1段検出器である。 環境要因の影響を調節し、感度の精度を高めるため、提案したIT-MNによって画像と熱画像データを融合させ、視覚的画質が制限された場合に有用な情報を強化する。 また,画像融合性能を最適化するために,革新的で効果的なレイトフュージョン戦略も開発されている。 提案したモデルをエッジコンピューティングに実装可能にするため,モデル量子化を適用してモデルサイズを75%削減し,推論時間を著しく短縮する。 提案アルゴリズムは車載カメラで収集した公開データセットを用いて,選択した最先端アルゴリズムと比較することで評価を行う。 提案アルゴリズムは,GPU上の画像ペアあたり14.19%,0.03秒の低ミス率と推論時間を実現する。 また、量子化it-mnは、エッジデバイス上で画像ペアあたり0.21秒の推論時間を達成し、より効率的な歩行者検出アルゴリズムとしてエッジデバイスに提案モデルをデプロイする可能性を示す。

Accurate and efficient pedestrian detection is crucial for the intelligent transportation system regarding pedestrian safety and mobility, e.g., Advanced Driver Assistance Systems, and smart pedestrian crosswalk systems. Among all pedestrian detection methods, vision-based detection method is demonstrated to be the most effective in previous studies. However, the existing vision-based pedestrian detection algorithms still have two limitations that restrict their implementations, those being real-time performance as well as the resistance to the impacts of environmental factors, e.g., low illumination conditions. To address these issues, this study proposes a lightweight Illumination and Temperature-aware Multispectral Network (IT-MN) for accurate and efficient pedestrian detection. The proposed IT-MN is an efficient one-stage detector. For accommodating the impacts of environmental factors and enhancing the sensing accuracy, thermal image data is fused by the proposed IT-MN with visual images to enrich useful information when visual image quality is limited. In addition, an innovative and effective late fusion strategy is also developed to optimize the image fusion performance. To make the proposed model implementable for edge computing, the model quantization is applied to reduce the model size by 75% while shortening the inference time significantly. The proposed algorithm is evaluated by comparing with the selected state-of-the-art algorithms using a public dataset collected by in-vehicle cameras. The results show that the proposed algorithm achieves a low miss rate and inference time at 14.19% and 0.03 seconds per image pair on GPU. Besides, the quantized IT-MN achieves an inference time of 0.21 seconds per image pair on the edge device, which also demonstrates the potentiality of deploying the proposed model on edge devices as a highly efficient pedestrian detection algorithm.
翻訳日:2021-12-10 14:55:53 公開日:2021-12-09
# BLT:制御可能なレイアウト生成用双方向レイアウト変換器

BLT: Bidirectional Layout Transformer for Controllable Layout Generation ( http://arxiv.org/abs/2112.05112v1 )

ライセンス: Link先を確認
Xiang Kong, Lu Jiang, Huiwen Chang, Han Zhang, Yuan Hao, Haifeng Gong, Irfan Essa(参考訳) ビジュアルレイアウトの作成はグラフィックデザインの重要なステップです。 このようなレイアウトの自動生成は、スケール可能で多様なビジュアルデザインを求めるときに重要です。 事前には、自動レイアウト生成の作業は、特定の問題に対するユーザのニーズを無視しながら、モデルがレイアウトを生成する非条件生成に焦点を当てている。 条件付きレイアウト生成を促進するために,双方向レイアウトトランスであるBLTを導入する。 BLTは、ユーザが入力を満足し、レイアウトを反復的に洗練するドラフトレイアウトを生成するため、自動回帰デコーディングとは異なる。 様々な忠実度指標を用いて,複数のベンチマークで提案モデルを検証する。 本稿では,最先端のレイアウトトランスフォーマモデルにおける2つの重要な進歩を示す。 まず,制御可能なレイアウト生成を実現するために,レイアウトトランスフォーマティブを付与する。 第2に、自動回帰復号における線形推論時間を一定の複雑さに削減し、4x-10倍の高速化を実現した。

Creating visual layouts is an important step in graphic design. Automatic generation of such layouts is important as we seek scale-able and diverse visual designs. Prior works on automatic layout generation focus on unconditional generation, in which the models generate layouts while neglecting user needs for specific problems. To advance conditional layout generation, we introduce BLT, a bidirectional layout transformer. BLT differs from autoregressive decoding as it first generates a draft layout that satisfies the user inputs and then refines the layout iteratively. We verify the proposed model on multiple benchmarks with various fidelity metrics. Our results demonstrate two key advances to the state-of-the-art layout transformer models. First, our model empowers layout transformers to fulfill controllable layout generation. Second, our model slashes the linear inference time in autoregressive decoding into a constant complexity, thereby achieving 4x-10x speedups in generating a layout at inference time.
翻訳日:2021-12-10 14:55:27 公開日:2021-12-09
# 行動映像における自己監督型キーポイント発見

Self-Supervised Keypoint Discovery in Behavioral Videos ( http://arxiv.org/abs/2112.05121v1 )

ライセンス: Link先を確認
Jennifer J. Sun, Serim Ryou, Roni Goldshmid, Brandon Weissbourd, John Dabiri, David J. Anderson, Ann Kennedy, Yisong Yue, Pietro Perona(参考訳) そこで本研究では,無標識行動ビデオからエージェントの姿勢と構造を学ぶ手法を提案する。 ビヘイビアエージェントが行動ビデオの主な移動源であるという観察から,映像フレーム間の差異を再現するために,幾何学的ボトルネックを持つエンコーダ・デコーダアーキテクチャを用いる。 移動領域のみに注目することで,キーポイントやバウンディングボックスなどの手動アノテーションを必要とせずに,直接入力ビデオに作用する。 種々のエージェントタイプ(マウス,フライ,ヒト,クラゲ,木)の実験により,本手法の汎用性を実証し,本手法で発見されたキーポイントが意味的に意味のある身体部分を表すことを明らかにする。 さらに,本手法は,動作分類などの下流タスクにおける教師付きキーポイントに匹敵する性能を達成し,モデルトレーニングのvis-a-vis教師付き手法のコストを劇的に削減できることを示す。

We propose a method for learning the posture and structure of agents from unlabelled behavioral videos. Starting from the observation that behaving agents are generally the main sources of movement in behavioral videos, our method uses an encoder-decoder architecture with a geometric bottleneck to reconstruct the difference between video frames. By focusing only on regions of movement, our approach works directly on input videos without requiring manual annotations, such as keypoints or bounding boxes. Experiments on a variety of agent types (mouse, fly, human, jellyfish, and trees) demonstrate the generality of our approach and reveal that our discovered keypoints represent semantically meaningful body parts, which achieve state-of-the-art performance on keypoint regression among self-supervised methods. Additionally, our discovered keypoints achieve comparable performance to supervised keypoints on downstream tasks, such as behavior classification, suggesting that our method can dramatically reduce the cost of model training vis-a-vis supervised methods.
翻訳日:2021-12-10 14:55:13 公開日:2021-12-09
# IterMVS: 効率的なマルチビューステレオの反復確率推定

IterMVS: Iterative Probability Estimation for Efficient Multi-View Stereo ( http://arxiv.org/abs/2112.05126v1 )

ライセンス: Link先を確認
Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Marc Pollefeys(参考訳) 我々は高解像度マルチビューステレオのための新しいデータ駆動方式であるIterMVSを提案する。 隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。 マルチスケールのマッチング情報を取り込み、複数のイテレーションでこれらの分布を洗練し、深さと信頼性を推定する。 深度マップを抽出するために,従来の分類と回帰を新しい方法で組み合わせる。 DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。 メモリとランタイムの両方において最も効率的な手法である一方、我々のモデルはDTU上での競合性能と、タンク&テンプルやETH3Dでのより優れた一般化能力を達成する。 コードはhttps://github.com/fangjinhuawang/itermvsで入手できる。

We present IterMVS, a new data-driven method for high-resolution multi-view stereo. We propose a novel GRU-based estimator that encodes pixel-wise probability distributions of depth in its hidden state. Ingesting multi-scale matching information, our model refines these distributions over multiple iterations and infers depth and confidence. To extract the depth maps, we combine traditional classification and regression in a novel manner. We verify the efficiency and effectiveness of our method on DTU, Tanks&Temples and ETH3D. While being the most efficient method in both memory and run-time, our model achieves competitive performance on DTU and better generalization ability on Tanks&Temples as well as ETH3D than most state-of-the-art methods. Code is available at https://github.com/FangjinhuaWang/IterMVS.
翻訳日:2021-12-10 14:54:42 公開日:2021-12-09
# gansを用いたマルチモーダル条件付き画像合成

Multimodal Conditional Image Synthesis with Product-of-Experts GANs ( http://arxiv.org/abs/2112.05130v1 )

ライセンス: Link先を確認
Xun Huang, Arun Mallya, Ting-Chun Wang, Ming-Yu Liu(参考訳) 既存の条件付き画像合成フレームワークは、テキスト、セグメンテーション、スケッチ、スタイル参照など、単一のモードでユーザ入力に基づいて画像を生成する。 利用可能な時にマルチモーダルなユーザ入力を活用できないことが多いため、実用性が低下する。 この制限に対処するために,複数の入力モダリティやサブセットに条件付き画像を合成する,Product-of-Experts Generative Adversarial Networks (PoE-GAN) フレームワークを提案する。 PoE-GANは、製品・オブ・エキスパート・ジェネレータとマルチモーダル・マルチスケール・プロジェクション・ディミネータから構成される。 PoE-GANは、慎重に設計されたトレーニングスキームを通じて、高品質で多様な画像の合成を学ぶ。 マルチモーダル条件画像合成における技術の進歩に加えて、PoE-GANは単モーダル条件画像合成におけるテストにおいて、最も優れた単モーダル条件画像合成手法よりも優れている。 プロジェクトのWebサイトはhttps://deepimagination.github.io/PoE-GAN で公開されている。

Existing conditional image synthesis frameworks generate images based on user inputs in a single modality, such as text, segmentation, sketch, or style reference. They are often unable to leverage multimodal user inputs when available, which reduces their practicality. To address this limitation, we propose the Product-of-Experts Generative Adversarial Networks (PoE-GAN) framework, which can synthesize images conditioned on multiple input modalities or any subset of them, even the empty set. PoE-GAN consists of a product-of-experts generator and a multimodal multiscale projection discriminator. Through our carefully designed training scheme, PoE-GAN learns to synthesize images with high quality and diversity. Besides advancing the state of the art in multimodal conditional image synthesis, PoE-GAN also outperforms the best existing unimodal conditional image synthesis approaches when tested in the unimodal setting. The project website is available at https://deepimagination.github.io/PoE-GAN .
翻訳日:2021-12-10 14:54:28 公開日:2021-12-09
# ファウショット行動認識のための時空間関係モデリング

Spatio-temporal Relation Modeling for Few-shot Action Recognition ( http://arxiv.org/abs/2112.05132v1 )

ライセンス: Link先を確認
Anirudh Thatipelli, Sanath Narayan, Salman Khan, Rao Muhammad Anwer, Fahad Shahbaz Khan, Bernard Ghanem(参考訳) 本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴識別性を向上する,新しい数発アクション認識フレームワークSTRMを提案する。 このアプローチの焦点は、空間的および時間的コンテキストを専用のパッチレベルおよびグローバルフレームレベルの機能強化サブモジュールに集約する、新たな時空間強化モジュールである。 局所パッチレベルのエンリッチメントは、アクションの外観ベースの特性をキャプチャする。 一方,グローバルなフレームレベルエンリッチメントは時間的コンテキストを明示的にエンコードし,時間とともに関連するオブジェクトの特徴をキャプチャする。 結果として得られる時空間的な表現を利用して、クエリとサポートアクションサブシーケンス間の関係マッチングを学習する。 さらに,提案フレームワークの異なる段階における特徴学習を強化することで,クラス固有の特徴識別性を高めるために,パッチレベルのリッチ機能に対するクエリクラス類似度分類器を導入する。 Kinetics、SSv2、HMDB51、UCF101の4つの数発のアクション認識ベンチマークで実験が行われた。 広範なアブレーション研究により,提案する貢献の利点が明らかになった。 さらに,本手法は4つのベンチマークすべてに新たな最先端を設定する。 難解なssv2ベンチマークでは,本手法は文献上最良の手法と比較して,分類精度が3.5%と絶対的に向上した。 私たちのコードとモデルは公開されます。

We propose a novel few-shot action recognition framework, STRM, which enhances class-specific feature discriminability while simultaneously learning higher-order temporal representations. The focus of our approach is a novel spatio-temporal enrichment module that aggregates spatial and temporal contexts with dedicated local patch-level and global frame-level feature enrichment sub-modules. Local patch-level enrichment captures the appearance-based characteristics of actions. On the other hand, global frame-level enrichment explicitly encodes the broad temporal context, thereby capturing the relevant object features over time. The resulting spatio-temporally enriched representations are then utilized to learn the relational matching between query and support action sub-sequences. We further introduce a query-class similarity classifier on the patch-level enriched features to enhance class-specific feature discriminability by reinforcing the feature learning at different stages in the proposed framework. Experiments are performed on four few-shot action recognition benchmarks: Kinetics, SSv2, HMDB51 and UCF101. Our extensive ablation study reveals the benefits of the proposed contributions. Furthermore, our approach sets a new state-of-the-art on all four benchmarks. On the challenging SSv2 benchmark, our approach achieves an absolute gain of 3.5% in classification accuracy, as compared to the best existing method in the literature. Our code and models will be publicly released.
翻訳日:2021-12-10 14:54:09 公開日:2021-12-09
# 光現実性駆動シミュレータの共有表現

A Shared Representation for Photorealistic Driving Simulators ( http://arxiv.org/abs/2112.05134v1 )

ライセンス: Link先を確認
Saeed Saadatnejad, Siyuan Li, Taylor Mordan, Alexandre Alahi(参考訳) 強力なシミュレータは、自動運転車の訓練および評価において、現実世界のテストの必要性を著しく低減する。 データ駆動シミュレータは、最近の条件付きジェネレーティブ・アドバイサル・ネットワーク(cGAN)の発展により、高忠実度画像の提供で栄えた。 主な課題は、与えられた制約に従ってフォトリアリスティック画像を合成することである。 本研究では,識別器アーキテクチャを再考し,生成画像の品質を向上させることを提案する。 焦点は、シーンのセグメンテーションマップや人間のポーズなど、意味的な入力によって画像が生成される問題のクラスである。 我々はcGANモデルを成功させ、ジェネレータをより良く誘導する意味認識型識別器を提案する。 我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報を符号化する,共有潜在表現の学習を目指す。 達成された改善は汎用的で、条件付き画像合成のアーキテクチャに適用できるほど単純である。 3つの異なるデータセットにまたがるシーン,構築,ヒューマンシンセシスタスクにおいて,提案手法の強みを示す。 コードはhttps://github.com/vita-epfl/SemDisc.comで入手できる。

A powerful simulator highly decreases the need for real-world tests when training and evaluating autonomous vehicles. Data-driven simulators flourished with the recent advancement of conditional Generative Adversarial Networks (cGANs), providing high-fidelity images. The main challenge is synthesizing photorealistic images while following given constraints. In this work, we propose to improve the quality of generated images by rethinking the discriminator architecture. The focus is on the class of problems where images are generated given semantic inputs, such as scene segmentation maps or human body poses. We build on successful cGAN models to propose a new semantically-aware discriminator that better guides the generator. We aim to learn a shared latent representation that encodes enough information to jointly do semantic segmentation, content reconstruction, along with a coarse-to-fine grained adversarial reasoning. The achieved improvements are generic and simple enough to be applied to any architecture of conditional image synthesis. We demonstrate the strength of our method on the scene, building, and human synthesis tasks across three different datasets. The code is available at https://github.com/vita-epfl/SemDisc.
翻訳日:2021-12-10 14:53:47 公開日:2021-12-09
# 物体検出のためのパラメータ化AP損失の探索

Searching Parameterized AP Loss for Object Detection ( http://arxiv.org/abs/2112.05138v1 )

ライセンス: Link先を確認
Chenxin Tao, Zizhang Li, Xizhou Zhu, Gao Huang, Yong Liu, Jifeng Dai(参考訳) ロス関数はディープネットワークベースの物体検出器の訓練において重要な役割を果たす。 物体検出のための最も広く使われている評価基準は平均精度(AP)であり、局所化と分類サブタスクのパフォーマンスを同時にキャプチャする。 しかし、apメトリックの非微分可能性のため、従来の物体検出器は2つのサブタスクで異なる微分可能損失を採用する。 このようなミスアライメントの問題は、パフォーマンスの低下につながる可能性がある。 これを解決するために、既存の研究はAPメトリックの損失を手動で設計したいと考えている。 本稿では, ap計算において, 非微分可能成分を代用するためにパラメータ化関数を導入する, パラメータ化ap損失を提案する。 したがって、異なるAP近似は統一式におけるパラメータ化関数の族で表される。 次に、パラメータの自動探索アルゴリズムを用いて最適なパラメータを探索する。 COCOベンチマークにおける3つの異なる物体検出器(RetinaNet、Faster R-CNN、Deformable DETR)による大規模な実験は、提案されたパラメータ化AP損失が既存の手作りの損失を一貫して上回ることを示した。 コードはhttps://github.com/fundamentalvision/Parameterized-AP-Lossで公開されている。

Loss functions play an important role in training deep-network-based object detectors. The most widely used evaluation metric for object detection is Average Precision (AP), which captures the performance of localization and classification sub-tasks simultaneously. However, due to the non-differentiable nature of the AP metric, traditional object detectors adopt separate differentiable losses for the two sub-tasks. Such a mis-alignment issue may well lead to performance degradation. To address this, existing works seek to design surrogate losses for the AP metric manually, which requires expertise and may still be sub-optimal. In this paper, we propose Parameterized AP Loss, where parameterized functions are introduced to substitute the non-differentiable components in the AP calculation. Different AP approximations are thus represented by a family of parameterized functions in a unified formula. Automatic parameter search algorithm is then employed to search for the optimal parameters. Extensive experiments on the COCO benchmark with three different object detectors (i.e., RetinaNet, Faster R-CNN, and Deformable DETR) demonstrate that the proposed Parameterized AP Loss consistently outperforms existing handcrafted losses. Code is released at https://github.com/fundamentalvision/Parameterized-AP-Loss.
翻訳日:2021-12-10 14:53:28 公開日:2021-12-09
# 統一グラディエントフレームワークによるシームズ自己監督学習の等価性を探る

Exploring the Equivalence of Siamese Self-Supervised Learning via A Unified Gradient Framework ( http://arxiv.org/abs/2112.05141v1 )

ライセンス: Link先を確認
Chenxin Tao, Honghui Wang, Xizhou Zhu, Jiahua Dong, Shiji Song, Gao Huang, Jifeng Dai(参考訳) 自己教師付き学習は、人間のアノテーションなしで強力な視覚表現を抽出する大きな可能性を示している。 Various works are proposed to deal with self-supervised learning from different perspectives: (1) contrastive learning methods (e.g., MoCo, SimCLR) utilize both positive and negative samples to guide the training direction; (2) asymmetric network methods (e.g., BYOL, SimSiam) get rid of negative samples via the introduction of a predictor network and the stop-gradient operation; (3) feature decorrelation methods (e.g., Barlow Twins, VICReg) instead aim to reduce the redundancy between feature dimensions. これらの手法は、様々な動機から設計した損失関数では、かなり異なるようである。 最終的な精度も異なり、異なるネットワークとトリックが異なる作業で利用される。 本研究では,これらの手法が同一の形式に統一できることを実証する。 損失関数を比較する代わりに、勾配解析を通じて統一式を導出する。 さらに,その性能を比較するために,公正かつ詳細な実験を行う。 これらの手法の間にはほとんどギャップが無く、運動量エンコーダの使用が性能向上の鍵となることが判明した。 この統一フレームワークから,自己教師付き学習のための簡易かつ効果的な勾配形式であるunigradを提案する。 メモリバンクや予測ネットワークは必要ありませんが、最先端のパフォーマンスを達成でき、他のトレーニング戦略を簡単に適用できます。 線形評価と多くの下流タスクに関する大規模な実験も、その効果を示している。 コードは解放される。

Self-supervised learning has shown its great potential to extract powerful visual representations without human annotations. Various works are proposed to deal with self-supervised learning from different perspectives: (1) contrastive learning methods (e.g., MoCo, SimCLR) utilize both positive and negative samples to guide the training direction; (2) asymmetric network methods (e.g., BYOL, SimSiam) get rid of negative samples via the introduction of a predictor network and the stop-gradient operation; (3) feature decorrelation methods (e.g., Barlow Twins, VICReg) instead aim to reduce the redundancy between feature dimensions. These methods appear to be quite different in the designed loss functions from various motivations. The final accuracy numbers also vary, where different networks and tricks are utilized in different works. In this work, we demonstrate that these methods can be unified into the same form. Instead of comparing their loss functions, we derive a unified formula through gradient analysis. Furthermore, we conduct fair and detailed experiments to compare their performances. It turns out that there is little gap between these methods, and the use of momentum encoder is the key factor to boost performance. From this unified framework, we propose UniGrad, a simple but effective gradient form for self-supervised learning. It does not require a memory bank or a predictor network, but can still achieve state-of-the-art performance and easily adopt other training strategies. Extensive experiments on linear evaluation and many downstream tasks also show its effectiveness. Code shall be released.
翻訳日:2021-12-10 14:53:07 公開日:2021-12-09
# GAN-Supervised Dense Visual Alignment

GAN-Supervised Dense Visual Alignment ( http://arxiv.org/abs/2112.05143v1 )

ライセンス: Link先を確認
William Peebles, Jun-Yan Zhu, Richard Zhang, Antonio Torralba, Alexei Efros, Eli Shechtman(参考訳) 本稿では,識別モデル学習のためのフレームワークであるgan-supervised learningと,そのgan生成トレーニングデータを提案する。 我々はこの枠組みを濃密な視覚アライメント問題に適用する。 従来のCongealing法にインスパイアされた我々のGANgealingアルゴリズムは、Spatial Transformerを訓練し、不整合データに基づいて訓練されたGANのランダムなサンプルを共通の目標モードにマッピングする。 提案手法は, 8つのデータセットに結果を示し, それぞれが複雑なデータに適合し, 密接な対応を発見できることを示した。 ガンジアリングは過去の自己教師付き対応アルゴリズムを著しく上回り、いくつかのデータセット上で最先端の教師付き対応アルゴリズムと同等(時にはそれ以上)に実行します。 正確な対応のために、最先端の教師付き手法を最大$3\times$で改善する。 本稿では,gan学習のための拡張現実,画像編集,画像データセットの自動前処理手法の応用例を示す。

We propose GAN-Supervised Learning, a framework for learning discriminative models and their GAN-generated training data jointly end-to-end. We apply our framework to the dense visual alignment problem. Inspired by the classic Congealing method, our GANgealing algorithm trains a Spatial Transformer to map random samples from a GAN trained on unaligned data to a common, jointly-learned target mode. We show results on eight datasets, all of which demonstrate our method successfully aligns complex data and discovers dense correspondences. GANgealing significantly outperforms past self-supervised correspondence algorithms and performs on-par with (and sometimes exceeds) state-of-the-art supervised correspondence algorithms on several datasets -- without making use of any correspondence supervision or data augmentation and despite being trained exclusively on GAN-generated data. For precise correspondence, we improve upon state-of-the-art supervised methods by as much as $3\times$. We show applications of our method for augmented reality, image editing and automated pre-processing of image datasets for downstream GAN training.
翻訳日:2021-12-10 14:52:48 公開日:2021-12-09
# 神経機能プログラム評価に向けて

Towards Neural Functional Program Evaluation ( http://arxiv.org/abs/2112.04630v1 )

ライセンス: Link先を確認
Torsten Scholak and Jonathan Pilault and Joey Velez-Ginorio(参考訳) 本稿では,関数型プログラミング言語のプログラム評価における現在のトランスフォーマーベース言語モデルの有用性について検討する。 意味的に等価なプログラムに対して構文シュガーを制御できる新しいプログラム生成機構を導入する。 t5実験では、神経機能プログラムの評価が驚くほど良好であることが判明し、分布内および分布外テストで90%の正確なプログラムマッチングスコアを達成した。 事前訓練されたT5重みの使用は、ランダム初期化よりも大きな利点がある。 本稿では,関数型プログラムに特有の一般化能力について,型,関数構成,縮小ステップという3つのデータセットを提示,評価する。 コードとデータはhttps://github.com/elementai/neural-interpretersで公開されている。

This paper explores the capabilities of current transformer-based language models for program evaluation of simple functional programming languages. We introduce a new program generation mechanism that allows control over syntactic sugar for semantically equivalent programs. T5 experiments reveal that neural functional program evaluation performs surprisingly well, achieving high 90% exact program match scores for most in-distribution and out-of-distribution tests. Using pretrained T5 weights has significant advantages over random initialization. We present and evaluate on three datasets to study generalization abilities that are specific to functional programs based on: type, function composition, and reduction steps. Code and data are publicly available at https://github.com/ElementAI/neural-interpreters.
翻訳日:2021-12-10 14:52:26 公開日:2021-12-09
# (参考訳) 階層的潜伏混合ポリシーを用いた学習伝達性運動スキル

Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies ( http://arxiv.org/abs/2112.05062v1 )

ライセンス: CC BY 4.0
Dushyant Rao, Fereshteh Sadeghi, Leonard Hasenclever, Markus Wulfmeier, Martina Zambelli, Giulia Vezzani, Dhruva Tirumala, Yusuf Aytar, Josh Merel, Nicolas Heess, and Raia Hadsell(参考訳) 現実世界で動作しているロボットには、多くのタスクやシナリオに効果的に移行し適応できる再利用可能な行動を学ぶことが望ましい。 階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。 既存の作業とは対照的に,本手法では離散変数と連続変数の3段階階層を活用し,高レベルの振る舞いのセットをキャプチャし,それらの実行方法のばらつきを許容する。 提案手法は,連続潜伏変数モデルの柔軟性を維持しつつ,オフラインデータを独立して実行可能な動作に効果的にクラスタリングできることを示す。 得られたスキルは、新しいタスク、目に見えないオブジェクト、および状態からビジョンベースのポリシーで転送および微調整され、既存のスキルおよび模倣ベースの方法と比較して、よりよいサンプル効率と漸近的なパフォーマンスが得られる。 それらは、タスクに関連する州領域の広い領域をカバーするよう指示された探索を奨励し、スパース・リワード(sparse-reward)設定に挑戦するのに最も効果的である。

For robots operating in the real world, it is desirable to learn reusable behaviours that can effectively be transferred and adapted to numerous tasks and scenarios. We propose an approach to learn abstract motor skills from data using a hierarchical mixture latent variable model. In contrast to existing work, our method exploits a three-level hierarchy of both discrete and continuous latent variables, to capture a set of high-level behaviours while allowing for variance in how they are executed. We demonstrate in manipulation domains that the method can effectively cluster offline data into distinct, executable behaviours, while retaining the flexibility of a continuous latent variable model. The resulting skills can be transferred and fine-tuned on new tasks, unseen objects, and from state to vision-based policies, yielding better sample efficiency and asymptotic performance compared to existing skill- and imitation-based methods. We further analyse how and when the skills are most beneficial: they encourage directed exploration to cover large regions of the state space relevant to the task, making them most effective in challenging sparse-reward settings.
翻訳日:2021-12-10 14:51:06 公開日:2021-12-09
# (参考訳) フェデレーション平均ランゲヴィンダイナミクスの収束性について

On Convergence of Federated Averaging Langevin Dynamics ( http://arxiv.org/abs/2112.05120v1 )

ライセンス: CC BY 4.0
Wei Deng, Yi-An Ma, Zhao Song, Qian Zhang, Guang Lin(参考訳) 分散クライアントを用いた不確実性定量化と平均予測のための平均ランゲヴィンアルゴリズム(FA-LD)を提案する。 特に、通常の後続分布を超えて一般化し、モデルの一般クラスを考える。 非I.dデータを用いた強い対流分布に対するFA-LDの理論的保証を開発し、入射雑音と確率勾配雑音、データの均一性、学習速度の変化が収束に与える影響について検討する。 このような分析は、通信コストを最小限に抑えるためにローカル更新の最適選択に光を当てる。 提案手法では,Langevinアルゴリズムの入射雑音により通信効率が低下しない。 さらに、異なるクライアント上で使用される独立ノイズと相関ノイズの両方をFA-LDアルゴリズムで検討した。 フェデレーションと通信コストの間にもトレードオフが存在することも観察します。 ローカルデバイスはフェデレーションネットワークでは不活性になる可能性があるため、部分的なデバイス更新しかできない平均化方式に基づいて収束結果を示す。

We propose a federated averaging Langevin algorithm (FA-LD) for uncertainty quantification and mean predictions with distributed clients. In particular, we generalize beyond normal posterior distributions and consider a general class of models. We develop theoretical guarantees for FA-LD for strongly log-concave distributions with non-i.i.d data and study how the injected noise and the stochastic-gradient noise, the heterogeneity of data, and the varying learning rates affect the convergence. Such an analysis sheds light on the optimal choice of local updates to minimize communication costs. Important to our approach is that the communication efficiency does not deteriorate with the injected noise in the Langevin algorithms. In addition, we examine in our FA-LD algorithm both independent and correlated noise used over different clients. We observe that there is also a trade-off between federation and communication cost there. As local devices may become inactive in the federated network, we also show convergence results based on different averaging schemes where only partial device updates are available.
翻訳日:2021-12-10 14:25:27 公開日:2021-12-09
# 相互対人訓練:一緒に学ぶことは独学よりよい

Mutual Adversarial Training: Learning together is better than going alone ( http://arxiv.org/abs/2112.05005v1 )

ライセンス: Link先を確認
Jiang Liu, Chun Pong Lau, Hossein Souri, Soheil Feizi, Rama Chellappa(参考訳) 近年の研究では、攻撃に対する堅牢性がネットワーク間で転送可能であることが示されている。 言い換えれば、強い教師モデルの助けを借りて、弱いモデルをより堅牢にすることができるのです。 静的教師から学ぶ代わりに、モデルが"一緒に学習"し、"互いに教え合う"ことで、より堅牢性を実現することができるのか? 本稿では,モデル間の相互作用が知識蒸留による堅牢性に与える影響について検討する。 本稿では,複数のモデルが連携して訓練される相互敵訓練(mat)を提案し,敵の事例に関する知識を共有し,ロバスト性の向上を図る。 MATは、ロバストモデルにより、より広い対向的なサンプル空間を探索し、より堅牢な特徴空間と決定境界を見つけることができる。 CIFAR-10 と CIFAR-100 の広範な実験を通じて,MAT がモデルロバスト性を効果的に向上し,White-box 攻撃下での最先端手法よりも優れ,PGD-100 攻撃下でのバニラ対人訓練(英語版) (AT) に$\sim$8% の精度向上をもたらすことを実証した。 さらに、MATは様々な摂動タイプ間の堅牢性トレードオフを緩和し、$l_\infty$, $l_2$, $l_1$の合併に対して、ATベースラインに最大13.1%の精度向上をもたらすことを示す。 これらの結果は,提案手法の優位性を示し,協調学習がロバストモデルの設計に有効であることを示す。

Recent studies have shown that robustness to adversarial attacks can be transferred across networks. In other words, we can make a weak model more robust with the help of a strong teacher model. We ask if instead of learning from a static teacher, can models "learn together" and "teach each other" to achieve better robustness? In this paper, we study how interactions among models affect robustness via knowledge distillation. We propose mutual adversarial training (MAT), in which multiple models are trained together and share the knowledge of adversarial examples to achieve improved robustness. MAT allows robust models to explore a larger space of adversarial samples, and find more robust feature spaces and decision boundaries. Through extensive experiments on CIFAR-10 and CIFAR-100, we demonstrate that MAT can effectively improve model robustness and outperform state-of-the-art methods under white-box attacks, bringing $\sim$8% accuracy gain to vanilla adversarial training (AT) under PGD-100 attacks. In addition, we show that MAT can also mitigate the robustness trade-off among different perturbation types, bringing as much as 13.1% accuracy gain to AT baselines against the union of $l_\infty$, $l_2$ and $l_1$ attacks. These results show the superiority of the proposed method and demonstrate that collaborative learning is an effective strategy for designing robust models.
翻訳日:2021-12-10 14:23:13 公開日:2021-12-09
# 学習トラヒックによる事故回避シナリオの作成

Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic Prior ( http://arxiv.org/abs/2112.05077v1 )

ライセンス: Link先を確認
Davis Rempe, Jonah Philion, Leonidas J. Guibas, Sanja Fidler, Or Litany(参考訳) 自動運転車の計画の評価と改善には、長距離交通シナリオのスケーラブルな生成が必要である。 便利にするために、これらのシナリオは現実的で挑戦的でなければならないが、安全に運転することは不可能ではない。 本研究では,あるプランナーが衝突のような望ましくない振る舞いを生じさせるような,困難なシナリオを自動生成するSTRIVEを紹介する。 シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。 シナリオ生成は、このトラフィックモデルの潜在空間における最適化として定式化され、初期現実のシーンを摂動させ、与えられたプランナーと衝突する軌道を生成する。 その後の最適化はシナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。 さらなる分析クラスターは衝突型に基づくシナリオを生成する。 2つのプランナーを攻撃し、STRIVEが両方のケースで現実的で困難なシナリオをうまく生成できることを示します。 さらに、これらのシナリオを使ってルールベースのプランナーのハイパーパラメータを最適化します。

Evaluating and improving planning for autonomous vehicles requires scalable generation of long-tail traffic scenarios. To be useful, these scenarios must be realistic and challenging, but not impossible to drive through safely. In this work, we introduce STRIVE, a method to automatically generate challenging scenarios that cause a given planner to produce undesirable behavior, like collisions. To maintain scenario plausibility, the key idea is to leverage a learned model of traffic motion in the form of a graph-based conditional VAE. Scenario generation is formulated as an optimization in the latent space of this traffic model, effected by perturbing an initial real-world scene to produce trajectories that collide with a given planner. A subsequent optimization is used to find a "solution" to the scenario, ensuring it is useful to improve the given planner. Further analysis clusters generated scenarios based on collision type. We attack two planners and show that STRIVE successfully generates realistic, challenging scenarios in both cases. We additionally "close the loop" and use these scenarios to optimize hyperparameters of a rule-based planner.
翻訳日:2021-12-10 14:22:41 公開日:2021-12-09
# 判別手法による生存率分布予測の評価

Evaluation of survival distribution predictions with discrimination measures ( http://arxiv.org/abs/2112.04828v1 )

ライセンス: Link先を確認
Raphael Sonabend, Andreas Bender, Sebastian Vollmer(参考訳) 本稿では,識別の指標を用いた生存率分布予測手法について検討する。 これは非自明な問題であり、生存分析において最も一般的な識別手段であるが、分布予測からリスク予測を導き出す明確な方法は存在しない。 文献やソフトウェアで提案する手法を調査し,それぞれの利点と欠点を考察する。 差別対策によって度々評価されるが,その方法が文献に記述されることは稀であり,不公平な比較につながることが多い。 リスクに対する分布を減少させる最も堅牢な方法は、予測された累積的ハザードを和らげることである。 機械学習サバイバル分析ソフトウェアは、より透明でアクセスしやすいモデル評価を可能にするために、分布とリスク予測の間の明確な変換を実装することを推奨する。

In this paper we consider how to evaluate survival distribution predictions with measures of discrimination. This is a non-trivial problem as discrimination measures are the most commonly used in survival analysis and yet there is no clear method to derive a risk prediction from a distribution prediction. We survey methods proposed in literature and software and consider their respective advantages and disadvantages. Whilst distributions are frequently evaluated by discrimination measures, we find that the method for doing so is rarely described in the literature and often leads to unfair comparisons. We find that the most robust method of reducing a distribution to a risk is to sum over the predicted cumulative hazard. We recommend that machine learning survival analysis software implements clear transformations between distribution and risk predictions in order to allow more transparent and accessible model evaluation.
翻訳日:2021-12-10 14:21:58 公開日:2021-12-09
# マルチモーダルフェイクニュース検出

Multimodal Fake News Detection ( http://arxiv.org/abs/2112.04831v1 )

ライセンス: Link先を確認
Santiago Alonso-Bartolome, Isabel Segura-Bedmar(参考訳) 過去数年間、偽ニュースが前例のないほど急増してきた。 その結果、偽情報や偽情報の拡散が社会の異なるセグメントに与えうる有害な影響に対して、私たちはより影響を受けやすいのです。 したがって、偽ニュースの自動検出ツールの開発とその悪影響防止に重要な役割を担っている。 偽コンテンツの検出と分類を試みる試みのほとんどは、テキスト情報のみに焦点を当てている。 マルチモーダルアプローチは頻度が低く、ニュースを真か偽かのどちらかに分類する。 本研究では,Fakedditデータセット上で,非モーダルおよびマルチモーダルのアプローチを用いて,フェイクニュースのきめ細かい分類を行う。 実験の結果,テキストと画像データを組み合わせた畳み込みニューラルネットワーク(CNN)アーキテクチャに基づくマルチモーダルアプローチが,87%の精度で最高の結果が得られることがわかった。 操作されたコンテンツ、Satire、False接続などの偽ニュースカテゴリは、画像の使用の恩恵を強く受けている。 画像を使用することで、他のカテゴリの結果も改善されるが、影響は少ない。 テキストのみを用いた一元的アプローチでは、変換器による双方向エンコーダ表現(BERT)が78%の精度で最高のモデルである。 したがって、テキストデータと画像データの両方を利用すると、フェイクニュース検出の性能が大幅に向上する。

Over the last years, there has been an unprecedented proliferation of fake news. As a consequence, we are more susceptible to the pernicious impact that misinformation and disinformation spreading can have in different segments of our society. Thus, the development of tools for automatic detection of fake news plays and important role in the prevention of its negative effects. Most attempts to detect and classify false content focus only on using textual information. Multimodal approaches are less frequent and they typically classify news either as true or fake. In this work, we perform a fine-grained classification of fake news on the Fakeddit dataset, using both unimodal and multimodal approaches. Our experiments show that the multimodal approach based on a Convolutional Neural Network (CNN) architecture combining text and image data achieves the best results, with an accuracy of 87%. Some fake news categories such as Manipulated content, Satire or False connection strongly benefit from the use of images. Using images also improves the results of the other categories, but with less impact. Regarding the unimodal approaches using only text, Bidirectional Encoder Representations from Transformers (BERT) is the best model with an accuracy of 78%. Therefore, exploiting both text and image data significantly improves the performance of fake news detection.
翻訳日:2021-12-10 14:21:45 公開日:2021-12-09
# いい香水だ それはいつから結婚したのですか。 マルチモーダルサルカズムの解説

Nice perfume. How long did you marinate in it? Multimodal Sarcasm Explanation ( http://arxiv.org/abs/2112.04873v1 )

ライセンス: Link先を確認
Poorav Desai, Tanmoy Chakraborty, Md Shad Akhtar(参考訳) サルカズムは広汎な言語現象であり、その主観性、文脈の欠如、深遠な意見のために説明するのが非常に困難である。 マルチモーダルな設定では、サーカズムはテキストと視覚エンティティの間の違和感を通じて伝達される。 近年の分類問題としてサルカシムを扱っているが、なぜオンライン投稿がサルカシックであると特定されるのかは不明である。 適切な説明がなければ、エンドユーザは根底にある皮肉の感覚を認識できないかもしれない。 本稿では,画像とキャプションを含むマルチモーダルサーカスティックなポストが与えられた場合,意図するサーカズムを明らかにするために,自然言語による説明を生成することを目的とした,新しい問題であるマルチモーダルサーカズム説明(muse)を提案する。 この目的のために,3510個のサーカシックなマルチモーダルポストを記述した新しいデータセットMOREを開発した。 それぞれの説明は、隠れた皮肉を表す自然言語(英語)の文である。 マルチモーダルトランスフォーマーアーキテクチャを用いてMOREをベンチマークする。 トランスフォーマーのエンコーダには、この2つのモダリティの区別する特徴に付随するクロスモーダルな注意が組み込まれている。 その後、BARTベースの自動回帰デコーダがジェネレータとして使用される。 実験結果は、5つの評価指標にわたる様々なベースライン(museで採用)に対して説得力のある結果を示している。 また,予測に対する人間による評価を行い,FleissのKappaスコア0.4を25人の評価者の間で公正な合意として取得する。

Sarcasm is a pervading linguistic phenomenon and highly challenging to explain due to its subjectivity, lack of context and deeply-felt opinion. In the multimodal setup, sarcasm is conveyed through the incongruity between the text and visual entities. Although recent approaches deal with sarcasm as a classification problem, it is unclear why an online post is identified as sarcastic. Without proper explanation, end users may not be able to perceive the underlying sense of irony. In this paper, we propose a novel problem -- Multimodal Sarcasm Explanation (MuSE) -- given a multimodal sarcastic post containing an image and a caption, we aim to generate a natural language explanation to reveal the intended sarcasm. To this end, we develop MORE, a new dataset with explanation of 3510 sarcastic multimodal posts. Each explanation is a natural language (English) sentence describing the hidden irony. We benchmark MORE by employing a multimodal Transformer-based architecture. It incorporates a cross-modal attention in the Transformer's encoder which attends to the distinguishing features between the two modalities. Subsequently, a BART-based auto-regressive decoder is used as the generator. Empirical results demonstrate convincing results over various baselines (adopted for MuSE) across five evaluation metrics. We also conduct human evaluation on predictions and obtain Fleiss' Kappa score of 0.4 as a fair agreement among 25 evaluators.
翻訳日:2021-12-10 14:21:26 公開日:2021-12-09
# リレーショナルトリプル抽出のための単純かつ効果的な双方向抽出フレームワーク

A Simple but Effective Bidirectional Extraction Framework for Relational Triple Extraction ( http://arxiv.org/abs/2112.04940v1 )

ライセンス: Link先を確認
Feiliang Ren, Longhui Zhang, Xiaofeng Zhao, Shujuan Yin, Shilei Liu, Bochao Li(参考訳) 近年,タグに基づくリレーショナルトリプル抽出手法が研究の注目を集めている。 しかし,これらの手法の多くは,まず全対象を抽出し,抽出対象に基づいて対象と関係を同時に抽出する一方向抽出の枠組みを採っている。 この枠組みには、被験者の抽出結果に敏感すぎるという明らかな欠陥がある。 この欠点を克服するために,2つの相補的な方向から抽出されたエンティティペアに基づいて三重項を抽出する双方向抽出フレームワークを提案する。 具体的には、2つの平行方向から全ての対象物対を抽出する。 これら2つの抽出方向は共有エンコーダコンポーネントによって接続されるため、一方の方向からの抽出特徴は他方の方向に流れることができ、逆もまた可能である。 このようにして、2つの方向の抽出は相互に促進し補完することができる。 次に、各エンティティペアの可能なすべての関係をバフィンモデルで割り当てる。 トレーニング中、共有構造が、パフォーマンスに有害な収束率の不整合問題につながることを観察する。 そこで我々は,それに対応する共有学習機構を提案する。 提案したモデルを複数のベンチマークデータセット上で評価する。 大規模な実験結果から,提案モデルは非常に有効であり,これらすべてのデータセットに対して最先端の結果が得られた。 さらに,提案する双方向抽出フレームワークと共有認識学習機構の両方が適応性が高く,他のタグ付けベース手法の性能向上に利用できることを示す実験を行った。 私たちの作業のソースコードは、https://github.com/neukg/BiRTE.comで公開されています。

Tagging based relational triple extraction methods are attracting growing research attention recently. However, most of these methods take a unidirectional extraction framework that first extracts all subjects and then extracts objects and relations simultaneously based on the subjects extracted. This framework has an obvious deficiency that it is too sensitive to the extraction results of subjects. To overcome this deficiency, we propose a bidirectional extraction framework based method that extracts triples based on the entity pairs extracted from two complementary directions. Concretely, we first extract all possible subject-object pairs from two paralleled directions. These two extraction directions are connected by a shared encoder component, thus the extraction features from one direction can flow to another direction and vice versa. By this way, the extractions of two directions can boost and complement each other. Next, we assign all possible relations for each entity pair by a biaffine model. During training, we observe that the share structure will lead to a convergence rate inconsistency issue which is harmful to performance. So we propose a share-aware learning mechanism to address it. We evaluate the proposed model on multiple benchmark datasets. Extensive experimental results show that the proposed model is very effective and it achieves state-of-the-art results on all of these datasets. Moreover, experiments show that both the proposed bidirectional extraction framework and the share-aware learning mechanism have good adaptability and can be used to improve the performance of other tagging based methods. The source code of our work is available at: https://github.com/neukg/BiRTE.
翻訳日:2021-12-10 14:21:04 公開日:2021-12-09
# (参考訳) 不均一グラフモデルにおける公正構造学習

Fair Structure Learning in Heterogeneous Graphical Models ( http://arxiv.org/abs/2112.05128v1 )

ライセンス: CC BY 4.0
Davoud Ataee Tarzanagh, Laura Balzano, and Alfred O. Hero(参考訳) 確率的グラフィカルモデルにおけるコミュニティ構造の推定は、ノードに人口属性がある場合の公平性制約とは一致しないかもしれない。 ある人口層は、検出された一部のコミュニティで過剰に表現され、他のコミュニティでは過度に表現されることがある。 本稿では、公平なグラフィカルモデル選択のための新しい$\ell_1$-regularized pseudo-likelihoodアプローチを定義する。 特に、基礎となるグラフにはコミュニティまたはクラスタリング構造が存在すると仮定し、人口統計群がコミュニティ内で公平に表現されるようなデータから、スパースな無向グラフとそのコミュニティを学ぼうとしている。 我々の最適化手法は、公平性の人口統計学的パリティ定義を用いるが、そのフレームワークは、公平性の他の定義に容易に拡張できる。 本研究では,ガウス図形モデルとイジングモデルの両方に対して提案手法の統計的整合性を確立し,連続データと二分データを用いてグラフと公正なコミュニティを高い確率で復元できることを証明した。

Inference of community structure in probabilistic graphical models may not be consistent with fairness constraints when nodes have demographic attributes. Certain demographics may be over-represented in some detected communities and under-represented in others. This paper defines a novel $\ell_1$-regularized pseudo-likelihood approach for fair graphical model selection. In particular, we assume there is some community or clustering structure in the true underlying graph, and we seek to learn a sparse undirected graph and its communities from the data such that demographic groups are fairly represented within the communities. Our optimization approach uses the demographic parity definition of fairness, but the framework is easily extended to other definitions of fairness. We establish statistical consistency of the proposed method for both a Gaussian graphical model and an Ising model for, respectively, continuous and binary data, proving that our method can recover the graphs and their fair communities with high probability.
翻訳日:2021-12-10 14:19:50 公開日:2021-12-09
# マルコフ依存性観測における正規化モード回帰 : 理論的評価

Regularized Modal Regression on Markov-dependent Observations: A Theoretical Assessment ( http://arxiv.org/abs/2112.04779v1 )

ライセンス: Link先を確認
Tielang Gong, Yuxin Dong, Hong Chen, Bo Dong, Wei Feng, Chen Li(参考訳) 広く使われている回帰プロトコルであるモード回帰は、外れ値に対する頑丈さと重み付き雑音のため、統計的および機械学習のコミュニティで広く研究されている。 モーダル回帰の理論的振る舞いを理解することは、学習理論において基礎となる。 統計学的特性の著しい進歩にもかかわらず、その結果の大部分は、サンプルが独立で同一の分散(すなわち、実世界のアプリケーションには制限的すぎる)であるという仮定に基づいている。 本稿では、マルコフ依存構造における正規化モード回帰(RMR)の統計的性質について述べる。 具体的には, rmr推定器の上限を適度な条件下で定め, 明示的な学習率を与える。 以上の結果から,マルコフ連鎖のスペクトルギャップに依存する乗算因子によってサンプルサイズが割引される場合,マルコフ依存性が一般化誤差に与える影響が示唆された。 この結果、ロバスト回帰の理論的基礎を特徴づける新しい光が浮かび上がった。

Modal regression, a widely used regression protocol, has been extensively investigated in statistical and machine learning communities due to its robustness to outliers and heavy-tailed noises. Understanding modal regression's theoretical behavior can be fundamental in learning theory. Despite significant progress in characterizing its statistical property, the majority of the results are based on the assumption that samples are independent and identical distributed (i.i.d.), which is too restrictive for real-world applications. This paper concerns the statistical property of regularized modal regression (RMR) within an important dependence structure - Markov dependent. Specifically, we establish the upper bound for RMR estimator under moderate conditions and give an explicit learning rate. Our results show that the Markov dependence impacts on the generalization error in the way that sample size would be discounted by a multiplicative factor depending on the spectral gap of underlying Markov chain. This result shed a new light on characterizing the theoretical underpinning for robust regression.
翻訳日:2021-12-10 14:18:06 公開日:2021-12-09
# 機械学習モデルの有効次元

Effective dimension of machine learning models ( http://arxiv.org/abs/2112.04807v1 )

ライセンス: Link先を確認
Amira Abbas, David Sutter, Alessio Figalli, Stefan Woerner(参考訳) トレーニングされたモデルのパフォーマンスを新しいデータを含むタスクで記述することは、機械学習の主要な目標、すなわちモデルの一般化能力を理解することの1つだ。 様々な能力測定は、この能力を捉えようとするが、通常、我々が実際に観察するモデルの重要な特性を説明することに不足する。 本研究では,標準データセットの一般化誤差とよく相関するキャパシティ尺度として局所有効次元を提案する。 重要な点は,局所有効次元が一般化誤差を限定し,機械学習モデルにおけるこの指標の適性について考察することである。

Making statements about the performance of trained models on tasks involving new data is one of the primary goals of machine learning, i.e., to understand the generalization power of a model. Various capacity measures try to capture this ability, but usually fall short in explaining important characteristics of models that we observe in practice. In this study, we propose the local effective dimension as a capacity measure which seems to correlate well with generalization error on standard data sets. Importantly, we prove that the local effective dimension bounds the generalization error and discuss the aptness of this capacity measure for machine learning models.
翻訳日:2021-12-10 14:17:52 公開日:2021-12-09
# 圧縮畳み込みニューラルネットワークのモデル冗長性の新しい測定法

A New Measure of Model Redundancy for Compressed Convolutional Neural Networks ( http://arxiv.org/abs/2112.04857v1 )

ライセンス: Link先を確認
Feiqing Huang, Yuefeng Si, Yao Zheng and Guodong Li(参考訳) 近年、畳み込みニューラルネットワーク(cnns)のモデル効率を固定リソース予算で改善するために多くの設計が提案されているが、これらの設計の理論的理解はまだ顕著に欠けている。 圧縮されたCNNにまだモデル冗長性はあるか? まず, テンソル分解によるCNNと圧縮CNNの一般統計定式化を行い, 層間の重みを1つのテンソルにまとめる。 そして, 厳密なサンプル複雑性解析により, モデル冗長性の直接的な指標となる, 導出されたサンプル複雑性と単純パラメータカウントとの重要な相違を明らかにする。 この発見に動機づけられ、圧縮cnnの新しいモデル冗長性尺度である$k/r$比を導入し、さらに非線形活性化を可能にする。 この新しい尺度の有用性は、一般的なブロック設計とデータセットに関するアブレーション研究によって支えられている。

While recently many designs have been proposed to improve the model efficiency of convolutional neural networks (CNNs) on a fixed resource budget, theoretical understanding of these designs is still conspicuously lacking. This paper aims to provide a new framework for answering the question: Is there still any remaining model redundancy in a compressed CNN? We begin by developing a general statistical formulation of CNNs and compressed CNNs via the tensor decomposition, such that the weights across layers can be summarized into a single tensor. Then, through a rigorous sample complexity analysis, we reveal an important discrepancy between the derived sample complexity and the naive parameter counting, which serves as a direct indicator of the model redundancy. Motivated by this finding, we introduce a new model redundancy measure for compressed CNNs, called the $K/R$ ratio, which further allows for nonlinear activations. The usefulness of this new measure is supported by ablation studies on popular block designs and datasets.
翻訳日:2021-12-10 14:17:42 公開日:2021-12-09
# 実現可能ボラティリティの大規模断面における予測評価

Forecast Evaluation in Large Cross-Sections of Realized Volatility ( http://arxiv.org/abs/2112.04887v1 )

ライセンス: Link先を確認
Christis Katsouris(参考訳) 本稿では,同一予測精度試験手法を用いて,断面依存性下で実現されるボラティリティ対策の予測評価について検討する。 我々は,実効変動予測において,拡張断面に基づくモデルの予測精度を評価する。 等価予測精度のヌル仮説の下では、ベンチマークモデルは標準harモデルであり、非等式予測精度の代替として、予測モデルはlasso縮小によって推定される拡張harモデルである。 本研究では,模型仕様に対する予測の感度について,計測誤差補正と断面ジャンプ成分測定を併用して検討する。 モデルのサンプル外予測評価を数値的実装により評価する。

In this paper, we consider the forecast evaluation of realized volatility measures under cross-section dependence using equal predictive accuracy testing procedures. We evaluate the predictive accuracy of the model based on the augmented cross-section when forecasting Realized Volatility. Under the null hypothesis of equal predictive accuracy the benchmark model employed is a standard HAR model while under the alternative of non-equal predictive accuracy the forecast model is an augmented HAR model estimated via the LASSO shrinkage. We study the sensitivity of forecasts to the model specification by incorporating a measurement error correction as well as cross-sectional jump component measures. The out-of-sample forecast evaluation of the models is assessed with numerical implementations.
翻訳日:2021-12-10 14:17:25 公開日:2021-12-09
# Amicable Aid: 敵対的攻撃をベネフィット分類に切り替える

Amicable Aid: Turning Adversarial Attack to Benefit Classification ( http://arxiv.org/abs/2112.04720v1 )

ライセンス: Link先を確認
Juyeop Kim, Jun-Ho Choi, Soobeom Jang, Jong-Seok Lee(参考訳) 深部画像分類モデルに対する敵意攻撃は,実際には重大なセキュリティ上の懸念を生じさせるが,本論文では,敵意攻撃の概念が分類性能に寄与する新たなパラダイムを提案する。 摂動の反対探索方向を取ることにより、分類モデルにより高い信頼感を与える別の画像に変換することができ、誤った分類画像であっても正しく分類することができることを示す。 さらに、大量の摂動によって人間の目では認識できない画像を作ることができ、モデルによって正しく認識される。 友好的援助のメカニズムは、基礎となる自然画像多様体の観点から説明される。 また,固定摂動を複数の画像に適用し,その分類結果を改善するという,普遍的網羅的摂動についても検討する。 このような摂動を見いだすことは困難であるが、修正データを用いた訓練により、画像多様体に可能な限り垂直な決定境界を作ることは、普遍的な共役摂動がより容易に見つかるモデルを得るのに有効であることを示す。 最後に,安全画像通信,プライバシー保護画像通信,敵対的攻撃に対する保護など,友好的支援が有効なアプリケーションシナリオについて論じる。

While adversarial attacks on deep image classification models pose serious security concerns in practice, this paper suggests a novel paradigm where the concept of adversarial attacks can benefit classification performance, which we call amicable aid. We show that by taking the opposite search direction of perturbation, an image can be converted to another yielding higher confidence by the classification model and even a wrongly classified image can be made to be correctly classified. Furthermore, with a large amount of perturbation, an image can be made unrecognizable by human eyes, while it is correctly recognized by the model. The mechanism of the amicable aid is explained in the viewpoint of the underlying natural image manifold. We also consider universal amicable perturbations, i.e., a fixed perturbation can be applied to multiple images to improve their classification results. While it is challenging to find such perturbations, we show that making the decision boundary as perpendicular to the image manifold as possible via training with modified data is effective to obtain a model for which universal amicable perturbations are more easily found. Finally, we discuss several application scenarios where the amicable aid can be useful, including secure image communication, privacy-preserving image communication, and protection against adversarial attacks.
翻訳日:2021-12-10 14:17:03 公開日:2021-12-09
# oracleを模倣する - クラスインクリメンタル学習のための初期フェーズ分離アプローチ

Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning ( http://arxiv.org/abs/2112.04731v1 )

ライセンス: Link先を確認
Yujun Shi, Kuangqi Zhou, Jian Liang, Zihang Jiang, Jiashi Feng, Philip Torr, Song Bai, Vincent Y.F. Tan(参考訳) クラスインクリメンタル学習(cil)は、各フェーズでクラスサブセットのデータのみを提供する、フェーズ毎の方法でマルチクラス分類器を学習することを目的としている。 これまでの作業は主に,最初のフェーズ以降のフェーズにおける忘れの軽減に重点を置いていた。 しかし、初期段階でのCILの改善も有望な方向であることがわかった。 具体的には、CILラーナーを初期段階で直接奨励し、全てのクラスで協調訓練されたモデルがCILの性能を大幅に向上させることができることを実験的に示す。 そこで本研究では, 初期相モデルとオラクルモデルとの差について検討した。 具体的には、これらの2つのモデルの大きな違いがトレーニングクラスの数であることから、そのような差がモデル表現に与える影響について検討する。 トレーニングクラスが少ないと、各クラスのデータ表現は長く狭い領域に置かれ、より多くのトレーニングクラスでは、各クラスの表現がより均一に散らばっている。 この観測から着想を得たCwD (Class-wise Decorrelation) は,各クラスの表現をより均一に散らばるように効果的に正規化することで,全てのクラスで共同訓練されたモデルを模倣する。 私たちのCwDは実装が簡単で、既存のメソッドに簡単にプラグインできます。 様々なベンチマークデータセットの大規模な実験により、CwDは既存の最先端メソッドのパフォーマンスを約1\%から3\%改善している。 コードはリリースされる。

Class Incremental Learning (CIL) aims at learning a multi-class classifier in a phase-by-phase manner, in which only data of a subset of the classes are provided at each phase. Previous works mainly focus on mitigating forgetting in phases after the initial one. However, we find that improving CIL at its initial phase is also a promising direction. Specifically, we experimentally show that directly encouraging CIL Learner at the initial phase to output similar representations as the model jointly trained on all classes can greatly boost the CIL performance. Motivated by this, we study the difference between a na\"ively-trained initial-phase model and the oracle model. Specifically, since one major difference between these two models is the number of training classes, we investigate how such difference affects the model representations. We find that, with fewer training classes, the data representations of each class lie in a long and narrow region; with more training classes, the representations of each class scatter more uniformly. Inspired by this observation, we propose Class-wise Decorrelation (CwD) that effectively regularizes representations of each class to scatter more uniformly, thus mimicking the model jointly trained with all classes (i.e., the oracle model). Our CwD is simple to implement and easy to plug into existing methods. Extensive experiments on various benchmark datasets show that CwD consistently and significantly improves the performance of existing state-of-the-art methods by around 1\% to 3\%. Code will be released.
翻訳日:2021-12-10 14:15:35 公開日:2021-12-09
# 集約領域一般化のための適応的手法

Adaptive Methods for Aggregated Domain Generalization ( http://arxiv.org/abs/2112.04766v1 )

ライセンス: Link先を確認
Xavier Thomas, Dhruv Mahajan, Alex Pentland, Abhimanyu Dubey(参考訳) ドメインの一般化は、訓練ソースの異種コレクションから分類器を学習し、類似の未知のターゲットドメインから引き出されたデータに一般化し、大規模学習やパーソナライズされた推論に応用する。 多くの設定において、プライバシの懸念はトレーニングデータサンプルのドメインラベルの取得を禁止し、代わりにトレーニングポイントの集合のみを保持する。 ドメインラベルを利用してドメイン不変な特徴表現を生成する既存のアプローチはこの設定では適用不可能であり、一般化可能な分類法を学ぶための代替アプローチが必要である。 本稿では,この問題に対するドメイン適応的アプローチを提案する。 a) 慎重に選択された機能領域内でトレーニングデータをクラスタ化して擬似ドメインを生成します。 b) 擬似ドメインを用いて、入力と擬似ドメインの両方に関する情報を用いて予測を行うドメイン適応型分類器を学習する。 提案手法は,ドメインラベルを使わずに,様々な領域一般化ベンチマークの最先端性能を実現する。 さらに,クラスタ情報を用いた領域一般化に関する新たな理論的保証を提供する。 我々のアプローチはアンサンブルベースの手法に適しており、大規模なベンチマークデータセットでもかなりの利益をもたらします。 コードは https://github.com/xavierohan/AdaClust_DomainBed で参照できる。

Domain generalization involves learning a classifier from a heterogeneous collection of training sources such that it generalizes to data drawn from similar unknown target domains, with applications in large-scale learning and personalized inference. In many settings, privacy concerns prohibit obtaining domain labels for the training data samples, and instead only have an aggregated collection of training points. Existing approaches that utilize domain labels to create domain-invariant feature representations are inapplicable in this setting, requiring alternative approaches to learn generalizable classifiers. In this paper, we propose a domain-adaptive approach to this problem, which operates in two steps: (a) we cluster training data within a carefully chosen feature space to create pseudo-domains, and (b) using these pseudo-domains we learn a domain-adaptive classifier that makes predictions using information about both the input and the pseudo-domain it belongs to. Our approach achieves state-of-the-art performance on a variety of domain generalization benchmarks without using domain labels whatsoever. Furthermore, we provide novel theoretical guarantees on domain generalization using cluster information. Our approach is amenable to ensemble-based methods and provides substantial gains even on large-scale benchmark datasets. The code can be found at: https://github.com/xavierohan/AdaClust_DomainBed
翻訳日:2021-12-10 14:15:09 公開日:2021-12-09
# 干渉による潜時空間説明

Latent Space Explanation by Intervention ( http://arxiv.org/abs/2112.04895v1 )

ライセンス: Link先を確認
Itai Gat, Guy Lorberbom, Idan Schwartz, Tamir Hazan(参考訳) ディープニューラルネットワークの成功は、入力と出力の間の複雑な関係をエンコードする能力に大きく依存している。 この特性はトレーニングデータにうまく適合するが、予測を駆動するメカニズムを曖昧にする。 本研究では,離散的変分オートエンコーダに基づく予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とした。 説明モデルは、任意の隠された層とその対応する相互表現から符号化された情報を視覚化する。 元の表現と介入された表現の違いを評価することにより、クラスを変えることができる概念を決定できるため、解釈可能性が提供される。 celeba に対するアプローチの有効性を実証し,データのバイアスの可視化を行い,バイアスの明確化と変化に対する様々な介入を提案する。

The success of deep neural nets heavily relies on their ability to encode complex relations between their input and their output. While this property serves to fit the training data well, it also obscures the mechanism that drives prediction. This study aims to reveal hidden concepts by employing an intervention mechanism that shifts the predicted class based on discrete variational autoencoders. An explanatory model then visualizes the encoded information from any hidden layer and its corresponding intervened representation. By the assessment of differences between the original representation and the intervened representation, one can determine the concepts that can alter the class, hence providing interpretability. We demonstrate the effectiveness of our approach on CelebA, where we show various visualizations for bias in the data and suggest different interventions to reveal and change bias.
翻訳日:2021-12-10 14:14:49 公開日:2021-12-09
# pixmix:dreamlike picturesは安全対策を総合的に改善

PixMix: Dreamlike Pictures Comprehensively Improve Safety Measures ( http://arxiv.org/abs/2112.05135v1 )

ライセンス: Link先を確認
Dan Hendrycks and Andy Zou and Mantas Mazeika and Leonard Tang and Dawn Song and Jacob Steinhardt(参考訳) 機械学習の現実世界のアプリケーションでは、信頼性と安全性を備えたシステムは、標準テストセットの精度以上のパフォーマンスの尺度を考慮しなければならない。 その他の目標には、分散(ood)の堅牢性、予測一貫性、敵へのレジリエンス、不確実性の推定の校正、異常な入力の検出機能などがある。 しかしながら、これらの目標に対するパフォーマンス向上は、しばしば、今日のメソッドが他の安全軸のパフォーマンスを犠牲にすることなく達成できないバランスをとる行為である。 例えば、敵のトレーニングは敵の堅牢性を改善するが、他の分類器のパフォーマンス指標を著しく低下させる。 同様に、強固なデータ拡張と正規化技術は、oodの堅牢性を改善するが異常検出を害し、既存のすべての安全対策においてパレート改善が可能かどうかという疑問を提起する。 この課題に対処するために、多数のベースラインを上回り、パレート最適に近いフラクタルなどの画像の自然な構造的複雑さを活用し、安全対策を徹底的に改善する新しいデータ拡張戦略を設計する。

In real-world applications of machine learning, reliable and safe systems must consider measures of performance beyond standard test set accuracy. These other goals include out-of-distribution (OOD) robustness, prediction consistency, resilience to adversaries, calibrated uncertainty estimates, and the ability to detect anomalous inputs. However, improving performance towards these goals is often a balancing act that today's methods cannot achieve without sacrificing performance on other safety axes. For instance, adversarial training improves adversarial robustness but sharply degrades other classifier performance metrics. Similarly, strong data augmentation and regularization techniques often improve OOD robustness but harm anomaly detection, raising the question of whether a Pareto improvement on all existing safety measures is possible. To meet this challenge, we design a new data augmentation strategy utilizing the natural structural complexity of pictures such as fractals, which outperforms numerous baselines, is near Pareto-optimal, and roundly improves safety measures.
翻訳日:2021-12-10 14:14:39 公開日:2021-12-09
# 加速度MRIのための1次元深部低ランク・スパースネットワーク

One-dimensional Deep Low-rank and Sparse Network for Accelerated MRI ( http://arxiv.org/abs/2112.04721v1 )

ライセンス: Link先を確認
Zi Wang, Chen Qian, Di Guo, Hongwei Sun, Rushuai Li, Bo Zhao, Xiaobo Qu(参考訳) 深層学習はMRI(Accelerated Magnetic resonance imaging)において驚くべき性能を示した。 最先端のディープラーニング再構築の多くは、強力な畳み込みニューラルネットワークを採用し、多くの磁気共鳴画像や対応するk空間が2Dであるため、2D畳み込みを行う。 本研究では,1次元畳み込みを探索し,深層ネットワークの訓練と一般化を容易にする新しい手法を提案する。 この1次元畳み込みを, 1次元深層低ランク・スパースネットワーク(odls)として提案する深層ネットワークに統合し, 低ランク・スパース再構成モデルの反復手順を展開する。 in vivoの膝と脳のデータセットに関する広範な結果から,提案手法は限られた訓練対象の場合に非常に適しており,視覚的および定量的に最先端の手法よりも再現性が向上することが示された。 さらにODLSは、さまざまなアンダーサンプリングシナリオに対する優れた堅牢性と、トレーニングデータとテストデータのミスマッチも示しています。 まとめると、1Dディープラーニング方式は高速MRIにおいてメモリ効率が高く、堅牢であることを示す。

Deep learning has shown astonishing performance in accelerated magnetic resonance imaging (MRI). Most state-of-the-art deep learning reconstructions adopt the powerful convolutional neural network and perform 2D convolution since many magnetic resonance images or their corresponding k-space are in 2D. In this work, we present a new approach that explores the 1D convolution, making the deep network much easier to be trained and generalized. We further integrate the 1D convolution into the proposed deep network, named as One-dimensional Deep Low-rank and Sparse network (ODLS), which unrolls the iteration procedure of a low-rank and sparse reconstruction model. Extensive results on in vivo knee and brain datasets demonstrate that, the proposed ODLS is very suitable for the case of limited training subjects and provides improved reconstruction performance than state-of-the-art methods both visually and quantitatively. Additionally, ODLS also shows nice robustness to different undersampling scenarios and some mismatches between the training and test data. In summary, our work demonstrates that the 1D deep learning scheme is memory-efficient and robust in fast MRI.
翻訳日:2021-12-10 14:14:20 公開日:2021-12-09
# BACON:マルチスケールシーン表現のための帯域限定コーディネートネットワーク

BACON: Band-limited Coordinate Networks for Multiscale Scene Representation ( http://arxiv.org/abs/2112.04645v1 )

ライセンス: Link先を確認
David B. Lindell, Dave Van Veen, Jeong Joon Park, Gordon Wetzstein(参考訳) 3d表現とシーン再構成のための強力なツールとして座標ベースのネットワークが登場した。 これらのネットワークは、連続入力座標を各点の信号の値にマッピングするように訓練される。 しかし、現在のアーキテクチャはブラックボックスであり、そのスペクトル特性は容易に分析できず、教師なし地点での挙動を予測するのは難しい。 さらに、これらのネットワークは通常、単一のスケールで信号を表現するように訓練されているため、単純なダウンサンプリングやアップサンプリングの結果が成果物になる。 本稿では,解析的フーリエスペクトルを持つネットワークアーキテクチャであるバンド制限座標ネットワーク(bacon)を提案する。 BACONは教師なしの点で予測可能な振る舞いを持ち、表現された信号のスペクトル特性に基づいて設計することができ、明示的な監督なしに複数のスケールで信号を表現できる。 署名付き距離関数を用いて画像, 放射場, 3次元シーンのマルチスケールニューラル表現のためのBACONを実証し, 解釈性と品質の観点から従来の単一スケール座標ネットワークよりも優れていることを示す。

Coordinate-based networks have emerged as a powerful tool for 3D representation and scene reconstruction. These networks are trained to map continuous input coordinates to the value of a signal at each point. Still, current architectures are black boxes: their spectral characteristics cannot be easily analyzed, and their behavior at unsupervised points is difficult to predict. Moreover, these networks are typically trained to represent a signal at a single scale, and so naive downsampling or upsampling results in artifacts. We introduce band-limited coordinate networks (BACON), a network architecture with an analytical Fourier spectrum. BACON has predictable behavior at unsupervised points, can be designed based on the spectral characteristics of the represented signal, and can represent signals at multiple scales without explicit supervision. We demonstrate BACON for multiscale neural representation of images, radiance fields, and 3D scenes using signed distance functions and show that it outperforms conventional single-scale coordinate networks in terms of interpretability and quality.
翻訳日:2021-12-10 14:12:09 公開日:2021-12-09
# 不均一領域の存在下での局所計画改善のための軌道拘束型深部視覚注意

Trajectory-Constrained Deep Latent Visual Attention for Improved Local Planning in Presence of Heterogeneous Terrain ( http://arxiv.org/abs/2112.04684v1 )

ライセンス: Link先を確認
Stefan Wapnick, Travis Manderson, David Meger, Gregory Dudek(参考訳) 本稿では,マップレス,局所視覚ナビゲーションタスクで使用するために,軌道制約付き視覚注意を特徴とする報酬予測型モデルに基づく深層学習手法を提案する。 提案手法では,車両制御動作による軌跡に追従する潜在画像空間内の位置に視覚的注意を置き,計画中の予測精度を高める。 アテンションモデルはタスク固有の損失と追加の軌道制約損失によって協調的に最適化され、適応性が向上し、一般化と信頼性が向上する正規化構造が促進される。 重要なことは、効率的な計画を促進するために、生画像空間の代わりに潜在特徴地図空間に視覚的注意が適用されることである。 我々は,オフロード環境における低乱流,無衝突軌道の計画,滑りやすい地形下でのロック差のある丘登りといった視覚ナビゲーションタスクにおいて,我々のモデルを検証した。 ランダム化された手続き生成シミュレーションと実環境を含む実験。 提案手法は,非意図的,自己意識的代替手段と比較して,一般化と学習効率が向上した。

We present a reward-predictive, model-based deep learning method featuring trajectory-constrained visual attention for use in mapless, local visual navigation tasks. Our method learns to place visual attention at locations in latent image space which follow trajectories caused by vehicle control actions to enhance predictive accuracy during planning. The attention model is jointly optimized by the task-specific loss and an additional trajectory-constraint loss, allowing adaptability yet encouraging a regularized structure for improved generalization and reliability. Importantly, visual attention is applied in latent feature map space instead of raw image space to promote efficient planning. We validated our model in visual navigation tasks of planning low turbulence, collision-free trajectories in off-road settings and hill climbing with locking differentials in the presence of slippery terrain. Experiments involved randomized procedural generated simulation and real-world environments. We found our method improved generalization and learning efficiency when compared to no-attention and self-attention alternatives.
翻訳日:2021-12-10 14:11:52 公開日:2021-12-09
# 3D-VField:ロバストな3Dオブジェクト検出のための逆変形点雲の学習

3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D Object Detection ( http://arxiv.org/abs/2112.04764v1 )

ライセンス: Link先を確認
Alexander Lehner, Stefano Gasperini, Alvaro Marcos-Ramiro, Michael Schmidt, Mohammad-Ali Nikouei Mahani, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) 点雲上の3次元物体検出は点間の幾何学的関係に依存するため、非標準物体形状はメソッドの検出能力を妨げうる。 しかし,安全クリティカルな環境では,破損車両やレアカーの誤検出などの危険な問題を回避するため,散布やロングテールサンプルの堅牢性が基本である。 本研究では,変形点雲を考慮した3次元物体検出器の領域外データへの一般化を著しく改善する。 3d-vfield: 逆向きに学習したベクトルによってオブジェクトを変形させる新しい手法である。 当社のアプローチでは、3dポイントをセンサーのビュー線に沿ってスライドさせても、追加や削除は行わない。 得られたベクターは移動可能であり、サンプル非依存であり、形状の滑らかさと閉塞性を保持する。 訓練中のベクトル場によって生じる変形により正常なサンプルを増強することにより,kittiのみでのトレーニングにおいても,損傷・変形車などの異なる形状の物体に対するロバスト性が著しく向上する。 この目的のために、我々はオープンソースのCrashD: 現実的な損傷と稀な車両の合成データセットを、さまざまなクラッシュシナリオで提案し、共有する。 KITTI、Waymo、CrashD、SUN RGB-Dの大規模な実験は、私たちの技術がドメイン外のデータ、異なるモデルとセンサー、すなわちLiDARとToFカメラに対して、屋内および屋外の両方で高い一般化性を示している。 クラッシュしたデータセットはhttps://crashd-cars.github.ioで利用可能です。

As 3D object detection on point clouds relies on the geometrical relationships between the points, non-standard object shapes can hinder a method's detection capability. However, in safety-critical settings, robustness on out-of-distribution and long-tail samples is fundamental to circumvent dangerous issues, such as the misdetection of damaged or rare cars. In this work, we substantially improve the generalization of 3D object detectors to out-of-domain data by taking into account deformed point clouds during training. We achieve this with 3D-VField: a novel method that plausibly deforms objects via vectors learned in an adversarial fashion. Our approach constrains 3D points to slide along their sensor view rays while neither adding nor removing any of them. The obtained vectors are transferrable, sample-independent and preserve shape smoothness and occlusions. By augmenting normal samples with the deformations produced by these vector fields during training, we significantly improve robustness against differently shaped objects, such as damaged/deformed cars, even while training only on KITTI. Towards this end, we propose and share open source CrashD: a synthetic dataset of realistic damaged and rare cars, with a variety of crash scenarios. Extensive experiments on KITTI, Waymo, our CrashD and SUN RGB-D show the high generalizability of our techniques to out-of-domain data, different models and sensors, namely LiDAR and ToF cameras, for both indoor and outdoor scenes. Our CrashD dataset is available at https://crashd-cars.github.io.
翻訳日:2021-12-10 14:11:33 公開日:2021-12-09
# 多施設ct画像を用いたcovid-19認識のためのロバストな弱教師付き学習

Robust Weakly Supervised Learning for COVID-19 Recognition Using Multi-Center CT Images ( http://arxiv.org/abs/2112.04984v1 )

ライセンス: Link先を確認
Qinghao Ye, Yuan Gao, Weiping Ding, Zhangming Niu, Chengjia Wang, Yinghui Jiang, Minhao Wang, Evandro Fei Fang, Wade Menpes-Smith, Jun Xia, Guang Yang(参考訳) 世界は、重症急性呼吸器症候群(SARS-CoV-2)が原因で、新型コロナウイルス感染症(COVID-19)と呼ばれる感染症のパンデミックが進行中である。 ct(ct)は感染の重症度を評価する上で重要な役割を担っており、症状性および無症候性covid-19キャリアの同定にも利用できる。 新型コロナウイルス(COVID-19)感染者の累積増加に伴い、放射線技師はCTスキャンを手作業で検査するようますます強調されている。 そのため,手動解析に時間を要するため,自動3次元CTスキャン認識ツールの需要が高く,疲労が原因で誤判定が生じる可能性がある。 しかし, 異なる病院におけるCTスキャナの様々な技術的仕様から, CT画像の出現は, 多くの自動画像認識手法の失敗に繋がる可能性がある。 マルチセンターおよびマルチスキャナー研究におけるマルチドメインシフト問題は、信頼性の高い認識にも不可欠であり、再現性および客観的な診断と予後に重要な問題である。 本稿では,新しいロバストな弱教師付き学習パラダイムを用いて,多領域シフト問題を効率的に処理できる新型コロナウイルス情報融合診断ネットワーク(cifd-net)のctスキャン認識モデルを提案する。 本モデルでは,CTスキャン画像の外観の相違を,他の最先端手法と比較して精度が高く,確実かつ効率的に解決することができる。

The world is currently experiencing an ongoing pandemic of an infectious disease named coronavirus disease 2019 (i.e., COVID-19), which is caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). Computed Tomography (CT) plays an important role in assessing the severity of the infection and can also be used to identify those symptomatic and asymptomatic COVID-19 carriers. With a surge of the cumulative number of COVID-19 patients, radiologists are increasingly stressed to examine the CT scans manually. Therefore, an automated 3D CT scan recognition tool is highly in demand since the manual analysis is time-consuming for radiologists and their fatigue can cause possible misjudgment. However, due to various technical specifications of CT scanners located in different hospitals, the appearance of CT images can be significantly different leading to the failure of many automated image recognition approaches. The multi-domain shift problem for the multi-center and multi-scanner studies is therefore nontrivial that is also crucial for a dependable recognition and critical for reproducible and objective diagnosis and prognosis. In this paper, we proposed a COVID-19 CT scan recognition model namely coronavirus information fusion and diagnosis network (CIFD-Net) that can efficiently handle the multi-domain shift problem via a new robust weakly supervised learning paradigm. Our model can resolve the problem of different appearance in CT scan images reliably and efficiently while attaining higher accuracy compared to other state-of-the-art methods.
翻訳日:2021-12-10 14:10:50 公開日:2021-12-09
# (参考訳) ニューラルディスクリプタフィールド : se(3)-同変オブジェクト表現による操作

Neural Descriptor Fields: SE(3)-Equivariant Object Representations for Manipulation ( http://arxiv.org/abs/2112.05124v1 )

ライセンス: CC BY 4.0
Anthony Simeonov, Yilun Du, Andrea Tagliasacchi, Joshua B. Tenenbaum, Alberto Rodriguez, Pulkit Agrawal, Vincent Sitzmann(参考訳) 神経記述子フィールド(neural descriptor field,ndfs)は、対象と対象(ロボットグリッパーや吊り下げ用のラックなど)の間のポイントと相対的なポーズの両方をエンコードするオブジェクト表現で、カテゴリレベルの記述子を介して提示する。 私たちはこの表現をオブジェクト操作に使用し、タスクのデモが与えられたら、同じカテゴリから新しいオブジェクトインスタンスで同じタスクを繰り返すことを望みます。 本稿では,この目的を達成するために,デモで観察された記述子と一致したポーズを(最適化を通じて)探索することを提案する。 NDFは、専門家ラベル付きキーポイントに依存しない3D自動エンコーディングタスクを通じて、自己管理的な方法で便利に訓練される。 さらに、NDFはSE(3)-同変であり、可能なすべての3Dオブジェクトの変換と回転を一般化する性能を保証する。 シミュレーションと実ロボット上での操作タスクの学習を,少数の (5-10) デモンストレーションから実証する。 我々のパフォーマンスはオブジェクトインスタンスと6-DoFオブジェクトの両方のポーズを一般化し、2Dディスクリプタに依存する最近のベースラインを著しく上回ります。 プロジェクトサイト: https://yilundu.github.io/ndf/

We present Neural Descriptor Fields (NDFs), an object representation that encodes both points and relative poses between an object and a target (such as a robot gripper or a rack used for hanging) via category-level descriptors. We employ this representation for object manipulation, where given a task demonstration, we want to repeat the same task on a new object instance from the same category. We propose to achieve this objective by searching (via optimization) for the pose whose descriptor matches that observed in the demonstration. NDFs are conveniently trained in a self-supervised fashion via a 3D auto-encoding task that does not rely on expert-labeled keypoints. Further, NDFs are SE(3)-equivariant, guaranteeing performance that generalizes across all possible 3D object translations and rotations. We demonstrate learning of manipulation tasks from few (5-10) demonstrations both in simulation and on a real robot. Our performance generalizes across both object instances and 6-DoF object poses, and significantly outperforms a recent baseline that relies on 2D descriptors. Project website: https://yilundu.github.io/ndf/.
翻訳日:2021-12-10 14:09:47 公開日:2021-12-09
# AI知覚システムの冗長性は、超人自動運転性能のテストに役立つか?

Does Redundancy in AI Perception Systems Help to Test for Super-Human Automated Driving Performance? ( http://arxiv.org/abs/2112.04758v1 )

ライセンス: Link先を確認
Hanno Gottschalk, Matthias Rottmann and Maida Saltagic(参考訳) 自動走行は人間より優れた運転性能で宣伝されることが多いが、この研究はシステムレベルでの直接的な統計的証拠を提供することはほとんど不可能である。 必要なラベル付きデータの量は、現在の技術的および経済的能力の次元を超えるだろう。 したがって、一般的に使用される戦略は、十分なサブシステムのパフォーマンスの証明とともに冗長性を使用することである。 知られているように、この戦略は特に独立して動作するサブシステムの場合、すなわちエラーの発生は統計的に独立である。 ここでは,同じコンピュータビジョンタスクを遂行するニューラルネットワークのエラーが,少なくとも一部のケースではエラー発生の相関を示すため,この戦略がフリーライドではないことを示す最初の考察と実験的な証拠を与える。 トレーニングデータ、アーキテクチャ、トレーニングが別々に保たれたり、特別な損失関数を使って独立性がトレーニングされたりしても、これは事実です。 異なるセンサー(3d mnistデータセットの最大2次元投影によって実現される)からのデータを実験で使用する場合、より効率的に相関を低減できるが、冗長で統計的に独立したサブシステムで得られるテストデータの削減の可能性を実現するには至っていない。

While automated driving is often advertised with better-than-human driving performance, this work reviews that it is nearly impossible to provide direct statistical evidence on the system level that this is actually the case. The amount of labeled data needed would exceed dimensions of present day technical and economical capabilities. A commonly used strategy therefore is the use of redundancy along with the proof of sufficient subsystems' performances. As it is known, this strategy is efficient especially for the case of subsystems operating independently, i.e. the occurrence of errors is independent in a statistical sense. Here, we give some first considerations and experimental evidence that this strategy is not a free ride as the errors of neural networks fulfilling the same computer vision task, at least for some cases, show correlated occurrences of errors. This remains true, if training data, architecture, and training are kept separate or independence is trained using special loss functions. Using data from different sensors (realized by up to five 2D projections of the 3D MNIST data set) in our experiments is more efficiently reducing correlations, however not to an extent that is realizing the potential of reduction of testing data that can be obtained for redundant and statistically independent subsystems.
翻訳日:2021-12-10 13:51:10 公開日:2021-12-09
# 異なる背景型を持つ人工データに対するサリエンシ手法の評価

Evaluating saliency methods on artificial data with different background types ( http://arxiv.org/abs/2112.04882v1 )

ライセンス: Link先を確認
C\'eline Budding, Fabian Eitel, Kerstin Ritter, Stefan Haufe(参考訳) 近年、多くの「説明可能な人工知能(xAI)」アプローチが開発されてきたが、必ずしも客観的に評価されているわけではない。 各種サリエンシ法で生成した熱マップの品質を評価するため,合成病変を用いた人工データ生成フレームワークと既知の地中真理マップを開発した。 このフレームワークを用いて,perlinノイズと2次元脳mriスライスの2つの背景データを評価し,その熱マップが塩分法と背景によって強く異なることを見出した。 本手法を臨床や安全性に配慮した環境に応用する前に,この枠組みを用いて唾液マップやxAI手法のさらなる評価を強く推奨する。

Over the last years, many 'explainable artificial intelligence' (xAI) approaches have been developed, but these have not always been objectively evaluated. To evaluate the quality of heatmaps generated by various saliency methods, we developed a framework to generate artificial data with synthetic lesions and a known ground truth map. Using this framework, we evaluated two data sets with different backgrounds, Perlin noise and 2D brain MRI slices, and found that the heatmaps vary strongly between saliency methods and backgrounds. We strongly encourage further evaluation of saliency maps and xAI methods using this framework before applying these in clinical or other safety-critical settings.
翻訳日:2021-12-10 13:50:47 公開日:2021-12-09
# DualFormer: 効率的なビデオ認識のための局所Global Stratified Transformer

DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition ( http://arxiv.org/abs/2112.04674v1 )

ライセンス: Link先を確認
Yuxuan Liang, Pan Zhou, Roger Zimmermann, Shuicheng Yan(参考訳) トランスフォーマーは、長距離依存性を捕捉する能力を持ち、ビデオ認識タスクにおいて大きな可能性を秘めているが、ビデオ内の膨大な数の3dトークンに対する自己照査操作によって生じる高い計算コストに苦しむことが多い。 本稿では,映像認識のための時空注意を効果的かつ効率的に行うことのできる,デュアルフォーマと呼ばれる新しいトランスフォーマアーキテクチャを提案する。 具体的には、dualformerは、すべての時空を2つのカスケードレベル、すなわち、近くの3dトークン間のきめ細かい局所的な時空相互作用を最初に学習し、クエリトークンと粗い粒度のグローバルピラミッドコンテキストの間の粗い粒度のグローバルな依存関係をキャプチャします。 時空因子分解や局所ウィンドウ内の注意計算を効率改善のために制限する既存の方法とは異なり、我々の局所的グローバル階層化戦略は短期的および長期の時空間的依存性をうまく捉えることができ、一方で注意計算におけるキーや値の数を大幅に削減し、効率を高めることができる。 実験の結果,既存の手法に対する5つのビデオベンチマークにおいて,dualformerが優れていることがわかった。 特に、DualFormer は Kinetics-400/600 上で新しい最先端の 82.9%/85.2% のトップ-1 の精度を1000G の推論 FLOP で設定している。

While transformers have shown great potential on video recognition tasks with their strong capability of capturing long-range dependencies, they often suffer high computational costs induced by self-attention operation on the huge number of 3D tokens in a video. In this paper, we propose a new transformer architecture, termed DualFormer, which can effectively and efficiently perform space-time attention for video recognition. Specifically, our DualFormer stratifies the full space-time attention into dual cascaded levels, i.e., to first learn fine-grained local space-time interactions among nearby 3D tokens, followed by the capture of coarse-grained global dependencies between the query token and the coarse-grained global pyramid contexts. Different from existing methods that apply space-time factorization or restrict attention computations within local windows for improving efficiency, our local-global stratified strategy can well capture both short- and long-range spatiotemporal dependencies, and meanwhile greatly reduces the number of keys and values in attention computation to boost efficiency. Experimental results show the superiority of DualFormer on five video benchmarks against existing methods. In particular, DualFormer sets new state-of-the-art 82.9%/85.2% top-1 accuracy on Kinetics-400/600 with around 1000G inference FLOPs which is at least 3.2 times fewer than existing methods with similar performances.
翻訳日:2021-12-10 13:50:35 公開日:2021-12-09
# 早期グローバル統合によるローカルシフト注意

Locally Shifted Attention With Early Global Integration ( http://arxiv.org/abs/2112.05080v1 )

ライセンス: Link先を確認
Shelly Sheynin, Sagie Benaim, Adam Polyak, Lior Wolf(参考訳) 最近の研究はコンピュータビジョン応用のためのトランスフォーマーの可能性を示している。 イメージは最初にパッチに分割され、次にアテンションメカニズムの入力トークンとして使用される。 注意機構の高価な二次コストのため、大きなパッチサイズが使われ、粗い大域的な相互作用が生じるか、あるいは、長距離の相互作用を犠牲にして、画像の局所領域にのみ注意が適用される。 本研究では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微細化を両立させる手法を提案する。 我々の手法の核心は、局所的およびグローバルな注意層の適用である。 局所的な注意層では、各パッチとその局所的なシフトに注意を向け、事実上位置した局所的なパッチを1つの特定の場所に縛られない。 これらの仮想的位置のパッチは、グローバルアテンション層で使用される。 アテンション層をローカルとグローバルに分離することで、パッチ数の計算コストが低くなり、他の視覚トランスフォーマーの静的な位置決めとは対照的に、第1層ではすでにデータ依存のローカライズがサポートされている。 CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。 コードは、https://github.com/shellysheynin/Locally-SAG-Transformerで入手できる。

Recent work has shown the potential of transformers for computer vision applications. An image is first partitioned into patches, which are then used as input tokens for the attention mechanism. Due to the expensive quadratic cost of the attention mechanism, either a large patch size is used, resulting in coarse-grained global interactions, or alternatively, attention is applied only on a local region of the image, at the expense of long-range interactions. In this work, we propose an approach that allows for both coarse global interactions and fine-grained local interactions already at early layers of a vision transformer. At the core of our method is the application of local and global attention layers. In the local attention layer, we apply attention to each patch and its local shifts, resulting in virtually located local patches, which are not bound to a single, specific location. These virtually located patches are then used in a global attention layer. The separation of the attention layer into local and global counterparts allows for a low computational cost in the number of patches, while still supporting data-dependent localization already at the first layer, as opposed to the static positioning in other visual transformers. Our method is shown to be superior to both convolutional and transformer-based methods for image classification on CIFAR10, CIFAR100, and ImageNet. Code is available at: https://github.com/shellysheynin/Locally-SAG-Transformer.
翻訳日:2021-12-10 13:50:09 公開日:2021-12-09
# ヘイトフルおよび攻撃的言語検出のためのテキスト特徴の組み合わせ

Combining Textual Features for the Detection of Hateful and Offensive Language ( http://arxiv.org/abs/2112.04803v1 )

ライセンス: Link先を確認
Sherzod Hakimov and Ralph Ewerth(参考訳) ソーシャルネットワークの多くのユーザーが毎日のサイバーいじめ活動に晒されているため、攻撃的で憎しみのある言葉の検出は重大な課題となっている。 本稿では,twitter上で嫌がらせや不快な投稿を検出するために,異なるテキストの特徴を組み合わせた分析を行う。 ニューラルネットワークアーキテクチャにおける各ビルディングブロックの影響を理解するために,詳細な実験評価を行う。 提案アーキテクチャは、英語のSubtask 1A: Identifying Hate, offensive and profane Content from the post datasets of HASOC-2021 dataset under the team name TIB-VA。 文脈的単語埋め込みの異なる変種と文字レベルの埋め込みと、収集されたヘイトワードの符号化を比較した。

The detection of offensive, hateful and profane language has become a critical challenge since many users in social networks are exposed to cyberbullying activities on a daily basis. In this paper, we present an analysis of combining different textual features for the detection of hateful or offensive posts on Twitter. We provide a detailed experimental evaluation to understand the impact of each building block in a neural network architecture. The proposed architecture is evaluated on the English Subtask 1A: Identifying Hate, offensive and profane content from the post datasets of HASOC-2021 dataset under the team name TIB-VA. We compared different variants of the contextual word embeddings combined with the character level embeddings and the encoding of collected hate terms.
翻訳日:2021-12-10 13:49:45 公開日:2021-12-09
# トランスフォーマーを用いた構造化感情分析としての意見抽出

Opinion Extraction as A Structured Sentiment Analysis using Transformers ( http://arxiv.org/abs/2112.05056v1 )

ライセンス: Link先を確認
Yucheng Liu and Tian Zhu(参考訳) 関係抽出と名前付きエンティティ認識は、常に異なる入力データ、ラベル、モデルを必要とする2つの異なるタスクとみなされてきた。 しかし、どちらも構造化された感情分析に不可欠である。 両方のタスクは同じ入力データを持つ単一のスタックモデルに結合できると信じています。 一つの文から複数の意見タプルを抽出する最良のモデルを見つけるために,異なる実験を行った。 意見タプルはホルダー、ターゲット、表現で構成される。 意見のタプルによって、私たちは必要な関係を抽出することができます。

Relationship extraction and named entity recognition have always been considered as two distinct tasks that require different input data, labels, and models. However, both are essential for structured sentiment analysis. We believe that both tasks can be combined into a single stacked model with the same input data. We performed different experiments to find the best model to extract multiple opinion tuples from a single sentence. The opinion tuples will consist of holders, targets, and expressions. With the opinion tuples, we will be able to extract the relationship we need.
翻訳日:2021-12-10 13:49:32 公開日:2021-12-09
# ベストからベストへ:言語横断機械読解のための2段階学習

From Good to Best: Two-Stage Training for Cross-lingual Machine Reading Comprehension ( http://arxiv.org/abs/2112.04735v1 )

ライセンス: Link先を確認
Nuo Chen, Linjun Shou, Min Gong, Jian Pei, Daxin Jiang(参考訳) 低リソース言語でのトレーニングデータが不足しているため、言語間機械読解(xMRC)は困難である。 最近のアプローチでは、英語のようなリソース豊富な言語でのみトレーニングデータを使用して、大規模な言語間事前学習言語モデルを微調整している。 言語間の大きな違いのため、ソース言語のみによって微調整されたモデルは、ターゲット言語ではうまく機能しない可能性がある。 興味深いことに、前回のアプローチで予測されたトップ1の結果は、多くの場合、真正解に到達しないが、正しい答えは、トップk予測結果に含まれることが多い。 この観察に基づいて,モデル性能を向上させるための2段階アプローチを開発した。 私たちは、トップk予測が正確な答えを含む可能性を最大化するために、ハードラーニング(hl)アルゴリズムを設計します。 第2段階は、正確な回答と他の候補との微妙な違いを学習するために、回答認識コントラスト学習(AA-CL)機構を開発する。 大規模な実験により、我々のモデルは2つの言語間MCCベンチマークデータセットにおいて、強いベースラインを著しく上回ります。

Cross-lingual Machine Reading Comprehension (xMRC) is challenging due to the lack of training data in low-resource languages. The recent approaches use training data only in a resource-rich language like English to fine-tune large-scale cross-lingual pre-trained language models. Due to the big difference between languages, a model fine-tuned only by a source language may not perform well for target languages. Interestingly, we observe that while the top-1 results predicted by the previous approaches may often fail to hit the ground-truth answers, the correct answers are often contained in the top-k predicted results. Based on this observation, we develop a two-stage approach to enhance the model performance. The first stage targets at recall: we design a hard-learning (HL) algorithm to maximize the likelihood that the top-k predictions contain the accurate answer. The second stage focuses on precision: an answer-aware contrastive learning (AA-CL) mechanism is developed to learn the fine difference between the accurate answer and other candidates. Our extensive experiments show that our model significantly outperforms a series of strong baselines on two cross-lingual MRC benchmark datasets.
翻訳日:2021-12-10 13:47:11 公開日:2021-12-09
# VMAgent:強化学習のためのスケジューリングシミュレータ

VMAgent: Scheduling Simulator for Reinforcement Learning ( http://arxiv.org/abs/2112.04785v1 )

ライセンス: Link先を確認
Junjie Sheng and Shengliang Cai and Haochuan Cui and Wenhao Li and Yun Hua and Bo Jin and Wenli Zhou and Yiqiu Hu and Lei Zhu and Qian Peng and Hongyuan Zha and Xiangfeng Wang(参考訳) VMAgentと呼ばれる新しいシミュレータは、RL研究者が新しい方法、特に仮想マシンスケジューリングをよりよく探求するのに役立つ。 VMAgentは、実用的な仮想マシン(VM)スケジューリングタスクにインスパイアされ、クラウドコンピューティングの実際の状況を反映できる効率的なシミュレーションプラットフォームを提供する。 実践的なクラウドコンピューティングから3つのシナリオ(フェーディング、リカバリ、拡張)が完成し、多くの強化学習課題(高次元の状態とアクションスペース、高非定常性、生涯の需要)に対応する。 VMAgentは、RL研究者が異なる問題機能を考慮してカスタマイズされたスケジューリング環境を設計するための柔軟な構成を提供する。 VMスケジューリングの観点からは、VMAgentは学習ベースのスケジューリングソリューションの改善にも役立ちます。

A novel simulator called VMAgent is introduced to help RL researchers better explore new methods, especially for virtual machine scheduling. VMAgent is inspired by practical virtual machine (VM) scheduling tasks and provides an efficient simulation platform that can reflect the real situations of cloud computing. Three scenarios (fading, recovering, and expansion) are concluded from practical cloud computing and corresponds to many reinforcement learning challenges (high dimensional state and action spaces, high non-stationarity, and life-long demand). VMAgent provides flexible configurations for RL researchers to design their customized scheduling environments considering different problem features. From the VM scheduling perspective, VMAgent also helps to explore better learning-based scheduling solutions.
翻訳日:2021-12-10 13:46:53 公開日:2021-12-09
# (参考訳) PTR:パートベース概念・リレーショナル・物理推論のためのベンチマーク

PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning ( http://arxiv.org/abs/2112.05136v1 )

ライセンス: CC0 1.0
Yining Hong, Li Yi, Joshua B. Tenenbaum, Antonio Torralba, Chuang Gan(参考訳) 人間の視覚知覚の重要な側面は、視覚シーンを個々のオブジェクトにパースし、さらにオブジェクトにパースし、部分全体階層を形成する能力である。 このような複合構造は、意味概念と関係の豊富なセットを誘導し、視覚信号の解釈と組織化、および視覚知覚と推論の一般化において重要な役割を果たす。 しかし、既存のビジュアル推論ベンチマークは主に部品ではなくオブジェクトに焦点を当てている。 全体的パーシャル階層に基づく視覚的推論は、粒度の細かい概念、よりリッチな幾何学的関係、より複雑な物理学のために、オブジェクト中心の推論よりもずっと難しい。 そこで本研究では, 概念的, 関係的, 物理的推論に役立てるために, ptrと呼ばれる新しい大規模診断用ビジュアル推論データセットを提案する。 ptrには、約70k rgbd合成画像と、意味インスタンスのセグメンテーション、色属性、空間的および幾何学的関係、安定性などの特定の物理的性質に関する部分レベルのアノテーションが含まれている。 これらの画像は、様々なタイプの推論モデルをカバーする700kのマシン生成質問と組み合わせられ、視覚的推論モデルに適したテストベッドとなっている。 このデータセット上で最先端のビジュアル推論モデルをいくつか検討し、人間が容易に正しい答えを推測できる状況において、まだ多くの驚くべき誤りを犯していることを観察する。 このデータセットは、パートベースの推論に新たな機会をもたらすと思います。

A critical aspect of human visual perception is the ability to parse visual scenes into individual objects and further into object parts, forming part-whole hierarchies. Such composite structures could induce a rich set of semantic concepts and relations, thus playing an important role in the interpretation and organization of visual signals as well as for the generalization of visual perception and reasoning. However, existing visual reasoning benchmarks mostly focus on objects rather than parts. Visual reasoning based on the full part-whole hierarchy is much more challenging than object-centric reasoning due to finer-grained concepts, richer geometry relations, and more complex physics. Therefore, to better serve for part-based conceptual, relational and physical reasoning, we introduce a new large-scale diagnostic visual reasoning dataset named PTR. PTR contains around 70k RGBD synthetic images with ground truth object and part level annotations regarding semantic instance segmentation, color attributes, spatial and geometric relationships, and certain physical properties such as stability. These images are paired with 700k machine-generated questions covering various types of reasoning types, making them a good testbed for visual reasoning models. We examine several state-of-the-art visual reasoning models on this dataset and observe that they still make many surprising mistakes in situations where humans can easily infer the correct answer. We believe this dataset will open up new opportunities for part-based reasoning.
翻訳日:2021-12-10 13:44:45 公開日:2021-12-09
# 教師なし適応のためのWILDSベンチマークの拡張

Extending the WILDS Benchmark for Unsupervised Adaptation ( http://arxiv.org/abs/2112.05090v1 )

ライセンス: Link先を確認
Shiori Sagawa, Pang Wei Koh, Tony Lee, Irena Gao, Sang Michael Xie, Kendrick Shen, Ananya Kumar, Weihua Hu, Michihiro Yasunaga, Henrik Marklund, Sara Beery, Etienne David, Ian Stavness, Wei Guo, Jure Leskovec, Kate Saenko, Tatsunori Hashimoto, Sergey Levine, Chelsea Finn, Percy Liang(参考訳) ワイルドにデプロイされた機械学習システムは、しばしばソースディストリビューションでトレーニングされるが、異なるターゲットディストリビューションにデプロイされる。 ラベル付きデータは、ラベル付きデータよりも頻繁に利用できるため、これらの分散シフトを緩和するための強力なレバレッジポイントとなり得る。 しかしながら、ラベルのないデータに対する既存の分散シフトベンチマークは、現実世界のアプリケーションで発生するシナリオの幅を反映していない。 本稿では,WILDS 2.0の更新について紹介する。この更新は,WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。 これらのデータセットは、さまざまな応用(組織学から野生生物保護まで)、タスク(分類、回帰、検出)、モダリティ(写真、衛星画像、顕微鏡スライド、テキスト、分子グラフ)にまたがる。 我々は,ドメイン不変性や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークし,WILDS 2.0におけるその成功が限定されていることを示す。 手法の開発と評価を容易にするために,データローディングを自動化し,本論文で使用するモデルアーキテクチャと手法をすべて含むオープンソースパッケージを提供する。 コードとリーダーボードはhttps://wilds.stanford.edu.comで入手できる。

Machine learning systems deployed in the wild are often trained on a source distribution but deployed on a different target distribution. Unlabeled data can be a powerful point of leverage for mitigating these distribution shifts, as it is frequently much more available than labeled data. However, existing distribution shift benchmarks for unlabeled data do not reflect the breadth of scenarios that arise in real-world applications. In this work, we present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data that would be realistically obtainable in deployment. To maintain consistency, the labeled training, validation, and test sets, as well as the evaluation metrics, are exactly the same as in the original WILDS benchmark. These datasets span a wide range of applications (from histology to wildlife conservation), tasks (classification, regression, and detection), and modalities (photos, satellite images, microscope slides, text, molecular graphs). We systematically benchmark state-of-the-art methods that leverage unlabeled data, including domain-invariant, self-training, and self-supervised methods, and show that their success on WILDS 2.0 is limited. To facilitate method development and evaluation, we provide an open-source package that automates data loading and contains all of the model architectures and methods used in this paper. Code and leaderboards are available at https://wilds.stanford.edu.
翻訳日:2021-12-10 13:24:09 公開日:2021-12-09
# 自己監督型画像合成とテキスト画像合成

Self-Supervised Image-to-Text and Text-to-Image Synthesis ( http://arxiv.org/abs/2112.04928v1 )

ライセンス: Link先を確認
Anindya Sundar Das and Sriparna Saha(参考訳) 視覚と言語とそれらの相互関係の包括的理解は、これらのモダリティの基盤となる類似性と違いを認識し、より一般化された意味のある表現を学ぶために不可欠である。 近年、テキストから画像への合成や画像からテキストへの生成に関する著作の多くは、問題を解くために生成的深層アーキテクチャを監督することに焦点を当てており、モダリティをまたいだ埋め込み空間間の類似性を学ぶことにはほとんど関心が無かった。 本稿では, 画像からテキスト, テキスト, 画像生成まで, モーダルな埋め込み空間を学習するための, 自己教師型深層学習アプローチを提案する。 提案手法では、まず、LSTMベースのテキストオートコーダを用いて、StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と文レベルでの高密度ベクトル表現を取得し、次に、GANと最大平均離散性に基づく生成ネットワークを用いて、1つのモダリティの埋め込み空間から他のモダリティの埋め込み空間へのマッピングについて検討する。 また,本モデルは,画像データからテキスト記述や,質的および定量的にテキストデータから画像を生成することを学習することを示す。

A comprehensive understanding of vision and language and their interrelation are crucial to realize the underlying similarities and differences between these modalities and to learn more generalized, meaningful representations. In recent years, most of the works related to Text-to-Image synthesis and Image-to-Text generation, focused on supervised generative deep architectures to solve the problems, where very little interest was placed on learning the similarities between the embedding spaces across modalities. In this paper, we propose a novel self-supervised deep learning based approach towards learning the cross-modal embedding spaces; for both image to text and text to image generations. In our approach, we first obtain dense vector representations of images using StackGAN-based autoencoder model and also dense vector representations on sentence-level utilizing LSTM based text-autoencoder; then we study the mapping from embedding space of one modality to embedding space of the other modality utilizing GAN and maximum mean discrepancy based generative networks. We, also demonstrate that our model learns to generate textual description from image data as well as images from textual data both qualitatively and quantitatively.
翻訳日:2021-12-10 13:23:44 公開日:2021-12-09
# スケッチジャコビアン近似による証明可能な連続学習

Provable Continual Learning via Sketched Jacobian Approximations ( http://arxiv.org/abs/2112.05095v1 )

ライセンス: Link先を確認
Reinhard Heckel(参考訳) 機械学習における重要な問題は、逐次的にタスクを学習する能力である。 標準的な一階法で訓練された場合、ほとんどのモデルは、新しいタスクで訓練された時に学習されたタスクを忘れる。 忘れることを克服する一般的なアプローチは、以前のタスクでパフォーマンスの悪いモデルをペナルティにすることで損失関数を定式化することである。 例えば、弾性重み統合(EWC)は、過去のデータに基づく対角行列構築を含む二次形式で正規化される。 ewcはいくつかの設定で非常にうまく機能するが、仮に理想的条件下であっても、対角行列が以前のタスクのヘッセン行列の貧弱な近似であるなら、破滅的な忘れに陥る可能性がある。 過去のデータのヤコビ行列のスケッチを用いて新しいタスクのトレーニングを規則化する。 これにより、線形モデルや広いニューラルネットワークに対する破滅的な忘れを、メモリのコストで克服できる。 本研究の目的は,正規化に基づく連続学習アルゴリズムの動作状況とメモリコストに関する洞察を提供することである。

An important problem in machine learning is the ability to learn tasks in a sequential manner. If trained with standard first-order methods most models forget previously learned tasks when trained on a new task, which is often referred to as catastrophic forgetting. A popular approach to overcome forgetting is to regularize the loss function by penalizing models that perform poorly on previous tasks. For example, elastic weight consolidation (EWC) regularizes with a quadratic form involving a diagonal matrix build based on past data. While EWC works very well for some setups, we show that, even under otherwise ideal conditions, it can provably suffer catastrophic forgetting if the diagonal matrix is a poor approximation of the Hessian matrix of previous tasks. We propose a simple approach to overcome this: Regularizing training of a new task with sketches of the Jacobian matrix of past data. This provably enables overcoming catastrophic forgetting for linear models and for wide neural networks, at the cost of memory. The overarching goal of this paper is to provided insights on when regularization-based continual learning algorithms work and under what memory costs.
翻訳日:2021-12-10 13:23:22 公開日:2021-12-09
# (参考訳) raceBERT -- 名前から人種と民族を予測するトランスフォーマーベースのモデル

raceBERT -- A Transformer-based Model for Predicting Race and Ethnicity from Names ( http://arxiv.org/abs/2112.03807v3 )

ライセンス: CC BY 4.0
Prasanna Parasurama(参考訳) 本稿では、名前の文字列から人種や民族を予測するトランスフォーマーベースモデル raceBERT と、それに付随するpython パッケージを提案する。 フロリダ州の有権者登録データセットでトレーニングされたトランスフォーマーベースのモデルを使用して、このモデルは5つの米国国勢調査カテゴリー(白人、黒人、ヒスパニック、アジアと太平洋の島民、アメリカインディアンとアラスカ先住民)に属する名前の可能性を予測する。 私は Sood と Laohaprapanon (2018) を使って、LSTM モデルをトランスフォーマーベースモデル(事前トレーニングされたBERTモデルと、スクラッチからトレーニングされたRoBERTaモデル)に置き換えて、結果を比較します。 私の知る限りでは、 raceBERTは名前を使ったレース予測における最先端の結果を達成しており、平均f1スコアは0.86であり、以前の最先端よりも4.1%改善され、非白人名では15-17%改善されている。

This paper presents raceBERT -- a transformer-based model for predicting race and ethnicity from character sequences in names, and an accompanying python package. Using a transformer-based model trained on a U.S. Florida voter registration dataset, the model predicts the likelihood of a name belonging to 5 U.S. census race categories (White, Black, Hispanic, Asian & Pacific Islander, American Indian & Alaskan Native). I build on Sood and Laohaprapanon (2018) by replacing their LSTM model with transformer-based models (pre-trained BERT model, and a roBERTa model trained from scratch), and compare the results. To the best of my knowledge, raceBERT achieves state-of-the-art results in race prediction using names, with an average f1-score of 0.86 -- a 4.1% improvement over the previous state-of-the-art, and improvements between 15-17% for non-white names.
翻訳日:2021-12-10 13:21:24 公開日:2021-12-09
# (参考訳) グラフ表現を評価する何百もの論文における非現実的予測の利用について

On the Use of Unrealistic Predictions in Hundreds of Papers Evaluating Graph Representations ( http://arxiv.org/abs/2112.04274v2 )

ライセンス: CC BY 4.0
Li-Chung Lin, Cheng-Hung Liu, Chih-Ming Chen, Kai-Chin Hsu, I-Feng Wu, Ming-Feng Tsai and Chih-Jen Lin(参考訳) 基底的真理を用いた予測は、機械学習のオキシモロンのように聞こえる。 しかし、そのような非現実的な設定は、グラフ表現を見つける領域において、何千もの論文が使われた。 得られた表現を用いてノード分類のマルチラベル問題を評価するため、各テストインスタンスのラベル数が分かっているという予測段階で多くの作品が想定される。 実際には、そのような真理情報はほとんど得られないが、このような不適切な設定は、現在この研究領域で広く使われていることを指摘する。 我々はその事情を詳しく調査する。 分析の結果,非現実的な情報では性能が過大評価される可能性が示唆された。 適切な予測が使われていない理由を確かめるため,複数ラベル技術の適用の難しさを明らかにする。 今後の研究において,実際に未知の情報を用いることなく,シンプルで効果的な設定を提案する。 最後に,マルチラベルノード分類における主要なグラフ表現学習手法を公平かつ真剣に比較する機会を得た。

Prediction using the ground truth sounds like an oxymoron in machine learning. However, such an unrealistic setting was used in hundreds, if not thousands of papers in the area of finding graph representations. To evaluate the multi-label problem of node classification by using the obtained representations, many works assume in the prediction stage that the number of labels of each test instance is known. In practice such ground truth information is rarely available, but we point out that such an inappropriate setting is now ubiquitous in this research area. We detailedly investigate why the situation occurs. Our analysis indicates that with unrealistic information, the performance is likely over-estimated. To see why suitable predictions were not used, we identify difficulties in applying some multi-label techniques. For the use in future studies, we propose simple and effective settings without using practically unknown information. Finally, we take this chance to conduct a fair and serious comparison of major graph-representation learning methods on multi-label node classification.
翻訳日:2021-12-10 13:16:19 公開日:2021-12-09
# (参考訳) 深層学習と数学的直観: (Davies et al. 2021)

Deep Learning and Mathematical Intuition: A Review of (Davies et al. 2021) ( http://arxiv.org/abs/2112.04324v2 )

ライセンス: CC BY 4.0
Ernest Davis(参考訳) Davies et al (2021) による最近の論文では、深層学習(DL)技術が2つの元の数学的結果(結び目理論では1つ、表現理論では1つ)を導いた可算仮説の発見にどのように使われたかが述べられている。 ここでは、このDL技術の数学への応用の重要性と新規性は、レビュー中の論文では著しく過大評価されており、ポピュラーな科学雑誌のいくつかの説明では、非常に過大評価されていると論じます。 結び目理論の結果,DLの役割は小さく,従来の統計分析では十分であったと考えられる。 表現論の結果では、dlの役割ははるかに大きいが、実験数学において何十年にもわたって行われたものとは大きく異なるものではない。 また,本論文で有用であるDLの特徴が,幅広い数学的問題に適用されるかどうかも明らかになっていない。 最後に、ここでのDLは「人間の直観を導く」ことであり、誤解を招くものであると私は論じます。 表現論の結果は、DLの数学的研究へのオリジナルで興味深い応用を表しているが、その大きな意義ははっきりしない。

A recent paper by Davies et al (2021) describes how deep learning (DL) technology was used to find plausible hypotheses that have led to two original mathematical results: one in knot theory, one in representation theory. I argue here that the significance and novelty of this application of DL technology to mathematics is significantly overstated in the paper under review and has been wildly overstated in some of the accounts in the popular science press. In the knot theory result, the role of DL was small, and a conventional statistical analysis would probably have sufficed. In the representation theory result, the role of DL is much larger; however, it is not very different in kind from what has been done in experimental mathematics for decades. Moreover, it is not clear whether the distinctive features of DL that make it useful here will apply across a wide range of mathematical problems. Finally, I argue that the DL here "guides human intuition" is unhelpful and misleading; what the DL does primarily does is to mark many possible conjectures as false and a few others as possibly worthy of study. Certainly the representation theory result represents an original and interesting application of DL to mathematical research, but its larger significance is uncertain.
翻訳日:2021-12-10 13:04:31 公開日:2021-12-09
# CMA-CLIP:画像テキスト分類のためのクロスモーダルアテンションCLIP

CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification ( http://arxiv.org/abs/2112.03562v2 )

ライセンス: Link先を確認
Huidong Liu, Shaoyuan Xu, Jinmiao Fu, Yang Liu, Ning Xie, Chien-Chih Wang, Bryan Wang, Yi Sun(参考訳) ソーシャルメディアやeコマースのような現代のウェブシステムは、画像やテキストで表現された豊富なコンテンツを含んでいる。 マルチモダリティの情報を活用することで、分類やレコメンデーションといった機械学習タスクのパフォーマンスが向上する。 本稿では,相互モダリティの注意とモダリティの注意という2つのタイプの注意を統一し,画像とテキストのペアから情報を効果的に融合する新しい枠組みである,相互モダリティの注意比較言語-イメージ事前学習(cma-clip)を提案する。 シーケンシャルな注意によって、フレームはイメージパッチとテキストトークンの間のきめ細かい関係を捉えることができ、モダリティ的な注意は下流タスクとの関連性によって各モダリティを重くします。 さらに,多層型パーセプトロンとタスク固有モダリティアテンションを追加することで,マルチモダリティを用いたマルチタスク分類が可能となる。 我々は,Major Retail Website Product Attribute(MRWPA)データセットと2つのパブリックデータセットであるFood101とFashion-Genで実験を行った。 CMA-CLIPは、マルチタスク分類のためのMRWPAデータセットと同レベルの精度で、平均11.9%のリコールでトレーニング済みおよび微調整済みのCLIPよりも優れていた。 また、Fashion-Gen Datasetの最先端の手法を5.5%の精度で上回り、Food101 Dataset上での競合性能を達成する。 より詳細なアブレーション研究を通じて,画像およびテキスト入力におけるモーダリティ・アテンション・モジュールの有効性と,本手法の雑音に対する頑健性の両立を実証する。

Modern Web systems such as social media and e-commerce contain rich contents expressed in images and text. Leveraging information from multi-modalities can improve the performance of machine learning tasks such as classification and recommendation. In this paper, we propose the Cross-Modality Attention Contrastive Language-Image Pre-training (CMA-CLIP), a new framework which unifies two types of cross-modality attentions, sequence-wise attention and modality-wise attention, to effectively fuse information from image and text pairs. The sequence-wise attention enables the framework to capture the fine-grained relationship between image patches and text tokens, while the modality-wise attention weighs each modality by its relevance to the downstream tasks. In addition, by adding task specific modality-wise attentions and multilayer perceptrons, our proposed framework is capable of performing multi-task classification with multi-modalities. We conduct experiments on a Major Retail Website Product Attribute (MRWPA) dataset and two public datasets, Food101 and Fashion-Gen. The results show that CMA-CLIP outperforms the pre-trained and fine-tuned CLIP by an average of 11.9% in recall at the same level of precision on the MRWPA dataset for multi-task classification. It also surpasses the state-of-the-art method on Fashion-Gen Dataset by 5.5% in accuracy and achieves competitive performance on Food101 Dataset. Through detailed ablation studies, we further demonstrate the effectiveness of both cross-modality attention modules and our method's robustness against noise in image and text inputs, which is a common challenge in practice.
翻訳日:2021-12-10 12:56:28 公開日:2021-12-09
# 視覚言語ナビゲーションのためのコントラスト学習

Contrastive Instruction-Trajectory Learning for Vision-Language Navigation ( http://arxiv.org/abs/2112.04138v2 )

ライセンス: Link先を確認
Xiwen Liang, Fengda Zhu, Yi Zhu, Bingqian Lin, Bing Wang, Xiaodan Liang(参考訳) 視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語命令のガイダンスでターゲットに到達する必要がある。 以前の作業は、命令に従ってステップバイステップでナビゲートすることを学ぶ。 しかし、これらの著作は命令-主対間の類似性と不一致を区別できず、副指示の時間的連続性を無視できない可能性がある。 これらの問題はエージェントが視覚的な視覚と言語表現を学ぶことを妨げ、ナビゲーションポリシーの堅牢性と一般化性を損なう。 本稿では、類似データサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストナビゲーションのための特徴表現を学習するContrastive Instruction-Trajectory Learning (CITL)フレームワークを提案する。 Specifically, we propose: (1) a coarse-grained contrastive learning objective to enhance vision-and-language representations by contrasting semantics of full trajectory observations and instructions, respectively; (2) a fine-grained contrastive learning objective to perceive instructions by leveraging the temporal information of the sub-instructions; (3) a pairwise sample-reweighting mechanism for contrastive learning to mine hard samples and hence mitigate the influence of data sampling bias in contrastive learning. 我々のCITLは、VLNバックボーンと容易に統合でき、新しい学習パラダイムを形成し、目に見えない環境でより良い一般化を実現することができる。 大規模な実験により,CITLを用いたモデルが従来のR2R,R4R,RxRの最先端手法を上回ることがわかった。

The vision-language navigation (VLN) task requires an agent to reach a target with the guidance of natural language instruction. Previous works learn to navigate step-by-step following an instruction. However, these works may fail to discriminate the similarities and discrepancies across instruction-trajectory pairs and ignore the temporal continuity of sub-instructions. These problems hinder agents from learning distinctive vision-and-language representations, harming the robustness and generalizability of the navigation policy. In this paper, we propose a Contrastive Instruction-Trajectory Learning (CITL) framework that explores invariance across similar data samples and variance across different ones to learn distinctive representations for robust navigation. Specifically, we propose: (1) a coarse-grained contrastive learning objective to enhance vision-and-language representations by contrasting semantics of full trajectory observations and instructions, respectively; (2) a fine-grained contrastive learning objective to perceive instructions by leveraging the temporal information of the sub-instructions; (3) a pairwise sample-reweighting mechanism for contrastive learning to mine hard samples and hence mitigate the influence of data sampling bias in contrastive learning. Our CITL can be easily integrated with VLN backbones to form a new learning paradigm and achieve better generalizability in unseen environments. Extensive experiments show that the model with CITL surpasses the previous state-of-the-art methods on R2R, R4R, and RxR.
翻訳日:2021-12-10 12:55:50 公開日:2021-12-09
# スケルトンに基づく効率的な行動認識のためのトポロジー認識畳み込みニューラルネットワーク

Topology-aware Convolutional Neural Network for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2112.04178v2 )

ライセンス: Link先を確認
Kailin Xu, Fanfan Ye, Qiaoyong Zhong, Di Xie(参考訳) スケルトンに基づく行動認識では,グラフ畳み込みニューラルネットワーク (gcns) が急速に開発され,畳み込みニューラルネットワーク (cnns) は注目されていない。 1つの理由は、CNNが不規則な骨格トポロジーをモデル化するのに不十分であると考えられるからである。 本稿では,この制限を軽減するために,Topology-Aware CNN (Ta-CNN) という純粋CNNアーキテクチャを提案する。 特に,map-attend-group-map操作を組み合わせた新しいクロスチャネル機能拡張モジュールを開発した。 モジュールを座標レベルおよびジョイントレベルに適用することにより、トポロジの特徴を効果的に強化する。 特に,ジョイント次元をチャネルとして扱う場合,グラフ畳み込みが正規畳み込みの特別な場合であることを理論的に証明する。 これは、GCNのトポロジモデリング能力がCNNを用いて実装可能であることを確認する。 さらに,2人を独特な方法で混合し,パフォーマンスをさらに向上するSkeletonMix戦略を創造的に設計する。 Ta-CNNの有効性を検証するために、N-UCLA、SBU、NTU RGB+D、NTU RGB+D 120の4つの広く使われているデータセットに対して大規模な実験を行った。 我々は既存のCNNベースの手法をはるかに上回っている。 主要なGCNベースの手法と比較して、必要なGFLOPやパラメータに関して、はるかに少ない複雑さで同等のパフォーマンスを達成する。

In the context of skeleton-based action recognition, graph convolutional networks (GCNs) have been rapidly developed, whereas convolutional neural networks (CNNs) have received less attention. One reason is that CNNs are considered poor in modeling the irregular skeleton topology. To alleviate this limitation, we propose a pure CNN architecture named Topology-aware CNN (Ta-CNN) in this paper. In particular, we develop a novel cross-channel feature augmentation module, which is a combo of map-attend-group-map operations. By applying the module to the coordinate level and the joint level subsequently, the topology feature is effectively enhanced. Notably, we theoretically prove that graph convolution is a special case of normal convolution when the joint dimension is treated as channels. This confirms that the topology modeling power of GCNs can also be implemented by using a CNN. Moreover, we creatively design a SkeletonMix strategy which mixes two persons in a unique manner and further boosts the performance. Extensive experiments are conducted on four widely used datasets, i.e. N-UCLA, SBU, NTU RGB+D and NTU RGB+D 120 to verify the effectiveness of Ta-CNN. We surpass existing CNN-based methods significantly. Compared with leading GCN-based methods, we achieve comparable performance with much less complexity in terms of the required GFLOPs and parameters.
翻訳日:2021-12-10 12:55:27 公開日:2021-12-09
# パレートドメイン適応

Pareto Domain Adaptation ( http://arxiv.org/abs/2112.04137v2 )

ライセンス: Link先を確認
Fangrui Lv, Jian Liang, Kaixiong Gong, Shuang Li, Chi Harold Liu, Han Li, Di Liu, Guoren Wang(参考訳) ドメイン適応(DA)は、ラベル付きソースドメインから、ソースから異なる分布に従うラベル付きターゲットドメインへの知識の転送を試みる。 これを実現するため、DA法は、ソース知識を抽出するソース分類目的と、ドメインシフトを減少させるドメインアライメント目的とを包含し、知識伝達を保証する。 従来のDA法では、トレーニング目的を線形に組み合わせて全体目標を形成するために、いくつかの重み付きハイパーパラメータが採用されている。 しかし、これらの目的の勾配方向はドメインシフトによって互いに矛盾する可能性がある。 このような状況下では、線形最適化スキームは訓練対象の1つを損なうことなく全体目標値を減少させ、制限された解をもたらす可能性がある。 本稿では,勾配に基づく観点から,DAの最適化手法を再考する。 そこで本研究では,pareto domain adaptation (paretoda) アプローチを提案する。 具体的には、ターゲット領域上で望ましい解に到達するために、ターゲット分類を模倣した代理損失を設計する。 模倣を支援するための目標予測精度を向上させるため,ベイズの定理を用いてドメインラベルを利用する目標予測精錬機構を提案する。 一方,目的に対する重み付けスキームの事前知識は,対象領域の最適解に近づくための最適化を導くためにしばしば利用できないため,保持されたラベルなしの目標データセット上でのサーロゲート損失の勾配による協調最適化を動的に導く動的選好機構を提案する。 ParetoDAの有効性を示す画像分類とセマンティックセグメンテーションベンチマークに関する大規模な実験

Domain adaptation (DA) attempts to transfer the knowledge from a labeled source domain to an unlabeled target domain that follows different distribution from the source. To achieve this, DA methods include a source classification objective to extract the source knowledge and a domain alignment objective to diminish the domain shift, ensuring knowledge transfer. Typically, former DA methods adopt some weight hyper-parameters to linearly combine the training objectives to form an overall objective. However, the gradient directions of these objectives may conflict with each other due to domain shift. Under such circumstances, the linear optimization scheme might decrease the overall objective value at the expense of damaging one of the training objectives, leading to restricted solutions. In this paper, we rethink the optimization scheme for DA from a gradient-based perspective. We propose a Pareto Domain Adaptation (ParetoDA) approach to control the overall optimization direction, aiming to cooperatively optimize all training objectives. Specifically, to reach a desirable solution on the target domain, we design a surrogate loss mimicking target classification. To improve target-prediction accuracy to support the mimicking, we propose a target-prediction refining mechanism which exploits domain labels via Bayes' theorem. On the other hand, since prior knowledge of weighting schemes for objectives is often unavailable to guide optimization to approach the optimal solution on the target domain, we propose a dynamic preference mechanism to dynamically guide our cooperative optimization by the gradient of the surrogate loss on a held-out unlabeled target dataset. Extensive experiments on image classification and semantic segmentation benchmarks demonstrate the effectiveness of ParetoDA
翻訳日:2021-12-10 12:55:04 公開日:2021-12-09
# オンライン資源配分におけるエクイティプロモーション

Equity Promotion in Online Resource Allocation ( http://arxiv.org/abs/2112.04169v2 )

ライセンス: Link先を確認
Pan Xu and Yifan Xu(参考訳) 我々は、政府のような非営利組織によって限られた資源や少ない資源が管理される典型的な非営利環境下でのオンライン資源の配分を考える。 私たちは、到着した要求者は要求のような外部要因では均質であるが、人口統計のような内部属性では異質であると仮定することで、内部平等にフォーカスする。 具体的には、到着した各要求者を、その人口統計(人種、性別、年齢など)に基づいて1つまたは複数のグループに関連付け、各要求者集団が予め設定された目標比率に比例するリソースの公平なシェアを得られるように公平な分散戦略をデザインすることを目的とする。 2つのLPに基づくサンプリングアルゴリズムを提示し,ミネソタ州保健省が保有する実際のCOVID-19ワクチン接種データに基づいて理論的に(競争率分析の観点から)検討した。 理論的および数値的な結果から、当社のLPベースのサンプリング戦略は、特にCOVID-19ワクチンのロールアウトの初期段階で見られるように、到着人口が不均等に代表される場合に、効果的に株式を促進できることが示された。

We consider online resource allocation under a typical non-profit setting, where limited or even scarce resources are administered by a not-for-profit organization like a government. We focus on the internal-equity by assuming that arriving requesters are homogeneous in terms of their external factors like demands but heterogeneous for their internal attributes like demographics. Specifically, we associate each arriving requester with one or several groups based on their demographics (i.e., race, gender, and age), and we aim to design an equitable distributing strategy such that every group of requesters can receive a fair share of resources proportional to a preset target ratio. We present two LP-based sampling algorithms and investigate them both theoretically (in terms of competitive-ratio analysis) and experimentally based on real COVID-19 vaccination data maintained by the Minnesota Department of Health. Both theoretical and numerical results show that our LP-based sampling strategies can effectively promote equity, especially when the arrival population is disproportionately represented, as observed in the early stage of the COVID-19 vaccine rollout.
翻訳日:2021-12-10 12:54:37 公開日:2021-12-09