このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220919となっている論文です。

PDF登録状況(公開日: 20220919)

TitleAuthorsAbstract論文公表日・翻訳日
# 部分空間配置の同型センシング

Homomorphic Sensing of Subspace Arrangements ( http://arxiv.org/abs/2006.05158v4 )

ライセンス: Link先を確認
Liangzu Peng and Manolis C. Tsakiris(参考訳) 準同型センシングは、与えられた線型写像の集合の下で画像から線型部分空間内の点のユニークな回復を研究する最近の代数的幾何学的枠組みである。 このような回復は、無ラベルセンシング(unlabeled sensing)として知られるアプリケーションの重要な例である座標投影(co coordinate projections)によって構成される置換(permutation)の場合にうまく解釈され、秩序の欠如した値を持つデータをモデル化している。 本稿では,単部分空間の場合の一意な回復を保証し,その結果を部分空間配置の場合にまで拡張し,単一部分空間における一意な回復が雑音下で局所的に安定であることを示す,より厳密で簡単な条件を提案する。 本研究は実相検索やラベルなしセンシングなどの準同型センシングの例に特化している。 このようにして、統一的な方法で、文献の様々な技術を通して一般的に知られているこれらの事例のユニークな回復を保証する条件と、ラベルなしセンシングのスパース版と未署名版のための新しい条件を得る。 同様に、我々のノイズは、ラベルなしセンシングにおけるユニークなリカバリが局所的に安定であることを示す。

Homomorphic sensing is a recent algebraic-geometric framework that studies the unique recovery of points in a linear subspace from their images under a given collection of linear maps. It has been successful in interpreting such a recovery in the case of permutations composed by coordinate projections, an important instance in applications known as unlabeled sensing, which models data that are out of order and have missing values. In this paper, we provide tighter and simpler conditions that guarantee the unique recovery for the single-subspace case, extend the result to the case of a subspace arrangement, and show that the unique recovery in a single subspace is locally stable under noise. We specialize our results to several examples of homomorphic sensing such as real phase retrieval and unlabeled sensing. In so doing, in a unified way, we obtain conditions that guarantee the unique recovery for those examples, typically known via diverse techniques in the literature, as well as novel conditions for sparse and unsigned versions of unlabeled sensing. Similarly, our noise result also implies that the unique recovery in unlabeled sensing is locally stable.
翻訳日:2022-11-23 14:38:48 公開日:2022-09-19
# 確率的オートエンコーダ

Probabilistic Autoencoder ( http://arxiv.org/abs/2006.05479v4 )

ライセンス: Link先を確認
Vanessa B\"ohm and Uro\v{s} Seljak(参考訳) 主成分分析 (pca) は固定成分次元の線形モデルに与えられた再構成誤差を最小化する。 確率的PCAは、PCA潜在空間重みの確率分布を学習して確率的構造を加え、生成モデルを作成する。 オートエンコーダ(AE)は、固定された潜在空間次元の非線形モデルのクラスにおける再構成誤差を最小化し、固定された次元でのPCAよりも優れる。 本稿では,正規化フロー(nf)を用いてae潜時空間重みの確率分布を学習する確率的オートエンコーダ(pae)を提案する。 PAEは高速で訓練が容易で、小さな再構成エラー、高いサンプル品質、下流タスクのパフォーマンス向上を実現している。 PAE と変分AE (VAE) を比較し,PAE の訓練速度が速く,再現誤差が低く,特別なチューニングパラメータや訓練手順を必要とせず,優れたサンプル品質が得られることを示した。 さらに, pae は, 可逆問題に対するベイズ推定の文脈において, 確率的画像再構成の下流課題を実行するための強力なモデルであることを示した。 最後に,NFから潜在空間密度を有望な外れ値検出指標として同定する。

Principal Component Analysis (PCA) minimizes the reconstruction error given a class of linear models of fixed component dimensionality. Probabilistic PCA adds a probabilistic structure by learning the probability distribution of the PCA latent space weights, thus creating a generative model. Autoencoders (AE) minimize the reconstruction error in a class of nonlinear models of fixed latent space dimensionality and outperform PCA at fixed dimensionality. Here, we introduce the Probabilistic Autoencoder (PAE) that learns the probability distribution of the AE latent space weights using a normalizing flow (NF). The PAE is fast and easy to train and achieves small reconstruction errors, high sample quality, and good performance in downstream tasks. We compare the PAE to Variational AE (VAE), showing that the PAE trains faster, reaches a lower reconstruction error, and produces good sample quality without requiring special tuning parameters or training procedures. We further demonstrate that the PAE is a powerful model for performing the downstream tasks of probabilistic image reconstruction in the context of Bayesian inference of inverse problems for inpainting and denoising applications. Finally, we identify latent space density from NF as a promising outlier detection metric.
翻訳日:2022-11-23 14:09:26 公開日:2022-09-19
# 反対にランクを習う

Learning To Rank Diversely ( http://arxiv.org/abs/2210.07774v1 )

ライセンス: Link先を確認
Malay Haldar, Mustafa Abdool, Liwei He, Dillon Davis, Huiji Gao, Sanjeev Katariya(参考訳) Airbnbは二面的なマーケットプレースで、家賃のリスティングを所有するホストと世界中から来場客を集めている。 ランク付け技術にニューラルネットワークベースの学習を適用することで、ゲストとホストのマッチングが大幅に改善されている。 これらのランキングの改善はコア戦略によって推進された: 予測された予約確率でリストを順序付けし、これらの予約確率の推定をより正確にするためのテクニックを反復する。 この戦略に暗黙的に埋め込まれた仮定は、リストの予約確率が検索結果の他のリストとは独立して決定できるという仮定であった。 本稿では,フレームワークのランク付けに広く用いられているこの仮定がいかに誤っているかを論じる。 この仮定を補正する理論的基盤を提供し、その後に理論に基づく効率的なニューラルネットワークアーキテクチャを提供する。 リスト間の類似性を明示的に説明し、検索結果の多様化を減らすことで、強いポジティブな影響が生じた。 この理論のオンラインA/Bテストの一環として,これらの指標の勝利について議論する。 本手法は,大規模生産ランキングシステムの検索結果を多角化するための実用的な手法である。

Airbnb is a two-sided marketplace, bringing together hosts who own listings for rent, with prospective guests from around the globe. Applying neural network-based learning to rank techniques has led to significant improvements in matching guests with hosts. These improvements in ranking were driven by a core strategy: order the listings by their estimated booking probabilities, then iterate on techniques to make these booking probability estimates more and more accurate. Embedded implicitly in this strategy was an assumption that the booking probability of a listing could be determined independently of other listings in search results. In this paper we discuss how this assumption, pervasive throughout the commonly-used learning to rank frameworks, is false. We provide a theoretical foundation correcting this assumption, followed by efficient neural network architectures based on the theory. Explicitly accounting for possible similarities between listings, and reducing them to diversify the search results generated strong positive impact. We discuss these metric wins as part of the online A/B tests of the theory. Our method provides a practical way to diversify search results for large-scale production ranking systems.
翻訳日:2022-10-23 21:00:29 公開日:2022-09-19
# エキスパートモデルの高次元混合におけるLassoに対する$l_1$-oracleの不等式

An $l_1$-oracle inequality for the Lasso in high-dimensional mixtures of experts models ( http://arxiv.org/abs/2009.10622v4 )

ライセンス: Link先を確認
TrungTin Nguyen, Hien D Nguyen, Faicel Chamroukhi and Geoffrey J McLachlan(参考訳) moeモデル(mixeds of experts)は、柔軟性と利用可能な統計推定とモデル選択ツールの豊富さのため、統計と機械学習における回帰問題と分類問題の両方において、データの不均一性をモデリングするための一般的なフレームワークである。 このような柔軟性は、MoEモデルの混合重み(またはゲーティング関数)が専門家(またはコンポーネント密度)とともに説明変数に依存することを許容することに由来する。 これにより、より複雑なデータ生成プロセスから生じるデータのモデリングを、古典的有限混合と、混合パラメータが共変量とは独立な回帰モデルの有限混合と比較することができる。 高次元設定におけるmoeモデルの使用は、説明変数の数がサンプルサイズよりはるかに大きい場合、計算の観点からは困難であり、特に理論的な観点からは、統計的な推定と特徴選択問題の両方において、次元の呪いを扱うための結果が未だに不足している。 我々は,ソフトマックスゲーティング関数を持つ有限moeモデルと,異種データに対する高次元回帰に関するガウス専門家,およびlassoによる$l_1$-正規化推定について考察する。 我々は,特徴選択特性よりもラッソ推定特性に注目した。 我々は、lasso関数の正規化パラメータの下限を提供し、kullback-leibler損失に応じてlasso推定者が満足する$l_1$-oracle不等式を保証する。

Mixtures of experts (MoE) models are a popular framework for modeling heterogeneity in data, for both regression and classification problems in statistics and machine learning, due to their flexibility and the abundance of available statistical estimation and model choice tools. Such flexibility comes from allowing the mixture weights (or gating functions) in the MoE model to depend on the explanatory variables, along with the experts (or component densities). This permits the modeling of data arising from more complex data generating processes when compared to the classical finite mixtures and finite mixtures of regression models, whose mixing parameters are independent of the covariates. The use of MoE models in a high-dimensional setting, when the number of explanatory variables can be much larger than the sample size, is challenging from a computational point of view, and in particular from a theoretical point of view, where the literature is still lacking results for dealing with the curse of dimensionality, for both the statistical estimation and feature selection problems. We consider the finite MoE model with soft-max gating functions and Gaussian experts for high-dimensional regression on heterogeneous data, and its $l_1$-regularized estimation via the Lasso. We focus on the Lasso estimation properties rather than its feature selection properties. We provide a lower bound on the regularization parameter of the Lasso function that ensures an $l_1$-oracle inequality satisfied by the Lasso estimator according to the Kullback--Leibler loss.
翻訳日:2022-10-15 21:32:19 公開日:2022-09-19
# ペア画像とテキストからの医用視覚表現のコントラスト学習

Contrastive Learning of Medical Visual Representations from Paired Images and Text ( http://arxiv.org/abs/2010.00747v2 )

ライセンス: Link先を確認
Yuhao Zhang, Hang Jiang, Yasuhide Miura, Christopher D. Manning, Curtis P. Langlotz(参考訳) 医用画像(例えばX線)の視覚的表現の学習は、医用画像理解のコアとなるが、その進歩は人間のアノテーションの不足に支えられている。 既存の作業では、イメージネットプリトレーニングから転送される微調整重み(画像特性が大きく異なるため最適ではない)や、不正確で一般化が難しい医療画像とペアリングされたテキストレポートデータからの規則に基づくラベル抽出が一般的である。 一方、近年の研究では、自然画像からの教師なしのコントラスト学習によるエキサイティングな結果が示されているが、これらの手法は、クラス間の類似度が高いため、医療画像にはほとんど役に立たない。 本研究では,自然発生のペア記述テキストを活用することで,医用視覚表現を学習するための代替手法であるConVIRTを提案する。 この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しない。 トレーニング済みの重みを4つの医用画像分類タスクと2つのゼロショット検索タスクに転送することで、ConVIRTをテストする。 特に,すべての4つの分類タスクにおいて,画像ネットの初期化データとラベル付きトレーニングデータの10%しか必要とせず,優れた性能と同等の性能を実現し,優れたデータ効率を示す。

Learning visual representations of medical images (e.g., X-rays) is core to medical image understanding but its progress has been held back by the scarcity of human annotations. Existing work commonly relies on fine-tuning weights transferred from ImageNet pretraining, which is suboptimal due to drastically different image characteristics, or rule-based label extraction from the textual report data paired with medical images, which is inaccurate and hard to generalize. Meanwhile, several recent studies show exciting results from unsupervised contrastive learning from natural images, but we find these methods help little on medical images because of their high inter-class similarity. We propose ConVIRT, an alternative unsupervised strategy to learn medical visual representations by exploiting naturally occurring paired descriptive text. Our new method of pretraining medical image encoders with the paired text data via a bidirectional contrastive objective between the two modalities is domain-agnostic, and requires no additional expert input. We test ConVIRT by transferring our pretrained weights to 4 medical image classification tasks and 2 zero-shot retrieval tasks, and show that it leads to image representations that considerably outperform strong baselines in most settings. Notably, in all 4 classification tasks, our method requires only 10\% as much labeled training data as an ImageNet initialized counterpart to achieve better or comparable performance, demonstrating superior data efficiency.
翻訳日:2022-10-12 00:23:25 公開日:2022-09-19
# コンタクトリッチ操作における強化学習のための知識伝達

Transferring Knowledge for Reinforcement Learning in Contact-Rich Manipulation ( http://arxiv.org/abs/2210.02891v1 )

ライセンス: Link先を確認
Quantao Yang, Johannes A. Stork, and Todor Stoyanov(参考訳) 製造において、組立タスクは異なる環境の変動力学のためにアルゴリズムを学ぶことの難しさであった。 強化学習(rl)は、これらのタスクを自動的に学習する有望なフレームワークだが、デプロイメント条件がわずかに異なる場合でも、タスクを解決する能力である学習されたポリシやスキルを、同様の環境に適用するのは容易ではない。 本稿では,複数のスキルを活かして,類似したタスクのファミリー内で知識を伝達するという課題に対処する。 本稿では,各タスクの達成に必要な特定のスキルに対する事前分布を学習し,各タスクと先行タスクの類似性を比較することにより,新しいタスクの方針学習を指導するスキルファミリーを構成することを提案する。 提案手法は,先行タスク毎の実証軌道から,スキル埋め込みを表す潜在行動空間を学習する。 我々は本手法をpeg-in-hole挿入タスクのセットで評価し,訓練中に遭遇したことのない新しいタスクへのより良い一般化を示す。

In manufacturing, assembly tasks have been a challenge for learning algorithms due to variant dynamics of different environments. Reinforcement learning (RL) is a promising framework to automatically learn these tasks, yet it is still not easy to apply a learned policy or skill, that is the ability of solving a task, to a similar environment even if the deployment conditions are only slightly different. In this paper, we address the challenge of transferring knowledge within a family of similar tasks by leveraging multiple skill priors. We propose to learn prior distribution over the specific skill required to accomplish each task and compose the family of skill priors to guide learning the policy for a new task by comparing the similarity between the target task and the prior ones. Our method learns a latent action space representing the skill embedding from demonstrated trajectories for each prior task. We have evaluated our method on a set of peg-in-hole insertion tasks and demonstrate better generalization to new tasks that have never been encountered during training.
翻訳日:2022-10-09 17:19:18 公開日:2022-09-19
# 皮質表面の関節再建とパーセレーション

Joint Reconstruction and Parcellation of Cortical Surfaces ( http://arxiv.org/abs/2210.01772v1 )

ライセンス: Link先を確認
Anne-Marie Rickmann, Fabian Bongratz, Sebastian P\"olsterl, Ignacio Sarasua, Christian Wachinger(参考訳) 脳MRIスキャンによる大脳皮質表面の再構築は、アルツハイマー病(AD)のような神経変性疾患における脳形態の分析と皮質の薄化の検出に役立つ。 また、萎縮パターンの微細な解析には、皮質表面の個々の脳領域への小胞体化が必要である。 従来の課題では、入力MRIスキャンから数秒で組織境界の高精度な脳表面を提供する強力なディープラーニングアプローチが最近提案されている。 しかし、これらの方法は、再構成された表面のパーセレーションを提供する能力を持っていない。 代わりに、通常、皮質表面を与えられたものとみなし、フリーサーファーで事前に計算される別の脳-パーセレーション法が開発された。 本研究では,グラフ分類枝と,新しい汎用的3次元再構成損失に基づく2つの選択肢を提案し,表面メッシュがアトラスベースの脳セルに直接現れるようにテンプレート変形アルゴリズムを補強する。 両選択肢を最新の皮質表面再構成アルゴリズムの2つと組み合わせることで,ディススコア90.2(グラフ分類枝)と90.4(ノベル再構成損失)と最先端表面との高精度なパーセレーションを実現する。

The reconstruction of cerebral cortex surfaces from brain MRI scans is instrumental for the analysis of brain morphology and the detection of cortical thinning in neurodegenerative diseases like Alzheimer's disease (AD). Moreover, for a fine-grained analysis of atrophy patterns, the parcellation of the cortical surfaces into individual brain regions is required. For the former task, powerful deep learning approaches, which provide highly accurate brain surfaces of tissue boundaries from input MRI scans in seconds, have recently been proposed. However, these methods do not come with the ability to provide a parcellation of the reconstructed surfaces. Instead, separate brain-parcellation methods have been developed, which typically consider the cortical surfaces as given, often computed beforehand with FreeSurfer. In this work, we propose two options, one based on a graph classification branch and another based on a novel generic 3D reconstruction loss, to augment template-deformation algorithms such that the surface meshes directly come with an atlas-based brain parcellation. By combining both options with two of the latest cortical surface reconstruction algorithms, we attain highly accurate parcellations with a Dice score of 90.2 (graph classification branch) and 90.4 (novel reconstruction loss) together with state-of-the-art surfaces.
翻訳日:2022-10-09 17:19:00 公開日:2022-09-19
# 画像処理を用いた網膜血管セグメンテーションのためのトリオ法

A Trio-Method for Retinal Vessel Segmentation using Image Processing ( http://arxiv.org/abs/2209.11230v1 )

ライセンス: Link先を確認
Mahendra Kumar Gourisaria, Vinayak Singh, Manoj Sahni(参考訳) 内網膜ニューロンは網膜の最も重要な部分であり、網膜血管を介して血液が供給される。 本稿では,三重プリプロセッシングアプローチによる網膜血管のセグメンテーションを中心に検討する。 DRIVEデータベースはGabor Filtering, Gaussian Blur, Edge Detection by Sobel and Pruningによって事前処理された。 セグメンテーションは2つの提案されたU-Netアーキテクチャによって推進された。 両方のアーキテクチャは、すべての標準的なパフォーマンス指標で比較された。 プリプロセッシングは、セグメント化のためにunetアーキテクチャが示す結果に影響を与える様々な興味深い結果を生み出した。 このリアルタイムデプロイメントは、セグメンテーションと検出を向上した画像の効率的な前処理を支援する。

Inner Retinal neurons are a most essential part of the retina and they are supplied with blood via retinal vessels. This paper primarily focuses on the segmentation of retinal vessels using a triple preprocessing approach. DRIVE database was taken into consideration and preprocessed by Gabor Filtering, Gaussian Blur, and Edge Detection by Sobel and Pruning. Segmentation was driven out by 2 proposed U-Net architectures. Both the architectures were compared in terms of all the standard performance metrics. Preprocessing generated varied interesting results which impacted the results shown by the UNet architectures for segmentation. This real-time deployment can help in the efficient pre-processing of images with better segmentation and detection.
翻訳日:2022-10-02 23:14:35 公開日:2022-09-19
# 深部マルチスケール外挿融合による気象衛星画像の予測

Meteorological Satellite Images Prediction Based on Deep Multi-scales Extrapolation Fusion ( http://arxiv.org/abs/2209.11682v1 )

ライセンス: Link先を確認
Fang Huang, Wencong Cheng, PanFeng Wang, ZhiGang Wang, HongHong He(参考訳) 気象衛星画像は気象学者にとって重要である。 このデータは、気象と気候変動の監視と分析において重要な役割を担っている。 しかし、衛星画像は観測データの一種であり、地球にデータを送信する際にかなりの時間遅延が存在する。 気象衛星画像の正確な予測、特に2時間前までの予測を行うことは重要である。 近年,ディープラーニングに基づく気象レーダ画像の流速予測への応用に関する研究への関心が高まっている。 気象レーダー画像予測問題と比較すると,気象衛星画像予測の主な課題は大規模観測領域であり,観測製品の大型化である。 本稿では,気象衛星画像の現況予測の課題に対処するため,深層マルチスケール外挿融合法を提案する。 まず,大きめの衛星画像データセットを,より小さな解像度の複数の画像データセットにダウンサンプルし,さらに深部時空間シーケンス予測法を用いて,異なる解像度のマルチスケール予測画像を生成する。 第2に,条件付き生成逆数ネットワークを用いて,マルチスケール予測結果をターゲット画像と原サイズで融合する。 FY-4A気象衛星データに基づく実験により,提案手法は気象システムの進化を詳細に捉えた現実的な予測画像を生成することができることを示した。 本研究の一般的な考え方は,他の時空間列予測タスクにも大きな規模で適用できると考えられる。

Meteorological satellite imagery is critical for meteorologists. The data have played an important role in monitoring and analyzing weather and climate changes. However, satellite imagery is a kind of observation data and exists a significant time delay when transmitting the data back to Earth. It is important to make accurate predictions for meteorological satellite images, especially the nowcasting prediction up to 2 hours ahead. In recent years, there has been growing interest in the research of nowcasting prediction applications of weather radar images based on deep learning. Compared to the weather radar images prediction problem, the main challenge for meteorological satellite images prediction is the large-scale observation areas and therefore the large sizes of the observation products. Here we present a deep multi-scales extrapolation fusion method, to address the challenge of the meteorological satellite images nowcasting prediction. First, we downsample the original satellite images dataset with large size to several images datasets with smaller resolutions, then we use a deep spatiotemporal sequences prediction method to generate the multi-scales prediction images with different resolutions separately. Second, we fuse the multi-scales prediction results to the targeting prediction images with the original size by a conditional generative adversarial network. The experiments based on the FY-4A meteorological satellite data show that the proposed method can generate realistic prediction images that effectively capture the evolutions of the weather systems in detail. We believe that the general idea of this work can be potentially applied to other spatiotemporal sequence prediction tasks with a large size.
翻訳日:2022-10-02 23:14:24 公開日:2022-09-19
# バングラ手書き文字認識におけるCNNに基づく事前学習モデルの有用性

Efficient approach of using CNN based pretrained model in Bangla handwritten digit recognition ( http://arxiv.org/abs/2209.13005v1 )

ライセンス: Link先を確認
Muntarin Islam, Shabbir Ahmed Shuvo, Musarrat Saberin Nipun, Rejwan Bin Sulaiman, Jannatul Nayeem, Zubaer Haque, Md Mostak Shaikh, Md Sakib Ullah Sourav(参考訳) 日常生活におけるデジタル化により,手書き文字の自動認識の必要性が高まっている。 手書き文字認識は、様々な産業において多くの応用に不可欠である。 ベンガル語は世界第5位の言語で、2億2500万人の話者(母国語と非母語の組み合わせ)と世界の人口の4%がベンガル語を話している。 形状、サイズ、書体スタイルの多様性の観点からベンガル文字の複雑さのため、研究者はSupervised Machine Learningアルゴリズムを使用して、これまでは精度が向上しなかった。 さらに、Bangla手書き文字認識(BHwDR)についての研究は少ない。 本稿では,10クラス1万インスタンスのnumtadbデータセット上でresnet-50,inception-v3, efficientnetb0を含む,cnnを用いた手書き文字認識モデルを提案する。 . その結果、これまでの10桁クラスの97%の精度で他のモデルのパフォーマンスを上回った。 さらに,研究結果やモデルを他の研究と評価し,今後の研究を提案する。

Due to digitalization in everyday life, the need for automatically recognizing handwritten digits is increasing. Handwritten digit recognition is essential for numerous applications in various industries. Bengali ranks the fifth largest language in the world with 265 million speakers (Native and non-native combined) and 4 percent of the world population speaks Bengali. Due to the complexity of Bengali writing in terms of variety in shape, size, and writing style, researchers did not get better accuracy using Supervised machine learning algorithms to date. Moreover, fewer studies have been done on Bangla handwritten digit recognition (BHwDR). In this paper, we proposed a novel CNN-based pre-trained handwritten digit recognition model which includes Resnet-50, Inception-v3, and EfficientNetB0 on NumtaDB dataset of 17 thousand instances with 10 classes.. The Result outperformed the performance of other models to date with 97% accuracy in the 10-digit classes. Furthermore, we have evaluated the result or our model with other research studies while suggesting future study
翻訳日:2022-10-02 23:14:04 公開日:2022-09-19
# 車両網における年齢最適情報伝達のための動的ユニキャストマルチキャストスケジューリング

Dynamic Unicast-Multicast Scheduling for Age-Optimal Information Dissemination in Vehicular Networks ( http://arxiv.org/abs/2209.13006v1 )

ライセンス: Link先を確認
Ahmed Al-Habob, Hina Tabassum, and Omer Waqar(参考訳) 本稿では,道路側ユニット(RSU)が車両への物理プロセスのタイムリーな更新を行う車載ネットワークにおいて,情報提供年齢(AoI)の最小化と消費電力の伝達の問題について検討する。 各車両は、1つ以上の物理的プロセスに関する情報ステータスの鮮度を維持することに関心を持っている。 AoI と RSU の電力消費を時間軸で最小化するために、この決定を統一、マルチキャスト、ブロードキャスト、あるいは車両への更新の送信に最適化する枠組みが提案されている。 定式化問題は混合整数非線形プログラミング問題(MINLP)であり,大域的最適解の達成は困難である。 この文脈で、我々はまず、ほぼ最適性能を提供し、効率的なベンチマークとして機能するアリコロニー最適化(ACO)ソリューションを開発する。 そこで, リアルタイム実装において, 車両の要求やチャネル条件を把握し, 動的ユニキャスト・マルチカストスケジューリング動作を通じて車両にプロセスを割り当てる, 深層強化学習(DRL)フレームワークを開発した。 提案アルゴリズムの複雑性解析について述べる。 シミュレーション結果は,ネットワークパラメータの関数として,aoiと電力消費の興味深いトレードオフを示す。

This paper investigates the problem of minimizing the age-of-information (AoI) and transmit power consumption in a vehicular network, where a roadside unit (RSU) provides timely updates about a set of physical processes to vehicles. Each vehicle is interested in maintaining the freshness of its information status about one or more physical processes. A framework is proposed to optimize the decisions to unicast, multicast, broadcast, or not transmit updates to vehicles as well as power allocations to minimize the AoI and the RSU's power consumption over a time horizon. The formulated problem is a mixed-integer nonlinear programming problem (MINLP), thus a global optimal solution is difficult to achieve. In this context, we first develop an ant colony optimization (ACO) solution which provides near-optimal performance and thus serves as an efficient benchmark. Then, for real-time implementation, we develop a deep reinforcement learning (DRL) framework that captures the vehicles' demands and channel conditions in the state space and assigns processes to vehicles through dynamic unicast-multicast scheduling actions. Complexity analysis of the proposed algorithms is presented. Simulation results depict interesting trade-offs between AoI and power consumption as a function of the network parameters.
翻訳日:2022-10-02 23:13:30 公開日:2022-09-19
# 畳み込みニューラルネットワークにおける最大プール特徴写像のシフト不変性について

On the Shift Invariance of Max Pooling Feature Maps in Convolutional Neural Networks ( http://arxiv.org/abs/2209.11740v1 )

ライセンス: Link先を確認
Hubert Leterme (UGA, LJK), K\'evin Polisano (UGA, LJK), Val\'erie Perrier (Grenoble INP, LJK), Karteek Alahari (LJK)(参考訳) 本稿では,画像分類のための畳み込みニューラルネットワークの数学的解釈性の向上を目的とする。 自然な画像データセットでトレーニングすると、そのようなネットワークは、指向したGaborフィルタによく似た第1層でパラメータを学習する傾向にある。 離散ガボール型畳み込みの性質を利用することにより、特定の条件下では、次の最大プーリング作用素によって計算された特徴写像が複素ガボール型係数のモジュラリティを近似する傾向にあり、ある入力シフトに関して安定であることを示す。 次に、これらの層に対するシフト不変性の確率的尺度を計算する。 より正確には、周波数や向きによっては、安定な画像表現を生成する確率が高いフィルタがあることが示される。 本稿では,二本木ウェーブレットパケット変換に基づく決定論的特徴抽出器,特に離散ガボール分解の場合について実験的に検証する。 本研究では,一方のシフト不変度と他方の複素率との類似性との間に強い相関関係を示す。

In this paper, we aim to improve the mathematical interpretability of convolutional neural networks for image classification. When trained on natural image datasets, such networks tend to learn parameters in the first layer that closely resemble oriented Gabor filters. By leveraging the properties of discrete Gabor-like convolutions, we prove that, under specific conditions, feature maps computed by the subsequent max pooling operator tend to approximate the modulus of complex Gabor-like coefficients, and as such, are stable with respect to certain input shifts. We then compute a probabilistic measure of shift invariance for these layers. More precisely, we show that some filters, depending on their frequency and orientation, are more likely than others to produce stable image representations. We experimentally validate our theory by considering a deterministic feature extractor based on the dual-tree wavelet packet transform, a particular case of discrete Gabor-like decomposition. We demonstrate a strong correlation between shift invariance on the one hand and similarity with complex modulus on the other hand.
翻訳日:2022-10-02 23:06:35 公開日:2022-09-19
# T3VIP:変換に基づく3次元映像予測

T3VIP: Transformation-based 3D Video Prediction ( http://arxiv.org/abs/2209.11693v1 )

ライセンス: Link先を確認
Iman Nematollahi, Erick Rosete-Beas, Seyed Mahdi B. Azad, Raghu Rajan, Frank Hutter, Wolfram Burgard(参考訳) 自律的なスキル獲得のためには、ロボットは過去の経験から3D世界のダイナミクスを規定する物理的なルールを学ばなければならない。 そこで,本稿では,シーンを対象部品に分解し,対応する剛性変換を予測して3次元動作を明示的にモデル化するt3vip(transform-based 3d video prediction)手法を提案する。 私たちのモデルは、完全に教師なしで、現実世界の確率的性質を捉え、イメージとポイントクラウドドメインの観察的手がかりがその学習信号を構成する。 これら2次元および3次元の観測信号を完全に活用するために、我々はモデルにHPO(Automatic Hyperparameter Optimization)を装備し、それらから最良の学習方法を解釈する。 私たちの知る限りでは、私たちのモデルは、静的カメラの将来のrgb-dビデオ予測を提供する最初の生成モデルです。 シミュレーションおよび実世界のデータセットを用いた広範な評価により,rgbビデオ予測における2dモデルによるオンパリティ性能を達成しつつ,将来的な深度映像を予測可能な3dモデルが導かれることを実証した。 さらに,本モデルが2dベースラインを上回っていることを示す。 ビデオ、コード、データセット、事前トレーニングされたモデルはhttp://t3vip.cs.uni-freiburg.deで入手できる。

For autonomous skill acquisition, robots have to learn about the physical rules governing the 3D world dynamics from their own past experience to predict and reason about plausible future outcomes. To this end, we propose a transformation-based 3D video prediction (T3VIP) approach that explicitly models the 3D motion by decomposing a scene into its object parts and predicting their corresponding rigid transformations. Our model is fully unsupervised, captures the stochastic nature of the real world, and the observational cues in image and point cloud domains constitute its learning signals. To fully leverage all the 2D and 3D observational signals, we equip our model with automatic hyperparameter optimization (HPO) to interpret the best way of learning from them. To the best of our knowledge, our model is the first generative model that provides an RGB-D video prediction of the future for a static camera. Our extensive evaluation with simulated and real-world datasets demonstrates that our formulation leads to interpretable 3D models that predict future depth videos while achieving on-par performance with 2D models on RGB video prediction. Moreover, we demonstrate that our model outperforms 2D baselines on visuomotor control. Videos, code, dataset, and pre-trained models are available at http://t3vip.cs.uni-freiburg.de.
翻訳日:2022-10-02 23:06:16 公開日:2022-09-19
# 白内障の光は危険:自然現象による効果的な物理的世界攻撃

Catoptric Light can be Dangerous: Effective Physical-World Attack by Natural Phenomenon ( http://arxiv.org/abs/2209.11739v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は多くのタスクで大きな成功を収めています。 したがって、高度DNNの堅牢性を評価することが重要である。 伝統的な手法では、ステッカーを物理的摂動として分類器を騙すが、ステルス化が困難で印刷損失もある。 いくつかの新しい物理的攻撃は、光線を使って攻撃(例えばレーザー、プロジェクター)を行うが、光学パターンは自然ではなく人工的である。 本研究では, 自然現象, 陰極光によって敵の摂動が発生し, 物理的環境における先進的DNNに対するステルス性, 自然主義的逆境攻撃を実現する, 対向的逆向光(AdvCL)と呼ばれる新しい物理攻撃法について検討する。 シミュレーションおよび実環境における提案手法の有効性について検討した。 攻撃成功率はImageNetのサブセットで94.90%、現実世界環境では83.50%である。 また、この攻撃に対するAdvCLの転送性と防衛戦略についても論じる。

Deep neural networks (DNNs) have achieved great success in many tasks. Therefore, it is crucial to evaluate the robustness of advanced DNNs. The traditional methods use stickers as physical perturbations to fool the classifiers, which is difficult to achieve stealthiness and there exists printing loss. Some new types of physical attacks use light beam to perform attacks (e.g., laser, projector), whose optical patterns are artificial rather than natural. In this work, we study a new type of physical attack, called adversarial catoptric light (AdvCL), in which adversarial perturbations are generated by common natural phenomena, catoptric light, to achieve stealthy and naturalistic adversarial attacks against advanced DNNs in physical environments. Carefully designed experiments demonstrate the effectiveness of the proposed method in simulated and real-world environments. The attack success rate is 94.90% in a subset of ImageNet and 83.50% in the real-world environment. We also discuss some of AdvCL's transferability and defense strategy against this attack.
翻訳日:2022-10-02 23:04:55 公開日:2022-09-19
# 2次元ベクトル場特徴追跡・選択・比較のための多レベルロバスト性

Multilevel Robustness for 2D Vector Field Feature Tracking, Selection, and Comparison ( http://arxiv.org/abs/2209.11708v1 )

ライセンス: Link先を確認
Lin Yan, Paul Aaron Ullrich, Luke P. Van Roekel, Bei Wang, Hanqi Guo(参考訳) 臨界点追跡(Critical Point Tracking)は、時間変化ベクターフィールドデータの動的挙動を理解する科学的可視化における中心的なトピックである。 位相的ロバスト性の概念は、最近臨界点の構造的安定性を定量化するために導入された、すなわち、臨界点のロバスト性は、それを取り消すのに必要なベクトル場に対する最小の摂動量である。 臨界点追跡とロバスト性の概念を関連付ける理論的な基礎が以前に確立されており、特に臨界点は、領域内の距離公理ではなく、ロバスト性によって測定される安定性の近さに基づいて追跡することができる。 しかし、実際には、古典的堅牢性の計算は、臨界点が領域の境界に近いときにアーティファクトを生成する可能性があるため、局所近傍におけるベクトル場挙動の完全な図面は持っていない。 これらの問題を解決するために,2次元時変ベクトル場の研究のための多レベルロバストネスフレームワークを提案する。 種々の近傍における臨界点のロバスト性を計算し、データのマルチスケールな性質を捉え、古典的なロバストネス計算による境界効果を軽減する。 実験により, 既存の特徴追跡アルゴリズムとシームレスに組み合わせることで, 特徴追跡, 選択, および大規模科学シミュレーションにおける比較の観点から, ベクトル場の可視性を向上させることを実証した。 実世界のトロピカルサイクロンデータセットの研究において、ドメイン科学者が使用する物理量と、最小のマルチレベルロバスト性は高い相関性を持つことを初めて観測した。 このような観察は、ロバスト性の物理的解釈性を高めるのに役立つ。

Critical point tracking is a core topic in scientific visualization for understanding the dynamic behavior of time-varying vector field data. The topological notion of robustness has been introduced recently to quantify the structural stability of critical points, that is, the robustness of a critical point is the minimum amount of perturbation to the vector field necessary to cancel it. A theoretical basis has been established previously that relates critical point tracking with the notion of robustness, in particular, critical points could be tracked based on their closeness in stability, measured by robustness, instead of just distance proximities within the domain. However, in practice, the computation of classic robustness may produce artifacts when a critical point is close to the boundary of the domain; thus, we do not have a complete picture of the vector field behavior within its local neighborhood. To alleviate these issues, we introduce a multilevel robustness framework for the study of 2D time-varying vector fields. We compute the robustness of critical points across varying neighborhoods to capture the multiscale nature of the data and to mitigate the boundary effect suffered by the classic robustness computation. We demonstrate via experiments that such a new notion of robustness can be combined seamlessly with existing feature tracking algorithms to improve the visual interpretability of vector fields in terms of feature tracking, selection, and comparison for large-scale scientific simulations. We observe, for the first time, that the minimum multilevel robustness is highly correlated with physical quantities used by domain scientists in studying a real-world tropical cyclone dataset. Such observation helps to increase the physical interpretability of robustness.
翻訳日:2022-10-02 23:03:56 公開日:2022-09-19
# Hippocampal-inspired replay を用いた連続的数ショット学習

Continual few-shot learning with Hippocampal-inspired replay ( http://arxiv.org/abs/2209.07863v2 )

ライセンス: Link先を確認
Gideon Kowadlo, Abdelrahman Ahmed, Amir Mayan, David Rawlinson(参考訳) 継続的学習と少数ショット学習は、機械学習を改善するために重要なフロンティアである。 各フロンティアには多くの仕事があるが、この2つの組み合わせはほとんどない。 しかし最近、Antoniou et al. arXiv:2004.11967 は連続的なFew-shot Learningフレームワーク CFSL を導入した。 本研究では、CFSLを拡張して、通常より多くのクラスが提示される標準連続学習実験に匹敵するようにした。 私たちはまた、非常に類似した特定のインスタンスを分類する'インスタンステスト'も導入しました。 従来のCFSL研究から代表的ベースラインモデルを選択し,Hippocampal-inspired replayモデルと比較した。 期待されたように、より多くのクラスを学ぶことは、元のCFSL実験よりも難しく、興味深いことに、それらが提示される方法がパフォーマンスに違いをもたらす。 インスタンステストの正確性は、分類タスクに匹敵する。 統合のためのリプレイの使用により、両方のタスク、特にインスタンステストのパフォーマンスが大幅に向上する。

Continual learning and few-shot learning are important frontiers in the quest to improve Machine Learning. There is a growing body of work in each frontier, but very little combining the two. Recently however, Antoniou et al. arXiv:2004.11967 introduced a Continual Few-shot Learning framework, CFSL, that combines both. In this study, we extended CFSL to make it more comparable to standard continual learning experiments, where usually a much larger number of classes are presented. We also introduced an `instance test' to classify very similar specific instances - a capability of animal cognition that is usually neglected in ML. We selected representative baseline models from the original CFSL work and compared to a model with Hippocampal-inspired replay, as the Hippocampus is considered to be vital to this type of learning in animals. As expected, learning more classes is more difficult than the original CFSL experiments, and interestingly, the way in which they are presented makes a difference to performance. Accuracy in the instance test is comparable to the classification tasks. The use of replay for consolidation improves performance substantially for both types of tasks, particularly the instance test.
翻訳日:2022-09-25 17:58:37 公開日:2022-09-19
# ボール軸受の故障検出

Fault Detection in Ball Bearings ( http://arxiv.org/abs/2209.11041v1 )

ライセンス: Link先を確認
Joshua Pickard and Sarah Moll(参考訳) ボール軸受接合部はすべての回転機械において重要な要素であり、これらの接合部の欠陥の検出と位置決めは産業や研究において重要な問題である。 インテリジェント障害検出(intelligent fault detection、ifd)は、機械の健康状態を監視するために機械学習やその他の統計的手法を適用するプロセスである。 本稿では,球軸受継手ifdの畳み込みニューラルネットワークの訓練に従来用いられてきたプリプロセッシング技術である振動画像の構築について検討する。 提案手法を従来より大きなデータセットに適用し,振動画像構築に用いたハイパーパラメータを探索することにより,本手法の頑健性を示す。

Ball bearing joints are a critical component in all rotating machinery, and detecting and locating faults in these joints is a significant problem in industry and research. Intelligent fault detection (IFD) is the process of applying machine learning and other statistical methods to monitor the health states of machines. This paper explores the construction of vibration images, a preprocessing technique that has been previously used to train convolutional neural networks for ball bearing joint IFD. The main results demonstrate the robustness of this technique by applying it to a larger dataset than previously used and exploring the hyperparameters used in constructing the vibration images.
翻訳日:2022-09-23 14:45:01 公開日:2022-09-19
# U-Sleep: AASMガイドラインへの耐性

U-Sleep: resilient to AASM guidelines ( http://arxiv.org/abs/2209.11173v1 )

ライセンス: Link先を確認
Luigi Fiorillo, Giuliana Monachino, Julia van der Meer, Marco Pesce, Jan Warncke, Markus H. Schmidt, Claudio L.A. Bassetti, Athina Tzovara, Paolo Favaro and Francesca D. Faraci(参考訳) AASMガイドラインは、一般的な方法論を持つために睡眠スコアリング手順を標準化しようとする数十年の努力の結果である。 このガイドラインは、技術的/デジタル的な仕様、例えば推奨の脳波導出、睡眠スコアリング規則、例えば大人、子供、幼児の異なる規則など、いくつかの側面をカバーしている。 睡眠スコアリング自動化の文脈では、ここ数十年、ディープラーニングは他の多くのアプローチよりも優れたパフォーマンスを示してきた。 ほとんどの場合、臨床知識とガイドラインは、タスクを解決するための自動睡眠スコアリングアルゴリズムをサポートするために利用されてきた。 本稿では,深層学習に基づく睡眠スコアリングアルゴリズムが臨床知識を十分に活用したり,AASMガイドラインに厳格に従う必要がなくなることを示す。 具体的には、現在最先端の睡眠スコアリングアルゴリズムであるU-Sleepが、臨床上の非推奨や非推奨の導出を用いても、スコアリングタスクを解くのに十分な強度を持ち、被験者の時間的年齢に関する情報を利用する必要がないことを示した。 最終的に、複数のデータセンターのデータを使用することで、単一のコホートでのトレーニングよりも優れたパフォーマンスモデルが得られるという、よく知られた発見を強化しました。 実際、この後者のステートメントは、単一データコホートのサイズと不均一性を増大させることによっても有効であることを示す。 全実験で13種類の臨床研究から28528個のポリソムノグラフィーを用いた。

AASM guidelines are the results of decades of efforts to try to standardize the sleep scoring procedure as to have a commonly used methodology. The guidelines cover several aspects from the technical/digital specifications, e.g., recommended EEG derivations, to the sleep scoring rules, e.g., different rules for adults, children and infants. In the context of sleep scoring automation, in the last decades, deep learning has demonstrated better performance compared to many other approaches. In most of the cases, clinical knowledge and guidelines have been exploited to support the automated sleep scoring algorithms in solving the task. In this paper we show that, actually, a deep learning based sleep scoring algorithm may not need to fully exploit the clinical knowledge or to strictly follow the AASM guidelines. Specifically, we demonstrate that U-Sleep, a state-of-the-art sleep scoring algorithm, can be strong enough to solve the scoring task even using clinically non-recommended or non-conventional derivations, and with no need to exploit information about the chronological age of the subjects. We finally strengthen a well-known finding that using data from multiple data centers always results in a better performing model compared with training on a single cohort. Indeed, we show that this latter statement is still valid even by increasing the size and the heterogeneity of the single data cohort. In all our experiments we used 28528 polysomnography studies from 13 different clinical studies.
翻訳日:2022-09-23 14:44:20 公開日:2022-09-19
# NeurOLight: 物理に依存しないニューラル演算子によるパラメトリックフォトニックデバイスシミュレーション

NeurOLight: A Physics-Agnostic Neural Operator Enabling Parametric Photonic Device Simulation ( http://arxiv.org/abs/2209.10098v1 )

ライセンス: Link先を確認
Jiaqi Gu, Zhengqi Gao, Chenghao Feng, Hanqing Zhu, Ray T. Chen, Duane S. Boning, David Z. Pan(参考訳) 光コンピューティングは、その超高速と効率のため、次世代の効率的な人工知能(AI)の新興技術である。 電磁場シミュレーションは、フォトニックデバイスや回路の設計、最適化、検証に重要である。 しかし、コストのかかる数値シミュレーションはフォトニック回路設計ループのスケーラビリティとターンアラウンド時間を著しく妨げている。 近年,偏微分方程式(PDE)の単一インスタンスの光場解をあらかじめ定義されたパラメータで予測するために,物理インフォームドニューラルネットワークが提案されている。 複雑なPDEの定式化と効率的なパラメトリゼーション機構の欠如により、実用シミュレーションシナリオにおける柔軟性と一般化が制限される。 本稿では,超高速パラメトリックフォトニックデバイスシミュレーションのための周波数領域maxwell pdesのファミリーを学習するために,ニューロライトと呼ばれる物理非依存なニューラルオペレータベースのフレームワークを初めて提案する。 我々はニューロライトの効率と一般化をいくつかの新しい手法でバランスさせる。 具体的には、異なるデバイスを統一ドメインに識別し、パラメトリックpdesを予めコンパクトな波で表現し、マスク付きソースモデリングにより入射光を符号化する。 我々はパラメータ効率のよいクロスフォームなNeurOLightブロックを設計し、データ効率の学習に重ね合わせベースの拡張を採用する。 これらの相乗的アプローチにより、ニューロライトは未知のシミュレーション設定の広い空間に一般化し、数値解法よりも2次早いシミュレーション速度を示し、予測誤差が約54%低く、パラメータが約44%少ないニューラルネットワークモデルを上回る。 私たちのコードはhttps://github.com/JeremieMelo/NeurOLightで利用可能です。

Optical computing is an emerging technology for next-generation efficient artificial intelligence (AI) due to its ultra-high speed and efficiency. Electromagnetic field simulation is critical to the design, optimization, and validation of photonic devices and circuits. However, costly numerical simulation significantly hinders the scalability and turn-around time in the photonic circuit design loop. Recently, physics-informed neural networks have been proposed to predict the optical field solution of a single instance of a partial differential equation (PDE) with predefined parameters. Their complicated PDE formulation and lack of efficient parametrization mechanisms limit their flexibility and generalization in practical simulation scenarios. In this work, for the first time, a physics-agnostic neural operator-based framework, dubbed NeurOLight, is proposed to learn a family of frequency-domain Maxwell PDEs for ultra-fast parametric photonic device simulation. We balance the efficiency and generalization of NeurOLight via several novel techniques. Specifically, we discretize different devices into a unified domain, represent parametric PDEs with a compact wave prior, and encode the incident light via masked source modeling. We design our model with parameter-efficient cross-shaped NeurOLight blocks and adopt superposition-based augmentation for data-efficient learning. With these synergistic approaches, NeurOLight generalizes to a large space of unseen simulation settings, demonstrates 2-orders-of-magnitude faster simulation speed than numerical solvers, and outperforms prior neural network models by ~54% lower prediction error with ~44% fewer parameters. Our code is available at https://github.com/JeremieMelo/NeurOLight.
翻訳日:2022-09-22 17:39:19 公開日:2022-09-19
# ドメイン適応とMax-Margin原則によるクロスプロジェクトソフトウェア脆弱性検出

Cross Project Software Vulnerability Detection via Domain Adaptation and Max-Margin Principle ( http://arxiv.org/abs/2209.10406v1 )

ライセンス: Link先を確認
Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, John Grundy, Hung Nguyen and Dinh Phung(参考訳) ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。 ソフトウェア脆弱性検出(SVD)問題を解決するために、多くの機械学習ベースのアプローチが提案されている。 しかし、SVDにはまだ2つのオープンで重要な問題がある。 一 SVDの予測性能を向上させるための自動表現の学習及び 二 専門家による精力的なラベル付け作業を必要とするラベル付き脆弱性データセットの不足に対処すること。 本稿では,これら2つの重要な課題に対処する新しいエンドツーエンドアプローチを提案する。 まず、ソフトウェア脆弱性検出に深層ドメイン適応を用いた自動表現学習を利用する。 次に,max-margin原理を応用してラベル付きプロジェクトからラベル付きプロジェクトへのソフトウェア脆弱性の転送学習プロセスを大幅に改善する新しいクロスドメインカーネル分類器を提案する。 実世界のソフトウェアデータセットに対する実験結果は,提案手法が最先端のベースラインよりも優れていることを示す。 簡単に言えば,本手法は, SVDにおいて最も重要な指標であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。 リリースされたソースコードサンプルはhttps://github.com/vannguyennd/dam2pで公開しています。

Software vulnerabilities (SVs) have become a common, serious and crucial concern due to the ubiquity of computer software. Many machine learning-based approaches have been proposed to solve the software vulnerability detection (SVD) problem. However, there are still two open and significant issues for SVD in terms of i) learning automatic representations to improve the predictive performance of SVD, and ii) tackling the scarcity of labeled vulnerabilities datasets that conventionally need laborious labeling effort by experts. In this paper, we propose a novel end-to-end approach to tackle these two crucial issues. We first exploit the automatic representation learning with deep domain adaptation for software vulnerability detection. We then propose a novel cross-domain kernel classifier leveraging the max-margin principle to significantly improve the transfer learning process of software vulnerabilities from labeled projects into unlabeled ones. The experimental results on real-world software datasets show the superiority of our proposed method over state-of-the-art baselines. In short, our method obtains a higher performance on F1-measure, the most important measure in SVD, from 1.83% to 6.25% compared to the second highest method in the used datasets. Our released source code samples are publicly available at https://github.com/vannguyennd/dam2p
翻訳日:2022-09-22 15:50:16 公開日:2022-09-19
# 脳デコードにおける自己学習の利点について

On the benefits of self-taught learning for brain decoding ( http://arxiv.org/abs/2209.10099v1 )

ライセンス: Link先を確認
Elodie Germani (EMPENN, LACODAM), Elisa Fromont (LACODAM, IUF), Camille Maumet (EMPENN)(参考訳) 我々は,fMRI統計図からなる大規模公開神経画像データベースを,新しいタスクにおける脳のデコードを改善するための自己学習フレームワークで活用することの利点について検討した。 まず、NeuroVaultデータベースを利用して、関連する統計マップの選択に基づいて、畳み込みオートエンコーダを使ってこれらのマップを再構築する。 次に、このトレーニングされたエンコーダを用いて、教師付き畳み込みニューラルネットワークを初期化し、NeuroVaultデータベースの大規模なコレクションから見えない統計マップのタスクまたは認知過程を分類する。 このような自己学習プロセスは、常に分類器の性能を向上させるが、利点の大きさは、モデルの事前学習と微調整の両方で利用可能なデータ数と、対象とする下流タスクの複雑さに大きく依存する。

We study the benefits of using a large public neuroimaging database composed of fMRI statistic maps, in a self-taught learning framework, for improving brain decoding on new tasks. First, we leverage the NeuroVault database to train, on a selection of relevant statistic maps, a convolutional autoencoder to reconstruct these maps. Then, we use this trained encoder to initialize a supervised convolutional neural network to classify tasks or cognitive processes of unseen statistic maps from large collections of the NeuroVault database. We show that such a self-taught learning process always improves the performance of the classifiers but the magnitude of the benefits strongly depends on the number of data available both for pre-training and finetuning the models and on the complexity of the targeted downstream task.
翻訳日:2022-09-22 15:13:58 公開日:2022-09-19
# 回折データの深層ニューラルネットワークによる弱信号抽出

Weak-signal extraction enabled by deep-neural-network denoising of diffraction data ( http://arxiv.org/abs/2209.09247v1 )

ライセンス: Link先を確認
Jens Oppliger, Michael M. Denner, Julia K\"uspert, Ruggero Frison, Qisi Wang, Alexander Morawietz, Oleh Ivashko, Ann-Christin Dippel, Martin von Zimmermann, Niels B. Christensen, Tohru Kurosawa, Naoki Momono, Migaku Oda, Fabian D. Natterer, Mark H. Fischer, Titus Neupert, Johan Chang(参考訳) ノイズの除去やキャンセルは、画像や音響に広く応用されている。 日常の応用では、デノナイジングには、根本的真実に反する生成的側面を含むこともある。 しかし、科学的応用については、真理を正確に再現する必要がある。 本稿では,弱い信号が定量的な精度で現れるように,深い畳み込みニューラルネットワークを用いてデータを分節化する方法を示す。 特に結晶材料のX線回折について検討する。 本研究では,ノイズデータにおける電荷秩序に起因する弱信号の可視性と正確性を示す。 この成功は、測定された低ノイズデータと高ノイズデータのペアによるディープニューラルネットワークの教師付きトレーニングによって実現される。 このようにして、ニューラルネットワークはノイズの統計的特性について学習する。 本研究では,poisson や gaussian などの人工雑音を用いた場合,定量的に正確な結果が得られないことを示す。 提案手法は,難解な取得問題に適用可能なノイズフィルタリングの実践的戦略を示すものである。

Removal or cancellation of noise has wide-spread applications for imaging and acoustics. In every-day-life applications, denoising may even include generative aspects which are unfaithful to the ground truth. For scientific applications, however, denoising must reproduce the ground truth accurately. Here, we show how data can be denoised via a deep convolutional neural network such that weak signals appear with quantitative accuracy. In particular, we study X-ray diffraction on crystalline materials. We demonstrate that weak signals stemming from charge ordering, insignificant in the noisy data, become visible and accurate in the denoised data. This success is enabled by supervised training of a deep neural network with pairs of measured low- and high-noise data. This way, the neural network learns about the statistical properties of the noise. We demonstrate that using artificial noise (such as Poisson and Gaussian) does not yield such quantitatively accurate results. Our approach thus illustrates a practical strategy for noise filtering that can be applied to challenging acquisition problems.
翻訳日:2022-09-21 19:47:08 公開日:2022-09-19
# 実二次場の機械学習クラス番号

Machine Learning Class Numbers of Real Quadratic Fields ( http://arxiv.org/abs/2209.09283v1 )

ライセンス: Link先を確認
Malik Amir, Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver, and Eldar Sultanow(参考訳) クラス番号 1, 2 および 3 を持つ実二次体を含む様々な教師あり学習実験を実装し,解釈する。 データ科学的な視点からマッチング/差分パリティのクラス番号を分離する相対的な難しさを定量化し、特徴分析と主成分分析の方法論を適用し、記号分類を用いてデータセットに適用するクラス番号1,2,3の機械学習式を開発する。

We implement and interpret various supervised learning experiments involving real quadratic fields with class numbers 1, 2 and 3. We quantify the relative difficulties in separating class numbers of matching/different parity from a data-scientific perspective, apply the methodology of feature analysis and principal component analysis, and use symbolic classification to develop machine-learned formulas for class numbers 1, 2 and 3 that apply to our dataset.
翻訳日:2022-09-21 19:46:56 公開日:2022-09-19
# 雑音量子コンピュータにおける指数的優位性

Exponential advantage on noisy quantum computers ( http://arxiv.org/abs/2209.09371v1 )

ライセンス: Link先を確認
Ismail Yunus Akhalwaya, Shashanka Ubaru, Kenneth L. Clarkson, Mark S. Squillante, Vishnu Jejjala, Yang-Hui He, Kugendran Naidoo, Vasileios Kalantzis, Lior Horesh(参考訳) 量子コンピューティングは、ある問題に対する古典計算よりも指数関数的なスピードアップの可能性を提供する。 しかし、実現可能なスピードアップを持つ既存のアルゴリズムの多くは、現在使用できないフォールトトレラント量子コンピュータを必要とする。 NISQ-TDAは、任意の古典的(手作りでない)データに対する指数的高速化を証明可能とし、線形回路深度のみを必要とする最初の完全実装量子機械学習アルゴリズムである。 量子コンピューティングデバイス上で実行される小さなデータセットや、ノイズの多い量子シミュレータに適用されるnisq-tdaアルゴリズムの実行が成功したことを報告する。 このアルゴリズムが雑音に対して頑健であることを実証的に確認し、実世界の問題に対して短期的かつ非フォールトトレラントな量子アドバンテージを実現するための目標深度とノイズレベルを提供する。 我々のユニークなデータローディングプロジェクション手法は、新しい自己補正データローディングアプローチを導入し、ノイズロバスト性の主要な源である。

Quantum computing offers the potential of exponential speedup over classical computation for certain problems. However, many of the existing algorithms with provable speedups require currently unavailable fault-tolerant quantum computers. We present NISQ-TDA, the first fully implemented quantum machine learning algorithm with provable exponential speedup on arbitrary classical (non-handcrafted) data and needing only a linear circuit depth. We report the successful execution of our NISQ-TDA algorithm, applied to small datasets run on quantum computing devices, as well as on noisy quantum simulators. We empirically confirm that the algorithm is robust to noise, and provide target depths and noise levels to realize near-term, non-fault-tolerant quantum advantage on real-world problems. Our unique data-loading projection method is the main source of noise robustness, introducing a new self-correcting data-loading approach.
翻訳日:2022-09-21 19:46:47 公開日:2022-09-19
# 注目に基づく階層グラフプーリングを用いた薬物結合のシナジズムの解釈機構

Interpreting mechanism of Synergism of drug combinations using attention based hierarchical graph pooling ( http://arxiv.org/abs/2209.09245v1 )

ライセンス: Link先を確認
Zehao Dong, Yixin Chen, Philip Payne, Fuhai Li(参考訳) 相乗的な薬物の組み合わせは、治療効果を高め、副作用を減らす大きな可能性をもたらす。 しかし、有効かつ相乗的な薬物結合予測は、未知の因果病シグナル伝達経路のため、未解決の問題である。 薬物の組み合わせの相乗効果を定量的に予測するために、様々なディープラーニング(AI)モデルが提案されている。 既存のディープラーニング手法の最大の制限は、それらが本質的に解釈不可能であるため、AIモデルの結論が人間の専門家に不透明になるため、実際の人間のAI医療におけるモデル結論の堅牢性とこれらのモデルの実装能力が制限される。 本稿では,重要なサブ分子ネットワークをマイニングすることにより,シナジー(mos)の根本的な治療目標とメカニズムを明らかにする,解釈可能なグラフニューラルネットワーク(gnn)を開発した。 解釈可能なGNN予測モデルのキーポイントは、ノードの特徴とグラフトポロジに基づいてノードとエッジのアテンションスコア(重要度)を計算することができる、新しいグラフプーリング層であるSelf-Attention based Node and Edge pool(以下SANEpool)である。 提案するgnnモデルは、検出された重要なサブ分子ネットワークに基づいて、薬物結合相乗効果を予測し、解釈するための体系的な方法を提供する。 NCI ALMANAC 薬物併用スクリーニングデータから, 46コア癌シグナル伝達経路の遺伝子と薬物の組み合わせによって形成される分子ネットワーク上でのSANEpoolの評価を行った。 実験結果は 1)SANEpoolは、他の人気のあるグラフニューラルネットワークの最先端性能を実現することができる。 2)SANEpoolにより検出されたサブ分子ネットワークは,相乗的薬物結合を同定するための自己説明可能かつ健全である。

The synergistic drug combinations provide huge potentials to enhance therapeutic efficacy and to reduce adverse reactions. However, effective and synergistic drug combination prediction remains an open question because of the unknown causal disease signaling pathways. Though various deep learning (AI) models have been proposed to quantitatively predict the synergism of drug combinations. The major limitation of existing deep learning methods is that they are inherently not interpretable, which makes the conclusion of AI models un-transparent to human experts, henceforth limiting the robustness of the model conclusion and the implementation ability of these models in the real-world human-AI healthcare. In this paper, we develop an interpretable graph neural network (GNN) that reveals the underlying essential therapeutic targets and mechanism of the synergy (MoS) by mining the sub-molecular network of great importance. The key point of the interpretable GNN prediction model is a novel graph pooling layer, Self-Attention based Node and Edge pool (henceforth SANEpool), that can compute the attention score (importance) of nodes and edges based on the node features and the graph topology. As such, the proposed GNN model provides a systematic way to predict and interpret the drug combination synergism based on the detected crucial sub-molecular network. We evaluate SANEpool on molecular networks formulated by genes from 46 core cancer signaling pathways and drug combinations from NCI ALMANAC drug combination screening data. The experimental results indicate that 1) SANEpool can achieve the current state-of-art performance among other popular graph neural networks; and 2) the sub-molecular network detected by SANEpool are self-explainable and salient for identifying synergistic drug combinations.
翻訳日:2022-09-21 19:30:12 公開日:2022-09-19
# 高次圏理論によるレンズと光学の時空間トレードオフ

Space-time tradeoffs of lenses and optics via higher category theory ( http://arxiv.org/abs/2209.09351v1 )

ライセンス: Link先を確認
Bruno Gavranovi\'c(参考訳) 光学とレンズは、双方向データフローを持つシステムをモデル化する抽象カテゴリーのガジェットである。 本稿では,光学を単に観察するだけでなく,内部設定を念頭に構築するソフトウェア指向のアプローチにおいて,2つの光学を外部から観察することで等価と定義する,という意味的定義が適切でないことを考察する。 異なる構成則と対応する時空トレードオフにより、デカルト光学とレンズの表示的同型なカテゴリ間の操作上の差異を識別し、スペクトルの両端に配置する。 これらのモチベーションにより、既存のカテゴリ構造とその2つのカテゴリレベルとの関係性を高め、関連する運用上の懸念が明らかになることを示す。 2-カテゴリ $\textbf{2-Optic}(\mathcal{C})$ を定義する。 1-圏 $\textbf{Optic}(\mathcal{C})$ は、この 2-圏の連結成分を局所的に商化することによって生じる。 レンズのデカルト光学への埋め込みは、オプラキサーが異なる合成規則を検知するオプラックス関手からオプラックス関手へと弱まることが示されている。 我々は、この関手が標準の2-分類のいずれにおいても随伴の一部となることを示すことの難しさを判定する。 カルデシアンレンズと光学の間のよく知られた同型性は、それらの二重圏の対角線2-共役から生じるという予想を確立する。 新たな研究の提示に加えて,本論文は,このトピックを手軽に紹介することを目的としている。

Optics and lenses are abstract categorical gadgets that model systems with bidirectional data flow. In this paper we observe that the denotational definition of optics - identifying two optics as equivalent by observing their behaviour from the outside - is not suitable for operational, software oriented approaches where optics are not merely observed, but built with their internal setups in mind. We identify operational differences between denotationally isomorphic categories of cartesian optics and lenses: their different composition rule and corresponding space-time tradeoffs, positioning them at two opposite ends of a spectrum. With these motivations we lift the existing categorical constructions and their relationships to the 2-categorical level, showing that the relevant operational concerns become visible. We define the 2-category $\textbf{2-Optic}(\mathcal{C})$ whose 2-cells explicitly track optics' internal configuration. We show that the 1-category $\textbf{Optic}(\mathcal{C})$ arises by locally quotienting out the connected components of this 2-category. We show that the embedding of lenses into cartesian optics gets weakened from a functor to an oplax functor whose oplaxator now detects the different composition rule. We determine the difficulties in showing this functor forms a part of an adjunction in any of the standard 2-categories. We establish a conjecture that the well-known isomorphism between cartesian lenses and optics arises out of the lax 2-adjunction between their double-categorical counterparts. In addition to presenting new research, this paper is also meant to be an accessible introduction to the topic.
翻訳日:2022-09-21 19:29:45 公開日:2022-09-19
# 薬物対スコアリングのためのグラフの分散表現

Distributed representations of graphs for drug pair scoring ( http://arxiv.org/abs/2209.09383v1 )

ライセンス: Link先を確認
Paul Scherer, Pietro Li\`o, Mateja Jamnik(参考訳) 本稿では,薬物対スコアリングの文脈において,グラフの分散表現をモデルに組み込む実用性と有用性について検討する。 薬物ペアスコアリングデータセットの現実世界の成長と更新サイクルは、分散表現に関連するトランスダクティブ学習の限界を覆していると論じる。 さらに, 薬物集合によって誘導される離散的なサブ構造パターンの語彙は, 原子の種類や化学によって強制される結合パターンに制約があるため, 劇的に大きくない。 本稿では,薬物シナジー,ポリファーマシー,薬物と薬物の相互作用予測といった薬物対スコアリングタスクにおける,薬物の分子グラフの分散表現の有効性について検討する。 そこで本研究では,薬物対スコアリングのための統一フレームワークにおいて,グラフの分散表現を学習し,組み込む手法を提案する。 その後、埋め込みを活用するために、最新および最新モデルのいくつかを追加します。 これらの埋め込みの組み込みは、当初設計されていたモデルでさえ、様々な薬物ペアスコアリングタスクにおいて、ほぼ全てのモデルの下流性能を向上させることを実証的に示す。 DrugCombDB, DrugComb, DrugbankDDI, TwoSidesデータセットのすべての薬物埋め込みを公開しています。

In this paper we study the practicality and usefulness of incorporating distributed representations of graphs into models within the context of drug pair scoring. We argue that the real world growth and update cycles of drug pair scoring datasets subvert the limitations of transductive learning associated with distributed representations. Furthermore, we argue that the vocabulary of discrete substructure patterns induced over drug sets is not dramatically large due to the limited set of atom types and constraints on bonding patterns enforced by chemistry. Under this pretext, we explore the effectiveness of distributed representations of the molecular graphs of drugs in drug pair scoring tasks such as drug synergy, polypharmacy, and drug-drug interaction prediction. To achieve this, we present a methodology for learning and incorporating distributed representations of graphs within a unified framework for drug pair scoring. Subsequently, we augment a number of recent and state-of-the-art models to utilise our embeddings. We empirically show that the incorporation of these embeddings improves downstream performance of almost every model across different drug pair scoring tasks, even those the original model was not designed for. We publicly release all of our drug embeddings for the DrugCombDB, DrugComb, DrugbankDDI, and TwoSides datasets.
翻訳日:2022-09-21 19:29:21 公開日:2022-09-19
# ニューラルネットワークにおけるスパーシリティとロバストネスの状態駆動型インシシットモデリング

State-driven Implicit Modeling for Sparsity and Robustness in Neural Networks ( http://arxiv.org/abs/2209.09389v1 )

ライセンス: Link先を確認
Alicia Y. Tsai, Juliette Decugis, Laurent El Ghaoui, Alper Atamt\"urk(参考訳) 暗黙的モデルは、ニューラルネットワークに典型的な階層的階層構造を禁止し、代わりに「平衡」方程式に基づいて内部状態を定義し、競合性能とメモリ消費を減らす学習モデルの一般的なクラスである。 しかし、そのようなモデルの訓練は通常、後方伝播に高価な暗黙差分に依存している。 本研究では,基礎モデルに適合する内部状態と出力を制約し,コストのかかる逆計算を回避し,暗黙的モデルをトレーニングする新しい手法である状態駆動型暗黙的モデリング(sim)を提案する。 トレーニング問題は建設によって凸化し、分解可能な構造のおかげで並列的に解決できる。 本稿では,FashionMNISTおよびCIFAR-100データセットに基づいてトレーニングされたベースラインモデルの空間性(パラメータ削減)とロバスト性を大幅に向上するためにSIMアプローチを適用する方法を示す。

Implicit models are a general class of learning models that forgo the hierarchical layer structure typical in neural networks and instead define the internal states based on an ``equilibrium'' equation, offering competitive performance and reduced memory consumption. However, training such models usually relies on expensive implicit differentiation for backward propagation. In this work, we present a new approach to training implicit models, called State-driven Implicit Modeling (SIM), where we constrain the internal states and outputs to match that of a baseline model, circumventing costly backward computations. The training problem becomes convex by construction and can be solved in a parallel fashion, thanks to its decomposable structure. We demonstrate how the SIM approach can be applied to significantly improve sparsity (parameter reduction) and robustness of baseline models trained on FashionMNIST and CIFAR-100 datasets.
翻訳日:2022-09-21 19:28:58 公開日:2022-09-19
# 逆色投影:DNNに対するプロジェクターによる物理的攻撃

Adversarial Color Projection: A Projector-Based Physical Attack to DNNs ( http://arxiv.org/abs/2209.09652v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) 近年の進歩により、ディープニューラルネットワーク(DNN)は敵の摂動に影響を受けやすいことが示されている。 したがって、敵攻撃による先進的DNNの堅牢性を評価する必要がある。 しかし、スタンプを摂動として使用する従来の物理的攻撃は、近年の光による物理的攻撃よりも脆弱である。 そこで本研究では,投影光の物理パラメータを操作して逆攻撃を行う,advcp(adversarial color projection)と呼ばれるプロジェクタベースの物理攻撃を提案する。 実験では,デジタル環境と物理環境の両方において,本手法の有効性を示す。 実験により,提案手法は優れた攻撃伝達性を有し,有効ブラックボックス攻撃をAdvCPに与えることを示した。 我々は将来のビジョンベースシステムやアプリケーションに対するAdvCPの脅威を予測し、光ベースの物理的攻撃に対するいくつかのアイデアを提案する。

Recent advances have shown that deep neural networks (DNNs) are susceptible to adversarial perturbations. Therefore, it is necessary to evaluate the robustness of advanced DNNs using adversarial attacks. However, traditional physical attacks that use stickers as perturbations are more vulnerable than recent light-based physical attacks. In this work, we propose a projector-based physical attack called adversarial color projection (AdvCP), which performs an adversarial attack by manipulating the physical parameters of the projected light. Experiments show the effectiveness of our method in both digital and physical environments. The experimental results demonstrate that the proposed method has excellent attack transferability, which endows AdvCP with effective blackbox attack. We prospect AdvCP threats to future vision-based systems and applications and propose some ideas for light-based physical attacks.
翻訳日:2022-09-21 19:20:41 公開日:2022-09-19
# Gesture2Path: ジェスチャー認識ナビゲーションのための模倣学習

Gesture2Path: Imitation Learning for Gesture-aware Navigation ( http://arxiv.org/abs/2209.09375v1 )

ライセンス: Link先を確認
Catie Cuan, Edward Lee, Emre Fisher, Anthony Francis, Leila Takayama, Tingnan Zhang, Alexander Toshev, and S\"oren Pirk(参考訳) ロボットが人間中心の環境に入るにつれ、人間の周りを安全に移動できるだけでなく、複雑な社会的規範にも従わなければならない。 人間は、特に密集した空間において、他の人の周りを移動するとき、ジェスチャーや表情を通じて非言語コミュニケーションに頼ることが多い。 その結果、ロボットはソーシャルナビゲーションタスクの解決の一部としてジェスチャーを解釈できる必要がある。 この目的のために,画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法Gesture2Pathを提案する。 ジェスチャーは画像のストリームで動作するニューラルネットワークに基づいて解釈され、最先端のモデル予測制御アルゴリズムを用いてポイントツーポイントナビゲーションタスクを解決する。 本手法を実際のロボットに展開し,4つのジェスチャ操作シナリオ(左/右,私に従う,円を作る)に対するアプローチの有効性を示す。 本実験は, 複雑な人間のジェスチャーをうまく解釈し, ナビゲーションタスクに社会的に適合した軌道を生成する信号として用いることができることを示す。 本手法は,ロボットと対話する参加者のその場評価に基づいて検証した。

As robots increasingly enter human-centered environments, they must not only be able to navigate safely around humans, but also adhere to complex social norms. Humans often rely on non-verbal communication through gestures and facial expressions when navigating around other people, especially in densely occupied spaces. Consequently, robots also need to be able to interpret gestures as part of solving social navigation tasks. To this end, we present Gesture2Path, a novel social navigation approach that combines image-based imitation learning with model-predictive control. Gestures are interpreted based on a neural network that operates on streams of images, while we use a state-of-the-art model predictive control algorithm to solve point-to-point navigation tasks. We deploy our method on real robots and showcase the effectiveness of our approach for the four gestures-navigation scenarios: left/right, follow me, and make a circle. Our experiments indicate that our method is able to successfully interpret complex human gestures and to use them as a signal to generate socially compliant trajectories for navigation tasks. We validated our method based on in-situ ratings of participants interacting with the robots.
翻訳日:2022-09-21 19:12:50 公開日:2022-09-19
# Unified Modeling Language を用いた感情コンピューティング領域におけるユースケースの文書化

Documenting use cases in the affective computing domain using Unified Modeling Language ( http://arxiv.org/abs/2209.09666v1 )

ライセンス: Link先を確認
Isabelle Hupont and Emilia Gomez(参考訳) aiの倫理的影響と信頼できるシステムの設計に関する研究には、aiシステムが使用されるシナリオの分析が必要である。 しかしながら、AIシステムの使用状況、スコープ、機能要件、リスクをカバーするユースケースドキュメントの標準的な方法論は存在しない。 本稿では,情緒的コンピューティング領域に注目した,aiユースケースのための新しい文書化手法を提案する。 我々のアプローチは、研究文献と最近提案された欧州のAI規制フレームワークに記録されたユースケース情報の評価に基づいています。 この評価から、私たちは過去20年間、主にソフトウェアエンジニアが使用してきたUML(Unified Modeling Language)を採用し、適応します。 次に、それぞれのユースケースをumlダイアグラムと構造化されたテーブルで表現します。

The study of the ethical impact of AI and the design of trustworthy systems needs the analysis of the scenarios where AI systems are used, which is related to the software engineering concept of "use case" and the "intended purpose" legal term. However, there is no standard methodology for use case documentation covering the context of use, scope, functional requirements and risks of an AI system. In this work, we propose a novel documentation methodology for AI use cases, with a special focus on the affective computing domain. Our approach builds upon an assessment of use case information needs documented in the research literature and the recently proposed European regulatory framework for AI. From this assessment, we adopt and adapt the Unified Modeling Language (UML), which has been used in the last two decades mostly by software engineers. Each use case is then represented by an UML diagram and a structured table, and we provide a set of examples illustrating its application to several affective computing scenarios.
翻訳日:2022-09-21 19:02:31 公開日:2022-09-19
# オープンリポジトリとaiによる気候変動研究のマッピング:証拠に基づくr&d政策作成の利点と限界

Mapping Climate Change Research via Open Repositories & AI: advantages and limitations for an evidence-based R&D policy-making ( http://arxiv.org/abs/2209.09246v1 )

ライセンス: Link先を確認
Nicandro Bovenzi, Nicolau Duran-Silva, Francesco Alessandro Massucci, Francesco Multari, C\'esar Parra-Rojas, and Josep Pujol-Llatse(参考訳) ここ数年、いくつかのイニシアチブがオープンな方法で研究成果データとメタデータへのアクセスを提供し始めている。 これらのイニシアティブによって開発されたプラットフォームは、広く一般に科学生産を開放しており、科学・技術・イノベーションにおけるエビデンスベースの政策決定(Science, Technology and Innovation, STI)にとって貴重な資産である。 これらのリソースは知識発見を促進し、特定の研究分野において利用可能な研究開発資産や関連アクターを特定するのに役立つ。 理想的には、STIエコシステム全体を包括的に把握するためには、これらのリソースのそれぞれが提供する情報を組み合わせて分析する必要がある。 そのためには、少なくともある程度の相互運用性をデータソース間で保証する必要があり、データの集約と補完性が向上し、ポリシー作成に関するエビデンスがより完全かつ信頼性の高いものになる。 ここでは,デンマークのSTIエコシステム全体において,オープンアクセスSTIデータソースであるOpenAire,Open Alex,CORDIS,Kohesioの4つを用いて,気候行動研究をマッピングする場合について検討する。

In the last few years, several initiatives have been starting to offer access to research outputs data and metadata in an open fashion. The platforms developed by those initiatives are opening up scientific production to the wider public and they can be an invaluable asset for evidence-based policy-making in Science, Technology and Innovation (STI). These resources can indeed facilitate knowledge discovery and help identify available R&D assets and relevant actors within specific research niches of interest. Ideally, to gain a comprehensive view of entire STI ecosystems, the information provided by each of these resources should be combined and analysed accordingly. To ensure so, at least a certain degree of interoperability should be guaranteed across data sources, so that data could be better aggregated and complemented and that evidence provided towards policy-making is more complete and reliable. Here, we study whether this is the case for the case of mapping Climate Action research in the whole Denmark STI ecosystem, by using 4 popular open access STI data sources, namely OpenAire, Open Alex, CORDIS and Kohesio.
翻訳日:2022-09-21 19:02:01 公開日:2022-09-19
# 画像言語説明可能なモデルによるドメインエキスパートの再編成能力

The Ability of Image-Language Explainable Models to Resemble Domain Expertise ( http://arxiv.org/abs/2209.09310v1 )

ライセンス: Link先を確認
Petrus Werner, Anna Zapaishchykova, Ujjwal Ratan(参考訳) 近年の視覚・言語モデル(V+L)の進歩は医療分野で有望な影響を与えている。 しかし、そのようなモデルは、なぜ特定の決定がなされたのかを説明するのに苦労している。 さらに、モデルの透明性とドメインの専門知識の関与は、機械学習モデルがこの分野に参入するための重要な成功要因である。 本研究では,ブラックボックス深層学習モデルの課題を克服するために,局所的サロゲート説明可能性手法の適用について検討する。 我々は,ローカルサーロゲートと基盤となるv+lを組み合わせて,マルチモーダルな視覚と言語説明を生成することで,ドメインの専門知識に類似する可能性を検討する。 このような説明が、この分野のデータサイエンティストや機械学習エンジニアのモデルトレーニングを導く上で有用なフィードバックとなることを実証する。

Recent advances in vision and language (V+L) models have a promising impact in the healthcare field. However, such models struggle to explain how and why a particular decision was made. In addition, model transparency and involvement of domain expertise are critical success factors for machine learning models to make an entrance into the field. In this work, we study the use of the local surrogate explainability technique to overcome the problem of black-box deep learning models. We explore the feasibility of resembling domain expertise using the local surrogates in combination with an underlying V+L to generate multi-modal visual and language explanations. We demonstrate that such explanations can serve as helpful feedback in guiding model training for data scientists and machine learning engineers in the field.
翻訳日:2022-09-21 18:55:32 公開日:2022-09-19
# グラフニューラルネットワークの埋め込みのレビュー

Reviewing Embeddings for Graph Neural Networks ( http://arxiv.org/abs/2209.09338v1 )

ライセンス: Link先を確認
S. Purchase, A. Zhao, R. D. Mullins(参考訳) 現在のグラフ表現学習技術では、グラフニューラルネットワーク(gnns)を使用して、データセット埋め込みから特徴を抽出する。 本研究では,これらの埋め込みの質を検証し,その変化がGNNの精度に与える影響を評価する。 画像とテキストの両方に対して異なる埋め込み抽出手法を探索する。 組込みの選択は異なるGNNアーキテクチャの性能に偏りがあることがわかり、組込みの選択は基盤となるデータセットに関係なくGNNの選択に影響を及ぼす。 さらに,scratchからトレーニングしたモデルの精度や,グラフ接続を使わずに基礎となるデータで微調整されたモデルと比較して,一部のgnnモデルから精度が向上する傾向がみられた。 本稿では,グラフ接続ネットワーク(granet)層を提案する。これは大規模モデル内のgnnメッセージパッシングを用いて,近傍のアグリゲーションを可能にする。 Flickr_v2 では、GraNet が GAT2 と GraphSAGE をそれぞれ 7.7% と 1.7% で上回っている。

Current graph representation learning techniques use Graph Neural Networks (GNNs) to extract features from dataset embeddings. In this work, we examine the quality of these embeddings and assess how changing them can affect the accuracy of GNNs. We explore different embedding extraction techniques for both images and texts. We find that the choice of embedding biases the performance of different GNN architectures and thus the choice of embedding influences the selection of GNNs regardless of the underlying dataset. In addition, we only see an improvement in accuracy from some GNN models compared to the accuracy of models trained from scratch or fine-tuned on the underlying data without utilizing the graph connections. As an alternative, we propose Graph-connected Network (GraNet) layers which use GNN message passing within large models to allow neighborhood aggregation. This gives a chance for the model to inherit weights from large pre-trained models if possible and we demonstrate that this approach improves the accuracy compared to the previous methods: on Flickr_v2, GraNet beats GAT2 and GraphSAGE by 7.7% and 1.7% respectively.
翻訳日:2022-09-21 18:55:19 公開日:2022-09-19
# 多層回帰に基づく予測可能関数フィッティングネットワーク

A Multi-Layer Regression based Predicable Function Fitting Network ( http://arxiv.org/abs/2209.09647v1 )

ライセンス: Link先を確認
Changlin Wan, Zhongzhi Shi(参考訳) 関数は数学や多くの科学分野において重要な役割を果たす。 近年,コンピュータ技術の急速な発展に伴い,高速フーリエ変換,ウェーブレット変換,曲線関数といった計算関数解析の研究が増えている。 しかし、これらのアプローチには2つの大きな問題がある。 1) 静止・非定常・周期・非周期・高次・低次の複雑な機能を扱うことが困難である。 2) トレーニングデータからテストデータへの適合関数の一般化が困難である。 本稿では,2つの主問題を解決する多回帰関数整合ネットワークを,予測可能な関数整合手法として紹介する。 この技術はネットワークを構成する3つの主要な部分を含む。 1)定常変換層。 2) 特徴符号化層,及び 3)微調整回帰層。 定常変換層は入力関数データの順序を認識し、非定常関数を定常関数に変換する。 原入力シーケンシャルデータを符号化する特徴符号化層は、シーケンシャルデータの構造的特徴と時間的特徴の両方をキャプチャできる新しい線形回帰特徴に符号化する。 微調整回帰層は、その特徴を目標の前方値に適合させる。 線形回帰特徴層と非線形回帰層との嵌合ネットワークは、高品質な嵌合結果と一般化可能な予測を生じる。 数理関数例と実語関数例の両方の実験により,提案手法の有効性が検証された。

Function plays an important role in mathematics and many science branches. As the fast development of computer technology, more and more study on computational function analysis, e.g., Fast Fourier Transform, Wavelet Transform, Curve Function, are presented in these years. However, there are two main problems in these approaches: 1) hard to handle the complex functions of stationary and non-stationary, periodic and non-periodic, high order and low order; 2) hard to generalize the fitting functions from training data to test data. In this paper, a multiple regression based function fitting network that solves the two main problems is introduced as a predicable function fitting technique. This technique constructs the network includes three main parts: 1) the stationary transform layer, 2) the feature encoding layers, and 3) the fine tuning regression layer. The stationary transform layer recognizes the order of input function data, and transforms non-stationary function to stationary function. The feature encoding layers encode the raw input sequential data to a novel linear regression feature that can capture both the structural and the temporal characters of the sequential data. The fine tuning regression layer then fits the features to the target ahead values. The fitting network with the linear regression feature layers and a non-linear regression layer come up with high quality fitting results and generalizable predictions. The experiments of both mathematic function examples and the real word function examples verifies the efficiency of the proposed technique.
翻訳日:2022-09-21 18:52:55 公開日:2022-09-19
# Universal Domain Adaptionのための主部分空間による未知推定に基づく新しいフレームワーク

A Novel Framework based on Unknown Estimation via Principal Sub-space for Universal Domain Adaption ( http://arxiv.org/abs/2209.09616v1 )

ライセンス: Link先を確認
Yifan Wang, Lin Zhang, Ran Song, Lin Ma, Wei Zhang(参考訳) ユニバーサルドメイン適応(unida:universal domain adaptation)は、ラベルセットの事前知識を必要とせず、ソースドメインからターゲットドメインに共通クラスの知識を転送することを目的としている。 従来の教師なし領域適応問題と同様に、2つの領域間のミスアライメントはバイアスがあり差別的でない埋め込みのため存在する。 最近の手法では、ターゲットサンプルを最寄りの近傍またはプロトタイプにクラスタリングして、ドメインのミスアライメントを完了させる。 しかし、未知の集合が大きければ特に誤認識を拡大できる未知のサンプルの分布について事前の知識がないため、そうすることは危険である。 一方、既存の分類器ベースの手法では、ソースドメインにおける教師付き目的が、対象ドメイン内の共通クラスに偏っているため、未知のサンプルの過信予測を容易に生成できる。 そこで本研究では, 原特徴空間のサンプルを信頼性の高い線形部分空間にマッピングし, 未知試料と原試料とのずれを低減させる, 新たな非パラメータ未知サンプル検出法を提案する。 さらに, 未知試料の分類を改善するために, 追加パラメータを適用した最近の手法とは異なり, 未知試料と未知試料の両方の信頼度を, 未知試料の信頼度レベルに応じて教師付きサンプルの分類器学習の勾配更新を制御できる未知適応マージン損失によりよくバランスさせる。 最後に,4つの公開データセットを用いた実験により,本手法が既存の最先端手法を大幅に上回ることを示した。

Universal domain adaptation (UniDA) aims to transfer the knowledge of common classes from source domain to target domain without any prior knowledge on the label set, which requires to distinguish the unknown samples from the known ones in the target domain. Like the traditional unsupervised domain adaptation problem, the misalignment between two domains exists due to the biased and less-discriminative embedding. Recent methods proposed to complete the domain misalignment by clustering target samples with the nearest neighbors or the prototypes. However, it is dangerous to do so since we do not have any prior knowledge about the distributions of unknown samples which can magnify the misalignment especially when the unknown set is big. Meanwhile, other existing classifier-based methods could easily produce overconfident predictions of unknown samples because of the supervised objective in source domain leading the whole model to be biased towards the common classes in the target domain. Therefore, we propose a novel non-parameter unknown samples detection method based on mapping the samples in the original feature space into a reliable linear sub-space which makes data points more sparse to reduce the misalignment between unknown samples and source samples. Moreover, unlike the recent methods applying extra parameters to improve the classification of unknown samples, this paper well balances the confidence values of both known and unknown samples through an unknown-adaptive margin loss which can control the gradient updating of the classifier learning on supervised source samples depending on the confidence level of detected unknown samples at current step. Finally, experiments on four public datasets demonstrate that our method significantly outperforms existing state-of-the-art methods.
翻訳日:2022-09-21 18:47:15 公開日:2022-09-19
# 教師なしビデオオブジェクトセグメンテーションのための単純かつ強力なグローバル最適化

A Simple and Powerful Global Optimization for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2209.09341v1 )

ライセンス: Link先を確認
Georgy Ponimatkin, Nermin Samet, Yang Xiao, Yuming Du, Renaud Marlet, Vincent Lepetit(参考訳) ビデオにおける教師なしオブジェクトセグメンテーションのためのシンプルで強力なアプローチを提案する。 本稿では,入力シーケンス上の主有能物体のマスクを最小に表現した目的関数を提案する。 独立した画像の特徴と光学フローにのみ依存しており、市販の自己監督手法で得られる。 スーパーピクセルやスパーシフィケーションを必要とせず、シーケンスの長さに合わせてスケールし、特定のトレーニングなしで異なるデータセットに一般化する。 この目的関数は、ビデオ全体に適用されるスペクトルクラスタリングの形式から導出することができる。 本手法は,標準ベンチマーク (davis2016, segtrack-v2, fbms59) の技術水準と同等の性能を実現し, 概念的にも実質的にもよりシンプルである。 コードはhttps://ponimatkin.github.io/ssl-vosで入手できる。

We propose a simple, yet powerful approach for unsupervised object segmentation in videos. We introduce an objective function whose minimum represents the mask of the main salient object over the input sequence. It only relies on independent image features and optical flows, which can be obtained using off-the-shelf self-supervised methods. It scales with the length of the sequence with no need for superpixels or sparsification, and it generalizes to different datasets without any specific training. This objective function can actually be derived from a form of spectral clustering applied to the entire video. Our method achieves on-par performance with the state of the art on standard benchmarks (DAVIS2016, SegTrack-v2, FBMS59), while being conceptually and practically much simpler. Code is available at https://ponimatkin.github.io/ssl-vos.
翻訳日:2022-09-21 18:27:48 公開日:2022-09-19
# E-VFIA : 注意を伴うイベントベースビデオフレーム補間

E-VFIA : Event-Based Video Frame Interpolation with Attention ( http://arxiv.org/abs/2209.09359v1 )

ライセンス: Link先を確認
Onur Selim K{\i}l{\i}\c{c}, Ahmet Akman and A. Ayd{\i}n Alatan(参考訳) ビデオフレーム補間(VFI)は、2つの連続したオリジナル映像間で複数のフレームを合成することを目的とした基本的な視覚課題である。 ほとんどのアルゴリズムはキーフレームのみを使用してvfiを実現することを目標としているが、キーフレームは通常、シーン内のオブジェクトの軌跡について正確な精度を示さないため、不適切な問題である。 一方、イベントベースのカメラは、ビデオのキーフレーム間のより正確な情報を提供する。 最近の最先端のイベントベース手法では、イベントデータを利用してより優れた光フロー推定を行い、ワーピングによるビデオフレームの補間を行うことでこの問題にアプローチしている。 にもかかわらず、これらの方法はゴースト効果に苦しむ。 一方、フレームのみを入力として使用するカーネルベースのVFI手法のいくつかは、変形可能な畳み込みがトランスフォーマーによってバックアップされる場合、長距離依存関係を扱う信頼性の高い方法であることを示している。 軽量カーネルベース手法として,イベントベースビデオフレームの注目補間(E-VFIA)を提案する。 E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。 提案手法は,時間分解能の高い事象を表現し,マルチヘッド・セルフアテンション機構を用いてイベントベースの情報をよりよくエンコードすると同時に,ぼやけたり,ゴーストしたりするアーティファクトに対する脆弱性を少なくし,より鮮明なフレームを生成する。 シミュレーションの結果,提案手法は現状の手法(フレームとイベントベースの両方)よりもはるかに小さいモデルサイズで優れていた。

Video frame interpolation (VFI) is a fundamental vision task that aims to synthesize several frames between two consecutive original video images. Most algorithms aim to accomplish VFI by using only keyframes, which is an ill-posed problem since the keyframes usually do not yield any accurate precision about the trajectories of the objects in the scene. On the other hand, event-based cameras provide more precise information between the keyframes of a video. Some recent state-of-the-art event-based methods approach this problem by utilizing event data for better optical flow estimation to interpolate for video frame by warping. Nonetheless, those methods heavily suffer from the ghosting effect. On the other hand, some of kernel-based VFI methods that only use frames as input, have shown that deformable convolutions, when backed up with transformers, can be a reliable way of dealing with long-range dependencies. We propose event-based video frame interpolation with attention (E-VFIA), as a lightweight kernel-based method. E-VFIA fuses event information with standard video frames by deformable convolutions to generate high quality interpolated frames. The proposed method represents events with high temporal resolution and uses a multi-head self-attention mechanism to better encode event-based information, while being less vulnerable to blurring and ghosting artifacts; thus, generating crispier frames. The simulation results show that the proposed technique outperforms current state-of-the-art methods (both frame and event-based) with a significantly smaller model size.
翻訳日:2022-09-21 18:27:31 公開日:2022-09-19
# LidarMultiNet:LiDAR知覚のための統一マルチタスクネットワークを目指して

LidarMultiNet: Towards a Unified Multi-task Network for LiDAR Perception ( http://arxiv.org/abs/2209.09385v1 )

ライセンス: Link先を確認
Dongqiangzi Ye, Zixiang Zhou, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang and Hassan Foroosh(参考訳) LiDARベースの3Dオブジェクト検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションは通常、互いに適応しづらい独特のアーキテクチャを持つ特殊なネットワークで実装される。 本稿では,LiDARをベースとしたマルチタスクネットワークであるLidarMultiNetについて述べる。 その多くの利点のうち、マルチタスクネットワークは、重みと計算を複数のタスク間で共有することで、全体のコストを削減できる。 しかし、通常は独立に結合されたシングルタスクモデルと比較して性能が劣る。 提案されたlidarmultinetは、マルチタスクネットワークと複数のシングルタスクネットワークのパフォーマンスギャップを埋めることを目的としている。 LidarMultiNetの中核には、強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがあり、LiDARフレームからグローバルなコンテキスト特徴を抽出するグローバルコンテキストプーリング(GCP)モジュールがある。 3つのLiDAR知覚タスクを実行するために、ネットワーク上にタスク固有のヘッドが追加される。 新しいタスク固有のヘッドを追加するだけで、さらに多くのタスクを実装できる。 第2段階も提案され、第1段階のセグメンテーションを洗練し、正確なパノプティクスセグメンテーション結果を生成する。 LidarMultiNetはWaymo Open DatasetとnuScenesのデータセットで広くテストされており、主要なLiDAR認識タスクがエンドツーエンドにトレーニングされ、最先端のパフォーマンスを達成する単一の強力なネットワークに統合可能であることを初めて実証している。 特に、LidarMultiNetは、Waymo Open Dataset 3Dセマンティックセマンティックセグメンテーションチャレンジ2022において、最も高いmIoUとテストセット上の22クラスのほとんどにおいて、入力としてLiDARポイントのみを使用して、最高の精度で1位に達した。 また、waymo 3d object detection benchmarkと3つのnuscenesベンチマークに、単一のモデルのための新しい最新技術を設定する。

LiDAR-based 3D object detection, semantic segmentation, and panoptic segmentation are usually implemented in specialized networks with distinctive architectures that are difficult to adapt to each other. This paper presents LidarMultiNet, a LiDAR-based multi-task network that unifies these three major LiDAR perception tasks. Among its many benefits, a multi-task network can reduce the overall cost by sharing weights and computation among multiple tasks. However, it typically underperforms compared to independently combined single-task models. The proposed LidarMultiNet aims to bridge the performance gap between the multi-task network and multiple single-task networks. At the core of LidarMultiNet is a strong 3D voxel-based encoder-decoder architecture with a Global Context Pooling (GCP) module extracting global contextual features from a LiDAR frame. Task-specific heads are added on top of the network to perform the three LiDAR perception tasks. More tasks can be implemented simply by adding new task-specific heads while introducing little additional cost. A second stage is also proposed to refine the first-stage segmentation and generate accurate panoptic segmentation results. LidarMultiNet is extensively tested on both Waymo Open Dataset and nuScenes dataset, demonstrating for the first time that major LiDAR perception tasks can be unified in a single strong network that is trained end-to-end and achieves state-of-the-art performance. Notably, LidarMultiNet reaches the official 1st place in the Waymo Open Dataset 3D semantic segmentation challenge 2022 with the highest mIoU and the best accuracy for most of the 22 classes on the test set, using only LiDAR points as input. It also sets the new state-of-the-art for a single model on the Waymo 3D object detection benchmark and three nuScenes benchmarks.
翻訳日:2022-09-21 18:27:04 公開日:2022-09-19
# コード編集によるフレキシブルニューラルネットワーク圧縮

Flexible Neural Image Compression via Code Editing ( http://arxiv.org/abs/2209.09244v1 )

ライセンス: Link先を確認
Chenjian Gao, Tongda Xu, Dailan He, Hongwei Qin, Yan Wang(参考訳) ニューラルイメージ圧縮(nic)はr-d性能で従来の画像コーデックを上回っている。 しかし、通常はR-D曲線の各点に専用エンコーダとデコーダのペアが必要であるため、実際の展開を著しく妨げている。 最近の研究では、条件付きコーディングによるビットレート制御が可能になっているが、トレーニング中に強いプリエントを課し、柔軟性が制限されている。 本稿では,セミアモルト化推論と適応量子化に基づくNICの高柔軟性符号化法であるCode Editingを提案する。 私たちの仕事は、可変ビットレートNICの新しいパラダイムです。 さらに,提案手法は既存の可変レート法を超越し,単一デコーダによるROI符号化とマルチ歪みトレードオフを実現することを示す。

Neural image compression (NIC) has outperformed traditional image codecs in rate-distortion (R-D) performance. However, it usually requires a dedicated encoder-decoder pair for each point on R-D curve, which greatly hinders its practical deployment. While some recent works have enabled bitrate control via conditional coding, they impose strong prior during training and provide limited flexibility. In this paper we propose Code Editing, a highly flexible coding method for NIC based on semi-amortized inference and adaptive quantization. Our work is a new paradigm for variable bitrate NIC. Furthermore, experimental results show that our method surpasses existing variable-rate methods, and achieves ROI coding and multi-distortion trade-off with a single decoder.
翻訳日:2022-09-21 18:10:25 公開日:2022-09-19
# モジュール型・水中型ソフトロボットアームの開発と学習運動学モデルとの対応

Development of a Modular and Submersible Soft Robotic Arm and Corresponding Learned Kinematics Models ( http://arxiv.org/abs/2209.09358v1 )

ライセンス: Link先を確認
W. David Null and YZ(参考訳) 自然界で見られる軟体生物の多くは水中環境に存在する。 柔らかいロボットの水中での動作と制御についても研究するのに役立つ。 しかし、容易に利用可能な水中ソフトロボットシステムは、設計、製造、防水が難しいため、研究者が使用できない。 さらに、封止された電子パッケージを必要とするため、潜水ロボットは通常、構成可能なコンポーネントを持っていない。 本研究は, 水圧アクチュエータによって駆動される水中ロボットアームの開発を, 短時間で組み立てることができる3Dプリント可能な部品を主とする。 また、モジュラー設計により、複数の形状構成とソフトアクチュエータの交換が容易になる。 このシステム上で機械学習制御アルゴリズムを探索する最初のステップとして、2つのディープニューラルネットワークモデルを開発し、トレーニングし、ロボットの前方および逆運動学を推定するために評価した。 この水中ソフトロボットアームを制御するために開発された技術は、ソフトロボットシステム全般の制御方法を理解するのに役立つ。

Most soft-body organisms found in nature exist in underwater environments. It is helpful to study the motion and control of soft robots underwater as well. However, a readily available underwater soft robotic system is not available for researchers to use because they are difficult to design, fabricate, and waterproof. Furthermore, submersible robots usually do not have configurable components because of the need for sealed electronics packages. This work presents the development of a submersible soft robotic arm driven by hydraulic actuators which consists of mostly 3D printable parts which can be assembled in a short amount of time. Also, its modular design enables multiple shape configurations and easy swapping of soft actuators. As a first step to exploring machine learning control algorithms on this system, two deep neural network models were developed, trained, and evaluated to estimate the robot's forward and inverse kinematics. The techniques developed for controlling this underwater soft robotic arm can help advance understanding on how to control soft robotic systems in general.
翻訳日:2022-09-21 18:09:16 公開日:2022-09-19
# Erzya言語のための最初のニューラルマシン翻訳システム

The first neural machine translation system for the Erzya language ( http://arxiv.org/abs/2209.09368v1 )

ライセンス: Link先を確認
David Dale(参考訳) 絶滅危惧語erzya言語とロシア語の翻訳のための最初のニューラルマシン翻訳システムと,我々が収集したデータセットを用いて学習し,評価する。 BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、半数以上が母語話者に受け入れられていると評価されている。 また、Erzyaと他の10の言語を翻訳するためにモデルを適応していますが、追加の並列データなしでは、これらの方向の質は低いままです。 本稿では,erzya言語に適応した翻訳モデルと,収集されたテキストコーパス,新しい言語識別モデル,多言語文エンコーダについて述べる。 これらのリソースはhttps://github.com/slone-nlp/myv-nmtで入手できる。

We present the first neural machine translation system for translation between the endangered Erzya language and Russian and the dataset collected by us to train and evaluate it. The BLEU scores are 17 and 19 for translation to Erzya and Russian respectively, and more than half of the translations are rated as acceptable by native speakers. We also adapt our model to translate between Erzya and 10 other languages, but without additional parallel data, the quality on these directions remains low. We release the translation models along with the collected text corpus, a new language identification model, and a multilingual sentence encoder adapted for the Erzya language. These resources will be available at https://github.com/slone-nlp/myv-nmt.
翻訳日:2022-09-21 18:09:02 公開日:2022-09-19
# シリコン中のAdExニューロンダイナミクスの高精度で柔軟なアナログエミュレーション

An accurate and flexible analog emulation of AdEx neuron dynamics in silicon ( http://arxiv.org/abs/2209.09280v1 )

ライセンス: Link先を確認
Sebastian Billaudelle, Johannes Weis, Philipp Dauer, Johannes Schemmel(参考訳) アナログニューロモルフィックハードウェアは、一方の脳の高速エミュレーションと他方の脳に着想を得た新しい計算パラダイムの効率的な実装を約束する。 このスペクトルをブリッジするには、標的ニューロンとシナプスモデルの正確な実装によって育てられる信頼性と再現可能なダイナミクスを備えた柔軟に構成可能な回路が必要である。 混合信号加速型ニューロモルフィック系BrainScaleS-2のアナログニューロン回路を提示する。 彼らは、広範囲の複雑なニューロンのダイナミクスと発射パターンを正確に再現することにより、適応的な指数的漏洩積分・燃焼モデル方程式を、電流および伝導性に基づくシナプスと組み合わせて柔軟かつ正確にエミュレートすることができる。

Analog neuromorphic hardware promises fast brain emulation on the one hand and an efficient implementation of novel, brain-inspired computing paradigms on the other. Bridging this spectrum requires flexibly configurable circuits with reliable and reproducible dynamics fostered by an accurate implementation of the targeted neuron and synapse models. This manuscript presents the analog neuron circuits of the mixed-signal accelerated neuromorphic system BrainScaleS-2. They are capable of flexibly and accurately emulating the adaptive exponential leaky integrate-and-fire model equations in combination with both current- and conductance-based synapses, as demonstrated by precisely replicating a wide range of complex neuronal dynamics and firing patterns.
翻訳日:2022-09-21 18:01:19 公開日:2022-09-19
# 2次システムの適応制御のためのメタ強化学習

Meta-Reinforcement Learning for Adaptive Control of Second Order Systems ( http://arxiv.org/abs/2209.09301v1 )

ライセンス: Link先を確認
Daniel G. McClement, Nathan P. Lawrence, Michael G. Forbes, Philip D. Loewen, Johan U. Backstr\"om, R. Bhushan Gopaluni(参考訳) メタラーニング(meta-learning)は、関連するタスクの分布からデータを合成し、新しいタスクを効率的に解くことを目的とした機械学習の分野である。 プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。 本研究では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。 メタRLエージェントは、単一のモデルではなくモデルパラメータの分布に基づいてトレーニングされ、パフォーマンスを維持しながら、プロセスのダイナミクスの変化に自動的に適応することができる。 重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。 先程の研究では, 1次プロセスを制御するために比例積分制御器をチューニングする工業的問題に対して, このアプローチが適用可能であることを実証した。 そこで本研究では,本手法を簡潔に導入し,比例積分導出制御系と二階系に拡張する方法を実証する。

Meta-learning is a branch of machine learning which aims to synthesize data from a distribution of related tasks to efficiently solve new ones. In process control, many systems have similar and well-understood dynamics, which suggests it is feasible to create a generalizable controller through meta-learning. In this work, we formulate a meta reinforcement learning (meta-RL) control strategy that takes advantage of known, offline information for training, such as a model structure. The meta-RL agent is trained over a distribution of model parameters, rather than a single model, enabling the agent to automatically adapt to changes in the process dynamics while maintaining performance. A key design element is the ability to leverage model-based information offline during training, while maintaining a model-free policy structure for interacting with new environments. Our previous work has demonstrated how this approach can be applied to the industrially-relevant problem of tuning proportional-integral controllers to control first order processes. In this work, we briefly reintroduce our methodology and demonstrate how it can be extended to proportional-integral-derivative controllers and second order systems.
翻訳日:2022-09-21 18:00:43 公開日:2022-09-19
# 群衆の強化を理解する

Understanding reinforcement learned crowds ( http://arxiv.org/abs/2209.09344v1 )

ライセンス: Link先を確認
Ariel Kwiatkowski, Vicky Kalogeiton, Julien Pettr\'e, Marie-Paule Cani(参考訳) 仮想群衆の軌道をシミュレートすることは、コンピュータグラフィックスでよく見られるタスクである。 最近のいくつかの研究は、仮想エージェントに強化学習法を適用しているが、基本的なシミュレーション設定に関して、異なる設計選択をすることが多い。 これらの選択には、その使用に対する合理的な正当化が伴うため、その本当の影響と結果への影響は明らかではない。 本研究では,これらの任意選択のいくつかを,学習性能への影響,およびエネルギー効率の観点から測定したシミュレーションの品質の観点から分析する。 報奨関数設計の特性を理論的に解析し、様々なシナリオにおける特定の観測と行動空間の使用による影響を実験的に評価し、報奨関数とエネルギー利用を指標とした。 近隣のエージェントの情報を直接観察することで、より広く使われているレイキャストよりも優れていることを示す。 同様に、エゴセントリックな観察を伴う非ホロノミック制御を用いると、絶対的な観察を伴うホロノミック制御よりも効率的な行動を生み出す傾向がある。 それぞれの選択は、結果に大きな影響を与え、潜在的に非自明な影響を与えるため、研究者は、研究の中でそれらを選択して報告することに注意する必要がある。

Simulating trajectories of virtual crowds is a commonly encountered task in Computer Graphics. Several recent works have applied Reinforcement Learning methods to animate virtual agents, however they often make different design choices when it comes to the fundamental simulation setup. Each of these choices comes with a reasonable justification for its use, so it is not obvious what is their real impact, and how they affect the results. In this work, we analyze some of these arbitrary choices in terms of their impact on the learning performance, as well as the quality of the resulting simulation measured in terms of the energy efficiency. We perform a theoretical analysis of the properties of the reward function design, and empirically evaluate the impact of using certain observation and action spaces on a variety of scenarios, with the reward function and energy usage as metrics. We show that directly using the neighboring agents' information as observation generally outperforms the more widely used raycasting. Similarly, using nonholonomic controls with egocentric observations tends to produce more efficient behaviors than holonomic controls with absolute observations. Each of these choices has a significant, and potentially nontrivial impact on the results, and so researchers should be mindful about choosing and reporting them in their work.
翻訳日:2022-09-21 18:00:24 公開日:2022-09-19
# 説明可能なaiによるクレジットスコアリングのための機械学習モデルの解析と投資決定の最適化

Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions ( http://arxiv.org/abs/2209.09362v1 )

ライセンス: Link先を確認
Swati Tyagi(参考訳) 本稿では、説明可能なAI(XAI)の実践に関連する2つの異なる質問について検討する。 機械学習(ml)は、事前承認、クレジット引受、投資、さまざまなフロントエンドおよびバックエンドアクティビティなど、金融サービスにおいてますます重要になっている。 機械学習は、トレーニングデータの非線形性とインタラクションを自動的に検出し、より高速で正確なクレジット決定を促進する。 しかし、機械学習モデルは不透明で説明が難しいため、信頼性の高い技術を確立するのに必要な重要な要素である。 この研究では、単一分類器(論理回帰、決定木、LDA、QDA)、異種アンサンブル(AdaBoost、ランダムフォレスト)、シーケンシャルニューラルネットワークなど、さまざまな機械学習モデルを比較した。 その結果,アンサンブル分類器とニューラルネットワークが有意差を示した。 さらに、LIMEとSHAPの2つの高度なポストホックモデル非依存の説明可能性技術を用いて、米国P2PLending Platform、Lending Clubが提供するオープンアクセスデータセットを用いてMLベースのクレジットスコアリングモデルを評価する。 本研究では、機械学習アルゴリズムを用いて新たな投資モデルを開発し、リスクを最小化しながら利益率を最大化できるポートフォリオ戦略を探求する。

This paper examines two different yet related questions related to explainable AI (XAI) practices. Machine learning (ML) is increasingly important in financial services, such as pre-approval, credit underwriting, investments, and various front-end and back-end activities. Machine Learning can automatically detect non-linearities and interactions in training data, facilitating faster and more accurate credit decisions. However, machine learning models are opaque and hard to explain, which are critical elements needed for establishing a reliable technology. The study compares various machine learning models, including single classifiers (logistic regression, decision trees, LDA, QDA), heterogeneous ensembles (AdaBoost, Random Forest), and sequential neural networks. The results indicate that ensemble classifiers and neural networks outperform. In addition, two advanced post-hoc model agnostic explainability techniques - LIME and SHAP are utilized to assess ML-based credit scoring models using the open-access datasets offered by US-based P2P Lending Platform, Lending Club. For this study, we are also using machine learning algorithms to develop new investment models and explore portfolio strategies that can maximize profitability while minimizing risk.
翻訳日:2022-09-21 17:59:29 公開日:2022-09-19
# 浅層ニューラルネットワークの勾配解析の安定性と一般化解析

Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks ( http://arxiv.org/abs/2209.09298v1 )

ライセンス: Link先を確認
Yunwen Lei, Rong Jin, Yiming Ying(参考訳) 理論的な進歩は著しいが、過度にパラメータ化されたニューラルネットワークの一般化ミステリーが明らかにされている。 本稿では,アルゴリズム安定性の概念を利用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。 勾配降下 (gd) と確率勾配降下 (sgd) をsnsを訓練するために考慮し, どちらも早期停止による最適化と一般化のバランスをとることによって, 一貫した過大なリスク境界を発達させる。 GDの既存解析と比較して、我々の新しい分析は緩和された過パラメータ化仮定を必要とし、またSGDにも適用する。 改良の鍵となるのは、経験的リスクのヘッセン行列の最小固有値と、GDとSGDの軌道に沿った損失関数をより正確に推定することである。

While significant theoretical progress has been achieved, unveiling the generalization mystery of overparameterized neural networks still remains largely elusive. In this paper, we study the generalization behavior of shallow neural networks (SNNs) by leveraging the concept of algorithmic stability. We consider gradient descent (GD) and stochastic gradient descent (SGD) to train SNNs, for both of which we develop consistent excess risk bounds by balancing the optimization and generalization via early-stopping. As compared to existing analysis on GD, our new analysis requires a relaxed overparameterization assumption and also applies to SGD. The key for the improvement is a better estimation of the smallest eigenvalues of the Hessian matrices of the empirical risks and the loss function along the trajectories of GD and SGD by providing a refined estimation of their iterates.
翻訳日:2022-09-21 17:52:59 公開日:2022-09-19
# 特徴相互作用検出とスパース選択によるスパース相互作用付加ネットワーク

Sparse Interaction Additive Networks via Feature Interaction Detection and Sparse Selection ( http://arxiv.org/abs/2209.09326v1 )

ライセンス: Link先を確認
James Enouen and Yan Liu(参考訳) 現在、線形回帰や加法スプラインのような統計的に厳密な手法と、ニューラルネットワークを用いた強力な深層法の間には、大きな性能の差がある。 このギャップを解消しようとする以前の研究は、ディープネットワークがトレーニング中に自動的に考慮する機能組み合わせの指数関数的に増加する数を完全に調査できなかった。 本研究では,特徴の相互作用検出における手法を活用し,必要な特徴の組み合わせを効率的に識別する抽出可能な選択アルゴリズムを開発した。 提案するスパース相互作用加法ネットワーク (sian) は、これらの単純かつ解釈可能なモデルから完全連結ニューラルネットワークへのブリッジを構築する。 SIANは、複数の大規模表グラフデータセットをまたいだ最先端の手法に対する競争性能を達成し、ニューラルネットワークのモデリング能力と単純な手法の一般化との最適なトレードオフを一貫して見出す。

There is currently a large gap in performance between the statistically rigorous methods like linear regression or additive splines and the powerful deep methods using neural networks. Previous works attempting to close this gap have failed to fully investigate the exponentially growing number of feature combinations which deep networks consider automatically during training. In this work, we develop a tractable selection algorithm to efficiently identify the necessary feature combinations by leveraging techniques in feature interaction detection. Our proposed Sparse Interaction Additive Networks (SIAN) construct a bridge from these simple and interpretable models to fully connected neural networks. SIAN achieves competitive performance against state-of-the-art methods across multiple large-scale tabular datasets and consistently finds an optimal tradeoff between the modeling capacity of neural networks and the generalizability of simpler methods.
翻訳日:2022-09-21 17:52:43 公開日:2022-09-19
# 効率的なベイズ推論のための力学系の物理インフォームド機械学習

Physics-Informed Machine Learning of Dynamical Systems for Efficient Bayesian Inference ( http://arxiv.org/abs/2209.09349v1 )

ライセンス: Link先を確認
Somayajulu L. N. Dhulipala and Yifeng Che and Michael D. Shields(参考訳) no-u-turn sampler (NUTS) はベイズ推定法として広く採用されているが、実際には計算に費用がかかる多くの後勾配を必要とする。 近年、力学系(あるいはハミルトニアン系)の物理ベースの機械学習に大きな関心が寄せられ、ハミルトニアンニューラルネットワーク(hnn)は注目に値するアーキテクチャである。 しかし、これらのアーキテクチャはベイズ推論問題を効率的に解くには適用されていない。 本稿では,HNNを用いてベイズ推定を効率的に行う方法を提案する。 HNN(L-HNN)に潜時変数の出力を導入し,表現性の向上と積分誤差の低減を図る。 我々は,L-HNN を NUTS に統合し,L-HNN がトレーニングデータが少ない地域において,デジェネリシーのサンプリングを防止するためのオンラインエラー監視手法を提案する。 NUTSにおけるL-HNNを,数個の複雑な高次元後部密度を考慮したオンラインエラーモニタリングで実証し,その性能をNUTSと比較した。

Although the no-u-turn sampler (NUTS) is a widely adopted method for performing Bayesian inference, it requires numerous posterior gradients which can be expensive to compute in practice. Recently, there has been a significant interest in physics-based machine learning of dynamical (or Hamiltonian) systems and Hamiltonian neural networks (HNNs) is a noteworthy architecture. But these types of architectures have not been applied to solve Bayesian inference problems efficiently. We propose the use of HNNs for performing Bayesian inference efficiently without requiring numerous posterior gradients. We introduce latent variable outputs to HNNs (L-HNNs) for improved expressivity and reduced integration errors. We integrate L-HNNs in NUTS and further propose an online error monitoring scheme to prevent sampling degeneracy in regions where L-HNNs may have little training data. We demonstrate L-HNNs in NUTS with online error monitoring considering several complex high-dimensional posterior densities and compare its performance to NUTS.
翻訳日:2022-09-21 17:52:29 公開日:2022-09-19
# lazy vs hasty: ディープネットワークの線形化がサンプル難易度に基づく学習スケジュールに与える影響

Lazy vs hasty: linearization in deep networks impacts learning schedule based on example difficulty ( http://arxiv.org/abs/2209.09658v1 )

ライセンス: Link先を確認
Thomas George, Guillaume Lajoie, Aristide Baratin(参考訳) ディープニューラルネットワークの成功を理論的に説明しようとする試みの中で、最近の一連の研究は、ネットワークが初期化に関する線形化によってよく近似できるいわゆる'lazy'レジームを特定した。 本稿では,遅延(線形)と特徴学習(非線形)が,その難易度に基づく例のサブグループに与える影響について検討する。 具体的には、より簡単な例が機能学習モードに重み付けされ、より難しい例に比べてトレーニングが高速になることを示す。 言い換えると、非線形ダイナミクスは困難の増加例の学習を逐次化する傾向がある。 この現象を,c-score,ラベルノイズ,スプリアス相関の存在など,様々な方法で定量化する。 以上の結果から,深層ネットワークが実例でいかにリソースを優先するか,新たな理解が得られた。

Among attempts at giving a theoretical account of the success of deep neural networks, a recent line of work has identified a so-called `lazy' regime in which the network can be well approximated by its linearization around initialization. Here we investigate the comparative effect of the lazy (linear) and feature learning (non-linear) regimes on subgroups of examples based on their difficulty. Specifically, we show that easier examples are given more weight in feature learning mode, resulting in faster training compared to more difficult ones. In other words, the non-linear dynamics tends to sequentialize the learning of examples of increasing difficulty. We illustrate this phenomenon across different ways to quantify example difficulty, including c-score, label noise, and in the presence of spurious correlations. Our results reveal a new understanding of how deep networks prioritize resources across example difficulty.
翻訳日:2022-09-21 17:51:56 公開日:2022-09-19
# 特権付き中間情報を用いた可視赤外人物再同定

Visible-Infrared Person Re-Identification Using Privileged Intermediate Information ( http://arxiv.org/abs/2209.09348v1 )

ライセンス: Link先を確認
Mahdi Alehdaghi, Arthur Josi, Rafael M. O. Cruz and Eric Granger(参考訳) ReID(Visible-infrared person re-identification)は、RGBとIRカメラのネットワークを通して、同じ人の関心事を認識することを目的としている。 いくつかのディープラーニング(dl)モデルは、共同表現空間内の人を判別するために両方のモダリティを直接組み込んだ。 しかし、このクロスモーダルなReID問題は、RGBとIRモダリティ間のデータ分散の大きなドメインシフトのため、依然として困難である。 % トレーニング中の2つのメインドメイン(RGBとIRモダリティ)間のブリッジとして機能する中間仮想ドメインを作成するための新しいアプローチを提案する。 この中間領域は、テスト時に利用できない特権情報(PI)と見なされ、特権情報(LUPI)下での学習における問題として、このクロスモーダルマッチングタスクを定式化することができる。 中間領域適応により深層reidモデルを訓練するための付加情報を提供する可視領域と赤外線領域間の画像を生成する新しい手法を考案した。 特に,トレーニング中に無色多段三重項損失目標を用いることにより,大きな可視赤外領域シフトに対してロバストな共通特徴表現空間を提供する。 5%の可視赤外ReIDデータセットによる実験結果から,提案手法はテスト時の計算オーバーヘッドを伴わず,一致精度を常に向上することが示された。 コードは以下の通りである。 \href{https://github.com/alehdaghi/Cross-Modal-Re-ID-via-LUPI}{https://github.com/alehdaghi/Cross-Modal-Re-ID-via-LUPI}

Visible-infrared person re-identification (ReID) aims to recognize a same person of interest across a network of RGB and IR cameras. Some deep learning (DL) models have directly incorporated both modalities to discriminate persons in a joint representation space. However, this cross-modal ReID problem remains challenging due to the large domain shift in data distributions between RGB and IR modalities. % This paper introduces a novel approach for a creating intermediate virtual domain that acts as bridges between the two main domains (i.e., RGB and IR modalities) during training. This intermediate domain is considered as privileged information (PI) that is unavailable at test time, and allows formulating this cross-modal matching task as a problem in learning under privileged information (LUPI). We devised a new method to generate images between visible and infrared domains that provide additional information to train a deep ReID model through an intermediate domain adaptation. In particular, by employing color-free and multi-step triplet loss objectives during training, our method provides common feature representation spaces that are robust to large visible-infrared domain shifts. % Experimental results on challenging visible-infrared ReID datasets indicate that our proposed approach consistently improves matching accuracy, without any computational overhead at test time. The code is available at: \href{https://github.com/alehdaghi/Cross-Modal-Re-ID-via-LUPI}{https://github.com/alehdaghi/Cross-Modal-Re-ID-via-LUPI}
翻訳日:2022-09-21 17:51:26 公開日:2022-09-19
# MAN: マルチアクションネットワーク学習

MAN: Multi-Action Networks Learning ( http://arxiv.org/abs/2209.09329v1 )

ライセンス: Link先を確認
Keqin Wang, Alison Bartsch, Amir Barati Farimani(参考訳) 大規模行動空間による制御方針の学習は、現在探索の非効率性のため強化学習の分野では難しい課題である。 本研究では,大規模離散行動空間の課題に対処するマルチアクションネットワーク(MAN)学習という,深層強化学習(DRL)アルゴリズムを提案する。 アクション空間を2つのコンポーネントに分離し,各サブアクションに対して値ニューラルネットワークを作成する。 次に、manは時間差学習を使用してネットワークを同期的にトレーニングする。これは、大きなアクションアウトプットで単一のネットワークをトレーニングするよりも簡単である。 提案手法を評価するため,ブロック積み重ねタスク上でMANをテストし,さらに18のアクション空間を持つアタリアーケード学習環境からMANを拡張して12のゲームを扱う。 この結果から,MANは深度Q-LearningとDouble Deep Q-Learningよりも高速に学習できることが示唆された。

Learning control policies with large action spaces is a challenging problem in the field of reinforcement learning due to present inefficiencies in exploration. In this work, we introduce a Deep Reinforcement Learning (DRL) algorithm call Multi-Action Networks (MAN) Learning that addresses the challenge of large discrete action spaces. We propose separating the action space into two components, creating a Value Neural Network for each sub-action. Then, MAN uses temporal-difference learning to train the networks synchronously, which is simpler than training a single network with a large action output directly. To evaluate the proposed method, we test MAN on a block stacking task, and then extend MAN to handle 12 games from the Atari Arcade Learning environment with 18 action spaces. Our results indicate that MAN learns faster than both Deep Q-Learning and Double Deep Q-Learning, implying our method is a better performing synchronous temporal difference algorithm than those currently available for large action spaces.
翻訳日:2022-09-21 17:43:50 公開日:2022-09-19
# アサシンaiをレジスタンスのために訓練する:アバロン

Training an Assassin AI for The Resistance: Avalon ( http://arxiv.org/abs/2209.09331v1 )

ライセンス: Link先を確認
Robert Chuchro(参考訳) the resistance: avalonは、部分的に観察可能な社会的推論ゲームである。 このAIゲームプレイの領域はかなり未発達だ。 このゲームにAIを実装するには、各フェーズに特有の複数のコンポーネントと、ゲームにおける役割が含まれる。 本稿では,まず,機械学習問題としてモデル化可能な暗殺段階に対処することにより,各ロール/フェーズに必要なコンポーネントを反復的に開発する。 オンライン版のゲームの公開データセットを使用して、アサシンをエミュレートする分類器をトレーニングします。 様々な分類手法を試した結果,単純な線形支持ベクトル分類器を用いて平均的な人間性能を達成できた。 このプロジェクトの最終的な目標は、任意の役割としてゲームの各フェーズでプレイできるインテリジェントで完全なアバロンプレーヤーの開発を追求することである。

The Resistance: Avalon is a partially observable social deduction game. This area of AI game playing is fairly undeveloped. Implementing an AI for this game involves multiple components specific to each phase as well as role in the game. In this paper, we plan to iteratively develop the required components for each role/phase by first addressing the Assassination phase which can be modeled as a machine learning problem. Using a publicly available dataset from an online version of the game, we train classifiers that emulate an Assassin. After trying various classification techniques, we are able to achieve above average human performance using a simple linear support vector classifier. The eventual goal of this project is to pursue developing an intelligent and complete Avalon player that can play through each phase of the game as any role.
翻訳日:2022-09-21 17:43:34 公開日:2022-09-19
# バイオインスパイアされた自律視覚ナビゲーション

Autonomous Visual Navigation A Biologically Inspired Approach ( http://arxiv.org/abs/2209.09663v1 )

ライセンス: Link先を確認
Sotirios Athanasoulias and Andy Philippides(参考訳) 動物界で観察される航海行動,特にアリの航海行動に触発された我々は,異なる種類の生体模倣アルゴリズムを実装し,人工環境下でのシミュレーションを試みた。

Inspired by the navigational behavior observed in the animal kingdom and especially the navigational behavior of the ants, we attempt to simulate it in an artificial environment by implementing different kinds of biomimetic algorithms.
翻訳日:2022-09-21 17:34:52 公開日:2022-09-19
# 深い線形ネットワークは、浅すぎるネットワークがうまく機能する

Deep Linear Networks can Benignly Overfit when Shallow Ones Do ( http://arxiv.org/abs/2209.09315v1 )

ライセンス: Link先を確認
Niladri S. Chatterji, Philip M. Long(参考訳) 我々は勾配流を用いて訓練した深い線形ネットワークを補間する余剰リスクを負う。 最小$\ell_2$-norm補間に対するリスク境界を確立するために以前用いられた設定において、ランダムに初期化された深層線形ネットワークは最小$\ell_2$-norm補間に対する既知の境界を密に近似するか、あるいは一致させることができることを示す。 また,補間深部線形モデルは最小$\ell_2$-norm 解と全く同じ条件分散を持つことを明らかにした。 ノイズは条件付き分散によってのみ過剰なリスクに影響を及ぼすため、深さがアルゴリズムの「ノイズを隠す」能力を向上させることはない。 我々のシミュレーションは、単純なデータ分布の典型的な振舞いを反映していることを検証する。 また、ReLUネットワークを用いたシミュレーションでも同様の現象が見られるが、状況は微妙である。

We bound the excess risk of interpolating deep linear networks trained using gradient flow. In a setting previously used to establish risk bounds for the minimum $\ell_2$-norm interpolant, we show that randomly initialized deep linear networks can closely approximate or even match known bounds for the minimum $\ell_2$-norm interpolant. Our analysis also reveals that interpolating deep linear models have exactly the same conditional variance as the minimum $\ell_2$-norm solution. Since the noise affects the excess risk only through the conditional variance, this implies that depth does not improve the algorithm's ability to "hide the noise". Our simulations verify that aspects of our bounds reflect typical behavior for simple data distributions. We also find that similar phenomena are seen in simulations with ReLU networks, although the situation there is more nuanced.
翻訳日:2022-09-21 17:24:25 公開日:2022-09-19
# ネステロフ加速の勾配ノルム最小化:$o(1/k^3)$

Gradient Norm Minimization of Nesterov Acceleration: $o(1/k^3)$ ( http://arxiv.org/abs/2209.08862v1 )

ライセンス: Link先を確認
Shuo Chen, Bin Shi, Ya-xiang Yuan(参考訳) 一階アルゴリズムの歴史において、ネステロフの加速勾配降下(NAG)はマイルストーンの1つである。 しかし、加速の原因は長い間謎に包まれてきた。 勾配補正の存在は [shi et al., 2021] で提案された高分解能微分方程式の枠組みまで明らかにされていない。 本稿では,加速度現象の研究を継続する。 まず,l$-smooth関数に対する厳密な観測とより厳密な不等式に基づく,大幅に単純化された証明を提供する。 次に,nagの反復列$\{x_k\}_{k=0}^{\infty}$の収束挙動を調べるために,位相空間表現とリアプノフ関数の対応する暗黙的速度バージョンとともに,新しい暗黙的速度高分解能微分方程式フレームワークを提案する。 さらに, 2種類の位相空間表現から, 勾配補正が果たす役割は, 勾配に暗黙的に包含される速度と等価であり, 反復列 $\{y_{k}\}_{k=0}^{\infty}$ が$\{x_k\}_{k=0}^{\infty}$ に置き換えられる唯一の差異であることがわかった。 最後に、nag の勾配ノルム最小化がより速いレート $o(1/k^3)$ を持つかどうかという疑問に対して、その証明で正の答えを求める。 一方、$r > 2$の場合、目的値最小化$o(1/k^2)$の高速化率を示す。

In the history of first-order algorithms, Nesterov's accelerated gradient descent (NAG) is one of the milestones. However, the cause of the acceleration has been a mystery for a long time. It has not been revealed with the existence of gradient correction until the high-resolution differential equation framework proposed in [Shi et al., 2021]. In this paper, we continue to investigate the acceleration phenomenon. First, we provide a significantly simplified proof based on precise observation and a tighter inequality for $L$-smooth functions. Then, a new implicit-velocity high-resolution differential equation framework, as well as the corresponding implicit-velocity version of phase-space representation and Lyapunov function, is proposed to investigate the convergence behavior of the iterative sequence $\{x_k\}_{k=0}^{\infty}$ of NAG. Furthermore, from two kinds of phase-space representations, we find that the role played by gradient correction is equivalent to that by velocity included implicitly in the gradient, where the only difference comes from the iterative sequence $\{y_{k}\}_{k=0}^{\infty}$ replaced by $\{x_k\}_{k=0}^{\infty}$. Finally, for the open question of whether the gradient norm minimization of NAG has a faster rate $o(1/k^3)$, we figure out a positive answer with its proof. Meanwhile, a faster rate of objective value minimization $o(1/k^2)$ is shown for the case $r > 2$.
翻訳日:2022-09-20 20:25:41 公開日:2022-09-19
# DRAM処理によるニューラルネットワーク推論の高速化:エッジからクラウドへ

Accelerating Neural Network Inference with Processing-in-DRAM: From the Edge to the Cloud ( http://arxiv.org/abs/2209.08938v1 )

ライセンス: Link先を確認
Geraldo F. Oliveira, Juan G\'omez-Luna, Saugata Ghose, Amirali Boroumand, Onur Mutlu(参考訳) ニューラルネットワーク(NN)の重要性と複雑さが増している。 ニューラルネットワークの性能(およびエネルギー効率)は、計算またはメモリリソースによって拘束できる。 PIM(Processing-in-Memory)パラダイムは、計算をメモリアレイの近くまたは内側に置くことで、メモリバウンドNNを高速化する実行可能なソリューションである。 しかし、PIMアーキテクチャは形式によって異なり、異なるPIMアプローチが異なるトレードオフをもたらす。 我々のゴールは、NN性能とエネルギー効率のためにDRAMベースのPIMアーキテクチャを分析し、議論し、対比することである。 そこで我々は,(1)プロセッサとDRAMアレイを1つの2Dチップに統合するUPMEM,(2)エッジデバイスに適した3DスタックベースのPIMアーキテクチャであるMensa,(3)DRAMのアナログ原理を用いてビットシリアル演算を行うSIMDRAMの3つのアーキテクチャを解析した。 UPMEMはGPUが一般的な行列ベクトル乗算カーネルに対してメモリオーバーサブスクライブを必要とする場合のハイエンドGPUの性能を23倍に向上し、MensaはGoogle Edge TPUよりも効率を3倍、スループットを3倍に向上させ、SIMDRAMは3つのバイナリNNに対して16.7x/1.4倍のCPU/GPU性能を向上する。 NNモデルに対する理想的なPIMアーキテクチャは、固有のアーキテクチャ設計の選択のため、モデルの異なる属性に依存すると結論付けている。

Neural networks (NNs) are growing in importance and complexity. A neural network's performance (and energy efficiency) can be bound either by computation or memory resources. The processing-in-memory (PIM) paradigm, where computation is placed near or within memory arrays, is a viable solution to accelerate memory-bound NNs. However, PIM architectures vary in form, where different PIM approaches lead to different trade-offs. Our goal is to analyze, discuss, and contrast DRAM-based PIM architectures for NN performance and energy efficiency. To do so, we analyze three state-of-the-art PIM architectures: (1) UPMEM, which integrates processors and DRAM arrays into a single 2D chip; (2) Mensa, a 3D-stack-based PIM architecture tailored for edge devices; and (3) SIMDRAM, which uses the analog principles of DRAM to execute bit-serial operations. Our analysis reveals that PIM greatly benefits memory-bound NNs: (1) UPMEM provides 23x the performance of a high-end GPU when the GPU requires memory oversubscription for a general matrix-vector multiplication kernel; (2) Mensa improves energy efficiency and throughput by 3.0x and 3.1x over the Google Edge TPU for 24 Google edge NN models; and (3) SIMDRAM outperforms a CPU/GPU by 16.7x/1.4x for three binary NNs. We conclude that the ideal PIM architecture for NN models depends on a model's distinct attributes, due to the inherent architectural design choices.
翻訳日:2022-09-20 20:25:12 公開日:2022-09-19
# 半周期心血管信号のセマンティックセグメンテーションのための因果干渉法

A Causal Intervention Scheme for Semantic Segmentation of Quasi-periodic Cardiovascular Signals ( http://arxiv.org/abs/2209.09018v1 )

ライセンス: Link先を確認
Xingyao Wang, Yuwen Li, Hongxiang Gao, Xianghong Cheng, Jianqing Li and Chengyu Liu(参考訳) 精密セグメンテーションは、心臓周期の意味情報を解析し、心血管信号で異常を捉えるための重要な第一歩である。 しかし、深いセマンティックセグメンテーションの分野では、推論はデータの個々の属性によって一方的に構成されることが多い。 心血管系信号に向けて、準周期性は学習すべき重要な特徴であり、形態(am)とリズム(ar)の属性の合成と見なされる。 私たちの重要な洞察は、深層表現の生成過程において、AmやArの過剰依存を抑制することです。 この問題に対処するため,AmとArの介入アプローチをカスタマイズする基盤として,構造因果モデルを構築した。 本稿では,フレームレベルのコントラスト枠組みの下で新しいトレーニングパラダイムを形成するために,コントラスト因果介入(cci)を提案する。 この介入は、単一の属性によってもたらされる暗黙の統計バイアスを取り除き、より客観的な表現へと導くことができる。 我々はQRS位置と心臓音のセグメンテーションの制御条件を総合的に検討した。 最終結果は、qrs位置の最大0.41%、心臓音のセグメンテーションの2.73%において、我々のアプローチが明らかにパフォーマンスを向上させることを示している。 提案手法の効率は,複数のデータベースと雑音信号に一般化した。

Precise segmentation is a vital first step to analyze semantic information of cardiac cycle and capture anomaly with cardiovascular signals. However, in the field of deep semantic segmentation, inference is often unilaterally confounded by the individual attribute of data. Towards cardiovascular signals, quasi-periodicity is the essential characteristic to be learned, regarded as the synthesize of the attributes of morphology (Am) and rhythm (Ar). Our key insight is to suppress the over-dependence on Am or Ar while the generation process of deep representations. To address this issue, we establish a structural causal model as the foundation to customize the intervention approaches on Am and Ar, respectively. In this paper, we propose contrastive causal intervention (CCI) to form a novel training paradigm under a frame-level contrastive framework. The intervention can eliminate the implicit statistical bias brought by the single attribute and lead to more objective representations. We conduct comprehensive experiments with the controlled condition for QRS location and heart sound segmentation. The final results indicate that our approach can evidently improve the performance by up to 0.41% for QRS location and 2.73% for heart sound segmentation. The efficiency of the proposed method is generalized to multiple databases and noisy signals.
翻訳日:2022-09-20 20:24:39 公開日:2022-09-19
# 高次元最適輸送のためのgencolアルゴリズム:一般定式化とbarycentersとwasserstein splinesへの応用

The GenCol algorithm for high-dimensional optimal transport: general formulation and application to barycenters and Wasserstein splines ( http://arxiv.org/abs/2209.09081v1 )

ライセンス: Link先を確認
Gero Friesecke and Maximilian Penka(参考訳) 我々は最近導入された遺伝的カラム生成アルゴリズムを拡張し、対称性から一般的な問題への多次元最適輸送を実現する。 このアルゴリズムを用いて正確なメッシュフリーwasserstein barycentersと立方体wasserstein splinesを計算する。

We extend the recently introduced genetic column generation algorithm for high-dimensional multi-marginal optimal transport from symmetric to general problems. We use the algorithm to calculate accurate mesh-free Wasserstein barycenters and cubic Wasserstein splines.
翻訳日:2022-09-20 20:24:18 公開日:2022-09-19
# ディープニューラルネットワークを用いたアンチデリバティブの計算

Computing Anti-Derivatives using Deep Neural Networks ( http://arxiv.org/abs/2209.09084v1 )

ライセンス: Link先を確認
D. Chakraborty and S. Gopalakrishnan(参考訳) 本稿では,ディープニューラルネットワークを用いた関数の閉形式反導出を求める新しいアルゴリズムを提案する。 これまで、数学者は定積分の値を近似するいくつかの数値的手法を開発してきたが、プリミティブや不定積分はしばしば非定積分である。 積分にいくつかのパラメータがあり、得られる積分がそれらのパラメータの関数である場合、反導出は必然的に必要となる。 任意の関数に対してこれを行う理論的な方法は存在しない。 これを回避するための既存の方法のいくつかは、主に曲線のフィッティングまたは積分の無限級数近似に基づいている。 曲線フィッティング近似は高非線形関数に対して不正確であり、すべての問題に対して異なるアプローチを必要とする。 一方、無限級数アプローチは閉形式解を与えず、それらの切断形式はしばしば不正確である。 我々は、すべての積分に対して単一の方法を用いることで、アルゴリズムは必要な精度で反導出を近似することができると主張する。 我々は、このアルゴリズムを用いて、非要素積分や振動積分を含むいくつかの関数の反導出を得る。 本稿では, 楕円積分, フェルミ・ディラック積分, 累積分布関数の閉形式表現の取得や, 微分方程式に対するガレルキン法の計算時間を短縮する手法の応用について述べる。

This paper presents a novel algorithm to obtain the closed-form anti-derivative of a function using Deep Neural Network architecture. In the past, mathematicians have developed several numerical techniques to approximate the values of definite integrals, but primitives or indefinite integrals are often non-elementary. Anti-derivatives are necessarily required when there are several parameters in an integrand and the integral obtained is a function of those parameters. There is no theoretical method that can do this for any given function. Some existing ways to get around this are primarily based on either curve fitting or infinite series approximation of the integrand, which is then integrated theoretically. Curve fitting approximations are inaccurate for highly non-linear functions and require a different approach for every problem. On the other hand, the infinite series approach does not give a closed-form solution, and their truncated forms are often inaccurate. We claim that using a single method for all integrals, our algorithm can approximate anti-derivatives to any required accuracy. We have used this algorithm to obtain the anti-derivatives of several functions, including non-elementary and oscillatory integrals. This paper also shows the applications of our method to get the closed-form expressions of elliptic integrals, Fermi-Dirac integrals, and cumulative distribution functions and decrease the computation time of the Galerkin method for differential equations.
翻訳日:2022-09-20 20:24:13 公開日:2022-09-19
# 超音波ドップラー画像からの機械学習による大動脈特定結節領域の境界条件抽出:計算流体力学による検討

Machine Learning based Extraction of Boundary Conditions from Doppler Echo Images for Patient Specific Coarctation of the Aorta: Computational Fluid Dynamics Study ( http://arxiv.org/abs/2209.09139v1 )

ライセンス: Link先を確認
Vincent Milimo Masilokwa Punabantu, Malebogo Ngoepe, Amit Kumar Mishra, Thomas Aldersley, John Lawrenson, Liesl Zulke(参考訳) 資源制約条件におけるAorta (CoA) 患者固有の計算流体力学(CFD) 研究の目的-幾何および速度データ取得のための画像モダリティによって制限される。 ドップラー心エコー法はその高可用性と安全性のために、適切な速度獲得モードと見なされている。 本研究では,従来の機械学習(ML)手法を用いてドップラー心エコー画像から境界条件(BC)を抽出し,CFDを用いた血行動態モデリングを行う手法を提案する。 提案手法は, ml と cfd を組み合わせることで, 関心領域内の流れをモデル化する。 アプローチの重要な特徴は、MLモデルを使用してCFDモデルの入口および出口境界条件(BC)を校正することである。 mlモデルの主要な入力変数は患者の心拍数であり、これは研究内の測定された血管をまたいで時間的に変化するパラメータであった。 ANSYS FluentはCFD成分として,Scikit-Lern pythonライブラリはML成分として用いられた。 結果- 介入前の重篤なCoA症例に対するアプローチを検証した。 シミュレーションで得られた最大凝固速度を, 幾何学的手法を用いた患者から得られた最大凝固速度と比較した。 BCの取得に使用された5つのMLモデルのうち、最上位モデルは最大弧速度の5倍以内であった。 結語-この枠組みは、測定値間での患者の心拍数の変化を考慮に入れることができることを示した。 したがって、心臓の速度が各血管にまたがってスケールされたときに生理的に現実的なBCの計算を可能にし、合理的に正確な解が得られる。

Purpose- Coarctation of the Aorta (CoA) patient-specific computational fluid dynamics (CFD) studies in resource constrained settings are limited by the available imaging modalities for geometry and velocity data acquisition. Doppler echocardiography has been seen as a suitable velocity acquisition modality due to its higher availability and safety. This study aimed to investigate the application of classical machine learning (ML) methods to create an adequate and robust approach for obtaining boundary conditions (BCs) from Doppler Echocardiography images, for haemodynamic modeling using CFD. Methods- Our proposed approach combines ML and CFD to model haemodynamic flow within the region of interest. With the key feature of the approach being the use of ML models to calibrate the inlet and outlet boundary conditions (BCs) of the CFD model. The key input variable for the ML model was the patients heart rate as this was the parameter that varied in time across the measured vessels within the study. ANSYS Fluent was used for the CFD component of the study whilst the scikit-learn python library was used for the ML component. Results- We validated our approach against a real clinical case of severe CoA before intervention. The maximum coarctation velocity of our simulations were compared to the measured maximum coarctation velocity obtained from the patient whose geometry is used within the study. Of the 5 ML models used to obtain BCs the top model was within 5\% of the measured maximum coarctation velocity. Conclusion- The framework demonstrated that it was capable of taking variations of the patients heart rate between measurements into account. Thus, enabling the calculation of BCs that were physiologically realistic when the heart rate was scaled across each vessel whilst providing a reasonably accurate solution.
翻訳日:2022-09-20 20:23:39 公開日:2022-09-19
# REHAPE:Shapley Additive ExPlanationsの強化による財務会計監査における会計異常の説明

RESHAPE: Explaining Accounting Anomalies in Financial Statement Audits by enhancing SHapley Additive exPlanations ( http://arxiv.org/abs/2209.09157v1 )

ライセンス: Link先を確認
Ricardo M\"uller, Marco Schreyer, Timur Sattarov, Damian Borth(参考訳) 会計異常の検出は、財務諸表監査における繰り返しの課題である。 近年、基礎となる会計記録の大量の監査のために、ディープラーニング(dl)から派生した新しい手法が提案されている。 しかし、その膨大な数のパラメータにより、そのようなモデルは本質的に不透明であるという欠点を示す。 同時に、モデルの内部動作を隠蔽することは、しばしば実際のアプリケーションを妨げる。 この観察は、監査人が監査決定を合理的に説明し正当化する必要があるため、金融監査において特に当てはまる。 今日では、SHAP(SHapley Additive exPlanations)など、さまざまな説明可能なAI(XAI)技術がこの課題に対処するために提案されている。 しかし、財務監査にしばしば適用される教師なしdlでは、これらの手法はエンコードされた変数のレベルでのモデル出力を説明する。 その結果、オートエンコーダニューラルネットワーク(AENN)の説明は、人間の監査者によって理解されにくいことが多い。 この欠点を軽減するために,集約された属性レベルのモデル出力を説明するRESHAPEを提案する。 また,監査におけるXAI手法の汎用性を比較するための評価フレームワークを提案する。 実験結果から,RESHAPEは最先端のベースラインと比較して多目的に説明できるという実証的証拠が得られた。 金融監査における非教師なしDL技術導入の次のステップとして,このような属性レベルの説明を想定する。

Detecting accounting anomalies is a recurrent challenge in financial statement audits. Recently, novel methods derived from Deep-Learning (DL) have been proposed to audit the large volumes of a statement's underlying accounting records. However, due to their vast number of parameters, such models exhibit the drawback of being inherently opaque. At the same time, the concealing of a model's inner workings often hinders its real-world application. This observation holds particularly true in financial audits since auditors must reasonably explain and justify their audit decisions. Nowadays, various Explainable AI (XAI) techniques have been proposed to address this challenge, e.g., SHapley Additive exPlanations (SHAP). However, in unsupervised DL as often applied in financial audits, these methods explain the model output at the level of encoded variables. As a result, the explanations of Autoencoder Neural Networks (AENNs) are often hard to comprehend by human auditors. To mitigate this drawback, we propose (RESHAPE), which explains the model output on an aggregated attribute-level. In addition, we introduce an evaluation framework to compare the versatility of XAI methods in auditing. Our experimental results show empirical evidence that RESHAPE results in versatile explanations compared to state-of-the-art baselines. We envision such attribute-level explanations as a necessary next step in the adoption of unsupervised DL techniques in financial auditing.
翻訳日:2022-09-20 20:23:10 公開日:2022-09-19
# 物理拘束型ニューラルネットワークによる織物複合材料の解析と特徴ベース最適化

Physics-Constrained Neural Network for the Analysis and Feature-Based Optimization of Woven Composites ( http://arxiv.org/abs/2209.09154v1 )

ライセンス: Link先を確認
Haotian Feng, Sabarinathan P Subramaniyan, Pavana Prabhakar(参考訳) ワープ繊維とウェフト繊維をパターン又は織りスタイルでインターレースして織布複合体を製造する。 パターンや材料を変えることにより、織物複合材の機械的特性を著しく変化させることができるが、機械的特性に対する織物複合建築(パターン, 材料)の役割はよく理解されていない。 本稿では,提案した物理制約ニューラルネットワーク(PCNN)を用いて,織物複合アーキテクチャ(織物パターン,織物材料シーケンス)と対応する弾性率の関係について検討する。 さらに, 機械的応答を改善するために, 織物複合アーキテクチャの最適化に統計的学習法を適用した。 その結果、pcnnは複数のベースラインモデルよりも高い精度で、所望のモジュラーに対して織りアーキテクチャを効果的に予測できることがわかった。 PCNNはさらに機能ベースの最適化と組み合わせて、初期設計段階で最適な織物複合アーキテクチャを決定することができる。 織物複合アーキテクチャとその機械的応答の関連に加えて,本研究は,建築機能がどのように機械的応答を制御しているのかを深く理解する。 提案手法は, 織物複合解析と最適化を主目的とし, 複雑な構造解析に物理知識誘導ニューラルネットワークを導入する出発点となることを期待する。

Woven composites are produced by interlacing warp and weft fibers in a pattern or weave style. By changing the pattern or material, the mechanical properties of woven composites can be significantly changed; however, the role of woven composite architecture (pattern, material) on the mechanical properties is not well understood. In this paper, we explore the relationship between woven composite architectures (weave pattern, weave material sequence) and the corresponding modulus through our proposed Physics-Constrained Neural Network (PCNN). Furthermore, we apply statistical learning methods to optimize the woven composite architecture to improve mechanical responses. Our results show that PCNN can effectively predict woven architecture for the desired modulus with much higher accuracy than several baseline models. PCNN can be further combined with feature-based optimization to determine the optimal woven composite architecture at the initial design stage. In addition to relating woven composite architecture to its mechanical responses, our research also provides an in-depth understanding of how architectural features govern mechanical responses. We anticipate our proposed frameworks will primarily facilitate the woven composite analysis and optimization process and be a starting point to introduce Physics knowledge-guided Neural Networks into the complex structural analysis.
翻訳日:2022-09-20 20:16:44 公開日:2022-09-19
# 確率最適化における雑音相関の理論的性質について

On the Theoretical Properties of Noise Correlation in Stochastic Optimization ( http://arxiv.org/abs/2209.09162v1 )

ライセンス: Link先を確認
Aurelien Lucchi, Frank Proske, Antonio Orvieto, Francis Bach, Hans Kersting(参考訳) 複雑な非凸関数を最適化するための確率ノイズの特性の研究は、機械学習の分野で活発な研究領域となっている。 先行研究では、確率的勾配降下のノイズは、景観の望ましくない障害物を克服することで最適化を改善することが示されている。 さらに, 人工ガウスノイズの注入は, サドルポイントを素早く回避するための一般的なアイデアとなっている。 実際、信頼できる勾配情報がない場合、ノイズは風景を探索するために使用されるが、どのタイプのノイズが探査能力の点で最適かは定かではない。 この知識のギャップを狭めるために、分数的ブラウン運動に基づいて連続時間非マルコフ過程の一般的なタイプを研究し、それによって過程の増分を相関させることができる。 これは、オルンシュタイン・ウレンベック過程のようなブラウン運動に基づく過程を一般化する。 本稿では,新しいアルゴリズムであるfPGDを生じるプロセスの識別方法について述べる。 この手法は既知のアルゴリズムpgdとアンチpgdの一般化である。 我々は,fPGDの特性を理論的にも実証的にも検討し,PGDやアンチPGDよりも良好な探索能力を有することを示した。 これらの結果は、機械学習モデルのトレーニングにノイズを利用する新しい方法を開拓する。

Studying the properties of stochastic noise to optimize complex non-convex functions has been an active area of research in the field of machine learning. Prior work has shown that the noise of stochastic gradient descent improves optimization by overcoming undesirable obstacles in the landscape. Moreover, injecting artificial Gaussian noise has become a popular idea to quickly escape saddle points. Indeed, in the absence of reliable gradient information, the noise is used to explore the landscape, but it is unclear what type of noise is optimal in terms of exploration ability. In order to narrow this gap in our knowledge, we study a general type of continuous-time non-Markovian process, based on fractional Brownian motion, that allows for the increments of the process to be correlated. This generalizes processes based on Brownian motion, such as the Ornstein-Uhlenbeck process. We demonstrate how to discretize such processes which gives rise to the new algorithm fPGD. This method is a generalization of the known algorithms PGD and Anti-PGD. We study the properties of fPGD both theoretically and empirically, demonstrating that it possesses exploration abilities that, in some cases, are favorable over PGD and Anti-PGD. These results open the field to novel ways to exploit noise for training machine learning models.
翻訳日:2022-09-20 20:16:22 公開日:2022-09-19
# コンテキスト多要素帯域を用いた自律的意思決定のためのアクティブ推論

Active Inference for Autonomous Decision-Making with Contextual Multi-Armed Bandits ( http://arxiv.org/abs/2209.09185v1 )

ライセンス: Link先を確認
Shohei Wakayama and Nisar Ahmed(参考訳) 不確実性の下での自律的なロボット意思決定では、搾取と利用可能な選択肢の探索のトレードオフを考慮する必要がある。 オプションに関連する二次情報が利用できる場合、そのような意思決定問題は文脈的マルチアーム・バンディット(CMAB)として定式化されることが多い。 本研究では,近年,神経科学の分野で積極的に研究されている能動的推論を,cmabsの代替行動選択戦略として応用する。 従来の行動選択戦略とは異なり、自由エネルギー原理から導かれた決定エージェントの確率モデルに関連する期待自由エネルギー(efe)を計算する場合、各オプションの不確かさを厳密に評価することができる。 具体的には、EFE値が解析的に抽出可能であるような分類学的観察可能性関数が用いられる場合に対処する。 本稿では,変分近似とラプラス近似に基づく新しいEFE計算法を提案する。 大規模なシミュレーション研究の結果は、他の戦略と比較して、アクティブ推論は一般的に最適な選択肢を特定するためにはるかに少ないイテレーションを必要とし、比較的低い計算コストでより優れた累積後悔を達成することを示した。

In autonomous robotic decision-making under uncertainty, the tradeoff between exploitation and exploration of available options must be considered. If secondary information associated with options can be utilized, such decision-making problems can often be formulated as a contextual multi-armed bandits (CMABs). In this study, we apply active inference, which has been actively studied in the field of neuroscience in recent years, as an alternative action selection strategy for CMABs. Unlike conventional action selection strategies, it is possible to rigorously evaluate the uncertainty of each option when calculating the expected free energy (EFE) associated with the decision agent's probabilistic model, as derived from the free-energy principle. We specifically address the case where a categorical observation likelihood function is used, such that EFE values are analytically intractable. We introduce new approximation methods for computing the EFE based on variational and Laplace approximations. Extensive simulation study results demonstrate that, compared to other strategies, active inference generally requires far fewer iterations to identify optimal options and generally achieves superior cumulative regret, for relatively low extra computational cost.
翻訳日:2022-09-20 20:16:03 公開日:2022-09-19
# AutoLV: 講義ビデオ自動生成装置

AutoLV: Automatic Lecture Video Generator ( http://arxiv.org/abs/2209.08795v1 )

ライセンス: Link先を確認
Wenbin Wang, Yang Song, Sanjay Jha(参考訳) 本稿では,注釈付きスライド,インストラクターの参照音声,インストラクターの参照ポートレートビデオから直接,現実的かつ完全な講義ビデオを生成できるエンドツーエンドの講義ビデオ生成システムを提案する。 本システムは主に,少数話者適応型音声合成モジュールと,逆学習に基づく対話頭生成モジュールで構成されている。 インストラクターの作業量を削減できるだけでなく、言語やアクセントの変更も可能で、学生が講義をもっと簡単に受けられるようにし、講義内容のより広範な普及を可能にする。 実験の結果,提案モデルは他の手法よりも正確性,自然性,正確性において優れていることがわかった。 以下は、私たちのシステムがどのように動作し、評価と比較の結果を示すビデオデモである。

We propose an end-to-end lecture video generation system that can generate realistic and complete lecture videos directly from annotated slides, instructor's reference voice and instructor's reference portrait video. Our system is primarily composed of a speech synthesis module with few-shot speaker adaptation and an adversarial learning-based talking-head generation module. It is capable of not only reducing instructors' workload but also changing the language and accent which can help the students follow the lecture more easily and enable a wider dissemination of lecture contents. Our experimental results show that the proposed model outperforms other current approaches in terms of authenticity, naturalness and accuracy. Here is a video demonstration of how our system works, and the outcomes of the evaluation and comparison: https://youtu.be/cY6TYkI0cog.
翻訳日:2022-09-20 20:15:44 公開日:2022-09-19
# 正確なロボット制御のための軌道最適化と政策学習のコンセンサス

Enforcing the consensus between Trajectory Optimization and Policy Learning for precise robot control ( http://arxiv.org/abs/2209.09006v1 )

ライセンス: Link先を確認
Quentin Le Lidec, Wilson Jallet, Ivan Laptev, Cordelia Schmid, Justin Carpentier(参考訳) 強化学習(rl)と軌道最適化(to)は強い相補的な利点を示す。 一方、RLアプローチは、データから直接グローバルコントロールポリシーを学ぶことができるが、一般的には、実現可能なポリシーに適切に収束するために、大きなサンプルサイズが必要である。 一方、TO法は、シミュレータから抽出した勾配に基づく情報を利用して、解の近傍でのみ有効である局所最適制御軌道に迅速に収束することができる。 過去10年間で、この2つの手法を適切に組み合わせ、両世界のベストを得られるようにしてきたアプローチがいくつかある。 そこで本研究では,これらの手法を用いて,ソボレフ学習によるTO法からの感度情報を活用することにより,グローバルコントロールポリシをより早く学習する手法と,TO法と政策学習のコンセンサスを強化するためのラグランジュ的手法の強化を提案する。 ロボット工学における古典的タスクにおけるこれらの改善の利点を文献における既存のアプローチと比較して評価する。

Reinforcement learning (RL) and trajectory optimization (TO) present strong complementary advantages. On one hand, RL approaches are able to learn global control policies directly from data, but generally require large sample sizes to properly converge towards feasible policies. On the other hand, TO methods are able to exploit gradient-based information extracted from simulators to quickly converge towards a locally optimal control trajectory which is only valid within the vicinity of the solution. Over the past decade, several approaches have aimed to adequately combine the two classes of methods in order to obtain the best of both worlds. Following on from this line of research, we propose several improvements on top of these approaches to learn global control policies quicker, notably by leveraging sensitivity information stemming from TO methods via Sobolev learning, and augmented Lagrangian techniques to enforce the consensus between TO and policy learning. We evaluate the benefits of these improvements on various classical tasks in robotics through comparison with existing approaches in the literature.
翻訳日:2022-09-20 20:05:49 公開日:2022-09-19
# 徐々にweisfeiler-leman: ゆっくりと着実にレースに勝つ

Gradual Weisfeiler-Leman: Slow and Steady Wins the Race ( http://arxiv.org/abs/2209.09048v1 )

ライセンス: Link先を確認
Franka Bause and Nils M. Kriege(参考訳) 古典的なWeisfeiler-Lemanアルゴリズムは、グラフ学習には基本的であり、グラフカーネルやグラフニューラルネットワークの成功には中心となる。 もともとグラフ同型テストのために開発されたアルゴリズムは、頂点色を反復的に洗練する。 多くのデータセットでは、安定的な色付けは数回のイテレーションで達成され、機械学習タスクの最適なイテレーション数は通常さらに少ない。 これは、色があまりにも速く、粗い類似性を定義することを示唆している。 カラーリファインメントの概念を一般化し、安定した着色に緩やかな収束を可能にする段階的な近傍リファインメントの枠組みを提案し、より微細な精細化階層と頂点類似性を提供する。 我々は頂点近傍をクラスタリングして新しい色を割り当て、元の入射色割り当て関数を置き換える。 本手法は,既存のグラフカーネルの新しい変種を導出し,頂点類似性に関する最適割り当てを通じてグラフ編集距離を近似するために用いられる。 いずれの課題においても,本手法は動作時間の適度な増加を伴い,元のカラーリファインメントよりも優れることを示す。

The classical Weisfeiler-Leman algorithm aka color refinement is fundamental for graph learning and central for successful graph kernels and graph neural networks. Originally developed for graph isomorphism testing, the algorithm iteratively refines vertex colors. On many datasets, the stable coloring is reached after a few iterations and the optimal number of iterations for machine learning tasks is typically even lower. This suggests that the colors diverge too fast, defining a similarity that is too coarse. We generalize the concept of color refinement and propose a framework for gradual neighborhood refinement, which allows a slower convergence to the stable coloring and thus provides a more fine-grained refinement hierarchy and vertex similarity. We assign new colors by clustering vertex neighborhoods, replacing the original injective color assignment function. Our approach is used to derive new variants of existing graph kernels and to approximate the graph edit distance via optimal assignments regarding vertex similarity. We show that in both tasks, our method outperforms the original color refinement with only moderate increase in running time advancing the state of the art.
翻訳日:2022-09-20 20:05:14 公開日:2022-09-19
# VoxCeleb Speaker Recognition Challenge 2022におけるRoyalflushシステム

The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 ( http://arxiv.org/abs/2209.09010v1 )

ライセンス: Link先を確認
Jingguang Tian, Xinhui Hu, Xinkang Xu(参考訳) 本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。 提案には,教師付き話者照合用トラック1と,半教師付き話者検証用トラック3が含まれている。 トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。 提案方式はEERが2.06%,MinDCFが0.1293である。 最先端のECAPA-TDNNと比較して、EERの20.7%、MinDCFの22.70%の相対的な改善が得られる。 トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。 その後のクラスタリングプロセスは、ターゲットドメインの擬似話者ラベルを取得できる。 話者埋め込み抽出器を全ソースおよび対象ドメインデータを用いて教師付き方式で適用し,両ドメイン情報を完全に活用する。 さらに、クラスタリングと教師付きドメイン適応は、性能が検証セットに収束するまで繰り返すことができる。 最終的な提出は10モデルの融合であり、検証セット上で7.75% EERと0.3517 MinDCFを達成する。

In this technical report, we describe the Royalflush submissions for the VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22). Our submissions contain track 1, which is for supervised speaker verification and track 3, which is for semi-supervised speaker verification. For track 1, we develop a powerful U-Net-based speaker embedding extractor with a symmetric architecture. The proposed system achieves 2.06% in EER and 0.1293 in MinDCF on the validation set. Compared with the state-of-the-art ECAPA-TDNN, it obtains a relative improvement of 20.7% in EER and 22.70% in MinDCF. For track 3, we employ the joint training of source domain supervision and target domain self-supervision to get a speaker embedding extractor. The subsequent clustering process can obtain target domain pseudo-speaker labels. We adapt the speaker embedding extractor using all source and target domain data in a supervised manner, where it can fully leverage both domain information. Moreover, clustering and supervised domain adaptation can be repeated until the performance converges on the validation set. Our final submission is a fusion of 10 models and achieves 7.75% EER and 0.3517 MinDCF on the validation set.
翻訳日:2022-09-20 19:58:45 公開日:2022-09-19
# RAMP-Net:物理インフォームドニューラルネットワークによる四元子用ロバスト適応MPC

RAMP-Net: A Robust Adaptive MPC for Quadrotors via Physics-informed Neural Network ( http://arxiv.org/abs/2209.09025v1 )

ライセンス: Link先を確認
Sourav Sanyal and Kaushik Roy(参考訳) モデル予測制御(MPC)は、厳密な制約付き最適化問題を反復的に解くことを必要とする最先端(SOTA)制御技術である。 不確定なダイナミクスのために、分析モデルに基づくロバストなmpcは追加の制約を課し、問題の難易度を高めている。 この問題は、少ない時間でより多くの計算が必要な場合、パフォーマンスクリティカルなアプリケーションでは悪化する。 ニューラルネットワークのようなデータ駆動回帰法は、システムダイナミクスを近似するために過去に提案されている。 しかし、そのようなモデルは、記号分析の優先順位がないにもかかわらず、大量のラベル付きデータに依存する。 これは非自明なトレーニングオーバーヘッドを伴います。 物理インフォームドニューラルネットワーク(PINN)は、通常の微分方程式(ODE)の非線形系を妥当な精度で近似するための牽引力を得ている。 本研究では、単純なODEとデータの一部をトレーニングしたニューラルネットワークを用いた、PINN(RAMP-Net)によるロバスト適応MPCフレームワークを提案する。 物理損失は、理想的な力学を表す単純なODEを学ぶために用いられる。 損失関数の内部で解析関数にアクセスすることは、パラメトリックの不確かさに対して堅牢な振る舞いを強制するレギュレータとして機能する。 一方、残差外乱(非パラメトリック不確実性)への適応には正規データ損失が用いられるが、数学的モデリングでは考慮されない。 実験は、クワッドローターの軌道追跡のためのシミュレーション環境で行われる。 我々は,SOTA回帰に基づく2つのMPC法と比較して,0.5~1.75m/sの追跡誤差を7.8%から43.2%,8.04%から61.5%削減した。

Model Predictive Control (MPC) is a state-of-the-art (SOTA) control technique which requires solving hard constrained optimization problems iteratively. For uncertain dynamics, analytical model based robust MPC imposes additional constraints, increasing the hardness of the problem. The problem exacerbates in performance-critical applications, when more compute is required in lesser time. Data-driven regression methods such as Neural Networks have been proposed in the past to approximate system dynamics. However, such models rely on high volumes of labeled data, in the absence of symbolic analytical priors. This incurs non-trivial training overheads. Physics-informed Neural Networks (PINNs) have gained traction for approximating non-linear system of ordinary differential equations (ODEs), with reasonable accuracy. In this work, we propose a Robust Adaptive MPC framework via PINNs (RAMP-Net), which uses a neural network trained partly from simple ODEs and partly from data. A physics loss is used to learn simple ODEs representing ideal dynamics. Having access to analytical functions inside the loss function acts as a regularizer, enforcing robust behavior for parametric uncertainties. On the other hand, a regular data loss is used for adapting to residual disturbances (non-parametric uncertainties), unaccounted during mathematical modelling. Experiments are performed in a simulated environment for trajectory tracking of a quadrotor. We report 7.8% to 43.2% and 8.04% to 61.5% reduction in tracking errors for speeds ranging from 0.5 to 1.75 m/s compared to two SOTA regression based MPC methods.
翻訳日:2022-09-20 19:58:27 公開日:2022-09-19
# 高次元ベイズモデルに対するロバストなレフワンアウトクロスバリデーション

Robust leave-one-out cross-validation for high-dimensional Bayesian models ( http://arxiv.org/abs/2209.09190v1 )

ライセンス: Link先を確認
Luca Silva and Giacomo Zanella(参考訳) LOO-CV (Leave-one-out Cross-validation) はサンプル外予測精度を推定するための一般的な手法である。 しかし、LOO-CV基準の計算は、モデルに複数回適合する必要があるため、計算コストがかかる可能性がある。 ベイズ的文脈では、重要度サンプリングは可能な解決策を提供するが、古典的アプローチは分散が無限大である推定子を容易に生成することができ、それらは信頼できない可能性がある。 本稿では,ベイジアンLOO-CV基準を計算するための混合推定器を提案する。 提案手法は古典的手法の単純さと計算的利便性を保ちながら, 得られた推定値の有限分散を保証している。 理論的および数値的な結果は、改善された堅牢性と効率を説明するために提供される。 計算の利点は特に高次元問題において重要であり、より広い範囲のモデルに対してベイズ loo-cv を実行できる。 提案手法は,標準確率型プログラミングソフトウェアで容易に実装可能であり,元のモデルに一度適合する計算コストとほぼ同等である。

Leave-one-out cross-validation (LOO-CV) is a popular method for estimating out-of-sample predictive accuracy. However, computing LOO-CV criteria can be computationally expensive due to the need to fit the model multiple times. In the Bayesian context, importance sampling provides a possible solution but classical approaches can easily produce estimators whose variance is infinite, making them potentially unreliable. Here we propose and analyze a novel mixture estimator to compute Bayesian LOO-CV criteria. Our method retains the simplicity and computational convenience of classical approaches, while guaranteeing finite variance of the resulting estimators. Both theoretical and numerical results are provided to illustrate the improved robustness and efficiency. The computational benefits are particularly significant in high-dimensional problems, allowing to perform Bayesian LOO-CV for a broader range of models. The proposed methodology is easily implementable in standard probabilistic programming software and has a computational cost roughly equivalent to fitting the original model once.
翻訳日:2022-09-20 19:57:46 公開日:2022-09-19
# グローバル・ローカル・インダクタンスによる脳年齢推定

Estimating Brain Age with Global and Local Dependencies ( http://arxiv.org/abs/2209.08933v1 )

ライセンス: Link先を確認
Yanwu Yang, Xutao Guo, Zhikai Chang, Chenfei Ye, Yang Xiang, Haiyan Lv, Ting Ma(参考訳) 脳年齢は認知能力と脳疾患に関連する表現型であることが証明されている。 正確な脳年齢予測を達成することは、予測された脳年齢差をバイオマーカーとして最適化するための必須条件である。 包括的生物学的特徴として、特徴工学と局所的畳み込みや局所的局所的操作などの局所的処理を用いたモデルを用いて、脳年齢を正確に評価することは困難である。 代わりにVision Transformersはパッチトークンのグローバルな注意的相互作用を学び、誘導バイアスを減らし、長距離依存関係をモデル化する。 そこで本研究では,大域的および局所的な依存関係を持つ脳年齢を学習するための新しいネットワークを提案し,それに対応する表現を逐次置換トランスフォーマ(spt)と畳み込みブロックでキャプチャする。 SPTは計算効率をもたらし、異なるビューから連続的に2Dスライスを符号化することで、3D空間情報を間接的に位置付けする。 最後に,14歳から97歳までの22645名の被験者の大規模なコホートを収集し,ネットワークが一連の深層学習手法の中で最善を尽くし,平均絶対誤差(MAE)が2.855人,独立テストセットが2.911人となった。

The brain age has been proven to be a phenotype of relevance to cognitive performance and brain disease. Achieving accurate brain age prediction is an essential prerequisite for optimizing the predicted brain-age difference as a biomarker. As a comprehensive biological characteristic, the brain age is hard to be exploited accurately with models using feature engineering and local processing such as local convolution and recurrent operations that process one local neighborhood at a time. Instead, Vision Transformers learn global attentive interaction of patch tokens, introducing less inductive bias and modeling long-range dependencies. In terms of this, we proposed a novel network for learning brain age interpreting with global and local dependencies, where the corresponding representations are captured by Successive Permuted Transformer (SPT) and convolution blocks. The SPT brings computation efficiency and locates the 3D spatial information indirectly via continuously encoding 2D slices from different views. Finally, we collect a large cohort of 22645 subjects with ages ranging from 14 to 97 and our network performed the best among a series of deep learning methods, yielding a mean absolute error (MAE) of 2.855 in validation set, and 2.911 in an independent test set.
翻訳日:2022-09-20 19:50:45 公開日:2022-09-19
# 3Dクロス擬似スーパービジョン(3D-CPS):腹部臓器分割のための半教師付きnnU-Netアーキテクチャ

3D Cross Pseudo Supervision (3D-CPS): A semi-supervised nnU-Net architecture for abdominal organ segmentation ( http://arxiv.org/abs/2209.08939v1 )

ライセンス: Link先を確認
Yongzhi Huang, Hanwen Zhang, Yan Yan, Haseeb Hassan, Bingding Huang(参考訳) 大規模なキュレートされたデータセットは必要だが、医用画像の注釈付けには時間を要する。 そのため,近年の監視手法では,大量のラベルなしデータの利用に焦点が当てられている。 しかし、そのためには難しい課題である。 この問題に対処するために, nnU-NetとCross Pseudo Supervisionを用いた半教師付きネットワークアーキテクチャである3次元クロス擬似スーパービジョン(3D-CPS)手法を提案する。 我々は,新しいnnu-netベースプリプロセッシング手法を設計し,推論段階で強制間隔設定戦略を採用し,推論時間を短縮する。 さらに,半教師付き損失重みを設定し,各エポックに対して線形性を拡大することで,初期訓練過程における低品質の擬似ラベルの発生を防止する。 提案手法は,MICCAI FLARE2022 検証セット (20例) 上で 0.881 の平均サイス類似係数 (DSC) と 0.913 の平均正規化表面距離 (NSD) を達成する。

Large curated datasets are necessary, but annotating medical images is a time-consuming, laborious, and expensive process. Therefore, recent supervised methods are focusing on utilizing a large amount of unlabeled data. However, to do so, is a challenging task. To address this problem, we propose a new 3D Cross Pseudo Supervision (3D-CPS) method, a semi-supervised network architecture based on nnU-Net with the Cross Pseudo Supervision method. We design a new nnU-Net based preprocessing method and adopt the forced spacing settings strategy in the inference stage to speed up the inference time. In addition, we set the semi-supervised loss weights to expand linearity with each epoch to prevent the model from low-quality pseudo-labels in the early training process. Our proposed method achieves an average dice similarity coefficient (DSC) of 0.881 and an average normalized surface distance (NSD) of 0.913 on the MICCAI FLARE2022 validation set (20 cases).
翻訳日:2022-09-20 19:50:23 公開日:2022-09-19
# 合成・操作衛星画像の生成と検出に関する概観

An Overview on the Generation and Detection of Synthetic and Manipulated Satellite Images ( http://arxiv.org/abs/2209.08984v1 )

ライセンス: Link先を確認
Lydia Abady, Edoardo Daniele Cannas, Paolo Bestagini, Benedetta Tondi, Stefano Tubaro and Mauro Barni(参考訳) 技術コストの削減と衛星打ち上げの増加により、衛星画像はより人気が高まり、入手が容易になっている。 好意的な目的に加えて、衛星データは誤報などの悪意のある理由でも使用できる。 実際、衛星画像は一般的な画像編集ツールに頼って簡単に操作できる。 さらに、様々なドメインに属する現実的な合成画像を生成するディープニューラルネットワーク(dnn)の急増に伴い、合成生成衛星画像の拡散に関する新たな脅威が出現している。 本稿では,衛星画像の生成と操作について,SOTA(State of the Art)を概観する。 特に,scratchからの合成衛星画像の生成と,画像転送技術による衛星画像の意味操作の両方に焦点をあてた。 また,これまで研究されてきた合成画像偽造の分類・検出技術について述べる。 主に、AI生成合成コンテンツの検出に特化した法医学的手法に焦点を当てる一方で、汎用スプライシング検出のために設計されたいくつかの手法についても検討する。

Due to the reduction of technological costs and the increase of satellites launches, satellite images are becoming more popular and easier to obtain. Besides serving benevolent purposes, satellite data can also be used for malicious reasons such as misinformation. As a matter of fact, satellite images can be easily manipulated relying on general image editing tools. Moreover, with the surge of Deep Neural Networks (DNNs) that can generate realistic synthetic imagery belonging to various domains, additional threats related to the diffusion of synthetically generated satellite images are emerging. In this paper, we review the State of the Art (SOTA) on the generation and manipulation of satellite images. In particular, we focus on both the generation of synthetic satellite imagery from scratch, and the semantic manipulation of satellite images by means of image-transfer technologies, including the transformation of images obtained from one type of sensor to another one. We also describe forensic detection techniques that have been researched so far to classify and detect synthetic image forgeries. While we focus mostly on forensic techniques explicitly tailored to the detection of AI-generated synthetic contents, we also review some methods designed for general splicing detection, which can in principle also be used to spot AI manipulate images
翻訳日:2022-09-20 19:50:02 公開日:2022-09-19
# BareSkinNet:3D顔再構成によるデメイクとデライティング

BareSkinNet: De-makeup and De-lighting via 3D Face Reconstruction ( http://arxiv.org/abs/2209.09029v1 )

ライセンス: Link先を確認
Xingchao Yang and Takafumi Taketomi(参考訳) 顔画像から化粧や照明の影響を同時に除去する新しい手法であるBareSkinNetを提案する。 提案手法は, 3次元形状モデルを利用して, 基準クリーンフェース画像や特定光条件を必要としない。 3次元顔の再構成過程を組み合わせることで,3次元形状と粗い3次元テクスチャを容易に得ることができる。 この情報を用いて、画像翻訳ネットワークにより正規化された3次元顔テクスチャマップ(拡散、正規、粗さ、明細)を推定できる。 したがって、望ましくない情報のない再構築された3D顔テクスチャは、リライトやリメイクアップといったその後のプロセスに大きく貢献する。 実験の結果,BareSkinNetは最先端メイク除去法よりも優れていた。 さらに, 化粧品を除去して一貫した高忠実度テクスチャマップを生成することで, 多くの現実的な顔生成アプリケーションに拡張可能である。 また、3Dデータの前後で顔のメイク画像のグラフィックアセットを自動的に作成することも可能だ。 これにより、アーティストは3Dメイクアバター作成など、作品の加速を支援することができる。

We propose BareSkinNet, a novel method that simultaneously removes makeup and lighting influences from the face image. Our method leverages a 3D morphable model and does not require a reference clean face image or a specified light condition. By combining the process of 3D face reconstruction, we can easily obtain 3D geometry and coarse 3D textures. Using this information, we can infer normalized 3D face texture maps (diffuse, normal, roughness, and specular) by an image-translation network. Consequently, reconstructed 3D face textures without undesirable information will significantly benefit subsequent processes, such as re-lighting or re-makeup. In experiments, we show that BareSkinNet outperforms state-of-the-art makeup removal methods. In addition, our method is remarkably helpful in removing makeup to generate consistent high-fidelity texture maps, which makes it extendable to many realistic face generation applications. It can also automatically build graphic assets of face makeup images before and after with corresponding 3D data. This will assist artists in accelerating their work, such as 3D makeup avatar creation.
翻訳日:2022-09-20 19:49:45 公開日:2022-09-19
# 2視点知識グラフのための2次元空間埋め込みモデル

Dual-Geometric Space Embedding Model for Two-View Knowledge Graphs ( http://arxiv.org/abs/2209.08767v1 )

ライセンス: Link先を確認
Roshni G. Iyer, Yunsheng Bai, Wei Wang, Yizhou Sun(参考訳) 2ビュー知識グラフ(KG)は、抽象概念と常識概念のオントロジービューと、存在論的概念からインスタンス化される特定のエンティティのインスタンスビューの2つのコンポーネントを共同で表現する。 このように、これらのkgは、オントロジビューから階層構造、およびインスタンスビューから循環構造を含む。 KG のこれらの様々な構造にもかかわらず、KG の埋め込みに関する最近の研究は、KG 全体が2つのビューのうちの1つにしか属さないが、同時には存在しないと仮定している。 KG の両ビューをまとめようとする作業に対しては、インスタンスとオントロジーのビューは同じ幾何学的空間に属すると仮定され、例えば同じユークリッド空間や非ユークリッド積空間に埋め込まれたすべてのノードは、グラフの異なる部分が異なる構造を示す2ビュー KG に対してもはや妥当ではない。 この問題に対処するために、複素非ユークリッド幾何学空間を用いて2次元KGをモデル化する双対幾何学空間埋め込みモデル(DGS)を、異なる幾何学空間にKGの異なる部分を埋め込むことにより定義、構築する。 dgsは埋め込みを学ぶための統一フレームワークにおいて、球面空間、双曲空間、それらの交差空間を利用する。 さらに、球面空間に対しては、近似接空間への写像を必要とせず、球面空間内で直接操作する新しい閉球面空間作用素を提案する。 パブリックデータセットでの実験により、dgsは以前のkg完了タスクにおける最先端のベースラインモデルを大きく上回り、kgs内の異種構造をより良くモデル化する能力を示している。

Two-view knowledge graphs (KGs) jointly represent two components: an ontology view for abstract and commonsense concepts, and an instance view for specific entities that are instantiated from ontological concepts. As such, these KGs contain heterogeneous structures that are hierarchical, from the ontology-view, and cyclical, from the instance-view. Despite these various structures in KGs, most recent works on embedding KGs assume that the entire KG belongs to only one of the two views but not both simultaneously. For works that seek to put both views of the KG together, the instance and ontology views are assumed to belong to the same geometric space, such as all nodes embedded in the same Euclidean space or non-Euclidean product space, an assumption no longer reasonable for two-view KGs where different portions of the graph exhibit different structures. To address this issue, we define and construct a dual-geometric space embedding model (DGS) that models two-view KGs using a complex non-Euclidean geometric space, by embedding different portions of the KG in different geometric spaces. DGS utilizes the spherical space, hyperbolic space, and their intersecting space in a unified framework for learning embeddings. Furthermore, for the spherical space, we propose novel closed spherical space operators that directly operate in the spherical space without the need for mapping to an approximate tangent space. Experiments on public datasets show that DGS significantly outperforms previous state-of-the-art baseline models on KG completion tasks, demonstrating its ability to better model heterogeneous structures in KGs.
翻訳日:2022-09-20 19:48:26 公開日:2022-09-19
# guzhengパフォーマンスにおける音符入力情報を利用した演奏技術検出

Playing Technique Detection by Fusing Note Onset Information in Guzheng Performance ( http://arxiv.org/abs/2209.08774v1 )

ライセンス: Link先を確認
Dichucheng Li, Yulun Wu, Qinyu Li, Jiahao Zhao, Yi Yu, Fan Xia, Wei Li(参考訳) グジーン(Guzheng)は、中国伝統楽器の一種で、様々な演奏技法がある。 楽器演奏技術(IPT)は演奏において重要な役割を果たしている。 しかし、IPT検出のための既存の研究の多くは、可変長オーディオの効率が低く、訓練や試験に単一サウンドバンクに依存するため、一般化の保証は得られない。 本研究では,可変長音声に適用可能な完全畳み込みネットワークを用いたエンドツーエンドのグジエン演奏技術検出システムを提案する。 各guzheng演奏技法を音符に適用するため、専用のオンセット検出器を訓練して音声を複数の音符に分割し、その予測をフレーム単位でipt予測と融合させる。 融合中、各音符内のフレームごとにIPT予測フレームを追加し、その音符の最終出力として各音符内で最も高い確率でIPTを得る。 我々は、複数のサウンドバンクからGZ_IsoTechという新しいデータセットを作成し、グジーンのパフォーマンス分析のための実世界の録音を行う。 提案手法は, フレームレベルの精度87.97%, ノートレベルのF1スコア80.76%を達成し, IPT検出における提案手法の有効性を示す。

The Guzheng is a kind of traditional Chinese instruments with diverse playing techniques. Instrument playing techniques (IPT) play an important role in musical performance. However, most of the existing works for IPT detection show low efficiency for variable-length audio and provide no assurance in the generalization as they rely on a single sound bank for training and testing. In this study, we propose an end-to-end Guzheng playing technique detection system using Fully Convolutional Networks that can be applied to variable-length audio. Because each Guzheng playing technique is applied to a note, a dedicated onset detector is trained to divide an audio into several notes and its predictions are fused with frame-wise IPT predictions. During fusion, we add the IPT predictions frame by frame inside each note and get the IPT with the highest probability within each note as the final output of that note. We create a new dataset named GZ_IsoTech from multiple sound banks and real-world recordings for Guzheng performance analysis. Our approach achieves 87.97% in frame-level accuracy and 80.76% in note-level F1-score, outperforming existing works by a large margin, which indicates the effectiveness of our proposed method in IPT detection.
翻訳日:2022-09-20 19:47:52 公開日:2022-09-19
# 複雑なクエリ応答のためのニューラルシンボリックエンタングルフレームワーク

Neural-Symbolic Entangled Framework for Complex Query Answering ( http://arxiv.org/abs/2209.08779v1 )

ライセンス: Link先を確認
Zezhong Xu, Wen Zhang, Peng Ye, Hui Chen, Huajun Chen(参考訳) 知識グラフ(KG)上の複雑なクエリを答えることは、KGの不完全性問題と推論中のカスケードエラーのため重要な課題である。 最近のクエリ埋め込み(QE)は、エンティティと関係をKGに埋め込み、一階述語論理(FOL)クエリを低次元空間に埋め込み、密接な類似性探索によってクエリに応答する。 しかし、従来の研究は主に対象の回答に集中し、中間エンティティの有用性を無視し、論理クエリ応答におけるカスケードエラー問題の緩和に不可欠である。 加えて、これらの手法は通常、結合、交叉、否定といった論理演算子を扱うために独自の幾何学的あるいは分布的埋め込みで設計され、基本演算子の精度を犠牲にして、モデルに他の埋め込みメソッドを吸収することができない。 そこで本研究では,複雑な問合せ応答のためのニューラル・シンボリック・エンタングルド・フレームワーク(enesy)を提案する。 ENeSyのプロジェクション演算子は、リンク予測機能を持つ任意の埋め込み方法であり、他のFOL演算子はパラメータなしで処理される。 ニューラル推論とシンボリック推論の両方の結果から、enesyはアンサンブルで質問に答える。 ENeSyは、特にリンク予測タスクのみでトレーニングモデルの設定において、いくつかのベンチマークでSOTA性能を達成する。

Answering complex queries over knowledge graphs (KG) is an important yet challenging task because of the KG incompleteness issue and cascading errors during reasoning. Recent query embedding (QE) approaches to embed the entities and relations in a KG and the first-order logic (FOL) queries into a low dimensional space, answering queries by dense similarity search. However, previous works mainly concentrate on the target answers, ignoring intermediate entities' usefulness, which is essential for relieving the cascading error problem in logical query answering. In addition, these methods are usually designed with their own geometric or distributional embeddings to handle logical operators like union, intersection, and negation, with the sacrifice of the accuracy of the basic operator - projection, and they could not absorb other embedding methods to their models. In this work, we propose a Neural and Symbolic Entangled framework (ENeSy) for complex query answering, which enables the neural and symbolic reasoning to enhance each other to alleviate the cascading error and KG incompleteness. The projection operator in ENeSy could be any embedding method with the capability of link prediction, and the other FOL operators are handled without parameters. With both neural and symbolic reasoning results contained, ENeSy answers queries in ensembles. ENeSy achieves the SOTA performance on several benchmarks, especially in the setting of the training model only with the link prediction task.
翻訳日:2022-09-20 19:47:32 公開日:2022-09-19
# ニューラルウェーブレット領域拡散による3次元形状生成

Neural Wavelet-domain Diffusion for 3D Shape Generation ( http://arxiv.org/abs/2209.08725v1 )

ライセンス: Link先を確認
Ka-Hei Hui, Ruihui Li, Jingyu Hu, Chi-Wing Fu(参考訳) 本稿では,ウェーブレット領域における連続的な暗黙表現に基づく直接生成モデルを実現する3次元形状生成手法を提案する。 Specifically, we propose a compact wavelet representation with a pair of coarse and detail coefficient volumes to implicitly represent 3D shapes via truncated signed distance functions and multi-scale biorthogonal wavelets, and formulate a pair of neural networks: a generator based on the diffusion model to produce diverse shapes in the form of coarse coefficient volumes; and a detail predictor to further produce compatible detail coefficient volumes for enriching the generated shapes with fine structures and details. 定量的・定性的な実験結果から, 複雑なトポロジーや構造, 清潔な表面, 精細な細部を含む多様で高品質な形状を生成できる手法は, 最先端モデルの3次元生成能力に勝ることが明らかとなった。

This paper presents a new approach for 3D shape generation, enabling direct generative modeling on a continuous implicit representation in wavelet domain. Specifically, we propose a compact wavelet representation with a pair of coarse and detail coefficient volumes to implicitly represent 3D shapes via truncated signed distance functions and multi-scale biorthogonal wavelets, and formulate a pair of neural networks: a generator based on the diffusion model to produce diverse shapes in the form of coarse coefficient volumes; and a detail predictor to further produce compatible detail coefficient volumes for enriching the generated shapes with fine structures and details. Both quantitative and qualitative experimental results manifest the superiority of our approach in generating diverse and high-quality shapes with complex topology and structures, clean surfaces, and fine details, exceeding the 3D generation capabilities of the state-of-the-art models.
翻訳日:2022-09-20 19:40:45 公開日:2022-09-19
# バイドゥビデオ広告における映像検索のためのツリーベーステキストビジョンbert

Tree-based Text-Vision BERT for Video Search in Baidu Video Advertising ( http://arxiv.org/abs/2209.08759v1 )

ライセンス: Link先を確認
Tan Yu and Jie Liu and Yi Yang and Yi Li and Hongliang Fei and Ping Li(参考訳) 通信技術の進歩とスマートフォンの人気は、ビデオ広告のブームを後押ししている。 Baiduは、世界有数の検索エンジン企業の一つで、毎日何十億もの検索クエリを受け取っている。 ビデオ広告とユーザー検索をどう組み合わせるかがBaiduビデオ広告の中核となる課題だ。 モダリティのギャップのため、従来のクエリ・ツー・ビデオ検索やイメージ・ツー・イメージ検索よりもはるかに難しい。 伝統的に、クェリ・トゥ・ビデオ検索はクェリ・トゥ・タイトル検索によって取り組まれており、タイルの品質が高くない場合は信頼性に欠ける。 近年、コンピュータビジョンや自然言語処理で急速に進歩し、コンテンツベースの検索手法がクエリーからビデオへの検索に有望になりつつある。 大規模データセットの事前トレーニングに特化して、クロスモーダルな注意に基づくビジョンBERT手法は、学術だけでなく産業においても多くの視覚言語タスクにおいて優れたパフォーマンスを達成している。 それにもかかわらず、クロスモーダル注意の高価な計算コストは、産業応用における大規模探索には実用的でない。 本稿では、Baiduの動的ビデオ広告プラットフォームで最近開始された、ツリーベースのコンボアテンションネットワーク(TCAN)を紹介する。 大規模な問合せからビデオへの検索に重くクロスモーダルな注意を向ける実用的なソリューションを提供する。 木ベースのコンボアテンションネットワークを立ち上げると、クリックスルー率が2.29\%改善し、変換率が2.63\%向上する。

The advancement of the communication technology and the popularity of the smart phones foster the booming of video ads. Baidu, as one of the leading search engine companies in the world, receives billions of search queries per day. How to pair the video ads with the user search is the core task of Baidu video advertising. Due to the modality gap, the query-to-video retrieval is much more challenging than traditional query-to-document retrieval and image-to-image search. Traditionally, the query-to-video retrieval is tackled by the query-to-title retrieval, which is not reliable when the quality of tiles are not high. With the rapid progress achieved in computer vision and natural language processing in recent years, content-based search methods becomes promising for the query-to-video retrieval. Benefited from pretraining on large-scale datasets, some visionBERT methods based on cross-modal attention have achieved excellent performance in many vision-language tasks not only in academia but also in industry. Nevertheless, the expensive computation cost of cross-modal attention makes it impractical for large-scale search in industrial applications. In this work, we present a tree-based combo-attention network (TCAN) which has been recently launched in Baidu's dynamic video advertising platform. It provides a practical solution to deploy the heavy cross-modal attention for the large-scale query-to-video search. After launching tree-based combo-attention network, click-through rate gets improved by 2.29\% and conversion rate get improved by 2.63\%.
翻訳日:2022-09-20 19:40:29 公開日:2022-09-19
# 分散型車両コーディネーション:バークレーのdeepdriveドローンデータセット

Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset ( http://arxiv.org/abs/2209.08763v1 )

ライセンス: Link先を確認
Fangyu Wu, Dequan Wang, Minjune Hwang, Chenhui Hao, Jiawei Lu, Jiamu Zhang, Christopher Chou, Trevor Darrell, Alexandre Bayen(参考訳) 分散マルチエージェント計画はロボット工学における重要な研究分野である。 この分野における興味深く影響力のある応用は、非構造道路環境における分散車両調整である。 例えば、交差点では、中央コーディネータが存在しない場合、交差する複数の車両を分離することは困難である。 我々は、車両がそのような非構造環境をナビゲートするためには、運転者は近くの運転者が観察する暗黙の「社会的礼儀」を理解し、従わなければならないという常識から学ぶ。 この暗黙の駆動プロトコルを研究するために、Berkeley DeepDrive Droneデータセットを収集します。 データセットには 1)非構造運転を記録した空中映像のセット 2)車両検出モデルの訓練のための画像とアノテーションの収集、 3) 典型的な使い方を図解するための開発スクリプトのキット。 このデータセットは、人間のドライバーが採用する分散マルチエージェント計画の研究や、リモートセンシング設定におけるコンピュータビジョンの二次的関心事に主に関心があると考えている。

Decentralized multiagent planning has been an important field of research in robotics. An interesting and impactful application in the field is decentralized vehicle coordination in understructured road environments. For example, in an intersection, it is useful yet difficult to deconflict multiple vehicles of intersecting paths in absence of a central coordinator. We learn from common sense that, for a vehicle to navigate through such understructured environments, the driver must understand and conform to the implicit "social etiquette" observed by nearby drivers. To study this implicit driving protocol, we collect the Berkeley DeepDrive Drone dataset. The dataset contains 1) a set of aerial videos recording understructured driving, 2) a collection of images and annotations to train vehicle detection models, and 3) a kit of development scripts for illustrating typical usages. We believe that the dataset is of primary interest for studying decentralized multiagent planning employed by human drivers and, of secondary interest, for computer vision in remote sensing settings.
翻訳日:2022-09-20 19:40:06 公開日:2022-09-19
# DifferSketching: 3Dオブジェクトはどのくらい違うのか?

DifferSketching: How Differently Do People Sketch 3D Objects? ( http://arxiv.org/abs/2209.08791v1 )

ライセンス: Link先を確認
Chufeng Xiao, Wanchao Su, Jing Liao, Zhouhui Lian, Yi-Zhe Song, Hongbo Fu(参考訳) 3Dオブジェクトの描画方法を理解するために,複数のスケッチデータセットが提案されている。 しかしながら、そのようなデータセットは小さなスケールで、小さなオブジェクトやカテゴリをカバーすることが多い。 さらに、これらのデータセットには、主にエキスパートユーザからのフリーハンドスケッチが含まれており、専門家と初心者ユーザによる描画を比較することは困難である。 これらの観察は、3dオブジェクトをスケッチする適切な描画スキルを持っていない人との違いを分析する動機付けとなります。 我々は,初期ユーザ70名と専門ユーザ38名に136個の3Dオブジェクトのスケッチを依頼し,複数のビューから362枚の画像として提示した。 これにより、3,620個のフリーハンドのマルチビュースケッチのデータセットが新たに作成され、特定のビューの下で対応する3Dオブジェクトに登録される。 我々のデータセットは、既存のデータセットよりも桁違いに大きい。 収集したデータ(スケッチレベル,ストロークレベル,ピクセルレベル)を,空間的特性と時間的特性の両面から,クリエーターのグループ内およびグループ間で分析した。 その結果,プロや初心者の絵は内在的にも外的にも脳卒中レベルでも有意な差を示した。 データセットの有用性を2つのアプリケーションで示す。 (i)フリーハンドスタイルのスケッチ合成、及び (ii)スケッチに基づく3次元再構成の潜在的なベンチマークとして捉えること。 私たちのデータセットとコードはhttps://chufengxiao.github.io/differsketching/で利用可能です。

Multiple sketch datasets have been proposed to understand how people draw 3D objects. However, such datasets are often of small scale and cover a small set of objects or categories. In addition, these datasets contain freehand sketches mostly from expert users, making it difficult to compare the drawings by expert and novice users, while such comparisons are critical in informing more effective sketch-based interfaces for either user groups. These observations motivate us to analyze how differently people with and without adequate drawing skills sketch 3D objects. We invited 70 novice users and 38 expert users to sketch 136 3D objects, which were presented as 362 images rendered from multiple views. This leads to a new dataset of 3,620 freehand multi-view sketches, which are registered with their corresponding 3D objects under certain views. Our dataset is an order of magnitude larger than the existing datasets. We analyze the collected data at three levels, i.e., sketch-level, stroke-level, and pixel-level, under both spatial and temporal characteristics, and within and across groups of creators. We found that the drawings by professionals and novices show significant differences at stroke-level, both intrinsically and extrinsically. We demonstrate the usefulness of our dataset in two applications: (i) freehand-style sketch synthesis, and (ii) posing it as a potential benchmark for sketch-based 3D reconstruction. Our dataset and code are available at https://chufengxiao.github.io/DifferSketching/.
翻訳日:2022-09-20 19:39:52 公開日:2022-09-19
# Zero-shot Active Visual Search (ZAVIS): ロボットアシスタントのためのインテリジェントオブジェクト検索

Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for Robotic Assistants ( http://arxiv.org/abs/2209.08803v1 )

ライセンス: Link先を確認
Jeongeun Park, Taerim Yoon, Jejoon Hong, Youngjae Yu, Matthew Pan, and Sungjoon Choi(参考訳) 本稿では,視覚センサ(rgbdカメラなど)を搭載した移動ロボットを用いて,自由形言語で記述された対象物体を効率的に位置決めする問題に焦点を当てる。 従来のアクティブビジュアル検索は、検索対象のセットを事前に定義し、これらのテクニックを実際には制限する。 アクティブなビジュアル検索の柔軟性を付加するために,フリーフォーム言語を用いてターゲットコマンドを入力可能なシステムを提案し,ZAVIS(Zero-shot Active Visual Search)と呼ぶ。 ZAVISは静的なランドマーク(デスクやベッドなど)で表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出して検索する。 オブジェクト探索パターンを効率的に計画するために、ZAVISは、どのランドマークを最初に訪問するかを決めながら、常識的知識に基づく共起と予測の不確実性を考慮する。 シミュレーション環境と実環境環境の両方において,SR (success rate) とSPL (success weighted by path length) に関する提案手法を検証する。 提案手法は, 平均 0.283 のシミュレーションシナリオにおいて, 従来のspl法よりも優れていた。 さらに、現実世界の研究において、Pioneer-3ATロボットを用いてZAVISを実証する。

In this paper, we focus on the problem of efficiently locating a target object described with free-form language using a mobile robot equipped with vision sensors (e.g., an RGBD camera). Conventional active visual search predefines a set of objects to search for, rendering these techniques restrictive in practice. To provide added flexibility in active visual searching, we propose a system where a user can enter target commands using free-form language; we call this system Zero-shot Active Visual Search (ZAVIS). ZAVIS detects and plans to search for a target object inputted by a user through a semantic grid map represented by static landmarks (e.g., desk or bed). For efficient planning of object search patterns, ZAVIS considers commonsense knowledge-based co-occurrence and predictive uncertainty while deciding which landmarks to visit first. We validate the proposed method with respect to SR (success rate) and SPL (success weighted by path length) in both simulated and real-world environments. The proposed method outperforms previous methods in terms of SPL in simulated scenarios with an average gap of 0.283. We further demonstrate ZAVIS with a Pioneer-3AT robot in real-world studies.
翻訳日:2022-09-20 19:39:29 公開日:2022-09-19
# GRAPPA統合マルチロス監視GANを用いたハイブリッド並列イメージングと圧縮センシングMRI再構成

Hybrid Parallel Imaging and Compressed Sensing MRI Reconstruction with GRAPPA Integrated Multi-loss Supervised GAN ( http://arxiv.org/abs/2209.08807v1 )

ライセンス: Link先を確認
Farhan Sadik and Md. Kamrul Hasan(参考訳) 目的: 並列イメージングは、位相符号化ステップの短縮をもたらす受信コイルの配列で追加の感度情報を取得することにより、磁気共鳴イメージング(MRI)データの取得を加速する。 圧縮型磁気共鳴イメージング(CS-MRI)は、並列イメージングよりもデータ要求が少ないため、医療画像の分野で人気がある。 並列イメージングと圧縮センシング(CS)はどちらも、k空間で取得したデータの量を最小限にすることで、従来のMRI取得を高速化する。 取得時間はサンプル数に比例するため、縮小k空間サンプルからの画像の逆生成は、より高速な取得につながるが、アーティファクトをエイリアスする。 本稿では, 再構成画像のデエイリアスのために, マルチモーダルな損失を抑える新しいGAN(Generative Adversarial Network)を提案する。 方法:既存のganネットワークとは対照的に,提案手法では,重み付きマグニチュードと位相損失関数を含むデュアルドメイン損失関数と並列イメージングに基づく損失,すなわちgrappa一貫性損失を組み合わせたremu-netという新しいジェネレータネットワークを導入する。 改良学習としてk空間補正ブロックを提案し,ganネットワークを不必要なデータ生成に自己耐性を持たせ,復元プロセスの収束を高速化する。 結果: 提案したRECGAN-GRは, GAN法ではPSNRが4dB改善し, 従来のCNN法では2dB改善された。 結論と意義: 提案した研究は, 5倍あるいは10倍の高速な取得につながる低保持データの画質向上に寄与する。

Objective: Parallel imaging accelerates the acquisition of magnetic resonance imaging (MRI) data by acquiring additional sensitivity information with an array of receiver coils resulting in reduced phase encoding steps. Compressed sensing magnetic resonance imaging (CS-MRI) has achieved popularity in the field of medical imaging because of its less data requirement than parallel imaging. Parallel imaging and compressed sensing (CS) both speed up traditional MRI acquisition by minimizing the amount of data captured in the k-space. As acquisition time is inversely proportional to the number of samples, the inverse formation of an image from reduced k-space samples leads to faster acquisition but with aliasing artifacts. This paper proposes a novel Generative Adversarial Network (GAN) namely RECGAN-GR supervised with multi-modal losses for de-aliasing the reconstructed image. Methods: In contrast to existing GAN networks, our proposed method introduces a novel generator network namely RemU-Net integrated with dual-domain loss functions including weighted magnitude and phase loss functions along with parallel imaging-based loss i.e., GRAPPA consistency loss. A k-space correction block is proposed as refinement learning to make the GAN network self-resistant to generating unnecessary data which drives the convergence of the reconstruction process faster. Results: Comprehensive results show that the proposed RECGAN-GR achieves a 4 dB improvement in the PSNR among the GAN-based methods and a 2 dB improvement among conventional state-of-the-art CNN methods available in the literature. Conclusion and significance: The proposed work contributes to significant improvement in the image quality for low retained data leading to 5x or 10x faster acquisition.
翻訳日:2022-09-20 19:39:12 公開日:2022-09-19
# LMBAO:LiDAR SLAMにおけるバンドル調整オドメトリーのランドマークマップ

LMBAO: A Landmark Map for Bundle Adjustment Odometry in LiDAR SLAM ( http://arxiv.org/abs/2209.08810v1 )

ライセンス: Link先を確認
Letian Zhang, Jinping Wang, Lu Jie, Nanjie Chen, Xiaojun Tan, Zhifei Duan(参考訳) LiDAR odometryは、LiDARの同時局在とマッピング(SLAM)の重要な部分の1つである。 しかし、既存のLiDARオドメトリーは、単に以前の固定位置スキャンと反復的に新しいスキャンと一致し、徐々にエラーを蓄積する傾向にある。 さらに,実効的な共同最適化機構として,大規模グローバルランドマークの集中的な計算により,バンドル調整(BA)を実時間オドメトリーに直接導入することはできない。 そこで本稿では,LiDAR SLAM におけるバンドル調整オドメトリー (LMBAO) のランドマークマップを設計し,この問題を解決した。 まず,BAをベースとしたドメトリーは,より正確な局所登録と累積誤差回避のために,アクティブなランドマーク維持戦略によってさらに発展する。 具体的には,スライディングウィンドウにおける特徴点のみでなく,地図上の安定なランドマーク全体を保存し,アクティブグレードに応じてランドマークを削除する。 次に、スライディングウインドウの長さを削減し、周縁化を行い、ウインドウ外をスキャンするが、地図上のアクティブランドマークに対応し、計算を大幅に単純化し、リアルタイム特性を向上させる。 さらに,3つの難易度データセットを用いた実験により,本アルゴリズムが屋外走行におけるリアルタイム性能を達成し,lego-loamやvlomを含む最先端lidar slamアルゴリズムを上回ったことを示す。

LiDAR odometry is one of the essential parts of LiDAR simultaneous localization and mapping (SLAM). However, existing LiDAR odometry tends to match a new scan simply iteratively with previous fixed-pose scans, gradually accumulating errors. Furthermore, as an effective joint optimization mechanism, bundle adjustment (BA) cannot be directly introduced into real-time odometry due to the intensive computation of large-scale global landmarks. Therefore, this letter designs a new strategy named a landmark map for bundle adjustment odometry (LMBAO) in LiDAR SLAM to solve these problems. First, BA-based odometry is further developed with an active landmark maintenance strategy for a more accurate local registration and avoiding cumulative errors. Specifically, this paper keeps entire stable landmarks on the map instead of just their feature points in the sliding window and deletes the landmarks according to their active grade. Next, the sliding window length is reduced, and marginalization is performed to retain the scans outside the window but corresponding to active landmarks on the map, greatly simplifying the computation and improving the real-time properties. In addition, experiments on three challenging datasets show that our algorithm achieves real-time performance in outdoor driving and outperforms state-of-the-art LiDAR SLAM algorithms, including Lego-LOAM and VLOM.
翻訳日:2022-09-20 19:38:41 公開日:2022-09-19
# 残留注意unetによるマスク面の塗り込み

Masked Face Inpainting Through Residual Attention UNet ( http://arxiv.org/abs/2209.08850v1 )

ライセンス: Link先を確認
Md Imran Hosen and Md Baharul Islam(参考訳) 顔マスクの取り外しなどの高テクスチャ領域によるリアルな画像復元は困難である。 最先端のディープラーニングベースの手法は、高度保証に失敗し、勾配問題(例えば、初期層で若干の重み付けが更新される)と空間的情報損失によるトレーニング不安定を引き起こす。 また、外部マスクを必要とするセグメンテーションのような中間段階にも依存する。 そこで本研究では, 残留注意unetを用いたブラインドマスク面の塗工法を提案する。 残留ブロックは次の層に情報を供給し、2ホップ離れた層に直接入力し、勾配の消滅問題を解決する。 さらに、アテンションユニットは、モデルが関連するマスク領域に集中し、リソースを削減し、モデルを高速化するのに役立つ。 CelebAデータセットの大規模な実験は、提案モデルの有効性と堅牢性を示している。 コードは \url{https://github.com/mdhosen/mask-face-inpainting-using-residual-attention-unet} で入手できる。

Realistic image restoration with high texture areas such as removing face masks is challenging. The state-of-the-art deep learning-based methods fail to guarantee high-fidelity, cause training instability due to vanishing gradient problems (e.g., weights are updated slightly in initial layers) and spatial information loss. They also depend on intermediary stage such as segmentation meaning require external mask. This paper proposes a blind mask face inpainting method using residual attention UNet to remove the face mask and restore the face with fine details while minimizing the gap with the ground truth face structure. A residual block feeds info to the next layer and directly into the layers about two hops away to solve the gradient vanishing problem. Besides, the attention unit helps the model focus on the relevant mask region, reducing resources and making the model faster. Extensive experiments on the publicly available CelebA dataset show the feasibility and robustness of our proposed model. Code is available at \url{https://github.com/mdhosen/Mask-Face-Inpainting-Using-Residual-Attention-Unet}
翻訳日:2022-09-20 19:38:17 公開日:2022-09-19
# ステアリングによる歩行学習:動的環境における知覚的四足歩行

Learning to Walk by Steering: Perceptive Quadrupedal Locomotion in Dynamic Environments ( http://arxiv.org/abs/2209.09233v1 )

ライセンス: Link先を確認
Mingyo Seo, Ryan Gupta, Yifeng Zhu, Alexy Skoutnev, Luis Sentis and Yuke Zhu(参考訳) 動的環境における知覚的移動の問題に取り組む。 この問題では,4足歩行ロボットは環境の乱雑さや移動障害に応答して頑健で機敏な歩行行動を示す必要がある。 ナビゲーションコマンドと低レベル歩行生成を予測し、目標コマンドを実現するために、知覚的移動の問題を高レベルな意思決定に分解する、PreLUDEという階層型学習フレームワークを提案する。 本研究では,操舵カート上で収集した人間の実演を模倣学習した高レベルナビゲーションコントローラと,強化学習(rl)を用いた低レベル歩行コントローラを訓練する。 そこで本手法は,人間の監督から複雑なナビゲーション行動を取得し,試行錯誤から多目的歩行を発見できる。 シミュレーションおよびハードウェア実験において,本手法の有効性を実証する。 ビデオとコードはhttps://ut-austin-rpl.github.io/PRELUDEで見ることができる。

We tackle the problem of perceptive locomotion in dynamic environments. In this problem, a quadrupedal robot must exhibit robust and agile walking behaviors in response to environmental clutter and moving obstacles. We present a hierarchical learning framework, named PRELUDE, which decomposes the problem of perceptive locomotion into high-level decision-making to predict navigation commands and low-level gait generation to realize the target commands. In this framework, we train the high-level navigation controller with imitation learning on human demonstrations collected on a steerable cart and the low-level gait controller with reinforcement learning (RL). Therefore, our method can acquire complex navigation behaviors from human supervision and discover versatile gaits from trial and error. We demonstrate the effectiveness of our approach in simulation and with hardware experiments. Video and code can be found on https://ut-austin-rpl.github.io/PRELUDE.
翻訳日:2022-09-20 19:23:27 公開日:2022-09-19
# データ駆動・機械学習によるダム破砕洪水の波動伝播挙動の予測

Data-driven and machine-learning based prediction of wave propagation behavior in dam-break flood ( http://arxiv.org/abs/2209.08729v1 )

ライセンス: Link先を確認
Changli Li, Zheng Han, Yange Li, Ming Li, Weidong Wang(参考訳) ダム破壊洪水における波動伝播の予測は、流体力学と流体学における長年の問題である。 これまでは、サン=ヴェナント方程式に基づく従来の数値モデルが主流である。 ここでは,最小限のデータ量で十分に訓練された機械学習モデルが,1次元ダム破砕洪水の長期的動的挙動を精度良く予測できることを示す。 この目的のために,Lax-Wendroff数値スキームを用いた一次元ダム決壊洪水シナリオに対するサン・ヴェナント方程式を解くとともに,時間列流深度からなるシミュレーション結果を用いて,貯留層計算エコー状態ネットワーク(RC-ESN)を訓練する。 本研究では,0.01未満のルート平均二乗誤差(RMSE)を有するダム決壊洪水における波動伝播挙動を286回予測するRC-ESNモデルについて,従来の長短期メモリ(LSTM)モデルよりも優れた予測性能を示す。 また, RC-ESNモデルの性能を示すために, トレーニングセットサイズ, 貯水池サイズ, スペクトル半径を含む鍵パラメータについて, 予測精度の感度解析を行った。 その結果, RC-ESNはトレーニングセットサイズに依存せず, 中間貯留層サイズK=1200~2600で十分であることが示唆された。 スペクトル半径 \r{ho} は予測精度に複雑な影響を示し、現在より小さいスペクトル半径 \r{ho} が示唆されている。 また,ダム破断の初期流れ深度を変化させることで,RC-ESNの予測地平線がLSTMよりも大きいという結論を得た。

The computational prediction of wave propagation in dam-break floods is a long-standing problem in hydrodynamics and hydrology. Until now, conventional numerical models based on Saint-Venant equations are the dominant approaches. Here we show that a machine learning model that is well-trained on a minimal amount of data, can help predict the long-term dynamic behavior of a one-dimensional dam-break flood with satisfactory accuracy. For this purpose, we solve the Saint-Venant equations for a one-dimensional dam-break flood scenario using the Lax-Wendroff numerical scheme and train the reservoir computing echo state network (RC-ESN) with the dataset by the simulation results consisting of time-sequence flow depths. We demonstrate a good prediction ability of the RC-ESN model, which ahead predicts wave propagation behavior 286 time-steps in the dam-break flood with a root mean square error (RMSE) smaller than 0.01, outperforming the conventional long short-term memory (LSTM) model which reaches a comparable RMSE of only 81 time-steps ahead. To show the performance of the RC-ESN model, we also provide a sensitivity analysis of the prediction accuracy concerning the key parameters including training set size, reservoir size, and spectral radius. Results indicate that the RC-ESN are less dependent on the training set size, a medium reservoir size K=1200~2600 is sufficient. We confirm that the spectral radius \r{ho} shows a complex influence on the prediction accuracy and suggest a smaller spectral radius \r{ho} currently. By changing the initial flow depth of the dam break, we also obtained the conclusion that the prediction horizon of RC-ESN is larger than that of LSTM.
翻訳日:2022-09-20 19:22:36 公開日:2022-09-19
# NIERT: Transformer Encoder を用いた散乱データ表現の統合による高精度数値補間

NIERT: Accurate Numerical Interpolation through Unifying Scattered Data Representations using Transformer Encoder ( http://arxiv.org/abs/2209.09078v1 )

ライセンス: Link先を確認
Shizhe Ding, Dongbo Bu(参考訳) 散乱データの数値補間は、観測点の値に基づいて目標点の値を推定することを目的としている。 従来の手法は、複数の基底関数を組み合わせた補間関数を構築することによって推定を行う。 これらのアプローチでは、基礎関数を明示的に定義し、実用的なシナリオでのアプリケーションを大幅に制限する必要がある。 最近の進歩は、ディープニューラルネットワークのような機械学習技術を用いて、観測点から直接補間関数を学習する代替戦略を示している。 この戦略は有望ではあるが、観測された点と対象点との相関を効果的に活用することはできない。 本稿では,変換器のエンコーダ表現(NEERT)を用いた数値補間に関する学習的アプローチを提案する。 NIERTは、ターゲットポイントの値をマスクトークンとして扱い、ターゲットポイントと観測ポイントを統一的に処理することができる。 NIERTは各層における目標点と観測点の間の部分的な自己アテンションを計算することにより、これらの点間の相関を利用して、観測点上の目標点の予期せぬ干渉を避けるという利点を得る。 NIERTはまた、トレーニング前のテクニックを使用して、その精度をさらに向上する。 2つの合成データセットと実世界のデータセットを含む3つの代表的なデータセットでは、NIERTは既存のアプローチ、例えば温度場再構成のためのTFRD-ADletデータセットにおいて、トランスフォーマーベースのアプローチ(MAE:27.074\times 10^{-3}$)よりもかなり良い1.897\times 10^{-3}$を達成している。 これらの結果は、NIERTの精度と、複数の実践分野に適用できる可能性を明確に示している。

Numerical interpolation for scattered data aims to estimate values for target points based on those of some observed points. Traditional approaches produce estimations through constructing an interpolation function that combines multiple basis functions. These approaches require the basis functions to be pre-defined explicitly, thus greatly limiting their applications in practical scenarios. Recent advances exhibit an alternative strategy that learns interpolation functions directly from observed points using machine learning techniques, say deep neural networks. This strategy, although promising, cannot effectively exploit the correlations between observed points and target points as it treats these types of points separately. Here, we present a learning-based approach to numerical interpolation using encoder representations of Transformers (thus called NIERT). NIERT treats the value of each target point as a masked token, which enables processing target points and observed points in a unified fashion. By calculating the partial self-attention between target points and observed points at each layer, NIERT gains advantages of exploiting the correlations among these points and, more importantly, avoiding the unexpected interference of target points on observed points. NIERT also uses the pre-training technique to further improve its accuracy. On three representative datasets, including two synthetic datasets and a real-world dataset, NIERT outperforms the existing approaches, e.g., on the TFRD-ADlet dataset for temperature field reconstruction, NIERT achieves an MAE of $1.897\times 10^{-3}$, substantially better than the transformer-based approach (MAE: $27.074\times 10^{-3}$). These results clearly demonstrate the accuracy of NIERT and its potential to apply in multiple practical fields.
翻訳日:2022-09-20 19:14:39 公開日:2022-09-19
# LGC-Net:効率的な姿勢推定のための軽量ジャイロスコープ校正ネットワーク

LGC-Net: A Lightweight Gyroscope Calibration Network for Efficient Attitude Estimation ( http://arxiv.org/abs/2209.08816v1 )

ライセンス: Link先を確認
Yaohua Liu, Wei Liang and Jinqiang Cui(参考訳) 本稿では,低コストなマイクロエレクトロメカニカル・システム(MEMS)ジャイロスコープを,ロボットの姿勢をリアルタイムで推定するための軽量かつ効率的なキャリブレーションニューラルネットワークモデルを提案する。 鍵となる考え方は、慣性測定ユニット(IMU)の時間窓から局所的および大域的特徴を抽出し、ジャイロスコープの出力補償成分を動的に回帰させることである。 慎重に推定された数理校正モデルに従い、lgc-netは深さ分割可能な畳み込みを利用して断面の特徴を捉え、ネットワークモデルのパラメータを減らす。 大きなカーネルの注意は、長距離依存と機能表現をよりよく学習するために設計されている。 提案アルゴリズムはEuRoCおよびTUM-VIデータセットで評価され、より軽量なモデル構造で(目に見えない)テストシーケンスの最先端を実現する。 LGC-Netで推定される向きは、視覚センサーは採用していないものの、トップランクの視覚慣性オドメトリーシステムに匹敵する。 https://github.com/huazai665/LGC-Net

This paper presents a lightweight, efficient calibration neural network model for denoising low-cost microelectromechanical system (MEMS) gyroscope and estimating the attitude of a robot in real-time. The key idea is extracting local and global features from the time window of inertial measurement units (IMU) measurements to regress the output compensation components for the gyroscope dynamically. Following a carefully deduced mathematical calibration model, LGC-Net leverages the depthwise separable convolution to capture the sectional features and reduce the network model parameters. The Large kernel attention is designed to learn the long-range dependencies and feature representation better. The proposed algorithm is evaluated in the EuRoC and TUM-VI datasets and achieves state-of-the-art on the (unseen) test sequences with a more lightweight model structure. The estimated orientation with our LGC-Net is comparable with the top-ranked visual-inertial odometry systems, although it does not adopt vision sensors. We make our method open-source at: https://github.com/huazai665/LGC-Net
翻訳日:2022-09-20 19:12:38 公開日:2022-09-19
# SMIXS:非パラメトリック混合回帰に基づくクラスタリングのための新しい効率的なアルゴリズム

SMIXS: Novel efficient algorithm for non-parametric mixture regression-based clustering ( http://arxiv.org/abs/2209.09030v1 )

ライセンス: Link先を確認
Peter Mlakar, Tapio Nummi, Polona Oblak, and Jana Faganeli Pucer(参考訳) 縦断データ解析のための新しい非パラメトリック回帰型クラスタリングアルゴリズムについて検討した。 自然立方体スプラインとガウス混合モデル(GMM)を組み合わせることで、基礎となるデータをうまく記述するスムーズなクラスタ平均を生成することができる。 しかし、アルゴリズムにはいくつかの欠点がある:パラメータ推定手順における高い計算複雑性と数値的に不安定な分散推定器。 そこで,本手法のユーザビリティをさらに高めるために,計算複雑性を減らすための手法を取り入れ,より安定な分散推定器を開発し,新しい平滑化パラメータ推定手法を開発した。 開発したアルゴリズムであるsmixsは, クラスタリングや回帰性能の観点から, 合成データセット上でgmmよりも優れた性能を示す。 新しいフレームワークで正式に証明した計算速度アップの影響を実証する。 最後に,smixsを用いて大気の垂直測定をクラスター化し,異なる気象条件を判定するケーススタディを行った。

We investigate a novel non-parametric regression-based clustering algorithm for longitudinal data analysis. Combining natural cubic splines with Gaussian mixture models (GMM), the algorithm can produce smooth cluster means that describe the underlying data well. However, there are some shortcomings in the algorithm: high computational complexity in the parameter estimation procedure and a numerically unstable variance estimator. Therefore, to further increase the usability of the method, we incorporated approaches to reduce its computational complexity, we developed a new, more stable variance estimator, and we developed a new smoothing parameter estimation procedure. We show that the developed algorithm, SMIXS, performs better than GMM on a synthetic dataset in terms of clustering and regression performance. We demonstrate the impact of the computational speed-ups, which we formally prove in the new framework. Finally, we perform a case study by using SMIXS to cluster vertical atmospheric measurements to determine different weather regimes.
翻訳日:2022-09-20 19:12:17 公開日:2022-09-19
# 「私がやっていること」--適性から逐次的な決定タスクへ拡張する

"Guess what I'm doing": Extending legibility to sequential decision tasks ( http://arxiv.org/abs/2209.09141v1 )

ライセンス: Link先を確認
Miguel Faria, Francisco S. Melo, Ana Paiva(参考訳) 本稿では,不確実性下での逐次決定課題における正当性の概念について検討する。 ロボットの動き以外のシナリオへのレジリエンスを拡大する以前の作業は、決定論的設定に集中するか、計算コストが高すぎる。 提案手法はpol-mdpと呼ばれ,不確実性に対処し,計算的に把握可能である。 我々は,複雑度が異なる複数のシミュレーションシナリオにおいて,最先端のアプローチに対するアプローチの利点を確立する。 また,逆強化学習エージェントのデモンストレーションとして,当社のレジブル・ポリシーを活用し,その最適方針に基づく実演に対する優位性を確立した。 最後に,モバイルロボットの動作を観察することで,有効なポリシーに従って目標を推測するユーザスタディを通じて,計算されたポリシーの正当性を評価する。

In this paper we investigate the notion of legibility in sequential decision tasks under uncertainty. Previous works that extend legibility to scenarios beyond robot motion either focus on deterministic settings or are computationally too expensive. Our proposed approach, dubbed PoL-MDP, is able to handle uncertainty while remaining computationally tractable. We establish the advantages of our approach against state-of-the-art approaches in several simulated scenarios of different complexity. We also showcase the use of our legible policies as demonstrations for an inverse reinforcement learning agent, establishing their superiority against the commonly used demonstrations based on the optimal policy. Finally, we assess the legibility of our computed policies through a user study where people are asked to infer the goal of a mobile robot following a legible policy by observing its actions.
翻訳日:2022-09-20 19:12:03 公開日:2022-09-19
# ゼロショット適応クワッドコプターコントローラ

A Zero-Shot Adaptive Quadcopter Controller ( http://arxiv.org/abs/2209.09232v1 )

ライセンス: Link先を確認
Dingqi Zhang, Antonio Loquercio, Xiangyu Wu, Ashish Kumar, Jitendra Malik, Mark W. Mueller(参考訳) 本稿では,クワッドコプターの汎用適応制御器を提案する。これは非常に異なる質量,腕長,運動定数のクワッドコプターにゼロショットを展開でき,また,実行中に未知の障害に迅速に適応できる。 アルゴリズムの中核となる考え方は、テスト時にオンラインで適応できる単一のポリシーを、ドローンに適用される障害だけでなく、同じフレームワークのロボットダイナミクスやハードウェアにも学習することだ。 本研究では,ニューラルネットワークを訓練し,ロボットの潜在表現と,ニューラルネットワークとして表現される制御器の動作条件として使用される環境パラメータを推定する。 我々は、クワッドコプターを目標に飛ばし、地上に墜落しないように、両方のネットワークをシミュレーションで訓練する。 2つのクワッドコプターに、質量、慣性、最大運動速度を最大4倍まで変更することなく、シミュレーションでトレーニングされた同じコントローラを直接デプロイします。 さらに,クワッドコプターの質量および慣性における突然の大きな障害(最大35.7%)に対する迅速な適応を示す。 我々はシミュレーションと物理界の両方で広範囲な評価を行い、各プラットフォームに個別に調整された最先端の学習ベース適応制御器と従来のPID制御器より優れています。 ビデオ結果はhttps://dz298.github.io/Universal-drone-controller/で見ることができる。

This paper proposes a universal adaptive controller for quadcopters, which can be deployed zero-shot to quadcopters of very different mass, arm lengths and motor constants, and also shows rapid adaptation to unknown disturbances during runtime. The core algorithmic idea is to learn a single policy that can adapt online at test time not only to the disturbances applied to the drone, but also to the robot dynamics and hardware in the same framework. We achieve this by training a neural network to estimate a latent representation of the robot and environment parameters, which is used to condition the behaviour of the controller, also represented as a neural network. We train both networks exclusively in simulation with the goal of flying the quadcopters to goal positions and avoiding crashes to the ground. We directly deploy the same controller trained in the simulation without any modifications on two quadcopters with differences in mass, inertia, and maximum motor speed of up to 4 times. In addition, we show rapid adaptation to sudden and large disturbances (up to 35.7%) in the mass and inertia of the quadcopters. We perform an extensive evaluation in both simulation and the physical world, where we outperform a state-of-the-art learning-based adaptive controller and a traditional PID controller specifically tuned to each platform individually. Video results can be found at https://dz298.github.io/universal-drone-controller/.
翻訳日:2022-09-20 19:11:51 公開日:2022-09-19
# ConvMixerモデルの逆変換性について

On the Adversarial Transferability of ConvMixer Models ( http://arxiv.org/abs/2209.08724v1 )

ライセンス: Link先を確認
Ryota Iijima, Miki Tanaka, Isao Echizen, and Hitoshi Kiya(参考訳) ディープニューラルネットワーク(DNN)は、敵の例(AE)に弱いことがよく知られている。 さらに、AEは逆転性を持ち、つまりソースモデルのために生成されたAEは、非自明な確率で別のブラックボックスモデル(ターゲットモデル)を騙すことができる。 本稿では,等方性ネットワークであるConvMixerを含むモデル間の逆転送性について,初めて検討する。 転送可能性の特性を客観的に検証するために、AutoAttackと呼ばれるベンチマーク攻撃手法を用いてモデルのロバスト性を評価する。 画像分類実験では、ConvMixerは逆転写性に弱いことが確認された。

Deep neural networks (DNNs) are well known to be vulnerable to adversarial examples (AEs). In addition, AEs have adversarial transferability, which means AEs generated for a source model can fool another black-box model (target model) with a non-trivial probability. In this paper, we investigate the property of adversarial transferability between models including ConvMixer, which is an isotropic network, for the first time. To objectively verify the property of transferability, the robustness of models is evaluated by using a benchmark attack method called AutoAttack. In an image classification experiment, ConvMixer is confirmed to be weak to adversarial transferability.
翻訳日:2022-09-20 19:04:55 公開日:2022-09-19
# テキスト記述符号化のためのディープラーニングフレームワークによる交通事故時間予測

Traffic incident duration prediction via a deep learning framework for text description encoding ( http://arxiv.org/abs/2209.08735v1 )

ライセンス: Link先を確認
Artur Grigorev, Adriana-Simona Mihaita, Khaled Saleh, Massimo Piccardi(参考訳) 交通インシデント期間の予測は、時空におけるインシデント発生の確率的性質、報告された交通混乱の開始時の情報の欠如、過去の事故からの洞察を引き出すための輸送工学における高度な方法の欠如により解決が難しい。 本稿では,機械学習とトラヒックフロー/速度とインシデント記述の統合を特徴として,いくつかのディープラーニング手法(自動エンコーダと文字レベルlstm-ann感情分類器)で符号化することにより,限られた情報からインシデント継続時間を予測する新しい融合フレームワークを提案する。 この論文は、トランスポートとデータサイエンスにおける学際的モデリングアプローチを構築している。 この手法は、ベースラインインシデントレポートに適用されたトップパフォーマンスのMLモデルに対して、インシデント時間予測精度を向上させる。 その結果,本手法は,標準線形モデルやサポートベクトル回帰モデルと比較した場合,60-%$の精度向上が可能であり,また,他のモデルよりも優れると思われるハイブリッド型ディープラーニングオートエンコードgbdtモデルに対して,さらに7-%$の改善が期待できることがわかった。 アプリケーションエリアはサンフランシスコ市であり、交通事故ログ(国全体の交通事故データ)と過去の交通渋滞情報(カルトランス性能測定システムによる5分間の精度測定)の両方に富んでいる。

Predicting the traffic incident duration is a hard problem to solve due to the stochastic nature of incident occurrence in space and time, a lack of information at the beginning of a reported traffic disruption, and lack of advanced methods in transport engineering to derive insights from past accidents. This paper proposes a new fusion framework for predicting the incident duration from limited information by using an integration of machine learning with traffic flow/speed and incident description as features, encoded via several Deep Learning methods (ANN autoencoder and character-level LSTM-ANN sentiment classifier). The paper constructs a cross-disciplinary modelling approach in transport and data science. The approach improves the incident duration prediction accuracy over the top-performing ML models applied to baseline incident reports. Results show that our proposed method can improve the accuracy by $60\%$ when compared to standard linear or support vector regression models, and a further $7\%$ improvement with respect to the hybrid deep learning auto-encoded GBDT model which seems to outperform all other models. The application area is the city of San Francisco, rich in both traffic incident logs (Countrywide Traffic Accident Data set) and past historical traffic congestion information (5-minute precision measurements from Caltrans Performance Measurement System).
翻訳日:2022-09-20 19:04:46 公開日:2022-09-19
# 学習・ランクにおける特質蒸留の理解に向けて

Toward Understanding Privileged Features Distillation in Learning-to-Rank ( http://arxiv.org/abs/2209.08754v1 )

ライセンス: Link先を確認
Shuo Yang, Sujay Sanghavi, Holakou Rahmanian, Jan Bakus, S.V.N. Vishwanathan(参考訳) 学習からランクへの問題では、モデルトレーニング中に特権機能が利用できるが、テスト時には利用できない。 このような機能は、例えば「ユーザがこのアイテムをクリックした」という特徴は、オフラインデータで「このアイテムを購入した」と予測されるが、オンラインサービス中は明らかに利用できない。 特権的な機能のもう1つの源は、オンライン計算には高すぎるがオフラインで追加できる機能である。 特権的特徴蒸留(PFD)は、すべての特徴(特権的特徴を含む)を使って「教師」モデルを訓練し、特権的特徴を使用しない「学生」モデルを訓練する、という自然な考え方を指す。 本稿では,Amazonのログから得られた3つの公開ランキングデータセットと産業規模ランキング問題に対して,PFDを実証的に検討した。 pfdは,これらすべてのデータセットにおいて,いくつかのベースライン(no-distillation,pretraining-finetuning,self-distillation,generalized distillation)を上回っている。 次に,経験的アブレーション研究と線形モデルの理論解析の両方を通してpfdがうまく機能する理由と時期を分析する。 どちらの調査も、特権的特徴の予測能力が増大するにつれて、結果として得られる学生モデルの性能は最初は増大するが、その後減少する。 後者の性能低下の要因として,非常に予測的な特権を持つ教師が,高い分散度で予測を行い,学生の予測値のばらつきやテスト性能の低下につながることがあげられる。

In learning-to-rank problems, a privileged feature is one that is available during model training, but not available at test time. Such features naturally arise in merchandised recommendation systems; for instance, "user clicked this item" as a feature is predictive of "user purchased this item" in the offline data, but is clearly not available during online serving. Another source of privileged features is those that are too expensive to compute online but feasible to be added offline. Privileged features distillation (PFD) refers to a natural idea: train a "teacher" model using all features (including privileged ones) and then use it to train a "student" model that does not use the privileged features. In this paper, we first study PFD empirically on three public ranking datasets and an industrial-scale ranking problem derived from Amazon's logs. We show that PFD outperforms several baselines (no-distillation, pretraining-finetuning, self-distillation, and generalized distillation) on all these datasets. Next, we analyze why and when PFD performs well via both empirical ablation studies and theoretical analysis for linear models. Both investigations uncover an interesting non-monotone behavior: as the predictive power of a privileged feature increases, the performance of the resulting student model initially increases but then decreases. We show the reason for the later decreasing performance is that a very predictive privileged teacher produces predictions with high variance, which lead to high variance student estimates and inferior testing performance.
翻訳日:2022-09-20 19:04:20 公開日:2022-09-19
# sequence-to-set生成モデル

Sequence-to-Set Generative Models ( http://arxiv.org/abs/2209.08801v1 )

ライセンス: Link先を確認
Longtao Tang, Ying Zhou and Yu Yang(参考訳) 本稿では,最大可能性に基づく任意のシーケンス生成モデルを,任意の集合の効用/確率を評価可能な集合生成モデルに変換するシーケンス・ツー・セット法を提案する。 シーケンス・ツー・セットモデルを学習する計算課題に対処するために,効率的な重要サンプリングアルゴリズムが考案された。 本稿では,シーケンス・ツー・セット法の一例であるGRU2Setについて述べる。 さらに,集合の置換不変表現を得るため,sequence-to-setモデルのインスタンスでもある setnn モデルを考案する。 我々のモデルの直接的な応用は、電子商取引注文の集合から注文/セット分布を学習することであり、これは、迅速な配送のための在庫配置のような多くの重要な運用上の決定において重要なステップである。 小型集合は通常大集合よりも学習しやすいという直感に基づいて、$\ell_1$-distance 評価指標に関してより良い集合分布を学習するのに役立つ大きさバイアスのトリックを提案する。 TMALLとHKTVMALLという2つのEコマース注文データセットを用いて、モデルの有効性を示す大規模な実験を行っている。 実験の結果, モデルでは, ベースラインよりも順序データから, 整列/順序分布を学習できることがわかった。 さらに、どんなモデルを使っても、サイズバイアスのトリックを適用することで、データから得られた集合分布の品質が常に向上する。

In this paper, we propose a sequence-to-set method that can transform any sequence generative model based on maximum likelihood to a set generative model where we can evaluate the utility/probability of any set. An efficient importance sampling algorithm is devised to tackle the computational challenge of learning our sequence-to-set model. We present GRU2Set, which is an instance of our sequence-to-set method and employs the famous GRU model as the sequence generative model. To further obtain permutation invariant representation of sets, we devise the SetNN model which is also an instance of the sequence-to-set model. A direct application of our models is to learn an order/set distribution from a collection of e-commerce orders, which is an essential step in many important operational decisions such as inventory arrangement for fast delivery. Based on the intuition that small-sized sets are usually easier to learn than large sets, we propose a size-bias trick that can help learn better set distributions with respect to the $\ell_1$-distance evaluation metric. Two e-commerce order datasets, TMALL and HKTVMALL, are used to conduct extensive experiments to show the effectiveness of our models. The experimental results demonstrate that our models can learn better set/order distributions from order data than the baselines. Moreover, no matter what model we use, applying the size-bias trick can always improve the quality of the set distribution learned from data.
翻訳日:2022-09-20 19:03:50 公開日:2022-09-19
# トランスフォマーを用いた多物体密度の深核融合

Deep Fusion of Multi-object Densities Using Transfomer ( http://arxiv.org/abs/2209.08857v1 )

ライセンス: Link先を確認
Lechi Li, Chen Dai, Yuxuan Xia, Lennart Svensson(参考訳) 本稿では,深層学習に基づく手法が多対象密度の融合に有効であることを示す。 異なる視野を持つ複数のセンサーを持つシナリオが与えられた場合、追跡は各センサーで局所的に追跡され、ランダムな有限集合の多目的密度を生成する。 異なるトラッカーからの出力をフューズするために、最近提案されたトランスフォーマーベースの多対象トラッカーを適用し、その融合結果がグローバルな多対象密度であり、現在の全ての生存物体の集合を記述する。 合成データを用いたパラメータ設定の異なる複数のシミュレーションシナリオにおいて, トランスフォーマーベース融合法とモデルベースベイズ融合法の性能を比較した。 シミュレーションの結果, 変圧器を用いた核融合法は実験シナリオにおいてモデルベースベイズ法よりも優れていた。

In this paper, we demonstrate that deep learning based method can be used to fuse multi-object densities. Given a scenario with several sensors with possibly different field-of-views, tracking is performed locally in each sensor by a tracker, which produces random finite set multi-object densities. To fuse outputs from different trackers, we adapt a recently proposed transformer-based multi-object tracker, where the fusion result is a global multi-object density, describing the set of all alive objects at the current time. We compare the performance of the transformer-based fusion method with a well-performing model-based Bayesian fusion method in several simulated scenarios with different parameter settings using synthetic data. The simulation results show that the transformer-based fusion method outperforms the model-based Bayesian method in our experimental scenarios.
翻訳日:2022-09-20 19:03:26 公開日:2022-09-19
# 強化学習における本質的動機づけに関する情報理論的視点

An information-theoretic perspective on intrinsic motivation in reinforcement learning: a survey ( http://arxiv.org/abs/2209.08890v1 )

ライセンス: Link先を確認
Arthur Aubret, Laetitia Matignon, Salima Hassas(参考訳) 強化学習(RL)研究領域は非常に活発であり、特に深層RL(DRL)の創発的な分野を考えると、多くの新しい貢献がなされている。 しかし、多くの科学的・技術的な課題が解決される必要があり、その中では、本質的なモチベーション(IM)によって対処できるスパース・リワード環境での行動の抽象化や環境探索の難しさについて言及することができる。 我々は,これらの研究成果を,情報理論に基づく新たな分類学を通じて調査することを提案する。 これにより、方法の利点と欠点を特定し、研究の現在の展望を示すことができます。 我々の分析は、新規性とサプライズが、環境をさらに抽象化し、探索プロセスをより堅牢にするトランスファー可能なスキル階層の構築を支援することを示唆している。

The reinforcement learning (RL) research area is very active, with an important number of new contributions; especially considering the emergent field of deep RL (DRL). However a number of scientific and technical challenges still need to be resolved, amongst which we can mention the ability to abstract actions or the difficulty to explore the environment in sparse-reward settings which can be addressed by intrinsic motivation (IM). We propose to survey these research works through a new taxonomy based on information theory: we computationally revisit the notions of surprise, novelty and skill learning. This allows us to identify advantages and disadvantages of methods and exhibit current outlooks of research. Our analysis suggests that novelty and surprise can assist the building of a hierarchy of transferable skills that further abstracts the environment and makes the exploration process more robust.
翻訳日:2022-09-20 19:03:12 公開日:2022-09-19
# UMIX:不確実性認識混合によるサブポピュレーションシフトの重要度向上

UMIX: Improving Importance Weighting for Subpopulation Shift via Uncertainty-Aware Mixup ( http://arxiv.org/abs/2209.08928v1 )

ライセンス: Link先を確認
Zongbo Han, Zhipeng Liang, Fan Yang, Liu Liu, Lanqing Li, Yatao Bian, Peilin Zhao, Bingzhe Wu, Changqing Zhang, Jianhua Yao(参考訳) サブポピュレーションシフトは、多くの実世界の機械学習アプリケーションに存在し、同じサブポピュレーショングループを含むが、サブポピュレーション周波数が異なるトレーニングおよびテスト分布を参照している。 重要度重み付けは、トレーニングデータセットの各サンプルに一定または適応的なサンプリング重みを付けて、サブポピュレーションシフト問題に対処する一般的な方法である。 しかしながら、近年の研究では、これらのアプローチのほとんどは、特に過パラメータニューラルネットワークに適用した場合に、経験的リスク最小化よりもパフォーマンスを改善することができないと認識されている。 本研究では,サンプルの不確実性に応じて「混合」サンプルを再重み付けすることで,過度なパラメータ化モデルにおける過度適合問題を緩和する,不確実性認識混合(Umix)と呼ばれる簡易かつ実用的なフレームワークを提案する。 学習軌跡に基づく不確かさ推定は,提案する各サンプルのumixに実装され,そのサブポピュレーション分布を柔軟に特徴付ける。 umixが以前の作業よりもより良い一般化境界を達成することを検証するために、洞察に富んだ理論的分析も提供します。 さらに,本手法の有効性を質的かつ定量的に検証するために,幅広いタスクにわたる広範な実証研究を行った。

Subpopulation shift wildly exists in many real-world machine learning applications, referring to the training and test distributions containing the same subpopulation groups but varying in subpopulation frequencies. Importance reweighting is a normal way to handle the subpopulation shift issue by imposing constant or adaptive sampling weights on each sample in the training dataset. However, some recent studies have recognized that most of these approaches fail to improve the performance over empirical risk minimization especially when applied to over-parameterized neural networks. In this work, we propose a simple yet practical framework, called uncertainty-aware mixup (Umix), to mitigate the overfitting issue in over-parameterized models by reweighting the "mixed" samples according to the sample uncertainty. The training-trajectories-based uncertainty estimation is equipped in the proposed Umix for each sample to flexibly characterize the subpopulation distribution. We also provide insightful theoretical analysis to verify that Umix achieves better generalization bounds over prior works. Further, we conduct extensive empirical studies across a wide range of tasks to validate the effectiveness of our method both qualitatively and quantitatively.
翻訳日:2022-09-20 19:02:56 公開日:2022-09-19
# 患者表現型発見のためのコストベース多層ネットワークアプローチ

A cost-based multi-layer network approach for the discovery of patient phenotypes ( http://arxiv.org/abs/2209.09032v1 )

ライセンス: Link先を確認
Clara Puga, Uli Niemann, Winfried Schlee, Myra Spiliopoulou(参考訳) 臨床記録には、様々なアンケートの完成を含む患者の特性の評価が含まれることが多い。 これらのアンケートは、患者の健康状態に関する様々な視点を提供する。 これらの観点から得られる異種性を捉えることが重要であるだけでなく、臨床表現型化のための費用対効果技術開発への需要も増えている。 多くの質問に答えることが、患者にとって負担になる可能性がある。 本研究では,コミュニティ検出手法を用いて表現型を検出するコストベース層セレクタモデルであるCOBALTを提案する。 私たちの目標は、これらの表現型の構築に使用される機能の数を最小化し、その品質を維持することです。 本モデルは,慢性耳鳴症患者からのアンケートデータを用いてテストし,多層ネットワーク構造で表現した。 次に,基本特徴(年齢,性別,前処理データ)と同定された表現型を特徴として,後処理データを予測することにより,モデルを評価する。 いくつかの後処理変数では、COBALTの表現型を特徴とする予測子は、従来のクラスタリング法で検出された表現型よりも優れていた。 さらに, 表現型データを用いて処理後データを予測することは, ベースライン特徴のみを訓練した予測器と比較して有益であることが判明した。

Clinical records frequently include assessments of the characteristics of patients, which may include the completion of various questionnaires. These questionnaires provide a variety of perspectives on a patient's current state of well-being. Not only is it critical to capture the heterogeneity given by these perspectives, but there is also a growing demand for developing cost-effective technologies for clinical phenotyping. Filling out many questionnaires may be a strain for the patients and therefore costly. In this work, we propose COBALT -- a cost-based layer selector model for detecting phenotypes using a community detection approach. Our goal is to minimize the number of features used to build these phenotypes while preserving its quality. We test our model using questionnaire data from chronic tinnitus patients and represent the data in a multi-layer network structure. The model is then evaluated by predicting post-treatment data using baseline features (age, gender, and pre-treatment data) as well as the identified phenotypes as a feature. For some post-treatment variables, predictors using phenotypes from COBALT as features outperformed those using phenotypes detected by traditional clustering methods. Moreover, using phenotype data to predict post-treatment data proved beneficial in comparison with predictors that were solely trained with baseline features.
翻訳日:2022-09-20 19:02:35 公開日:2022-09-19
# 3d-pl: 3d-aware pseudo-labelingによる領域適応深度推定

3D-PL: Domain Adaptive Depth Estimation with 3D-aware Pseudo-Labeling ( http://arxiv.org/abs/2209.09231v1 )

ライセンス: Link先を確認
Yu-Ting Yen, Chia-Ni Lu, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 単眼深度推定では,実データに対する基底真理の取得は容易ではなく,教師付き合成データを用いた領域適応法が一般的である。 しかし、実際のデータからの監督が欠如しているため、これは依然として大きなドメインギャップを引き起こす可能性がある。 本稿では,実データから奥行きの信頼できる疑似基底真理を生成し,直接監督を行うドメイン適応フレームワークを開発した。 具体的には、擬似ラベルの2つのメカニズムを提案する。 1) 画像が同一内容の異なるスタイルである場合の深度予測の整合性の測定による2次元擬似ラベル 2)3d対応の擬似ラベルは,3d空間の奥行き値の完成を学習するポイントクラウド補完ネットワークを介して,シーン内の構造情報を提供し,より信頼性の高い擬似ラベルを生成する。 実験では,トレーニング中のステレオペアの使用を含む様々な環境での奥行き推定を擬似ラベル法が改善することを示す。 さらに,提案手法は,実世界のデータセットにおける最先端の非教師なしドメイン適応アプローチに対して好適に機能する。

For monocular depth estimation, acquiring ground truths for real data is not easy, and thus domain adaptation methods are commonly adopted using the supervised synthetic data. However, this may still incur a large domain gap due to the lack of supervision from the real data. In this paper, we develop a domain adaptation framework via generating reliable pseudo ground truths of depth from real data to provide direct supervisions. Specifically, we propose two mechanisms for pseudo-labeling: 1) 2D-based pseudo-labels via measuring the consistency of depth predictions when images are with the same content but different styles; 2) 3D-aware pseudo-labels via a point cloud completion network that learns to complete the depth values in the 3D space, thus providing more structural information in a scene to refine and generate more reliable pseudo-labels. In experiments, we show that our pseudo-labeling methods improve depth estimation in various settings, including the usage of stereo pairs during training. Furthermore, the proposed method performs favorably against several state-of-the-art unsupervised domain adaptation approaches in real-world datasets.
翻訳日:2022-09-20 18:47:34 公開日:2022-09-19
# 時相平滑化トランスを用いたリアルタイムオンラインビデオ検出

Real-time Online Video Detection with Temporal Smoothing Transformers ( http://arxiv.org/abs/2209.09236v1 )

ライセンス: Link先を確認
Yue Zhao and Philipp Kr\"ahenb\"uhl(参考訳) ビデオのフレームごとに、オブジェクトとそのアクションに関するビデオ認識の理由をストリーミングする。 優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。 残念なことに、ほとんどの既存の手法では、計算の複雑さは、考慮されるダイナミクスの長さとともに線形または二次的に増加する。 この問題は特にトランスフォーマーベースのアーキテクチャで顕著である。 この問題に対処するために,ビデオトランスフォーマのクロスアテンションをカーネルレンズを通して再構成し,ボックスカーネルとラプラスカーネルの2種類の時間平滑化カーネルを適用する。 結果として生じるストリーミングの注意力は、フレームからフレームへの計算の多くを再利用し、各フレームの更新に一定の時間しか必要としない。 このアイデアに基づいて,時間的平滑な変換器であるTeSTraを構築し,キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。 具体的には、ストリーミング設定で2,048フレームのslide-windowベースのトランスフォーマーよりも6\times$で動作します。 さらに、時間的スパンの増加により、TeSTraはTHUMOS'14とEPIC-Kitchen-100の2つの標準オンラインアクション検出とアクション予測データセットの最先端結果を達成する。 TeSTraのリアルタイムバージョンは、THUMOS'14データセットにおいて、以前のアプローチのすべてよりもパフォーマンスが優れている。

Streaming video recognition reasons about objects and their actions in every frame of a video. A good streaming recognition model captures both long-term dynamics and short-term changes of video. Unfortunately, in most existing methods, the computational complexity grows linearly or quadratically with the length of the considered dynamics. This issue is particularly pronounced in transformer-based architectures. To address this issue, we reformulate the cross-attention in a video transformer through the lens of kernel and apply two kinds of temporal smoothing kernel: A box kernel or a Laplace kernel. The resulting streaming attention reuses much of the computation from frame to frame, and only requires a constant time update each frame. Based on this idea, we build TeSTra, a Temporal Smoothing Transformer, that takes in arbitrarily long inputs with constant caching and computing overhead. Specifically, it runs $6\times$ faster than equivalent sliding-window based transformers with 2,048 frames in a streaming setting. Furthermore, thanks to the increased temporal span, TeSTra achieves state-of-the-art results on THUMOS'14 and EPIC-Kitchen-100, two standard online action detection and action anticipation datasets. A real-time version of TeSTra outperforms all but one prior approaches on the THUMOS'14 dataset.
翻訳日:2022-09-20 18:47:15 公開日:2022-09-19
# ビデオゲーム機械翻訳の可能性に関するスナップショット

A Snapshot into the Possibility of Video Game Machine Translation ( http://arxiv.org/abs/2209.08827v1 )

ライセンス: Link先を確認
Damien Hansen (CIRTI, GETALP), Pierre-Yves Houlmont (CIRTI)(参考訳) 本稿では,ゲーム機械翻訳における最初の試みの1つと考えられるものを紹介する。 本研究は, 限定的なドメイン内データのみをトレーニングしたモデルが公開システムを大幅に上回り, その後の人間による評価により, 最終翻訳における興味深い知見が明らかになった。 この記事の第1部では、ビデオゲームの翻訳に関するいくつかの課題、既存の文献、およびこの実験で使用されるシステムとデータセットを紹介します。 最後の節では、結果の翻訳の分析と、このような自動化システムの潜在的なメリットについて論じる。 このような発見は、典型的なルールとパターンを英語からフランス語に翻訳するモデルの能力を強調している。 以上の結果から,ゲーム機械翻訳の特定の事例は,この分野において,機械翻訳者が直面している作業条件や,非常に反復的な作業性から,非常に有用であることが示唆された。 しかし、文化分野における他のmtのユースケースと同様に、これはツールの適切な実装に大きく依存していると信じており、生産性のために生のポスト編集ではなく、人間の翻訳者が創造性を刺激するために対話的に使うべきである。

We present in this article what we believe to be one of the first attempts at video game machine translation. Our study shows that models trained only with limited in-domain data surpass publicly available systems by a significant margin, and a subsequent human evaluation reveals interesting findings in the final translation. The first part of the article introduces some of the challenges of video game translation, some of the existing literature, as well as the systems and data sets used in this experiment. The last sections discuss our analysis of the resulting translation and the potential benefits of such an automated system. One such finding highlights the model's ability to learn typical rules and patterns of video game translations from English into French. Our conclusions therefore indicate that the specific case of video game machine translation could prove very much useful given the encouraging results, the highly repetitive nature of the work, and the often poor working conditions that translators face in this field. As with other use cases of MT in cultural sectors, however, we believe this is heavily dependent on the proper implementation of the tool, which should be used interactively by human translators to stimulate creativity instead of raw post-editing for the sake of productivity.
翻訳日:2022-09-20 18:46:17 公開日:2022-09-19
# Open DataによるSTIエコシステムのマッピング: 対立する分類の限界を克服する。 デンマークにおける気候変動研究の事例研究

Mapping STI ecosystems via Open Data: overcoming the limitations of conflicting taxonomies. A case study for Climate Change Research in Denmark ( http://arxiv.org/abs/2209.08920v1 )

ライセンス: Link先を確認
Nicandro Bovenzi, Nicolau Duran-Silva, Francesco Alessandro Massucci, Francesco Multari, C\`esar Parra-Rojas, and Josep Pujol-Llatse(参考訳) 科学、技術、革新(STI)の意思決定者は、何が研究され、誰が効果的な政策を設計するかを明確にする必要がある。 このようなビジョンは、機関の境界内で実施される研究活動の効果的かつ包括的なマッピングによって提供される。 この文脈で直面する大きな課題は、関連するデータにアクセスし、異なるソースから来る情報を組み合わせることの難しさである。 本稿では,持続可能な開発目標 (SDG) 13-Climate Action に関する研究環境をデンマーク全土に対して地図化するためのオープンリソースの利用に関する概念実証研究を行い,それを25のERCパネルにマップする。

Science, Technology and Innovation (STI) decision-makers often need to have a clear vision of what is researched and by whom to design effective policies. Such a vision is provided by effective and comprehensive mappings of the research activities carried out within their institutional boundaries. A major challenge to be faced in this context is the difficulty in accessing the relevant data and in combining information coming from different sources: indeed, traditionally, STI data has been confined within closed data sources and, when available, it is categorised with different taxonomies. Here, we present a proof-of-concept study of the use of Open Resources to map the research landscape on the Sustainable Development Goal (SDG) 13-Climate Action, for an entire country, Denmark, and we map it on the 25 ERC panels.
翻訳日:2022-09-20 18:45:57 公開日:2022-09-19
# 社会科学出版物における調査変数識別に関するsv-ident 2022共同タスクの概要

Overview of the SV-Ident 2022 Shared Task on Survey Variable Identification in Social Science Publications ( http://arxiv.org/abs/2209.09062v1 )

ライセンス: Link先を確認
Tornike Tsereteli, Yavuz Selim Kartal, Simone Paolo Ponzetto, Andrea Zielinski, Kai Eckert, Philipp Mayr(参考訳) 本稿では,第3回SDPワークショップ(Coling 2022)の一環として,SV-Ident共有タスクの概要を紹介する。 共有タスクでは、参加者には文と変数の語彙が提供され、いずれかの変数が、学術文書から全文で個々の文中に言及されているかを特定するよう求めた。 2つのチームが共有タスクのリーダーボードに合計9回の応募を行った。 ベースラインシステムでは、どのチームも改善していませんが、提案から洞察を得ています。 さらに、我々は詳細な評価を行う。 共有タスクのデータとベースラインはhttps://github.com/vadis-project/sv-identで自由に入手できる。

In this paper, we provide an overview of the SV-Ident shared task as part of the 3rd Workshop on Scholarly Document Processing (SDP) at COLING 2022. In the shared task, participants were provided with a sentence and a vocabulary of variables, and asked to identify which variables, if any, are mentioned in individual sentences from scholarly documents in full text. Two teams made a total of 9 submissions to the shared task leaderboard. While none of the teams improve on the baseline systems, we still draw insights from their submissions. Furthermore, we provide a detailed evaluation. Data and baselines for our shared task are freely available at https://github.com/vadis-project/sv-ident
翻訳日:2022-09-20 18:45:42 公開日:2022-09-19
# 統合自動運転におけるマルチタスク協調訓練の効果的適応

Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving ( http://arxiv.org/abs/2209.08953v1 )

ライセンス: Link先を確認
Xiwen Liang, Yangxin Wu, Jianhua Han, Hang Xu, Chunjing Xu, Xiaodan Liang(参考訳) 複数の下流タスクを同時に理解するためには、より優れた転送性を持つ特徴を抽出する必要がある。 多くの最新の自己教師付き事前学習手法は、一般的なプレトレイン-ファネチューンパラダイムの下で様々な視覚タスクにおいて印象的な性能を達成したが、マルチタスク学習シナリオへの一般化能力はまだ検討されていない。 本稿では,大規模運転データセットBDD100K上でのセマンティックセグメンテーション,ドライビング可能な領域セグメンテーション,トラヒックオブジェクト検出を含む3つの下流タスクにおける,MoCoやSimCLRなどの各種自己監督手法の転送性能を広範囲に検討する。 彼らのパフォーマンスは、トレーニング目標とプレトレイン-ファイントゥンパラダイムに隠れたアーキテクチャ設計の区別によって、シングルタスクベースラインよりはるかに遅れているのです。 このジレンマを克服するとともに、資源集約型プレトレーニングステージの再設計を避けるため、汎用マルチタスクトレーニングのためのシンプルで効果的なプレトレーニング・アダプティブ・ファインチューンパラダイムを提案する。 適応段階において、学習可能なマルチスケールアダプタを用いて、事前学習された知識を無修正にしつつ、事前学習されたモデル重みをマルチタスク目的に監督して動的に調整する。 さらに,視覚言語事前学習モデルクリップを,事前学習-適応-精細化パラダイムの強力な補完として捉え,タスク固有のプロンプトと視覚特徴とテキスト特徴のアライメントを通じてマルチタスクモデルに言語を優先するlv-adapterという新しいアダプタを提案する。

Aiming towards a holistic understanding of multiple downstream tasks simultaneously, there is a need for extracting features with better transferability. Though many latest self-supervised pre-training methods have achieved impressive performance on various vision tasks under the prevailing pretrain-finetune paradigm, their generalization capacity to multi-task learning scenarios is yet to be explored. In this paper, we extensively investigate the transfer performance of various types of self-supervised methods, e.g., MoCo and SimCLR, on three downstream tasks, including semantic segmentation, drivable area segmentation, and traffic object detection, on the large-scale driving dataset BDD100K. We surprisingly find that their performances are sub-optimal or even lag far behind the single-task baseline, which may be due to the distinctions of training objectives and architectural design lied in the pretrain-finetune paradigm. To overcome this dilemma as well as avoid redesigning the resource-intensive pre-training stage, we propose a simple yet effective pretrain-adapt-finetune paradigm for general multi-task training, where the off-the-shelf pretrained models can be effectively adapted without increasing the training overhead. During the adapt stage, we utilize learnable multi-scale adapters to dynamically adjust the pretrained model weights supervised by multi-task objectives while leaving the pretrained knowledge untouched. Furthermore, we regard the vision-language pre-training model CLIP as a strong complement to the pretrain-adapt-finetune paradigm and propose a novel adapter named LV-Adapter, which incorporates language priors in the multi-task model via task-specific prompting and alignment between visual and textual features.
翻訳日:2022-09-20 18:39:29 公開日:2022-09-19
# 360{\deg}ビデオにおけるサリエンシー検出のためのパノラマ視覚トランスフォーマ

Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos ( http://arxiv.org/abs/2209.08956v1 )

ライセンス: Link先を確認
Heeseung Yun, Sehun Lee, Gunhee Kim(参考訳) 360$^\circ$ビデオサリエンシ検出は、360$^\circ$ビデオの任意のフォーマットの投影において非無視の歪みと不連続が発生するため、360$^\circ$ビデオ理解のための難しいベンチマークの1つである。 本稿では,パノラマビジョントランスフォーマ(paver)という新しいフレームワークを提案する。 変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオから事前学習したモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるだけでなく、従来の深層CNNのアプローチとは異なり、幾何近似のみを実行することができる。 強力なエンコーダのおかげで、PAVERはローカルパッチ機能間の3つの単純な相対関係からサリエンシを学習でき、Wild360ベンチマークの最先端モデルよりも、監督やクラスのアクティベーションのような補助的な情報なしで大きなマージンで性能を向上できる。 我々は,vqa-odvにおける全方位映像品質評価タスクを用いて,頭部運動を含むあらゆる形態の監視なしで一貫して性能を向上させるサリエンシー予測モデルの有用性を実証する。

360$^\circ$ video saliency detection is one of the challenging benchmarks for 360$^\circ$ video understanding since non-negligible distortion and discontinuity occur in the projection of any format of 360$^\circ$ videos, and capture-worthy viewpoint in the omnidirectional sphere is ambiguous by nature. We present a new framework named Panoramic Vision Transformer (PAVER). We design the encoder using Vision Transformer with deformable convolution, which enables us not only to plug pretrained models from normal videos into our architecture without additional modules or finetuning but also to perform geometric approximation only once, unlike previous deep CNN-based approaches. Thanks to its powerful encoder, PAVER can learn the saliency from three simple relative relations among local patch features, outperforming state-of-the-art models for the Wild360 benchmark by large margins without supervision or auxiliary information like class activation. We demonstrate the utility of our saliency prediction model with the omnidirectional video quality assessment task in VQA-ODV, where we consistently improve performance without any form of supervision, including head movement.
翻訳日:2022-09-20 18:38:53 公開日:2022-09-19
# MoVQ:高忠実画像生成のための量子ベクトル変調

MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation ( http://arxiv.org/abs/2209.09002v1 )

ライセンス: Link先を確認
Chuanxia Zheng and Long Tung Vuong and Jianfei Cai and Dinh Phung(参考訳) 2段階ベクトル量子化(VQ)生成モデルは高忠実で高解像度の画像の合成を可能にするが、量子化演算子は画像内の類似のパッチを同じインデックスにエンコードし、既存のデコーダアーキテクチャを用いて、類似の領域に対して繰り返しアーティファクトを生成する。 そこで本研究では,組込みインデックスマップに空間的変異情報を挿入するために,量子化ベクトルを変調するために空間条件正規化を組み込むことを提案し,デコーダによりフォトリアリズムな画像を生成するよう促す。 さらに,マルチチャネル量子化を用いて,モデルやコードブックのコストを増加させることなく,離散符号の再結合能力を向上させる。 さらに,第2段階で離散トークンを生成するために,Masked Generative Image Transformer (MaskGIT) を用い,従来の自己回帰モデルよりもはるかに高速な圧縮潜在空間の事前分布を学習する。 2つのベンチマークデータセットを用いた実験により,提案したVQGANは再構成画像の品質を大幅に向上し,高忠実度画像生成を実現することができることが示された。

Although two-stage Vector Quantized (VQ) generative models allow for synthesizing high-fidelity and high-resolution images, their quantization operator encodes similar patches within an image into the same index, resulting in a repeated artifact for similar adjacent regions using existing decoder architectures. To address this issue, we propose to incorporate the spatially conditional normalization to modulate the quantized vectors so as to insert spatially variant information to the embedded index maps, encouraging the decoder to generate more photorealistic images. Moreover, we use multichannel quantization to increase the recombination capability of the discrete codes without increasing the cost of model and codebook. Additionally, to generate discrete tokens at the second stage, we adopt a Masked Generative Image Transformer (MaskGIT) to learn an underlying prior distribution in the compressed latent space, which is much faster than the conventional autoregressive model. Experiments on two benchmark datasets demonstrate that our proposed modulated VQGAN is able to greatly improve the reconstructed image quality as well as provide high-fidelity image generation.
翻訳日:2022-09-20 18:38:30 公開日:2022-09-19
# 顔提示攻撃検出の公正性

Fairness in Face Presentation Attack Detection ( http://arxiv.org/abs/2209.09035v1 )

ライセンス: Link先を確認
Meiling Fang and Wufei Yang and Arjan Kuijper and Vitomir Struc and Naser Damer(参考訳) 顔提示攻撃検出(PAD)は、顔認識(FR)アプリケーションを提示攻撃から保護するために重要である。 FRのパフォーマンスは、特定の人口集団や非人口集団に対して不公平であることが示されている。 しかしながら、顔PADの公平性は、主に適切な注釈付きデータがないため、未調査の問題である。 この問題に対処するため、本研究では、まず、よく知られたPADデータセットを組み合わせて、7つの属性ラベルを提供する、CAAD-PAD(Combined Attribute Annotated PAD Dataset)を提示する。 そこで本研究は,CAAD-PADの4つの顔PADアプローチを研究することにより,顔PADの公正さとトレーニングデータの性質,および異なるデータ群上の操作決定閾値割り当て(ODTA)との関係を包括的に分析する。 PADフェアネスと絶対PADパフォーマンスの両方を同時に表現するために,新しい指標,すなわち精度バランスフェアネス(ABF)を導入する。 CAAD-PADに関する大規模な実験は、トレーニングデータとODTAが性、排他、その他の属性グループに不公平をもたらすことを示している。 これらの分析に基づいて,属性関連情報ではなく,識別・セマンティックな情報を破壊し,攻撃手段を案内するデータ拡張手法であるFairSWAPを提案する。 より詳細な実験結果から、FairSWAPは一般的にPAD性能と顔PADの公平性を向上することが示された。

Face presentation attack detection (PAD) is critical to secure face recognition (FR) applications from presentation attacks. FR performance has been shown to be unfair to certain demographic and non-demographic groups. However, the fairness of face PAD is an understudied issue, mainly due to the lack of appropriately annotated data. To address this issue, this work first presents a Combined Attribute Annotated PAD Dataset (CAAD-PAD) by combining several well-known PAD datasets where we provide seven human-annotated attribute labels. This work then comprehensively analyses the fairness of a set of face PADs and its relation to the nature of training data and the Operational Decision Threshold Assignment (ODTA) on different data groups by studying four face PAD approaches on our CAAD-PAD. To simultaneously represent both the PAD fairness and the absolute PAD performance, we introduce a novel metric, namely the Accuracy Balanced Fairness (ABF). Extensive experiments on CAAD-PAD show that the training data and ODTA induce unfairness on gender, occlusion, and other attribute groups. Based on these analyses, we propose a data augmentation method, FairSWAP, which aims to disrupt the identity/semantic information and guide models to mine attack cues rather than attribute-related information. Detailed experimental results demonstrate that FairSWAP generally enhances both the PAD performance and the fairness of face PAD.
翻訳日:2022-09-20 18:38:07 公開日:2022-09-19
# 立体形状検索のための構造対応3DVRスケッチ

Structure-Aware 3D VR Sketch to 3D Shape Retrieval ( http://arxiv.org/abs/2209.09043v1 )

ライセンス: Link先を確認
Ling Luo, Yulia Gryaditskaya, Tao Xiang, Yi-Zhe Song(参考訳) 細粒度3D-VR-スケッチによる3次元形状検索の実践課題について検討する。 この課題は、2D画像の効率的なクエリである2Dスケッチが示され、特に興味深い。 しかし, 領域ギャップのため, 2次元スケッチからの3次元形状検索において, 強力な性能を達成することは困難である。 最近の研究は、このタスクで3dvrスケッチの利点を実証した。 われわれの研究は、3DVRのスケッチに固有の不正確さに起因する課題に焦点を当てている。 検索タスクによく使用される固定マージン値の3重項損失が得られた検索結果には,無関係な形状が多数含まれており,クエリに類似した構造を持つ場合も少なくない。 この問題を緩和するために、適応的マージン値と形状類似性との間に初めて接続を描く。 特に,構造保存変形下での2つの形状の類似性である「フィッティングギャップ」によって駆動される適応マージン値を持つ三重項損失を用いることを提案する。 また,このフィッティングギャップが,形状の類似性を評価するのに適した基準であることを確認するユーザスタディも実施する。 さらに,観察ではなくメモリから描画した202種類の3次元形状に対する202個のvrスケッチのデータセットを提案する。 コードとデータはhttps://github.com/Rowl1ng/Structure-Aware-VR-Sketch-Shape-Retrievalで公開されている。

We study the practical task of fine-grained 3D-VR-sketch-based 3D shape retrieval. This task is of particular interest as 2D sketches were shown to be effective queries for 2D images. However, due to the domain gap, it remains hard to achieve strong performance in 3D shape retrieval from 2D sketches. Recent work demonstrated the advantage of 3D VR sketching on this task. In our work, we focus on the challenge caused by inherent inaccuracies in 3D VR sketches. We observe that retrieval results obtained with a triplet loss with a fixed margin value, commonly used for retrieval tasks, contain many irrelevant shapes and often just one or few with a similar structure to the query. To mitigate this problem, we for the first time draw a connection between adaptive margin values and shape similarities. In particular, we propose to use a triplet loss with an adaptive margin value driven by a "fitting gap", which is the similarity of two shapes under structure-preserving deformations. We also conduct a user study which confirms that this fitting gap is indeed a suitable criterion to evaluate the structural similarity of shapes. Furthermore, we introduce a dataset of 202 VR sketches for 202 3D shapes drawn from memory rather than from observation. The code and data are available at https://github.com/Rowl1ng/Structure-Aware-VR-Sketch-Shape-Retrieval.
翻訳日:2022-09-20 18:37:42 公開日:2022-09-19
# 交叉姿勢を用いたヴァレンス覚醒空間における感情認識のためのオーディオ・ビジュアルフュージョン

Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention ( http://arxiv.org/abs/2209.09068v1 )

ライセンス: Link先を確認
R Gnana Praveen, Eric Granger, Patrick Cardinal(参考訳) 感情の自動認識(ER)は、多くの現実世界のアプリケーションにおいてその可能性から、最近多くの関心を集めている。 この文脈において、マルチモーダルなアプローチは、多種多様な情報ソースと相補的な情報ソースを組み合わせることで、(単調なアプローチよりも)性能を改善することが示されている。 本稿では,映像から抽出した顔と声のモダリティの融合に基づく次元ERに着目し,声道空間における個人の感情状態を予測するために,相補的音声視覚(A-V)関係を探索する。 ほとんどの最先端の融合技術は、a-vモードの相補的性質を効果的に活用しないリカレントネットワークや従来の注意機構に依存している。 そこで本研究では, モーダル間関係を効果的に活用し, モーダル内関係を保ちながら, モーダル間関係を効果的に活用する, A-V融合のための連関型相互注意モデルを提案する。 特に、ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。 連立A-V特徴表現をクロスアテンションモジュールに展開することにより、イントラとインターモーダルの関係を同時に活用し、バニラのクロスアテンションモジュール上でのシステム性能を大幅に改善する。 提案手法の有効性は,RECOLAおよびAffWild2データセットからの挑戦ビデオに対して実験的に検証した。 以上の結果から,我々の連立アテンショナルA-V融合モデルでは,ノイズや不在であっても,最先端のアプローチよりも優れたコスト効率のソリューションが得られている。

Automatic emotion recognition (ER) has recently gained lot of interest due to its potential in many real-world applications. In this context, multimodal approaches have been shown to improve performance (over unimodal approaches) by combining diverse and complementary sources of information, providing some robustness to noisy and missing modalities. In this paper, we focus on dimensional ER based on the fusion of facial and vocal modalities extracted from videos, where complementary audio-visual (A-V) relationships are explored to predict an individual's emotional states in valence-arousal space. Most state-of-the-art fusion techniques rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of A-V modalities. To address this problem, we introduce a joint cross-attentional model for A-V fusion that extracts the salient features across A-V modalities, that allows to effectively leverage the inter-modal relationships, while retaining the intra-modal relationships. In particular, it computes the cross-attention weights based on correlation between the joint feature representation and that of the individual modalities. By deploying the joint A-V feature representation into the cross-attention module, it helps to simultaneously leverage both the intra and inter modal relationships, thereby significantly improving the performance of the system over the vanilla cross-attention module. The effectiveness of our proposed approach is validated experimentally on challenging videos from the RECOLA and AffWild2 datasets. Results indicate that our joint cross-attentional A-V fusion model provides a cost-effective solution that can outperform state-of-the-art approaches, even when the modalities are noisy or absent.
翻訳日:2022-09-20 18:37:20 公開日:2022-09-19
# DeePhy:Deepfake Phylogenyについて

DeePhy: On Deepfake Phylogeny ( http://arxiv.org/abs/2209.09111v1 )

ライセンス: Link先を確認
Kartik Narayan, Harsh Agarwal, Kartik Thakral, Surbhi Mittal, Mayank Vatsa, Richa Singh(参考訳) Deepfake(ディープフェイク)とは、オンラインで利用可能な情報の信頼性を脅かし、現在広く普及し、大規模に広まっている、調整された合成ビデオを指す。 既存のデータセットには、生成技術によって異なる種類のディープフェイクが含まれているが、ディープフェイクの「系統的」な進行は考慮していない。 既存のディープフェイク顔は別の顔と入れ替えられる可能性がある。 このフェイススワップのプロセスは複数回行うことができ、その結果、ディープフェイク検出アルゴリズムを混乱させるように進化させることができる。 さらに、多くのデータベースはターゲットラベルとして使用される生成モデルを提供していない。 モデル属性は、採用した生成モデルに関する情報を提供することで、検出結果の説明可能性を高めるのに役立つ。 研究コミュニティがこれらの問題に対処するために,3つの異なる生成手法を用いて生成した5040個のディープフェイク映像からなる新しいディープフェイク・フィロジェニー・データセットであるDeePhyを提案する。 一度スワップしたディープフェイクのビデオは840本、二度スワップしたビデオは2520本、三度スワップしたビデオは1680本ある。 データベースのサイズは30GBを超え、1100時間以上、累積メモリは1,352GBの18GPUを使用する。 また,6つのディープフェイク検出アルゴリズムを用いて,DeePhyデータセットのベンチマークを示す。 その結果、ディープフェイクのモデル属性の研究を進化させ、様々なディープフェイク生成技術によるプロセスの一般化の必要性を強調した。 データベースは以下のとおりである。 http://iab-rubric.org/deephy-database

Deepfake refers to tailored and synthetically generated videos which are now prevalent and spreading on a large scale, threatening the trustworthiness of the information available online. While existing datasets contain different kinds of deepfakes which vary in their generation technique, they do not consider progression of deepfakes in a "phylogenetic" manner. It is possible that an existing deepfake face is swapped with another face. This process of face swapping can be performed multiple times and the resultant deepfake can be evolved to confuse the deepfake detection algorithms. Further, many databases do not provide the employed generative model as target labels. Model attribution helps in enhancing the explainability of the detection results by providing information on the generative model employed. In order to enable the research community to address these questions, this paper proposes DeePhy, a novel Deepfake Phylogeny dataset which consists of 5040 deepfake videos generated using three different generation techniques. There are 840 videos of one-time swapped deepfakes, 2520 videos of two-times swapped deepfakes and 1680 videos of three-times swapped deepfakes. With over 30 GBs in size, the database is prepared in over 1100 hours using 18 GPUs of 1,352 GB cumulative memory. We also present the benchmark on DeePhy dataset using six deepfake detection algorithms. The results highlight the need to evolve the research of model attribution of deepfakes and generalize the process over a variety of deepfake generation techniques. The database is available at: http://iab-rubric.org/deephy-database
翻訳日:2022-09-20 18:36:48 公開日:2022-09-19
# セミスーパービジョンドライバディストラクション検出のためのマルチタスクビジョン変換器

Multi-Task Vision Transformer for Semi-Supervised Driver Distraction Detection ( http://arxiv.org/abs/2209.09178v1 )

ライセンス: Link先を確認
Yunsheng Ma and Ziran Wang(参考訳) 運転注意障害検出は、交通安全の向上と交通事故の低減に重要な役割を果たす重要なコンピュータビジョン問題である。 本稿では,視覚変換器(ViT)を用いた運転注意障害検出手法を提案する。 具体的には,注意散逸検出信号に含まれる誘導情報やドライバの感情認識を利用した多モード視覚トランスフォーマ(vit-dd)を開発した。 さらに、ViT-DDの教師付きマルチタスクトレーニングに感情ラベルのないドライバデータを含む半サプライズ学習アルゴリズムを設計する。 SFDDDデータセットとAUCDDデータセットで実施された大規模な実験により、提案されたViT-DDは、ドライバーの気晴らし検出に対する最先端のアプローチをそれぞれ6.5%と0.9%上回った。 ソースコードはhttps://github.com/PurdueDigitalTwin/ViT-DDで公開されています。

Driver distraction detection is an important computer vision problem that can play a crucial role in enhancing traffic safety and reducing traffic accidents. In this paper, a Vision Transformer (ViT) based approach for driver distraction detection is proposed. Specifically, a multi-modal Vision Transformer (ViT-DD) is developed, which exploits inductive information contained in signals of distraction detection as well as driver emotion recognition. Further, a semi-surprised learning algorithm is designed to include driver data without emotion labels into the supervised multi-task training of ViT-DD. Extensive experiments conducted on the SFDDD and AUCDD datasets demonstrate that the proposed ViT-DD outperforms the state-of-the-art approaches for driver distraction detection by 6.5% and 0.9%, respectively. Our source code is released at https://github.com/PurdueDigitalTwin/ViT-DD.
翻訳日:2022-09-20 18:36:23 公開日:2022-09-19
# 合成視覚・熱マスク画像の公平性

Fairness on Synthetic Visual and Thermal Mask Images ( http://arxiv.org/abs/2209.08762v1 )

ライセンス: Link先を確認
Kenneth Lai, Vlad Shmerko, Svetlana Yanushkevich(参考訳) 本稿では,視覚画像と熱画像の性能と公平性を調査し,その評価をマスキング合成画像に拡張する。 サーマルマスクデータセットとスポーキングフェイスを用いて,実画像の公平性を評価し,同じプロセスを合成画像に適用できることを示す。 その結果、ランダムな推測のための人口差は1.59であり、認識性能が99.99\%の精度とリコール率に向上すると5.0に増加する。 偏りのあるデータセットは、あらゆる生体認証システムの公平性に深く影響する可能性がある。 偏りのあるデータセットの主な原因は、データ収集プロセスによるクラスの不均衡である。 不均衡なデータセットに対処するために、サンプルが少ないクラスを合成画像で拡張して、よりバランスの取れたデータセットを生成することで、マシンラーニングシステムのトレーニングにおいてバイアスが軽減される。 バイオメトリック対応システムでは、フェアネスが重要であり、関連する概念であるEquity, Diversity, and Inclusion(EDI)は、バイオメトリックスにおけるフェアネスの一般化によく適しているが、本稿では、最も一般的な3つの集団、年齢、性別、民族性に焦点を当てる。

In this paper, we study performance and fairness on visual and thermal images and expand the assessment to masked synthetic images. Using the SpeakingFace and Thermal-Mask dataset, we propose a process to assess fairness on real images and show how the same process can be applied to synthetic images. The resulting process shows a demographic parity difference of 1.59 for random guessing and increases to 5.0 when the recognition performance increases to a precision and recall rate of 99.99\%. We indicate that inherently biased datasets can deeply impact the fairness of any biometric system. A primary cause of a biased dataset is the class imbalance due to the data collection process. To address imbalanced datasets, the classes with fewer samples can be augmented with synthetic images to generate a more balanced dataset resulting in less bias when training a machine learning system. For biometric-enabled systems, fairness is of critical importance, while the related concept of Equity, Diversity, and Inclusion (EDI) is well suited for the generalization of fairness in biometrics, in this paper, we focus on the 3 most common demographic groups age, gender, and ethnicity.
翻訳日:2022-09-20 18:30:11 公開日:2022-09-19
# s$^3$r:高スペクトル組織病理画像分類のための自己教師ありスペクトル回帰

S$^3$R: Self-supervised Spectral Regression for Hyperspectral Histopathology Image Classification ( http://arxiv.org/abs/2209.08770v1 )

ライセンス: Link先を確認
Xingran Xie, Yan Wang, and Qingli Li(参考訳) ハイパースペクトル画像(HSI)のリッチで詳細なスペクトル情報から得られたHSIは、計算病理学のような幅広い医学的応用に大きな可能性を秘めている。 しかし、十分なアノテートデータの欠如と高スペクトル次元のHSIは、分類ネットワークを過度に適合させる傾向がある。 したがって、下流タスクに転送可能な一般的な表現の学習は必須である。 病理組織学hsisでは, 適切な自己指導前訓練法が確立されていない。 本稿では,HSIのスペクトル領域における低階特性を利用した,効率的かつ効果的な自己監督スペクトル回帰法(S$^3$R)を提案する。 より具体的には、これらのバンドをマスキングすることで、残りのバンドによって1つのバンドを表現できる線形係数の集合を学習することを提案する。 そして、学習係数を用いてバンドを復元し、残りのバンドをリウェイトする。 2つのプレテキストタスクが設計されている:(1)S$^3$R-CRは線形係数を回帰し、事前学習されたモデルがHSIの固有構造と異なる形態の病理特性を理解するように、(2)S$^3$R-BRは欠落したバンドを回帰し、HSIの全体論的意味学を学ぶモデルとなる。 自然画像に焦点を当てたコントラスト学習手法である先行技術と比較して、S$^3$Rは少なくとも3倍の速度で収束し、HSI分類タスクに移行する際の精度が最大14%向上する。

Benefited from the rich and detailed spectral information in hyperspectral images (HSI), HSI offers great potential for a wide variety of medical applications such as computational pathology. But, the lack of adequate annotated data and the high spatiospectral dimensions of HSIs usually make classification networks prone to overfit. Thus, learning a general representation which can be transferred to the downstream tasks is imperative. To our knowledge, no appropriate self-supervised pre-training method has been designed for histopathology HSIs. In this paper, we introduce an efficient and effective Self-supervised Spectral Regression (S$^3$R) method, which exploits the low rank characteristic in the spectral domain of HSI. More concretely, we propose to learn a set of linear coefficients that can be used to represent one band by the remaining bands via masking out these bands. Then, the band is restored by using the learned coefficients to reweight the remaining bands. Two pre-text tasks are designed: (1)S$^3$R-CR, which regresses the linear coefficients, so that the pre-trained model understands the inherent structures of HSIs and the pathological characteristics of different morphologies; (2)S$^3$R-BR, which regresses the missing band, making the model to learn the holistic semantics of HSIs. Compared to prior arts i.e., contrastive learning methods, which focuses on natural images, S$^3$R converges at least 3 times faster, and achieves significant improvements up to 14% in accuracy when transferring to HSI classification tasks.
翻訳日:2022-09-20 18:29:50 公開日:2022-09-19
# NeRF-SOS: 複雑な実世界シーンからの任意の視点で自己組織化されたオブジェクトセグメンテーション

NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex Real-World Scenes ( http://arxiv.org/abs/2209.08776v1 )

ライセンス: Link先を確認
Zhiwen Fan, Peihao Wang, Xinyu Gong, Yifan Jiang, Dejia Xu, Zhangyang Wang(参考訳) ニューラルボリューム表現は、MLPネットワークを複数のビューのキャリブレーションされた画像でトレーニングし、シーンの幾何学や外観を表現する可能性を示している。 オブジェクトのセグメンテーションは、学習したradianceフィールドに基づいて多くの下流アプリケーションを強化することができる。 しかし、複雑な現実世界のシーンにおける関心領域を定義するために手作りのセグメンテーションを導入することは、ビューアノテーション毎に取得するので、非自明でコストがかかる。 本稿では,複雑な現実世界のシーンに対するNeRFを用いた自己教師型学習の探索を行う。 我々のフレームワークであるNeRF-SOSは、オブジェクトのセグメンテーションとニューラルラディアンスフィールドを結合して、シーン内の任意のビューでオブジェクトをセグメンテーションする。 nerf-sosは、外観と幾何学の両方のレベルで新しい協調的なコントラスト損失を提案することで、コンパクトな幾何認識セグメンテーションクラスタを密度場と自己教師付き2次元視覚特徴から蒸留することを推奨する。 自己教師対象セグメンテーションフレームワークは、写真リアルなレンダリング結果と、屋内および屋外の両方のシナリオに対する説得力のあるセグメンテーションをもたらす様々なNeRFモデルに適用することができる。 LLFF、タンク、テンプルのデータセットの大規模な結果は、NeRF-SOSの有効性を検証する。 他の画像ベースの自監督ベースラインを一貫して上回り、Semantic-NeRFよりも細部まで捉えている。

Neural volumetric representations have shown the potential that MLP networks can be trained with multi-view calibrated images to represent scene geometry and appearance, without explicit 3D supervision. Object segmentation can enrich many downstream applications based on the learned radiance field. However, introducing hand-crafted segmentation to define regions of interest in a complex real-world scene are non-trivial and expensive as it acquires per view annotation. This paper carries out the exploration of self-supervised learning for object segmentation using NeRF for complex real-world scenes. Our framework, NeRF-SOS, couples object segmentation and neural radiance field to segment objects in any view within a scene. By proposing a novel collaborative contrastive loss in both appearance and geometry levels, NeRF-SOS encourages NeRF models to distill compact geometry-aware segmentation clusters from their density fields and the self-supervised pre-trained 2D visual features. The self-supervised object segmentation framework can be applied to various NeRF models that both lead to photo-realistic rendering results and convincing segmentations for both indoor and outdoor scenarios. Extensive results on the LLFF, Tank and Temple datasets validate the effectiveness of NeRF-SOS. It consistently surpasses other image-based self-supervised baselines and even captures finer details than supervised Semantic-NeRF.
翻訳日:2022-09-20 18:29:24 公開日:2022-09-19
# 深層顔表現学習のための尺度注意:視覚的尺度変動の検討

Scale Attention for Learning Deep Face Representation: A Study Against Visual Scale Variation ( http://arxiv.org/abs/2209.08788v1 )

ライセンス: Link先を確認
Hailin Shi, Hang Du, Yibo Hu, Jun Wang, Dan Zeng, Ting Yao(参考訳) 人間の顔画像は通常、広範囲の視覚的スケールで現れる。 既存の顔表現は、有限列の事前定義されたスケールを組み立てるマルチスケールスキームによってスケール変動を扱う帯域幅を追求する。 このようなマルチショットスキームは推論の負担をもたらし、事前定義されたスケールは必然的に実際のデータとギャップを持つ。 代わりに、データからスケールパラメータを学習し、それらをワンショットの機能推論に使うことは、まともなソリューションです。 この目的のために、スケール空間理論を利用して凸層を改革し、2倍の設備を実現する。 1) conv層は、実データ分布から、それぞれがconvカーネルで満たされたスケールの集合を学習する。 2) 層は入力パターンスケールとその存在に対応する適切なチャネルと位置で自動的に特徴をハイライトする。 次に,改良層を積み重ねることで階層的スケールアテンションを実現し,スケールアテンションconvニューラルネットワーク(\textbf{scan-cnn})と呼ばれる新しいスタイルを構築する。 顔認識タスクにSCAN-CNNを適用し,SOTA性能のフロンティアを推し進める。 顔画像がぼやけた場合の精度向上はより顕著である。 一方、単発方式では、推論はマルチショット融合よりも効率的である。 SCAN-CNNの高速なトレーニングと、通常のCNNと比較して推論コストのゼロな増加を保証するためのツールセットが作成されている。

Human face images usually appear with wide range of visual scales. The existing face representations pursue the bandwidth of handling scale variation via multi-scale scheme that assembles a finite series of predefined scales. Such multi-shot scheme brings inference burden, and the predefined scales inevitably have gap from real data. Instead, learning scale parameters from data, and using them for one-shot feature inference, is a decent solution. To this end, we reform the conv layer by resorting to the scale-space theory, and achieve two-fold facilities: 1) the conv layer learns a set of scales from real data distribution, each of which is fulfilled by a conv kernel; 2) the layer automatically highlights the feature at the proper channel and location corresponding to the input pattern scale and its presence. Then, we accomplish the hierarchical scale attention by stacking the reformed layers, building a novel style named SCale AttentioN Conv Neural Network (\textbf{SCAN-CNN}). We apply SCAN-CNN to the face recognition task and push the frontier of SOTA performance. The accuracy gain is more evident when the face images are blurry. Meanwhile, as a single-shot scheme, the inference is more efficient than multi-shot fusion. A set of tools are made to ensure the fast training of SCAN-CNN and zero increase of inference cost compared with the plain CNN.
翻訳日:2022-09-20 18:29:00 公開日:2022-09-19
# T2V-DDPM:拡散確率モデルを用いた熱-可視顔翻訳

T2V-DDPM: Thermal to Visible Face Translation using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2209.08814v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair and Vishal M. Patel(参考訳) 現代の監視システムは、深層学習に基づく顔認証ネットワークを用いて人物認識を行う。 ほとんどの最先端の顔認証システムは可視スペクトル画像を用いて訓練されている。 しかし、低照度および夜間条件のシナリオでは、可視スペクトルの画像を取得することは不可能であり、しばしば熱赤外領域のような別の領域で撮像される。 熱画像における顔認証は、対応する可視領域画像の検索後に行われることが多い。 これは熱可視(T2V)画像変換として知られるよく確立された問題である。 本稿では,顔画像に特有なT2V翻訳のための解法として,DDPM(Denoising Diffusion Probabilistic Model)を提案する。 トレーニング中、モデルは拡散過程を通じて、対応する熱画像から可視的顔画像の条件分布を学習する。 推測中は、ガウスノイズから始まり、繰り返しデノナイジングを行うことにより、可視領域画像を得る。 既存のDDPMの推論プロセスは確率的かつ時間を要する。 そこで本研究では,T2V画像翻訳の問題に対して,DDPMの推論時間を高速化する新たな推論手法を提案する。 複数のデータセットで最先端の結果を得る。 コードと事前訓練されたモデルはhttp://github.com/Nithin-GK/T2V-DDPMで公開されている。

Modern-day surveillance systems perform person recognition using deep learning-based face verification networks. Most state-of-the-art facial verification systems are trained using visible spectrum images. But, acquiring images in the visible spectrum is impractical in scenarios of low-light and nighttime conditions, and often images are captured in an alternate domain such as the thermal infrared domain. Facial verification in thermal images is often performed after retrieving the corresponding visible domain images. This is a well-established problem often known as the Thermal-to-Visible (T2V) image translation. In this paper, we propose a Denoising Diffusion Probabilistic Model (DDPM) based solution for T2V translation specifically for facial images. During training, the model learns the conditional distribution of visible facial images given their corresponding thermal image through the diffusion process. During inference, the visible domain image is obtained by starting from Gaussian noise and performing denoising repeatedly. The existing inference process for DDPMs is stochastic and time-consuming. Hence, we propose a novel inference strategy for speeding up the inference time of DDPMs, specifically for the problem of T2V image translation. We achieve the state-of-the-art results on multiple datasets. The code and pretrained models are publically available at http://github.com/Nithin-GK/T2V-DDPM
翻訳日:2022-09-20 18:28:37 公開日:2022-09-19
# バードアイビューにおける道路レイアウト推定と3次元物体検出のための2サイクルクロスビュートランスネットワーク

A Dual-Cycled Cross-View Transformer Network for Unified Road Layout Estimation and 3D Object Detection in the Bird's-Eye-View ( http://arxiv.org/abs/2209.08844v1 )

ライセンス: Link先を確認
Curie Kim and Ue-Hwan Kim(参考訳) 鳥眼ビュー(BEV)表現は、道路レイアウト推定や3Dオブジェクト検出を含む、自律運転のための複数のタスクの堅牢な学習を可能にする。 しかし,現代の道路配置推定法や3次元物体検出法では,トレーニングデータセットのクラス不均衡やマルチクラス学習の扱いがほとんどなく,必要なネットワークの総数を削減することができる。 これらの制約を克服するために,トランスフォーマーアーキテクチャとサイクガン学習フレームワークに触発された道路レイアウト推定と3次元物体検出の統一モデルを提案する。 提案モデルは,焦点損失と2サイクル損失を併用したデータセットのクラス不均衡による性能劣化に対処する。 さらに,様々な状況における道路配置推定における多クラス学習の効果を検討するために,広範な学習シナリオを設定した。 提案モデルと学習方式の有効性を検証するため,徹底的なアブレーション研究を行い,比較検討を行った。 実験の結果,道路配置推定と3次元物体検出の両タスクにおいて,最先端の性能が得られた。

The bird's-eye-view (BEV) representation allows robust learning of multiple tasks for autonomous driving including road layout estimation and 3D object detection. However, contemporary methods for unified road layout estimation and 3D object detection rarely handle the class imbalance of the training dataset and multi-class learning to reduce the total number of networks required. To overcome these limitations, we propose a unified model for road layout estimation and 3D object detection inspired by the transformer architecture and the CycleGAN learning framework. The proposed model deals with the performance degradation due to the class imbalance of the dataset utilizing the focal loss and the proposed dual cycle loss. Moreover, we set up extensive learning scenarios to study the effect of multi-class learning for road layout estimation in various situations. To verify the effectiveness of the proposed model and the learning scheme, we conduct a thorough ablation study and a comparative study. The experiment results attest the effectiveness of our model; we achieve state-of-the-art performance in both the road layout estimation and 3D object detection tasks.
翻訳日:2022-09-20 18:28:22 公開日:2022-09-19
# 脳MRI分割のための注意対称性オートエンコーダ

Attentive Symmetric Autoencoder for Brain MRI Segmentation ( http://arxiv.org/abs/2209.08887v1 )

ライセンス: Link先を確認
Junjia Huang, Haofeng Li, Guanbin Li, Xiang Wan(参考訳) 画像パッチ再構成に基づく自己教師付き学習手法は、訓練済みの重みを画像理解の他の下流タスクに転送できるオートエンコーダの訓練において大きな成功を収めている。 しかし, 3次元医用画像に適用した場合, 再建パッチの重要性や解剖学的構造の対称性についてはほとんど研究されていない。 本稿では、視覚変換器(ViT)をベースとした3次元脳MRI分割タスクのための新しいAttentive Symmetric Auto-Encoder(ASA)を提案する。 我々は,自動エンコーダに情報領域の復元を強制すると,スムーズな画像パッチを復元するよりも,より識別的な表現が得られると推測する。 次に、各画像パッチの重要性を推定するために、勾配に基づく計量を用いる。 事前学習段階において,提案する自動エンコーダは,グラデーション指標に従って情報パッチの再構成により多くの注意を払っている。 さらに,脳構造の前段階に着目し,空間的対称領域間の相関をより有効に活用し,効果的な特徴を得るための対称位置符号化(spe)法を開発した。 実験の結果,提案手法は3つの脳MRIセグメンテーションベンチマークにおいて,最先端の自己教師付き学習法および医用画像セグメンテーションモデルよりも優れていた。

Self-supervised learning methods based on image patch reconstruction have witnessed great success in training auto-encoders, whose pre-trained weights can be transferred to fine-tune other downstream tasks of image understanding. However, existing methods seldom study the various importance of reconstructed patches and the symmetry of anatomical structures, when they are applied to 3D medical images. In this paper we propose a novel Attentive Symmetric Auto-encoder (ASA) based on Vision Transformer (ViT) for 3D brain MRI segmentation tasks. We conjecture that forcing the auto-encoder to recover informative image regions can harvest more discriminative representations, than to recover smooth image patches. Then we adopt a gradient based metric to estimate the importance of each image patch. In the pre-training stage, the proposed auto-encoder pays more attention to reconstruct the informative patches according to the gradient metrics. Moreover, we resort to the prior of brain structures and develop a Symmetric Position Encoding (SPE) method to better exploit the correlations between long-range but spatially symmetric regions to obtain effective features. Experimental results show that our proposed attentive symmetric auto-encoder outperforms the state-of-the-art self-supervised learning methods and medical image segmentation models on three brain MRI segmentation benchmarks.
翻訳日:2022-09-20 18:28:04 公開日:2022-09-19
# neuralmarker: 一般的なマーカー対応を学ぶためのフレームワーク

NeuralMarker: A Framework for Learning General Marker Correspondence ( http://arxiv.org/abs/2209.08896v1 )

ライセンス: Link先を確認
Zhaoyang Huang, Xiaokun Pan, Weihong Pan, Weikang Bian, Yan Xu, Ka Chun Cheung, Guofeng Zhang, Hongsheng Li(参考訳) 本稿では,映画ポスターなどの一般的なマーカーから,そのようなマーカーを捉えた画像への対応性を推定する問題に取り組む。 従来、この問題はスパース特徴マッチングに基づくホモグラフィーモデルを適用することで解決されている。 しかし、平面的なマーカーしか扱えないため、スパースの特徴は外観情報を十分に活用していない。 本稿では, マーカー変形, 過酷な照明など, 様々な困難な条件下で, 濃密なマーカー対応を推定するニューラルネットワークを訓練する新しいフレームワークであるNeuralMarkerを提案する。 また,実際のマーカーと画像のアノテーションを囲む新しいマーカー対応評価手法を提案し,新しいベンチマークを作成する。 NeuralMarkerは従来の手法よりも大幅に優れており、拡張現実(AR)やビデオ編集など、新しい興味深いアプリケーションを可能にする。

We tackle the problem of estimating correspondences from a general marker, such as a movie poster, to an image that captures such a marker. Conventionally, this problem is addressed by fitting a homography model based on sparse feature matching. However, they are only able to handle plane-like markers and the sparse features do not sufficiently utilize appearance information. In this paper, we propose a novel framework NeuralMarker, training a neural network estimating dense marker correspondences under various challenging conditions, such as marker deformation, harsh lighting, etc. Besides, we also propose a novel marker correspondence evaluation method circumstancing annotations on real marker-image pairs and create a new benchmark. We show that NeuralMarker significantly outperforms previous methods and enables new interesting applications, including Augmented Reality (AR) and video editing.
翻訳日:2022-09-20 18:27:44 公開日:2022-09-19
# HVC-Net:平面物体追跡のためのホログラフィ、可視性、信頼度学習の統合

HVC-Net: Unifying Homography, Visibility, and Confidence Learning for Planar Object Tracking ( http://arxiv.org/abs/2209.08924v1 )

ライセンス: Link先を確認
Haoxian Zhang, Yonggen Ling(参考訳) ビデオシーケンス全体のロバストで正確な平面追跡は、多くの視覚アプリケーションにとって極めて重要である。 平面オブジェクト追跡の鍵は、参照画像と追跡画像の間のホモグラフィによってモデル化されたオブジェクト対応を見つけることである。 既存の手法では、外観の変化、カメラ・オブジェクト間の相対的な動き、オクルージョンと間違った対応を得る傾向がある。 この問題を緩和するために,ホモグラフィ,可視性,信頼性を共同で考慮した統合畳み込みニューラルネットワーク(cnn)モデルを提案する。 まず,局所的外観変化とカメラ対象相対運動をモデルの基礎として明示的に考慮した相関ブロックを導入する。 第2に,カメラと物体の相対運動と咬合を関連付けるホモグラフィと可視性について共同で学習する。 第3に、相関ブロックで得られた画素相関分布から推定品質を積極的に監視する信頼モジュールを提案する。 これらのモジュールはすべてLucas-Kanade (LK)追跡パイプラインにプラグインされ、正確かつ堅牢な平面オブジェクト追跡の両方を得る。 提案手法は,パブリックPOTおよびTMTデータセットの最先端手法よりも優れている。 その優れたパフォーマンスは、高品質なインビデオ広告を合成する現実世界のアプリケーションでも検証されている。

Robust and accurate planar tracking over a whole video sequence is vitally important for many vision applications. The key to planar object tracking is to find object correspondences, modeled by homography, between the reference image and the tracked image. Existing methods tend to obtain wrong correspondences with changing appearance variations, camera-object relative motions and occlusions. To alleviate this problem, we present a unified convolutional neural network (CNN) model that jointly considers homography, visibility, and confidence. First, we introduce correlation blocks that explicitly account for the local appearance changes and camera-object relative motions as the base of our model. Second, we jointly learn the homography and visibility that links camera-object relative motions with occlusions. Third, we propose a confidence module that actively monitors the estimation quality from the pixel correlation distributions obtained in correlation blocks. All these modules are plugged into a Lucas-Kanade (LK) tracking pipeline to obtain both accurate and robust planar object tracking. Our approach outperforms the state-of-the-art methods on public POT and TMT datasets. Its superior performance is also verified on a real-world application, synthesizing high-quality in-video advertisements.
翻訳日:2022-09-20 18:27:30 公開日:2022-09-19
# HiMFR:フェイスペイントによるハイブリッドマスク付き顔認識

HiMFR: A Hybrid Masked Face Recognition Through Face Inpainting ( http://arxiv.org/abs/2209.08930v1 )

ライセンス: Link先を確認
Md Imran Hosen and Md Baharul Islam(参考訳) マスクされた顔を認識するためには、まず顔の閉ざされた部分を復元し、その後に顔認識法を適用することが考えられる。 近年のイメージインペインティング法に触発されて,マスク顔検出,顔インペインティング,顔認識の3つの重要な部分からなる,エンドツーエンドのハイブリッドマスク顔認識システムhifrを提案する。 マスク顔検出モジュールは、予め訓練されたビジョントランス(vit\_b32)を適用して、顔がマスクされているか否かを検出する。 インペインティングモジュールは、生成敵ネットワーク(gan)に基づく微調整画像インペインティングモデルを使用して顔の復元を行う。 最後に、効率の良いnetb3バックボーンを持つvitに基づくハイブリッド顔認識モジュールが顔を認識する。 提案手法は, celeba, ssdmnv2, mafa, {pubfig83} という4種類のデータセットに対して, 局所的に収集した小集合 face5 を用いて実装し, 評価した。 総合実験の結果,競合性能を有するhfr法の有効性が示された。 コードはhttps://github.com/mdhosen/HiMFRで入手できる。

To recognize the masked face, one of the possible solutions could be to restore the occluded part of the face first and then apply the face recognition method. Inspired by the recent image inpainting methods, we propose an end-to-end hybrid masked face recognition system, namely HiMFR, consisting of three significant parts: masked face detector, face inpainting, and face recognition. The masked face detector module applies a pretrained Vision Transformer (ViT\_b32) to detect whether faces are covered with masked or not. The inpainting module uses a fine-tune image inpainting model based on a Generative Adversarial Network (GAN) to restore faces. Finally, the hybrid face recognition module based on ViT with an EfficientNetB3 backbone recognizes the faces. We have implemented and evaluated our proposed method on four different publicly available datasets: CelebA, SSDMNV2, MAFA, {Pubfig83} with our locally collected small dataset, namely Face5. Comprehensive experimental results show the efficacy of the proposed HiMFR method with competitive performance. Code is available at https://github.com/mdhosen/HiMFR
翻訳日:2022-09-20 18:27:12 公開日:2022-09-19
# 合成オーバーヘッド画像の自動設計のためのメタシミュレーション

Meta-simulation for the Automated Design of Synthetic Overhead Imagery ( http://arxiv.org/abs/2209.08685v1 )

ライセンス: Link先を確認
Handi Yu, Leslie M. Collins and Jordan M. Malof(参考訳) 近年,機械学習モデルの学習における合成(あるいはシミュレーション)データの利用が急速に増加している。 合成データは実際のデータよりも高速で安価に生成されることが多い。 しかし、合成画像を使用する1つの課題はシーンデザインである:例えば、コンテンツの選択とその特徴と空間配置である。 効果的にするために、この設計は現実的であるだけでなく、(仮定により)ラベルのない対象領域に適している。 本研究では,ラベルのない実世界の画像に基づいて,合成画像の設計を自動選択する手法を提案する。 このアプローチはneural-adjoint meta-simulation(nams)と呼ばれ、最近のメタシミュレーションアプローチを基礎としている。 現在の最先端の手法とは対照的に、我々のアプローチはオフラインで一度事前訓練し、新しいターゲット画像に対する高速な設計推測を提供する。 合成と実世界の両問題を用いて、NAMSはドメイン内とドメイン外の両方のターゲット画像にマッチする合成設計を推論し、NAMSが設計した画像を用いたトレーニングセグメンテーションモデルでは、na\\ なランダム化設計や最先端メタシミュレーションよりも優れた結果が得られることを示す。

The use of synthetic (or simulated) data for training machine learning models has grown rapidly in recent years. Synthetic data can often be generated much faster and more cheaply than its real-world counterpart. One challenge of using synthetic imagery however is scene design: e.g., the choice of content and its features and spatial arrangement. To be effective, this design must not only be realistic, but appropriate for the target domain, which (by assumption) is unlabeled. In this work, we propose an approach to automatically choose the design of synthetic imagery based upon unlabeled real-world imagery. Our approach, termed Neural-Adjoint Meta-Simulation (NAMS), builds upon the seminal recent meta-simulation approaches. In contrast to the current state-of-the-art methods, our approach can be pre-trained once offline, and then provides fast design inference for new target imagery. Using both synthetic and real-world problems, we show that NAMS infers synthetic designs that match both the in-domain and out-of-domain target imagery, and that training segmentation models with NAMS-designed imagery yields superior results compared to na\"ive randomized designs and state-of-the-art meta-simulation methods.
翻訳日:2022-09-20 18:21:22 公開日:2022-09-19
# uavベースオブジェクト再同定のための不確実性を考慮したマルチタスクピラミッドビジョントランスフォーマ

Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based Object Re-Identification ( http://arxiv.org/abs/2209.08686v1 )

ライセンス: Link先を確認
Syeda Nyma Ferdous, Xin Li, Siwei Lyu(参考訳) バイオメトリックスと監視システムにおいて最も重要な問題の一つであるオブジェクト再識別(ReID)は、過去数十年間、画像処理とコンピュータビジョンのコミュニティによって広く研究されてきた。 堅牢で差別的な特徴表現を学ぶことは、オブジェクトReIDにとって重要な課題である。 無人航空機(UAV)をベースとしたReIDでは、画像が連続的に変化するカメラパラメータ(視角、高度など)によって特徴付けられるため、この問題はさらに困難である。 この課題に対処するため、様々な高度でUAVから撮影した画像を特徴付けるために、マルチスケールの特徴表現が検討されている。 本研究では,UAVベースのオブジェクトReIDのバックボーンとして,畳み込みのない新しいマルチスケールアーキテクチャであるPraamid Vision Transformer(PVT)を用いるマルチタスク学習手法を提案する。 クラス内変異の不確実性モデリングにより,不確実性を認識するオブジェクトidとカメラid情報の両方を用いて,提案モデルを協調的に最適化することができる。 提案手法の有効性を検証するため,航空監視用reidデータセットpraiとvraiを用いて実験結果が報告された。

Object Re-IDentification (ReID), one of the most significant problems in biometrics and surveillance systems, has been extensively studied by image processing and computer vision communities in the past decades. Learning a robust and discriminative feature representation is a crucial challenge for object ReID. The problem is even more challenging in ReID based on Unmanned Aerial Vehicle (UAV) as the images are characterized by continuously varying camera parameters (e.g., view angle, altitude, etc.) of a flying drone. To address this challenge, multiscale feature representation has been considered to characterize images captured from UAV flying at different altitudes. In this work, we propose a multitask learning approach, which employs a new multiscale architecture without convolution, Pyramid Vision Transformer (PVT), as the backbone for UAV-based object ReID. By uncertainty modeling of intraclass variations, our proposed model can be jointly optimized using both uncertainty-aware object ID and camera ID information. Experimental results are reported on PRAI and VRAI, two ReID data sets from aerial surveillance, to verify the effectiveness of our proposed approach
翻訳日:2022-09-20 18:21:01 公開日:2022-09-19
# 産業的ドメインにおける人間行動理解のためのマルチモーダル・エゴセントリックデータセットMECCANO

MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain ( http://arxiv.org/abs/2209.08691v1 )

ライセンス: Link先を確認
Francesco Ragusa and Antonino Furnari and Giovanni Maria Farinella(参考訳) ウェアラブルカメラは、ユーザの視点で画像やビデオを取得することができる。 これらのデータは人間の行動を理解するために処理できる。 人間の行動分析は第三者の視覚で徹底的に研究されているが、エゴセントリックな設定、特に工業シナリオでは未熟である。 この分野での研究を奨励するために,産業的な環境下での人間の行動理解を研究するための,エゴセントリックなビデオのマルチモーダルデータセットMECCANOを提案する。 マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。 このデータセットは、人間と物体の相互作用を認識し予測するなど、人間の行動理解の文脈における基本的なタスクに明示的にラベル付けされている。 MECCANOデータセットを用いて,5つのタスクを探索した。 1)行動認識 2)アクティブオブジェクトの検出と認識。 3)人間と物体の相互作用検出 4)行動予測及び 5)次のアクティブオブジェクトの検出。 そこで本研究では,調査対象の課題と検討対象のシナリオが最先端のアルゴリズムにとって困難であることを示す,産業的シナリオを考慮した人間行動研究のためのベンチマークを提案する。 この分野での研究を支援するため、データセットをhttps://iplab.dmi.unict.it/MECCANO/で公開しています。

Wearable cameras allow to acquire images and videos from the user's perspective. These data can be processed to understand humans behavior. Despite human behavior analysis has been thoroughly investigated in third person vision, it is still understudied in egocentric settings and in particular in industrial scenarios. To encourage research in this field, we present MECCANO, a multimodal dataset of egocentric videos to study humans behavior understanding in industrial-like settings. The multimodality is characterized by the presence of gaze signals, depth maps and RGB videos acquired simultaneously with a custom headset. The dataset has been explicitly labeled for fundamental tasks in the context of human behavior understanding from a first person view, such as recognizing and anticipating human-object interactions. With the MECCANO dataset, we explored five different tasks including 1) Action Recognition, 2) Active Objects Detection and Recognition, 3) Egocentric Human-Objects Interaction Detection, 4) Action Anticipation and 5) Next-Active Objects Detection. We propose a benchmark aimed to study human behavior in the considered industrial-like scenario which demonstrates that the investigated tasks and the considered scenario are challenging for state-of-the-art algorithms. To support research in this field, we publicy release the dataset at https://iplab.dmi.unict.it/MECCANO/.
翻訳日:2022-09-20 18:20:39 公開日:2022-09-19
# Actor-Criticアルゴリズムを用いたキャニーエッジ検出のための適応閾値

An Adaptive Threshold for the Canny Edge Detection with Actor-Critic Algorithm ( http://arxiv.org/abs/2209.08699v1 )

ライセンス: Link先を確認
Keong-Hun Choi and Jong-Eun Ha(参考訳) 視覚的監視は、時間と場所に関わらず、堅牢な前景オブジェクト検出を行うことを目的としている。 物体検出は空間情報のみを用いて良好な結果を示すが、視覚的監視における前景物体検出には時間的・空間的情報処理が必要である。 深層学習に基づく前景物体検出アルゴリズムでは、学習に類似した環境下での古典的背景抽出(BGS)アルゴリズムよりも検出能力が優れている。 しかし,学習と異なる環境下では,従来のBGSアルゴリズムよりも性能が低い。 本稿では、時空間ネットワークと空間ネットワークを用いて時空間情報を抽出できる時空間融合ネットワーク(STFN)を提案する。 提案するstfnの安定トレーニングのための半フォアグラウンドマップを用いた手法を提案する。 提案手法は,トレーニングとは異なる環境での優れた性能を示し,各種データセットを用いた実験により示す。 また、STFNは半教師付き方式で準拠した背景画像を生成することができ、GPUを用いてデスクトップ上でリアルタイムに動作させることができる。 提案手法は, LASIESTA および SBI データセットにおける最新の深層学習法よりも 11.28% と 18.33% 高い FM を示す。

Visual surveillance aims to perform robust foreground object detection regardless of the time and place. Object detection shows good results using only spatial information, but foreground object detection in visual surveillance requires proper temporal and spatial information processing. In deep learning-based foreground object detection algorithms, the detection ability is superior to classical background subtraction (BGS) algorithms in an environment similar to training. However, the performance is lower than that of the classical BGS algorithm in the environment different from training. This paper proposes a spatio-temporal fusion network (STFN) that could extract temporal and spatial information using a temporal network and a spatial network. We suggest a method using a semi-foreground map for stable training of the proposed STFN. The proposed algorithm shows excellent performance in an environment different from training, and we show it through experiments with various public datasets. Also, STFN can generate a compliant background image in a semi-supervised method, and it can operate in real-time on a desktop with GPU. The proposed method shows 11.28% and 18.33% higher FM than the latest deep learning method in the LASIESTA and SBI dataset, respectively.
翻訳日:2022-09-20 18:20:21 公開日:2022-09-19
# 密度アウェアnerfアンサンブル:神経放射場における予測不確かさの定量化

Density-aware NeRF Ensembles: Quantifying Predictive Uncertainty in Neural Radiance Fields ( http://arxiv.org/abs/2209.08718v1 )

ライセンス: Link先を確認
Niko S\"underhauf, Jad Abou-Chakra, Dimity Miller(参考訳) 本研究では,密度認識型てんかん不確実性項を考慮した場合,ニューラルレイディアンスフィールド(NeRF)のモデル不確実性を効果的に定量化することを示す。 先行研究で検討されたナイーブアンサンブルは、単純にレンダリングされたRGB画像を平均化し、観察シーンの矛盾した説明によるモデルの不確実性を定量化する。 対照的に,個々の光線に沿った終了確率を考慮し,訓練中に観察できない場面の知識の欠如による認識モデルの不確かさを同定する。 nerfアーキテクチャとトレーニングレジームに複雑な変更を必要とするメソッドを上回って,確立された不確実性定量化ベンチマークをまたいで,新たな最先端性能を実現する。 さらに,nerfの不確かさを,次善の視点選択とモデルリファインメントに活用できることを実証する。

We show that ensembling effectively quantifies model uncertainty in Neural Radiance Fields (NeRFs) if a density-aware epistemic uncertainty term is considered. The naive ensembles investigated in prior work simply average rendered RGB images to quantify the model uncertainty caused by conflicting explanations of the observed scene. In contrast, we additionally consider the termination probabilities along individual rays to identify epistemic model uncertainty due to a lack of knowledge about the parts of a scene unobserved during training. We achieve new state-of-the-art performance across established uncertainty quantification benchmarks for NeRFs, outperforming methods that require complex changes to the NeRF architecture and training regime. We furthermore demonstrate that NeRF uncertainty can be utilised for next-best view selection and model refinement.
翻訳日:2022-09-20 18:19:55 公開日:2022-09-19
# スケーラブルな位置認識のためのコンパクト・地域特化・正規化スパイクニューラルネットワークのアンサンブル

Ensembles of Compact, Region-specific & Regularized Spiking Neural Networks for Scalable Place Recognition ( http://arxiv.org/abs/2209.08723v1 )

ライセンス: Link先を確認
Somayeh Hussaini, Michael Milford and Tobias Fischer(参考訳) スパイクニューラルネットワークは、特殊なハードウェア上での高エネルギー効率のため、ロボット工学において有意義な有用性を持っているが、概念実証の実装は、従来のアプローチによる競争性能や能力の達成が一般的ではない。 本稿では,コンパクトでローカライズされたスパイクネットワークが,それぞれが学習し,環境の局所的な領域のみを認識できるという,新しいモジュール型アンサンブルネットワーク手法を導入することで,スケーラビリティの重要な課題の1つに挑戦する。 このモジュラーアプローチは高度にスケーラブルなシステムを生み出す。 しかし、デプロイ時にグローバルな正規化の欠如が、学習領域外の場所に誤って反応する過活動ニューロンにつながる、高性能なコストが伴う。 第2の貢献は、これらの問題のあるハイパーアクティブニューロンを初期環境学習段階で検出し除去する正規化アプローチの導入である。 nordlandとoxford robotcarのベンチマークローカライズデータセット上で,この新しいスケーラブルなモジュールシステムを評価し,標準技術であるnetvladとsadと,以前のスパイクニューラルネットワークシステムとの比較を行った。 提案方式は,従来のsnnシステムよりも小さなデータセットで大幅に性能が向上するが,従来方式の演算が実現不可能であった27倍のベンチマークデータセットの性能を維持し,従来のローカライズ方式と競合する。

Spiking neural networks have significant potential utility in robotics due to their high energy efficiency on specialized hardware, but proof-of-concept implementations have not yet typically achieved competitive performance or capability with conventional approaches. In this paper, we tackle one of the key practical challenges of scalability by introducing a novel modular ensemble network approach, where compact, localized spiking networks each learn and are solely responsible for recognizing places in a local region of the environment only. This modular approach creates a highly scalable system. However, it comes with a high-performance cost where a lack of global regularization at deployment time leads to hyperactive neurons that erroneously respond to places outside their learned region. Our second contribution introduces a regularization approach that detects and removes these problematic hyperactive neurons during the initial environmental learning phase. We evaluate this new scalable modular system on benchmark localization datasets Nordland and Oxford RobotCar, with comparisons to both standard techniques NetVLAD and SAD, and a previous spiking neural network system. Our system substantially outperforms the previous SNN system on its small dataset, but also maintains performance on 27 times larger benchmark datasets where the operation of the previous system is computationally infeasible, and performs competitively with the conventional localization systems.
翻訳日:2022-09-20 18:19:34 公開日:2022-09-19
# 視覚トランスフォーマーにおける局所的グローバル相互作用のための軸拡大窓

Axially Expanded Windows for Local-Global Interaction in Vision Transformers ( http://arxiv.org/abs/2209.08726v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 Transformer設計の課題は、特に高解像度の視覚タスクにおいて、グローバルな自己注意が計算に非常に高価であることである。 局所的な自己注意は、その効率を向上させるために局所領域内で注意計算を行い、単一の注意層における受容場が十分に大きくない結果、結果としてコンテキストモデリングが不十分になる。 シーンを観察する際、人間は通常、粗い粒度の非注意領域に出席しながら、局所に集中する。 この観察に基づいて, 局所窓内に細粒の自己付着を行い, 水平および垂直軸に粗粒の自己付着を行い, 短距離および長距離の視覚依存性を効果的に捕捉する軸拡大型窓自己付着機構を開発した。

Recently, Transformers have shown promising performance in various vision tasks. A challenging issue in Transformer design is that global self-attention is very expensive to compute, especially for the high-resolution vision tasks. Local self-attention performs attention computation within a local region to improve its efficiency, which leads to their receptive fields in a single attention layer are not large enough, resulting in insufficient context modeling. When observing a scene, humans usually focus on a local region while attending to non-attentional regions at coarse granularity. Based on this observation, we develop the axially expanded window self-attention mechanism that performs fine-grained self-attention within the local window and coarse-grained self-attention in the horizontal and vertical axes, and thus can effectively capturing both short- and long-range visual dependencies.
翻訳日:2022-09-20 18:19:10 公開日:2022-09-19
# 密度対応変換器による統合的特徴とコスト集約

Integrative Feature and Cost Aggregation with Transformers for Dense Correspondence ( http://arxiv.org/abs/2209.08742v1 )

ライセンス: Link先を確認
Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin(参考訳) 我々は高密度通信のための新しいアーキテクチャを提案する。 現在の最先端は、機能記述子とコストボリューム集約の両方に焦点を当てたトランスフォーマティブベースのアプローチである。 しかし、一般的には両者を集約するわけではないが、ジョイントアグリゲーションは、画像の構造的または意味的な情報、あるいはピクセル単位での類似性を欠いた情報を提供することによって相互を増強する。 本研究では,両形態のアグリゲーションを相補的な情報を活用する方法でインターリーブするトランスフォーマーベースのネットワークを提案する。 具体的には,記述子を利用した自己注意層を設計し,ノイズの多いコストボリュームを曖昧にし,またコストボリュームを利用して特徴量を正確なマッチングを促進する。 その後のクロスアテンション層は、両方の画像のディスクリプタに条件付きでさらに集約を行い、前の層の集約出力によって支援される。 階層的な処理によってさらに性能が向上し、より微細なレベルでのサーサーレベルの集約が導かれる。 提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。 設計選択を検証するために、広範囲にわたるアブレーション研究も行われている。

We present a novel architecture for dense correspondence. The current state-of-the-art are Transformer-based approaches that focus on either feature descriptors or cost volume aggregation. However, they generally aggregate one or the other but not both, though joint aggregation would boost each other by providing information that one has but other lacks, i.e., structural or semantic information of an image, or pixel-wise matching similarity. In this work, we propose a novel Transformer-based network that interleaves both forms of aggregations in a way that exploits their complementary information. Specifically, we design a self-attention layer that leverages the descriptor to disambiguate the noisy cost volume and that also utilizes the cost volume to aggregate features in a manner that promotes accurate matching. A subsequent cross-attention layer performs further aggregation conditioned on the descriptors of both images and aided by the aggregated outputs of earlier layers. We further boost the performance with hierarchical processing, in which coarser level aggregations guide those at finer levels. We evaluate the effectiveness of the proposed method on dense matching tasks and achieve state-of-the-art performance on all the major benchmarks. Extensive ablation studies are also provided to validate our design choices.
翻訳日:2022-09-20 18:18:53 公開日:2022-09-19
# 自己監督型単眼深度推定におけるロバストなクロスビュー整合性について

On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2209.08747v1 )

ライセンス: Link先を確認
Haimei Zhao, Jing Zhang, Zhuo Chen, Bo Yuan, Dacheng Tao(参考訳) 自己教師付き単眼深度推定(ss-mde)では、フォトメトリック一貫性や3dポイントクラウド一貫性など、ビュー間の一貫性を探求することで顕著な進歩を遂げている。 しかし、照明のばらつき、オクルージョン、テクスチャのない領域、そして動く物体に対して非常に脆弱であり、様々なシーンを扱うのに十分な頑丈ではない。 この課題に対処するため,本稿では2種類の堅牢なクロスビュー一貫性について検討する。 第一に、隣接するフレーム間の空間オフセットフィールドは、変形可能なアライメントにより、隣接するフレームから参照フレームを再構成し、Depth Feature Alignment(DFA)ロスを介して時間深度特徴を整列させる。 次に、各基準フレームとその近傍フレームの3次元点雲を計算してボクセル空間に変換し、各ボクセル内の点密度をボクセル密度アライメント(vda)損失により算出してアライメントする。 このように、深度特徴空間と3次元ボクセル空間の両方の時間的コヒーレンスをss-mdeで活用し、"point-to-point"アライメントパラダイムを"region-to-region"にシフトする。 光度一貫性の損失や剛性点雲のアライメントの損失と比較すると、提案されたdfaとvdaの損失は、前述の課題に対するボクセル密度の高い耐性に加えて、深い特徴の強い表現力によってより頑健である。 いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。 広範囲なアブレーション研究と分析は、特に挑戦的な場面において、提案された損失の有効性を検証する。 コードとモデルはhttps://github.com/sunnyhelen/rcvc-depthで入手できる。

Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulnerable to illumination variance, occlusions, texture-less regions, as well as moving objects, making them not robust enough to deal with various scenes. To address this challenge, we study two kinds of robust cross-view consistency in this paper. Firstly, the spatial offset field between adjacent frames is obtained by reconstructing the reference frame from its neighbors via deformable alignment, which is used to align the temporal depth features via a Depth Feature Alignment (DFA) loss. Secondly, the 3D point clouds of each reference frame and its nearby frames are calculated and transformed into voxel space, where the point density in each voxel is calculated and aligned via a Voxel Density Alignment (VDA) loss. In this way, we exploit the temporal coherence in both depth feature space and 3D voxel space for SS-MDE, shifting the "point-to-point" alignment paradigm to the "region-to-region" one. Compared with the photometric consistency loss as well as the rigid point cloud alignment loss, the proposed DFA and VDA losses are more robust owing to the strong representation power of deep features as well as the high tolerance of voxel density to the aforementioned challenges. Experimental results on several outdoor benchmarks show that our method outperforms current state-of-the-art techniques. Extensive ablation study and analysis validate the effectiveness of the proposed losses, especially in challenging scenes. The code and models are available at https://github.com/sunnyHelen/RCVC-depth.
翻訳日:2022-09-20 18:18:31 公開日:2022-09-19
# ウサギの穴に点灯するLED : バイオメディカル多文書要約における世界的注目の可能性を探る

LED down the rabbit hole: exploring the potential of global attention for biomedical multi-document summarisation ( http://arxiv.org/abs/2209.08698v1 )

ライセンス: Link先を確認
Yulia Otmakhova, Hung Thinh Truong, Timothy Baldwin, Trevor Cohn, Karin Verspoor, Jey Han Lau(参考訳) 本稿では,mslr(multidocument summarisation for literature review)共有タスクへの提案について報告する。 具体的には, 生物医学領域にプライマーラ(xiao et al., 2022)を適応させ, 重要な生物医学的実体にグローバルに注目する。 得られた23モデルのアウトプットを分析し,追加のグローバル注意の有無,トレーニングステップ数,入力構成に関する結果のパターンを報告する。

In this paper we report on our submission to the Multidocument Summarisation for Literature Review (MSLR) shared task. Specifically, we adapt PRIMERA (Xiao et al., 2022) to the biomedical domain by placing global attention on important biomedical entities in several ways. We analyse the outputs of the 23 resulting models, and report patterns in the results related to the presence of additional global attention, number of training steps, and the input configuration.
翻訳日:2022-09-20 17:44:36 公開日:2022-09-19
# タスク指向対話のための自動回帰エンティティ生成

Autoregressive Entity Generation for End-to-End Task-Oriented Dialog ( http://arxiv.org/abs/2209.08708v1 )

ライセンス: Link先を確認
Guanhuan Huang, Xiaojun Quan, and Qifan Wang(参考訳) タスク指向ダイアログ(TOD)システムは、応答生成をサポートするために必要なエンティティ(レストランなど)情報を取得するために、外部知識ベースとのインタラクションを必要とすることが多い。 現在のほとんどのTODシステムはKB情報を明示的に取得するか、暗黙的なアクセスのためにモデルパラメータに埋め込む。 前者のアプローチでは、各ターンの応答生成でKBをスキャンする必要があるが、KBがスケールアップすると非効率になるため、後者のアプローチは柔軟性と効率性が向上する。 いずれのアプローチでも、システムは矛盾するエンティティ情報に応答する。 この問題に対処するために,まずエンティティを自己回帰的に生成し,エンドツーエンドシステムにおける応答生成のガイドとして利用する。 エンティティの一貫性を確保するため、エンティティ生成にトリエ制約を課します。 また,エンドツーエンドトレーニングのための勾配バックプロパゲーションを容易にするロジット結合戦略を導入する。 MultiWOZ 2.1 シングルと CAMREST の実験により,我々のシステムはより高品質でエンティティ一貫性のある応答を生成可能であることが示された。

Task-oriented dialog (TOD) systems often require interaction with an external knowledge base to retrieve necessary entity (e.g., restaurant) information to support the response generation. Most current end-to-end TOD systems either retrieve the KB information explicitly or embed it into model parameters for implicit access.~While the former approach demands scanning the KB at each turn of response generation, which is inefficient when the KB scales up, the latter approach shows higher flexibility and efficiency. In either approach, the systems may generate a response with conflicting entity information. To address this issue, we propose to generate the entity autoregressively first and leverage it to guide the response generation in an end-to-end system. To ensure entity consistency, we impose a trie constraint on entity generation. We also introduce a logit concatenation strategy to facilitate gradient backpropagation for end-to-end training. Experiments on MultiWOZ 2.1 single and CAMREST show that our system can generate more high-quality and entity-consistent responses.
翻訳日:2022-09-20 17:44:25 公開日:2022-09-19
# 近距離ニューラルマシン翻訳のための学習分離検索表現

Learning Decoupled Retrieval Representation for Nearest Neighbour Neural Machine Translation ( http://arxiv.org/abs/2209.08738v1 )

ライセンス: Link先を確認
Qiang Wang, Rongxiang Weng, Ming Chen(参考訳) K-Nearest Neighbor Neural Machine Translation (kNN-MT)は、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。 一般的に、kNN-MTは、最後のデコーダ層の出力を検索タスクのクエリベクトルとして、翻訳タスクのオフ・ザ・シェルフコンテキスト表現を借用する。 本稿では,これら2つのタスクの表現の結合が,きめ細かい検索に最適であることを示す。 これを軽減するために,教師付きコントラスト学習を活用し,元の文脈表現から派生した特徴的検索表現を学習する。 また, 強陰性試料の迅速かつ効率的な構築法を提案する。 5領域の実験結果から,vailla knn-mtと比較して検索精度とbleuスコアが向上した。

K-Nearest Neighbor Neural Machine Translation (kNN-MT) successfully incorporates external corpus by retrieving word-level representations at test time. Generally, kNN-MT borrows the off-the-shelf context representation in the translation task, e.g., the output of the last decoder layer, as the query vector of the retrieval task. In this work, we highlight that coupling the representations of these two tasks is sub-optimal for fine-grained retrieval. To alleviate it, we leverage supervised contrastive learning to learn the distinctive retrieval representation derived from the original context representation. We also propose a fast and effective approach to constructing hard negative samples. Experimental results on five domains show that our approach improves the retrieval accuracy and BLEU score compared to vanilla kNN-MT.
翻訳日:2022-09-20 17:44:08 公開日:2022-09-19
# テキストのみの入力に事前学習した視覚・言語モデルを適用するには?

How to Adapt Pre-trained Vision-and-Language Models to a Text-only Input? ( http://arxiv.org/abs/2209.08982v1 )

ライセンス: Link先を確認
Lovisa Hagstr\"om, Richard Johansson(参考訳) 現在の言語モデルは、単語とその意味を結びつけることなく、テキストから言語を学ぶことで批判されている。 その結果,相互接続の欠如を解消し,より優れた言語理解モデルを構築する方法として,マルチモーダルトレーニングが提案されている。 我々は、言語理解能力にすでにいくつかの結果がある事前訓練されたマルチモーダル・ビジョン・アンド・ランゲージ(VL)モデルに焦点を当てる。 しかし、これらのモデルの言語能力を評価する際の未解決の問題は、不確実性のないテキストのみの入力にそれらを適用するための確立された方法がないことである。 そこで本研究では,3種類の事前学習VLモデルをテキストのみの入力に適応させる7つの方法について検討・比較する。 GLUEとVisual Property Norms(VPN)の評価は、VLモデルをゼロショットのテキストのみのタスクに適応させるのに対して、モデルは非ゼロショットのタスクに適応する方法に敏感でないことを示す。 また, 適応法は異なるモデルに対して異なる性能を示し, 適応によらず, 単調モデルがVLモデルと同等に動作し, 現行のVLモデルは, マルチモーダルトレーニングによる言語理解を必ずしも得られないことを示す。

Current language models have been criticised for learning language from text alone without connection between words and their meaning. Consequently, multimodal training has been proposed as a way for creating models with better language understanding by providing the lacking connection. We focus on pre-trained multimodal vision-and-language (VL) models for which there already are some results on their language understanding capabilities. An unresolved issue with evaluating the linguistic skills of these models, however, is that there is no established method for adapting them to text-only input without out-of-distribution uncertainty. To find the best approach, we investigate and compare seven possible methods for adapting three different pre-trained VL models to text-only input. Our evaluations on both GLUE and Visual Property Norms (VPN) show that care should be put into adapting VL models to zero-shot text-only tasks, while the models are less sensitive to how we adapt them to non-zero-shot tasks. We also find that the adaptation methods perform differently for different models and that unimodal model counterparts perform on par with the VL models regardless of adaptation, indicating that current VL models do not necessarily gain better language understanding from their multimodal training.
翻訳日:2022-09-20 17:43:53 公開日:2022-09-19
# 対話理解のための意味に基づく事前学習

Semantic-based Pre-training for Dialogue Understanding ( http://arxiv.org/abs/2209.09146v1 )

ライセンス: Link先を確認
Xuefeng Bai, Linfeng Song, Yue Zhang(参考訳) 事前訓練された言語モデルは対話タスクに大きな進歩をもたらした。 しかしながら、これらのモデルは通常、表面対話テキストで訓練されるため、対話コンテキストの主意味を理解するのに弱いことが証明されている。 本研究では,事前学習モデルのための明示的な意味知識としての抽象的意味表現(amr)について検討し,対話の核となる意味情報を取り込む。 特に,3つの学習課題による標準事前学習フレームワーク(Devlin et al., 2019)を拡張した意味ベース事前学習フレームワークを提案する。 1) コア・セマンティック・ユニット 2)意味的関係 3)AMRグラフによる全体的な意味表現。 チャットとタスク指向対話の両方の理解実験は、我々のモデルの優位性を示している。 我々の知る限りでは、対話事前学習に深層意味表現を利用するのは初めてである。

Pre-trained language models have made great progress on dialogue tasks. However, these models are typically trained on surface dialogue text, thus are proven to be weak in understanding the main semantic meaning of a dialogue context. We investigate Abstract Meaning Representation (AMR) as explicit semantic knowledge for pre-training models to capture the core semantic information in dialogues during pre-training. In particular, we propose a semantic-based pre-training framework that extends the standard pre-training framework (Devlin et al., 2019) by three tasks for learning 1) core semantic units, 2) semantic relations and 3) the overall semantic representation according to AMR graphs. Experiments on the understanding of both chit-chats and task-oriented dialogues show the superiority of our model. To our knowledge, we are the first to leverage a deep semantic representation for dialogue pre-training.
翻訳日:2022-09-20 17:43:28 公開日:2022-09-19
# 解集合プログラミングにおける非単調領域特異的宣言的ヒューリスティックの特定と展開

Specifying and Exploiting Non-Monotonic Domain-Specific Declarative Heuristics in Answer Set Programming ( http://arxiv.org/abs/2209.09066v1 )

ライセンス: Link先を確認
Richard Comploi-Taupe and Gerhard Friedrich and Konstantin Schekotihin and Antonius Weinzierl(参考訳) ドメイン固有ヒューリスティックスは組合せ問題を効率的に解くための重要な技術である。 ドメイン固有のヒューリスティックをAnswer Set Programming (ASP)と統合する現在のアプローチは、部分的な割り当てに基づいて非単調に指定されるヒューリスティックを扱うときに不満足である。 このようなヒューリスティックは、例えば、まだビンパッキングに置かれていないアイテムを選ぶ際に、しばしば発生する。 そこで、ASP.NETにおけるドメイン固有ヒューリスティックスの宣言的仕様に関する新しい構文とセマンティクスを提案する。 提案手法は,これまで不可能であった問題解決時に維持される部分的割り当てに依存するヒューリスティックな文を支持する。 ALPHAは宣言的に指定されたドメイン固有ヒューリスティックをサポートする最初の遅延グラウンドASPシステムである。 提案のメリットを示すために,2つの実例ドメインが使用される。 さらに、当社のアプローチを使って、初めてASP内で取り組まれているA*によるインフォメーション検索を実装しています。 A*は2つのさらなる探索問題に適用される。 実験により, 遅延解法と新しいヒューリスティックスを組み合わせることは, 産業規模の問題解決に不可欠であることが確認された。

Domain-specific heuristics are an essential technique for solving combinatorial problems efficiently. Current approaches to integrate domain-specific heuristics with Answer Set Programming (ASP) are unsatisfactory when dealing with heuristics that are specified non-monotonically on the basis of partial assignments. Such heuristics frequently occur in practice, for example, when picking an item that has not yet been placed in bin packing. Therefore, we present novel syntax and semantics for declarative specifications of domain-specific heuristics in ASP. Our approach supports heuristic statements that depend on the partial assignment maintained during solving, which has not been possible before. We provide an implementation in ALPHA that makes ALPHA the first lazy-grounding ASP system to support declaratively specified domain-specific heuristics. Two practical example domains are used to demonstrate the benefits of our proposal. Additionally, we use our approach to implement informed} search with A*, which is tackled within ASP for the first time. A* is applied to two further search problems. The experiments confirm that combining lazy-grounding ASP solving and our novel heuristics can be vital for solving industrial-size problems.
翻訳日:2022-09-20 17:43:04 公開日:2022-09-19
# Keypoint-GraspNet:単分子RGB-D入力からのKeypoint-based 6-DoF Grasp生成

Keypoint-GraspNet: Keypoint-based 6-DoF Grasp Generation from the Monocular RGB-D input ( http://arxiv.org/abs/2209.08752v1 )

ライセンス: Link先を確認
Yiye Chen, Yunzhi Lin, Patricio Vela(参考訳) ポイントクラウド入力からの6自由度把握学習では大きな成功を収めているが、ポイントセットの無秩序による計算コストは依然として懸念されている。 また,本論文では,RGB-D入力のグリップ生成について検討する。 提案する解であるkeypoint-graspnetは、画像空間におけるグリッパーキーポイントの投影を検出し、pnpアルゴリズムを用いてse(3)のポーズを復元する。 原始的な形状と把握家族に基づく合成データセットを構築し,そのアイデアを検証した。 定量的評価の結果,提案手法の精度,多様性,時間的コストの把握において,提案手法がベースラインを上回っていることが判明した。 最後に、ロボット実験は高い成功率を示し、現実世界の応用におけるアイデアの可能性を示す。

Great success has been achieved in the 6-DoF grasp learning from the point cloud input, yet the computational cost due to the point set orderlessness remains a concern. Alternatively, we explore the grasp generation from the RGB-D input in this paper. The proposed solution, Keypoint-GraspNet, detects the projection of the gripper keypoints in the image space and then recover the SE(3) poses with a PnP algorithm. A synthetic dataset based on the primitive shape and the grasp family is constructed to examine our idea. Metric-based evaluation reveals that our method outperforms the baselines in terms of the grasp proposal accuracy, diversity, and the time cost. Finally, robot experiments show high success rate, demonstrating the potential of the idea in the real-world applications.
翻訳日:2022-09-20 17:36:44 公開日:2022-09-19
# 先行した深部変化:クリーンデータのない共同画像のノイズ評価とノイズ分散推定

Deep Variation Prior: Joint Image Denoising and Noise Variance Estimation without Clean Data ( http://arxiv.org/abs/2209.09214v1 )

ライセンス: Link先を確認
Rihuan Ke(参考訳) 画像からのノイズ除去に有望な結果を示す最近のディープラーニングベースのアプローチでは、トレーニングに大量のペアのノイズ画像と基底真理を必要とする教師付き学習セットアップにおいて、最高のノイズ除去性能が報告されている。 教師なし学習技術によって強いデータ要求を軽減できるが、高品質なソリューションには画像の正確なモデリングやノイズ分散が依然として不可欠である。 学習問題は未知の雑音分布に悪影響を及ぼす。 本稿では,単一学習フレームワークにおける画像の分節化と雑音分散推定の課題について検討する。 問題の不適切性に対処するために,ノイズの変化に対する適切に学習されたデノイザーの変動が,良きデノワにとって重要な基準として,いくつかの滑らかさ特性を満たすことを示す,dvp(deep variation prior)を提案する。 教師なしのディープラーニングフレームワークであるDVP上に構築され,デノイザを同時に学習し,ノイズ分散を推定する。 提案手法では, クリーンなトレーニング画像やノイズ推定の外部ステップは必要とせず, 雑音画像のセットのみを用いて, 最小平均二乗誤差デノイザを近似する。 2つの基本的なタスクがひとつのフレームワークで検討されているため、相互に最適化することが可能です。 実験の結果,教師付き学習と正確な雑音分散推定とに匹敵する雑音品質を示す。

With recent deep learning based approaches showing promising results in removing noise from images, the best denoising performance has been reported in a supervised learning setup that requires a large set of paired noisy images and ground truth for training. The strong data requirement can be mitigated by unsupervised learning techniques, however, accurate modelling of images or noise variance is still crucial for high-quality solutions. The learning problem is ill-posed for unknown noise distributions. This paper investigates the tasks of image denoising and noise variance estimation in a single, joint learning framework. To address the ill-posedness of the problem, we present deep variation prior (DVP), which states that the variation of a properly learnt denoiser with respect to the change of noise satisfies some smoothness properties, as a key criterion for good denoisers. Building upon DVP, an unsupervised deep learning framework, that simultaneously learns a denoiser and estimates noise variances, is developed. Our method does not require any clean training images or an external step of noise estimation, and instead, approximates the minimum mean squared error denoisers using only a set of noisy images. With the two underlying tasks being considered in a single framework, we allow them to be optimised for each other. The experimental results show a denoising quality comparable to that of supervised learning and accurate noise variance estimates.
翻訳日:2022-09-20 17:36:12 公開日:2022-09-19
# 半有限計画法による最小二乗極小クラスタリングのグローバル最適化

Global Optimization for Cardinality-constrained Minimum Sum-of-Squares Clustering via Semidefinite Programming ( http://arxiv.org/abs/2209.08901v1 )

ライセンス: Link先を確認
Veronica Piccialli, Antonio M. Sudoso(参考訳) 最小二乗クラスタリング(MSSC)あるいはk平均型クラスタリング(k平均型クラスタリング)は、最近、各クラスタの濃度に関する事前知識を活用するために拡張されている。 このような知識は、ソリューションの品質だけでなく、パフォーマンスを向上させるためにも使われます。 本稿では, 分岐切断法に基づく高精度な手法を提案し, 濃度制約付きMSSCの解法を提案する。 下界ルーチンに対しては、最近Rujeerapaiboonらによって提案された半定値プログラミング(SDP)緩和を用いる。 [SIAM J. Optim. 29(2), 1211-1239, (2019)] しかし、この緩和は小規模インスタンスのみにブランチ・アンド・カット法で使用できる。 そこで,本研究では,インスタンスサイズやクラスタ数に応じて拡張可能な新しいSDP緩和法を提案する。 いずれの場合も多面体切断を加えることで境界を強化する。 相互に制約を課す分枝戦略に適合して、子どものノードに生じる問題の複雑さを軽減します。 上界に対しては,各ノードで解いたSDP緩和解を利用した局所探索手法を提案する。 計算結果によると,提案アルゴリズムは,最先端の正確な手法で解かれたものよりも10倍の大きさの実世界のインスタンスを,初めてグローバルに解いた。

The minimum sum-of-squares clustering (MSSC), or k-means type clustering, has been recently extended to exploit prior knowledge on the cardinality of each cluster. Such knowledge is used to increase performance as well as solution quality. In this paper, we propose an exact approach based on the branch-and-cut technique to solve the cardinality-constrained MSSC. For the lower bound routine, we use the semidefinite programming (SDP) relaxation recently proposed by Rujeerapaiboon et al. [SIAM J. Optim. 29(2), 1211-1239, (2019)]. However, this relaxation can be used in a branch-and-cut method only for small-size instances. Therefore, we derive a new SDP relaxation that scales better with the instance size and the number of clusters. In both cases, we strengthen the bound by adding polyhedral cuts. Benefiting from a tailored branching strategy which enforces pairwise constraints, we reduce the complexity of the problems arising in the children nodes. For the upper bound, instead, we present a local search procedure that exploits the solution of the SDP relaxation solved at each node. Computational results show that the proposed algorithm globally solves, for the first time, real-world instances of size 10 times larger than those solved by state-of-the-art exact methods.
翻訳日:2022-09-20 17:28:09 公開日:2022-09-19
# トポロジカルデータ解析に基づくウエハ欠陥パターン分類の新しい手法

A novel approach for wafer defect pattern classification based on topological data analysis ( http://arxiv.org/abs/2209.08945v1 )

ライセンス: Link先を確認
Seungchan Ko and Dowan Koo(参考訳) 半導体製造において、ウェーハマップ欠陥パターンは設備の維持と収量管理に重要な情報を提供するため、欠陥パターンの分類は製造プロセスにおいて最も重要なタスクの1つである。 本稿では,欠陥パターンの形状を有限次元ベクトルとして表現する新しい手法を提案する。 主な考え方は、トポロジデータ解析(TDA)から永続ホモロジーの理論を用いて、各パターンの位相的特徴を抽出することである。 シミュレーションデータセットを用いたいくつかの実験により、ウェハマップ欠陥パターン分類の最も一般的なアプローチである畳み込みニューラルネットワーク(CNN)を用いた手法と比較して、提案手法はより高速で精度の高いトレーニングを行うことができることを示した。 さらに,トレーニングデータの数が不十分で不均衡な場合,本手法はCNN法よりも優れる。

In semiconductor manufacturing, wafer map defect pattern provides critical information for facility maintenance and yield management, so the classification of defect patterns is one of the most important tasks in the manufacturing process. In this paper, we propose a novel way to represent the shape of the defect pattern as a finite-dimensional vector, which will be used as an input for a neural network algorithm for classification. The main idea is to extract the topological features of each pattern by using the theory of persistent homology from topological data analysis (TDA). Through some experiments with a simulated dataset, we show that the proposed method is faster and much more efficient in training with higher accuracy, compared with the method using convolutional neural networks (CNN) which is the most common approach for wafer map defect pattern classification. Moreover, our method outperforms the CNN-based method when the number of training data is not enough and is imbalanced.
翻訳日:2022-09-20 17:27:49 公開日:2022-09-19
# 圧縮センシングと距離メトリック学習を用いた磁気共鳴フィンガープリント

Magnetic Resonance Fingerprinting with compressed sensing and distance metric learning ( http://arxiv.org/abs/2209.08734v1 )

ライセンス: Link先を確認
Zhe Wang, Hongsheng Li, Qinwei Zhang, Jing Yuan, Xiaogang Wang(参考訳) MRF(Magnetic Resonance Fingerprinting)は、縦緩和時間T1、横緩和時間T2、共鳴周波数B0、陽子密度などの複数の組織関連パラメータを、走査された物体からほんの数秒で同時に推定する新しい技術である。 しかし, MRF法は, k空間データを著しくアンサンプするため, アーティファクトのエイリアスに悩まされる。 本研究では,MDF法に基づく複数の組織関連パラメータを同時に推定する圧縮センシング(CS)フレームワークを提案する。 低サンプリング比に対してより堅牢であるため、オブジェクトのすべてのボクセルに対してMRパラメータを推定する上でより効率的である。 さらに,MRF法では,MR信号進化辞書から検索指紋の最も近い原子をL2距離で同定する必要がある。 しかし, MRフィンガープリントの類似度を測定するためにL2距離が必ずしも適切な距離であるとは限らない。 アンサンプリングされたトレーニングデータから距離メトリックを適応的に学習することで、クエリ指紋のマッチング精度が大幅に向上する。 その結果,本手法はパラメータ推定の精度において最先端手法を実質的に上回っていることがわかった。

Magnetic Resonance Fingerprinting (MRF) is a novel technique that simultaneously estimates multiple tissue-related parameters, such as the longitudinal relaxation time T1, the transverse relaxation time T2, off resonance frequency B0 and proton density, from a scanned object in just tens of seconds. However, the MRF method suffers from aliasing artifacts because it significantly undersamples the k-space data. In this work, we propose a compressed sensing (CS) framework for simultaneously estimating multiple tissue-related parameters based on the MRF method. It is more robust to low sampling ratio and is therefore more efficient in estimating MR parameters for all voxels of an object. Furthermore, the MRF method requires identifying the nearest atoms of the query fingerprints from the MR-signal-evolution dictionary with the L2 distance. However, we observed that the L2 distance is not always a proper metric to measure the similarities between MR Fingerprints. Adaptively learning a distance metric from the undersampled training data can significantly improve the matching accuracy of the query fingerprints. Numerical results on extensive simulated cases show that our method substantially outperforms stateof-the-art methods in terms of accuracy of parameter estimation.
翻訳日:2022-09-20 17:24:54 公開日:2022-09-19
# コスト有効フィッシング検出のための深層強化学習の転送可能・自動チューニング

A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection ( http://arxiv.org/abs/2209.09033v1 )

ライセンス: Link先を確認
Orel Lavie, Asaf Shabtai, Gilad Katz(参考訳) 実世界の課題の多くは、許容できるパフォーマンスレベルに達するために複数の補完学習モデルをアンサンブルで展開する必要がある。 効果はあるものの、すべてのサンプルに全アンサンブルを適用するのは費用がかかり、しばしば不要である。 Deep Reinforcement Learning (DRL)は、前任者の出力に基づいて検出器を動的に選択し、その有用性はその計算コストに対して重み付けされる。 これらの可能性にもかかわらず、DRLベースのソリューションは、新しいタスクごとに報酬関数を設定するのが難しいこと、データの変更に対するDRLエージェントの予測不可能な反応、アルゴリズムのパフォーマンスを導くのに共通のパフォーマンス指標(例えばTPR/FPR)を使用することができないことなど、この能力では広く使われていない。 本研究では,DRLに基づくポリシーを微調整・校正し,複数の性能目標を達成する手法を提案する。 さらに,あるデータセットから別のデータセットへ効果的なセキュリティポリシーを転送する手法を提案する。 最後に、我々のアプローチは敵攻撃に対して非常に堅牢であることを示す。

Many challenging real-world problems require the deployment of ensembles multiple complementary learning models to reach acceptable performance levels. While effective, applying the entire ensemble to every sample is costly and often unnecessary. Deep Reinforcement Learning (DRL) offers a cost-effective alternative, where detectors are dynamically chosen based on the output of their predecessors, with their usefulness weighted against their computational cost. Despite their potential, DRL-based solutions are not widely used in this capacity, partly due to the difficulties in configuring the reward function for each new task, the unpredictable reactions of the DRL agent to changes in the data, and the inability to use common performance metrics (e.g., TPR/FPR) to guide the algorithm's performance. In this study we propose methods for fine-tuning and calibrating DRL-based policies so that they can meet multiple performance goals. Moreover, we present a method for transferring effective security policies from one dataset to another. Finally, we demonstrate that our approach is highly robust against adversarial attacks.
翻訳日:2022-09-20 17:17:59 公開日:2022-09-19
# MSVIPER:強化学習型ロボットナビゲーションのための政策蒸留の改善

MSVIPER: Improved Policy Distillation for Reinforcement-Learning-Based Robot Navigation ( http://arxiv.org/abs/2209.09079v1 )

ライセンス: Link先を確認
Aaron M. Roth, Jing Liang, Ram Sriram, Elham Tabassi, and Dinesh Manocha(参考訳) 本稿では,ロボットナビゲーションの改善を目的とした決定木に対する政策蒸留法であるMSVIPER(Multiple Scenario Verifiable Reinforcement Learning via Policy extract)を提案する。 MSVIPERは、状態-行動マッピングの学習を含む強化学習(RL)技術を用いて「専門家」ポリシーを学び、それから模倣学習を使用して意思決定ツリーポリシーを学習する。 我々は、MSVIPERが効率的な決定木となり、専門家ポリシーの振る舞いを正確に模倣できることを実証する。 さらに,決定木構造を生かした効率的な方針蒸留とツリー修正技術により,再訓練を行わずに方針改善が可能となる。 本手法は,屋内および屋外のシーンにおけるrlロボットナビゲーションアルゴリズムの性能向上に活用する。 本研究は, 移動ロボットの動的障害物間移動における凍結・振動挙動の低減(最大95%削減)と, 複雑で不均一な地形での屋外ロボットナビゲーションにおける振動・振動の低減(最大17%削減)の利点を実証する。

We present Multiple Scenario Verifiable Reinforcement Learning via Policy Extraction (MSVIPER), a new method for policy distillation to decision trees for improved robot navigation. MSVIPER learns an "expert" policy using any Reinforcement Learning (RL) technique involving learning a state-action mapping and then uses imitation learning to learn a decision-tree policy from it. We demonstrate that MSVIPER results in efficient decision trees and can accurately mimic the behavior of the expert policy. Moreover, we present efficient policy distillation and tree-modification techniques that take advantage of the decision tree structure to allow improvements to a policy without retraining. We use our approach to improve the performance of RL-based robot navigation algorithms for indoor and outdoor scenes. We demonstrate the benefits in terms of reduced freezing and oscillation behaviors (by up to 95\% reduction) for mobile robots navigating among dynamic obstacles and reduced vibrations and oscillation (by up to 17\%) for outdoor robot navigation on complex, uneven terrains.
翻訳日:2022-09-20 17:17:40 公開日:2022-09-19
# TimberTrek: インタラクティブな可視化によるスパース決定ツリーの探索とキュレーション

TimberTrek: Exploring and Curating Sparse Decision Trees with Interactive Visualization ( http://arxiv.org/abs/2209.09227v1 )

ライセンス: Link先を確認
Zijie J. Wang, Chudi Zhong, Rui Xin, Takuya Takagi, Zhi Chen, Duen Horng Chau, Cynthia Rudin, Margo Seltzer(参考訳) 均等に正確な機械学習(ml)モデルが何千もあるので、ユーザはどのように選べますか? 最近のML技術により、ドメインの専門家とデータサイエンティストは、スパース決定ツリーのための完全なRashomonセットを生成することができる。 ML実践者がこのRashomonセットから望ましい特性を持つモデルを特定するのを助けるために,数千のスパースな決定木を大規模に要約した最初のインタラクティブな可視化システムであるTimberTrekを開発した。 timbertrekの2つのシナリオは、ユーザがドメインの知識と価値に合致するモデルを簡単に探求し、比較し、キュレートする上で、どのように役立つかを強調する。 私たちのオープンソースツールは、ユーザの計算ノートブックやWebブラウザで直接動作するので、より責任のあるMLモデルを作成するための障壁を低くします。 timbertrekは以下の公開デモリンクで利用可能である。

Given thousands of equally accurate machine learning (ML) models, how can users choose among them? A recent ML technique enables domain experts and data scientists to generate a complete Rashomon set for sparse decision trees--a huge set of almost-optimal interpretable ML models. To help ML practitioners identify models with desirable properties from this Rashomon set, we develop TimberTrek, the first interactive visualization system that summarizes thousands of sparse decision trees at scale. Two usage scenarios highlight how TimberTrek can empower users to easily explore, compare, and curate models that align with their domain knowledge and values. Our open-source tool runs directly in users' computational notebooks and web browsers, lowering the barrier to creating more responsible ML models. TimberTrek is available at the following public demo link: https://poloclub.github.io/timbertrek.
翻訳日:2022-09-20 17:17:23 公開日:2022-09-19
# グラフ上のヘテロジニアスフェデレーション学習

Heterogeneous Federated Learning on a Graph ( http://arxiv.org/abs/2209.08737v1 )

ライセンス: Link先を確認
Huiyuan Wang and Xuyang Zhao and Wei Lin(参考訳) ローカルデータを共有せずに、複数の分散デバイスでアルゴリズムをトレーニングするフェデレーション学習は、分散機械学習プラクティスでますます人気を集めている。 通常、グラフ構造$G$は通信用のローカルデバイスの後ろに存在する。 本研究では,データ分散と通信の不均質性を伴うフェデレーション学習におけるパラメータ推定と,ローカルデバイスの計算能力の制限について検討する。 局所デバイス上の分布を異なる$p$次元ベクトルの集合でパラメータ化することにより分布の不均一性を符号化する。 次に,ラッソ正規化を融合した$m$-estimationフレームワークの下で,全デバイスのパラメータを共同で推定し,接続デバイス上でのパラメータを$g$で同等に見積もることを提案する。 我々は、様々な特定の問題設定に対する収束率を得るためにさらに校正できる$G$に依存する推定器の一般的な結果を提供する。 驚いたことに、我々の推定器は、同じ分布を共有する全てのサンプルを集約できるかのように、G$のグラフ忠実度条件の下で最適な速度を達成する。 グラフの忠実度条件が満たされない場合、最適性を確保するために複数のテストによるエッジ選択手順を提案する。 局所計算の負担を軽減するため、admmの分散確率バージョンが提供され、ここで$t$が反復数を表す収束レート$o(t^{-1}\log t)$が与えられる。 このアルゴリズムでは,プライバシを保存する中央マシンを必要とせず,各イテレーションでG$のエッジに沿ってのみパラメータを送信する。 さらに、トレーニングプロセス中にデバイスがランダムにアクセスできない場合にまで拡張し、同様のアルゴリズムによる収束を保証する。 本手法の計算と統計的効率はシミュレーション実験と2020年アメリカ合衆国大統領選挙のデータセットによって実証されている。

Federated learning, where algorithms are trained across multiple decentralized devices without sharing local data, is increasingly popular in distributed machine learning practice. Typically, a graph structure $G$ exists behind local devices for communication. In this work, we consider parameter estimation in federated learning with data distribution and communication heterogeneity, as well as limited computational capacity of local devices. We encode the distribution heterogeneity by parametrizing distributions on local devices with a set of distinct $p$-dimensional vectors. We then propose to jointly estimate parameters of all devices under the $M$-estimation framework with the fused Lasso regularization, encouraging an equal estimate of parameters on connected devices in $G$. We provide a general result for our estimator depending on $G$, which can be further calibrated to obtain convergence rates for various specific problem setups. Surprisingly, our estimator attains the optimal rate under certain graph fidelity condition on $G$, as if we could aggregate all samples sharing the same distribution. If the graph fidelity condition is not met, we propose an edge selection procedure via multiple testing to ensure the optimality. To ease the burden of local computation, a decentralized stochastic version of ADMM is provided, with convergence rate $O(T^{-1}\log T)$ where $T$ denotes the number of iterations. We highlight that, our algorithm transmits only parameters along edges of $G$ at each iteration, without requiring a central machine, which preserves privacy. We further extend it to the case where devices are randomly inaccessible during the training process, with a similar algorithmic convergence guarantee. The computational and statistical efficiency of our method is evidenced by simulation experiments and the 2020 US presidential election data set.
翻訳日:2022-09-20 17:16:00 公開日:2022-09-19
# Systematic Reviews Literature Searchにおける効率的なクエリ定式化のための自動MeSH項の提案

Automated MeSH Term Suggestion for Effective Query Formulation in Systematic Reviews Literature Search ( http://arxiv.org/abs/2209.08687v1 )

ライセンス: Link先を確認
Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon(参考訳) 高品質な医療体系的レビューは、推奨事項と結果が十分に信頼できるように包括的な文献検索を必要とする。 実際、関連する医学文献の検索は、体系的なレビューを構築する上で重要な段階であり、しばしばドメイン(医学研究者)と検索(情報専門家)の専門家が検索クエリの開発に携わる。 このコンテキストのクエリは非常に複雑で、ブール論理に基づいて、標準化された用語(医学的主題の見出し(mesh)シソーラス)からのフリーテキストの用語とインデックスの用語が含まれており、構築が困難で時間がかかります。 特にMeSH用語の使用は,検索結果の質を向上させることが示されている。 しかし、クエリに含める正しいMeSH用語を特定することは難しい。情報専門家は、MeSHデータベースに馴染みがなく、クエリに対するMeSH用語の適切性について不確実であることが多い。 当然、MeSH用語の完全な価値は、しばしば完全に利用されない。 本稿では,自由文語のみを含む初期Booleanクエリに基づいて,MeSH用語を提案する手法について検討する。 この文脈では、語彙および事前学習された言語モデルに基づく手法を考案する。 これらのメソッドは、体系的なレビュークエリに含めるための非常に効果的なMeSH用語を自動的に識別することを約束する。 本研究は,複数のMeSH項提案手法の実証評価に寄与する。 さらに、各メソッドに対するMeSH項の提案と、これらの提案がBooleanクエリの有効性に与える影響を詳細に分析する。

High-quality medical systematic reviews require comprehensive literature searches to ensure the recommendations and outcomes are sufficiently reliable. Indeed, searching for relevant medical literature is a key phase in constructing systematic reviews and often involves domain (medical researchers) and search (information specialists) experts in developing the search queries. Queries in this context are highly complex, based on Boolean logic, include free-text terms and index terms from standardised terminologies (e.g., the Medical Subject Headings (MeSH) thesaurus), and are difficult and time-consuming to build. The use of MeSH terms, in particular, has been shown to improve the quality of the search results. However, identifying the correct MeSH terms to include in a query is difficult: information experts are often unfamiliar with the MeSH database and unsure about the appropriateness of MeSH terms for a query. Naturally, the full value of the MeSH terminology is often not fully exploited. This article investigates methods to suggest MeSH terms based on an initial Boolean query that includes only free-text terms. In this context, we devise lexical and pre-trained language models based methods. These methods promise to automatically identify highly effective MeSH terms for inclusion in a systematic review query. Our study contributes an empirical evaluation of several MeSH term suggestion methods. We further contribute an extensive analysis of MeSH term suggestions for each method and how these suggestions impact the effectiveness of Boolean queries.
翻訳日:2022-09-20 17:08:44 公開日:2022-09-19
# BOME! 双レベル最適化が簡単になった: 単純な一階法アプローチ

BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach ( http://arxiv.org/abs/2209.08709v1 )

ライセンス: Link先を確認
Mao Ye, Bo Liu, Stephen Wright, Peter Stone and Qiang Liu(参考訳) 双レベル最適化(BO)は、ハイパーパラメータ最適化、メタラーニング、連続学習、強化学習など、さまざまな重要な機械学習問題を解決するのに有用である。 従来のBO法は、ヘッセン行列に関する高価な計算を必要とする暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。 近年,BOの1次手法の探求が進んでいるが,提案手法は大規模ディープラーニングアプリケーションでは複雑で実用的ではない傾向にある。 本研究では,一階勾配情報のみに依存し,暗黙的な微分を必要とせず,深層学習における大規模非凸関数に対して実用的かつ効率的な一階ボアルゴリズムを提案する。 提案手法の非漸近収束解析を非凸目的の定常点に適用し,その優れた実用性能を示す実験結果を示す。

Bilevel optimization (BO) is useful for solving a variety of important machine learning problems including but not limited to hyperparameter optimization, meta-learning, continual learning, and reinforcement learning. Conventional BO methods need to differentiate through the low-level optimization process with implicit differentiation, which requires expensive calculations related to the Hessian matrix. There has been a recent quest for first-order methods for BO, but the methods proposed to date tend to be complicated and impractical for large-scale deep learning applications. In this work, we propose a simple first-order BO algorithm that depends only on first-order gradient information, requires no implicit differentiation, and is practical and efficient for large-scale non-convex functions in deep learning. We provide non-asymptotic convergence analysis of the proposed method to stationary points for non-convex objectives and present empirical results that show its superior practical performance.
翻訳日:2022-09-20 17:08:20 公開日:2022-09-19
# AdvDO: 軌道予測のための現実的な敵攻撃

AdvDO: Realistic Adversarial Attacks for Trajectory Prediction ( http://arxiv.org/abs/2209.08744v1 )

ライセンス: Link先を確認
Yulong Cao, Chaowei Xiao, Anima Anandkumar, Danfei Xu, Marco Pavone(参考訳) 軌道予測は、自動運転車(AV)が正しく安全な運転行動を計画するために不可欠である。 多くの先行研究は高い予測精度を達成することを目標としているが、その方法の逆ロバスト性の研究はほとんどない。 このギャップを埋めるため,データ駆動軌道予測システムの逆ロバスト性について検討する。 我々は、慎重に設計された微分可能な動的モデルを利用して、現実的な対向軌道を生成する最適化ベースの対向攻撃フレームワークを考案する。 実験により,最先端予測モデルの対角的堅牢性をベンチマークし,一般指標と計画対応指標の両方の予測誤差を50%以上,37%以上増加させることを示す。 また、当社の攻撃によってAVが道路を走行したり、他の車両に衝突したりできることも示しています。 最後に,敵の訓練方式を用いて,敵の攻撃を緩和する方法を示す。

Trajectory prediction is essential for autonomous vehicles (AVs) to plan correct and safe driving behaviors. While many prior works aim to achieve higher prediction accuracy, few study the adversarial robustness of their methods. To bridge this gap, we propose to study the adversarial robustness of data-driven trajectory prediction systems. We devise an optimization-based adversarial attack framework that leverages a carefully-designed differentiable dynamic model to generate realistic adversarial trajectories. Empirically, we benchmark the adversarial robustness of state-of-the-art prediction models and show that our attack increases the prediction error for both general metrics and planning-aware metrics by more than 50% and 37%. We also show that our attack can lead an AV to drive off road or collide into other vehicles in simulation. Finally, we demonstrate how to mitigate the adversarial attacks using an adversarial training scheme.
翻訳日:2022-09-20 17:08:04 公開日:2022-09-19
# walk-and-relate:スパース知識グラフを用いた表現学習のためのランダムウォークベースアルゴリズム

Walk-and-Relate: A Random-Walk-based Algorithm for Representation Learning on Sparse Knowledge Graphs ( http://arxiv.org/abs/2209.08769v1 )

ライセンス: Link先を確認
Saurav Manchanda(参考訳) 知識グラフ(kg)埋め込み技術は、エンティティ間の構造化された関係を使って、エンティティとリレーションの低次元表現を学ぶ。 従来のKG埋め込み技術(TransEやDistMultなど)は、観測されたKG三重項上で開発された単純なモデルを通してこれらの埋め込みを推定する。 これらのアプローチは三重項スコアリング損失関数が異なる。 これらのモデルは観測された三重項のみを使用して埋め込みを推定するので、実世界の知識グラフで通常発生するデータスパーシティ、すなわちエンティティ当たりの三重項の欠如によって苦しむ傾向がある。 そこで本研究では,データ空間の問題に対処するため,三重項数を増やすための効率的な手法を提案する。 我々はランダムウォークを用いて、ランダムウォークによって誘導されるメタパスを包含する、これら導入された三重項による関係を付加する三重項を生成する。 また,ランダムウォークによって誘導されるメタパスの集合から情報伝達メタパスを高精度かつ効率的に抽出する手法も提案する。 提案したアプローチはモデルに依存しず、拡張トレーニングデータセットは、任意のKG埋め込みアプローチを最初から使用することができる。 ベンチマークデータセットで得られた実験結果は,提案手法の利点を示している。

Knowledge graph (KG) embedding techniques use structured relationships between entities to learn low-dimensional representations of entities and relations. The traditional KG embedding techniques (such as TransE and DistMult) estimate these embeddings via simple models developed over observed KG triplets. These approaches differ in their triplet scoring loss functions. As these models only use the observed triplets to estimate the embeddings, they are prone to suffer through data sparsity that usually occurs in the real-world knowledge graphs, i.e., the lack of enough triplets per entity. To settle this issue, we propose an efficient method to augment the number of triplets to address the problem of data sparsity. We use random walks to create additional triplets, such that the relations carried by these introduced triplets entail the metapath induced by the random walks. We also provide approaches to accurately and efficiently filter out informative metapaths from the possible set of metapaths, induced by the random walks. The proposed approaches are model-agnostic, and the augmented training dataset can be used with any KG embedding approach out of the box. Experimental results obtained on the benchmark datasets show the advantages of the proposed approach.
翻訳日:2022-09-20 17:07:48 公開日:2022-09-19
# 信頼を伴う予測のための2段階モデリング

Two-stage Modeling for Prediction with Confidence ( http://arxiv.org/abs/2209.08848v1 )

ライセンス: Link先を確認
Dangxing Chen(参考訳) ニューラルネットワークの利用は、さまざまなアプリケーションで非常に成功しています。 しかし,近年,分布シフト条件下でニューラルネットワークの性能を一般化することは困難であることが観測されている。 アウト・オブ・ディストリビューションの可能性のある入力を特定するために、いくつかの取り組みがなされている。 既存の文献は画像やテキストデータに関して大きな進歩を遂げているが、財務は見過ごされている。 本研究の目的は、金融の最も重要な応用である信用スコアリング問題の分布変化を調査することである。 ポテンシャル分布シフト問題に対して,新しい二段階モデルを提案する。 out-of-distribution detectionメソッドを使用して、データはまず、自信と自信のないセットに分離される。 第2のステップとして、信頼できないサンプルに対して信頼できる境界を提供するために、平均分散最適化でドメイン知識を利用する。 実験結果を用いて、我々のモデルは、大多数のデータセットに対して信頼できる予測を提供することを示した。 データセットのごく一部に過ぎず、本質的に判断が難しく、人間の判断に委ねられているのです。 2段階モデルに基づいて、高い信頼性の予測が行われ、モデルに関連する潜在的なリスクが大幅に低減された。

The use of neural networks has been very successful in a wide variety of applications. However, it has recently been observed that it is difficult to generalize the performance of neural networks under the condition of distributional shift. Several efforts have been made to identify potential out-of-distribution inputs. Although existing literature has made significant progress with regard to images and textual data, finance has been overlooked. The aim of this paper is to investigate the distribution shift in the credit scoring problem, one of the most important applications of finance. For the potential distribution shift problem, we propose a novel two-stage model. Using the out-of-distribution detection method, data is first separated into confident and unconfident sets. As a second step, we utilize the domain knowledge with a mean-variance optimization in order to provide reliable bounds for unconfident samples. Using empirical results, we demonstrate that our model offers reliable predictions for the vast majority of datasets. It is only a small portion of the dataset that is inherently difficult to judge, and we leave them to the judgment of human beings. Based on the two-stage model, highly confident predictions have been made and potential risks associated with the model have been significantly reduced.
翻訳日:2022-09-20 17:07:28 公開日:2022-09-19
# グローバル確率予測による因果効果の推定:コビッド19のロックダウンがエネルギー需要に与える影響を事例として

Causal Effect Estimation with Global Probabilistic Forecasting: A Case Study of the Impact of Covid-19 Lockdowns on Energy Demand ( http://arxiv.org/abs/2209.08885v1 )

ライセンス: Link先を確認
Ankitha Nandipura Prasanna, Priscila Grecov, Angela Dieyu Weng, Christoph Bergmeir(参考訳) 電気産業は、信頼性、可用性、セキュリティ、効率性を改善するためにスマートグリッド技術を実装している。 この実装には、技術進歩、標準と規制の開発、およびテストと計画が必要である。 スマートグリッドの負荷予測と管理は、需要のボラティリティの低減と、ジェネレータ、ディストリビュータ、小売業者をつなぐ市場メカニズムの改善に不可欠である。 政策実施や外部介入の間は、より正確なシステム応答による需要変動を可能にするために、電力需要への影響の不確実性を分析する必要がある。 本稿では、電力需要に対する外部介入の影響の不確実性を分析する。 ディープラーニングを用いた確率的予測モデルとグローバル予測モデルを組み合わせたフレームワークを実装し、介入の因果的影響分布を推定する。 因果効果は、影響を受けるインスタンスの偽物分布結果を予測し、実際の結果と対比することにより評価される。 我々は、この介入が電力需要分布に与える影響を不均一に評価するためのケーススタディとして、Covid-19ロックダウンがエネルギー消費に与える影響を検討する。 オーストラリアや一部のヨーロッパ諸国でのロックダウンでは、ピーク時よりもトラフが大幅に減少する傾向が見られたが、平均は影響を受けなかった。

The electricity industry is heavily implementing smart grid technologies to improve reliability, availability, security, and efficiency. This implementation needs technological advancements, the development of standards and regulations, as well as testing and planning. Smart grid load forecasting and management are critical for reducing demand volatility and improving the market mechanism that connects generators, distributors, and retailers. During policy implementations or external interventions, it is necessary to analyse the uncertainty of their impact on the electricity demand to enable a more accurate response of the system to fluctuating demand. This paper analyses the uncertainties of external intervention impacts on electricity demand. It implements a framework that combines probabilistic and global forecasting models using a deep learning approach to estimate the causal impact distribution of an intervention. The causal effect is assessed by predicting the counterfactual distribution outcome for the affected instances and then contrasting it to the real outcomes. We consider the impact of Covid-19 lockdowns on energy usage as a case study to evaluate the non-uniform effect of this intervention on the electricity demand distribution. We could show that during the initial lockdowns in Australia and some European countries, there was often a more significant decrease in the troughs than in the peaks, while the mean remained almost unaffected.
翻訳日:2022-09-20 17:07:13 公開日:2022-09-19
# d&d:ダイナミックカメラから人間のダイナミクスを学ぶ

D&D: Learning Human Dynamics from Dynamic Camera ( http://arxiv.org/abs/2209.08790v1 )

ライセンス: Link先を確認
Jiefeng Li, Siyuan Bian, Chao Xu, Gang Liu, Gang Yu, Cewu Lu(参考訳) 単眼ビデオからの3d人間のポーズ推定は、最近大幅に改善されている。 しかし、最先端の手法のほとんどはキネマティックスに基づくもので、目に見える人工物を持つ物理的に目立たない動きの傾向が強い。 現在の動的手法は、物理的にもっともらしい動きを予測できるが、静的カメラビューによる単純なシナリオに限定される。 本研究では、物理の法則を活かしたD&D(Learning Human Dynamics from Dynamic Camera)を用いて、移動式カメラで撮影した映像から3Dの人間の動きを再現する。 d&dは、動的カメラの慣性力を考慮して、非慣性局所フレームにおける3次元人間の動きを説明する慣性力制御(ifc)を導入する。 限られたアノテーションで接地接触を学習するために,接触確率の異なるサンプリングにより計算し,動きを生成する確率的接触トルク(PCT)を開発する。 モデルに正しい動きを起こさせるように促すことで、接触状態が弱く監視される。 さらに、時間情報を用いて目標ポーズ状態を調整し、スムーズで正確なポーズ制御を実現する注意型PDコントローラを提案する。 私たちのアプローチは完全にニューラルネットワークで、物理エンジンのオフライン最適化やシミュレーションなしで動作します。 大規模3次元人体運動ベンチマーク実験はD&Dの有効性を実証し, 最先端のキネマティクス法とダイナミックス法の両方に対して優れた性能を示す。 コードはhttps://github.com/Jeffsjtu/DnDで入手できる。

3D human pose estimation from a monocular video has recently seen significant improvements. However, most state-of-the-art methods are kinematics-based, which are prone to physically implausible motions with pronounced artifacts. Current dynamics-based methods can predict physically plausible motion but are restricted to simple scenarios with static camera view. In this work, we present D&D (Learning Human Dynamics from Dynamic Camera), which leverages the laws of physics to reconstruct 3D human motion from the in-the-wild videos with a moving camera. D&D introduces inertial force control (IFC) to explain the 3D human motion in the non-inertial local frame by considering the inertial forces of the dynamic camera. To learn the ground contact with limited annotations, we develop probabilistic contact torque (PCT), which is computed by differentiable sampling from contact probabilities and used to generate motions. The contact state can be weakly supervised by encouraging the model to generate correct motions. Furthermore, we propose an attentive PD controller that adjusts target pose states using temporal information to obtain smooth and accurate pose control. Our approach is entirely neural-based and runs without offline optimization or simulation in physics engines. Experiments on large-scale 3D human motion benchmarks demonstrate the effectiveness of D&D, where we exhibit superior performance against both state-of-the-art kinematics-based and dynamics-based methods. Code is available at https://github.com/Jeffsjtu/DnD
翻訳日:2022-09-20 16:52:16 公開日:2022-09-19
# 深層学習モデルの推定決定を説明するための塩分マップ生成のためのモデル非依存手法

A model-agnostic approach for generating Saliency Maps to explain inferred decisions of Deep Learning Models ( http://arxiv.org/abs/2209.08906v1 )

ライセンス: Link先を確認
Savvas Karatsiolis, Andreas Kamilaris(参考訳) ブラックボックスAIモデルの普及により、これらのモデルによる決定を説明するアルゴリズムや方法の必要性が高まっている。 近年、ブラックボックスモデルがより複雑で困難なタスクを引き継いでいるため、AI研究コミュニティはモデルの説明可能性にますます関心を寄せている。 コンピュータビジョンを含む幅広いアプリケーションにおいて、ディープラーニング技術の優位性を考えると、説明可能性は非常に重要になる。 ディープラーニングモデルの推論プロセスを理解するために、AIモデルの決定に関する人間の理解可能な証拠を提供する多くの方法が開発され、大多数はこれらのモデルの内部アーキテクチャやパラメータ(例えばニューラルネットワークの重み)へのアクセスに彼らの操作に依存している。 本稿では,モデルの出力のみにアクセスでき,勾配などの追加情報を必要としないサリエンシーマップを生成するためのモデル非依存な手法を提案する。 我々は差分進化(DE)を用いて、モデルの意思決定プロセスに最も影響を及ぼす画像画素を特定し、モデル固有のアルゴリズムで生成されたCAMの品質に匹敵する品質のクラスアクティベーションマップ(CAM)を作成する。 DE-CAMは、より複雑な計算コストで、モデルアーキテクチャの内部の詳細にアクセスすることなく、優れたパフォーマンスを達成する。

The widespread use of black-box AI models has raised the need for algorithms and methods that explain the decisions made by these models. In recent years, the AI research community is increasingly interested in models' explainability since black-box models take over more and more complicated and challenging tasks. Explainability becomes critical considering the dominance of deep learning techniques for a wide range of applications, including but not limited to computer vision. In the direction of understanding the inference process of deep learning models, many methods that provide human comprehensible evidence for the decisions of AI models have been developed, with the vast majority relying their operation on having access to the internal architecture and parameters of these models (e.g., the weights of neural networks). We propose a model-agnostic method for generating saliency maps that has access only to the output of the model and does not require additional information such as gradients. We use Differential Evolution (DE) to identify which image pixels are the most influential in a model's decision-making process and produce class activation maps (CAMs) whose quality is comparable to the quality of CAMs created with model-specific algorithms. DE-CAM achieves good performance without requiring access to the internal details of the model's architecture at the cost of more computational complexity.
翻訳日:2022-09-20 16:51:53 公開日:2022-09-19
# MSA-GCN:マルチスケール適応グラフ畳み込みネットワークによる歩行感情認識

MSA-GCN:Multiscale Adaptive Graph Convolution Network for Gait Emotion Recognition ( http://arxiv.org/abs/2209.08988v1 )

ライセンス: Link先を確認
Yunfei Yin, Li Jing, Faliang Huang, Guangchao Yang, Zhuowei Wang(参考訳) 歩行感情認識は知的システムにおいて重要な役割を果たす。 既存の手法のほとんどは、時間とともに局所的なアクションに注目して感情を認識する。 しかし、彼らは時間領域における異なる感情の有効距離が異なることを無視し、歩行中の局所的な行動は極めて類似している。 したがって、感情は間接的な局所的な行動ではなく、グローバルな状態によって表現されるべきである。 これらの問題に対処するために,動的時相受容場の構築と感情認識のための多元的情報集約の設計を通じて,新しい多元適応グラフ畳み込みネットワーク(msa-gcn)を提案する。 本モデルでは,適応的選択的空間-時間グラフ畳み込みにより畳み込みカーネルを動的に選択し,異なる感情のソフトな時空間特徴を得る。 さらに,クロススケールマッピング融合機構 (csfm) は,情報相互作用を増強し冗長性を低減するための適応隣接行列を構築するように設計されている。 従来の最先端手法と比較して,提案手法は2つの公開データセット上で最高の性能を示し,mAPを2倍改善する。 また, 各種成分の有効性を示すため, 広範囲のアブレーション試験を行った。

Gait emotion recognition plays a crucial role in the intelligent system. Most of the existing methods recognize emotions by focusing on local actions over time. However, they ignore that the effective distances of different emotions in the time domain are different, and the local actions during walking are quite similar. Thus, emotions should be represented by global states instead of indirect local actions. To address these issues, a novel Multi Scale Adaptive Graph Convolution Network (MSA-GCN) is presented in this work through constructing dynamic temporal receptive fields and designing multiscale information aggregation to recognize emotions. In our model, a adaptive selective spatial-temporal graph convolution is designed to select the convolution kernel dynamically to obtain the soft spatio-temporal features of different emotions. Moreover, a Cross-Scale mapping Fusion Mechanism (CSFM) is designed to construct an adaptive adjacency matrix to enhance information interaction and reduce redundancy. Compared with previous state-of-the-art methods, the proposed method achieves the best performance on two public datasets, improving the mAP by 2\%. We also conduct extensive ablations studies to show the effectiveness of different components in our methods.
翻訳日:2022-09-20 16:51:34 公開日:2022-09-19
# 時間制約によるDeep Metric Learning

Deep Metric Learning with Chance Constraints ( http://arxiv.org/abs/2209.09060v1 )

ライセンス: Link先を確認
Yeti Z. Gurbuz, Ogul Can, A. Aydin Alatan(参考訳) deep metric learning (dml) は、埋め込み画像におけるペア内/クラス間近接違反の経験的損失を最小限に抑えることを目的としている。 有限確率制約の実現可能性問題とDMLを関連付ける。 本稿では,プロキシベースdmlの最小化が一定の確率制約を満たすこと,また,プロキシベースのメソッドの最悪の場合の一般化性能は,対応するクラスサンプルのドメイン全体をカバーするクラスプロキシ周辺の最小ボール半径によって特徴付けられること,クラスごとの複数のプロキシがパフォーマンスに寄与することを示す。 プロキシベースのdmlインスタンスの最小化による確率制約を考慮し、dmlをそのような制約の交叉において実現可能な点の探索として再構成し、反復射影によって大まかに解決すべき問題を解決できるスケーラブルなアルゴリズムを提供する。 単純に、正規化されたプロキシベースの損失をトレーニングし、意図的に選択された新しいサンプルの埋め込みでプロキシを再初期化する。 本手法は,画像検索に有効な4つのベンチマークデータセットを用いて評価を行う。 我々の手法は, 適用した損失の性能を常に向上させる。 コードは、https://github.com/yetigurbuz/ccp-dmlで入手できる。

Deep metric learning (DML) aims to minimize empirical expected loss of the pairwise intra-/inter- class proximity violations in the embedding image. We relate DML to feasibility problem of finite chance constraints. We show that minimizer of proxy-based DML satisfies certain chance constraints, and that the worst case generalization performance of the proxy-based methods can be characterized by the radius of the smallest ball around a class proxy to cover the entire domain of the corresponding class samples, suggesting multiple proxies per class helps performance. To provide a scalable algorithm as well as exploiting more proxies, we consider the chance constraints implied by the minimizers of proxy-based DML instances and reformulate DML as finding a feasible point in intersection of such constraints, resulting in a problem to be approximately solved by iterative projections. Simply put, we repeatedly train a regularized proxy-based loss and re-initialize the proxies with the embeddings of the deliberately selected new samples. We apply our method with the well-accepted losses and evaluate on four popular benchmark datasets for image retrieval. Outperforming state-of-the-art, our method consistently improves the performance of the applied losses. Code is available at: https://github.com/yetigurbuz/ccp-dml
翻訳日:2022-09-20 16:51:15 公開日:2022-09-19
# SOCRATES:生物多様性モニタリングのためのステレオカメラ

SOCRATES: A Stereo Camera Trap for Monitoring of Biodiversity ( http://arxiv.org/abs/2209.09070v1 )

ライセンス: Link先を確認
Timm Haucke, Hjalmar K\"uhl, Volker Steinhage(参考訳) 近代技術の発展と応用は、生態系、種群落、人口の発達を辿り、変化の理由を分析するために、自然の生息地や景観における種の効率的なモニタリングに欠かせない基礎となっている。 カメラトラップ距離サンプリングなどの手法による動物量の推定には,3次元計測による自然生息地の空間情報が必要である。 また,3次元情報により,カメラトラップを用いた動物検出精度が向上する。 本研究では,高度に最適化されたハードウェアとソフトウェアを特徴とする3Dカメラトラップ手法を提案する。 このアプローチでは立体視を用いて自然生息地の3D情報を推測し,生物多様性監視のためのStereO Camera Trapに指定する。 SOCRATESの総合的な評価は、動物検出の改善(バウンディングボックス$\text{mAP}_{75}$)だけでなく、カメラトラップ距離サンプリングによる動物量の推定にも優れていることを示している。 SOCRATESのソフトウェアとドキュメントはhttps://github.com/timmh/socratesで公開されている。

The development and application of modern technology is an essential basis for the efficient monitoring of species in natural habitats and landscapes to trace the development of ecosystems, species communities, and populations, and to analyze reasons of changes. For estimating animal abundance using methods such as camera trap distance sampling, spatial information of natural habitats in terms of 3D (three-dimensional) measurements is crucial. Additionally, 3D information improves the accuracy of animal detection using camera trapping. This study presents a novel approach to 3D camera trapping featuring highly optimized hardware and software. This approach employs stereo vision to infer 3D information of natural habitats and is designated as StereO CameRA Trap for monitoring of biodivErSity (SOCRATES). A comprehensive evaluation of SOCRATES shows not only a $3.23\%$ improvement in animal detection (bounding box $\text{mAP}_{75}$) but also its superior applicability for estimating animal abundance using camera trap distance sampling. The software and documentation of SOCRATES is provided at https://github.com/timmh/socrates
翻訳日:2022-09-20 16:50:53 公開日:2022-09-19
# オンラインユーザーにとって有害なコミュニティの定量化

Quantifying How Hateful Communities Radicalize Online Users ( http://arxiv.org/abs/2209.08697v1 )

ライセンス: Link先を確認
Matheus Schmitz, Keith Burghardt, Goran Muric(参考訳) オンラインのソーシャルメディアは、無視されたり、不愉快な声を聴くための手段を提供しているが、ユーザーは憎しみのあるスピーチを広めることができる。 このような言葉はたいていはフリンジ・コミュニティに由来するが、主流のチャンネルに流れ込むこともある。 本稿では、他のソーシャルネットワークに伝播するヘイトスピーチの観点から、フロンティアヘイトフルなコミュニティへの参加が与える影響を計測する。 redditのデータを利用して、あるタイプのecho chamberに参加することの効果を評価しました。 研究コミュニティの外でのヘイトスピーチの活用度を,活動的参加者の前後で測定した。 因果推論として中断された時系列(its)分析を用いて,学習した憎悪の指標として,コミュニティ外の憎悪語使用のレベルを用いて,特定のコミュニティ内からの憎悪言語がコミュニティ外に拡散する影響を評価する。 我々は、ヘイトスピーチの3つの領域をカバーする4つのredditサブコミュニティ(サブreddit)を調査した。 これら3つのケースでは、起源のコミュニティ以外でのヘイトスピーチが増加し、そのようなコミュニティに参加することがプラットフォーム全体にヘイトスピーチが広まることを示唆しています。 さらに、この新しい憎しみのスピーチは、コミュニティに初参加してから何ヶ月も受け継がれる。 有害な発言はコミュニティ内には含まれていないことを示す。 以上の結果から, エコーチャンバーの有害効果の新たな証拠と, ヘイトフル音声の採用を抑える効果が示唆された。

While online social media offers a way for ignored or stifled voices to be heard, it also allows users a platform to spread hateful speech. Such speech usually originates in fringe communities, yet it can spill over into mainstream channels. In this paper, we measure the impact of joining fringe hateful communities in terms of hate speech propagated to the rest of the social network. We leverage data from Reddit to assess the effect of joining one type of echo chamber: a digital community of like-minded users exhibiting hateful behavior. We measure members' usage of hate speech outside the studied community before and after they become active participants. Using Interrupted Time Series (ITS) analysis as a causal inference method, we gauge the spillover effect, in which hateful language from within a certain community can spread outside that community by using the level of out-of-community hate word usage as a proxy for learned hate. We investigate four different Reddit sub-communities (subreddits) covering three areas of hate speech: racism, misogyny and fat-shaming. In all three cases we find an increase in hate speech outside the originating community, implying that joining such community leads to a spread of hate speech throughout the platform. Moreover, users are found to pick up this new hateful speech for months after initially joining the community. We show that the harmful speech does not remain contained within the community. Our results provide new evidence of the harmful effects of echo chambers and the potential benefit of moderating them to reduce adoption of hateful speech.
翻訳日:2022-09-20 16:50:34 公開日:2022-09-19
# EDO-Net: グラフダイナミクスによる変形可能な物体の弾性特性の学習

EDO-Net: Learning Elastic Properties of Deformable Objects from Graph Dynamics ( http://arxiv.org/abs/2209.08996v1 )

ライセンス: Link先を確認
Alberta Longhini, Marco Moletta, Alfredo Reichlin, Michael C. Welle, David Held, Zackory Erickson, and Danica Kragic(参考訳) 未知の物理特性に一般化する変形可能な物体のグラフ力学の学習問題について検討する。 特に, 布のような変形可能な物体の弾性的物性の潜在的表現を利用して, 引抜き相互作用を探索する。 EDO-Net(Elastic Deformable Object - Net)は、弾性特性の異なる多種多様なサンプルに対して、自己教師型で訓練されたモデルである。 江戸ネットは、オブジェクトの物理的性質の潜在表現を抽出するための適応モジュールと、潜在表現を利用してグラフとして表される布のようなオブジェクトの将来状態を予測するフォワードダイナミクスモジュールを共同で学習する。 シミュレーションと実世界の両方でEDO-Netを評価し,その能力を評価する。 1)布のような変形可能な物体の未知の物性を一般化すること。 2)学習した表現を新しい下流タスクに転送する。

We study the problem of learning graph dynamics of deformable objects which generalize to unknown physical properties. In particular, we leverage a latent representation of elastic physical properties of cloth-like deformable objects which we explore through a pulling interaction. We propose EDO-Net (Elastic Deformable Object - Net), a model trained in a self-supervised fashion on a large variety of samples with different elastic properties. EDO-Net jointly learns an adaptation module, responsible for extracting a latent representation of the physical properties of the object, and a forward-dynamics module, which leverages the latent representation to predict future states of cloth-like objects, represented as graphs. We evaluate EDO-Net both in simulation and real world, assessing its capabilities of: 1) generalizing to unknown physical properties of cloth-like deformable objects, 2) transferring the learned representation to new downstream tasks.
翻訳日:2022-09-20 16:50:07 公開日:2022-09-19
# GLARE:Sun Glareにおける交通信号検出用データセット

GLARE: A Dataset for Traffic Sign Detection in Sun Glare ( http://arxiv.org/abs/2209.08716v1 )

ライセンス: Link先を確認
Nicholas Gray, Megan Moraes, Jiang Bian, Allen Tian, Alex Wang, Haoyi Xiong, Zhishan Guo(参考訳) リアルタイム機械学習検出アルゴリズムは、自動運転車技術によく見られ、品質データセットに依存する。 これらのアルゴリズムは、日光の下でも日常的にも正しく機能することが不可欠である。 事故の最も顕著な理由は2つあると報告されている。 しかし、LISAやドイツ交通信号認識ベンチマークのような既存のデータセットは、太陽フレアの存在を全く反映していない。 本稿では,日光による視覚干渉の激しいアメリカベースの交通標識を用いた画像の集合であるglare traffic sign datasetを提案する。 GLAREには、アメリカの道路のダッシュカム映像を33本撮影した2,157枚が写っている。 広く使用されているLISA Traffic Signデータセットに不可欠な拡張を提供する。 実験により,いくつかの最先端のベースライン手法は,日光のない交通標識データセットに対して訓練および試験を行う際には優れた性能を示すが,GLARE(例えば,9%から21%の平均mAP,LISAデータセットよりも有意に低い)に対して試験を行うと大きな被害を被ることがわかった。 また、現在のアーキテクチャでは、サングラアの交通標識の画像に基づいてトレーニングすると、検出精度が向上している(例えば、一般的なアルゴリズムでは平均42%のmAPゲイン)。

Real-time machine learning detection algorithms are often found within autonomous vehicle technology and depend on quality datasets. It is essential that these algorithms work correctly in everyday conditions as well as under strong sun glare. Reports indicate glare is one of the two most prominent environment-related reasons for crashes. However, existing datasets, such as LISA and the German Traffic Sign Recognition Benchmark, do not reflect the existence of sun glare at all. This paper presents the GLARE traffic sign dataset: a collection of images with U.S based traffic signs under heavy visual interference by sunlight. GLARE contains 2,157 images of traffic signs with sun glare, pulled from 33 videos of dashcam footage of roads in the United States. It provides an essential enrichment to the widely used LISA Traffic Sign dataset. Our experimental study shows that although several state-of-the-art baseline methods demonstrate superior performance when trained and tested against traffic sign datasets without sun glare, they greatly suffer when tested against GLARE (e.g., ranging from 9% to 21% mean mAP, which is significantly lower than the performances on LISA dataset). We also notice that current architectures have better detection accuracy (e.g., on average 42% mean mAP gain for mainstream algorithms) when trained on images of traffic signs in sun glare.
翻訳日:2022-09-20 16:40:11 公開日:2022-09-19
# 概念埋め込みモデル

Concept Embedding Models ( http://arxiv.org/abs/2209.09056v1 )

ライセンス: Link先を確認
Mateo Espinosa Zarlenga, Pietro Barbiero, Gabriele Ciravegna, Giuseppe Marra, Francesco Giannini, Michelangelo Diligenti, Zohreh Shams, Frederic Precioso, Stefano Melacci, Adrian Weller, Pietro Lio, Mateja Jamnik(参考訳) AIを利用したシステムのデプロイには、正確な予測精度を超えて、効果的なヒューマンインタラクションをサポートする信頼できるモデルが必要である。 概念ボトルネックモデルは、人間のような概念の中間レベルで分類タスクを条件付けすることで信頼性を促進する。 これにより、誤予測された概念を補正してモデルの性能を改善することができる。 しかし、既存の概念ボトルネックモデルは、高いタスクの正確さ、堅牢な概念ベースの説明、そして概念に対する効果的な介入の間の最適な妥協を見出すことができない。 そこで本研究では,解釈可能な高次元概念表現を学習することで,現在の精度-vs-解釈可能性トレードオフを超える新しい概念ボトルネックモデルであるConcept Embedding Modelsを提案する。 本実験は,(1)標準ニューラルモデルにおいて,概念を含まない,より優れた,あるいは競争力のあるタスク精度を実現すること,(2)基礎的真理ラベルを含む意味的な意味を捉える概念表現を提供すること,(3)テスト精度が標準概念ボトルネックモデルよりも優れているテスト時間概念介入を支援すること,(4)完全な概念監督が不十分な実環境にスケールすること,などを実証する。

Deploying AI-powered systems requires trustworthy models supporting effective human interactions, going beyond raw prediction accuracy. Concept bottleneck models promote trustworthiness by conditioning classification tasks on an intermediate level of human-like concepts. This enables human interventions which can correct mispredicted concepts to improve the model's performance. However, existing concept bottleneck models are unable to find optimal compromises between high task accuracy, robust concept-based explanations, and effective interventions on concepts -- particularly in real-world conditions where complete and accurate concept supervisions are scarce. To address this, we propose Concept Embedding Models, a novel family of concept bottleneck models which goes beyond the current accuracy-vs-interpretability trade-off by learning interpretable high-dimensional concept representations. Our experiments demonstrate that Concept Embedding Models (1) attain better or competitive task accuracy w.r.t. standard neural models without concepts, (2) provide concept representations capturing meaningful semantics including and beyond their ground truth labels, (3) support test-time concept interventions whose effect in test accuracy surpasses that in standard concept bottleneck models, and (4) scale to real-world conditions where complete concept supervisions are scarce.
翻訳日:2022-09-20 16:34:01 公開日:2022-09-19
# 強化学習におけるインターベンショナルロバストネスの測定

Measuring Interventional Robustness in Reinforcement Learning ( http://arxiv.org/abs/2209.09058v1 )

ライセンス: Link先を確認
Katherine Avery, Jack Kenney, Pracheta Amaranath, Erica Cai, David Jensen(参考訳) 近年の強化学習の研究は、報酬の最大化を超えて学習方針のいくつかの特徴に焦点を当てている。 これらの性質には、公正性、説明可能性、一般化、堅牢性が含まれる。 本稿では,訓練データの順序やエージェントが行う特定の探索行動など,訓練手順の付随的な側面によって,学習方針にどの程度のばらつきがもたらされるか,という介入堅牢性(IR)を定義した。 トレーニング手順は、トレーニング手順のこれらの偶発的な側面にばらつきがあるにもかかわらず、エージェントが介入の下で非常によく似たアクションをとるとき、高いIRを有する。 我々は直感的で定量的なIR尺度を開発し、数十の介入と状態にわたる3つのアタリ環境で8つのアルゴリズムで計算する。 これらの実験から、IRはトレーニング量やアルゴリズムの種類によって異なり、高い性能は期待されるような高いIRを示唆しないことがわかった。

Recent work in reinforcement learning has focused on several characteristics of learned policies that go beyond maximizing reward. These properties include fairness, explainability, generalization, and robustness. In this paper, we define interventional robustness (IR), a measure of how much variability is introduced into learned policies by incidental aspects of the training procedure, such as the order of training data or the particular exploratory actions taken by agents. A training procedure has high IR when the agents it produces take very similar actions under intervention, despite variation in these incidental aspects of the training procedure. We develop an intuitive, quantitative measure of IR and calculate it for eight algorithms in three Atari environments across dozens of interventions and states. From these experiments, we find that IR varies with the amount of training and type of algorithm and that high performance does not imply high IR, as one might expect.
翻訳日:2022-09-20 16:33:36 公開日:2022-09-19
# 深部因果モデルに関する調査

A Survey of Deep Causal Model ( http://arxiv.org/abs/2209.08860v1 )

ライセンス: Link先を確認
Zongyu Li and Zhenfeng Zhu(参考訳) 因果性の概念は人間の認知において重要な役割を果たす。 過去数十年間、因果推論はコンピュータ科学、医学、経済学、教育など多くの分野でよく開発されてきた。 深層学習技術の進歩に伴い、反事実データに対する因果推論に利用されるようになった。 通常、深い因果モデルでは、共変量の特徴を表現空間にマッピングし、様々な目的最適化関数を設計し、異なる最適化手法に基づいて非バイアスに反事実データを推定する。 本稿では, 深部因果モデルの調査に焦点をあて, その中核となる貢献は次のとおりである。 1)複数治療および連続投与時の関連指標を提供する。 2) 時間的発達と方法分類の観点から, 深い因果モデルの包括的概要を取り入れた。 3)関連するデータセットとソースコードの詳細な分類と解析を支援する。

The concept of causality plays an important role in human cognition . In the past few decades, causal inference has been well developed in many fields, such as computer science, medicine, economics, and education. With the advancement of deep learning techniques, it has been increasingly used in causal inference against counterfactual data. Typically, deep causal models map the characteristics of covariates to a representation space and then design various objective optimization functions to estimate counterfactual data unbiasedly based on the different optimization methods. This paper focuses on the survey of the deep causal models, and its core contributions are as follows: 1) we provide relevant metrics under multiple treatments and continuous-dose treatment; 2) we incorporate a comprehensive overview of deep causal models from both temporal development and method classification perspectives; 3) we assist a detailed and comprehensive classification and analysis of relevant datasets and source code.
翻訳日:2022-09-20 16:32:22 公開日:2022-09-19
# 局所化 $\varepsilon$-Covers による確率勾配Descent の一般化境界

Generalization Bounds for Stochastic Gradient Descent via Localized $\varepsilon$-Covers ( http://arxiv.org/abs/2209.08951v1 )

ライセンス: Link先を確認
Sejun Park, Umut \c{S}im\c{s}ekli, Murat A. Erdogdu(参考訳) 本稿では,sgdの軌跡を局所化する新しい被覆手法を提案する。 このローカライゼーションは、指数的次元依存性をもたらす標準的な一様被覆議論とは対照的に、被覆数によって測定されるアルゴリズム固有の複雑性をもたらす。 この局所的な構成に基づき、目的関数が片方向の強い凸と滑らかな関数の有限摂動で$P$ピース、すなわち一般には非凸と非滑らかな関数である場合、一般化誤差は$O(\sqrt{(\log n\log(nP))/n})$で上界し、$n$はデータサンプルの数である。 特に、この速度は次元とは独立であり、早期に停止および崩壊するステップサイズを必要としない。 最後に、これらの結果を様々な文脈で利用し、マルチインデックス線形モデル、マルチクラスサポートベクターマシン、およびハードとソフトのラベル設定のための$K$-meansクラスタリングの一般化バウンダリを導出し、既知の最先端化率を改善した。

In this paper, we propose a new covering technique localized for the trajectories of SGD. This localization provides an algorithm-specific complexity measured by the covering number, which can have dimension-independent cardinality in contrast to standard uniform covering arguments that result in exponential dimension dependency. Based on this localized construction, we show that if the objective function is a finite perturbation of a piecewise strongly convex and smooth function with $P$ pieces, i.e. non-convex and non-smooth in general, the generalization error can be upper bounded by $O(\sqrt{(\log n\log(nP))/n})$, where $n$ is the number of data samples. In particular, this rate is independent of dimension and does not require early stopping and decaying step size. Finally, we employ these results in various contexts and derive generalization bounds for multi-index linear models, multi-class support vector machines, and $K$-means clustering for both hard and soft label setups, improving the known state-of-the-art rates.
翻訳日:2022-09-20 16:32:09 公開日:2022-09-19
# 劣化ガスタービンからのNOx排出予測へのニューラルネットワークの適用

Application of Neural Network in the Prediction of NOx Emissions from Degrading Gas Turbine ( http://arxiv.org/abs/2209.09168v1 )

ライセンス: Link先を確認
Zhenkun Zheng and Alan Rezazadeh(参考訳) 本稿では, 劣化する天然ガスタービンからのプロセス応答(NOx放出)を予測するニューラルネットワークアルゴリズムを提案する。 9つの異なるプロセス変数、または予測子は予測モデルにおいて考慮される。 ニューラルネットワークアルゴリズムによってトレーニングされたモデルは、システムの劣化の影響を考慮したトレーニングと検証セットに、最近のデータの一部を使用すべきであることが判明した。 トレーニングと検証セットのR-Square値は、モデルの妥当性を示す。 残差プロットは明確なパターンを持たず、モデルが適切であることを示す。 プロセス変数の重要性のランキングが示され、予測プロファイルがプロセス変数の重要性を確認する。 ニューラルネットワークアルゴリズムを用いてトレーニングされたモデルは、劣化ガスタービンシステムからのNOx放出の最小値に到達するために、プロセス変数の最適設定を示す。

This paper is aiming to apply neural network algorithm for predicting the process response (NOx emissions) from degrading natural gas turbines. Nine different process variables, or predictors, are considered in the predictive modelling. It is found out that the model trained by neural network algorithm should use part of recent data in the training and validation sets accounting for the impact of the system degradation. R-Square values of the training and validation sets demonstrate the validity of the model. The residue plot, without any clear pattern, shows the model is appropriate. The ranking of the importance of the process variables are demonstrated and the prediction profile confirms the significance of the process variables. The model trained by using neural network algorithm manifests the optimal settings of the process variables to reach the minimum value of NOx emissions from the degrading gas turbine system.
翻訳日:2022-09-20 16:31:46 公開日:2022-09-19
# ニューロシンボリック潜在空間における知識に基づく類推

Knowledge-based Analogical Reasoning in Neuro-symbolic Latent Spaces ( http://arxiv.org/abs/2209.08750v1 )

ライセンス: Link先を確認
Vishwa Shah, Aditya Sharma, Gautam Shroff, Lovekesh Vig, Tirtharaj Dash, Ashwin Srinivasan(参考訳) アナロジカル推論問題は、背景知識、推論、パターン認識の組み合わせを含むコネクショナリズムとシンボリックAIシステムの両方に挑戦する。 シンボリックシステムは明示的なドメイン知識を取り込み、帰納的推論を行うが、ノイズに敏感であり、プリセットされたシンボリック特徴に入力をマッピングする必要がある。 一方、コネクショニストシステムは、画像、テキスト、音声などのリッチな入力空間を直接取り込み、ノイズの多い入力であってもパターンを認識することができる。 しかし、コネクショニストモデルでは帰納的推論のために明確なドメイン知識を含めることに苦労する。 本稿では,ニューラルネットワークのパターン認識能力とシンボリック推論と背景知識を組み合わせて,属性の集合とそれら間の関係が知られているアナロジカル推論問題のクラスを解く枠組みを提案する。 私たちは「神経アルゴリズム推論」アプローチ [DeepMind 2020] からインスピレーションを得て、問題固有の背景知識を使用する。 (i)問題の記号モデルに基づく分散表現の学習 二 問題にかかわる関係を反映したニューラルネットワーク変換の訓練及び最終的に (iii)画像から分散表現へのニューラルネットワークエンコーダの訓練 (i)。 これら3つの要素は,分散表現を操作する基本関数としてニューラルネットワークを用いた検索に基づく推論を可能にする。 我々は、RAVENのプログレッシブ・マトリクスにおける視覚的類似性の問題について検証し、人間のパフォーマンスと競合する精度を実現し、場合によっては、最初のエンドツーエンドのニューラルネットワークベースのアプローチよりも優れている。 近年のニューラルモデルはSOTAを生成するが、新しいニューラルシンボリック推論アプローチはこの問題に対して有望な方向であり、特にドメイン知識が利用可能な問題に対してより一般的なものである。

Analogical Reasoning problems challenge both connectionist and symbolic AI systems as these entail a combination of background knowledge, reasoning and pattern recognition. While symbolic systems ingest explicit domain knowledge and perform deductive reasoning, they are sensitive to noise and require inputs be mapped to preset symbolic features. Connectionist systems on the other hand can directly ingest rich input spaces such as images, text or speech and recognize pattern even with noisy inputs. However, connectionist models struggle to include explicit domain knowledge for deductive reasoning. In this paper, we propose a framework that combines the pattern recognition abilities of neural networks with symbolic reasoning and background knowledge for solving a class of Analogical Reasoning problems where the set of attributes and possible relations across them are known apriori. We take inspiration from the 'neural algorithmic reasoning' approach [DeepMind 2020] and use problem-specific background knowledge by (i) learning a distributed representation based on a symbolic model of the problem (ii) training neural-network transformations reflective of the relations involved in the problem and finally (iii) training a neural network encoder from images to the distributed representation in (i). These three elements enable us to perform search-based reasoning using neural networks as elementary functions manipulating distributed representations. We test this on visual analogy problems in RAVENs Progressive Matrices, and achieve accuracy competitive with human performance and, in certain cases, superior to initial end-to-end neural-network based approaches. While recent neural models trained at scale yield SOTA, our novel neuro-symbolic reasoning approach is a promising direction for this problem, and is arguably more general, especially for problems where domain knowledge is available.
翻訳日:2022-09-20 16:23:18 公開日:2022-09-19
# 強化学習における探索における視差の報酬

Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning ( http://arxiv.org/abs/2209.08842v1 )

ライセンス: Link先を確認
Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng(参考訳) 複雑な環境下での深層強化学習には,高次元観測とスパース報酬を伴う探索が不可欠である。 この問題に対処するために、近年のアプローチでは、新奇な探索や予測に基づく探索など、探索を改善するために内在的な報酬を活用することが提案されている。 しかし、多くの内在的な報酬モジュールは高度な構造と表現学習を必要とし、結果として計算の複雑さと不安定な性能をもたらす。 本稿では,計算効率・定量化手法であるRewarding Episodic Visitation Discrepancy (REVD)を提案する。 より具体的には、REVDはR'enyiの発散に基づくエピソード間の訪問不一致を評価することによって本質的な報酬を提供する。 効率的な分散推定のために、k-アネレスト近傍推定器をランダムに初期化状態エンコーダで利用する。 最後に、REVDはPyBullet Robotics EnvironmentsとAtariゲームでテストされている。 大規模な実験により、REVDは強化学習アルゴリズムのサンプル効率を大幅に改善し、ベンチマーク手法より優れていることが示された。

Exploration is critical for deep reinforcement learning in complex environments with high-dimensional observations and sparse rewards. To address this problem, recent approaches proposed to leverage intrinsic rewards to improve exploration, such as novelty-based exploration and prediction-based exploration. However, many intrinsic reward modules require sophisticated structures and representation learning, resulting in prohibitive computational complexity and unstable performance. In this paper, we propose Rewarding Episodic Visitation Discrepancy (REVD), a computation-efficient and quantified exploration method. More specifically, REVD provides intrinsic rewards by evaluating the R\'enyi divergence-based visitation discrepancy between episodes. To make efficient divergence estimation, a k-nearest neighbor estimator is utilized with a randomly-initialized state encoder. Finally, the REVD is tested on PyBullet Robotics Environments and Atari games. Extensive experiments demonstrate that REVD can significantly improves the sample efficiency of reinforcement learning algorithms and outperforms the benchmarking methods.
翻訳日:2022-09-20 16:22:48 公開日:2022-09-19
# 協調コミュニケーションにおけるセマンティクスの時代--オフライン強化学習によるシミュレーションの高速化に向けて

Age of Semantics in Cooperative Communications: To Expedite Simulation Towards Real via Offline Reinforcement Learning ( http://arxiv.org/abs/2209.08947v1 )

ライセンス: Link先を確認
Xianfu Chen and Zhifeng Zhao and Shiwen Mao and Celimuge Wu and Honggang Zhang and Mehdi Bennis(参考訳) 情報メトリクスの年齢は、ステータス更新の本質的なセマンティクスを正確に記述できない。 本稿では,リレー通信の知的リフレクティング面支援システムにおいて,状態更新のセマンティクス鮮度を測定するためのセマンティクス時代(aos)を提案する。 具体的には、ソースノード(SN)から宛先へのステータス更新に注目し、これはマルコフ決定プロセス(MDP)として定式化される。 snの目的は、最大送信電力制約下でのaosの期待満足度とエネルギー消費を最大化することである。 最適な制御方針を求めるために,まず,オンライン深層アクタ-クリティック(dac)学習方式を,オンポリシー時間差学習フレームワークを用いて導出する。 しかし、実際にオンラインDACを実装することは、SNとシステムの間の無限に繰り返される相互作用において重要な課題となる。 次に,従来収集したデータセットから最適制御ポリシを推定するオフラインdacスキームを,システムとのインタラクションを必要とせずに提案する。 数値実験により,我々のオフラインDACスキームがオンラインDACスキームと最も代表的なベースラインを平均効用で著しく上回り,データセットの品質に強い堅牢性を示すことが示された。

The age of information metric fails to correctly describe the intrinsic semantics of a status update. In an intelligent reflecting surface-aided cooperative relay communication system, we propose the age of semantics (AoS) for measuring semantics freshness of the status updates. Specifically, we focus on the status updating from a source node (SN) to the destination, which is formulated as a Markov decision process (MDP). The objective of the SN is to maximize the expected satisfaction of AoS and energy consumption under the maximum transmit power constraint. To seek the optimal control policy, we first derive an online deep actor-critic (DAC) learning scheme under the on-policy temporal difference learning framework. However, implementing the online DAC in practice poses the key challenge in infinitely repeated interactions between the SN and the system, which can be dangerous particularly during the exploration. We then put forward a novel offline DAC scheme, which estimates the optimal control policy from a previously collected dataset without any further interactions with the system. Numerical experiments verify the theoretical results and show that our offline DAC scheme significantly outperforms the online DAC scheme and the most representative baselines in terms of mean utility, demonstrating strong robustness to dataset quality.
翻訳日:2022-09-20 16:22:29 公開日:2022-09-19
# SAMP: 自己適応型混合精度を用いたモデル推論用ツールキット

SAMP: A Toolkit for Model Inference with Self-Adaptive Mixed-Precision ( http://arxiv.org/abs/2209.09130v1 )

ライセンス: Link先を確認
Rong Tian, Zijing Zhao, Weijie Liu, Haoyan Liu, Weiquan Mao, Zhe Zhao, Kimmo Yan(参考訳) FasterTransformer1やTurboTransformersのような最新の産業推論エンジンは、半精度浮動小数点 (FP16) と8ビット整数 (INT8) の量子化がモデル推論速度を大幅に改善することを示した。 しかし、既存のFP16またはINT8量子化手法は複雑すぎるため、不適切な使用は性能に大きなダメージを与える。 本稿では,自己適応型混合精度(SAMP)が提案され,自己適応型混合精度(Self-Adaptive Mixed-Precision, SAMP)が,混合精度アーキテクチャによる量子化率を自動的に制御し,効率と性能のバランスをとる。 実験の結果,我々のSAMPツールキットはPyTorchやFasterTransformerよりも高速であり,必要な性能を確保していることがわかった。 さらに、SAMPはモジュール設計に基づいており、トークンライザ、埋め込み、エンコーダ、ターゲット層を分離することで、ユーザは様々な下流タスクを処理でき、PyTorchにシームレスに統合できる。

The latest industrial inference engines, such as FasterTransformer1 and TurboTransformers, have verified that half-precision floating point (FP16) and 8-bit integer (INT8) quantization can greatly improve model inference speed. However, the existing FP16 or INT8 quantization methods are too complicated, and improper usage will lead to performance damage greatly. In this paper, we develop a toolkit for users to easily quantize their models for inference, in which a Self-Adaptive Mixed-Precision (SAMP) is proposed to automatically control quantization rate by a mixed-precision architecture to balance efficiency and performance. Experimental results show that our SAMP toolkit has a higher speedup than PyTorch and FasterTransformer while ensuring the required performance. In addition, SAMP is based on a modular design, decoupling the tokenizer, embedding, encoder and target layers, which allows users to handle various downstream tasks and can be seamlessly integrated into PyTorch.
翻訳日:2022-09-20 16:16:35 公開日:2022-09-19
# ラベル付き集合から新しいクラス発見を詳しく見る

A Closer Look at Novel Class Discovery from the Labeled Set ( http://arxiv.org/abs/2209.09120v1 )

ライセンス: Link先を確認
Ziyun Li, Jona Otholt, Ben Dai, Di hu, Christoph Meinel, Haojin Yang(参考訳) 新たなクラス発見(NCD)は、非結合クラスを含むラベル付き集合の事前知識を活用するラベル付きデータセットにおいて、新しいカテゴリを推論することを目的としている。 既存の研究はラベル付き集合を方法論レベルで活用することに集中しており、ラベル付き集合自体の分析にはあまり重点を置いていない。 そこで本稿では,ラベル付き集合から新しいクラス発見を考え直し,2つの核となる疑問に着目する。 (i)特定のラベル付き集合が与えられた場合、どのラベル付き集合が新しいクラス発見を最善にサポートできるか? (ii) ncd の基本的な前提は、ラベル付き集合はラベルなし集合と関係しなければならないが、どうやってこの関係を計測できるのかである。 のために (i) ncd はラベルなし集合と多くの意味的類似性を持つラベル付き集合の恩恵を受けるのではないかという仮説を提案し,その仮説を裏付ける。 具体的には,imagenet上のラベル付き/ラベルなしデータセット間の意味的類似度が異なる大規模かつ大規模なベンチマークを,その階層的クラス構造を利用して確立する。 対照的に、既存のNCDベンチマークはカテゴリや画像の数が異なるラベル付きセットに基づいて開発されており、意味的関係を完全に無視している。 のために (ii) ラベル付き集合とラベルなし集合のセマンティック類似性を定量化する数学的定義を導入する。 さらに,本測定値を用いて提案したベンチマークの有効性を確認し,NCD性能と高い相関性を示す。 さらに、定量的な分析がなければ、以前の著作はラベル情報が常に有益であると信じている。 しかし, 実験結果から, 低相似性設定におけるラベルの使用が準最適結果をもたらす可能性が示唆された。

Novel class discovery (NCD) aims to infer novel categories in an unlabeled dataset leveraging prior knowledge of a labeled set comprising disjoint but related classes. Existing research focuses primarily on utilizing the labeled set at the methodological level, with less emphasis on the analysis of the labeled set itself. Thus, in this paper, we rethink novel class discovery from the labeled set and focus on two core questions: (i) Given a specific unlabeled set, what kind of labeled set can best support novel class discovery? (ii) A fundamental premise of NCD is that the labeled set must be related to the unlabeled set, but how can we measure this relation? For (i), we propose and substantiate the hypothesis that NCD could benefit more from a labeled set with a large degree of semantic similarity to the unlabeled set. Specifically, we establish an extensive and large-scale benchmark with varying degrees of semantic similarity between labeled/unlabeled datasets on ImageNet by leveraging its hierarchical class structure. As a sharp contrast, the existing NCD benchmarks are developed based on labeled sets with different number of categories and images, and completely ignore the semantic relation. For (ii), we introduce a mathematical definition for quantifying the semantic similarity between labeled and unlabeled sets. In addition, we use this metric to confirm the validity of our proposed benchmark and demonstrate that it highly correlates with NCD performance. Furthermore, without quantitative analysis, previous works commonly believe that label information is always beneficial. However, counterintuitively, our experimental results show that using labels may lead to sub-optimal outcomes in low-similarity settings.
翻訳日:2022-09-20 16:15:00 公開日:2022-09-19
# 人気事象に基づくうわさ検出ベンチマークにおけるスプリアス相関の探索

Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks ( http://arxiv.org/abs/2209.08799v1 )

ライセンス: Link先を確認
Jiaying Wu, Bryan Hooi(参考訳) ソーシャルメディアが誤情報の拡散の温床になるにつれて、うわさ検出の重要なタスクは、オープンソースのベンチマークデータセットによって促進される有望な進歩を目撃している。 広く使われているにもかかわらず、これらのデータセットは、既存の研究によって無視され、既存のうわさ検出性能の過大評価に繋がる急激な相関に悩まされている。 1) イベントベースのデータ収集とラベル付けのスキームは,同一のイベントから同一のveracityラベルを複数の非常に類似したポストに割り当てること,(2)複数のデータソースをマージすることで,ソースidとveracityラベルを積極的に関連付けること,(3) バイアスをラベルすること,の3つの原因から生じる。 本稿では,最も一般的なうわさ検出ベンチマークデータセット(twitter15,twitter16,pheme)の3つを精査し,スプリアスな手がかりを解消するためのソリューションとしてイベント分離うわさ検出を提案する。 イベント分離環境では、既存の最先端モデルの精度が40%以上低下し、単純な神経分類器に匹敵する程度にしかならないことが観察される。 この課題をよりよく解決するために、出版者の投稿記録を集約し、執筆スタイルと妥当性のスタンスを学ぶ一般的なアプローチである、出版者スタイルアグリゲーション(psa)を提案する。 広範な実験により,提案手法が既存のベースラインよりも有効性,効率性,汎用性において優れていることが証明された。

As social media becomes a hotbed for the spread of misinformation, the crucial task of rumor detection has witnessed promising advances fostered by open-source benchmark datasets. Despite being widely used, we find that these datasets suffer from spurious correlations, which are ignored by existing studies and lead to severe overestimation of existing rumor detection performance. The spurious correlations stem from three causes: (1) event-based data collection and labeling schemes assign the same veracity label to multiple highly similar posts from the same underlying event; (2) merging multiple data sources spuriously relates source identities to veracity labels; and (3) labeling bias. In this paper, we closely investigate three of the most popular rumor detection benchmark datasets (i.e., Twitter15, Twitter16 and PHEME), and propose event-separated rumor detection as a solution to eliminate spurious cues. Under the event-separated setting, we observe that the accuracy of existing state-of-the-art models drops significantly by over 40%, becoming only comparable to a simple neural classifier. To better address this task, we propose Publisher Style Aggregation (PSA), a generalizable approach that aggregates publisher posting records to learn writing style and veracity stance. Extensive experiments demonstrate that our method outperforms existing baselines in terms of effectiveness, efficiency and generalizability.
翻訳日:2022-09-20 16:14:34 公開日:2022-09-19
# NL2INTERFACE:自然言語からの対話型可視化インタフェース生成

NL2INTERFACE: Interactive Visualization Interface Generation from Natural Language Queries ( http://arxiv.org/abs/2209.08834v1 )

ライセンス: Link先を確認
Yiru Chen and Ryan Li and Austin Mac and Tianbao Xie and Tao Yu and Eugene Wu(参考訳) 我々はNL2INTERFACEを開発し、自然言語クエリから対話型多視覚インタフェースを生成する可能性を探る。 nl2interfaceを使えば、ユーザーは自然言語クエリを直接書けば、ツールやプログラミング言語を学ばなくても、完全にインタラクティブなマルチビジュアライゼーションインターフェースを自動的に生成できます。 さらに、ユーザはインターフェースと対話して、データを簡単に変換し、視覚化の結果を素早く見ることができる。

We develop NL2INTERFACE to explore the potential of generating usable interactive multi-visualization interfaces from natural language queries. With NL2INTERFACE, users can directly write natural language queries to automatically generate a fully interactive multi-visualization interface without any extra effort of learning a tool or programming language. Further, users can interact with the interfaces to easily transform the data and quickly see the results in the visualizations.
翻訳日:2022-09-20 16:14:01 公開日:2022-09-19
# 正規化特徴を持つ神経崩壊:リーマン多様体上の幾何学的解析

Neural Collapse with Normalized Features: A Geometric Analysis over the Riemannian Manifold ( http://arxiv.org/abs/2209.09211v1 )

ライセンス: Link先を確認
Can Yaras and Peng Wang and Zhihui Zhu and Laura Balzano and Qing Qu(参考訳) 分類タスクのための過剰パラメータのディープネットワークを訓練する場合、学習された特徴はいわゆる「神経崩壊」現象を示すことが広く観察されている。 より具体的には、垂直層の出力特徴について、各クラスについて、内部クラスの特徴はそれぞれの手段に収束し、異なるクラスの手段は、最終層の分類器と整合した一定のきついフレーム構造を示す。 現代の表現学習では、前層における特徴の正規化が一般的となり、本研究では、正規化特徴に対する神経崩壊現象を理論的に正当化する。 制約のない特徴モデルに基づき、多クラス分類タスクにおける経験的損失関数を、球面上のすべての特徴と分類器を制約することにより、リーマン多様体上の非凸最適化問題へと単純化する。 この文脈では、球面積上のリーマン最適化問題の非凸景観を解析し、唯一の大域最小化器は神経崩壊解であり、他のすべての臨界点は負の曲率を持つ厳密なサドルであるという意味で、一意のグローバルな景観を示す。 実用的深層ネットワークにおける実験結果から,より優れた表現は特徴正規化によってより早く学習できることを示した。

When training overparameterized deep networks for classification tasks, it has been widely observed that the learned features exhibit a so-called "neural collapse" phenomenon. More specifically, for the output features of the penultimate layer, for each class the within-class features converge to their means, and the means of different classes exhibit a certain tight frame structure, which is also aligned with the last layer's classifier. As feature normalization in the last layer becomes a common practice in modern representation learning, in this work we theoretically justify the neural collapse phenomenon for normalized features. Based on an unconstrained feature model, we simplify the empirical loss function in a multi-class classification task into a nonconvex optimization problem over the Riemannian manifold by constraining all features and classifiers over the sphere. In this context, we analyze the nonconvex landscape of the Riemannian optimization problem over the product of spheres, showing a benign global landscape in the sense that the only global minimizers are the neural collapse solutions while all other critical points are strict saddles with negative curvature. Experimental results on practical deep networks corroborate our theory and demonstrate that better representations can be learned faster via feature normalization.
翻訳日:2022-09-20 16:07:22 公開日:2022-09-19
# ドメインおよびインスタンスレベル転送によるインフルエンシャルドメインのフェイクニュース検出の改善

Improving Fake News Detection of Influential Domain via Domain- and Instance-Level Transfer ( http://arxiv.org/abs/2209.08902v1 )

ライセンス: Link先を確認
Qiong Nan, Danding Wang, Yongchun Zhu, Qiang Sheng, Yuhui Shi, Juan Cao, Jintao Li(参考訳) 政治、健康、エンターテイメントといった各分野のリアルニュースとフェイクニュースは、毎日オンラインソーシャルメディアを通じて拡散し、複数のドメインでフェイクニュースを検出する必要がある。 その中でも、政治や健康といった特定のドメインにおける偽ニュースは、現実世界に深刻な悪影響を及ぼす可能性がある(例えば、covid-19の誤った情報によって引き起こされる情報デミック)。 以前の研究では、ドメイン間の相関を等しくマイニングしモデリングすることで、マルチドメインのフェイクニュース検出に焦点を当てている。 しかし、これらのマルチドメインメソッドはシーソー問題に苦しんでおり、あるドメインのパフォーマンスは、他のドメインのパフォーマンスを損なうコストで改善され、特定のドメインで性能が低下する可能性がある。 この問題に対処するために、特定の対象ドメインの性能を向上させることができる、フェイクニュース検出のためのドメインレベルとインスタンスレベルの転送フレームワーク(DITFEND)を提案する。 粗いドメインレベルの知識を伝達するために、メタラーニングの観点から、すべてのドメインのデータで一般的なモデルを訓練する。 きめ細かいインスタンスレベルの知識を転送し、汎用モデルをターゲットドメインに適応させるために、対象ドメインの言語モデルをトレーニングして、ソースドメイン内の各データインスタンスの転送可能性を評価し、各インスタンスの貢献を再強化します。 2つのデータセットのオフライン実験はDITFENDの有効性を示している。 オンライン実験によると、DITFENDは現実世界のシナリオでベースモデルにさらなる改善をもたらす。

Both real and fake news in various domains, such as politics, health, and entertainment are spread via online social media every day, necessitating fake news detection for multiple domains. Among them, fake news in specific domains like politics and health has more serious potential negative impacts on the real world (e.g., the infodemic led by COVID-19 misinformation). Previous studies focus on multi-domain fake news detection, by equally mining and modeling the correlation between domains. However, these multi-domain methods suffer from a seesaw problem: the performance of some domains is often improved at the cost of hurting the performance of other domains, which could lead to an unsatisfying performance in specific domains. To address this issue, we propose a Domain- and Instance-level Transfer Framework for Fake News Detection (DITFEND), which could improve the performance of specific target domains. To transfer coarse-grained domain-level knowledge, we train a general model with data of all domains from the meta-learning perspective. To transfer fine-grained instance-level knowledge and adapt the general model to a target domain, we train a language model on the target domain to evaluate the transferability of each data instance in source domains and re-weigh each instance's contribution. Offline experiments on two datasets demonstrate the effectiveness of DITFEND. Online experiments show that DITFEND brings additional improvements over the base models in a real-world scenario.
翻訳日:2022-09-20 16:06:28 公開日:2022-09-19
# それはブレンドか? 議論品質予測のための混合訓練パラダイムと試行

Will It Blend? Mixing Training Paradigms & Prompting for Argument Quality Prediction ( http://arxiv.org/abs/2209.08966v1 )

ライセンス: Link先を確認
Michiel van der Meer, Myrthe Reuver, Urja Khurana, Lea Krause, Selene B\'aez Santamar\'ia(参考訳) 本稿では,第9回Argument Miningワークショップ(2022年)の共有タスクへのコントリビューションについて述べる。 提案手法は,議論品質予測のタスクに大規模言語モデルを用いる。 我々はgpt-3を用いてプロンプトエンジニアリングを行い,マルチタスク学習,コントラスト学習,中間タスクトレーニングのトレーニングパラダイムを検討する。 混合予測が単一モデルより優れていることがわかった。 プロンプティング GPT-3 は議論の妥当性を予測するのに最適であり、議論の新規性は3つの訓練パラダイムすべてを用いて訓練されたモデルによって最もよく推定される。

This paper describes our contributions to the Shared Task of the 9th Workshop on Argument Mining (2022). Our approach uses Large Language Models for the task of Argument Quality Prediction. We perform prompt engineering using GPT-3, and also investigate the training paradigms multi-task learning, contrastive learning, and intermediate-task training. We find that a mixed prediction setup outperforms single models. Prompting GPT-3 works best for predicting argument validity, and argument novelty is best estimated by a model trained using all three training paradigms.
翻訳日:2022-09-20 16:06:02 公開日:2022-09-19
# ALEXSIS-PT:ポルトガルの語彙単純化のための新しいリソース

ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification ( http://arxiv.org/abs/2209.09034v1 )

ライセンス: Link先を確認
Kai North, Marcos Zampieri, Tharindu Ranasinghe(参考訳) lexical simplification (ls) は、複雑な単語を自動的に置き換えて、テキストをさまざまなターゲット集団(リテラシーの低い個人、学習障害を持つ個人、第二言語学習者など)に使いやすくするタスクである。 モデルのトレーニングとテストには、LSシステムは通常、複雑な単語をコンテキストに含むコーパスと、候補の置換を必要とする。 ALEXSIS-PTは387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。 ALEXSIS-PTは、スペイン語のALEXSISプロトコルに従ってコンパイルされ、言語横断モデルのためのエキサイティングな新しい道を開いた。 ALEXSIS-PTは、ブラジルの新聞記事を含む最初のLSマルチ候補データセットである。 本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルについて検討した。 BERTimbauはすべての評価指標で最高のパフォーマンスを達成した。

Lexical simplification (LS) is the task of automatically replacing complex words for easier ones making texts more accessible to various target populations (e.g. individuals with low literacy, individuals with learning disabilities, second language learners). To train and test models, LS systems usually require corpora that feature complex words in context along with their candidate substitutions. To continue improving the performance of LS systems we introduce ALEXSIS-PT, a novel multi-candidate dataset for Brazilian Portuguese LS containing 9,605 candidate substitutions for 387 complex words. ALEXSIS-PT has been compiled following the ALEXSIS protocol for Spanish opening exciting new avenues for cross-lingual models. ALEXSIS-PT is the first LS multi-candidate dataset that contains Brazilian newspaper articles. We evaluated four models for substitute generation on this dataset, namely mDistilBERT, mBERT, XLM-R, and BERTimbau. BERTimbau achieved the highest performance across all evaluation metrics.
翻訳日:2022-09-20 16:05:53 公開日:2022-09-19
# アクティブ予測符号化:スパースリワードロボット制御問題に対する脳誘発強化学習

Active Predicting Coding: Brain-Inspired Reinforcement Learning for Sparse Reward Robotic Control Problems ( http://arxiv.org/abs/2209.09174v1 )

ライセンス: Link先を確認
Alexander Ororbia, Ankur Mali(参考訳) 本稿では,ニューラルジェネレーティブコーディング(NGC)のニューラル認知計算フレームワークによるロボット制御のバックプロパゲーションフリーアプローチを提案する。この手法は,スパース報酬からの動的オンライン学習を促進する強力な予測符号化/処理回路から完全に構築されたエージェントを設計し,計画・アズ・インスペクションの原理を具現化したものである。 Concretely, we craft an adaptive agent system, which we call active predictive coding (ActPC), that balances an internally-generated epistemic signal (meant to encourage intelligent exploration) with an internally-generated instrumental signal (meant to encourage goal-seeking behavior) to ultimately learn how to control various simulated robotic systems as well as a complex robotic arm using a realistic robotics simulator, i.e., the Surreal Robotics Suite, for the block lifting task and can pick-and-place problems. 特に, 提案するActPCエージェントは, スパース(外因性)報酬信号に対して良好に動作し, バックプロップベースのRLアプローチと競合し, 性能に優れることを示した。

In this article, we propose a backpropagation-free approach to robotic control through the neuro-cognitive computational framework of neural generative coding (NGC), designing an agent built completely from powerful predictive coding/processing circuits that facilitate dynamic, online learning from sparse rewards, embodying the principles of planning-as-inference. Concretely, we craft an adaptive agent system, which we call active predictive coding (ActPC), that balances an internally-generated epistemic signal (meant to encourage intelligent exploration) with an internally-generated instrumental signal (meant to encourage goal-seeking behavior) to ultimately learn how to control various simulated robotic systems as well as a complex robotic arm using a realistic robotics simulator, i.e., the Surreal Robotics Suite, for the block lifting task and can pick-and-place problems. Notably, our experimental results demonstrate that our proposed ActPC agent performs well in the face of sparse (extrinsic) reward signals and is competitive with or outperforms several powerful backprop-based RL approaches.
翻訳日:2022-09-20 16:05:18 公開日:2022-09-19
# バイアスド・アーティスト:テキスト誘導画像生成モデルにおけるホモグリフによる文化バイアスの活用

The Biased Artist: Exploiting Cultural Biases via Homoglyphs in Text-Guided Image Generation Models ( http://arxiv.org/abs/2209.08891v1 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) DALL-E 2やStable Diffusionのようなテキスト誘導画像生成モデルは、最近、学界や一般大衆から注目を集めている。 テキストによる記述により、これらのモデルは様々な概念やスタイルを描いた高品質な画像を生成することができる。 しかし、そのようなモデルは大量の公開データに基づいて訓練され、すぐには明らかでないトレーニングデータから暗黙的に関係を学習する。 テキスト記述の単一文字を視覚的に類似する非ラチン文字に置き換えることで、生成された画像にトリガー・注入できる文化バイアスを暗黙的に学習する共通マルチモーダルモデルを示す。 いわゆるホモグリフの置き換えによって、悪意のあるユーザやサービスプロバイダが生成したイメージにバイアスを発生させ、生成プロセス全体を無駄にすることができる。 テキスト誘導画像生成モデルとして,DALL-E 2とStable Diffusionに対するこのような攻撃を実際に説明し,CLIPも同様に動作することを示す。 また,多言語データで学習したテキストエンコーダは,ホモグリフ置換の効果を緩和する方法であることを示す。

Text-guided image generation models, such as DALL-E 2 and Stable Diffusion, have recently received much attention from academia and the general public. Provided with textual descriptions, these models are capable of generating high-quality images depicting various concepts and styles. However, such models are trained on large amounts of public data and implicitly learn relationships from their training data that are not immediately apparent. We demonstrate that common multimodal models implicitly learned cultural biases that can be triggered and injected into the generated images by simply replacing single characters in the textual description with visually similar non-Latin characters. These so-called homoglyph replacements enable malicious users or service providers to induce biases into the generated images and even render the whole generation process useless. We practically illustrate such attacks on DALL-E 2 and Stable Diffusion as text-guided image generation models and further show that CLIP also behaves similarly. Our results further indicate that text encoders trained on multilingual data provide a way to mitigate the effects of homoglyph replacements.
翻訳日:2022-09-20 15:58:56 公開日:2022-09-19
# タスクに依存しないオフライン強化学習の潜在計画

Latent Plans for Task-Agnostic Offline Reinforcement Learning ( http://arxiv.org/abs/2209.08959v1 )

ライセンス: Link先を確認
Erick Rosete-Beas, Oier Mees, Gabriel Kalweit, Joschka Boedecker, Wolfram Burgard(参考訳) 長い水平と複数の暗黙のサブタスクからなる毎日のタスクは、まだオフラインロボット制御において大きな課題を課している。 模倣とオフライン強化学習の変種でこの設定に対処するための多くの先行手法は、学習された動作は通常狭く、構成可能な長期ホリゾン目標に達するのに苦労している。 両パラダイムは相補的な長所と短所を持つため,高次元カメラ観測からタスク非依存長所ポリシーを学習するための両手法の長所を組み合わせた新しい階層的アプローチを提案する。 具体的には,模倣学習を通じて潜在スキルを学習する低レベルポリシと,オフライン強化学習から学んだ高レベルポリシを組み合わせることで,潜在スキルを事前にチェーンする。 様々なシミュレーションおよび実ロボット制御タスクにおける実験により,前例のないスキルの組み合わせを,目標連鎖による潜在スキルの“スティッチ”と,最先端のベースラインにおけるパフォーマンスの向上による,時間的拡張目標への到達を可能にした。 実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。

Everyday tasks of long-horizon and comprising a sequence of multiple implicit subtasks still impose a major challenge in offline robot control. While a number of prior methods aimed to address this setting with variants of imitation and offline reinforcement learning, the learned behavior is typically narrow and often struggles to reach configurable long-horizon goals. As both paradigms have complementary strengths and weaknesses, we propose a novel hierarchical approach that combines the strengths of both methods to learn task-agnostic long-horizon policies from high-dimensional camera observations. Concretely, we combine a low-level policy that learns latent skills via imitation learning and a high-level policy learned from offline reinforcement learning for skill-chaining the latent behavior priors. Experiments in various simulated and real robot control tasks show that our formulation enables producing previously unseen combinations of skills to reach temporally extended goals by "stitching" together latent skills through goal chaining with an order-of-magnitude improvement in performance upon state-of-the-art baselines. We even learn one multi-task visuomotor policy for 25 distinct manipulation tasks in the real world which outperforms both imitation learning and offline reinforcement learning techniques.
翻訳日:2022-09-20 15:58:35 公開日:2022-09-19
# 遅延宇宙エネルギーモデル学習のための適応多段階密度比推定

Adaptive Multi-stage Density Ratio Estimation for Learning Latent Space Energy-based Model ( http://arxiv.org/abs/2209.08739v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Tian Han(参考訳) 本稿では,発電機モデルの潜在空間における学習エネルギーベースモデル(ebm)の基本問題について述べる。 このような事前モデルを学習するには,コストのかかるMarkov Chain Monte Carlo (MCMC) を実行する必要がある。 代わりに,ノイズコントラスト推定(nce)を用いて,潜時前密度と潜時後密度の密度比推定を通じてebmを判別的に学習する。 しかし、nceは通常、2つの密度の間に大きなギャップがあるため、その密度比を正確に見積もることができない。 この問題に効果的に取り組み,より表現力のある事前モデルを学ぶために,推定を複数の段階に分割し,逐次かつ適応的に密度比の異なる段階を学習する適応型多段階密度比推定法を開発した。 最終潜伏空間ESM事前が、異なる段階における比の積によって自然に形成されるように、前段階で推定される比を用いて、潜伏前モデルを徐々に学習することができる。 提案手法は,既存のベースラインよりも情報的かつより鋭く,効率的に訓練することができる。 本実験は画像生成と再構成および異常検出における強い性能を示す。

This paper studies the fundamental problem of learning energy-based model (EBM) in the latent space of the generator model. Learning such prior model typically requires running costly Markov Chain Monte Carlo (MCMC). Instead, we propose to use noise contrastive estimation (NCE) to discriminatively learn the EBM through density ratio estimation between the latent prior density and latent posterior density. However, the NCE typically fails to accurately estimate such density ratio given large gap between two densities. To effectively tackle this issue and learn more expressive prior models, we develop the adaptive multi-stage density ratio estimation which breaks the estimation into multiple stages and learn different stages of density ratio sequentially and adaptively. The latent prior model can be gradually learned using ratio estimated in previous stage so that the final latent space EBM prior can be naturally formed by product of ratios in different stages. The proposed method enables informative and much sharper prior than existing baselines, and can be trained efficiently. Our experiments demonstrate strong performances in image generation and reconstruction as well as anomaly detection.
翻訳日:2022-09-20 15:56:15 公開日:2022-09-19
# 重要テンパリング:過パラメータモデルに対するグループロバストネス

Importance Tempering: Group Robustness for Overparameterized Models ( http://arxiv.org/abs/2209.08745v1 )

ライセンス: Link先を確認
Yiping Lu, Wenlong Ji, Zachary Izzo, Lexing Ying(参考訳) 過パラメータモデルでは、多くの機械学習タスクでその成功が示されているが、トレーニングと異なるテスト分布に精度が低下する可能性がある。 この精度低下は依然として機械学習の適用を制限する。 同時に、分布シフトを扱う伝統的な手法である重要度重み付けは、経験的および理論的に過小パラメータモデルに影響を与えないことが示されている。 本稿では,決定境界を改良し,過パラメータ化モデルに対して一貫したより良い結果を得るための重要テンパリングを提案する。 理論的には, 群温度の選択がラベルシフトとスプリアス相関設定で異なることを正当化する。 同時に, 適切に選択された温度が, 不均衡分類のマイノリティ崩壊を引き起こすことも証明した。 実証的な結果として,重要テンパリングを用いたグループ分類タスクの最先端化を実現した。

Although overparameterized models have shown their success on many machine learning tasks, the accuracy could drop on the testing distribution that is different from the training one. This accuracy drop still limits applying machine learning in the wild. At the same time, importance weighting, a traditional technique to handle distribution shifts, has been demonstrated to have less or even no effect on overparameterized models both empirically and theoretically. In this paper, we propose importance tempering to improve the decision boundary and achieve consistently better results for overparameterized models. Theoretically, we justify that the selection of group temperature can be different under label shift and spurious correlation setting. At the same time, we also prove that properly selected temperatures can extricate the minority collapse for imbalanced classification. Empirically, we achieve state-of-the-art results on worst group classification tasks using importance tempering.
翻訳日:2022-09-20 15:55:56 公開日:2022-09-19
# メタラーニングによる記号モデル非依存損失関数の学習

Learning Symbolic Model-Agnostic Loss Functions via Meta-Learning ( http://arxiv.org/abs/2209.08907v1 )

ライセンス: Link先を確認
Christian Raymond, Qi Chen, Bing Xue, Mengjie Zhang(参考訳) 本稿では,学習中のモデルの性能を著しく向上させる損失関数の学習を目的とした,損失関数学習の新たな話題について述べる。 具体的には,ニューロシンボリック検索によるモデル非依存損失関数学習のための新しいメタラーニングフレームワークを提案する。 このフレームワークはまず進化ベースの手法を使って原始数学演算の空間を探索し、記号的損失関数の集合を見つける。 次に、学習損失関数のセットをパラメータ化し、エンドツーエンドの勾配に基づくトレーニング手順で最適化する。 提案フレームワークの汎用性は,多種多様な教師付き学習課題に対して実証的に検証される。 提案手法により発見されたメタ学習損失関数は,多種多様なニューラルネットワークアーキテクチャやデータセット上でのクロスエントロピー損失と最先端の損失関数学習法の両方より優れていた。

In this paper, we develop upon the emerging topic of loss function learning, which aims to learn loss functions that significantly improve the performance of the models trained under them. Specifically, we propose a new meta-learning framework for learning model-agnostic loss functions via a hybrid neuro-symbolic search approach. The framework first uses evolution-based methods to search the space of primitive mathematical operations to find a set of symbolic loss functions. Second, the set of learned loss functions are subsequently parameterized and optimized via an end-to-end gradient-based training procedure. The versatility of the proposed framework is empirically validated on a diverse set of supervised learning tasks. Results show that the meta-learned loss functions discovered by the newly proposed method outperform both the cross-entropy loss and state-of-the-art loss function learning methods on a diverse range of neural network architectures and datasets.
翻訳日:2022-09-20 15:55:41 公開日:2022-09-19
# オープンワールドにおける知識グラフ評価の再考

Rethinking Knowledge Graph Evaluation Under the Open-World Assumption ( http://arxiv.org/abs/2209.08858v1 )

ライセンス: Link先を確認
Haotong Yang, Zhouchen Lin, Muhan Zhang(参考訳) ほとんどの知識グラフ(KG)は不完全であり、知識グラフを自動補完する重要な研究トピックの動機となっている。 しかし、知識グラフ補完(kgc)モデルの評価は、しばしば不完全性を無視する -- テストセットの事実は、まだkgに含まれていない多くの欠落した事実を含む未知の三重項に対してランク付けされる。 すべての未知の三重項を偽として扱うことは閉世界仮定と呼ばれる。 このクローズドワールドの仮定は評価指標の公平性と一貫性に悪影響を及ぼす可能性がある。 本稿では,より現実的な設定,すなわち未知の三重項がトレーニングやテストセットに含まれない多くの欠落事実を含むと考えられるオープンワールド仮定の下でのkgc評価について検討する。 mean reciprocal rank(mrr)やhiss@kといった現在最もよく使われているメトリクスについて、オープンワールドの仮定の下では彼らの振る舞いが予期せぬものであることを指摘します。 特に、欠落した事実は少なく、それらの数はモデルの真の強さに関して対数的傾向を示し、従って、真のモデル改善を反映するという意味では、メートル法の増加は重要ではないかもしれない。 さらに, この分散性を考慮すると, 報告された数値の劣化は, より強いモデルが低い値を持つ場合の, 異なるモデル間での誤比較をもたらす可能性があることを示す。 我々はその現象を理論的にも実験的にも検証する。 最後に,この問題の原因と解決策を提案する。 私たちのコードとデータはhttps://github.com/GraphPKU/Open-World-KGで公開されています。

Most knowledge graphs (KGs) are incomplete, which motivates one important research topic on automatically complementing knowledge graphs. However, evaluation of knowledge graph completion (KGC) models often ignores the incompleteness -- facts in the test set are ranked against all unknown triplets which may contain a large number of missing facts not included in the KG yet. Treating all unknown triplets as false is called the closed-world assumption. This closed-world assumption might negatively affect the fairness and consistency of the evaluation metrics. In this paper, we study KGC evaluation under a more realistic setting, namely the open-world assumption, where unknown triplets are considered to include many missing facts not included in the training or test sets. For the currently most used metrics such as mean reciprocal rank (MRR) and Hits@K, we point out that their behavior may be unexpected under the open-world assumption. Specifically, with not many missing facts, their numbers show a logarithmic trend with respect to the true strength of the model, and thus, the metric increase could be insignificant in terms of reflecting the true model improvement. Further, considering the variance, we show that the degradation in the reported numbers may result in incorrect comparisons between different models, where stronger models may have lower metric numbers. We validate the phenomenon both theoretically and experimentally. Finally, we suggest possible causes and solutions for this problem. Our code and data are available at https://github.com/GraphPKU/Open-World-KG .
翻訳日:2022-09-20 15:49:07 公開日:2022-09-19
# TANDEM3D:3次元物体認識のためのアクティブ触覚探索

TANDEM3D: Active Tactile Exploration for 3D Object Recognition ( http://arxiv.org/abs/2209.08772v1 )

ライセンス: Link先を確認
Jingxi Xu, Han Lin, Shuran Song, Matei Ciocarlie(参考訳) 3dオブジェクトの触覚認識は依然として難しい課題である。 2次元形状と比較すると、3次元表面の複雑な形状はよりリッチな触覚信号、より巧妙な動作、より高度な符号化技術を必要とする。 本研究では,触覚信号を用いた3次元物体認識における探索と意思決定のための協調学習フレームワークであるTANDEM3Dを提案する。 2次元認識問題のための協調学習パラダイムを導入したこれまでの研究から始め、我々は最大3Dまでスケールアップできる多くの進歩を紹介した。 TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。 さらに、6DOF動作を有効にすることで、TANDEM3Dは高い効率で識別タッチ情報を探索して収集する。 本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。 最先端のベースラインと比較して、TANDEM3Dは3Dオブジェクトを認識する際の精度と動作回数を高くし、センサノイズの種類や量に対してより堅牢であることを示す。 ビデオはhttps://jxu.ai/tandem3dで閲覧できる。

Tactile recognition of 3D objects remains a challenging task. Compared to 2D shapes, the complex geometry of 3D surfaces requires richer tactile signals, more dexterous actions, and more advanced encoding techniques. In this work, we propose TANDEM3D, a method that applies a co-training framework for exploration and decision making to 3D object recognition with tactile signals. Starting with our previous work, which introduced a co-training paradigm for 2D recognition problems, we introduce a number of advances that enable us to scale up to 3D. TANDEM3D is based on a novel encoder that builds 3D object representation from contact positions and normals using PointNet++. Furthermore, by enabling 6DOF movement, TANDEM3D explores and collects discriminative touch information with high efficiency. Our method is trained entirely in simulation and validated with real-world experiments. Compared to state-of-the-art baselines, TANDEM3D achieves higher accuracy and a lower number of actions in recognizing 3D objects and is also shown to be more robust to different types and amounts of sensor noise. Video is available at https://jxu.ai/tandem3d.
翻訳日:2022-09-20 15:46:46 公開日:2022-09-19
# EcoFormer: 線形複雑度を考慮した省エネ

EcoFormer: Energy-Saving Attention with Linear Complexity ( http://arxiv.org/abs/2209.09004v1 )

ライセンス: Link先を確認
Jing Liu, Zizheng Pan, Haoyu He, Jianfei Cai, Bohan Zhuang(参考訳) Transformerはシーケンシャルなデータをモデル化するトランスフォーマーフレームワークで、幅広いタスクにおいて優れたパフォーマンスを実現しているが、計算量やエネルギーコストが高い。 効率を向上させるために、浮動小数点値をバイナリに制限するバイナリ化によってモデルを圧縮し、ビット単位の操作が大幅に安いためリソース消費を節約するのが一般的な選択である。 しかし,既存のバイナライゼーション手法は,アテンション機構のコアにおけるペアワイズ類似性モデルを無視しつつ,入力分布の情報損失を統計的に最小化することのみを目的としている。 そこで本研究では,ecoformer と呼ばれる分散ハッシュによる高次元ソフトマックス注目にカスタマイズされた新しい2値化パラダイムを提案し,クエリとキーをハミング空間内の低次元バイナリコードにマッピングする。 カーネル化されたハッシュ関数は、アテンションマップから抽出した地対真実の類似関係を自己監督的に一致させる。 二進符号の内積とハミング距離の同値性と行列の乗算の連想性に基づいて、二進符号のドット積として表現することで線形複雑性の注意を近似することができる。 さらに,クエリやキーのコンパクトなバイナリ表現によって,高コストなマルチプライアキューム操作のほとんどを,単純な蓄積に置き換えることで,エッジデバイスでのオンチップエネルギーフットプリントを大幅に削減できる。 ビジョンと言語タスクに関する大規模な実験は、EcoFormerが標準の注意で一貫して同等のパフォーマンスを実現し、リソースをはるかに少なく消費していることを示している。 例えば、PVTv2-B0とImageNet-1Kに基づいて、Ecoformerは73%のエネルギーフットプリント削減を実現している。 コードはhttps://github.com/ziplab/ecoformerで入手できる。

Transformer is a transformative framework that models sequential data and has achieved remarkable performance on a wide range of tasks, but with high computational and energy cost. To improve its efficiency, a popular choice is to compress the models via binarization which constrains the floating-point values into binary ones to save resource consumption owing to cheap bitwise operations significantly. However, existing binarization methods only aim at minimizing the information loss for the input distribution statistically, while ignoring the pairwise similarity modeling at the core of the attention mechanism. To this end, we propose a new binarization paradigm customized to high-dimensional softmax attention via kernelized hashing, called EcoFormer, to map the original queries and keys into low-dimensional binary codes in Hamming space. The kernelized hash functions are learned to match the ground-truth similarity relations extracted from the attention map in a self-supervised way. Based on the equivalence between the inner product of binary codes and the Hamming distance as well as the associative property of matrix multiplication, we can approximate the attention in linear complexity by expressing it as a dot-product of binary codes. Moreover, the compact binary representations of queries and keys enable us to replace most of the expensive multiply-accumulate operations in attention with simple accumulations to save considerable on-chip energy footprint on edge devices. Extensive experiments on both vision and language tasks show that EcoFormer consistently achieves comparable performance with standard attentions while consuming much fewer resources. For example, based on PVTv2-B0 and ImageNet-1K, Ecoformer achieves a 73% energy footprint reduction with only a 0.33% performance drop compared to the standard attention. Code is available at https://github.com/ziplab/EcoFormer.
翻訳日:2022-09-20 15:40:49 公開日:2022-09-19
# バッチ層正規化 - CNNとRNNの新しい正規化レイヤ

Batch Layer Normalization, A new normalization layer for CNNs and RNN ( http://arxiv.org/abs/2209.08898v1 )

ライセンス: Link先を確認
Amir Ziaee, Erion \c{C}ano(参考訳) 本研究では,Batch Layer Normalization (BLN) と呼ばれる新しい正規化層を導入し,ディープニューラルネットワーク層の内部共変量シフトの問題を軽減する。 バッチ正規化とレイヤー正規化の組み合わせとして、blnはミニバッチの逆サイズに基づくミニバッチと特徴正規化を適応的に重み付け、学習プロセス中にレイヤへの入力を正規化する。 また、ミニバッチ統計または人口統計を用いて、推論時に小さな変化を伴う正確な計算を行う。 ミニバッチまたは人口統計を使用する決定プロセスは、BLNにモデルのハイパーパラメータ最適化プロセスにおいて包括的な役割を果たす能力を与える。 BLNの主な利点は、入力データから独立している理論解析のサポートであり、その統計構成は、実行されたタスク、トレーニングデータの量、バッチのサイズに大きく依存する。 実験結果は,畳み込みニューラルネットワークと反復ニューラルネットワークの両方におけるBLNの適用ポテンシャルと,バッチ正規化および層正規化よりも高速な収束性を示す。 実験のコードはオンラインで公開されている(https://github.com/A2Amir/Batch-Layer-Normalization)。

This study introduces a new normalization layer termed Batch Layer Normalization (BLN) to reduce the problem of internal covariate shift in deep neural network layers. As a combined version of batch and layer normalization, BLN adaptively puts appropriate weight on mini-batch and feature normalization based on the inverse size of mini-batches to normalize the input to a layer during the learning process. It also performs the exact computation with a minor change at inference times, using either mini-batch statistics or population statistics. The decision process to either use statistics of mini-batch or population gives BLN the ability to play a comprehensive role in the hyper-parameter optimization process of models. The key advantage of BLN is the support of the theoretical analysis of being independent of the input data, and its statistical configuration heavily depends on the task performed, the amount of training data, and the size of batches. Test results indicate the application potential of BLN and its faster convergence than batch normalization and layer normalization in both Convolutional and Recurrent Neural Networks. The code of the experiments is publicly available online (https://github.com/A2Amir/Batch-Layer-Normalization).
翻訳日:2022-09-20 15:39:50 公開日:2022-09-19
# 自走剤のq-learningと増強トポロジーの神経進化の比較研究

Comparative Study of Q-Learning and NeuroEvolution of Augmenting Topologies for Self Driving Agents ( http://arxiv.org/abs/2209.09007v1 )

ライセンス: Link先を確認
Arhum Ishtiaq, Maheen Anees, Sara Mahmood, Neha Jafry(参考訳) 自動運転車は様々なタスクの自動化が始まって以来、大きな関心を集めてきた。 人間は疲労する傾向があり、道路上での応答時間が遅く、その上、毎年約135万人が交通事故で死亡するという非常に危険な仕事だ。 自動運転車は、世界中の自動車事故の数を減らすことが期待されているため、この問題が研究者の関心を惹きつけている。 現在、自動運転車は様々なサブプロブレムに異なるアルゴリズムを使って自動運転車を自律化している。 我々は、進化的アルゴリズムと人工ニューラルネットワークを組み合わせた強化学習アルゴリズム、具体的にはQ-ラーニングアルゴリズムとNeuroEvolution of Augment Topologies(NEAT)に焦点を当てて、モデルエージェントをトレーニングして、与えられた経路での運転方法を学ぶ。 本稿では,上記の2つのアルゴリズムの比較に焦点をあてる。

Autonomous driving vehicles have been of keen interest ever since automation of various tasks started. Humans are prone to exhaustion and have a slow response time on the road, and on top of that driving is already quite a dangerous task with around 1.35 million road traffic incident deaths each year. It is expected that autonomous driving can reduce the number of driving accidents around the world which is why this problem has been of keen interest for researchers. Currently, self-driving vehicles use different algorithms for various sub-problems in making the vehicle autonomous. We will focus reinforcement learning algorithms, more specifically Q-learning algorithms and NeuroEvolution of Augment Topologies (NEAT), a combination of evolutionary algorithms and artificial neural networks, to train a model agent to learn how to drive on a given path. This paper will focus on drawing a comparison between the two aforementioned algorithms.
翻訳日:2022-09-20 15:39:31 公開日:2022-09-19
# 知識グラフ補完のための共同言語意味と構造埋め込み

Joint Language Semantic and Structure Embedding for Knowledge Graph Completion ( http://arxiv.org/abs/2209.08721v1 )

ライセンス: Link先を確認
Jianhao Shen, Chenguang Wang, Linyuan Gong, Dawn Song(参考訳) 知識のトリプレットを完遂するタスクは、幅広い下流の応用がある。 構造情報と意味情報は知識グラフの完成に重要な役割を果たしている。 ナレッジグラフの構造やセマンティクスに依存する従来のアプローチとは異なり、ナレッジトリプレットの自然言語記述にそのセマンティクスを構造情報と共に組み込むように提案する。 本手法は,言語モデルの前方通過がセマンティクスを捉え,その損失が構造を再構築する確率的構造損失に対して,学習済み言語モデルを微調整することで,完了タスクの知識グラフを埋め込む。 各種知識グラフベンチマークに関する広範な実験により,本手法の最先端性能が実証された。 また,本手法はセマンティクスの有効利用により,低リソース方式の性能を著しく向上させることができることを示す。 コードとデータセットはhttps://github.com/pkusjh/lassで入手できる。

The task of completing knowledge triplets has broad downstream applications. Both structural and semantic information plays an important role in knowledge graph completion. Unlike previous approaches that rely on either the structures or semantics of the knowledge graphs, we propose to jointly embed the semantics in the natural language description of the knowledge triplets with their structure information. Our method embeds knowledge graphs for the completion task via fine-tuning pre-trained language models with respect to a probabilistic structured loss, where the forward pass of the language models captures semantics and the loss reconstructs structures. Our extensive experiments on a variety of knowledge graph benchmarks have demonstrated the state-of-the-art performance of our method. We also show that our method can significantly improve the performance in a low-resource regime, thanks to the better use of semantics. The code and datasets are available at https://github.com/pkusjh/LASS.
翻訳日:2022-09-20 15:37:55 公開日:2022-09-19
# 正規化フローと辞書学習を用いた自己教師付きテクスチャ画像異常検出

Self-Supervised Texture Image Anomaly Detection By Fusing Normalizing Flow and Dictionary Learning ( http://arxiv.org/abs/2209.07005v2 )

ライセンス: Link先を確認
Yaohua Guo, Lijuan Song, Zirui Ma(参考訳) 異常識別における一般的な研究領域は、テクスチャ背景に基づく産業画像異常検出である。 テクスチャ画像の干渉とテクスチャ異常の微小さが、多くの既存モデルが異常の検出に失敗した主な理由である。 本稿では,前述の質問に基づく辞書学習と正規化フローを組み合わせた異常検出手法を提案する。 すでに使用されている2段階異常検出手法は,本手法により強化されている。 本研究は,ベースライン法を改善するために,表現学習における正規化フローを追加し,ディープラーニングと辞書学習を組み合わせる。 改良されたアルゴリズムは、実験的検証の後、すべてのMVTec ADテクスチャ型データに対して95$\%の精度で検出された。 強い強靭さを示す。 カーペットデータのベースライン検出精度は67.9%であった。 記事はアップグレードされ、検出精度は99.7%に向上した。

A common study area in anomaly identification is industrial images anomaly detection based on texture background. The interference of texture images and the minuteness of texture anomalies are the main reasons why many existing models fail to detect anomalies. We propose a strategy for anomaly detection that combines dictionary learning and normalizing flow based on the aforementioned questions. The two-stage anomaly detection approach already in use is enhanced by our method. In order to improve baseline method, this research add normalizing flow in representation learning and combines deep learning and dictionary learning. Improved algorithms have exceeded 95$\%$ detection accuracy on all MVTec AD texture type data after experimental validation. It shows strong robustness. The baseline method's detection accuracy for the Carpet data was 67.9%. The article was upgraded, raising the detection accuracy to 99.7%.
翻訳日:2022-09-20 12:57:42 公開日:2022-09-19
# プライバシ保護マルチパーティリニア回帰のためのフェデレートコーディネートダイス

Federated Coordinate Descent for Privacy-Preserving Multiparty Linear Regression ( http://arxiv.org/abs/2209.07702v2 )

ライセンス: Link先を確認
Xinlin Leng, Chenxu Li, Hongtao Wang(参考訳) 分散プライバシ保存型回帰スキームは様々な分野で開発され、拡張され、マルチパーティによる協調的およびプライベートな最適化アルゴリズム(例えば勾配降下)によって最適なパラメータのセットを学ぶ。 しかし、従来のグラディエント・ディフレッシュ法は、ラッソ回帰のようなL1正規化を持つ目的関数を含む問題を解くことができない。 本稿では,FCDと呼ばれる新しい分散スキームであるFederated Coordinate Descentを紹介し,この問題をマルチパーティシナリオ下で安全に解決する。 具体的には、セキュアな集約と追加の摂動により、(1)ローカル情報が他の当事者にリークされることがなく、(2)グローバルモデルパラメータがクラウドサーバに公開されることが保証される。 追加の摂動は最終的に各当事者によって排除され、高性能なグローバルモデルが導出される。 fcdスキームは多人数のセキュアな座標降下法のギャップを埋め、線形回帰、リッジ回帰、ラッソ回帰などの一般線形回帰に適用できることを示した。 理論的セキュリティ分析と実験結果は、実世界のuciデータセット上での3種類の線形回帰のタスクにおいて、fcdを効率的かつ効率的に実施できることを示し、低メイ測度を集中的手法として提供する。

Distributed privacy-preserving regression schemes have been developed and extended in various fields, where multiparty collaboratively and privately run optimization algorithms, e.g., Gradient Descent, to learn a set of optimal parameters. However, traditional Gradient-Descent based methods fail to solve problems which contains objective functions with L1 regularization, such as Lasso regression. In this paper, we present Federated Coordinate Descent, a new distributed scheme called FCD, to address this issue securely under multiparty scenarios. Specifically, through secure aggregation and added perturbations, our scheme guarantees that: (1) no local information is leaked to other parties, and (2) global model parameters are not exposed to cloud servers. The added perturbations can eventually be eliminated by each party to derive a global model with high performance. We show that the FCD scheme fills the gap of multiparty secure Coordinate Descent methods and is applicable for general linear regressions, including linear, ridge and lasso regressions. Theoretical security analysis and experimental results demonstrate that FCD can be performed effectively and efficiently, and provide as low MAE measure as centralized methods under tasks of three types of linear regressions on real-world UCI datasets.
翻訳日:2022-09-20 12:57:31 公開日:2022-09-19
# Imitrob:6次元オブジェクトポインターのトレーニングと評価のための模倣学習データセット

Imitrob: Imitation Learning Dataset for Training and Evaluating 6D Object Pose Estimators ( http://arxiv.org/abs/2209.07976v2 )

ライセンス: Link先を確認
Jiri Sedlar, Karla Stepanova, Matus Tuna, Radoslav Skoviera, Jan Kristof Behrens, Gabriela Sejnova, Josef Sivic, Robert Babuska(参考訳) 本稿では,標準RGBカメラで捉えたタスクデモにおける手持ちツールの6次元ポーズ推定のためのトレーニングと評価手法を提案する。 6次元ポーズ推定手法の著しい進歩にもかかわらず、その性能は、通常、非常に遮蔽された物体に制限されており、これは、通常、物体が操作手によって部分的に遮蔽されるような模倣学習において一般的である。 現在、これらの条件に対する堅牢な6Dポーズ推定手法の開発を可能にするデータセットが不足している。 この問題を解決するために、模倣学習やその他のツールを持ちタスクを行うアプリケーションにおいて、6次元ポーズ推定を目的とした新しいデータセット(Imitrob)を収集する。 データセットには、3つの異なるツールのイメージシーケンスと、2つのカメラ視点、4人の被験者と左右の手による6つの操作タスクが含まれている。 それぞれの画像には、HTC Viveモーショントラッキング装置が取得した6Dオブジェクトのポーズの正確な地上真実測定が付属している。 データセットの使用は、様々な設定で最近の6Dオブジェクトポーズ推定法(DOPE)を訓練し評価することで実証される。 データセットとコードはhttp://imitrob.ciirc.cvut.cz/imitrobdataset.phpで公開されている。

This paper introduces a dataset for training and evaluating methods for 6D pose estimation of hand-held tools in task demonstrations captured by a standard RGB camera. Despite the significant progress of 6D pose estimation methods, their performance is usually limited for heavily occluded objects, which is a common case in imitation learning where the object is typically partially occluded by the manipulating hand. Currently, there is a lack of datasets that would enable the development of robust 6D pose estimation methods for these conditions. To overcome this problem, we collect a new dataset (Imitrob) aimed at 6D pose estimation in imitation learning and other applications where a human holds a tool and performs a task. The dataset contains image sequences of three different tools and six manipulation tasks with two camera viewpoints, four human subjects, and left/right hand. Each image is accompanied by an accurate ground truth measurement of the 6D object pose, obtained by the HTC Vive motion tracking device. The use of the dataset is demonstrated by training and evaluating a recent 6D object pose estimation method (DOPE) in various setups. The dataset and code are publicly available at http://imitrob.ciirc.cvut.cz/imitrobdataset.php.
翻訳日:2022-09-20 12:57:07 公開日:2022-09-19
# ノード埋め込みロバスト性の体系的評価

A Systematic Evaluation of Node Embedding Robustness ( http://arxiv.org/abs/2209.08064v2 )

ライセンス: Link先を確認
Alexandru Mara, Jefrey Lijffijt, Stephan G\"unnemann, Tijl De Bie(参考訳) ノード埋め込み手法はネットワークノードを低次元ベクトルにマッピングし、その後様々な下流予測タスクで使用できる。 近年,これらの手法の普及が著しく進んでいるが,入力データの摂動に対する頑健さはいまだによく分かっていない。 本稿では,ランダムおよび逆向きの中毒攻撃に対するノード埋め込みモデルの経験的ロバスト性を評価する。 本システム評価は,スキップグラム,行列因子分解,ディープニューラルネットワークに基づく代表埋め込み手法を対象とする。 ネットワーク特性とノードラベルを用いて計算したエッジの追加,削除,再切り替え戦略を比較した。 また,ラベルホモフィアおよびヘテロフィアがロバスト性に及ぼす影響についても検討した。 本稿では,下流ノード分類とネットワーク再構築性能の観点から,埋め込み可視化と定量化による定性的な結果を報告する。 ノードの分類はネットワーク再構築とは対照的に高い性能劣化に悩まされており、学位ベースの攻撃やラベルベースの攻撃が最も被害を受けやすい。

Node embedding methods map network nodes to low dimensional vectors that can be subsequently used in a variety of downstream prediction tasks. The popularity of these methods has significantly increased in recent years, yet, their robustness to perturbations of the input data is still poorly understood. In this paper, we assess the empirical robustness of node embedding models to random and adversarial poisoning attacks. Our systematic evaluation covers representative embedding methods based on Skip-Gram, matrix factorization, and deep neural networks. We compare edge addition, deletion and rewiring strategies computed using network properties as well as node labels. We also investigate the effect of label homophily and heterophily on robustness. We report qualitative results via embedding visualization and quantitative results in terms of downstream node classification and network reconstruction performances. We found that node classification suffers from higher performance degradation as opposed to network reconstruction, and that degree-based and label-based attacks are on average the most damaging.
翻訳日:2022-09-20 12:56:48 公開日:2022-09-19
# 自己注意型視覚ナビゲーションの実現に向けて

Towards self-attention based visual navigation in the real world ( http://arxiv.org/abs/2209.07043v2 )

ライセンス: Link先を確認
Jaime Ruiz-Serra, Jack White, Stephen Petrie, Tatiana Kameneva, Chris McCarthy(参考訳) 視覚誘導ナビゲーションは、タスク指向の決定を知らせるために複雑な視覚情報を処理する必要がある。 アプリケーションには、自律ロボット、自動運転車、そして人間の補助的ビジョンが含まれる。 重要な要素は、ピクセル空間における関連する特徴の抽出と選択であり、その上でアクションの選択をベースとし、機械学習技術が適している。 しかし、シミュレーションで訓練されたDeep Reinforcement Learningエージェントは、$\textit{reality gap}$として知られる知覚的差異のため、現実世界にデプロイされた時に満足できない結果を示すことが多い。 このギャップを埋めるためにまだ検討されていないアプローチは、自己注意である。 本稿では,(1)自己追跡に基づく3次元環境のナビゲーションのためのハイパーパラメータ空間の体系的探索と,その一般化能力を含む異なるハイパーパラメータ集合から観測される行動の質的評価,(2)エージェントの一般化能力とナビゲーション行動を改善するための戦略,(3)シミュレーションで訓練されたモデルが実世界のイメージをリアルタイムに有意義に処理できることを示す。 われわれの知る限り、3Dアクション空間をナビゲートする訓練に成功し、4000パラメータ未満で成功したセルフアテンションベースのエージェントの最初の実演である。

Vision guided navigation requires processing complex visual information to inform task-orientated decisions. Applications include autonomous robots, self-driving cars, and assistive vision for humans. A key element is the extraction and selection of relevant features in pixel space upon which to base action choices, for which Machine Learning techniques are well suited. However, Deep Reinforcement Learning agents trained in simulation often exhibit unsatisfactory results when deployed in the real-world due to perceptual differences known as the $\textit{reality gap}$. An approach that is yet to be explored to bridge this gap is self-attention. In this paper we (1) perform a systematic exploration of the hyperparameter space for self-attention based navigation of 3D environments and qualitatively appraise behaviour observed from different hyperparameter sets, including their ability to generalise; (2) present strategies to improve the agents' generalisation abilities and navigation behaviour; and (3) show how models trained in simulation are capable of processing real world images meaningfully in real time. To our knowledge, this is the first demonstration of a self-attention based agent successfully trained in navigating a 3D action space, using less than 4000 parameters.
翻訳日:2022-09-20 12:54:26 公開日:2022-09-19
# 効率的な深層学習のための自己注意プール

Self-Attentive Pooling for Efficient Deep Learning ( http://arxiv.org/abs/2209.07659v2 )

ライセンス: Link先を確認
Fang Chen, Gourav Datta, Souvik Kundu, Peter Beerel(参考訳) 機能マップの次元を積極的にトリミングし、リソース制約のあるコンピュータビジョンアプリケーションの推論計算とメモリフットプリントを削減する効率的なカスタムプール技術が、最近大きな注目を集めている。 しかし、事前プーリング作業はアクティベーションマップの局所的なコンテキストのみを抽出し、有効性を制限する。 対照的に,max/average pooling や strided convolution といった標準プーリング層のドロップイン代替として使用できる,新しい非局所的自己注意プーリング法を提案する。 提案するセルフアテンションモジュールはパッチ埋め込み,マルチヘッド・セルフアテンション,空間チャネル修復,さらにsgmoidアクティベーションと指数的ソフトマックスを用いる。 このセルフアテンション機構は、ダウンサンプリング時に非ローカルアクティベーションパッチ間の依存関係を効率的に集約する。 様々な畳み込みニューラルネットワーク(CNN)アーキテクチャを用いた標準オブジェクト分類および検出タスクに関する広範囲な実験により、提案手法が最先端(SOTA)プーリング技術よりも優れていることを示す。 特に、ImageNet上のMobileNet-V2の様々な変種に対する既存のプール技術のテスト精度を平均1.2%上回る。 初期層におけるアクティベーションマップのアグレッシブなダウンサンプリング(最大22倍のメモリ消費削減)により,本手法はイソメモリフットプリントを持つSOTA技術と比較して1.43%高いテスト精度を実現する。 これにより、初期のアクティベーションマップは複雑な視覚タスクに必要な高解像度画像のために、かなりの量のオンチップメモリを消費するため、マイクロコントローラのようなメモリに制約のあるデバイスにモデルをデプロイすることができます。 提案手法では,チャネルプルーニングの概念を利用してメモリフットプリントをさらに削減する。

Efficient custom pooling techniques that can aggressively trim the dimensions of a feature map and thereby reduce inference compute and memory footprint for resource-constrained computer vision applications have recently gained significant traction. However, prior pooling works extract only the local context of the activation maps, limiting their effectiveness. In contrast, we propose a novel non-local self-attentive pooling method that can be used as a drop-in replacement to the standard pooling layers, such as max/average pooling or strided convolution. The proposed self-attention module uses patch embedding, multi-head self-attention, and spatial-channel restoration, followed by sigmoid activation and exponential soft-max. This self-attention mechanism efficiently aggregates dependencies between non-local activation patches during down-sampling. Extensive experiments on standard object classification and detection tasks with various convolutional neural network (CNN) architectures demonstrate the superiority of our proposed mechanism over the state-of-the-art (SOTA) pooling techniques. In particular, we surpass the test accuracy of existing pooling techniques on different variants of MobileNet-V2 on ImageNet by an average of 1.2%. With the aggressive down-sampling of the activation maps in the initial layers (providing up to 22x reduction in memory consumption), our approach achieves 1.43% higher test accuracy compared to SOTA techniques with iso-memory footprints. This enables the deployment of our models in memory-constrained devices, such as micro-controllers (without losing significant accuracy), because the initial activation maps consume a significant amount of on-chip memory for high-resolution images required for complex vision tasks. Our proposed pooling method also leverages the idea of channel pruning to further reduce memory footprints.
翻訳日:2022-09-20 12:52:40 公開日:2022-09-19
# グラフニューラルネットワークに対するモデル反転攻撃

Model Inversion Attacks against Graph Neural Networks ( http://arxiv.org/abs/2209.07807v2 )

ライセンス: Link先を確認
Zaixi Zhang, Qi Liu, Zhenya Huang, Hao Wang, Chee-Kong Lee, Enhong Chen(参考訳) 多くのデータマイニングタスクは、個人(ノード)間の関係構造をモデル化するためにグラフに依存する。 関係データはセンシティブであることが多いため、グラフデータのプライバシリスクを緊急に評価する必要がある。 データ分析モデルに対する有名なプライバシ攻撃のひとつに、トレーニングデータセットに機密データを推論することを目的としたモデル反転攻撃がある。 グリッドライクなドメインでの成功にもかかわらず、グラフのような非グリッドドメインに直接モデル反転攻撃を適用すると、攻撃性能は低下する。 これは主にグラフのユニークな性質を考慮できなかったためである。 このギャップを埋めるために,本稿では,最先端のグラフ解析ツールであるグラフニューラルネットワーク(gnns)に対するモデル反転攻撃を体系的に研究する。 まず、攻撃者がターゲットGNNモデルにフルアクセス可能なホワイトボックス設定において、プライベートトレーニンググラフデータを推測するためにGraphMIを提案する。 グラフの自動エンコーダモジュールは、グラフトポロジー、ノード属性、およびエッジ推論のターゲットモデルパラメータを効率的に活用するために使用され、ランダムサンプリングモジュールは最終的に離散エッジをサンプリングすることができる。 さらに,攻撃者がGNN APIに問い合わせて分類結果を受信できるハードラベルブラックボックス設定では,勾配推定と強化学習(RL-GraphMI)に基づく2つの手法を提案する。 実験の結果,このような防御効果は十分ではないことが示され,プライバシー攻撃に対するより高度な防御が求められている。

Many data mining tasks rely on graphs to model relational structures among individuals (nodes). Since relational data are often sensitive, there is an urgent need to evaluate the privacy risks in graph data. One famous privacy attack against data analysis models is the model inversion attack, which aims to infer sensitive data in the training dataset and leads to great privacy concerns. Despite its success in grid-like domains, directly applying model inversion attacks on non-grid domains such as graph leads to poor attack performance. This is mainly due to the failure to consider the unique properties of graphs. To bridge this gap, we conduct a systematic study on model inversion attacks against Graph Neural Networks (GNNs), one of the state-of-the-art graph analysis tools in this paper. Firstly, in the white-box setting where the attacker has full access to the target GNN model, we present GraphMI to infer the private training graph data. Specifically, in GraphMI, a projected gradient module is proposed to tackle the discreteness of graph edges and preserve the sparsity and smoothness of graph features; a graph auto-encoder module is used to efficiently exploit graph topology, node attributes, and target model parameters for edge inference; a random sampling module can finally sample discrete edges. Furthermore, in the hard-label black-box setting where the attacker can only query the GNN API and receive the classification results, we propose two methods based on gradient estimation and reinforcement learning (RL-GraphMI). Our experimental results show that such defenses are not sufficiently effective and call for more advanced defenses against privacy attacks.
翻訳日:2022-09-20 12:52:11 公開日:2022-09-19
# FairGBM: フェアネス制約付きグラディエントブースティング

FairGBM: Gradient Boosting with Fairness Constraints ( http://arxiv.org/abs/2209.07850v2 )

ライセンス: Link先を確認
Andr\'e F Cruz and Catarina Bel\'em and Jo\~ao Bravo and Pedro Saleiro and Pedro Bizarro(参考訳) 勾配向上決定木(GBDT)に基づく機械学習(ML)アルゴリズムは、医療からファイナンスに至るまで、さまざまなミッションクリティカルなアプリケーションにわたる表形式のデータタスクに依然として好まれている。 しかし、GBDTアルゴリズムには偏見や差別的意思決定のリスクはない。 GBDTの人気とフェアMLの研究の急激なペースにもかかわらず、既存のインプロセッシング・フェアML手法はGBDTには適用できないか、列車の時間的オーバーヘッドが大きいか、あるいは高いクラス不均衡の問題に不適当である。 制約のないLightGBMと比較して,予測性能にはほとんど影響を与えず,公平な制約下でGBDTをトレーニングするための学習フレームワークであるFairGBMを提案する。 共通フェアネス測度は微分不可能であるため、スムーズな凸誤差率プロキシを用いた「プロキシ・ラグランジアン」定式化を用いて勾配に基づく最適化を実現する。 さらに、我々のオープンソース実装は、関連する作業と比較した場合のトレーニング時間の桁違いのスピードアップを示しており、実際の実践者によるFairGBMの普及を促進するための重要な側面である。

Machine Learning (ML) algorithms based on gradient boosted decision trees (GBDT) are still favored on many tabular data tasks across various mission critical applications, from healthcare to finance. However, GBDT algorithms are not free of the risk of bias and discriminatory decision-making. Despite GBDT's popularity and the rapid pace of research in fair ML, existing in-processing fair ML methods are either inapplicable to GBDT, incur in significant train time overhead, or are inadequate for problems with high class imbalance. We present FairGBM, a learning framework for training GBDT under fairness constraints with little to no impact on predictive performance when compared to unconstrained LightGBM. Since common fairness metrics are non-differentiable, we employ a "proxy-Lagrangian" formulation using smooth convex error rate proxies to enable gradient-based optimization. Additionally, our open-source implementation shows an order of magnitude speedup in training time when compared with related work, a pivotal aspect to foster the widespread adoption of FairGBM by real-world practitioners.
翻訳日:2022-09-20 12:51:47 公開日:2022-09-19
# 文脈情報を用いた半パラメトリックベストアーム識別

Semiparametric Best Arm Identification with Contextual Information ( http://arxiv.org/abs/2209.07330v2 )

ライセンス: Link先を確認
Masahiro Kato and Masaaki Imaizumi and Takuya Ishihara and Toru Kitagawa(参考訳) 確率的マルチアームバンディット問題における最適アーム識別と文脈情報(共変量)について検討した。 各ラウンドにおいて、コンテキスト情報を観察した後、過去の観察と現在の文脈を用いて治療アームを選択する。 本研究の目的は,文脈分布に限界のある最大報酬を有する治療アームである最善の治療アームを特定し,誤認の可能性を最小限に抑えることである。 まず、この問題に対する半パラメトリックな下限を導出し、ここでは、最適治療アームと最適治療アームの期待報酬のギャップを利害のパラメータとみなし、その他の全てのパラメータ、例えば、コンテキストに条件付けされた期待報酬をニュアンスパラメータとみなす。 次に,目標割当率を追跡するランダムサンプリング(rs)規則と拡張逆確率重み(aipw)推定器を用いた推奨規則からなる「文脈的rs-aipw戦略」を開発した。 提案したコンテキストRS-AIPW戦略は,予算が無限に進むと,誤同定確率の上限が半パラメトリック下限と一致し,ギャップが0に収束するため,最適である。

We study best-arm identification with a fixed budget and contextual (covariate) information in stochastic multi-armed bandit problems. In each round, after observing contextual information, we choose a treatment arm using past observations and current context. Our goal is to identify the best treatment arm, a treatment arm with the maximal expected reward marginalized over the contextual distribution, with a minimal probability of misidentification. First, we derive semiparametric lower bounds for this problem, where we regard the gaps between the expected rewards of the best and suboptimal treatment arms as parameters of interest, and all other parameters, such as the expected rewards conditioned on contexts, as the nuisance parameters. We then develop the "Contextual RS-AIPW strategy," which consists of the random sampling (RS) rule tracking a target allocation ratio and the recommendation rule using the augmented inverse probability weighting (AIPW) estimator. Our proposed Contextual RS-AIPW strategy is optimal because the upper bound for the probability of misidentification matches the semiparametric lower bound when the budget goes to infinity, and the gaps converge to zero.
翻訳日:2022-09-20 12:51:30 公開日:2022-09-19