このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221112となっている論文です。

PDF登録状況(公開日: 20221112)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子化学習のための部分スクラッチオフロッキーチケットの爆発

Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware Training ( http://arxiv.org/abs/2211.08544v1 )

ライセンス: Link先を確認
Yunshan Zhong, Mingbao Lin, Yuxin Zhang, Gongrui Nan, Fei Chao, Rongrong Ji(参考訳) 量子化アウェアトレーニング(qat)は、量子化ネットワークのパフォーマンスを保ちながら広く普及している。 現代のQATでは、全ての量子化重量がトレーニングプロセス全体に対して更新される。 本稿では,我々が観察した興味深い現象をもとに,この経験に挑戦する。 具体的には、量子化された重みの大部分が、いくつかのトレーニング期間を経て最適な量子化レベルに達します。 この単純で価値の高い観測は、無意味な更新を避けるために、残りのトレーニング期間でこれらの重みの勾配計算をゼロにするきっかけとなりました。 このチケットを効果的に見つけるために、フル精度のチケットと量子化レベルの距離が制御可能な閾値より小さい場合、重量を凍結する「抽選チケットスクラッカー」(LTS)と呼ばれるヒューリスティック手法を開発した。 驚いたことに、提案されたltsは一般的に、30\%-60\%の重量更新と15\%-30\%の後方通過のフロップを取り除き、それでも比較したベースラインと同等またはそれ以上の性能が得られる。 例えば、ベースラインと比較してLTSは2ビットのResNet-18を 1.41 %改善し、56 %の重量更新と28 %のFLOPを削減した。

Quantization-aware training (QAT) receives extensive popularity as it well retains the performance of quantized networks. In QAT, the contemporary experience is that all quantized weights are updated for an entire training process. In this paper, this experience is challenged based on an interesting phenomenon we observed. Specifically, a large portion of quantized weights reaches the optimal quantization level after a few training epochs, which we refer to as the partly scratch-off lottery ticket. This straightforward-yet-valuable observation naturally inspires us to zero out gradient calculations of these weights in the remaining training period to avoid meaningless updating. To effectively find the ticket, we develop a heuristic method, dubbed as lottery ticket scratcher (LTS), which freezes a weight once the distance between the full-precision one and its quantization level is smaller than a controllable threshold. Surprisingly, the proposed LTS typically eliminates 30\%-60\% weight updating and 15\%-30\% FLOPs of the backward pass, while still resulting on par with or even better performance than the compared baseline. For example, compared with the baseline, LTS improves 2-bit ResNet-18 by 1.41\%, eliminating 56\% weight updating and 28\% FLOPs of the backward pass.
翻訳日:2022-11-17 15:24:34 公開日:2022-11-12
# CXTrack: コンテキスト情報による3Dポイントクラウドトラッキングの改善

CXTrack: Improving 3D Point Cloud Tracking with Contextual Information ( http://arxiv.org/abs/2211.08542v1 )

ライセンス: Link先を確認
Tian-Xing Xu, Yuan-Chen Guo, Yu-Kun Lai, Song-Hai Zhang(参考訳) 3d単一物体追跡は、自動運転など多くのアプリケーションにおいて重要な役割を果たす。 外観のばらつきが大きいことや、咬合による点のスパーシティやセンサー能力の制限などにより、依然として課題となっている。 したがって、2つの連続するフレーム間のコンテキスト情報は、効果的なオブジェクト追跡に不可欠である。 しかし、そのような有用な情報を含む点はしばしば見過ごされ、既存の手法で抜け出され、重要な文脈知識の使用が不十分になる。 この問題に対処するために,CXTrackを提案する。CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークで,ConteXtual情報を利用して追跡結果を改善する。 具体的には、2つの連続するフレームと前のバウンディングボックスから点特徴を直接取り出し、コンテキスト情報を探索し、ターゲットキューを暗黙的に伝播するターゲット中心トランスフォーマーネットワークを設計する。 そこで本稿では,あらゆる大きさの物体の正確な位置決めを実現するために,新しい中心埋め込みモジュールを備えたトランスベース位置決めヘッドを提案する。 KITTI、nuScenes、Waymo Open Datasetの3つの大規模なデータセットに対する大規模な実験は、CXTrackが29FPSで実行中に最先端のトラッキングパフォーマンスを達成することを示している。

3D single object tracking plays an essential role in many applications, such as autonomous driving. It remains a challenging problem due to the large appearance variation and the sparsity of points caused by occlusion and limited sensor capabilities. Therefore, contextual information across two consecutive frames is crucial for effective object tracking. However, points containing such useful information are often overlooked and cropped out in existing methods, leading to insufficient use of important contextual knowledge. To address this issue, we propose CXTrack, a novel transformer-based network for 3D object tracking, which exploits ConteXtual information to improve the tracking results. Specifically, we design a target-centric transformer network that directly takes point features from two consecutive frames and the previous bounding box as input to explore contextual information and implicitly propagate target cues. To achieve accurate localization for objects of all sizes, we propose a transformer-based localization head with a novel center embedding module to distinguish the target from distractors. Extensive experiments on three large-scale datasets, KITTI, nuScenes and Waymo Open Dataset, show that CXTrack achieves state-of-the-art tracking performance while running at 29 FPS.
翻訳日:2022-11-17 15:12:03 公開日:2022-11-12
# LLEDA -- 生涯の自己監督型ドメイン適応

LLEDA -- Lifelong Self-Supervised Domain Adaptation ( http://arxiv.org/abs/2211.09027v1 )

ライセンス: Link先を確認
Mamatha Thota, Dewei Yi and Georgios Leontidis(参考訳) 生涯にわたるドメイン適応は、ドメイン間の差異と歴史的データの有効性のため、機械学習において依然として困難な課題である。 究極の目標は、以前に獲得した知識を保持しながら、分布シフトを学ぶことである。 補足学習システム(CLS)理論に着想を得て,LLEDA(Lifelong Self-Supervised Domain Adaptation)と呼ばれる新しいフレームワークを提案する。 LLEDAは、生のデータピクセルではなく隠れた表現を再生し、自己教師付き学習を用いてドメインに依存しない知識伝達を行うことによって、破滅的な忘れに対処する。 lledaはソースまたはターゲットドメインのラベルにアクセスせず、任意の時間に1つのドメインにアクセスするのみである。 大規模な実験により,提案手法はいくつかの他の手法よりも優れており,長期的適応が期待できるが,新しい領域に移動すると破滅的な忘れがちである。

Lifelong domain adaptation remains a challenging task in machine learning due to the differences among the domains and the unavailability of historical data. The ultimate goal is to learn the distributional shifts while retaining the previously gained knowledge. Inspired by the Complementary Learning Systems (CLS) theory, we propose a novel framework called Lifelong Self-Supervised Domain Adaptation (LLEDA). LLEDA addresses catastrophic forgetting by replaying hidden representations rather than raw data pixels and domain-agnostic knowledge transfer using self-supervised learning. LLEDA does not access labels from the source or the target domain and only has access to a single domain at any given time. Extensive experiments demonstrate that the proposed method outperforms several other methods and results in a long-term adaptation, while being less prone to catastrophic forgetting when transferred to new domains.
翻訳日:2022-11-17 14:18:04 公開日:2022-11-12
# 深層強化学習による道路網上のオンライン異常部分軌道検出

Online Anomalous Subtrajectory Detection on Road Networks with Deep Reinforcement Learning ( http://arxiv.org/abs/2211.08415v1 )

ライセンス: Link先を確認
Qianru Zhang, Zheng Wang, Cheng Long, Chao Huang, Siu-Ming Yiu, Yiding Liu, Gao Cong, Jieming Shi(参考訳) 異常軌道の検出は多くの位置ベースアプリケーションにおいて重要な課題となっている。 この課題には多くのアプローチが提案されているが、(1)軌道データ内の細粒度の異常を検出できないこと、(2)非データ駆動であること、(3)収集に要する十分な監督ラベルの要求など、様々な問題がある。 本稿では,既存の手法の問題点をすべて回避した新しい強化学習型ソリューションrl4oasdを提案する。 RL4OASDには2つのネットワークがあり、1つは道路ネットワークと軌道の特徴を学習し、もう1つは学習した特徴に基づいて異常なサブトラジェクトリを検出する。 2つの実データに対して大規模な実験を行い、その結果、我々のソリューションは最先端の手法(20~30%の改善)を著しく上回り、オンライン検出(新たに生成された各データポイントの処理に0.1ms未満の時間を要する)に効率的であることを示した。

Detecting anomalous trajectories has become an important task in many location-based applications. While many approaches have been proposed for this task, they suffer from various issues including (1) incapability of detecting anomalous subtrajectories, which are finer-grained anomalies in trajectory data, and/or (2) non-data driven, and/or (3) requirement of sufficient supervision labels which are costly to collect. In this paper, we propose a novel reinforcement learning based solution called RL4OASD, which avoids all aforementioned issues of existing approaches. RL4OASD involves two networks, one responsible for learning features of road networks and trajectories and the other responsible for detecting anomalous subtrajectories based on the learned features, and the two networks can be trained iteratively without labeled data. Extensive experiments are conducted on two real datasets, and the results show that our solution can significantly outperform the state-of-the-art methods (with 20-30% improvement) and is efficient for online detection (it takes less than 0.1ms to process each newly generated data point).
翻訳日:2022-11-16 16:04:20 公開日:2022-11-12
# physiq: 理学療法における運動のオフサイト品質評価

PhysiQ: Off-site Quality Assessment of Exercise in Physical Therapy ( http://arxiv.org/abs/2211.08245v1 )

ライセンス: Link先を確認
Hanchen David Wang, Meiyi Ma(参考訳) 身体療法(pt)は、運動性、機能、健康を回復し維持する上で重要である。 多くの現場活動や身体運動はセラピストや臨床医の監督の下で行われる。 しかし、監督の欠如、品質評価の欠如、自己修正などにより、自宅での運動の姿勢を正確に行うことはできない。 そこで本稿では,受動的感覚検出による運動活動の連続的追跡と定量的測定を行う新しいフレームワークであるphysiqを設計した。 本フレームワークでは, 類似性比較によるPTの進展に基づく分類と相対的品質による絶対品質を計測する, マルチタスク時空間シームズニューラルネットワークを新たに構築する。 physiqは運動の範囲、安定性、反復の3つの指標で運動をデジタル化し評価する。

Physical therapy (PT) is crucial for patients to restore and maintain mobility, function, and well-being. Many on-site activities and body exercises are performed under the supervision of therapists or clinicians. However, the postures of some exercises at home cannot be performed accurately due to the lack of supervision, quality assessment, and self-correction. Therefore, in this paper, we design a new framework, PhysiQ, that continuously tracks and quantitatively measures people's off-site exercise activity through passive sensory detection. In the framework, we create a novel multi-task spatio-temporal Siamese Neural Network that measures the absolute quality through classification and relative quality based on an individual's PT progress through similarity comparison. PhysiQ digitizes and evaluates exercises in three different metrics: range of motions, stability, and repetition.
翻訳日:2022-11-16 15:28:07 公開日:2022-11-12
# モチフトポロジーによるカクテルパーティー効果とマガーク効果のためのスパイクニューラルネットワークの改良

Motif-topology improved Spiking Neural Network for the Cocktail Party Effect and McGurk Effect ( http://arxiv.org/abs/2211.07641v1 )

ライセンス: Link先を確認
Shuncheng Jia and Tielin Zhang and Ruichen Zuo and Bo Xu(参考訳) ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)の複雑な機能形成において、ネットワークアーキテクチャと学習原則が重要な役割を担っている。 SNNは、動的スパイキングニューロン、機能的に指定されたアーキテクチャ、効率的な学習パラダイムなど、ANNよりも生物学的特徴を取り入れた新しい人工ネットワークであると考えられている。 ネットワークアーキテクチャは、ネットワークの機能の具現化も考慮されている。 本稿では,マルチ感覚統合と認知現象シミュレーションのためのモチーフトポロジー改善SNN(M-SNN)を提案する。 私たちがシミュレーションした認知現象シミュレーションにはカクテルパーティ効果とマクグルク効果が含まれており、これは多くの研究者によって議論されている。 我々のM-SNNは,ネットワークモチーフと呼ばれるメタ演算子によって構成されている。 3ノードネットワークの源は、空間的または時間的データセットから事前学習された人工的ネットワークからのトポロジーである。 単一感覚分類課題では,ネットワークモチーフトポロジを用いたM-SNNの精度は,使用せずに純粋なフィードフォワードネットワークトポロジよりも高かった。 多感覚統合タスクにおいて,人工ネットワークモチーフを用いたM-SNNの性能は,BRPを用いた最先端SNNよりも優れていた。 さらに、M-SNNは、より少ない計算コストでカクテルパーティー効果とマガーク効果をシミュレートできる。 人工ネットワークのモチーフは、SNNの多感覚統合に寄与し、認知現象をシミュレートする利点を提供する、いくつかの先行知識として考えられる。

Network architectures and learning principles are playing key in forming complex functions in artificial neural networks (ANNs) and spiking neural networks (SNNs). SNNs are considered the new-generation artificial networks by incorporating more biological features than ANNs, including dynamic spiking neurons, functionally specified architectures, and efficient learning paradigms. Network architectures are also considered embodying the function of the network. Here, we propose a Motif-topology improved SNN (M-SNN) for the efficient multi-sensory integration and cognitive phenomenon simulations. The cognitive phenomenon simulation we simulated includes the cocktail party effect and McGurk effect, which are discussed by many researchers. Our M-SNN constituted by the meta operator called network motifs. The source of 3-node network motifs topology from artificial one pre-learned from the spatial or temporal dataset. In the single-sensory classification task, the results showed the accuracy of M-SNN using network motif topologies was higher than the pure feedforward network topology without using them. In the multi-sensory integration task, the performance of M-SNN using artificial network motif was better than the state-of-the-art SNN using BRP (biologically-plausible reward propagation). Furthermore, the M-SNN could better simulate the cocktail party effect and McGurk effect with lower computational cost. We think the artificial network motifs could be considered as some prior knowledge that would contribute to the multi-sensory integration of SNNs and provide more benefits for simulating the cognitive phenomenon.
翻訳日:2022-11-16 13:14:24 公開日:2022-11-12
# 一般化相対エントロピー規則化による経験的リスク最小化

Empirical Risk Minimization with Generalized Relative Entropy Regularization ( http://arxiv.org/abs/2211.06617v1 )

ライセンス: Link先を確認
Samir M. Perlaza, Gaetan Bisson, I\~naki Esnaola, Alain Jean-Marie, Stefano Rini(参考訳) 相対エントロピー正則化(ERM-RER)を伴う経験的リスク最小化(ERM)問題は、基準測度が確率測度ではなくa~$\sigma$-finite測度であるという仮定の下で検討される。 この仮定は ERM-RER (g-ERM-RER) 問題を一般化し、モデルの集合に対する事前知識の組み入れにおいてより大きな柔軟性を実現する。 g-ERM-RER問題の解は、基準測度と相互に絶対的に連続するユニークな確率測度であることが示され、ERM問題に対するおそらくほぼ正しい(PAC)保証を示す。 与えられたデータセットに対して、実験的リスクは、g-ERM-RER問題に対する解からモデルがサンプリングされたときに、亜ガウス確率変数であることが示される。 最後に, g-ERM-RER問題の解から得られる偏差に対する経験的リスクの感度について検討した。 特に、感度の絶対値の期待値は、モデルとデータセットの間のラウタム情報の平方根によって、定数係数まで上界であることが示されている。

The empirical risk minimization (ERM) problem with relative entropy regularization (ERM-RER) is investigated under the assumption that the reference measure is a~$\sigma$-finite measure instead of a probability measure. This assumption leads to a generalization of the ERM-RER (g-ERM-RER) problem that allows for a larger degree of flexibility in the incorporation of prior knowledge over the set of models. The solution of the g-ERM-RER problem is shown to be a unique probability measure mutually absolutely continuous with the reference measure and to exhibit a probably-approximately-correct (PAC) guarantee for the ERM problem. For a given dataset, the empirical risk is shown to be a sub-Gaussian random variable when the models are sampled from the solution to the g-ERM-RER problem. Finally, the sensitivity of the expected empirical risk to deviations from the solution of the g-ERM-RER problem is studied. In particular, the expectation of the absolute value of sensitivity is shown to be upper bounded, up to a constant factor, by the square root of the lautum information between the models and the datasets.
翻訳日:2022-11-15 21:38:59 公開日:2022-11-12
# CACTO: 軌道最適化による連続的アクター批判 - グローバルな最適性を目指して

CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality ( http://arxiv.org/abs/2211.06625v1 )

ライセンス: Link先を確認
Gianluigi Grandesso, Gastone P. Rosati Papini, Patrick M. Wensing and Andrea Del Prete(参考訳) 本稿では、軌道最適化(TO)と強化学習(RL)を1つのフレームワークで組み合わせた動的システムの連続制御のための新しいアルゴリズムを提案する。 このアルゴリズムの背後にあるモチベーションは、非凸コスト関数を最小化するために連続非線形系に適用する場合のTOとRLの主な2つの制限である。 特に、検索が ``good''' の最小値近くで初期化されていない場合、ローカルな最小値で立ち往生する可能性がある。 一方、連続状態と制御空間を扱う場合、RLトレーニングプロセスは過度に長く、探索戦略に強く依存する可能性がある。 そこで,本アルゴリズムは,TO-guided RL ポリシサーチにより,TO の初期推定プロバイダとして使用すると,軌道最適化プロセスが局所最適値に収束しにくくなるような `good' 制御ポリシを学習する。 本手法は, 6次元状態の自動車モデルや3次元平面マニピュレータなど, 異なる動的システムによる非凸障害物回避を特徴とする到達問題に対して検証した。 この結果より, DDPG RLアルゴリズムよりも計算効率が良く, 局所最小値の回避にCACTOが有効であることが示唆された。

This paper presents a novel algorithm for the continuous control of dynamical systems that combines Trajectory Optimization (TO) and Reinforcement Learning (RL) in a single framework. The motivations behind this algorithm are the two main limitations of TO and RL when applied to continuous nonlinear systems to minimize a non-convex cost function. Specifically, TO can get stuck in poor local minima when the search is not initialized close to a ``good'' minimum. On the other hand, when dealing with continuous state and control spaces, the RL training process may be excessively long and strongly dependent on the exploration strategy. Thus, our algorithm learns a ``good'' control policy via TO-guided RL policy search that, when used as initial guess provider for TO, makes the trajectory optimization process less prone to converge to poor local optima. Our method is validated on several reaching problems featuring non-convex obstacle avoidance with different dynamical systems, including a car model with 6d state, and a 3-joint planar manipulator. Our results show the great capabilities of CACTO in escaping local minima, while being more computationally efficient than the DDPG RL algorithm.
翻訳日:2022-11-15 20:41:30 公開日:2022-11-12
# 力学系の学習:オープン量子システムダイナミクスからの例

Learning dynamical systems: an example from open quantum system dynamics ( http://arxiv.org/abs/2211.06678v1 )

ライセンス: Link先を確認
Pietro Novelli(参考訳) データから動的システムを学習するために設計された機械学習アルゴリズムは、観測されたダイナミクスを予測、制御、解釈するために使用できる。 この研究では、オープン量子系力学の文脈において、そのようなアルゴリズムの1つ、すなわちクープマン演算子学習の使用を例示する。 我々は,小さなスピンチェーンのダイナミクスとデファスゲートを組み合わせることにより,クープマン作用素学習が密度行列の進化だけでなく,系に関連する全ての物理観測性も効率的に学習する手法であることを示す。 最後に、学習されたkoopman演算子のスペクトル分解を利用して、基礎となるダイナミクスによって従う対称性をデータから直接推測する方法を示す。

Machine learning algorithms designed to learn dynamical systems from data can be used to forecast, control and interpret the observed dynamics. In this work we exemplify the use of one of such algorithms, namely Koopman operator learning, in the context of open quantum system dynamics. We will study the dynamics of a small spin chain coupled with dephasing gates and show how Koopman operator learning is an approach to efficiently learn not only the evolution of the density matrix, but also of every physical observable associated to the system. Finally, leveraging the spectral decomposition of the learned Koopman operator, we show how symmetries obeyed by the underlying dynamics can be inferred directly from data.
翻訳日:2022-11-15 20:41:07 公開日:2022-11-12
# 結合型生物地球化学物理モデルのベイズ学習

Bayesian Learning of Coupled Biogeochemical-Physical Models ( http://arxiv.org/abs/2211.06714v1 )

ライセンス: Link先を確認
Abhinav Gupta and Pierre F. J. Lermusiaux(参考訳) 海洋生態系の予測モデルは様々なニーズに使われている。 わずかな測定と無数の海洋過程の限定的な理解のため、不確実性は存在する。 パラメータ値にはモデル不確実性、多様なパラメータ化を伴う関数形式、必要となる複雑さのレベル、したがって状態フィールドがある。 本研究では,候補モデルの空間における補間と新しいモデルの発見を可能にする原理的ベイズモデル学習手法を開発し,状態場とパラメータ値,およびすべての学習量の連立確率分布を推定する。 偏微分方程式 (pdes) に支配される高次元・多分野力学の課題を, 状態拡張と計算効率の良いガウス混合モデル, 動的直交フィルタを用いて解決する。 我々の革新には、候補モデルを単一の一般モデルに統一する特別な確率的パラメータと、高密度候補モデル空間を生成する確率的部分関数近似が含まれる。 それらは多くの候補モデルを扱うことができ、それらはおそらく正確ではなく、互換性のあるモデルや組み込みモデルで未知の機能形式を学ぶことができる。 我々の新しい方法論は一般化可能であり、解釈可能であり、新しい手法を発見するためにモデルの空間から外挿する。 我々は,3-5成分生態系モデルと結合した海山を流れる流れに基づく一連の双対実験を行った。 学習スキルを定量化し,ハイパーパラメータに対する収束度と感度を評価する。 我々のPDEフレームワークはモデル候補の識別に成功し、高密度関数空間を探索することで事前知識の欠如を学習し、非ガウス統計を捉えながら関節確率を更新する。 データを最もよく説明するパラメータ値とモデル定式化が識別される。

Predictive models for marine ecosystems are used for a variety of needs. Due to sparse measurements and limited understanding of the myriad of ocean processes, there is however uncertainty. There is model uncertainty in the parameter values, functional forms with diverse parameterizations, level of complexity needed, and thus in the state fields. We develop a principled Bayesian model learning methodology that allows interpolation in the space of candidate models and discovery of new models, all while estimating state fields and parameter values, as well as the joint probability distributions of all learned quantities. We address the challenges of high-dimensional and multidisciplinary dynamics governed by partial differential equations (PDEs) by using state augmentation and the computationally efficient Gaussian Mixture Model - Dynamically Orthogonal filter. Our innovations include special stochastic parameters to unify candidate models into a single general model and stochastic piecewise function approximations to generate dense candidate model spaces. They allow handling many candidate models, possibly none of which are accurate, and learning elusive unknown functional forms in compatible and embedded models. Our new methodology is generalizable and interpretable and extrapolates out of the space of models to discover new ones. We perform a series of twin experiments based on flows past a seamount coupled with three-to-five component ecosystem models, including flows with chaotic advection. We quantify learning skills, and evaluate convergence and sensitivity to hyper-parameters. Our PDE framework successfully discriminates among model candidates, learns in the absence of prior knowledge by searching in dense function spaces, and updates joint probabilities while capturing non-Gaussian statistics. The parameter values and model formulations that best explain the data are identified.
翻訳日:2022-11-15 20:40:54 公開日:2022-11-12
# PriMask: モバイルクラウド推論のためのカスケードおよび衝突耐性データマスキング

PriMask: Cascadable and Collusion-Resilient Data Masking for Mobile Cloud Inference ( http://arxiv.org/abs/2211.06716v1 )

ライセンス: Link先を確認
Linshan Jiang, Qun Song, Rui Tan, Mo Li(参考訳) 大規模深層モデルに基づく推論タスクには,モバイルクラウドのオフロードが不可欠である。 しかし、プライバシに富んだ推測データをクラウドに送信することは懸念を引き起こす。 本稿では,モバイル端末がマスネットと呼ばれる秘密の小型ニューラルネットワークを用いて送信前のデータをマスキングするシステムprimuskの設計について述べる。 PriMaskは、データを復元したり、特定のプライベート属性を抽出するクラウドの能力を著しく低下させる。 MaskNetは、クラウドの推論サービスを変更することなく、モバイルがシームレスにその使用をオプトインまたはオフできる、というケースがあります。 さらに、モバイルは異なるマスクネットを使用するため、クラウドと一部のモバイルとの結合は、他のモバイルに対する保護を弱めない。 そこで我々は,新しいMaskNetを(2秒で)高速に生成するニューラルネットワークをトレーニングするために, {\em split adversarial learning} 法を考案した。 多様なモダリティと複雑さを持つ3つのモバイルセンシングアプリケーション、すなわち、人間の活動認識、都市環境のクラウドセンシング、運転行動認識に適用する。 結果は、3つのアプリケーションすべてでPriMaskの有効性を示している。

Mobile cloud offloading is indispensable for inference tasks based on large-scale deep models. However, transmitting privacy-rich inference data to the cloud incurs concerns. This paper presents the design of a system called PriMask, in which the mobile device uses a secret small-scale neural network called MaskNet to mask the data before transmission. PriMask significantly weakens the cloud's capability to recover the data or extract certain private attributes. The MaskNet is em cascadable in that the mobile can opt in to or out of its use seamlessly without any modifications to the cloud's inference service. Moreover, the mobiles use different MaskNets, such that the collusion between the cloud and some mobiles does not weaken the protection for other mobiles. We devise a {\em split adversarial learning} method to train a neural network that generates a new MaskNet quickly (within two seconds) at run time. We apply PriMask to three mobile sensing applications with diverse modalities and complexities, i.e., human activity recognition, urban environment crowdsensing, and driver behavior recognition. Results show PriMask's effectiveness in all three applications.
翻訳日:2022-11-15 20:40:25 公開日:2022-11-12
# 深層学習による説明可能性と教育のための合成癌組織学

Deep Learning Generates Synthetic Cancer Histology for Explainability and Education ( http://arxiv.org/abs/2211.06522v1 )

ライセンス: Link先を確認
James M. Dolezal, Rachelle Wolk, Hanna M. Hieromnimon, Frederick M. Howard, Andrew Srisuwananukorn, Dmitry Karpeyev, Siddhi Ramesh, Sara Kochanny, Jung Woo Kwon, Meghana Agni, Richard C. Simon, Chandni Desai, Raghad Kherallah, Tung D. Nguyen, Jefree J. Schulte, Kimberly Cole, Galina Khramtsova, Marina Chiara Garassino, Aliya N. Husain, Huihua Li, Robert Grossman, Nicole A. Cipriani, Alexander T. Pearson(参考訳) ディープニューラルネットワークを含む人工知能(AI)の手法は、人間の病理学者と一致したり、超えたりできる精度で、定期的な組織学から腫瘍の迅速な分子分類を提供することができる。 ニューラルネットワークがどのように予測を下すかは依然として大きな課題だが、説明可能性ツールは、対応する組織学的特徴が十分に理解されていないときにモデルが何を学んだかを理解するのに役立つ。 conditional generative adversarial networks (cgans)は、合成画像を生成し、画像クラス間の微妙な違いを示すaiモデルである。 ここでは,cGANを用いて分子サブタイプの腫瘍を分類し,関連する組織学的特徴を呈するモデルを記述する。 我々は cGAN を活用して, サブタイプ形態の理解を改善するために, クラスおよびレイヤブレンディングの可視化を作成する。 最後に, 病理研修生の教育に人工組織学を応用し, 明快で直感的なcGAN視覚化が腫瘍生物学の組織学的発現の人間的理解を補強し, 改善することを示す。

Artificial intelligence (AI) methods including deep neural networks can provide rapid molecular classification of tumors from routine histology with accuracy that can match or exceed human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools can help provide insights into what models have learned when corresponding histologic features are poorly understood. Conditional generative adversarial networks (cGANs) are AI models that generate synthetic images and illustrate subtle differences between image classes. Here, we describe the use of a cGAN for explaining models trained to classify molecularly-subtyped tumors, exposing associated histologic features. We leverage cGANs to create class- and layer-blending visualizations to improve understanding of subtype morphology. Finally, we demonstrate the potential use of synthetic histology for augmenting pathology trainee education and show that clear, intuitive cGAN visualizations can reinforce and improve human understanding of histologic manifestations of tumor biology
翻訳日:2022-11-15 20:20:59 公開日:2022-11-12
# kinematics transformer:transformerを用いたソフトロボットの逆モデリング問題を解決する

Kinematics Transformer: Solving The Inverse Modeling Problem of Soft Robots using Transformers ( http://arxiv.org/abs/2211.06643v1 )

ライセンス: Link先を確認
Abdelrahman Alkhodary, Berke Gur(参考訳) ソフトロボットマニピュレータは、海洋環境などの脆弱な環境において、従来の剛性マニピュレータよりも多くの利点を提供する。 しかし, ロボットの形状, 動き, 力制御に必要な解析的逆モデルの開発は難しい問題である。 解析モデルの代替として、強力な機械学習手法を用いて数値モデルを学習することができる。 本稿では,ソフトロボット四肢の正確な逆運動モデルを開発するために,Kinematics Transformerを提案する。 提案手法は,逆運動学問題を逐次予測問題として再キャストし,トランスアーキテクチャに基づく。 数値シミュレーションにより,提案手法がソフト肢の制御に効果的に利用できることが明らかとなった。 ベンチマーク研究は、提案手法がベースラインフィードフォワードニューラルネットワークよりも精度と精度が高いことも明らかにした。

Soft robotic manipulators provide numerous advantages over conventional rigid manipulators in fragile environments such as the marine environment. However, developing analytic inverse models necessary for shape, motion, and force control of such robots remains a challenging problem. As an alternative to analytic models, numerical models can be learned using powerful machine learned methods. In this paper, the Kinematics Transformer is proposed for developing accurate and precise inverse kinematic models of soft robotic limbs. The proposed method re-casts the inverse kinematics problem as a sequential prediction problem and is based on the transformer architecture. Numerical simulations reveal that the proposed method can effectively be used in controlling a soft limb. Benchmark studies also reveal that the proposed method has better accuracy and precision compared to the baseline feed-forward neural network
翻訳日:2022-11-15 20:03:53 公開日:2022-11-12
# スペクトルグラフアルゴリズムを用いたトランスフォーマとオートエンコーダの統合による分子データの希薄化予測

Integrating Transformer and Autoencoder Techniques with Spectral Graph Algorithms for the Prediction of Scarcely Labeled Molecular Data ( http://arxiv.org/abs/2211.06759v1 )

ライセンス: Link先を確認
Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei(参考訳) 分子科学や生物学的科学では、実験は高価で時間がかかり、しばしば倫理的な制約を受ける。 そのため、小さなデータセットや少ないラベルのデータセットから望ましいプロパティを予測するという困難なタスクに直面することが多い。 転送学習は有利であるが、関連する大規模データセットの存在が必要である。 本稿では,merriman-bence-osher (mbo) 技術を用いた3つのグラフモデルを提案する。 特に、グラフベースのmboスキームの修正は、少ないラベルのデータセットを扱うために、自家製のトランスフォーマーやオートエンコーダなど、最先端の技術と統合されている。 さらに、コンセンサス技術についても詳述する。 提案モデルは5つのベンチマークデータセットを用いて検証される。 また,小規模データセットにおける性能の良さで知られているサポートベクターマシン,ランダムフォレスト,勾配強化決定木など,競合する他の手法と徹底的に比較する。 残余相似度(R-S)スコアとR-S指標を用いて各種手法の性能解析を行った。 大規模計算実験と理論解析により、データセットの1%をラベル付きデータとして使用しても、新しいモデルは非常によく機能することが示された。

In molecular and biological sciences, experiments are expensive, time-consuming, and often subject to ethical constraints. Consequently, one often faces the challenging task of predicting desirable properties from small data sets or scarcely-labeled data sets. Although transfer learning can be advantageous, it requires the existence of a related large data set. This work introduces three graph-based models incorporating Merriman-Bence-Osher (MBO) techniques to tackle this challenge. Specifically, graph-based modifications of the MBO scheme is integrated with state-of-the-art techniques, including a home-made transformer and an autoencoder, in order to deal with scarcely-labeled data sets. In addition, a consensus technique is detailed. The proposed models are validated using five benchmark data sets. We also provide a thorough comparison to other competing methods, such as support vector machines, random forests, and gradient boosted decision trees, which are known for their good performance on small data sets. The performances of various methods are analyzed using residue-similarity (R-S) scores and R-S indices. Extensive computational experiments and theoretical analysis show that the new models perform very well even when as little as 1% of the data set is used as labeled data.
翻訳日:2022-11-15 20:03:39 公開日:2022-11-12
# 独立の前提の定式化

Formalizing the presumption of independence ( http://arxiv.org/abs/2211.06738v1 )

ライセンス: Link先を確認
Paul Christiano, Eric Neyman, Mark Xu(参考訳) 数学的証明は、確実な結論を導くことを目的としているが、非常に類似した推論プロセスを使用して、修正に開放された不確実な推定を行うことができる。 そのような推論における重要な要素は、$X$と$Y$の相関関係に関する具体的な情報がない場合に、$\mathbb{E}[XY] = \mathbb{E}[X] \mathbb{E}[Y]$の"デフォルト"推定値を使用することである。 このヒューリスティックに基づく推論は一般的であり、直感的に説得力があり、しばしば非常に成功した。 本稿では,このタイプのデファシブル推論の形式化の可能性として,ヒューリスティックな推定器の概念を紹介する。 既存の候補に満たされないヒューリスティック推定器に対して直感的に望ましいコヒーレンス特性のセットを導入する。 独立の仮定の直観的に妥当な応用を形式化するヒューリスティックな推定器は、スプリアスな議論を受け入れることなく存在するのか?

Mathematical proof aims to deliver confident conclusions, but a very similar process of deduction can be used to make uncertain estimates that are open to revision. A key ingredient in such reasoning is the use of a "default" estimate of $\mathbb{E}[XY] = \mathbb{E}[X] \mathbb{E}[Y]$ in the absence of any specific information about the correlation between $X$ and $Y$, which we call *the presumption of independence*. Reasoning based on this heuristic is commonplace, intuitively compelling, and often quite successful -- but completely informal. In this paper we introduce the concept of a heuristic estimator as a potential formalization of this type of defeasible reasoning. We introduce a set of intuitively desirable coherence properties for heuristic estimators that are not satisfied by any existing candidates. Then we present our main open problem: is there a heuristic estimator that formalizes intuitively valid applications of the presumption of independence without also accepting spurious arguments?
翻訳日:2022-11-15 19:54:13 公開日:2022-11-12
# 一般化分布意味論と分布の射影族

The generalised distribution semantics and projective families of distributions ( http://arxiv.org/abs/2211.06751v1 )

ライセンス: Link先を確認
Felix Weitk\"amper(参考訳) 確率論理プログラミングの基礎となる分布セマンティクスを,その本質的概念,自由ランダム成分の分離,決定論的部分の抽出により一般化する。 これは、確率的データベース、確率的有限モデル理論、離散持ち上げベイズネットワークからフレームワークを包含する、論理プログラミング以外の中核的な考えを抽象化する。 To demonstrate the usefulness of such a general approach, we completely characterise the projective families of distributions representable in the generalised distribution semantics and we demonstrate both that large classes of interesting projective families cannot be represented in a generalised distribution semantics and that already a very limited fragment of logic programming (acyclic determinate logic programs) in the determinsitic part suffices to represent all those projective families that are representable in the generalised distribution semantics at all.

We generalise the distribution semantics underpinning probabilistic logic programming by distilling its essential concept, the separation of a free random component and a deterministic part. This abstracts the core ideas beyond logic programming as such to encompass frameworks from probabilistic databases, probabilistic finite model theory and discrete lifted Bayesian networks. To demonstrate the usefulness of such a general approach, we completely characterise the projective families of distributions representable in the generalised distribution semantics and we demonstrate both that large classes of interesting projective families cannot be represented in a generalised distribution semantics and that already a very limited fragment of logic programming (acyclic determinate logic programs) in the determinsitic part suffices to represent all those projective families that are representable in the generalised distribution semantics at all.
翻訳日:2022-11-15 19:53:51 公開日:2022-11-12
# eコマースにおけるダークパターン:データセットとそのベースライン評価

Dark patterns in e-commerce: a dataset and its baseline evaluations ( http://arxiv.org/abs/2211.06543v1 )

ライセンス: Link先を確認
Yuki Yada, Jiaying Feng, Tsuneo Matsumoto, Nao Fukushima, Fuyuko Kido, Hayato Yamana(参考訳) オンラインサービスのユーザーインターフェースデザインであるダークパターンは、意図しないアクションをユーザに誘導する。 近年、プライバシーと公平性の問題としてダークパターンが提起されている。 このように、暗黒パターンの検出に関する幅広い研究が待ち望まれている。 本研究では,ダークパターン検出のためのデータセットを構築し,最先端機械学習手法によるベースライン検出性能を作成した。 オリジナルのデータセットは、ショッピングサイトから1,818の暗いパターンのテキストからなるMathurらの研究から2019年に得られた。 そして、Mathurらのデータセットと同じウェブサイトからテキストを検索することで、負のサンプル、すなわち非ダークパターンのテキストを追加した。 また,最新の機械学習手法を用いて,BERT,RoBERTa,ALBERT,XLNetなどの検出精度をベースラインとして示す。 5倍のクロスバリデーションの結果,RoBERTaでは0.975の精度を達成できた。 データセットとベースラインのソースコードはhttps://github.com/yamanalab/ec-darkpatternで入手できる。

Dark patterns, which are user interface designs in online services, induce users to take unintended actions. Recently, dark patterns have been raised as an issue of privacy and fairness. Thus, a wide range of research on detecting dark patterns is eagerly awaited. In this work, we constructed a dataset for dark pattern detection and prepared its baseline detection performance with state-of-the-art machine learning methods. The original dataset was obtained from Mathur et al.'s study in 2019, which consists of 1,818 dark pattern texts from shopping sites. Then, we added negative samples, i.e., non-dark pattern texts, by retrieving texts from the same websites as Mathur et al.'s dataset. We also applied state-of-the-art machine learning methods to show the automatic detection accuracy as baselines, including BERT, RoBERTa, ALBERT, and XLNet. As a result of 5-fold cross-validation, we achieved the highest accuracy of 0.975 with RoBERTa. The dataset and baseline source codes are available at https://github.com/yamanalab/ec-darkpattern.
翻訳日:2022-11-15 19:52:31 公開日:2022-11-12
# オンラインk- Search問題に対するPareto-Optimal Learning-Augmented Algorithms

Pareto-Optimal Learning-Augmented Algorithms for Online k-Search Problems ( http://arxiv.org/abs/2211.06567v1 )

ライセンス: Link先を確認
Russell Lee, Bo Sun, John C.S. Lui, Mohammad Hajiesmaili(参考訳) 本稿では,k-max および k-min 探索問題に対するオンラインアルゴリズムの設計に機械学習による予測を利用する。 我々のアルゴリズムは、予測が正確である場合(すなわち一貫性)、あるいは予測が任意に間違っている場合(すなわち堅牢性)に、オフラインアルゴリズムと競合する性能を後から得ることができる。 さらに, このアルゴリズムは, k-max や k-min 探索のための他のアルゴリズムが, 与えられたロバスト性の整合性を改善することができないような, 整合性とロバスト性の間のパレート最適トレードオフを達成したことを示す。 アルゴリズムのパフォーマンスを示すために、ビットコインを売買する実験で評価します。

This paper leverages machine learned predictions to design online algorithms for the k-max and k-min search problems. Our algorithms can achieve performances competitive with the offline algorithm in hindsight when the predictions are accurate (i.e., consistency) and also provide worst-case guarantees when the predictions are arbitrarily wrong (i.e., robustness). Further, we show that our algorithms have attained the Pareto-optimal trade-off between consistency and robustness, where no other algorithms for k-max or k-min search can improve on the consistency for a given robustness. To demonstrate the performance of our algorithms, we evaluate them in experiments of buying and selling Bitcoin.
翻訳日:2022-11-15 19:52:15 公開日:2022-11-12
# 連続時間ネットワークモデリングのための有意な結合グラフニューラルネットワーク

Significant Ties Graph Neural Networks for Continuous-Time Temporal Networks Modeling ( http://arxiv.org/abs/2211.06590v1 )

ライセンス: Link先を確認
Jiayun Wu, Tao Jia, Yansong Wang, Li Tao(参考訳) 時間的ネットワークは複雑な進化システムのモデリングに適している。 ソーシャルネットワーク分析、レコメンデーションシステム、疫学など、幅広い応用がある。 近年、このような動的システムのモデリングは多くの領域で大きな注目を集めている。 しかし、既存のほとんどのアプローチは、時間的ネットワークの離散スナップショットを取って、同じ重要性で全てのイベントをモデル化する。 本稿では,有意な関係を捕捉し記述する新しいフレームワークである,有意なTies Graph Neural Networks (STGNN)を提案する。 相互作用の多様性をより良くモデル化するために、STGNNは、最も重要な歴史的隣人の情報を整理し、ノードペアの重要性を適応的に取得する新しい集約メカニズムを導入した。 4つの実ネットワークの実験結果から,提案手法の有効性が示された。

Temporal networks are suitable for modeling complex evolving systems. It has a wide range of applications, such as social network analysis, recommender systems, and epidemiology. Recently, modeling such dynamic systems has drawn great attention in many domains. However, most existing approaches resort to taking discrete snapshots of the temporal networks and modeling all events with equal importance. This paper proposes Significant Ties Graph Neural Networks (STGNN), a novel framework that captures and describes significant ties. To better model the diversity of interactions, STGNN introduces a novel aggregation mechanism to organize the most significant historical neighbors' information and adaptively obtain the significance of node pairs. Experimental results on four real networks demonstrate the effectiveness of the proposed framework.
翻訳日:2022-11-15 19:52:01 公開日:2022-11-12
# データ強化, カリキュラム学習, マルチタスク強化による DistilHuBERT のノイズのない条件に対するロバスト性の改善

Improving the Robustness of DistilHuBERT to Unseen Noisy Conditions via Data Augmentation, Curriculum Learning, and Multi-Task Enhancement ( http://arxiv.org/abs/2211.06562v1 )

ライセンス: Link先を確認
Heitor R. Guimar\~aes, Arthur Pimentel, Anderson R. Avila, Mehdi Rezagholizadeh, Tiago H. Falk(参考訳) 自己教師型音声表現学習は、音声信号から意味のある要素を抽出することを目的としており、後に音声や感情認識など、様々な下流タスクにまたがって使用できる。 しかし、HuBERTのような既存のモデルはかなり大きいため、エッジ音声アプリケーションには適さない可能性がある。 さらに、現実的な応用は、一般的にノイズや室内残響による音声の劣化を伴うため、モデルがそのような環境要因に対して堅牢な表現を提供する必要がある。 そこで本研究では,ヒューバートを元のサイズのごく一部に分解するいわゆるディズティルフベールモデル(distilhubert model)を構築し,以下の3つの修正を加えた。 (i) 生徒モデルが教師モデルからクリーン表現を蒸留する必要がある間に、学習データをノイズと残響で強化すること。 (ii)モデルトレインとして騒音レベルが増加するカリキュラム学習手法を導入し、コンバージェンスとより堅牢な表現の作成を支援する。 三 モデルが蒸留作業と共同でクリーンな波形を再構築するマルチタスク学習手法を導入することにより、表現に対する環境のさらなる堅牢性を確保するための拡張ステップとして機能する。 3つのスーパーブタスクに関する実験では、従来のディチルヒューベルト法よりも元のヒューバート法の方が優れていることが示され、そこでは'in the wild' のエッジ音声アプリケーションに対する提案手法の利点が示された。

Self-supervised speech representation learning aims to extract meaningful factors from the speech signal that can later be used across different downstream tasks, such as speech and/or emotion recognition. Existing models, such as HuBERT, however, can be fairly large thus may not be suitable for edge speech applications. Moreover, realistic applications typically involve speech corrupted by noise and room reverberation, hence models need to provide representations that are robust to such environmental factors. In this study, we build on the so-called DistilHuBERT model, which distils HuBERT to a fraction of its original size, with three modifications, namely: (i) augment the training data with noise and reverberation, while the student model needs to distill the clean representations from the teacher model; (ii) introduce a curriculum learning approach where increasing levels of noise are introduced as the model trains, thus helping with convergence and with the creation of more robust representations; and (iii) introduce a multi-task learning approach where the model also reconstructs the clean waveform jointly with the distillation task, thus also acting as an enhancement step to ensure additional environment robustness to the representation. Experiments on three SUPERB tasks show the advantages of the proposed method not only relative to the original DistilHuBERT, but also to the original HuBERT, thus showing the advantages of the proposed method for ``in the wild'' edge speech applications.
翻訳日:2022-11-15 19:36:21 公開日:2022-11-12
# ダイナミックビジョンセンサのための照明による色再構成

Illumination-Based Color Reconstruction for the Dynamic Vision Sensor ( http://arxiv.org/abs/2211.06695v1 )

ライセンス: Link先を確認
Khen Cohen, Omer Hershko, Homer Levy, David Mendlovic, and Dan Raviv(参考訳) この研究は、ダイナミック・ビジョン・センサー(DVS)を介して色付き画像を再構成する技術の現状を示す。 dvsは、撮像された波長(色)や強度レベルに関する情報を持たない、輝度の2値変化のみを示すイメージセンサである。 本稿では,dvsとアクティブカラー光源を用いて全空間分解能カラー画像を再構成する新しい手法を提案する。 我々はDVS応答を分析し、線形ベースと畳み込みニューラルネットワークの2つの再構成アルゴリズムを提案する。 また,照明や距離などの環境条件の変化に対して,アルゴリズムの堅牢性を示す。 最後に, 過去の作品と比較し, 成果の達成方法を示す。

This work demonstrates a novel, state of the art method to reconstruct colored images via the Dynamic Vision Sensor (DVS). The DVS is an image sensor that indicates only a binary change in brightness, with no information about the captured wavelength (color), or intensity level. We present a novel method to reconstruct a full spatial resolution colored image with the DVS and an active colored light source. We analyze the DVS response and present two reconstruction algorithms: Linear based and Convolutional Neural Network Based. In addition, we demonstrate our algorithm robustness to changes in environmental conditions such as illumination and distance. Finally, comparing with previous works, we show how we reach the state of the art results.
翻訳日:2022-11-15 19:35:30 公開日:2022-11-12
# 深層学習を用いたヒト冠動脈画像における構造制約仮想組織染色

Structural constrained virtual histology staining for human coronary imaging using deep learning ( http://arxiv.org/abs/2211.06737v1 )

ライセンス: Link先を確認
Xueshen Li, Hongshan Liu, Xiaoyu Song, Brigitta C. Brott, Silvio H. Litovsky, Yu Gan(参考訳) 冠動脈疾患(CAD)の診断には病理組織学的検討が重要である。 しかし、組織学は侵襲的で時間を要する。 本稿では,オプティカル・コヒーレンス・トモグラフィ(oct)画像を用いて仮想組織学的染色を行い,リアルタイムの組織学的可視化を実現することを提案する。 我々は,冠動脈CT像を仮想組織像に転送する深層学習ネットワーク,すなわちCorary-GANを開発した。 冠状動脈造影像の構造的制約を特に考慮し,従来のGAN法よりも優れた画像生成性能を実現する。 実験の結果, 冠状ganは実際の組織像と類似した仮想組織像を生成し, ヒト冠状動脈の層を明らかにした。

Histopathological analysis is crucial in artery characterization for coronary artery disease (CAD). However, histology requires an invasive and time-consuming process. In this paper, we propose to generate virtual histology staining using Optical Coherence Tomography (OCT) images to enable real-time histological visualization. We develop a deep learning network, namely Coronary-GAN, to transfer coronary OCT images to virtual histology images. With a special consideration on the structural constraints in coronary OCT images, our method achieves better image generation performance than the conventional GAN-based method. The experimental results indicate that Coronary-GAN generates virtual histology images that are similar to real histology images, revealing the human coronary layers.
翻訳日:2022-11-15 19:35:20 公開日:2022-11-12
# 均一暗号を用いたプライバシー保護型クレジットカード不正検出

Privacy-Preserving Credit Card Fraud Detection using Homomorphic Encryption ( http://arxiv.org/abs/2211.06675v1 )

ライセンス: Link先を確認
David Nugent(参考訳) クレジットカード詐欺は金融機関とその顧客が継続的に直面する問題であり、不正検知システムによって軽減される。 しかし、これらのシステムは、顧客のプライバシーの欠如と、カードプロバイダにデータ侵害の脆弱性をもたらす、機密性の高い顧客トランザクションデータを使用する必要がある。 本稿では,同型暗号を用いた暗号化トランザクションにおけるプライベート不正検出システムを提案する。 XGBoostとフィードフォワード分類器ニューラルネットワークという2つのモデルは、平文データに基づく不正検出として訓練されている。 その後、プライベート推論に同型暗号化を使用するモデルに変換される。 レイテンシ、ストレージ、検出結果について、ユースケースとデプロイの可能性について論じる。 XGBoostモデルは、ニューラルネットワークの296msに比べて、暗号化推論が6ms以下で、パフォーマンスが向上している。 しかし、安全なデプロイがより簡単であるため、ニューラルネットワークの実装が望ましいかもしれない。 シミュレーションとさらなる開発のためのシステム用のコードベースも提供される。

Credit card fraud is a problem continuously faced by financial institutions and their customers, which is mitigated by fraud detection systems. However, these systems require the use of sensitive customer transaction data, which introduces both a lack of privacy for the customer and a data breach vulnerability to the card provider. This paper proposes a system for private fraud detection on encrypted transactions using homomorphic encryption. Two models, XGBoost and a feedforward classifier neural network, are trained as fraud detectors on plaintext data. They are then converted to models which use homomorphic encryption for private inference. Latency, storage, and detection results are discussed, along with use cases and feasibility of deployment. The XGBoost model has better performance, with an encrypted inference as low as 6ms, compared to 296ms for the neural network. However, the neural network implementation may still be preferred, as it is simpler to deploy securely. A codebase for the system is also provided, for simulation and further development.
翻訳日:2022-11-15 19:26:35 公開日:2022-11-12
# 機能的オブジェクト指向ネットワークを用いたロボット調理のためのタスクツリー検索アルゴリズム

Task Tree Retrieval Algorithms for Robotic Cooking Using The Functional Object-Oriented Network ( http://arxiv.org/abs/2211.06743v1 )

ライセンス: Link先を確認
Sai Chaitanya Balli(参考訳) 機能的オブジェクト指向ネットワークを用いて,与えられた目標ノードのタスクツリーを生成する3つの探索アルゴリズムを実装した。 本論文では, アプローチ, プロセス, 結果について述べる。

Using the Functional Object-Oriented Network, we have implemented three search algorithms for generating the task trees for the given goal nodes. The approach, process, and results are written in this paper.
翻訳日:2022-11-15 19:26:23 公開日:2022-11-12
# 社会支援ロボットの設計原理としての人間自律性

Human Autonomy as a Design Principle for Socially Assistive Robots ( http://arxiv.org/abs/2211.06748v1 )

ライセンス: Link先を確認
Jason R. Wilson(参考訳) 高いレベルのロボット自律性は共通の目標であるが、ロボットの自律性が高ければ高いほど、ロボットで作業する人間の自律性が低くなるという大きなリスクがある。 すでに自治レベルが低下している高齢者のような脆弱な人口にとって、これはさらに大きな懸念である。 我々は,社会支援ロボットの設計の中心に,人間の自律性が必要であることを提案する。 この目標に向けて,我々は自律性を定義し,ユーザの自律性を支援するための社会ロボットのアーキテクチャ要件を提供する。 設計の取り組みの例として、私たちはAssistアーキテクチャの特徴をいくつか説明します。

High levels of robot autonomy are a common goal, but there is a significant risk that the greater the autonomy of the robot the lesser the autonomy of the human working with the robot. For vulnerable populations like older adults who already have a diminished level of autonomy, this is an even greater concern. We propose that human autonomy needs to be at the center of the design for socially assistive robots. Towards this goal, we define autonomy and then provide architectural requirements for social robots to support the user's autonomy. As an example of a design effort, we describe some of the features of our Assist architecture.
翻訳日:2022-11-15 19:26:19 公開日:2022-11-12
# Seamful XAI: 説明可能なAIでSeamfulデザインを運用

Seamful XAI: Operationalizing Seamful Design in Explainable AI ( http://arxiv.org/abs/2211.06753v1 )

ライセンス: Link先を確認
Upol Ehsan, Q. Vera Liao, Samir Passi, Mark O. Riedl, Hal Daume III(参考訳) AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。 ブラックボックスのAIシステムは、ユーザー体験をシームレスにすることができるが、シームを隠蔽することで、AIのミスからフォールアウトを軽減できる。 説明可能なAI(XAI)はアルゴリズムの不透明性に主に取り組んだが、シームフルデザインは社会技術やインフラのミスマッチを戦略的に明らかにすることで人間中心のXAIを育むことができると提案する。 本稿では,(1)「シーム」をaiコンテキストに概念的に移行し,(2)利害関係者がシームでデザインすることを支援するデザインプロセスを開発することにより,説明可能性とユーザエージェンシーを高めることにより,シームフルxaiの概念を紹介する。 現実のユースケースから情報を得たシナリオベースの共同設計活動を用いて、43人のAI実践者とユーザによるこのプロセスについて検討する。 私たちは、このプロセスが実践者がAIでシームを予測し、作り出すのにどのように役立つか、Seamfulnessが説明可能性を改善し、エンドユーザに力を与え、Responsible AIを促進するかについて、経験的な洞察、含意、批判的な考察を共有します。

Mistakes in AI systems are inevitable, arising from both technical limitations and sociotechnical gaps. While black-boxing AI systems can make the user experience seamless, hiding the seams risks disempowering users to mitigate fallouts from AI mistakes. While Explainable AI (XAI) has predominantly tackled algorithmic opaqueness, we propose that seamful design can foster Humancentered XAI by strategically revealing sociotechnical and infrastructural mismatches. We introduce the notion of Seamful XAI by (1) conceptually transferring "seams" to the AI context and (2) developing a design process that helps stakeholders design with seams, thereby augmenting explainability and user agency. We explore this process with 43 AI practitioners and users, using a scenario-based co-design activity informed by real-world use cases. We share empirical insights, implications, and critical reflections on how this process can help practitioners anticipate and craft seams in AI, how seamfulness can improve explainability, empower end-users, and facilitate Responsible AI.
翻訳日:2022-11-15 19:26:09 公開日:2022-11-12
# ベクトル量子符号化による深層強化学習

Deep Reinforcement Learning with Vector Quantized Encoding ( http://arxiv.org/abs/2211.06733v1 )

ライセンス: Link先を確認
Liang Zhang, Justin Lieffers, Adarsh Pyarelal(参考訳) 人間の意思決定は、しばしば類似した状態をカテゴリに組み合わせ、実際の状態ではなくカテゴリのレベルで推論する。 この直感で導かれた本研究では, 深部強化学習(RL)法における状態特徴のクラスタリング手法を提案する。 具体的には,vector quantized reinforcement learning(vq-rl)と呼ばれる,ベクトル量子化(vq)符号化に基づく補助分類タスクで古典rlパイプラインを拡張し,ポリシトレーニングに適合するプラグイン・アンド・プレイフレームワークを提案する。 vq符号化法は、類似したセマンティクスを持つ特徴をクラスタに分類し、古典的なディープrl法と比較して、より優れた分離でより密なクラスタを生成する。 さらに,クラスタ間の分離を向上し,VQトレーニングに伴うリスクを回避するために,2つの正規化手法を導入する。 シミュレーションでは,VQ-RLが解釈性を改善し,その強靭性および深部RLの一般化に与える影響を検証した。

Human decision-making often involves combining similar states into categories and reasoning at the level of the categories rather than the actual states. Guided by this intuition, we propose a novel method for clustering state features in deep reinforcement learning (RL) methods to improve their interpretability. Specifically, we propose a plug-and-play framework termed \emph{vector quantized reinforcement learning} (VQ-RL) that extends classic RL pipelines with an auxiliary classification task based on vector quantized (VQ) encoding and aligns with policy training. The VQ encoding method categorizes features with similar semantics into clusters and results in tighter clusters with better separation compared to classic deep RL methods, thus enabling neural models to learn similarities and differences between states better. Furthermore, we introduce two regularization methods to help increase the separation between clusters and avoid the risks associated with VQ training. In simulations, we demonstrate that VQ-RL improves interpretability and investigate its impact on robustness and generalization of deep RL.
翻訳日:2022-11-15 19:10:48 公開日:2022-11-12
# 専門知識の問題:専門的なフィードバックから学ぶ

The Expertise Problem: Learning from Specialized Feedback ( http://arxiv.org/abs/2211.06519v1 )

ライセンス: Link先を確認
Oliver Daniels-Koch, Rachel Freedman(参考訳) ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。 しかし、特に人間の教師が関連する知識や経験を欠いている場合、人間のフィードバックはうるさい。 専門知識のレベルは教師によって異なり、ある教師はタスクのさまざまなコンポーネントに対する専門知識のレベルが異なる可能性がある。 複数の教師から学習するRLHFアルゴリズムは、専門的な問題に直面している。与えられたフィードバックの信頼性は、その教師の出身地と、その教師がタスクの関連するコンポーネントにどの程度特化しているかに依存する。 既存のrlhfアルゴリズムは、すべての評価が同じ分布から来ていると仮定し、この人的および人的ばらつきを回避し、専門知識の多様性を考慮しない。 我々はこの問題を形式化し、既存のRLHFベンチマークの拡張として実装し、最先端のRLHFアルゴリズムの性能を評価し、クエリと教師の選択を改善する技術を探究する。 私たちの重要な貢献は、専門知識の問題を実証し、特徴づけ、将来のソリューションをテストするためのオープンソース実装を提供することです。

Reinforcement learning from human feedback (RLHF) is a powerful technique for training agents to perform difficult-to-specify tasks. However, human feedback can be noisy, particularly when human teachers lack relevant knowledge or experience. Levels of expertise vary across teachers, and a given teacher may have differing levels of expertise for different components of a task. RLHF algorithms that learn from multiple teachers therefore face an expertise problem: the reliability of a given piece of feedback depends both on the teacher that it comes from and how specialized that teacher is on relevant components of the task. Existing state-of-the-art RLHF algorithms assume that all evaluations come from the same distribution, obscuring this inter- and intra-human variance, and preventing them from accounting for or taking advantage of variations in expertise. We formalize this problem, implement it as an extension of an existing RLHF benchmark, evaluate the performance of a state-of-the-art RLHF algorithm, and explore techniques to improve query and teacher selection. Our key contribution is to demonstrate and characterize the expertise problem, and to provide an open-source implementation for testing future solutions.
翻訳日:2022-11-15 19:00:48 公開日:2022-11-12
# モバイルヘルスのための行動可能リコース

Actionable Recourse via GANs for Mobile Health ( http://arxiv.org/abs/2211.06525v1 )

ライセンス: Link先を確認
Jennifer Chien, Anna Guitart, Ana Fernandez del Rio, Africa Perianez, Lauren Bellhouse(参考訳) モバイル・ヘルス・アプリは、適応的な介入を行うのに使用できるデータ収集のユニークな手段を提供しており、予測された結果がそうした介入の選択に大きく影響する。 recourse via counterfactualsは、ユーザの予測を変更するための具体的メカニズムを提供する。 望ましい予測の可能性を増大させる妥当な行動を特定することで、ステークホルダーは予測に関してエージェンシーを受けることができる。 さらに、リコメンデーションメカニズムは、因果的介入の特徴の候補に関する洞察を提供するのに役立つ反ファクト的推論を可能にする。 本報告では,GAN 生成したモバイル医療用リコースの実現可能性について,健常者を対象としたデジタルトレーニングツールである Safe Delivery App を用いて,アンサンブル・サバイバル分析に基づく中間的エンゲージメントの予測を行った。

Mobile health apps provide a unique means of collecting data that can be used to deliver adaptive interventions.The predicted outcomes considerably influence the selection of such interventions. Recourse via counterfactuals provides tangible mechanisms to modify user predictions. By identifying plausible actions that increase the likelihood of a desired prediction, stakeholders are afforded agency over their predictions. Furthermore, recourse mechanisms enable counterfactual reasoning that can help provide insights into candidates for causal interventional features. We demonstrate the feasibility of GAN-generated recourse for mobile health applications on ensemble-survival-analysis-based prediction of medium-term engagement in the Safe Delivery App, a digital training tool for skilled birth attendants.
翻訳日:2022-11-15 19:00:28 公開日:2022-11-12
# モデルに基づく条件付き独立性テストによるpcアルゴリズムの効率向上

Improving the Efficiency of the PC Algorithm by Using Model-Based Conditional Independence Tests ( http://arxiv.org/abs/2211.06536v1 )

ライセンス: Link先を確認
Erica Cai, Andrew McGregor, David Jensen(参考訳) 因果構造を学ぶことは、計画、ロボット工学、説明など、人工知能の多くの領域で有用である。 PC利用条件独立(CI)テストのような制約に基づく構造学習アルゴリズムは因果構造を推論する。 従来のCIテストの統計力は、条件セットのサイズが大きくなるにつれて急速に低下するため、制約ベースのアルゴリズムはより小さな条件セットを優先してCIテストを実行する。 しかし、現代の条件付き独立性テストの多くはモデルベースであり、これらのテストは、非常に大きな条件付き集合でも統計力を維持するよく規則化されたモデルを使っている。 これは、制約ベースのアルゴリズムに対する興味深い新しい戦略であり、実行されたciテストの総数を減少させる可能性がある: 大きな条件付き変数ペア まず、条件付き無依存を素早く発見する前処理ステップとして、小さな条件付きセットを好むより伝統的な戦略に移行する。 ランダムに選択された大規模条件集合上でCIテストを実行することに依存するPCアルゴリズムの事前処理ステップを提案する。 我々は,実世界のシステムに対応する有向非巡回グラフ(DAG)と,Erd\H{o}s-Renyi DAGの実証的および理論的解析を行う。 以上の結果から,PCアルゴリズム単独で行うCIテストのうち,0.5%から36%,そして10%未満で,PC前処理プラスPC(P3PC)が従来のPCアルゴリズムよりもはるかに少ないCIテストを実行することがわかった。 実世界のシステムに対応するDAGにとって、効率向上は特に重要である。

Learning causal structure is useful in many areas of artificial intelligence, including planning, robotics, and explanation. Constraint-based structure learning algorithms such as PC use conditional independence (CI) tests to infer causal structure. Traditionally, constraint-based algorithms perform CI tests with a preference for smaller-sized conditioning sets, partially because the statistical power of conventional CI tests declines rapidly as the size of the conditioning set increases. However, many modern conditional independence tests are model-based, and these tests use well-regularized models that maintain statistical power even with very large conditioning sets. This suggests an intriguing new strategy for constraint-based algorithms which may result in a reduction of the total number of CI tests performed: Test variable pairs with large conditioning sets first, as a pre-processing step that finds some conditional independencies quickly, before moving on to the more conventional strategy that favors small conditioning sets. We propose such a pre-processing step for the PC algorithm which relies on performing CI tests on a few randomly selected large conditioning sets. We perform an empirical analysis on directed acyclic graphs (DAGs) that correspond to real-world systems and both empirical and theoretical analyses for Erd\H{o}s-Renyi DAGs. Our results show that Pre-Processing Plus PC (P3PC) performs far fewer CI tests than the original PC algorithm, between 0.5% to 36%, and often less than 10%, of the CI tests that the PC algorithm alone performs. The efficiency gains are particularly significant for the DAGs corresponding to real-world systems.
翻訳日:2022-11-15 19:00:15 公開日:2022-11-12
# フローベース生成モデルによるイノベーティブドラッグ様分子生成

Innovative Drug-like Molecule Generation from Flow-based Generative Model ( http://arxiv.org/abs/2211.06566v1 )

ライセンス: Link先を確認
Haotian Zhang, Linxiaoyi Wan(参考訳) 深層学習法を用いて生体分子が与えられた薬物を設計するため、近年、多くのモデルが公表されている。 人々は通常、特定のタンパク質が与えられた新しい分子を設計するために生成モデルを用いた。 LiGANは畳み込みニューラルネットワークで開発されたディープラーニングモデルのベースラインとみなされた。 近年,graphbpは,グラフニューラルネットワークと多層性知覚を用いたフローベース生成モデルを用いて,従来の分子ドッキング法よりも結合親和性が優れる革新的な「リアル」化学物質を予測できることを示した。 しかし、これらの方法は全てタンパク質を剛体とみなし、結合に関連するタンパク質のごく一部しか含まない。 しかし、タンパク質の動態は薬物結合に必須である。 GraphBPをベースとして,タンパク質データバンクからより強固な処理を生成することを提案した。 結果は計算化学アルゴリズムを用いて妥当性と結合親和性によって評価される。

To design a drug given a biological molecule by using deep learning methods, there are many successful models published recently. People commonly used generative models to design new molecules given certain protein. LiGAN was regarded as the baseline of deep learning model which was developed on convolutional neural networks. Recently, GraphBP showed its ability to predict innovative "real" chemicals that the binding affinity outperformed with traditional molecular docking methods by using a flow-based generative model with a graph neural network and multilayer perception. However, all those methods regarded proteins as rigid bodies and only include a very small part of proteins related to binding. However, the dynamics of proteins are essential for drug binding. Based on GraphBP, we proposed to generate more solid work derived from protein data bank. The results will be evaluated by validity and binding affinity by using a computational chemistry algorithm.
翻訳日:2022-11-15 18:59:47 公開日:2022-11-12
# ニューラルネットワーク関数の高対称性について

On the High Symmetry of Neural Network Functions ( http://arxiv.org/abs/2211.06603v1 )

ライセンス: Link先を確認
Umberto Michelucci(参考訳) ニューラルネットワークのトレーニングは、高次元最適化問題を解決することを意味する。 通常、目的はネットワーク関数と呼ばれるものに依存する損失関数を最小限にすることであり、言い換えれば、ある入力を与えられたネットワーク出力を与える関数である。 この関数は、ネットワークアーキテクチャに依存する多数のパラメータ(重みとしても知られる)に依存する。 一般に、この最適化問題の目標は、ネットワーク機能のグローバル最小値を見つけることである。 本稿では、ニューラルネットワークの設計方法から、パラメータ空間においてニューラルネットワーク関数が非常に大きな対称性を示す方法について論じる。 この研究は、ニューラルネットワーク関数が多くの等価なミニマを持つことを示す。言い換えれば、損失関数に同じ値を与え、同じ正確な出力を与えるミニマは、前方ニューラルネットワークを供給するための各レイヤのニューロン数や畳み込みニューラルネットワークのフィルタ数と因数的に増加する。 ニューロンとレイヤーの数が大きいと、同等のミニマの数が非常に速く成長する。 これはもちろん、ニューラルネットワークがトレーニング中にミニマにどのように収束するかの研究に影響を及ぼす。 この結果は知られているが、本論文で初めて適切な数学的議論が提示され、等価ミニマ数の推定が導かれる。

Training neural networks means solving a high-dimensional optimization problem. Normally the goal is to minimize a loss function that depends on what is called the network function, or in other words the function that gives the network output given a certain input. This function depends on a large number of parameters, also known as weights, that depends on the network architecture. In general the goal of this optimization problem is to find the global minimum of the network function. In this paper it is discussed how due to how neural networks are designed, the neural network function present a very large symmetry in the parameter space. This work shows how the neural network function has a number of equivalent minima, in other words minima that give the same value for the loss function and the same exact output, that grows factorially with the number of neurons in each layer for feed forward neural network or with the number of filters in a convolutional neural networks. When the number of neurons and layers is large, the number of equivalent minima grows extremely fast. This will have of course consequences for the study of how neural networks converges to minima during training. This results is known, but in this paper for the first time a proper mathematical discussion is presented and an estimate of the number of equivalent minima is derived.
翻訳日:2022-11-15 18:59:34 公開日:2022-11-12
# マルコフ連鎖理論を用いたグラフニューラルネットワークの解析

Analysis of Graph Neural Networks with Theory of Markov Chains ( http://arxiv.org/abs/2211.06605v1 )

ライセンス: Link先を確認
Weichen Zhao, Chenguang Wang, Congying Han, Tiande Guo(参考訳) 本稿では,emph{graph neural network} (GNN) の解釈と解析のための理論的ツールを提供する。 グラフ上のマルコフ連鎖を用いてGNNの前方伝播過程を数学的にモデル化する。 グラフニューラルネットワークは、マルコフ連鎖が時間的均一であるかどうかに基づいて、演算子一貫性とオペレータ一貫性の2つのクラスに分けられる。 そこで我々は,GNN研究において重要な問題であるemph{over-smoothing}について検討する。 我々は, 任意の初期分布を定常分布に収束させることで, オーバースムーシング問題を解決した。 オーバースムーシング問題を緩和するための従来の手法の有効性を実証する。 さらに、演算子一貫性GNNはマルコフの指数速度での過度な平滑化を回避できないという結論を与える。 演算子不整合GNNの場合、理論的には過剰なスムーシングを避けるのに十分な条件を与える。 この条件に基づき、ニューラルネットワークのトレーニングに柔軟に追加できる正規化項を提案する。 最後に,この条件の有効性を検証する実験を設計する。 その結果,提案する十分条件により性能が向上するだけでなく,過飽和現象を緩和できることがわかった。

In this paper, we provide a theoretical tool for the interpretation and analysis of \emph{graph neural networks} (GNNs). We use Markov chains on graphs to mathematically model the forward propagation processes of GNNs. The graph neural networks are divided into two classes of operator-consistent and operator-inconsistent based on whether the Markov chains are time-homogeneous. Based on this, we study \emph{over-smoothing} which is an important problem in GNN research. We attribute the over-smoothing problem to the convergence of an arbitrary initial distribution to a stationary distribution. We prove the effectiveness of the previous methods for alleviating the over-smoothing problem. Further, we give the conclusion that operator-consistent GNN cannot avoid over-smoothing at an exponential rate in the Markovian sense. For operator-inconsistent GNN, we theoretically give a sufficient condition for avoiding over-smoothing. Based on this condition, we propose a regularization term which can be flexibly added to the training of the neural network. Finally, we design experiments to verify the effectiveness of this condition. Results show that our proposed sufficient condition not only improves the performance but also alleviates the over-smoothing phenomenon.
翻訳日:2022-11-15 18:59:15 公開日:2022-11-12
# Modular Clinical Decision Support Networks (MoDN) -- Updatable, Interpretable, Portable Predictions for Evolving Clinical Environments

Modular Clinical Decision Support Networks (MoDN) -- Updatable, Interpretable, and Portable Predictions for Evolving Clinical Environments ( http://arxiv.org/abs/2211.06637v1 )

ライセンス: Link先を確認
C\'ecile Trottet, Thijs Vogels, Martin Jaggi, Mary-Anne Hartley(参考訳) データ駆動型臨床意思決定支援システム(CDSS)は、個人化された確率的ガイダンスでケアを改善し標準化する可能性がある。 しかし、必要となるデータのサイズは類似のCDSSからの協調学習を必要とし、これはしばしば不調和または不完全な相互運用(IIO)であり、それらの特徴セットが完全に重複していないことを意味する。 本稿では,IIOデータセット間のフレキシブルなプライバシ保護学習を実現するモジュール型臨床意思決定支援ネットワーク(MoDN)を提案する。 modnは特徴特異的ニューラルネットワークモジュールで構成される新しい決定木である。 患者を動的にパーソナライズした表現を生成し、診断の予測を複数行い、相談のステップごとに実行可能である。 モジュール設計により、特定の機能に対するトレーニング更新を分割し、データを共有せずにIIOデータセット間で協調的に学習することができる。

Data-driven Clinical Decision Support Systems (CDSS) have the potential to improve and standardise care with personalised probabilistic guidance. However, the size of data required necessitates collaborative learning from analogous CDSS's, which are often unsharable or imperfectly interoperable (IIO), meaning their feature sets are not perfectly overlapping. We propose Modular Clinical Decision Support Networks (MoDN) which allow flexible, privacy-preserving learning across IIO datasets, while providing interpretable, continuous predictive feedback to the clinician. MoDN is a novel decision tree composed of feature-specific neural network modules. It creates dynamic personalised representations of patients, and can make multiple predictions of diagnoses, updatable at each step of a consultation. The modular design allows it to compartmentalise training updates to specific features and collaboratively learn between IIO datasets without sharing any data.
翻訳日:2022-11-15 18:59:00 公開日:2022-11-12
# クリック後変換率予測の曖昧化のための一般化二重ロバスト学習フレームワーク

A Generalized Doubly Robust Learning Framework for Debiasing Post-Click Conversion Rate Prediction ( http://arxiv.org/abs/2211.06684v1 )

ライセンス: Link先を確認
Quanyu Dai, Haoxuan Li, Peng Wu, Zhenhua Dong, Xiao-Hua Zhou, Rui Zhang, Rui zhang, Jie Sun(参考訳) クリック後変換率(CVR)予測は,幅広い産業アプリケーションにおいて,ユーザの関心事発見とプラットフォーム収益の増大に不可欠な課題である。 このタスクの最も困難な問題の1つは、ユーザの固有の自己選択行動とシステムの項目選択プロセスによって引き起こされる厳密な選択バイアスの存在である。 現在、Doublely robust(DR)学習アプローチは、CVR予測を損なうための最先端のパフォーマンスを実現する。 しかし,本論文では,DR手法の偏り,分散,一般化境界を理論的に解析することにより,従来のDR手法では,不正確な正当性スコア推定や計算誤差による一般化が不十分である可能性が示唆された。 このような分析により、既存のDRメソッドを統一するだけでなく、異なるアプリケーションシナリオに対応する一連の新しいデバイアス手法を開発するための貴重な機会を提供する、汎用的な学習フレームワークを提案する。 本フレームワークでは,DR-BIASとDR-MSEという2つの新しいDR手法を提案する。 DR-BIASはDR損失のバイアスを直接制御し、DR-MSEはバイアスと分散を柔軟にバランスさせ、より優れた一般化性能を実現する。 さらに,CVR予測におけるDR-MSEの3段階共同学習最適化手法と,それに対応する効率的な学習アルゴリズムを提案する。 提案手法の有効性を検証するために,実世界データと半合成データの両方について広範な実験を行った。

Post-click conversion rate (CVR) prediction is an essential task for discovering user interests and increasing platform revenues in a range of industrial applications. One of the most challenging problems of this task is the existence of severe selection bias caused by the inherent self-selection behavior of users and the item selection process of systems. Currently, doubly robust (DR) learning approaches achieve the state-of-the-art performance for debiasing CVR prediction. However, in this paper, by theoretically analyzing the bias, variance and generalization bounds of DR methods, we find that existing DR approaches may have poor generalization caused by inaccurate estimation of propensity scores and imputation errors, which often occur in practice. Motivated by such analysis, we propose a generalized learning framework that not only unifies existing DR methods, but also provides a valuable opportunity to develop a series of new debiasing techniques to accommodate different application scenarios. Based on the framework, we propose two new DR methods, namely DR-BIAS and DR-MSE. DR-BIAS directly controls the bias of DR loss, while DR-MSE balances the bias and variance flexibly, which achieves better generalization performance. In addition, we propose a novel tri-level joint learning optimization method for DR-MSE in CVR prediction, and an efficient training algorithm correspondingly. We conduct extensive experiments on both real-world and semi-synthetic datasets, which validate the effectiveness of our proposed methods.
翻訳日:2022-11-15 18:58:41 公開日:2022-11-12
# マルチモーダル確率的融合プロンプトに基づく少数ショットマルチモーダル感情分析

Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts ( http://arxiv.org/abs/2211.06607v1 )

ライセンス: Link先を確認
Xiaocui Yang, Shi Feng, Daling Wang, Pengfei Hong, Soujanya Poria(参考訳) マルチモーダル感情分析(multimodal sentiment analysis)は、web上のマルチモーダルコンテンツの爆発を伴うトレンドトピックである。 マルチモーダル感情分析の現在の研究は、大規模教師付きデータに依存している。 監督されたデータの照合は時間がかかり、労働集約的です。 そのため, 数発マルチモーダル感情分析の問題点を検討することが不可欠である。 従来の数ショットモデルでは、一般的に言語モデルプロンプトを使用しており、低リソース設定のパフォーマンスを改善することができる。 しかし、テキストプロンプトは他のモダリティからの情報を無視する。 マルチモーダルな感情検出のための多様な手がかりを提供するマルチモーダル確率核融合プロンプトを提案する。 まず、異なるモーダルプロンプトの差を低減するために、統一マルチモーダルプロンプトを設計する。 モデルのロバスト性を改善するために,入力毎に多種多様なプロンプトを活用し,出力予測を融合する確率的手法を提案する。 3つのデータセットで広範な実験を行い,本手法の有効性を確認した。

Multimodal sentiment analysis is a trending topic with the explosion of multimodal content on the web. Present studies in multimodal sentiment analysis rely on large-scale supervised data. Collating supervised data is time-consuming and labor-intensive. As such, it is essential to investigate the problem of few-shot multimodal sentiment analysis. Previous works in few-shot models generally use language model prompts, which can improve performance in low-resource settings. However, the textual prompt ignores the information from other modalities. We propose Multimodal Probabilistic Fusion Prompts, which can provide diverse cues for multimodal sentiment detection. We first design a unified multimodal prompt to reduce the discrepancy in different modal prompts. To improve the robustness of our model, we then leverage multiple diverse prompts for each input and propose a probabilistic method to fuse the output predictions. Extensive experiments conducted on three datasets confirm the effectiveness of our approach.
翻訳日:2022-11-15 18:50:10 公開日:2022-11-12
# ニューラルミシンを用いた構造保存型3次元衣服モデリング

Structure-Preserving 3D Garment Modeling with Neural Sewing Machines ( http://arxiv.org/abs/2211.06701v1 )

ライセンス: Link先を確認
Xipeng Chen, Guangrun Wang, Dizhong Zhu, Xiaodan Liang, Philip H. S. Torr and Liang Lin(参考訳) 3Dガーメントモデリングはコンピュータビジョンとグラフィックスの領域において重要かつ困難なトピックであり、衣服表現学習、衣服再構成、制御可能な衣服操作に注目が集まる一方で、既存の手法は特定のカテゴリーや比較的単純なトポロジーで衣服をモデル化することに制約されていた。 本稿では, 多様な形状とトポロジを持つ衣服の表現を学習し, 3次元衣料の再構築と制御可能な操作にうまく応用できる, 構造保存型3次元衣料品モデリングの学習基盤であるニューラル縫製機(NSM)を提案する。 まず,縫製パターンを統一した縫製パターン符号化モジュールを用いて縫製パターン埋め込みを行い,縫製パターンが3d衣服の固有構造とトポロジーを正確に記述できることを示す。 次に,3d衣料デコーダを用いて,マスク付きuv位置マップを用いて3d衣料に埋め込まれた縫製パターンをデコードする。 予測された3次元衣服の本質的な構造を維持するために,内パネル構造保存損失,パネル構造保存損失,およびフレームワークの学習過程における表面正規損失を導入する。 縫製パターンを多種多様な衣服形状とカテゴリで表したパブリック3次元衣服データセット上でNSMを評価した。 広汎な実験により,NSMは多種多様な衣服形状とトポロジで3D衣服を表現でき,保存された構造で2D画像からリアルに3D衣服を再構築し,立体衣服のカテゴリ,形状,トポロジを正確に操作し,最先端の手法よりも鮮明なマージンを達成できることが示された。

3D Garment modeling is a critical and challenging topic in the area of computer vision and graphics, with increasing attention focused on garment representation learning, garment reconstruction, and controllable garment manipulation, whereas existing methods were constrained to model garments under specific categories or with relatively simple topologies. In this paper, we propose a novel Neural Sewing Machine (NSM), a learning-based framework for structure-preserving 3D garment modeling, which is capable of learning representations for garments with diverse shapes and topologies and is successfully applied to 3D garment reconstruction and controllable manipulation. To model generic garments, we first obtain sewing pattern embedding via a unified sewing pattern encoding module, as the sewing pattern can accurately describe the intrinsic structure and the topology of the 3D garment. Then we use a 3D garment decoder to decode the sewing pattern embedding into a 3D garment using the UV-position maps with masks. To preserve the intrinsic structure of the predicted 3D garment, we introduce an inner-panel structure-preserving loss, an inter-panel structure-preserving loss, and a surface-normal loss in the learning process of our framework. We evaluate NSM on the public 3D garment dataset with sewing patterns with diverse garment shapes and categories. Extensive experiments demonstrate that the proposed NSM is capable of representing 3D garments under diverse garment shapes and topologies, realistically reconstructing 3D garments from 2D images with the preserved structure, and accurately manipulating the 3D garment categories, shapes, and topologies, outperforming the state-of-the-art methods by a clear margin.
翻訳日:2022-11-15 18:17:56 公開日:2022-11-12
# cGANを用いた心電図記録の自動抽出とデジタル化

Auto Lead Extraction and Digitization of ECG Paper Records using cGAN ( http://arxiv.org/abs/2211.06720v1 )

ライセンス: Link先を確認
Rupali Patil, Bhairav Narkhede, Shubham Varma, Shreyans Suraliya, Ninad Mehendale(参考訳) 目的:心電図(ECG)は、心臓病の診断に使用される最も単純かつ高速な生体医学検査である。 ECG信号は一般に紙形式で格納されるため、データの保存と分析が困難になる。 紙ECGレコードからECGのリードをキャプチャする一方で、多くのバックグラウンド情報がキャプチャされ、誤ったデータ解釈がもたらされる。 方法: カメラを用いた12個の心電図画像から12個の鉛を個別に抽出する深層学習モデルを提案する。 また,ECGの解析と複雑なパラメータの計算を簡単にするために,紙ECGフォーマットを保存可能なデジタルフォーマットに変換する手法を提案する。 You Only Look Once, Version 3 (YOLOv3) アルゴリズムは画像中の鉛を抽出するために使われている。 これらのリードは別のディープラーニングモデルに渡され、ECG信号と背景をシングルリード画像から分離する。 その後、ECG信号上で垂直走査を行い、1次元(1D)デジタル形式に変換する。 デジタル化を行うために,ピクセル2ピクセルの深層学習モデルを用いてECG信号をバイナライズした。 結果: 提案手法は97.4 %の精度を達成できた。 結論: 論文ECGの情報は時間とともに消えていく。 したがって、デジタル化されたECG信号は、いつでもレコードを保存してアクセスすることができる。 これは心電図の頻繁な報告を必要とする心臓患者にとって非常に有益である。 このデータは、データを解析できるコンピュータアルゴリズムの開発に使用できるため、保存されたデータは研究目的にも有用である。

Purpose: An Electrocardiogram (ECG) is the simplest and fastest bio-medical test that is used to detect any heart-related disease. ECG signals are generally stored in paper form, which makes it difficult to store and analyze the data. While capturing ECG leads from paper ECG records, a lot of background information is also captured, which results in incorrect data interpretation. Methods: We propose a deep learning-based model for individually extracting all 12 leads from 12-lead ECG images captured using a camera. To simplify the analysis of the ECG and the calculation of complex parameters, we also propose a method to convert the paper ECG format into a storable digital format. The You Only Look Once, Version 3 (YOLOv3) algorithm has been used to extract the leads present in the image. These leads are then passed on to another deep learning model which separates the ECG signal and background from the single-lead image. After that, vertical scanning is performed on the ECG signal to convert it into a 1-Dimensional (1D) digital form. To perform the task of digitalization, we used the pix-2-pix deep learning model and binarized the ECG signals. Results: Our proposed method was able to achieve an accuracy of 97.4 %. Conclusion: The information on the paper ECG fades away over time. Hence, the digitized ECG signals make it possible to store the records and access them anytime. This proves highly beneficial for heart patients who require frequent ECG reports. The stored data can also be useful for research purposes, as this data can be used to develop computer algorithms that are capable of analyzing the data.
翻訳日:2022-11-15 18:17:24 公開日:2022-11-12
# MultiCrossViT:構造MRIと機能的ネットワーク接続データを用いた統合失調症予測用マルチモーダル視覚変換器

MultiCrossViT: Multimodal Vision Transformer for Schizophrenia Prediction using Structural MRI and Functional Network Connectivity Data ( http://arxiv.org/abs/2211.06726v1 )

ライセンス: Link先を確認
Yuda Bi, Anees Abrol, Zening Fu, Vince Calhoun(参考訳) Vision Transformer (ViT)は、画像分類やオブジェクト認識といった現実のコンピュータビジョン問題に対処できる、先駆的なディープラーニングフレームワークである。 重要なのは、ViTが畳み込みニューラルネットワーク(CNN)のような従来のディープラーニングモデルを上回ることが証明されていることだ。 最近になって、多くのViT変異が医療画像の分野に移植され、特に脳画像データにおいて、様々な重要な分類とセグメンテーションの課題が解決された。 本研究では,統合失調症予測のための構造的MRI(sMRI)と静的機能的ネットワーク接続(sFNC)データの両方を解析できるマルチモーダル深層学習パイプラインであるMultiCrossViTを提案する。 最小限のトレーニング対象を持つデータセットでは、新しいモデルは0.832のAUCを達成できる。 最後に, 統合失調症に関連する複数の脳領域と共分散パターンを, トランスフォーマーエンコーダの特徴を抽出することにより可視化する。

Vision Transformer (ViT) is a pioneering deep learning framework that can address real-world computer vision issues, such as image classification and object recognition. Importantly, ViTs are proven to outperform traditional deep learning models, such as convolutional neural networks (CNNs). Relatively recently, a number of ViT mutations have been transplanted into the field of medical imaging, thereby resolving a variety of critical classification and segmentation challenges, especially in terms of brain imaging data. In this work, we provide a novel multimodal deep learning pipeline, MultiCrossViT, which is capable of analyzing both structural MRI (sMRI) and static functional network connectivity (sFNC) data for the prediction of schizophrenia disease. On a dataset with minimal training subjects, our novel model can achieve an AUC of 0.832. Finally, we visualize multiple brain regions and covariance patterns most relevant to schizophrenia based on the resulting ViT attention maps by extracting features from transformer encoders.
翻訳日:2022-11-15 18:17:02 公開日:2022-11-12
# MixBin: 予算のバイナリ化を目指す

MixBin: Towards Budgeted Binarization ( http://arxiv.org/abs/2211.06739v1 )

ライセンス: Link先を確認
Udbhav Bamba, Neeraj Anand, Dilip K. Prasad, Deepak K. Gupta(参考訳) バイナリ化は、ニューラルネットワーク圧縮の最も効果的な方法のひとつであることが証明されており、元のモデルのFLOPを広範囲に削減している。 しかし、このようなレベルの圧縮は、しばしば性能の大幅な低下を伴う。 ネットワークの部分的なバイナリ化を容易にすることで、パフォーマンス低下を軽減するいくつかのアプローチが存在するが、単一のネットワークでバイナリと全精度パラメータを混合する体系的なアプローチはまだ欠けている。 本稿では,制御された感覚でニューラルネットワークの部分二元化を行うパラダイムを提案し,予算付き二元ニューラルネットワーク(b2nn)を構築する。 本研究では,b2nn を構成する反復探索型戦略である mixbin を提案する。 mixbinは、ネットワークのおよその分数をバイナリとして明示的に選択することで、所定の予算で推論コストを適用できる柔軟性を提供する。 我々は、MixBin戦略から得られたB2NNが、ネットワーク層のランダムな選択から得られるものよりもはるかに優れていることを示す。 半二項化を効果的に行うためには、B2NNの完全精度とバイナリコンポーネントの両方を適切に最適化することが重要である。 また、このプロセスにおいて活性化関数の選択が大きな影響を与えることを実証し、この問題を回避するために、B2NNのバイナリコンポーネントと同様に、全精度で有効な活性化関数として使用できるBinReLUを提案する。 実験的研究により、binreluはb2nnの全ての可能なシナリオで他の活性化関数よりも優れていることが判明した。 最後に,ベンチマークデータセットを用いた分類とオブジェクト追跡におけるmixbinの有効性を示す。

Binarization has proven to be amongst the most effective ways of neural network compression, reducing the FLOPs of the original model by a large extent. However, such levels of compression are often accompanied by a significant drop in the performance. There exist some approaches that reduce this performance drop by facilitating partial binarization of the network, however, a systematic approach to mix binary and full-precision parameters in a single network is still missing. In this paper, we propose a paradigm to perform partial binarization of neural networks in a controlled sense, thereby constructing budgeted binary neural network (B2NN). We present MixBin, an iterative search-based strategy that constructs B2NN through optimized mixing of the binary and full-precision components. MixBin allows to explicitly choose the approximate fraction of the network to be kept as binary, thereby presenting the flexibility to adapt the inference cost at a prescribed budget. We demonstrate through experiments that B2NNs obtained from our MixBin strategy are significantly better than those obtained from random selection of the network layers. To perform partial binarization in an effective manner, it is important that both the full-precision as well as the binary components of the B2NN are appropriately optimized. We also demonstrate that the choice of the activation function can have a significant effect on this process, and to circumvent this issue, we present BinReLU, that can be used as an effective activation function for the full-precision as well as the binary components of any B2NN. Experimental investigations reveal that BinReLU outperforms the other activation functions in all possible scenarios of B2NN: zero-, partial- as well as full binarization. Finally, we demonstrate the efficacy of MixBin on the tasks of classification and object tracking using benchmark datasets.
翻訳日:2022-11-15 18:16:45 公開日:2022-11-12
# 生体認証のための少数ショット学習

Few-Shot Learning for Biometric Verification ( http://arxiv.org/abs/2211.06761v1 )

ライセンス: Link先を確認
Umaid M. Zaffar, Marium Aslam, Muhammad Imran Malik and Saad Bin Ahmed(参考訳) 機械学習アプリケーションでは、できるだけ多くの情報を供給することが一般的である。 ほとんどの場合、モデルはより正確に予測できる大規模なデータセットを扱うことができる。 データ不足の存在下では、Few-Shot Learning(FSL)アプローチは、トレーニングデータに制限のあるより正確なアルゴリズムを構築することを目的としている。 本稿では,Few-Shot 学習手法による最先端のアキュラシーと比較し,バイオメトリックスデータの検証を行う,新しいエンドツーエンド軽量アーキテクチャを提案する。 高密度層は最先端のディープラーニングモデルの複雑さを増し、低消費電力アプリケーションでの使用を阻害する。 提案するアプローチでは、浅層ネットワークと従来の機械学習手法を組み合わせることで、手作りの機能を活用し、シグネチャ、眼窩領域、虹彩、顔、指紋など、マルチモーダルソースからのバイオメトリックイメージを検証する。 本研究では,False Acceptance Rate (FAR) を厳格に監視する自己推定しきい値を導入し,その結果を一般化し,ローカルデータ分布に偏りやすいROC曲線からユーザ定義しきい値を排除する。 このハイブリッドモデルは、バイオメトリックユースケースにおけるデータの不足を補うために、数ショットの学習の恩恵を受ける。 汎用バイオメトリックデータセットを用いた広範囲な実験を行った。 その結果,生体認証システムに対する有効解が得られた。

In machine learning applications, it is common practice to feed as much information as possible. In most cases, the model can handle large data sets that allow to predict more accurately. In the presence of data scarcity, a Few-Shot learning (FSL) approach aims to build more accurate algorithms with limited training data. We propose a novel end-to-end lightweight architecture that verifies biometric data by producing competitive results as compared to state-of-the-art accuracies through Few-Shot learning methods. The dense layers add to the complexity of state-of-the-art deep learning models which inhibits them to be used in low-power applications. In presented approach, a shallow network is coupled with a conventional machine learning technique that exploits hand-crafted features to verify biometric images from multi-modal sources such as signatures, periocular region, iris, face, fingerprints etc. We introduce a self-estimated threshold that strictly monitors False Acceptance Rate (FAR) while generalizing its results hence eliminating user-defined thresholds from ROC curves that are likely to be biased on local data distribution. This hybrid model benefits from few-shot learning to make up for scarcity of data in biometric use-cases. We have conducted extensive experimentation with commonly used biometric datasets. The obtained results provided an effective solution for biometric verification systems.
翻訳日:2022-11-15 18:16:18 公開日:2022-11-12
# OpenGait: より良い実践性に向けた歩行認識の再考

OpenGait: Revisiting Gait Recognition Toward Better Practicality ( http://arxiv.org/abs/2211.06597v1 )

ライセンス: Link先を確認
Chao Fan and Junhao Liang and Chuanfu Shen and Saihui Hou and Yongzhen Huang and Shiqi Yu(参考訳) 歩行認識は長距離識別技術の中でも最も重要な技術であり、研究と産業の両方で人気が高まっている。 屋内のデータセットでは大きな進歩があったが、多くの証拠は歩行認識技術が野生では不十分であることを示している。 さらに重要なことは、事前の作業からの結論が評価データセットによって変わることです。 したがって,本論文のより重要な目標は,特定のモデルに限らず,より実践性の高い総合的なベンチマーク研究を行うことである。 そこで我々はまず,OpenGaitという,柔軟かつ効率的な歩行認識コードベースを開発した。 OpenGaitをベースとして,最近の歩行認識の発達を,アブレーション実験の再実施によって深く再考する。 引き続き、先行研究の隠れた問題や、今後の研究への新たな洞察を見出す。 これらの発見に触発されて、構造的にシンプルで、経験的に強力で、事実上堅牢なベースラインモデルであるGaitBaseを開発した。 実験として,複数の公開データセット上で,現在行われている多くの歩行認識手法とgaitbaseを包括的に比較し,その結果から,gaitbaseは屋内や屋外の状況によらず,ほとんどのケースで著しく高い性能を達成していることが示唆された。 ソースコードは \url{https://github.com/shiqiyu/opengait} で入手できる。

Gait recognition is one of the most important long-distance identification technologies and increasingly gains popularity in both research and industry communities. Although significant progress has been made in indoor datasets, much evidence shows that gait recognition techniques perform poorly in the wild. More importantly, we also find that many conclusions from prior works change with the evaluation datasets. Therefore, the more critical goal of this paper is to present a comprehensive benchmark study for better practicality rather than only a particular model for better performance. To this end, we first develop a flexible and efficient gait recognition codebase named OpenGait. Based on OpenGait, we deeply revisit the recent development of gait recognition by re-conducting the ablative experiments. Encouragingly, we find many hidden troubles of prior works and new insights for future research. Inspired by these discoveries, we develop a structurally simple, empirically powerful and practically robust baseline model, GaitBase. Experimentally, we comprehensively compare GaitBase with many current gait recognition methods on multiple public datasets, and the results reflect that GaitBase achieves significantly strong performance in most cases regardless of indoor or outdoor situations. The source code is available at \url{https://github.com/ShiqiYu/OpenGait}.
翻訳日:2022-11-15 18:08:39 公開日:2022-11-12
# AU-Aware Vision Transformer for Biased Facial Expression Recognition

AU-Aware Vision Transformers for Biased Facial Expression Recognition ( http://arxiv.org/abs/2211.06609v1 )

ライセンス: Link先を確認
Shuyi Mao, Xinpeng Li, Qingyang Wu, and Xiaojiang Peng(参考訳) 研究は、ドメインバイアスとラベルバイアスが異なる表情認識(FER)データセットに存在することを証明し、他のデータセットを追加することで特定のデータセットのパフォーマンスを改善するのが難しくなった。 FERバイアス問題に関して、最近の研究は主に高度なドメイン適応アルゴリズムによるドメイン横断問題に焦点を当てている。 本稿では、クロスドメインデータセットを活用することでFERパフォーマンスを向上する方法について述べる。 粗い、偏りのある表現ラベルとは異なり、顔行動単位(AU)はきめ細やかで、心理学的な研究によって示唆される。 これを受けて、異なるFERデータセットのAU情報を利用してパフォーマンスを向上し、以下のように貢献する。 まず,複数のFERデータセットのナイーブな共同トレーニングが個別データセットのFER性能に有害であることを実験的に示す。 さらに、FERデータセットバイアスを測定するために、表現特異的平均画像とAUコサイン距離を導入する。 この新しい測定は,関節訓練の実験的劣化と一貫性のある結論を示す。 次に,概念的に新しいフレームワークau-aware vision transformer (au-vit)を提案する。 AUまたは擬似AUラベルで補助データセットを共同でトレーニングすることで、個々のデータセットのパフォーマンスを向上させる。 また、AU-ViTは現実世界の閉塞に対して堅牢であることも判明した。 さらに,注意深い初期化vitが高度な深層畳み込みネットワークと同等の性能を達成できることを初めて証明した。 私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。 コードとモデルはまもなくリリースされる予定だ。

Studies have proven that domain bias and label bias exist in different Facial Expression Recognition (FER) datasets, making it hard to improve the performance of a specific dataset by adding other datasets. For the FER bias issue, recent researches mainly focus on the cross-domain issue with advanced domain adaption algorithms. This paper addresses another problem: how to boost FER performance by leveraging cross-domain datasets. Unlike the coarse and biased expression label, the facial Action Unit (AU) is fine-grained and objective suggested by psychological studies. Motivated by this, we resort to the AU information of different FER datasets for performance boosting and make contributions as follows. First, we experimentally show that the naive joint training of multiple FER datasets is harmful to the FER performance of individual datasets. We further introduce expression-specific mean images and AU cosine distances to measure FER dataset bias. This novel measurement shows consistent conclusions with experimental degradation of joint training. Second, we propose a simple yet conceptually-new framework, AU-aware Vision Transformer (AU-ViT). It improves the performance of individual datasets by jointly training auxiliary datasets with AU or pseudo-AU labels. We also find that the AU-ViT is robust to real-world occlusions. Moreover, for the first time, we prove that a carefully-initialized ViT achieves comparable performance to advanced deep convolutional networks. Our AU-ViT achieves state-of-the-art performance on three popular datasets, namely 91.10% on RAF-DB, 65.59% on AffectNet, and 90.15% on FERPlus. The code and models will be released soon.
翻訳日:2022-11-15 18:08:18 公開日:2022-11-12
# marlin: 顔ビデオ表現学習のためのマスク付きオートエンコーダ

MARLIN: Masked Autoencoder for facial video Representation LearnINg ( http://arxiv.org/abs/2211.06627v1 )

ライセンス: Link先を確認
Zhixi Cai, Shreya Ghosh, Kalin Stefanov, Abhinav Dhall, Jianfei Cai, Hamid Rezatofighi, Reza Haffari, Munawar Hayat(参考訳) 本稿では,表情属性認識 (far), 表情認識 (fer), ディープフェイク検出 (dfd), 口唇同期 (ls) などの様々な顔分析タスクにおいて, 映像から普遍的な表情表現を学習するための自己教師ありアプローチを提案する。 提案するフレームワークはMARLINという顔ビデオの自動エンコーダで,十分に利用可能なウェブクローリング顔ビデオから,非常に堅牢で汎用的な顔埋め込みを学習する。 難しい補助課題として、MARLINは、目、鼻、口、唇、皮膚を含む密集した顔領域から顔の時空間的詳細を再構成し、局所的および世界的側面を捉え、汎用的で伝達可能な特徴をコード化するのに役立つ。 様々な下流タスクに関する様々な実験を通じて、MARLINは優れた顔ビデオエンコーダであり、特徴抽出器であり、FAR(1.13%)、FER(2.64%)、DFD(1.86%)、LS(29.36%)、低データ体制でも一貫して機能することを示した。 私たちのコードと事前訓練されたモデルは公開されます。

This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our codes and pre-trained models will be made public.
翻訳日:2022-11-15 18:07:51 公開日:2022-11-12
# 壁画損傷の進行的インペインティングを指導する線画

Line Drawing Guided Progressive Inpainting of Mural Damages ( http://arxiv.org/abs/2211.06649v1 )

ライセンス: Link先を確認
Luxi Li, Qin Zou, Fan Zhang, Hongkai Yu, Long Chen, Chengfang Song, Xianfeng Huang, Xiaoguang Wang(参考訳) 壁画塗装とは、壁画の損傷や欠落箇所を修復して視覚的な外観を復元することを指す。 既存の画像塗装法の多くは、ターゲット画像のみを入力とし、損傷を直接修復して視覚的に妥当な結果を生成する傾向にある。 これらの手法は、人間の顔、織物のテクスチャ、印刷されたテキストなどの特定の物体の復元や完成において高い性能を発揮するが、様々な対象の壁画、特に大きな損傷を受けた壁画の修復には適さない。 また,絵具の彩色の違いから,壁画の彩色は自然画の彩色に比べて明らかな彩色バイアスに悩まされる可能性がある。 そこで本稿では,線画ガイドによる進行壁画塗装法を提案する。 塗工工程は、それぞれ構造復元ネットワーク(srn)と色補正ネットワーク(ccn)によって実行される構造復元と色補正の2つのステップに分けられる。 構造復元では,SRNによる大規模コンテンツ信頼性と構造安定性の保証として線描画を用いる。 色補正において、ccnは欠落画素の局所的な色調整を行い、色バイアスとエッジジャンプの悪影響を低減させる。 提案手法は,現在の画像塗装法に対して評価される。 壁画の塗装において,提案手法の質的,定量的に優れることを示す。 コードとデータは{https://github.com/qinnzou/mural-image-inpainting}で入手できる。

Mural image inpainting refers to repairing the damage or missing areas in a mural image to restore the visual appearance. Most existing image-inpainting methods tend to take a target image as the only input and directly repair the damage to generate a visually plausible result. These methods obtain high performance in restoration or completion of some specific objects, e.g., human face, fabric texture, and printed texts, etc., however, are not suitable for repairing murals with varied subjects, especially for murals with large damaged areas. Moreover, due to the discrete colors in paints, mural inpainting may suffer from apparent color bias as compared to natural image inpainting. To this end, in this paper, we propose a line drawing guided progressive mural inpainting method. It divides the inpainting process into two steps: structure reconstruction and color correction, executed by a structure reconstruction network (SRN) and a color correction network (CCN), respectively. In the structure reconstruction, line drawings are used by SRN as a guarantee for large-scale content authenticity and structural stability. In the color correction, CCN operates a local color adjustment for missing pixels which reduces the negative effects of color bias and edge jumping. The proposed approach is evaluated against the current state-of-the-art image inpainting methods. Qualitative and quantitative results demonstrate the superiority of the proposed method in mural image inpainting. The codes and data are available at {https://github.com/qinnzou/mural-image-inpainting}.
翻訳日:2022-11-15 18:07:22 公開日:2022-11-12
# スタイルGAN2モデル適応法を用いた無教師下顔の異常評価

Unsupervised Anomaly Appraisal of Cleft Faces Using a StyleGAN2-based Model Adaptation Technique ( http://arxiv.org/abs/2211.06659v1 )

ライセンス: Link先を確認
Abdullah Hayajneh, Mohammad Shaqfeh, Erchin Serpedin, Mitchell A. Stotland(参考訳) 本稿では,人間の顔における先天性口唇異常を一貫して検出し,局所化し,評価する新しい機械学習フレームワークを提案する。 目標は、顔の違いを普遍的に客観的に測定し、人間の判断と一致する再建的な手術結果を提供することである。 提案手法では, モデル適応を用いたStyleGAN2生成逆数ネットワークを用いて, 顔の正常化を図り, 画素単位の減算手法を用いて変形度を連続的に測定する。 提案するフレームワークの完全なパイプラインは, 画像前処理, 顔の正規化, 色変換, 形態的侵食, 熱マップ生成, 異常点の3段階からなる。 このフレームワークの特徴を生かして、解剖学的異常を細かく識別するヒートマップが提案されている。 提案手法は,人間の評価を含むコンピュータシミュレーションと調査によって検証される。 提案したコンピュータモデルによる異常スコアは、人間の顔の違いのレーティングと密接に相関しており、ピアソンのrスコアは0.942であった。

This paper presents a novel machine learning framework to consistently detect, localize and rate congenital cleft lip anomalies in human faces. The goal is to provide a universal, objective measure of facial differences and reconstructive surgical outcomes that matches human judgments. The proposed method employs the StyleGAN2 generative adversarial network with model adaptation to produce normalized transformations of cleft-affected faces in order to allow for subsequent measurement of deformity using a pixel-wise subtraction approach. The complete pipeline of the proposed framework consists of the following steps: image preprocessing, face normalization, color transformation, morphological erosion, heat-map generation and abnormality scoring. Heatmaps that finely discern anatomic anomalies are proposed by exploiting the features of the considered framework. The proposed framework is validated through computer simulations and surveys containing human ratings. The anomaly scores yielded by the proposed computer model correlate closely with the human ratings of facial differences, leading to 0.942 Pearson's r score.
翻訳日:2022-11-15 18:07:00 公開日:2022-11-12
# 深部空間の遠方:最近近傍の近距離分布検出

Far Away in the Deep Space: Nearest-Neighbor-Based Dense Out-of-Distribution Detection ( http://arxiv.org/abs/2211.06660v1 )

ライセンス: Link先を確認
Silvio Galesso, Max Argus, Thomas Brox(参考訳) 分布外検出の鍵は、分布内データまたはその特徴表現の密度推定である。 この問題に対する優れたパラメトリック解は、よく計算された分類データには存在するが、セマンティックセグメンテーションのような複雑な領域には適さない。 本稿では、k-nearest-neighborsアプローチが、小さな参照データセットとランタイムで驚くほど良い結果を得ることができ、近隣の数やサポートセットサイズの選択といったハイパーパラメータに関して堅牢であることを示す。 さらに, 標準パラメトリック手法の異常値と組み合わせることで, k-Nearest-Neighborsと組み合わせて新しい物体を検出するのに, トランスフォーマーの特徴が特に適していることを示す。 究極的には、このアプローチは単純かつ非侵襲的であり、すなわち、プライマリセグメンテーションのパフォーマンスに影響せず、異常の例のトレーニングを避け、+23%と+16%の ap 改善をそれぞれ roadanomaly と streethazard で行った共通ベンチマークで最先端の結果を得る。

The key to out-of-distribution detection is density estimation of the in-distribution data or of its feature representations. While good parametric solutions to this problem exist for well curated classification data, these are less suitable for complex domains, such as semantic segmentation. In this paper, we show that a k-Nearest-Neighbors approach can achieve surprisingly good results with small reference datasets and runtimes, and be robust with respect to hyperparameters, such as the number of neighbors and the choice of the support set size. Moreover, we show that it combines well with anomaly scores from standard parametric approaches, and we find that transformer features are particularly well suited to detect novel objects in combination with k-Nearest-Neighbors. Ultimately, the approach is simple and non-invasive, i.e., it does not affect the primary segmentation performance, avoids training on examples of anomalies, and achieves state-of-the-art results on the common benchmarks with +23% and +16% AP improvements on on RoadAnomaly and StreetHazards respectively.
翻訳日:2022-11-15 18:06:42 公開日:2022-11-12
# NeighborTrack: 隣のトラックレットとのマッチングによる単一オブジェクト追跡の改善

NeighborTrack: Improving Single Object Tracking by Bipartite Matching with Neighbor Tracklets ( http://arxiv.org/abs/2211.06663v1 )

ライセンス: Link先を確認
Yu-Hsi Chen, Chien-Yao Wang, Cheng-Yun Yang, Hung-Shuo Chang, Youn-Long Lin, Yung-Yu Chuang, and Hong-Yuan Mark Liao(参考訳) 本研究では,追従対象の周辺情報を利用して単一対象追跡(SOT)結果の検証と改善を行う,NeighborTrackというポストプロセッサを提案する。 追加のデータやリトレーニングは不要だ。 代わりに、バックボーンSOTネットワークによって予測される信頼スコアを使用して、近隣情報を自動的に導き、この情報を使用して追跡結果を改善する。 隠されたターゲットを追跡する場合、その外観は信頼できない。 しかし,一般的なサイムズネットワークでは,高い信頼度を持つ隣人によって誤解される可能性があるため,信頼度を単独で読み取るだけで追跡対象が隠蔽されているかどうかを判断できないことが多い。 提案したNeighborTrackは、非閉鎖の隣人の情報を利用して、追跡対象を再確認し、対象が閉鎖された場合の偽追跡を低減する。 閉塞による影響を減少させるだけでなく、オブジェクトの出現変化によるトラッキング問題も修正する。 NeighborTrackは、SOTネットワークやポストプロセッシングメソッドに依存しない。 短期オブジェクト追跡で一般的に使用されるVOTチャレンジデータセットでは、Ocean、TransT、OSTrackの3つの有名なSOTネットワークを平均${1.92\%}$EAOと${2.11\%}$ロバストネスで改善する。 OSTrackをベースとした中長期追跡実験では、最先端の${72.25\%}$AUC on LaSOTと${75.7\%}$AO on GOT-10Kを実現している。

We propose a post-processor, called NeighborTrack, that leverages neighbor information of the tracking target to validate and improve single-object tracking (SOT) results. It requires no additional data or retraining. Instead, it uses the confidence score predicted by the backbone SOT network to automatically derive neighbor information and then uses this information to improve the tracking results. When tracking an occluded target, its appearance features are untrustworthy. However, a general siamese network often cannot tell whether the tracked object is occluded by reading the confidence score alone, because it could be misled by neighbors with high confidence scores. Our proposed NeighborTrack takes advantage of unoccluded neighbors' information to reconfirm the tracking target and reduces false tracking when the target is occluded. It not only reduces the impact caused by occlusion, but also fixes tracking problems caused by object appearance changes. NeighborTrack is agnostic to SOT networks and post-processing methods. For the VOT challenge dataset commonly used in short-term object tracking, we improve three famous SOT networks, Ocean, TransT, and OSTrack, by an average of ${1.92\%}$ EAO and ${2.11\%}$ robustness. For the mid- and long-term tracking experiments based on OSTrack, we achieve state-of-the-art ${72.25\%}$ AUC on LaSOT and ${75.7\%}$ AO on GOT-10K.
翻訳日:2022-11-15 18:06:17 公開日:2022-11-12
# 部分的視覚的セマンティックな埋め込み: 分節学習によるファッションインテリジェンスシステム

Partial Visual-Semantic Embedding: Fashion Intelligence System with Sensitive Part-by-Part Learning ( http://arxiv.org/abs/2211.06688v1 )

ライセンス: Link先を確認
Ryotaro Shimizu, Takuma Nakamura, Masayuki Goto(参考訳) 本研究では,「カジュアル」や「カルト・カジュアル」や「オフィス・カジュアル」といった,ファッションに特有の抽象的かつ複雑な表現を定量化し,ユーザのファッション理解を支援するために,VSEモデルに基づくファッションインテリジェンスシステムを提案する。 しかし、既存のvseモデルは、髪、トップス、パンツ、スカート、靴など、複数の部分から構成されている状況をサポートしていない。 本稿では,ファッション座標の各部分にセンシティブな学習を可能にする部分的VSEを提案する。 提案モデルは部分的に組込み表現を学習する。 これにより、既存の様々な実用機能を維持し、特定の部分にのみ変更を加えるイメージ検索タスクと、特定の部分にフォーカスするイメージ並べ替えタスクを可能にする。 これは従来のモデルでは不可能だった。 定性的および定量的評価実験から,提案モデルが計算複雑性を増大させることなく従来のモデルよりも優れていることを示す。

In this study, we propose a technology called the Fashion Intelligence System based on the visual-semantic embedding (VSE) model to quantify abstract and complex expressions unique to fashion, such as ''casual,'' ''adult-casual,'' and ''office-casual,'' and to support users' understanding of fashion. However, the existing VSE model does not support the situations in which the image is composed of multiple parts such as hair, tops, pants, skirts, and shoes. We propose partial VSE, which enables sensitive learning for each part of the fashion coordinates. The proposed model partially learns embedded representations. This helps retain the various existing practical functionalities and enables image-retrieval tasks in which changes are made only to the specified parts and image reordering tasks that focus on the specified parts. This was not possible with conventional models. Based on both the qualitative and quantitative evaluation experiments, we show that the proposed model is superior to conventional models without increasing the computational complexity.
翻訳日:2022-11-15 18:05:49 公開日:2022-11-12
# TINC:木構造インプシットニューラル圧縮

TINC: Tree-structured Implicit Neural Compression ( http://arxiv.org/abs/2211.06689v1 )

ライセンス: Link先を確認
Runzhao Yang, Tingxiong Xiao, Yuxiao Cheng, Jinli Suo, Qionghai Dai(参考訳) Inlicit Neural representation (INR)は、少数のパラメータを用いて高い忠実度でターゲットシーンを記述することができ、有望なデータ圧縮技術として登場している。 しかし、INRは本質的にスペクトル範囲が限られており、多様な複雑なデータの冗長性を効果的に除去することは自明ではない。 予備的な研究は、対象データにおける大域的または局所的な相関のみを活用できるため、性能が制限される。 本稿では,局所領域に対してコンパクトな表現を行い,これらの局所表現の共有特徴を階層的に抽出する木構造型インプリシトニューラルネットワーク圧縮(TINC)を提案する。 具体的には, mlpを分割した局所領域に適合させ, これらのmlpを木構造に整理し, 空間距離に応じてパラメータを共有する。 パラメータ共有方式は隣接領域間の連続性を保証するだけでなく、局所的および非局所的な冗長性も同時に除去する。 大規模な実験により、TINCはINRの圧縮精度を改善し、商用ツールや他のディープラーニングベースの手法よりも印象的な圧縮能力を示した。 さらに、このアプローチは柔軟性が高く、さまざまなデータやパラメータ設定に合わせて調整できる。 再現可能なすべてのコードはgithubでリリースされる予定だ。

Implicit neural representation (INR) can describe the target scenes with high fidelity using a small number of parameters, and is emerging as a promising data compression technique. However, INR in intrinsically of limited spectrum coverage, and it is non-trivial to remove redundancy in diverse complex data effectively. Preliminary studies can only exploit either global or local correlation in the target data and thus of limited performance. In this paper, we propose a Tree-structured Implicit Neural Compression (TINC) to conduct compact representation for local regions and extract the shared features of these local representations in a hierarchical manner. Specifically, we use MLPs to fit the partitioned local regions, and these MLPs are organized in tree structure to share parameters according to the spatial distance. The parameter sharing scheme not only ensures the continuity between adjacent regions, but also jointly removes the local and non-local redundancy. Extensive experiments show that TINC improves the compression fidelity of INR, and has shown impressive compression capabilities over commercial tools and other deep learning based methods. Besides, the approach is of high flexibility and can be tailored for different data and parameter settings. All the reproducible codes are going to be released on github.
翻訳日:2022-11-15 18:05:30 公開日:2022-11-12
# 健全物体検出のための多段階特徴集約フレームワーク

Multistep feature aggregation framework for salient object detection ( http://arxiv.org/abs/2211.06697v1 )

ライセンス: Link先を確認
Xiaogang Liu Shuang Song(参考訳) 近年、高レベルな特徴や低レベルな特徴が、高レベルなオブジェクトの配置に協力できるような、多機能なオブジェクト検出技術が開発されている。 以前の手法の多くは、サルエントオブジェクト検出において優れた性能を達成している。 高レベルと低レベルの機能を融合することで、多数の特徴情報を抽出することができる。 一般的には、これらを片道フレームワークで実行し、最終的な機能出力まで、変数の機能をインターウィーブしています。 これは、サラレンシーマップのぼやけや不正確な位置化を引き起こす可能性がある。 これらの課題を克服するため,我々は,多元対応 (dr) モジュール,マルチスケールインタラクション (msi) モジュール,および機能強化 (fe) モジュールを含む3つのモジュールで構成された,高度オブジェクト検出のための多段階特徴集約 (msfa) フレームワークを提案する。 6つのベンチマークデータセットの実験結果は、MSFAが最先端のパフォーマンスを達成することを示す。

Recent works on salient object detection have made use of multi-scale features in a way such that high-level features and low-level features can collaborate in locating salient objects. Many of the previous methods have achieved great performance in salient object detection. By merging the high-level and low-level features, a large number of feature information can be extracted. Generally, they are doing these in a one-way framework, and interweaving the variable features all the way to the final feature output. Which may cause some blurring or inaccurate localization of saliency maps. To overcome these difficulties, we introduce a multistep feature aggregation (MSFA) framework for salient object detection, which is composed of three modules, including the Diverse Reception (DR) module, multiscale interaction (MSI) module and Feature Enhancement (FE) module to accomplish better multi-level feature fusion. Experimental results on six benchmark datasets demonstrate that MSFA achieves state-of-the-art performance.
翻訳日:2022-11-15 18:05:09 公開日:2022-11-12
# 建設における説明可能な人工知能:コンテンツ、コンテキスト、プロセス、成果評価フレームワーク

Explainable Artificial Intelligence in Construction: The Content, Context, Process, Outcome Evaluation Framework ( http://arxiv.org/abs/2211.06561v1 )

ライセンス: Link先を確認
Peter ED Love, Jane Matthews, Weili Fang, Stuart Porter, Hanbin Luo and Lieyun Ding(参考訳) 説明可能な人工知能は、新しく進化する概念である。 建設への影響はまだ実現されていないが、近い将来、その影響は深まるだろう。 それでも、XAIは建設において限定的な注目を集めている。 その結果、建設組織がXAIの何、なぜ、どのように、いつを理解できるかを理解するための評価枠組みが普及していない。 本稿では,XAIの採用と効果的管理を正当化するためのコンテンツ,コンテキスト,プロセス,成果評価フレームワークを開発することで,この空白を埋めることを目的とする。 この新フレームワークの紹介と解説の後、今後の研究にその意義について論じる。 我々の新しいフレームワークは概念的だが、建設組織がXAIのビジネス価値と利益の実現に向けて進むための参考枠を提供する。

Explainable artificial intelligence is an emerging and evolving concept. Its impact on construction, though yet to be realised, will be profound in the foreseeable future. Still, XAI has received limited attention in construction. As a result, no evaluation frameworks have been propagated to enable construction organisations to understand the what, why, how, and when of XAI. Our paper aims to fill this void by developing a content, context, process, and outcome evaluation framework that can be used to justify the adoption and effective management of XAI. After introducing and describing this novel framework, we discuss its implications for future research. While our novel framework is conceptual, it provides a frame of reference for construction organisations to make headway toward realising XAI business value and benefits.
翻訳日:2022-11-15 17:59:49 公開日:2022-11-12
# 説明可能な人工知能:概念、方法、および建設研究の機会

Explainable Artificial Intelligence: Precepts, Methods, and Opportunities for Research in Construction ( http://arxiv.org/abs/2211.06579v1 )

ライセンス: Link先を確認
Peter ED Love, Weili Fang, Jane Matthews, Stuart Porter, Hanbin Luo, and Lieyun Ding(参考訳) 説明可能な人工知能は、他の産業分野での重要性が増しているにもかかわらず、建設において限られた注目を集めている。 本稿では,建設におけるその可能性に対する意識を高めるために,XAIについて概説する。 本総説では,XAI文献の規範とアプローチを含む分類法を論じる。 利害関係者のデシダラタとデータと情報融合に焦点を当てた将来のXAI研究の機会を特定し,議論する。 我々は、AIの採用と建設における統合に対する懐疑論とためらいを和らげるために、新たな調査ラインを刺激する機会を期待する。

Explainable artificial intelligence has received limited attention in construction despite its growing importance in various other industrial sectors. In this paper, we provide a narrative review of XAI to raise awareness about its potential in construction. Our review develops a taxonomy of the XAI literature comprising its precepts and approaches. Opportunities for future XAI research focusing on stakeholder desiderata and data and information fusion are identified and discussed. We hope the opportunities we suggest stimulate new lines of inquiry to help alleviate the scepticism and hesitancy toward AI adoption and integration in construction.
翻訳日:2022-11-15 17:59:38 公開日:2022-11-12
# データ駆動型道路地図の自動修正手法

Data-driven Approach for Automatically Correcting Faulty Road Maps ( http://arxiv.org/abs/2211.06544v1 )

ライセンス: Link先を確認
Soojung Hong, Kwanghee Choi(参考訳) 道路網の維持は労働集約的であり、特に道路が頻繁に変化する発展途上国では特に顕著である。 大規模な高解像度衛星画像の豊富さとデータ駆動型ビジョン技術の進歩により、この現実世界の問題を解決するために多くの自動道路抽出手法が導入された。 しかし,その性能は実サービスにおける道路地図抽出の完全自動化に限られている。 したがって, 道路地図の半自動検出と補修という, 抽出した道路地図に対して, ループ内アプローチを採用するサービスが多い。 本稿は,道路地図の修正に新たなデータ駆動アプローチを導入することで,後者にのみ焦点をあてた。 道路形状ごとにカスタムメイドのアルゴリズムを使わずに複雑な道路ジオメトリに取り組むための画像インペインティング手法を導入し,任意の道路地図セグメンテーションモデルに容易に適用できる手法を提案する。 提案手法は, 直交道路, 直交道路, T-ジャンクション, 交差点など, 各種道路地形のベースラインと比較し, 提案手法の有効性を実証する。

Maintaining road networks is labor-intensive, especially in actively developing countries where the road frequently changes. Many automatic road extraction approaches have been introduced to solve this real-world problem, fueled by the abundance of large-scale high-resolution satellite imagery and advances in data-driven vision technology. However, their performance is limited to fully automating road map extraction in real-world services. Hence, many services employ the human-in-the-loop approaches on the extracted road maps: semi-automatic detection and repairment of faulty road maps. Our paper exclusively focuses on the latter, introducing a novel data-driven approach for fixing road maps. We incorporate image inpainting approaches to tackle complex road geometries without custom-made algorithms for each road shape, yielding a method that is readily applicable to any road map segmentation model. We compare our method with the baselines on various road geometries, such as straight and curvy roads, T-junctions, and intersections, to demonstrate the effectiveness of our approach.
翻訳日:2022-11-15 17:58:13 公開日:2022-11-12
# ThreshNet: リージョン特有なThresholdingにヒントを得たセグメンテーションリファインメント

ThreshNet: Segmentation Refinement Inspired by Region-Specific Thresholding ( http://arxiv.org/abs/2211.06560v1 )

ライセンス: Link先を確認
Savinay Nagendra, Chaopeng Shen, Daniel Kifer(参考訳) 本稿では,バイナリセグメンテーションタスク用に設計されたニューラルネットワークの出力を洗練するための後処理手法ThreshNetを提案する。 ThreshNetは、ベースネットワークが生成した信頼マップとグローバルおよびローカルのパッチ情報を使用して、最先端のメソッドのパフォーマンスを大幅に改善する。 バイナリセグメンテーションモデルは一般的に信頼度マップを0.5(またはその他の固定数)で信頼度スコアをしきい値にすることで予測に変換する。 しかし、最良のしきい値が画像に依存しており、多くの場合、領域固有の -- 画像の異なる部分は、異なるしきい値を使用することで恩恵を受ける。 そのためThreshNetは、トレーニングされたセグメンテーションモデルを採用し、トレーニングメカニズムの一部としてリージョン固有のしきい値を含むメモリ効率の高い後処理アーキテクチャを使用して、その予測を修正することを学ぶ。 我々の実験によると、ThreshNetはバイナリセグメンテーションとサリエンシ検出における最先端の手法を、通常mIoUとmBAで3~5%改善する。

We present ThreshNet, a post-processing method to refine the output of neural networks designed for binary segmentation tasks. ThreshNet uses the confidence map produced by a base network along with global and local patch information to significantly improve the performance of even state-of-the-art methods. Binary segmentation models typically convert confidence maps into predictions by thresholding the confidence scores at 0.5 (or some other fixed number). However, we observe that the best threshold is image-dependent and often even region-specific -- different parts of the image benefit from using different thresholds. Thus ThreshNet takes a trained segmentation model and learns to correct its predictions by using a memory-efficient post-processing architecture that incorporates region-specific thresholds as part of the training mechanism. Our experiments show that ThreshNet consistently improves over current the state-of-the-art methods in binary segmentation and saliency detection, typically by 3 to 5% in mIoU and mBA.
翻訳日:2022-11-15 17:57:55 公開日:2022-11-12
# MSLKANet:シーンテキスト削除のための大規模カーネル注意ネットワーク

MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text Removal ( http://arxiv.org/abs/2211.06565v1 )

ライセンス: Link先を確認
Guangtao Lyu (School of Computer Science and Artificial Intelligence, Wuhan University of Technology, China)(参考訳) シーンのテキストの除去は、テキストを取り除き、自然画像の知覚的に妥当な背景情報で領域を満たすことを目的としている。 プライバシー保護、シーンテキストの検索、テキスト編集といった様々な用途で注目を集めている。 ディープラーニングの発展に伴い、従来の手法は大幅に改善されている。 しかし、既存の手法のほとんどは、大きな知覚的分野やグローバルな情報を無視しているようである。 先駆的な手法は、収穫された画像から全画像へのトレーニングデータを変更するだけで、大幅に改善できる。 本稿では,全画像におけるシーンテキスト除去のためのマルチスケールネットワークmslkanetを提案する。 そこで本研究では,テキスト領域と背景の長距離依存性をさまざまな粒度レベルで把握するためのマルチスケール大規模カーネルアテンション(MSLKA)を提案する。 さらに,大きなカーネル分解機構とアトラスな空間ピラミッドプールを組み合わせることで,大きな受容場と計算コストを低く保ちながら,より有効な空間空間ピラミッドプール(LKSPP)を構築する。 実験結果から,提案手法は,合成および実世界の両方のデータセット上での最先端性能と,提案手法のMSLKAとLKSPPの有効性が示唆された。

Scene text removal aims to remove the text and fill the regions with perceptually plausible background information in natural images. It has attracted increasing attention due to its various applications in privacy protection, scene text retrieval, and text editing. With the development of deep learning, the previous methods have achieved significant improvements. However, most of the existing methods seem to ignore the large perceptive fields and global information. The pioneer method can get significant improvements by only changing training data from the cropped image to the full image. In this paper, we present a single-stage multi-scale network MSLKANet for scene text removal in full images. For obtaining large perceptive fields and global information, we propose multi-scale large kernel attention (MSLKA) to obtain long-range dependencies between the text regions and the backgrounds at various granularity levels. Furthermore, we combine the large kernel decomposition mechanism and atrous spatial pyramid pooling to build a large kernel spatial pyramid pooling (LKSPP), which can perceive more valid pixels in the spatial dimension while maintaining large receptive fields and low cost of computation. Extensive experimental results indicate that the proposed method achieves state-of-the-art performance on both synthetic and real-world datasets and the effectiveness of the proposed components MSLKA and LKSPP.
翻訳日:2022-11-15 17:57:34 公開日:2022-11-12
# 精度・完全・ロバストな容器分割のための親和性特徴強化

Affinity Feature Strengthening for Accurate, Complete and Robust Vessel Segmentation ( http://arxiv.org/abs/2211.06578v1 )

ライセンス: Link先を確認
Tianyi Shi, Xiaohuan Ding, Wei Zhou, Feng Pan, Zengqiang Yan, Xiang Bai and Xin Yang(参考訳) 血管分割は、冠動脈病変、網膜血管疾患、脳動脈瘤の検出など、多くの医療画像応用において必須である。 高い画素精度、完全なトポロジー構造、様々なコントラスト変動に対するロバスト性は、容器セグメンテーションの3つの重要な側面である。 しかし、既存の手法のほとんどは専用設計による部分の達成にのみ焦点を合わせており、3つの目標を同時に達成できるものは少ない。 本稿では,マルチスケール・アフィニティに基づくコントラスト非感受性アプローチを適用した新しいアフィニティ特徴強化ネットワーク(afn)を提案する。 具体的には、各画素に対して、予測されたマスク画像上の画素と隣人のセマンティックな関係をキャプチャするマルチスケール親和性フィールドを導出する。 このような多スケールアフィニティ場は、異なるサイズの容器セグメントの局所トポロジーを効果的に表現することができる。 一方、画像強度には依存せず、様々な照明やコントラストの変化に対して堅牢である。 さらに,それに対応するアフィニティフィールドの空間的およびスケール的適応重みを学習し,血管の特徴を強化する。 X-ray angiography coronary vessel dataset (XCAD), portal vein dataset (PV), digital subtraction angiography cerebrovascular vessel dataset (DSA) およびRetinal vessel dataset (DRIVE) の4種類の血管データセットを用いてAFNを評価した。 4つのデータセットの広範な実験結果から、afnは精度とトポロジーの指標の両方において最先端の手法よりも優れており、一方、既存の方法よりも様々なコントラスト変化に対して堅牢であることが示された。 コードは公開されます。

Vessel segmentation is essential in many medical image applications, such as the detection of coronary stenoses, retinal vessel diseases and brain aneurysms. A high pixel-wise accuracy, complete topology structure and robustness to various contrast variations are three critical aspects of vessel segmentation. However, most existing methods only focus on achieving part of them via dedicated designs while few of them can concurrently achieve the three goals. In this paper, we present a novel affinity feature strengthening network (AFN) which adopts a contrast-insensitive approach based on multiscale affinity to jointly model topology and refine pixel-wise segmentation features. Specifically, for each pixel we derive a multiscale affinity field which captures the semantic relationships of the pixel with its neighbors on the predicted mask image. Such a multiscale affinity field can effectively represent the local topology of a vessel segment of different sizes. Meanwhile, it does not depend on image intensities and hence is robust to various illumination and contrast changes. We further learn spatial- and scale-aware adaptive weights for the corresponding affinity fields to strengthen vessel features. We evaluate our AFN on four different types of vascular datasets: X-ray angiography coronary vessel dataset (XCAD), portal vein dataset (PV), digital subtraction angiography cerebrovascular vessel dataset (DSA) and retinal vessel dataset (DRIVE). Extensive experimental results on the four datasets demonstrate that our AFN outperforms the state-of-the-art methods in terms of both higher accuracy and topological metrics, and meanwhile is more robust to various contrast changes than existing methods. Codes will be made public.
翻訳日:2022-11-15 17:57:11 公開日:2022-11-12
# 歴史的文書画像のバイナリ化向上のための変分拡張

Variational Augmentation for Enhancing Historical Document Image Binarization ( http://arxiv.org/abs/2211.06581v1 )

ライセンス: Link先を確認
Avirup Dey, Nibaran Das, Mita Nasipuri(参考訳) 歴史的文書画像バイナリ化は画像処理においてよく知られたセグメント化問題である。 ユビキタスにもかかわらず、従来のしきい値アルゴリズムは、ひどく劣化した文書画像に対して限定的な成功を収めた。 ディープラーニングの出現に伴い、いくつかのセグメンテーションモデルが提案され、この分野で大きな進歩を遂げたが、大規模なトレーニングデータセットが利用できないことで制限された。 この問題を軽減するために、我々は2段階の新たなフレームワークを提案し、その1つは変動推論を用いて劣化サンプルを生成するジェネレータと、もう1つは生成されたデータをトレーニングするCNNベースのバイナライゼーションネットワークである。 このフレームワークをdibcoデータセット上で評価し,従来の最先端手法と競合する結果を得た。

Historical Document Image Binarization is a well-known segmentation problem in image processing. Despite ubiquity, traditional thresholding algorithms achieved limited success on severely degraded document images. With the advent of deep learning, several segmentation models were proposed that made significant progress in the field but were limited by the unavailability of large training datasets. To mitigate this problem, we have proposed a novel two-stage framework -- the first of which comprises a generator that generates degraded samples using variational inference and the second being a CNN-based binarization network that trains on the generated data. We evaluated our framework on a range of DIBCO datasets, where it achieved competitive results against previous state-of-the-art methods.
翻訳日:2022-11-15 17:56:39 公開日:2022-11-12
# DEYO: ステップバイステップオブジェクト検出のためのYOLO付きDETR

DEYO: DETR with YOLO for Step-by-Step Object Detection ( http://arxiv.org/abs/2211.06588v1 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) オブジェクト検出はコンピュータビジョンにおいて重要なトピックであり、後処理は典型的なオブジェクト検出パイプラインの重要な部分であり、従来のオブジェクト検出モデルの性能に重大なボトルネックをもたらす。 第1のエンドツーエンドターゲット検出モデルである検出トランス(detr)は、アンカーや非最大抑制(nms)といった手動コンポーネントの要件を破棄し、ターゲット検出プロセスを著しく単純化する。 しかし、従来のオブジェクト検出モデルと比較して、DETRは非常にゆっくりと収束し、クエリの意味は曖昧である。 そこで本研究では,ステップ・バイ・ステップ(Step-by-Step)の概念に着想を得た2段階物体検出モデルであるDETR with YOLO (DEYO)を提案する。 DEYOは古典的なターゲット検出モデルとDETRのようなモデルをそれぞれ第1と第2のステージとする2段階アーキテクチャである。 具体的には、第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を向上させる。 一方、第2段は、第1段検出器の限界による性能劣化を補償する。 大規模な実験により、DeYOは12と36のエポックで50.6 APと52.1 APを獲得し、ResNet-50をCOCOデータセットのバックボーンとマルチスケール機能として利用した。 最適なDETRライクなモデルであるDINOと比較して、DYOモデルは2つのエポックな設定で1.6 APと1.2 APの大幅な性能向上を実現している。

Object detection is an important topic in computer vision, with post-processing, an essential part of the typical object detection pipeline, posing a significant bottleneck affecting the performance of traditional object detection models. The detection transformer (DETR), as the first end-to-end target detection model, discards the requirement of manual components like the anchor and non-maximum suppression (NMS), significantly simplifying the target detection process. However, compared with most traditional object detection models, DETR converges very slowly, and a query's meaning is obscure. Thus, inspired by the Step-by-Step concept, this paper proposes a new two-stage object detection model, named DETR with YOLO (DEYO), which relies on a progressive inference to solve the above problems. DEYO is a two-stage architecture comprising a classic target detection model and a DETR-like model as the first and second stages, respectively. Specifically, the first stage provides high-quality query and anchor feeding into the second stage, improving the performance and efficiency of the second stage compared to the original DETR model. Meanwhile, the second stage compensates for the performance degradation caused by the first stage detector's limitations. Extensive experiments demonstrate that DEYO attains 50.6 AP and 52.1 AP in 12 and 36 epochs, respectively, while utilizing ResNet-50 as the backbone and multi-scale features on the COCO dataset. Compared with DINO, an optimal DETR-like model, the developed DEYO model affords a significant performance improvement of 1.6 AP and 1.2 AP in two epoch settings.
翻訳日:2022-11-15 17:56:27 公開日:2022-11-12
# AltCLIP: CLIPにおける拡張言語機能のための言語エンコーダの変更

AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities ( http://arxiv.org/abs/2211.06679v1 )

ライセンス: Link先を確認
Zhongzhi Chen, Guang Liu, Bo-Wen Zhang, Fulong Ye, Qinghong Yang, Ledell Wu(参考訳) 本研究では,概念的に単純かつ効果的な二言語多モーダル表現モデルを訓練する手法を提案する。 openaiがリリースした事前学習されたマルチモーダル表現モデルクリップから始め、事前学習された多言語テキストエンコーダxlm-rにテキストエンコーダを切り替え、教師の学習とコントラスト学習からなる2段階のトレーニングスキーマで言語とイメージの表現をアレンジした。 我々は,幅広いタスクの評価を通じて本手法を検証する。 私たちはImageNet-CN、Flicker30k-CN、COCO-CNなどのタスクに最先端のパフォーマンスを設定しました。 さらに、ほぼ全てのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることが示唆された。 私たちのモデルとコードはhttps://github.com/FlagAI-Open/FlagAIで利用可能です。

In this work, we present a conceptually simple and effective method to train a strong bilingual multimodal representation model. Starting from the pretrained multimodal representation model CLIP released by OpenAI, we switched its text encoder with a pretrained multilingual text encoder XLM-R, and aligned both languages and image representations by a two-stage training schema consisting of teacher learning and contrastive learning. We validate our method through evaluations of a wide range of tasks. We set new state-of-the-art performances on a bunch of tasks including ImageNet-CN, Flicker30k- CN, and COCO-CN. Further, we obtain very close performances with CLIP on almost all tasks, suggesting that one can simply alter the text encoder in CLIP for extended capabilities such as multilingual understanding. Our models and code are available at https://github.com/FlagAI-Open/FlagAI.
翻訳日:2022-11-15 17:32:08 公開日:2022-11-12
# 最小摂動によるテクスチャ・アドバーナリーの生成

Generating Textual Adversaries with Minimal Perturbation ( http://arxiv.org/abs/2211.06571v1 )

ライセンス: Link先を確認
Xingyi Zhao, Lu Zhang, Depeng Xu, Shuhan Yuan(参考訳) 近年,テキストデータに対する単語レベルの攻撃手法が数多く提案されている。 しかし、候補語の組み合わせからなる膨大な検索空間のため、既存のアプローチは、相手語を作る際にテキストの意味を保存するという問題に直面している。 本稿では,最小の摂動を導入しながら,原文と高い類似性を有する敵文を見つけるための新たな攻撃戦略を開発する。 その理論的根拠は、小さな摂動を伴う敵対的テキストが、原文の意味をよりよく保存できることを期待している。 実験の結果,本手法は,最先端の攻撃手法と比較して,4つのベンチマークデータセットにおいて,高い成功率と低い摂動率を実現することが示された。

Many word-level adversarial attack approaches for textual data have been proposed in recent studies. However, due to the massive search space consisting of combinations of candidate words, the existing approaches face the problem of preserving the semantics of texts when crafting adversarial counterparts. In this paper, we develop a novel attack strategy to find adversarial texts with high similarity to the original texts while introducing minimal perturbation. The rationale is that we expect the adversarial texts with small perturbation can better preserve the semantic meaning of original texts. Experiments show that, compared with state-of-the-art attack approaches, our approach achieves higher success rates and lower perturbation rates in four benchmark datasets.
翻訳日:2022-11-15 17:21:06 公開日:2022-11-12
# ConceptX: 潜在概念分析のためのフレームワーク

ConceptX: A Framework for Latent Concept Analysis ( http://arxiv.org/abs/2211.06642v1 )

ライセンス: Link先を確認
Firoj Alam and Fahim Dalvi and Nadir Durrani and Hassan Sajjad and Abdul Rafae Khan and Jia Xu(参考訳) 深いニューラルネットワークの不透明さは、説明が精度と同じくらい重要なソリューションをデプロイする上で依然として課題である。 本稿では,事前学習言語モデル(plm)における潜在表現空間の解釈と注釈付けのためのヒューマン・イン・ザ・ループフレームワークであるconceptxを提案する。 これらのモデルから学習した概念を教師なしの手法で発見し,その概念の説明を人間が生成できるようにする。 プロセスを容易にするため,概念の自動アノテーション(従来の言語オントロジーに基づく)を提供する。 このようなアノテーションは、深いNLPモデルで学んだ潜在概念を直接表現する言語資源の開発を可能にする。 これらは伝統的な言語概念だけでなく、アノテーターがモデルのバイアスを示すのに役立つタスク特化概念やセンシティブな概念(性別や宗教的な意味に基づく単語)も含まれる。 フレームワークは2つの部分で構成される (i)概念発見及び (ii)アノテーションプラットフォーム。

The opacity of deep neural networks remains a challenge in deploying solutions where explanation is as important as precision. We present ConceptX, a human-in-the-loop framework for interpreting and annotating latent representational space in pre-trained Language Models (pLMs). We use an unsupervised method to discover concepts learned in these models and enable a graphical interface for humans to generate explanations for the concepts. To facilitate the process, we provide auto-annotations of the concepts (based on traditional linguistic ontologies). Such annotations enable development of a linguistic resource that directly represents latent concepts learned within deep NLP models. These include not just traditional linguistic concepts, but also task-specific or sensitive concepts (words grouped based on gender or religious connotation) that helps the annotators to mark bias in the model. The framework consists of two parts (i) concept discovery and (ii) annotation platform.
翻訳日:2022-11-15 17:20:54 公開日:2022-11-12
# NLPeer: ピアレビューの計算研究のための統一リソース

NLPeer: A Unified Resource for the Computational Study of Peer Review ( http://arxiv.org/abs/2211.06651v1 )

ライセンス: Link先を確認
Nils Dycke, Ilia Kuznetsov, Iryna Gurevych(参考訳) ピアレビューは学術出版の中核的な要素であるが、時間がかかり、かなりの専門知識が必要であり、誤りを起こしやすい。 NLPのピアレビュー支援への応用は、これらの問題を緩和することを目的としているが、明確にライセンスされたデータセットとマルチドメインコーパスの欠如は、ピアレビューのためのNLPの体系的な研究を妨げる。 この問題を解決するために,5K以上の論文と5つの異なる会場から11kレビューレポートを作成したNLPeerを紹介した。 論文草案,カメラ対応版,nlpコミュニティのピアレビューの新しいデータセットに加えて,統一データ表現を確立し,従来のピアレビューデータセットを拡張し,解析,構造化された紙表現,リッチなメタデータ,バージョニング情報を含める。 我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道を開く。 NLPeerを公開しています。

Peer review is a core component of scholarly publishing, yet it is time-consuming, requires considerable expertise, and is prone to error. The applications of NLP for peer reviewing assistance aim to mitigate those issues, but the lack of clearly licensed datasets and multi-domain corpora prevent the systematic study of NLP for peer review. To remedy this, we introduce NLPeer -- the first ethically sourced multidomain corpus of more than 5k papers and 11k review reports from five different venues. In addition to the new datasets of paper drafts, camera-ready versions and peer reviews from the NLP community, we establish a unified data representation, and augment previous peer review datasets to include parsed, structured paper representations, rich metadata and versioning information. Our work paves the path towards systematic, multi-faceted, evidence-based study of peer review in NLP and beyond. We make NLPeer publicly available.
翻訳日:2022-11-15 17:20:38 公開日:2022-11-12
# ニューラル言語ステレオグラフィーにおけるセグメンテーションの曖昧さ

Addressing Segmentation Ambiguity in Neural Linguistic Steganography ( http://arxiv.org/abs/2211.06662v1 )

ライセンス: Link先を確認
Jumon Nozaki, Yugo Murawaki(参考訳) ueoka et al. (2021)を除いて、神経言語学的ステガノグラフィーに関する以前の研究は、送り手が盗聴者の疑念を喚起するのを避けるためにカバーテキストを遠ざけなければならないという事実を見逃していた。 本稿では,セグメンテーションの曖昧さが,受信側において時折デコード障害を引き起こすことを実証する。 サブワードの近さにより、この問題は今やどんな言語にも影響を及ぼす。 単語境界のない言語にも適用可能な,この問題を克服するための簡単な手法を提案する。

Previous studies on neural linguistic steganography, except Ueoka et al. (2021), overlook the fact that the sender must detokenize cover texts to avoid arousing the eavesdropper's suspicion. In this paper, we demonstrate that segmentation ambiguity indeed causes occasional decoding failures at the receiver's side. With the near-ubiquity of subwords, this problem now affects any language. We propose simple tricks to overcome this problem, which are even applicable to languages without explicit word boundaries.
翻訳日:2022-11-15 17:20:20 公開日:2022-11-12
# 肺結節切除のための放射線ゲノムパイプラインとCTスキャンによるEGFR変異の予測

A Radiogenomics Pipeline for Lung Nodules Segmentation and Prediction of EGFR Mutation Status from CT Scans ( http://arxiv.org/abs/2211.06620v1 )

ライセンス: Link先を確認
Ivo Gollini Navarrete, Mohammad Yaqub(参考訳) 肺がんは世界中で主要な死因である。 肺癌の早期発見は、より良好な予後に不可欠である。 放射線ゲノミクス(Radiogenomics)は、患者の結果を非侵襲的にモデル化するための医療画像とゲノム機能を組み合わせた新興分野である。 この研究は 放射性ゲノミクスのパイプラインです 1)注意及び再発ブロックを介して肺がんを分断する新規混合建築(RA-セグ) 2)表皮成長因子受容体(EGFR)変異を識別するための深部特徴分類器。 提案アルゴリズムを複数の公開データセット上で評価し,その一般化性とロバスト性を評価する。 提案手法は,既存のベースラインおよびsomaアプローチ(73.54 dice,93 f1スコア)よりも優れていることを示す。

Lung cancer is a leading cause of death worldwide. Early-stage detection of lung cancer is essential for a more favorable prognosis. Radiogenomics is an emerging discipline that combines medical imaging and genomics features for modeling patient outcomes non-invasively. This study presents a radiogenomics pipeline that has: 1) a novel mixed architecture (RA-Seg) to segment lung cancer through attention and recurrent blocks; and 2) deep feature classifiers to distinguish Epidermal Growth Factor Receptor (EGFR) mutation status. We evaluate the proposed algorithm on multiple public datasets to assess its generalizability and robustness. We demonstrate how the proposed segmentation and classification methods outperform existing baseline and SOTA approaches (73.54 Dice and 93 F1 scores).
翻訳日:2022-11-15 17:13:37 公開日:2022-11-12
# 畳み込みニューラルネットワークによる心臓MRIの幾何学的変換予測

Prediction of Geometric Transformation on Cardiac MRI via Convolutional Neural Network ( http://arxiv.org/abs/2211.06641v1 )

ライセンス: Link先を確認
Xin Gao(参考訳) 医用画像の分野において、深層畳み込みニューラルネットワーク(convnets)は、画像特徴を学習する非並列能力により、分類、セグメンテーション、登録作業において大きな成功を収めている。 しかし、これらのタスクは、しばしば大量の手動のアノテートデータを必要とし、労働集約的である。 したがって,教師なしのセマンティクス的特徴学習タスクを研究することは重要である。 本研究では,画像に適用される幾何学的変換を認識するためにConvNetsを訓練し,幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。 数学用語で幾何変換の集合を正確に定義し、空間次元と時間次元の区別を考慮してこのモデルを3次元に一般化する。 異なるモダリティ(bSSFP,T2,LGE)のCMR画像に対する自己監督法の評価を行い,96.4%,97.5%,96.4%の精度を得た。 論文のコードとモデルは、https://github.com/gaoxin492/geometric_transformation_cmrで公開します。

In the field of medical image, deep convolutional neural networks(ConvNets) have achieved great success in the classification, segmentation, and registration tasks thanks to their unparalleled capacity to learn image features. However, these tasks often require large amounts of manually annotated data and are labor-intensive. Therefore, it is of significant importance for us to study unsupervised semantic feature learning tasks. In our work, we propose to learn features in medical images by training ConvNets to recognize the geometric transformation applied to images and present a simple self-supervised task that can easily predict the geometric transformation. We precisely define a set of geometric transformations in mathematical terms and generalize this model to 3D, taking into account the distinction between spatial and time dimensions. We evaluated our self-supervised method on CMR images of different modalities (bSSFP, T2, LGE) and achieved accuracies of 96.4%, 97.5%, and 96.4%, respectively. The code and models of our paper will be published on: https://github.com/gaoxin492/Geometric_Transformation_CMR
翻訳日:2022-11-15 17:13:25 公開日:2022-11-12
# DriftRec: ブラインド画像復元タスクへの拡散モデルの適用

DriftRec: Adapting diffusion models to blind image restoration tasks ( http://arxiv.org/abs/2211.06757v1 )

ライセンス: Link先を確認
Simon Welker, Henry N. Chapman, Timo Gerkmann(参考訳) 本研究では,高圧縮レベルのjpegアーティファクト除去を例として,拡散モデルの高忠実度生成能力を用いてブラインド画像復元課題を解決する。 本研究では, 拡散モデルの前方確率微分方程式のエレガントな修正を行い, 復元作業に適用し, ドリフトrec法と命名する。 DriftRecと同一のネットワークアーキテクチャとJPEG再構成のための最先端技術を用いて,DriftRecを$L_2$レグレッションベースラインと比較したところ,この手法は,ぼやけた画像を生成するベースラインの傾向から逃れることができ,クリーンな画像の分布をより忠実に復元できることを示す。 きれいで腐敗した画像の分布がガウス以前の画像よりもかなり近いという考え方を生かして,低レベルの付加ノイズしか必要とせず,さらなる最適化を必要とせずとも比較的少ないサンプリングステップが必要となる。

In this work, we utilize the high-fidelity generation abilities of diffusion models to solve blind image restoration tasks, using JPEG artifact removal at high compression levels as an example. We propose an elegant modification of the forward stochastic differential equation of diffusion models to adapt them to restoration tasks and name our method DriftRec. Comparing DriftRec against an $L_2$ regression baseline with the same network architecture and a state-of-the-art technique for JPEG reconstruction, we show that our approach can escape both baselines' tendency to generate blurry images, and recovers the distribution of clean images significantly more faithfully while only requiring a dataset of clean/corrupted image pairs and no knowledge about the corruption operation. By utilizing the idea that the distributions of clean and corrupted images are much closer to each other than to a Gaussian prior, our approach requires only low levels of added noise, and thus needs comparatively few sampling steps even without further optimizations.
翻訳日:2022-11-15 17:13:06 公開日:2022-11-12
# プライベート機械学習のためのマルチエポック行列分解機構

Multi-Epoch Matrix Factorization Mechanisms for Private Machine Learning ( http://arxiv.org/abs/2211.06530v1 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, H. Brendan McMahan, Keith Rush, and Abhradeep Thakurta(参考訳) 我々は、データセットの複数のパス(エポック)を含む勾配に基づく機械学習(ML)トレーニングのための新しい差分プライベート(DP)メカニズムを導入し、達成可能なプライバシ・ユーティリティ・コンピューティングトレードオフを大幅に改善する。 我々の重要な貢献は、DMRST2022のアプローチを大幅に一般化し、オンライン行列分解DP機構を複数の参加者に拡張することである。 まず、より単純なスカラー貢献に対して、文毎のベクトル貢献で問題を低減できる条件を提示する。 これを用いて、凸プログラムとしてSGD変種に対する最適(各反復点における全二乗誤差)行列機構の構築を定式化する。 双対関数に対する閉形式解による効率的な最適化アルゴリズムを提案する。 扱いやすいが、オフラインで凸問題を解くことと、トレーニング中に必要なノイズマスクを計算することは、多くのトレーニングステップが必要な場合、非常に高価になる。 これに対処するために, 計算量を大幅に削減し, 少ないユーティリティ削減でフーリエ変換ベースの機構を設計する。 画像分類のための例レベルDPと、言語モデリングのためのユーザレベルDPの2つのタスクに対する大規模な実証的評価は、以前の最先端技術よりも大幅に改善されている。 我々の主な応用はMLであるが、主要なDP結果は任意の線形クエリに適用可能であるため、より広い適用性を持つ可能性がある。

We introduce new differentially private (DP) mechanisms for gradient-based machine learning (ML) training involving multiple passes (epochs) of a dataset, substantially improving the achievable privacy-utility-computation tradeoffs. Our key contribution is an extension of the online matrix factorization DP mechanism to multiple participations, substantially generalizing the approach of DMRST2022. We first give conditions under which it is possible to reduce the problem with per-iteration vector contributions to the simpler one of scalar contributions. Using this, we formulate the construction of optimal (in total squared error at each iterate) matrix mechanisms for SGD variants as a convex program. We propose an efficient optimization algorithm via a closed form solution to the dual function. While tractable, both solving the convex problem offline and computing the necessary noise masks during training can become prohibitively expensive when many training steps are necessary. To address this, we design a Fourier-transform-based mechanism with significantly less computation and only a minor utility decrease. Extensive empirical evaluation on two tasks: example-level DP for image classification and user-level DP for language modeling, demonstrate substantial improvements over the previous state-of-the-art. Though our primary application is to ML, we note our main DP results are applicable to arbitrary linear queries and hence may have much broader applicability.
翻訳日:2022-11-15 17:04:03 公開日:2022-11-12
# RISE: 敏感な変数を用いたロバスト個別決定学習

RISE: Robust Individualized Decision Learning with Sensitive Variables ( http://arxiv.org/abs/2211.06569v1 )

ライセンス: Link先を確認
Xiaoqing Tan, Zhengling Qi, Christopher W. Seymour, Lu Tang(参考訳) 本稿では,センシティブな変数が収集可能なデータであり,介入決定に重要である,敏感な変数を持つ,堅牢な個別化決定学習フレームワークであるriseを紹介する。 ナイーブなベースラインは、決定ルールの学習においてこれらのセンシティブな変数を無視することであり、重大な不確実性とバイアスをもたらす。 そこで本研究では,オフライントレーニング中にセンシティブな変数を取り入れつつ,モデル展開時に学習した決定ルールの入力に含めない決定学習フレームワークを提案する。 具体的には、因果的観点からは、決定時に利用できない敏感な変数によって引き起こされる個人の最悪の結果を改善することを目的としている。 平均最適目的を用いた既存の文献と異なり、新しく定義された分位または不フィムの最適決定規則を見つけることによって、堅牢な学習フレームワークを提案する。 提案手法の信頼性は, 合成実験と実世界の3つの応用により実証された。

This paper introduces RISE, a robust individualized decision learning framework with sensitive variables, where sensitive variables are collectible data and important to the intervention decision, but their inclusion in decision making is prohibited due to reasons such as delayed availability or fairness concerns. A naive baseline is to ignore these sensitive variables in learning decision rules, leading to significant uncertainty and bias. To address this, we propose a decision learning framework to incorporate sensitive variables during offline training but not include them in the input of the learned decision rule during model deployment. Specifically, from a causal perspective, the proposed framework intends to improve the worst-case outcomes of individuals caused by sensitive variables that are unavailable at the time of decision. Unlike most existing literature that uses mean-optimal objectives, we propose a robust learning framework by finding a newly defined quantile- or infimum-optimal decision rule. The reliable performance of the proposed method is demonstrated through synthetic experiments and three real-world applications.
翻訳日:2022-11-15 17:03:38 公開日:2022-11-12
# メンバーシップ推論のプライバシ

Provable Membership Inference Privacy ( http://arxiv.org/abs/2211.06582v1 )

ライセンス: Link先を確認
Zachary Izzo, Jinsung Yoon, Sercan O. Arik, James Zou(参考訳) 金融や医療といった機密性の高いデータを扱うアプリケーションでは、データのプライバシを保存する必要性が機械学習モデル開発にとって重要な障壁となる。 ディファレンシャルプライバシ(dp)は、証明可能なプライバシの標準標準として登場した。 しかし、DPの強力な理論的保証はしばしば機械学習のユーティリティの大幅な低下の犠牲となり、DPの保証自体を解釈するのは困難である。 本研究では,これらの課題に対処するため,新しいプライバシー概念である会員推測プライバシー(MIP)を提案する。 MIP と DP の関係を正確に評価し,DP の保証に要する量に比べて乱数率の少ない MIP を実現できることを示す。 MIP保証は、メンバーシップ推論攻撃の成功率の観点からも容易に解釈できる。 我々の理論的結果は、パラメトリックモデルトレーニングを含む連続的な出力を持つアルゴリズムのラッパーとして使用できる、MPIを保証するための単純なアルゴリズムも生み出す。

In applications involving sensitive data, such as finance and healthcare, the necessity for preserving data privacy can be a significant barrier to machine learning model development. Differential privacy (DP) has emerged as one canonical standard for provable privacy. However, DP's strong theoretical guarantees often come at the cost of a large drop in its utility for machine learning, and DP guarantees themselves can be difficult to interpret. In this work, we propose a novel privacy notion, membership inference privacy (MIP), to address these challenges. We give a precise characterization of the relationship between MIP and DP, and show that MIP can be achieved using less amount of randomness compared to the amount required for guaranteeing DP, leading to a smaller drop in utility. MIP guarantees are also easily interpretable in terms of the success rate of membership inference attacks. Our theoretical results also give rise to a simple algorithm for guaranteeing MIP which can be used as a wrapper around any algorithm with a continuous output, including parametric model training.
翻訳日:2022-11-15 17:03:22 公開日:2022-11-12
# 自己教師付き離散音声単位を用いたワンショット韻律と話者変換システム

A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units ( http://arxiv.org/abs/2211.06535v1 )

ライセンス: Link先を確認
Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky(参考訳) 本稿では,ピッチ,リズム,話者属性について,単発音声変換(vc)を実現する統一システムを提案する。 既存の作品は一般的に韻律と言語内容の相関を無視し、変換された音声の自然さの低下につながる。 さらに、適切な言語機能がないため、変換後の言語コンテンツを正確に保存できない。 これらの問題に対処するために、自己教師付き離散音声単位を言語表現として活用するカスケードモジュールシステムを提案する。 これらの離散単位はリズムモデリングに不可欠な時間情報を提供する。 本システムでは,まず音声レベルの韻律と話者表現を生波形から抽出する。 韻律表現が与えられると、韻律予測器は発話中の各離散単位のピッチ、エネルギー、持続時間を推定する。 合成器は、予測された韻律、話者表現、離散単位に基づいてさらに音声を再構成する。 実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性といった従来の手法よりも優れていた。 コードとサンプルは公開されている。

We present a unified system to realize one-shot voice conversion (VC) on the pitch, rhythm, and speaker attributes. Existing works generally ignore the correlation between prosody and language content, leading to the degradation of naturalness in converted speech. Additionally, the lack of proper language features prevents these systems from accurately preserving language content after conversion. To address these issues, we devise a cascaded modular system leveraging self-supervised discrete speech units as language representation. These discrete units provide duration information essential for rhythm modeling. Our system first extracts utterance-level prosody and speaker representations from the raw waveform. Given the prosody representation, a prosody predictor estimates pitch, energy, and duration for each discrete unit in the utterance. A synthesizer further reconstructs speech based on the predicted prosody, speaker representation, and discrete units. Experiments show that our system outperforms previous approaches in naturalness, intelligibility, speaker transferability, and prosody transferability. Code and samples are publicly available.
翻訳日:2022-11-15 16:55:53 公開日:2022-11-12
# チャネル間プーリングを用いた量子分割ニューラルネットワーク学習

Quantum Split Neural Network Learning using Cross-Channel Pooling ( http://arxiv.org/abs/2211.06524v1 )

ライセンス: Link先を確認
Won Joon Yun, Hankyul Baek, Joongheon Kim(参考訳) 近年、量子は量子機械学習、量子通信、量子コンピュータといった様々な分野に魅了されている。 中でも量子フェデレーション学習(QFL)は近年注目を集めており、量子ニューラルネットワーク(QNN)をフェデレーション学習(FL)に統合している。 従来のQFL法とは対照的に,分割学習の拡張版である量子分割学習(QSL)を提案する。 古典コンピューティングにおいて、分割学習は、より高速な収束、通信コスト、さらにはプライバシーにおいて多くの利点を示してきた。 QSLをフル活用するために,QNNによる量子状態トモグラフィのユニークな性質を活用するクロスチャネルプーリングを提案する。 数値的な結果から,QSLはQFLよりも1.64%高いトップ1の精度を達成できるだけでなく,MNIST分類タスクにおけるプライバシ保護を示す。

In recent years, quantum has been attracted by various fields such as quantum machine learning, quantum communication, and quantum computers. Among them, quantum federated learning (QFL) has recently received increasing attention, where quantum neural networks (QNNs) are integrated into federated learning (FL). In contrast to the existing QFL methods, we propose quantum split learning (QSL), which is the extension version of split learning. In classical computing, split learning has shown many advantages in faster convergence, communication cost, and even privacy. To fully utilize QSL, we propose crosschannel pooling which leverages the unique nature of quantum state tomography that is made by QNN. In numerical results, we corroborate that QSL achieves not only 1.64% higher top-1 accuracy than QFL but shows privacy-preserving in the MNIST classification task.
翻訳日:2022-11-15 16:55:23 公開日:2022-11-12
# Rewards Encoding Environment Dynamicsは参照型強化学習を改善する

Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning ( http://arxiv.org/abs/2211.06527v1 )

ライセンス: Link先を確認
Katherine Metcalf and Miguel Sarabia and Barry-John Theobald(参考訳) 嗜好に基づく強化学習(RL)アルゴリズムは、人間の嗜好フィードバックからそれらを蒸留することで、手作りの報酬関数の落とし穴を避けるのに役立つが、比較的単純な作業であっても、人間に必要なラベルが多すぎるため、それらは実用的ではない。 本研究では、報酬関数(REED)における環境ダイナミクスの符号化により、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数が劇的に減少することを示す。 我々は、REEDに基づく手法が状態-作用空間を分割し、優先データセットに含まれない状態-作用ペアへの一般化を容易にすることを仮定する。 REEDは、自己監督された時間的整合性タスクを通じて状態-作用表現の符号化環境ダイナミクスと、状態-作用表現から優先度に基づく報酬関数をブートストラップするの間を反復する。 事前のアプローチでは、優先ラベル付きトラジェクトリペアのみをトレーニングするが、REEDはポリシートレーニング中に経験したすべての遷移に対して状態-アクション表現を公開する。 本稿では, PrefPPO [1] と PEBBLE [2] の嗜好学習フレームワークにおける REED の利点を考察し,政策学習の速度と最終的な政策性能の両方に対する実験条件の改善を実証する。 例えば、50の選好ラベルを持つ四足歩行や歩行では、REEDベースの報酬関数は、真理報酬政策の83%と66%を回復し、REEDなしでは38\%と21\%しか回復しない。 一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。

Preference-based reinforcement learning (RL) algorithms help avoid the pitfalls of hand-crafted reward functions by distilling them from human preference feedback, but they remain impractical due to the burdensome number of labels required from the human, even for relatively simple tasks. In this work, we demonstrate that encoding environment dynamics in the reward function (REED) dramatically reduces the number of preference labels required in state-of-the-art preference-based RL frameworks. We hypothesize that REED-based methods better partition the state-action space and facilitate generalization to state-action pairs not included in the preference dataset. REED iterates between encoding environment dynamics in a state-action representation via a self-supervised temporal consistency task, and bootstrapping the preference-based reward function from the state-action representation. Whereas prior approaches train only on the preference-labelled trajectory pairs, REED exposes the state-action representation to all transitions experienced during policy training. We explore the benefits of REED within the PrefPPO [1] and PEBBLE [2] preference learning frameworks and demonstrate improvements across experimental conditions to both the speed of policy learning and the final policy performance. For example, on quadruped-walk and walker-walk with 50 preference labels, REED-based reward functions recover 83% and 66% of ground truth reward policy performance and without REED only 38\% and 21\% are recovered. For some domains, REED-based reward functions result in policies that outperform policies trained on the ground truth reward.
翻訳日:2022-11-15 16:55:08 公開日:2022-11-12
# tapas: 合成データのプライバシー監査のためのツールボックス

TAPAS: a Toolbox for Adversarial Privacy Auditing of Synthetic Data ( http://arxiv.org/abs/2211.06550v1 )

ライセンス: Link先を確認
Florimond Houssiau, James Jordon, Samuel N. Cohen, Owen Daniel, Andrew Elliott, James Geddes, Callum Mole, Camila Rangel-Smith, Lukasz Szpruch(参考訳) 大規模に収集された個人データは、意思決定の改善とイノベーションの加速を約束する。 しかし、そのようなデータの共有と利用は、プライバシーの深刻な懸念を引き起こす。 有望な解決策は、実際のデータの代わりに、人工的な記録を共有できる合成データを作ることである。 合成記録は実際の人間に関連付けられていないため、直感的には古典的な再識別攻撃を防いでいる。 しかし、プライバシーを守るには不十分だ。 ここでは、さまざまなシナリオ下で合成データのプライバシーを評価するための攻撃用ツールボックスであるTAPASを紹介する。 これらの攻撃には、先行作品の一般化と新しい攻撃が含まれる。 また,合成データに対するプライバシの脅威を推論する汎用フレームワークを導入し,tapaをいくつかの例で紹介する。

Personal data collected at scale promises to improve decision-making and accelerate innovation. However, sharing and using such data raises serious privacy concerns. A promising solution is to produce synthetic data, artificial records to share instead of real data. Since synthetic records are not linked to real persons, this intuitively prevents classical re-identification attacks. However, this is insufficient to protect privacy. We here present TAPAS, a toolbox of attacks to evaluate synthetic data privacy under a wide range of scenarios. These attacks include generalizations of prior works and novel attacks. We also introduce a general framework for reasoning about privacy threats to synthetic data and showcase TAPAS on several examples.
翻訳日:2022-11-15 16:54:37 公開日:2022-11-12
# 自己教師型フレームワイズを用いた音声品質評価

Efficient Speech Quality Assessment using Self-supervised Framewise Embeddings ( http://arxiv.org/abs/2211.06646v1 )

ライセンス: Link先を確認
Karl El Hajal, Zihan Wu, Neil Scheidwasser-Clow, Gasser Elbanna and Milos Cernak(参考訳) 音声研究者、開発者、言語病理学者、システム品質エンジニアには、自動音声品質評価が不可欠である。 現在の最先端システムは、時間依存モデリングと組み合わせたフレームワイズ音声特徴(手動または学習可能な)に基づいている。 本稿では,ConferenceSpeech 2022 Challengeにおいて,最高のパフォーマンスモデルに匹敵する効率のよいシステムを提案する。 提案システムの特徴は,パラメータの少ない (40-60x), FLOPSが少ない (100x), メモリ消費が少ない (10-15x), レイテンシが低い (30x) ことである。 したがって、音声品質の実践者は、より高速に繰り返し、リソース制限されたハードウェアにシステムをデプロイし、全体として、提案システムは持続可能な機械学習に寄与する。 この論文は、フレームワイズが発話レベルの埋め込みよりも優れており、音響条件モデリングによるマルチタスクトレーニングは、より良い解釈を提供しながら、音声品質の予測を損なわないと結論付けている。

Automatic speech quality assessment is essential for audio researchers, developers, speech and language pathologists, and system quality engineers. The current state-of-the-art systems are based on framewise speech features (hand-engineered or learnable) combined with time dependency modeling. This paper proposes an efficient system with results comparable to the best performing model in the ConferencingSpeech 2022 challenge. Our proposed system is characterized by a smaller number of parameters (40-60x), fewer FLOPS (100x), lower memory consumption (10-15x), and lower latency (30x). Speech quality practitioners can therefore iterate much faster, deploy the system on resource-limited hardware, and, overall, the proposed system contributes to sustainable machine learning. The paper also concludes that framewise embeddings outperform utterance-level embeddings and that multi-task training with acoustic conditions modeling does not degrade speech quality prediction while providing better interpretation.
翻訳日:2022-11-15 16:54:28 公開日:2022-11-12
# 言語指導型ロボットマニピュレーションのためのニューロシンボリックプログラムの学習

Learning Neuro-symbolic Programs for Language Guided Robot Manipulation ( http://arxiv.org/abs/2211.06652v1 )

ライセンス: Link先を確認
Namasivayam Kalithasan, Himanshu Singh, Vishal Bindal, Arnav Tuli, Vishwajeet Agrawal, Rahul Jain, Parag Singla, Rohan Paul(参考訳) 自然言語命令と入力および出力シーンが与えられた場合、所望の出力シーンとなる入力シーン上でロボットが実行可能な操作プログラムを出力できるニューロシンボリックモデルをトレーニングすることを目的としている。 このタスクの以前のアプローチには、以下の制限がある。 (i)訓練中に見られるもの以上の一般化を制限する概念を手書き記号に頼る([1]) 二 指示からアクションシーケンスを推測するが、密集したサブゴールの監督が必要 [2] 又は (iii)複雑な命令の解釈に固有のより深いオブジェクト中心の推論に必要な意味論の欠如 [3]。 対照的に、我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監視を必要としないエンドツーエンドの差別化が可能であり、潜在神経オブジェクト中心の表現で機能するシンボリック推論構造を利用し、入力シーンの深い推論を可能にする。 我々のアプローチの中心はモジュラー構造であり、階層的な命令パーサと、RLで訓練された非絡み合った動作表現を学習するための操作モジュールで構成されています。 実験では,7-DOFマニピュレータを用いたシミュレーション環境において,異なるステップ数を持つ命令と異なるオブジェクト数を持つシーン,未知の属性の組み合わせを持つオブジェクトのシミュレーション実験を行い,モデルがこのような変動に頑健であり,特に一般化設定において,既存のベースラインよりもはるかに優れていることを示す。

Given a natural language instruction, and an input and an output scene, our goal is to train a neuro-symbolic model which can output a manipulation program that can be executed by the robot on the input scene resulting in the desired output scene. Prior approaches for this task possess one of the following limitations: (i) rely on hand-coded symbols for concepts limiting generalization beyond those seen during training [1] (ii) infer action sequences from instructions but require dense sub-goal supervision [2] or (iii) lack semantics required for deeper object-centric reasoning inherent in interpreting complex instructions [3]. In contrast, our approach is neuro-symbolic and can handle linguistic as well as perceptual variations, is end-to-end differentiable requiring no intermediate supervision, and makes use of symbolic reasoning constructs which operate on a latent neural object-centric representation, allowing for deeper reasoning over the input scene. Central to our approach is a modular structure, consisting of a hierarchical instruction parser, and a manipulation module to learn disentangled action representations, both trained via RL. Our experiments on a simulated environment with a 7-DOF manipulator, consisting of instructions with varying number of steps, as well as scenes with different number of objects, and objects with unseen attribute combinations, demonstrate that our model is robust to such variations, and significantly outperforms existing baselines, particularly in generalization settings.
翻訳日:2022-11-15 16:54:13 公開日:2022-11-12
# 迷走神経鎮静時のマスク面の痛み検出

Pain Detection in Masked Faces during Procedural Sedation ( http://arxiv.org/abs/2211.06694v1 )

ライセンス: Link先を確認
Y. Zarghami, S. Mafeld, A. Conway, B. Taati(参考訳) 鎮静術を施行した患者のケアの質には痛みのモニタリングが不可欠である。 痛みを検出するための自動メカニズムは鎮静用量滴定を改善することができる。 顔の痛み検出に関するこれまでの研究は、隠蔽された顔の痛みを検出するコンピュータビジョン法の生存可能性を示している。 しかし、手術中の患者の顔は、医療機器やマスクで部分的に遮られることが多い。 人工的に閉塞した顔の痛み検出に関する以前の予備的な研究は、目の周りの狭いバンドからの痛みを検出できるアプローチを示している。 本研究は,介入放射線科で手術中の14例のマスキング顔の映像データを収集し,このデータセットを用いて深層学習モデルを訓練した。 このモデルは痛みの表情を正確に検出することができ、因果的時間的平滑化の後、平均精度(AP)が0.72、受信機動作特性曲線(AUC)が0.82となった。 これらの結果はベースラインモデルよりも優れており、手続き鎮静中のマスク面の痛み検出におけるコンピュータビジョンアプローチの有効性を示す。 モデルが公開データセット上でトレーニングされ、鎮静ビデオ上でテストされた場合、データセット間のパフォーマンスも検査される。 痛み表現が2つのデータセットで異なる方法を定性的に検討する。

Pain monitoring is essential to the quality of care for patients undergoing a medical procedure with sedation. An automated mechanism for detecting pain could improve sedation dose titration. Previous studies on facial pain detection have shown the viability of computer vision methods in detecting pain in unoccluded faces. However, the faces of patients undergoing procedures are often partially occluded by medical devices and face masks. A previous preliminary study on pain detection on artificially occluded faces has shown a feasible approach to detect pain from a narrow band around the eyes. This study has collected video data from masked faces of 14 patients undergoing procedures in an interventional radiology department and has trained a deep learning model using this dataset. The model was able to detect expressions of pain accurately and, after causal temporal smoothing, achieved an average precision (AP) of 0.72 and an area under the receiver operating characteristic curve (AUC) of 0.82. These results outperform baseline models and show viability of computer vision approaches for pain detection of masked faces during procedural sedation. Cross-dataset performance is also examined when a model is trained on a publicly available dataset and tested on the sedation videos. The ways in which pain expressions differ in the two datasets are qualitatively examined.
翻訳日:2022-11-15 16:48:12 公開日:2022-11-12
# モデルアンサンブルを用いた超レイア障害検証のための深部顔面表現型の改善

Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification Using Model Ensembles ( http://arxiv.org/abs/2211.06764v1 )

ライセンス: Link先を確認
Alexander Hustinx, Fabio Hellmann, \"Omer S\"umer, Behnam Javanmardi, Elisabeth Andr\'e, Peter Krawitz, Tzung-Chien Hsieh(参考訳) 希少な遺伝疾患は世界の人口の6%以上に影響を与える。 稀な疾患は非常に多種多様であるため、診断は困難である。 多くの疾患は、臨床医が患者を診断するためのヒントとなる顔の特徴を認識している。 gestaltmatcherのような以前の研究は、alexnetに似たdcnnが生成した表現ベクトルを利用して、高次元特徴空間の患者とマッチングし、超希薄な疾患を支援する。 しかし、gestaltmatcherで転送学習に使用されるアーキテクチャとデータセットは時代遅れになっている。 さらに、未確認の超希少障害に対するより良い表現ベクトルを生成するためのモデルを訓練する方法はまだ研究されていない。 超希薄な疾患を持つ患者の全体的な不足のため、モデルを直接訓練することは不可能である。 そこで我々はまず,gestaltmatcher dcnnを最先端の顔認識アプローチであるiresnetからarcfaceに置き換えた影響を解析した。 さらに、転送学習のための異なる顔認識データセットを実験した。 さらに, 一般顔認証モデルとモデルとを混合したテスト時間拡張法とモデルアンサンブルを提案し, ウルトララレ障害の障害検証精度を向上させることを試みた。 提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。

Rare genetic disorders affect more than 6% of the global population. Reaching a diagnosis is challenging because rare disorders are very diverse. Many disorders have recognizable facial features that are hints for clinicians to diagnose patients. Previous work, such as GestaltMatcher, utilized representation vectors produced by a DCNN similar to AlexNet to match patients in high-dimensional feature space to support "unseen" ultra-rare disorders. However, the architecture and dataset used for transfer learning in GestaltMatcher have become outdated. Moreover, a way to train the model for generating better representation vectors for unseen ultra-rare disorders has not yet been studied. Because of the overall scarcity of patients with ultra-rare disorders, it is infeasible to directly train a model on them. Therefore, we first analyzed the influence of replacing GestaltMatcher DCNN with a state-of-the-art face recognition approach, iResNet with ArcFace. Additionally, we experimented with different face recognition datasets for transfer learning. Furthermore, we proposed test-time augmentation, and model ensembles that mix general face verification models and models specific for verifying disorders to improve the disorder verification accuracy of unseen ultra-rare disorders. Our proposed ensemble model achieves state-of-the-art performance on both seen and unseen disorders.
翻訳日:2022-11-15 16:44:59 公開日:2022-11-12
# スタイルベースニューラルラジアンスフィールドのための3次元認識符号化

3D-Aware Encoding for Style-based Neural Radiance Fields ( http://arxiv.org/abs/2211.06583v1 )

ライセンス: Link先を確認
Yu-Jhe Li, Tao Xu, Bichen Wu, Ningyuan Zheng, Xiaoliang Dai, Albert Pumarola, Peizhao Zhang, Peter Vajda, Kris Kitani(参考訳) スタイルベースニューラル放射場(StyleNeRFなど)におけるNeRF逆変換の課題に取り組む。 そこで本研究では,nnf生成器の潜在空間に入力画像を投影するインバージョン関数を学習し,その潜在コードに基づいて元の画像の新しいビューを合成する。 2次元生成モデルにおけるGANインバージョンと比較すると、NeRFインバージョンは単に必要ではない。 1)入力画像の同一性を保持するだけでなく、 2) 生成した新規ビューにおける3次元一貫性を確保する。 これは、単一のビューイメージから得られた潜在コードは、複数のビューで不変である必要がある。 この課題に対処するために,スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。 第1段階では,入力画像を潜在コードに変換するベースエンコーダを導入する。 潜在コードがビュー不変であり、3次元一貫した新しいビュー画像の合成を可能にするため、ベースエンコーダのトレーニングにアイデンティティコントラスト学習を利用する。 第2に、入力画像の同一性を保つため、潜在コードを洗練し、出力画像により詳細な情報を追加するための精細エンコーダを導入する。 重要なのは、このモデルの新規性は、潜在多様体上に横たわっている最も近い潜在コードを生成する1段エンコーダの設計にあるため、2段目の改良は、nerf多様体に近い。 提案する2段エンコーダは,画像再構成とノベルビューレンダリングの両方において,既存のエンコーダよりも質的かつ定量的に優れていることを実証する。

We tackle the task of NeRF inversion for style-based neural radiance fields, (e.g., StyleNeRF). In the task, we aim to learn an inversion function to project an input image to the latent space of a NeRF generator and then synthesize novel views of the original image based on the latent code. Compared with GAN inversion for 2D generative models, NeRF inversion not only needs to 1) preserve the identity of the input image, but also 2) ensure 3D consistency in generated novel views. This requires the latent code obtained from the single-view image to be invariant across multiple views. To address this new challenge, we propose a two-stage encoder for style-based NeRF inversion. In the first stage, we introduce a base encoder that converts the input image to a latent code. To ensure the latent code is view-invariant and is able to synthesize 3D consistent novel view images, we utilize identity contrastive learning to train the base encoder. Second, to better preserve the identity of the input image, we introduce a refining encoder to refine the latent code and add finer details to the output image. Importantly note that the novelty of this model lies in the design of its first-stage encoder which produces the closest latent code lying on the latent manifold and thus the refinement in the second stage would be close to the NeRF manifold. Through extensive experiments, we demonstrate that our proposed two-stage encoder qualitatively and quantitatively exhibits superiority over the existing encoders for inversion in both image reconstruction and novel-view rendering.
翻訳日:2022-11-15 16:35:35 公開日:2022-11-12
# ノイズガバナンスによるグラフニューラルネットワークのロバストトレーニング

Robust Training of Graph Neural Networks via Noise Governance ( http://arxiv.org/abs/2211.06614v1 )

ライセンス: Link先を確認
Siyi Qian, Haochao Ying, Renjun Hu, Jingbo Zhou, Jintai Chen, Danny Z. Chen, Jian Wu(参考訳) グラフニューラルネットワーク(GNN)は、半教師付き学習のモデルとして広く使われている。 しかし、ラベルノイズの存在下でのGNNの堅牢性は、ほとんど探索されていない問題である。 本稿では,グラフのノードのラベルがノイズだけでなく少ないという,重要かつ困難なシナリオについて考察する。 このシナリオでは、ラベルノイズの伝搬と学習不足により、GNNの性能は劣化しがちである。 これらの問題に対処するために、ラベルノイズを明示的に制御することを学ぶことで、より堅牢性を実現する新しいRTGNN(Robust Training of Graph Neural Networks via Noise Governance)フレームワークを提案する。 具体的には、補足的監督として自己強化と整合性正規化を導入する。 自己強化監視は、ディープニューラルネットワークの記憶効果にインスパイアされ、ノイズラベルの修正を目的としている。 さらに、一貫性の規則化は、ビュー間およびビュー内の両方の観点からの模倣損失を通じて、GNNがノイズラベルに過度に適合することを防ぐ。 このような監視を活用すべく、ラベルをクリーンでノイズの多いタイプに分割し、不正確なラベルを修正し、ラベルのないノードに擬似ラベルを生成する。 異なる種類のラベルを持つノードの監督は適応的に選択される。 これにより、ノイズの多いラベルの影響を制限しながら、クリーンなラベルから十分な学習が可能になる。 RTGNNフレームワークの有効性を評価するための広範囲な実験を行い、2種類のラベルノイズと様々なノイズ率を持つ最先端手法よりも一貫した性能を検証した。

Graph Neural Networks (GNNs) have become widely-used models for semi-supervised learning. However, the robustness of GNNs in the presence of label noise remains a largely under-explored problem. In this paper, we consider an important yet challenging scenario where labels on nodes of graphs are not only noisy but also scarce. In this scenario, the performance of GNNs is prone to degrade due to label noise propagation and insufficient learning. To address these issues, we propose a novel RTGNN (Robust Training of Graph Neural Networks via Noise Governance) framework that achieves better robustness by learning to explicitly govern label noise. More specifically, we introduce self-reinforcement and consistency regularization as supplemental supervision. The self-reinforcement supervision is inspired by the memorization effects of deep neural networks and aims to correct noisy labels. Further, the consistency regularization prevents GNNs from overfitting to noisy labels via mimicry loss in both the inter-view and intra-view perspectives. To leverage such supervisions, we divide labels into clean and noisy types, rectify inaccurate labels, and further generate pseudo-labels on unlabeled nodes. Supervision for nodes with different types of labels is then chosen adaptively. This enables sufficient learning from clean labels while limiting the impact of noisy ones. We conduct extensive experiments to evaluate the effectiveness of our RTGNN framework, and the results validate its consistent superior performance over state-of-the-art methods with two types of label noises and various noise rates.
翻訳日:2022-11-15 16:29:38 公開日:2022-11-12
# 説明可能な強化学習に関する調査 : 概念,アルゴリズム,課題

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges ( http://arxiv.org/abs/2211.06665v1 )

ライセンス: Link先を確認
Yunpeng Qing, Shunyu Liu, Jie Song, Mingli Song(参考訳) 強化学習(rl)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。 ディープラーニングの復活によって、Deep RL(DRL)は、幅広い複雑な制御タスクに対して大きな成功を収めた。 励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。 この問題を軽減するために,本質的な解釈可能性やポストホックな説明可能性を構築することで,知的エージェントの内部動作に光をあてる文学が多数提案されている。 本稿では,eXplainable RL (XRL) に関する既存研究の総合的なレビューを行い,先行研究をモデル記述,報酬記述,状態記述,タスク記述に明確に分類する新たな分類法を提案する。 また,人間の知識を逆に活用してエージェントの学習効率と最終性能を向上するRL手法をレビュー,強調する一方,XRL分野ではこのような手法は無視されることが多い。 XRLにおけるいくつかのオープンな課題と機会について論じる。 この調査は、XRLの高度な要約とより良い理解を提供し、より効果的なXRLソリューションの研究を動機付けることを目的としている。 対応するオープンソースコードはhttps://github.com/Plankson/awesome-explainable-reinforcement-learningに分類される。

Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and final performance of agents while this kind of method is often ignored in XRL field. Some open challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization and better understanding of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
翻訳日:2022-11-15 16:29:16 公開日:2022-11-12
# カテゴリーデータに基づくビジネスインテリジェンスとデータ駆動根本原因分析のためのパイプライン

A Pipeline for Business Intelligence and Data-Driven Root Cause Analysis on Categorical Data ( http://arxiv.org/abs/2211.06717v1 )

ライセンス: Link先を確認
Shubham Thakar, Dhananjay Kalbande(参考訳) ビジネスインテリジェンス(bi)は、ビジネス内で戦略的に適用される既存のデータから得られた知識である。 データマイニングは、統計データモデリングを用いてデータからBIを抽出する技術または方法である。 収集されたさまざまなデータ項目間の関係や相関関係を見つけることで、ビジネスパフォーマンスの向上や、少なくとも何が起こっているのか理解を深めることができる。 root cause analysis (rca) は、適切な解を特定するために問題や事象の根本原因を発見することである。 RCAは、イベントが発生した理由を示し、将来的な問題の発生を避けるのに役立つ。 本稿では,データからビジネスインサイトを得るための新たなクラスタリングとアソシエーションルールマイニングパイプラインを提案する。 このパイプラインの結果は、これらのルールを評価するために、連続性、先行性、および様々なメトリクスを持つアソシエーションルールの形式でなされる。 このパイプラインの結果は、重要なビジネス判断のアンカーとなり、データサイエンティストが既存のモデルのアップデートや新しいモデルの開発に使用できる。 イベントの発生は、生成されたルールの先行者によって説明される。 したがって、この出力はデータ駆動の根本原因分析にも役立つ。

Business intelligence (BI) is any knowledge derived from existing data that may be strategically applied within a business. Data mining is a technique or method for extracting BI from data using statistical data modeling. Finding relationships or correlations between the various data items that have been collected can be used to boost business performance or at the very least better comprehend what is going on. Root cause analysis (RCA) is discovering the root causes of problems or events to identify appropriate solutions. RCA can show why an event occurred and this can help in avoiding occurrences of an issue in the future. This paper proposes a new clustering + association rule mining pipeline for getting business insights from data. The results of this pipeline are in the form of association rules having consequents, antecedents, and various metrics to evaluate these rules. The results of this pipeline can help in anchoring important business decisions and can also be used by data scientists for updating existing models or while developing new ones. The occurrence of any event is explained by its antecedents in the generated rules. Hence this output can also help in data-driven root cause analysis.
翻訳日:2022-11-15 16:28:49 公開日:2022-11-12
# 複数の時空間分解能における特徴を用いたリアルタイムの人間の行動予測

Using Features at Multiple Temporal and Spatial Resolutions to Predict Human Behavior in Real Time ( http://arxiv.org/abs/2211.06721v1 )

ライセンス: Link先を確認
Liang Zhang, Justin Lieffers, Adarsh Pyarelal(参考訳) 複雑なタスクを行う場合、人間は自然に複数の時間的および空間的解像度を同時に判断する。 我々は、人間のチームメイトを効果的にモデル化する人工知能エージェント、すなわち計算的心の理論(tom)は、同じことをすべきであると主張する。 本稿では,人間の行動を予測するために,高分解能と低分解能の空間情報と時間情報を統合し,マインクラフト型環境における都市探索・救助(usar)ミッションのシミュレーションを行った被験者から収集したデータに基づいて評価する手法を提案する。 本モデルでは,3つのネットワークが同時にトレーニングされた動作予測のためのニューラルネットワークを用いて,高分解能特徴抽出のためのニューラルネットワークを構成する。 高分解能抽出器は、マンハッタンと人間のマインクラフトアバターの距離差を入力として、高分解能グリッドワールド表現から計算された最新の少数の行動に対して動的に変化する目標をエンコードする。 対照的に、低分解能抽出器は、低分解能グラフ表現から計算された歴史的状態行列を用いて、参加者の歴史的挙動を符号化する。 教師付き学習により,人間の行動予測のためのロバストな事前情報を取得し,長期的な観察を効果的に処理する。 実験の結果,高分解能情報のみを用いる手法に比べて予測精度は有意に向上した。

When performing complex tasks, humans naturally reason at multiple temporal and spatial resolutions simultaneously. We contend that for an artificially intelligent agent to effectively model human teammates, i.e., demonstrate computational theory of mind (ToM), it should do the same. In this paper, we present an approach for integrating high and low-resolution spatial and temporal information to predict human behavior in real time and evaluate it on data collected from human subjects performing simulated urban search and rescue (USAR) missions in a Minecraft-based environment. Our model composes neural networks for high and low-resolution feature extraction with a neural network for behavior prediction, with all three networks trained simultaneously. The high-resolution extractor encodes dynamically changing goals robustly by taking as input the Manhattan distance difference between the humans' Minecraft avatars and candidate goals in the environment for the latest few actions, computed from a high-resolution gridworld representation. In contrast, the low-resolution extractor encodes participants' historical behavior using a historical state matrix computed from a low-resolution graph representation. Through supervised learning, our model acquires a robust prior for human behavior prediction, and can effectively deal with long-term observations. Our experimental results demonstrate that our method significantly improves prediction accuracy compared to approaches that only use high-resolution information.
翻訳日:2022-11-15 16:28:30 公開日:2022-11-12
# グラフニューラルネットワークの自己教師付きグラフ構造再構成

Self-Supervised Graph Structure Refinement for Graph Neural Networks ( http://arxiv.org/abs/2211.06545v1 )

ライセンス: Link先を確認
Jianan Zhao, Qianlong Wen, Mingxuan Ju, Chuxu Zhang, Yanfang Ye(参考訳) グラフニューラルネットワーク(GNN)の隣接行列の学習を目的としたグラフ構造学習(GSL)は,GNNの性能向上に大きな可能性を示している。 既存のGSLの作業の多くは、推定隣接行列とGNNパラメータを下流タスクに最適化した共同学習フレームワークを適用している。 しかし、GSLは基本的にリンク予測タスクであるため、そのゴールは下流タスクのゴールと大きく異なる可能性がある。 これらの2つの目標の不整合は、潜在的な最適グラフ構造を学ぶためのGSL法を制限する。 さらに、協調学習フレームワークは、隣接行列の推定と最適化の過程において、時間と空間の観点からのスケーラビリティの問題に苦しむ。 これらの問題を緩和するために,プリトレイン・フィニチューンパイプラインを用いたグラフ構造改善(gsr)フレームワークを提案する。 特に、事前学習フェーズは、相互リンク予測タスクを含む多視点コントラスト学習フレームワークにより、基礎となるグラフ構造を包括的に推定することを目的としている。 そして、事前学習モデルにより推定されるエッジ確率に応じてエッジの追加及び削除によりグラフ構造を洗練する。 最後に、微調整GNNは事前訓練されたモデルによって初期化され、下流タスクに最適化される。 精巧なグラフ構造が微調整空間に静止しているため、GSRは優れたスケーラビリティと効率をもたらす微調整フェーズにおけるグラフ構造の推定と最適化を避けることができる。 さらに、微調整GNNは、知識の移行と精錬グラフの両方によって強化される。 提案モデルの有効性(ベンチマークデータセット6つで最高の性能)、効率、スケーラビリティ(32.8%のgpuメモリを使用した場合の13.8倍の高速化)を評価するために、広範囲な実験を行った。

Graph structure learning (GSL), which aims to learn the adjacency matrix for graph neural networks (GNNs), has shown great potential in boosting the performance of GNNs. Most existing GSL works apply a joint learning framework where the estimated adjacency matrix and GNN parameters are optimized for downstream tasks. However, as GSL is essentially a link prediction task, whose goal may largely differ from the goal of the downstream task. The inconsistency of these two goals limits the GSL methods to learn the potential optimal graph structure. Moreover, the joint learning framework suffers from scalability issues in terms of time and space during the process of estimation and optimization of the adjacency matrix. To mitigate these issues, we propose a graph structure refinement (GSR) framework with a pretrain-finetune pipeline. Specifically, The pre-training phase aims to comprehensively estimate the underlying graph structure by a multi-view contrastive learning framework with both intra- and inter-view link prediction tasks. Then, the graph structure is refined by adding and removing edges according to the edge probabilities estimated by the pre-trained model. Finally, the fine-tuning GNN is initialized by the pre-trained model and optimized toward downstream tasks. With the refined graph structure remaining static in the fine-tuning space, GSR avoids estimating and optimizing graph structure in the fine-tuning phase which enjoys great scalability and efficiency. Moreover, the fine-tuning GNN is boosted by both migrating knowledge and refining graphs. Extensive experiments are conducted to evaluate the effectiveness (best performance on six benchmark datasets), efficiency, and scalability (13.8x faster using 32.8% GPU memory compared to the best GSL baseline on Cora) of the proposed model.
翻訳日:2022-11-15 16:17:36 公開日:2022-11-12
# 人物姿勢と顔画像合成のための二部グラフ推論GAN

Bipartite Graph Reasoning GANs for Person Pose and Facial Image Synthesis ( http://arxiv.org/abs/2211.06719v1 )

ライセンス: Link先を確認
Hao Tang, Ling Shao, Philip H.S. Torr, Nicu Sebe(参考訳) 本稿では,人物のポーズと顔画像合成という2つの課題に対して,二部グラフによる生成的逆ネットワーク(bigraphgan)を提案する。 提案するグラフ生成器は,ポーズ-ポーズ関係とポーズ-イメージ関係をそれぞれモデル化する2つの新しいブロックから構成される。 特に,提案する二部グラフ推論(bgr)ブロックは,二部グラフにおけるソースとターゲットポーズの長距離交叉関係を推論することを目的としており,ポーズ変形に起因する課題を軽減している。 さらに,対話的な方法で人物の形状と外観の両方の特徴表現能力を効果的に更新し,強化する,新たなインタラクション・アンド・アグリゲーション(IA)ブロックを提案する。 さらに,各部分のポーズの変化をより正確に把握するために,二部グラフによる大域構造変換を異なる意味体/顔部分の異なる局所変換を学習するタスクを分解する,新しい部分認識二部グラフ推論(pbgr)ブロックを提案する。 3つの公開データセットを用いた2つの課題生成タスクの実験は、客観的な定量的スコアと主観的視覚的現実性の観点から提案手法の有効性を示す。 ソースコードとトレーニングされたモデルはhttps://github.com/ha0tang/bigraphganで入手できる。

We present a novel bipartite graph reasoning Generative Adversarial Network (BiGraphGAN) for two challenging tasks: person pose and facial image synthesis. The proposed graph generator consists of two novel blocks that aim to model the pose-to-pose and pose-to-image relations, respectively. Specifically, the proposed bipartite graph reasoning (BGR) block aims to reason the long-range cross relations between the source and target pose in a bipartite graph, which mitigates some of the challenges caused by pose deformation. Moreover, we propose a new interaction-and-aggregation (IA) block to effectively update and enhance the feature representation capability of both a person's shape and appearance in an interactive way. To further capture the change in pose of each part more precisely, we propose a novel part-aware bipartite graph reasoning (PBGR) block to decompose the task of reasoning the global structure transformation with a bipartite graph into learning different local transformations for different semantic body/face parts. Experiments on two challenging generation tasks with three public datasets demonstrate the effectiveness of the proposed methods in terms of objective quantitative scores and subjective visual realness. The source code and trained models are available at https://github.com/Ha0Tang/BiGraphGAN.
翻訳日:2022-11-15 16:11:45 公開日:2022-11-12
# 効率的な映像分類のための深部教師なしキーフレーム抽出

Deep Unsupervised Key Frame Extraction for Efficient Video Classification ( http://arxiv.org/abs/2211.06742v1 )

ライセンス: Link先を確認
Hao Tang, Lei Ding, Songsong Wu, Bin Ren, Nicu Sebe, Paolo Rota(参考訳) 大量のビデオ(YouTube、Huluなど)が毎日オンラインにアップロードされているため、ビデオ処理と分析が緊急課題となっている。 ビデオからの代表的なキーフレームの抽出は、コンピュータ資源や時間を大幅に削減するため、ビデオ処理や解析において非常に重要である。 近年は大きな進歩を遂げているが,既存の手法では性能と効率のバランスが取れていないため,大規模ビデオ分類は未解決のままである。 そこで本研究では,畳み込みニューラルネットワーク (cnn) とテンポラルセグメント密度ピーククラスタリング (tsdpc) を組み合わせた,キーフレームを教師なしで検索する手法を提案する。 提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。 もう一つは、ビデオの時間的情報を保存できることです。 これにより、ビデオ分類の効率が向上する。 さらに、cnnの上部にlong short-term memory network(lstm)を追加して分類性能をさらに向上させる。 さらに,様々な入力ネットワークの重み融合戦略が提案され,性能が向上した。 映像分類とキーフレーム抽出を同時に最適化することにより,より優れた分類性能と高効率を実現する。 提案手法を2つの一般的なデータセット(HMDB51とUCF101)上で評価し,提案手法が最先端のアプローチと比較して競争性能と効率性を達成することを示す。

Video processing and analysis have become an urgent task since a huge amount of videos (e.g., Youtube, Hulu) are uploaded online every day. The extraction of representative key frames from videos is very important in video processing and analysis since it greatly reduces computing resources and time. Although great progress has been made recently, large-scale video classification remains an open problem, as the existing methods have not well balanced the performance and efficiency simultaneously. To tackle this problem, this work presents an unsupervised method to retrieve the key frames, which combines Convolutional Neural Network (CNN) and Temporal Segment Density Peaks Clustering (TSDPC). The proposed TSDPC is a generic and powerful framework and it has two advantages compared with previous works, one is that it can calculate the number of key frames automatically. The other is that it can preserve the temporal information of the video. Thus it improves the efficiency of video classification. Furthermore, a Long Short-Term Memory network (LSTM) is added on the top of the CNN to further elevate the performance of classification. Moreover, a weight fusion strategy of different input networks is presented to boost the performance. By optimizing both video classification and key frame extraction simultaneously, we achieve better classification performance and higher efficiency. We evaluate our method on two popular datasets (i.e., HMDB51 and UCF101) and the experimental results consistently demonstrate that our strategy achieves competitive performance and efficiency compared with the state-of-the-art approaches.
翻訳日:2022-11-15 16:11:23 公開日:2022-11-12
# 集中治療室における顔AU検出のためのエンドツーエンド機械学習フレームワーク

End-to-End Machine Learning Framework for Facial AU Detection in Intensive Care Units ( http://arxiv.org/abs/2211.06570v1 )

ライセンス: Link先を確認
Subhash Nerella, Kia Khezeli, Andrea Davidson, Patrick Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室に入院した患者には痛みがよく起こる。 ICU患者の痛み評価は、特に非バーバル鎮静、機械的換気、挿管患者の臨床医やICUスタッフにとって依然として課題である。 現在の手動の観察に基づく痛み評価ツールは、投与される痛みの頻度によって制限され、観察者に主観的である。 顔の行動は観察に基づくツールの主要な構成要素である。 さらに, 顔動作単位(aus)を用いた痛みを伴う表情検出の可能性についても検討した。 しかし、これらのアプローチは制御された環境や半制御された環境に限られており、臨床環境では検証されていない。 本研究では,動的ICU環境における顔行動分析を対象とする最大のデータセットであるPain-ICUデータセットを提案する。 対象はフロリダ大学ヘルス・ハンドス病院でICUを受診した成人49例のAUを付加した76,388例の顔画像フレームである。 本研究では、Pain-ICUデータセットと外部データセットのAU検出のための2つの視覚トランスフォーマーモデル、すなわちViTとSWINを評価した。 ICUでリアルタイムAU検出を行う目的で,完全エンドツーエンドのAU検出パイプラインを開発した。 SWINトランスフォーマーベースは、Pain-ICUデータセットのホールドアウトテストパーティションで0.88F1スコアと0.85精度を達成した。

Pain is a common occurrence among patients admitted to Intensive Care Units. Pain assessment in ICU patients still remains a challenge for clinicians and ICU staff, specifically in cases of non-verbal sedated, mechanically ventilated, and intubated patients. Current manual observation-based pain assessment tools are limited by the frequency of pain observations administered and are subjective to the observer. Facial behavior is a major component in observation-based tools. Furthermore, previous literature shows the feasibility of painful facial expression detection using facial action units (AUs). However, these approaches are limited to controlled or semi-controlled environments and have never been validated in clinical settings. In this study, we present our Pain-ICU dataset, the largest dataset available targeting facial behavior analysis in the dynamic ICU environment. Our dataset comprises 76,388 patient facial image frames annotated with AUs obtained from 49 adult patients admitted to ICUs at the University of Florida Health Shands hospital. In this work, we evaluated two vision transformer models, namely ViT and SWIN, for AU detection on our Pain-ICU dataset and also external datasets. We developed a completely end-to-end AU detection pipeline with the objective of performing real-time AU detection in the ICU. The SWIN transformer Base variant achieved 0.88 F1-score and 0.85 accuracy on the held-out test partition of the Pain-ICU dataset.
翻訳日:2022-11-15 16:00:44 公開日:2022-11-12
# ABCAS: 自動安定化器としてのスペクトルノルムの適応境界制御

ABCAS: Adaptive Bound Control of spectral norm as Automatic Stabilizer ( http://arxiv.org/abs/2211.06595v1 )

ライセンス: Link先を確認
Shota Hirose, Shiori Maki, Naoki Wada, Heming Sun, Jiro Katto(参考訳) スペクトル正規化は、生成的逆ネットワークのトレーニングを安定化するための最良の方法の1つである。 スペクトル正規化は、実データと偽データの分布の間の判別器の勾配を制限する。 しかし、この正規化であっても、GANのトレーニングは失敗することがある。 本稿では,トレーニングデータセットによってはより厳しい制約が必要な場合があり,ABCASと呼ばれる適応正規化手法を提供する新しい安定化器を提案する。 本手法は,実データと偽データの分布距離をチェックすることにより,判別器のリプシッツ定数を適応的に決定する。 提案手法は,生成側ネットワークのトレーニングの安定性を改善し,生成画像のFr'echet Inception Distanceスコアを向上する。 また、3つのデータセットに適したスペクトルノルムについても検討した。 その結果をアブレーション研究として示す。

Spectral Normalization is one of the best methods for stabilizing the training of Generative Adversarial Network. Spectral Normalization limits the gradient of discriminator between the distribution between real data and fake data. However, even with this normalization, GAN's training sometimes fails. In this paper, we reveal that more severe restriction is sometimes needed depending on the training dataset, then we propose a novel stabilizer which offers an adaptive normalization method, called ABCAS. Our method decides discriminator's Lipschitz constant adaptively, by checking the distance of distributions of real and fake data. Our method improves the stability of the training of Generative Adversarial Network and achieved better Fr\'echet Inception Distance score of generated images. We also investigated suitable spectral norm for three datasets. We show the result as an ablation study.
翻訳日:2022-11-15 16:00:24 公開日:2022-11-12
# divide and contrast:adaptive contrastive learningによるソースフリードメイン適応

Divide and Contrast: Source-free Domain Adaptation via Adaptive Contrastive Learning ( http://arxiv.org/abs/2211.06612v1 )

ライセンス: Link先を確認
Ziyi Zhang, Weikai Chen, Hui Cheng, Zhen Li, Siyuan Li, Liang Lin, Guanbin Li(参考訳) 本稿では、ソースデータにアクセスせずに、ソースプリトレーニングされたモデルをターゲットドメインに適応させる、ソースフリードメイン適応(sfuda)と呼ばれる実用的なドメイン適応タスクについて検討する。 既存の技術は主に自己教師付き擬似ラベリングを活用して、クラスワイドなグローバルアライメント [1] を達成するか、地域間の特徴一貫性を促進する局所構造抽出に依存する[2]。 グローバルな"アプローチはノイズの多いラベルに敏感だが、"ローカルな"アプローチはソースバイアスに悩まされている。 本稿では,SFUDAにおける新たなパラダイムであるDivide and Contrast(DaC)について述べる。 ソースモデルの予測信頼度に基づいて、dacは対象データをソースライクなサンプルとターゲット固有のサンプルに分割する。 特に、ソースライクなサンプルは、比較的クリーンなラベルのおかげで、グローバルなクラスクラスタリングを学ぶために利用される。 よりノイズの多いターゲット固有のデータは、固有のローカル構造を学ぶためにインスタンスレベルで利用されます。 さらに、メモリバンクベースの最大平均損失(mmd)損失を用いて、ソースライクなドメインとターゲット固有のサンプルを整合させ、分散ミスマッチを低減させる。 VisDA、Office-Home、そしてより挑戦的なDomainNetに関する大規模な実験は、現在の最先端アプローチよりもDaCの優れたパフォーマンスを検証した。 コードはhttps://github.com/zyezhang/dac.gitで入手できる。

We investigate a practical domain adaptation task, called source-free domain adaptation (SFUDA), where the source-pretrained model is adapted to the target domain without access to the source data. Existing techniques mainly leverage self-supervised pseudo labeling to achieve class-wise global alignment [1] or rely on local structure extraction that encourages feature consistency among neighborhoods [2]. While impressive progress has been made, both lines of methods have their own drawbacks - the "global" approach is sensitive to noisy labels while the "local" counterpart suffers from source bias. In this paper, we present Divide and Contrast (DaC), a new paradigm for SFUDA that strives to connect the good ends of both worlds while bypassing their limitations. Based on the prediction confidence of the source model, DaC divides the target data into source-like and target-specific samples, where either group of samples is treated with tailored goals under an adaptive contrastive learning framework. Specifically, the source-like samples are utilized for learning global class clustering thanks to their relatively clean labels. The more noisy target-specific data are harnessed at the instance level for learning the intrinsic local structures. We further align the source-like domain with the target-specific samples using a memory bank-based Maximum Mean Discrepancy (MMD) loss to reduce the distribution mismatch. Extensive experiments on VisDA, Office-Home, and the more challenging DomainNet have verified the superior performance of DaC over current state-of-the-art approaches. The code is available at https://github.com/ZyeZhang/DaC.git.
翻訳日:2022-11-15 16:00:11 公開日:2022-11-12
# 接地言語理解のための対話型マルチモーダルデータセットの収集

Collecting Interactive Multi-modal Datasets for Grounded Language Understanding ( http://arxiv.org/abs/2211.06552v1 )

ライセンス: Link先を確認
Shrestha Mohanty, Negar Arabzadeh, Milagro Teruel, Yuxuan Sun, Artem Zholus, Alexey Skrynnik, Mikhail Burtsev, Kavya Srinet, Aleksandr Panov, Arthur Szlam, Marc-Alexandre C\^ot\'e, Julia kiseleva(参考訳) 人間の知性は新しいタスクや環境に迅速に適応できる。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 同様の機能をマシンで実現可能な研究を容易にするために,(1)自然言語タスクを用いた協調型実施エージェントの形式化,(2)大規模かつスケーラブルなデータ収集ツールの開発,(3)対話型接地言語理解のための最初のデータセットの収集を行った。

Human intelligence can remarkably adapt quickly to new tasks and environments. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research which can enable similar capabilities in machines, we made the following contributions (1) formalized the collaborative embodied agent using natural language task; (2) developed a tool for extensive and scalable data collection; and (3) collected the first dataset for interactive grounded language understanding.
翻訳日:2022-11-15 15:51:12 公開日:2022-11-12
# 細粒化エンティティセグメンテーション

Fine-Grained Entity Segmentation ( http://arxiv.org/abs/2211.05776v2 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Weidong Guo, Tiancheng Shen, Jiuxiang Gu, Wenbo Li, Jiaya Jia, Zhe Lin, Ming-Hsuan Yang(参考訳) 密集した画像分割タスク(semantic、panopticなど)では、既存のメソッドが認識できない画像ドメイン、事前定義されたクラス、画像の解像度と品質のバリエーションにうまく一般化できない。 これらの観察に動機づけられ、オープンワールドと高品質の密集したセグメンテーションに重点を置いた、細粒度のエンティティセグメンテーションを探索する大規模なエンティティセグメンテーションデータセットを構築した。 データセットには、さまざまな画像ドメインと解像度にまたがるイメージと、トレーニングとテストのための高品質なマスクアノテーションが含まれている。 本稿では,データセットの高品質かつ解像度の高い性質から,高品質セグメンテーションのためのクロップフォーマーを提案する。 cropformerは、複数の画像からのマスク予測を効果的にアンサンブルできる、最初のクエリベースのトランスフォーマーアーキテクチャである。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクに対して、1.9ドルの大きなAPゲインを達成しています。 データセットとコードはhttp://luqi.info/entityv2.github.io/でリリースされる。

In dense image segmentation tasks (e.g., semantic, panoptic), existing methods can hardly generalize well to unseen image domains, predefined classes, and image resolution & quality variations. Motivated by these observations, we construct a large-scale entity segmentation dataset to explore fine-grained entity segmentation, with a strong focus on open-world and high-quality dense segmentation. The dataset contains images spanning diverse image domains and resolutions, along with high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer for high-quality segmentation, which can improve mask prediction using high-res image crops that provide more fine-grained image details than the full image. CropFormer is the first query-based Transformer architecture that can effectively ensemble mask predictions from multiple image crops, by learning queries that can associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the challenging fine-grained entity segmentation task. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
翻訳日:2022-11-15 15:44:33 公開日:2022-11-12
# DATa:視覚的表現を用いたドメイン適応型ディープテーブル検出

DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical Representations ( http://arxiv.org/abs/2211.06648v1 )

ライセンス: Link先を確認
Hyebin Kwon, Joungbin An, Dongwoo Lee, Won-Yong Shin(参考訳) 手作りのヒューリスティックに基づくルールベースのアプローチだけでなく、ディープラーニングアプローチも開発することにより、テーブル検出にかなりの研究が注目されている。 近年の研究は改良された結果でテーブル検出に成功したが、テーブルレイアウトの特徴が基礎となるモデルがトレーニングされたソースドメインと異なる可能性のある転送ドメインで使用される場合、パフォーマンスが低下することが多い。 この問題を解決するために,信頼ラベルが少ない特定のターゲットドメインにおいて,満足度の高い性能を保証する新しいドメイン適応支援ディープテーブル検出手法であるDATaを提案する。 この目的のために、我々は新たに語彙的特徴と再学習に用いる拡張モデルを設計した。 具体的には、最先端のビジョンベースモデルをバックボーンネットワークとして事前トレーニングした後、視覚ベースモデルと多層パーセプトロン(MLP)アーキテクチャからなる拡張モデルをトレーニングする。 トレーニングされたMLPアーキテクチャに基づいて得られた新しい信頼度スコアと、バウンディングボックスとその信頼度スコアの初期予測を用いて、各信頼度スコアをより正確に算出する。 データの優越性を検証するために,実世界のベンチマークデータセットをソースドメインに,別のデータセットをマテリアルサイエンス論文からなるターゲットドメインに導入して実験評価を行う。 実験により,提案手法は対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。 このようなゲインは、信頼度スコア閾値の設定に応じて高い偽陽性または偽陰性を除去できるため可能である。

Considerable research attention has been paid to table detection by developing not only rule-based approaches reliant on hand-crafted heuristics but also deep learning approaches. Although recent studies successfully perform table detection with enhanced results, they often experience performance degradation when they are used for transferred domains whose table layout features might differ from the source domain in which the underlying model has been trained. To overcome this problem, we present DATa, a novel Domain Adaptation-aided deep Table detection method that guarantees satisfactory performance in a specific target domain where few trusted labels are available. To this end, we newly design lexical features and an augmented model used for re-training. More specifically, after pre-training one of state-of-the-art vision-based models as our backbone network, we re-train our augmented model, consisting of the vision-based model and the multilayer perceptron (MLP) architecture. Using new confidence scores acquired based on the trained MLP architecture as well as an initial prediction of bounding boxes and their confidence scores, we calculate each confidence score more accurately. To validate the superiority of DATa, we perform experimental evaluations by adopting a real-world benchmark dataset in a source domain and another dataset in our target domain consisting of materials science articles. Experimental results demonstrate that the proposed DATa method substantially outperforms competing methods that only utilize visual representations in the target domain. Such gains are possible owing to the capability of eliminating high false positives or false negatives according to the setting of a confidence score threshold.
翻訳日:2022-11-15 15:43:00 公開日:2022-11-12
# 生涯学習対話システム

Lifelong and Continual Learning Dialogue Systems ( http://arxiv.org/abs/2211.06553v1 )

ライセンス: Link先を確認
Sahisnu Mazumder, Bing Liu(参考訳) チャットボットとして知られる対話システムは、ユーザとのチャット会話やタスク指向の対話で様々なタスクをこなすために広く普及しているため、近年で普及している。 既存のチャットボットは通常、事前にコンパイルされたデータや手動でラベル付けされたデータからトレーニングされる。 多くは手動でコンパイルされた知識ベース(kbs)を使用している。 自然言語を理解する能力はまだ限られており、多くのエラーが発生する傾向にあり、ユーザ満足度は低い。 通常、よりラベル付きデータとより手動でコンパイルされた知識を持つエンジニアによって継続的に改善される必要がある。 本書では,チャットボットがユーザや作業環境との自己開始型対話を通じて,自分自身で継続的に学習する能力を実現するための,生涯学習対話システムの新たなパラダイムを紹介する。 システムがユーザとチャットしたり、外部ソースからより多くのことを学ぶようになると、会話の知識が増し、より良くなる。 本書は、会話中の新しい言語表現と語彙的・事実的知識をユーザから継続的に学習し、外部ソースから会話を遮断し、会話中に新しい訓練例を取得し、会話スキルを習得する、連続学習対話システムを構築するための最新の開発と技術を紹介する。 これらの一般的な話題とは別に、対話システムの特定の側面の連続学習に関する既存の研究も調査されている。 この本は、将来の研究のためのオープンチャレンジに関する議論で締めくくられている。

Dialogue systems, commonly known as chatbots, have gained escalating popularity in recent times due to their wide-spread applications in carrying out chit-chat conversations with users and task-oriented dialogues to accomplish various user tasks. Existing chatbots are usually trained from pre-collected and manually-labeled data and/or written with handcrafted rules. Many also use manually-compiled knowledge bases (KBs). Their ability to understand natural language is still limited, and they tend to produce many errors resulting in poor user satisfaction. Typically, they need to be constantly improved by engineers with more labeled data and more manually compiled knowledge. This book introduces the new paradigm of lifelong learning dialogue systems to endow chatbots the ability to learn continually by themselves through their own self-initiated interactions with their users and working environments to improve themselves. As the systems chat more and more with users or learn more and more from external sources, they become more and more knowledgeable and better and better at conversing. The book presents the latest developments and techniques for building such continual learning dialogue systems that continuously learn new language expressions and lexical and factual knowledge during conversation from users and off conversation from external sources, acquire new training examples during conversation, and learn conversational skills. Apart from these general topics, existing works on continual learning of some specific aspects of dialogue systems are also surveyed. The book concludes with a discussion of open challenges for future research.
翻訳日:2022-11-15 15:42:18 公開日:2022-11-12
# VieCap4H-VLSP 2021: ObjectAoA -- ベトナム画像キャプションの注意を伴うオブジェクト関係変換器の性能向上

VieCap4H-VLSP 2021: ObjectAoA -- Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning ( http://arxiv.org/abs/2211.05405v2 )

ライセンス: Link先を確認
Nghia Hieu Nguyen, Duong T.D. Vo, Minh-Quan Ha(参考訳) 現在、画像キャプションは、視覚情報を理解し、人間の言語を使って画像にこの視覚情報を記述する能力を必要とする、困難なタスクである。 本稿では,注目機構に着目した物体関連トランスアーキテクチャを拡張することにより,トランス方式の画像理解能力を向上させる効率的な手法を提案する。 VieCap4Hデータセットの実験により,提案手法は,VLSPが保持する画像キャプション共有タスクの公開テストとプライベートテストの両方において,元の構造を大幅に上回っていることがわかった。

Image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of transformer-based method by extending Object Relation Transformer architecture with Attention on Attention mechanism. Experiments on the VieCap4H dataset show that our proposed method significantly outperforms its original structure on both the public test and private test of the Image Captioning shared task held by VLSP.
翻訳日:2022-11-15 15:32:48 公開日:2022-11-12