このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220722となっている論文です。

PDF登録状況(公開日: 20220722)

TitleAuthorsAbstract論文公表日・翻訳日
# CoLES: セルフスーパービジョンによるイベントシーケンスのコントラスト学習

CoLES: Contrastive Learning for Event Sequences with Self-Supervision ( http://arxiv.org/abs/2002.08232v3 )

ライセンス: Link先を確認
Dmitrii Babaev, Ivan Kireev, Nikita Ovsov, Mariya Ivanova, Gleb Gusev, Ivan Nazarov, Alexander Tuzhilin(参考訳) 本研究では,実世界のユーザが生成する個別イベントシーケンスにおける自己教師型学習の課題に対処する。 自己教師付き学習は、様々な下流機械学習タスクに容易に適用可能な、低次元の固定長ベクトル表現に生データからの複雑な情報を組み込む。 本稿では,従来音声やコンピュータビジョンの領域で使われていたコントラスト学習を,自己教師付き環境下での離散イベントシーケンス領域に適応させる新しい手法"CoLES"を提案する。 欧州の大手金融サービス会社でトランザクションのシーケンスに基づいて、CoLESの埋め込みをデプロイしました。 CoLES埋め込みの使用は、下流タスクにおける既存のモデルの性能を著しく改善し、年間数億ドルで測定された大きな財政的利益を生み出す。 また、いくつかの公開イベントシーケンスデータセット上でCLESを評価し、CLES表現がダウンストリームタスクにおける他のメソッドよりも一貫して優れていることを示した。

We address the problem of self-supervised learning on discrete event sequences generated by real-world users. Self-supervised learning incorporates complex information from the raw data in low-dimensional fixed-length vector representations that could be easily applied in various downstream machine learning tasks. In this paper, we propose a new method "CoLES", which adapts contrastive learning, previously used for audio and computer vision domains, to the discrete event sequences domain in a self-supervised setting. We deployed CoLES embeddings based on sequences of transactions at the large European financial services company. Usage of CoLES embeddings significantly improves the performance of the pre-existing models on downstream tasks and produces significant financial gains, measured in hundreds of millions of dollars yearly. We also evaluated CoLES on several public event sequences datasets and showed that CoLES representations consistently outperform other methods on different downstream tasks.
翻訳日:2022-12-30 14:21:18 公開日:2022-07-22
# ディープ・ビジュアライゼーションによるディープ・ニューラルネットワークの忘れ方

Explaining How Deep Neural Networks Forget by Deep Visualization ( http://arxiv.org/abs/2005.01004v3 )

ライセンス: Link先を確認
Giang Nguyen, Shuan Chen, Tae Joon Jun, Daeyoung Kim(参考訳) 深層ニューラルネットワークの振る舞いを説明することは、通常ブラックボックスと見なされるが、特に人間の生活のさまざまな側面で採用されている場合に重要である。 本稿では、解釈可能な機械学習(ML)の利点を生かして、連続的な学習環境における破滅的な忘れ方を説明するための、カタストロフィック・フォーッティング・ディセクター(CFD)と呼ばれる新しいツールを提案する。 また,本ツールの観察に基づいて,臨界凍結と呼ばれる新しい手法を提案する。 resnetの実験は、この有名なネットワークのどのコンポーネントが忘れているかを示す、壊滅的な忘れ方を示す。 新しい連続学習アルゴリズムは,近年の様々な手法をかなりのマージンで打ち負かし,調査の能力を証明する。 臨界凍結は破滅的な忘れ方を攻撃するだけでなく、説明可能性も露呈する。

Explaining the behaviors of deep neural networks, usually considered as black boxes, is critical especially when they are now being adopted over diverse aspects of human life. Taking the advantages of interpretable machine learning (interpretable ML), this paper proposes a novel tool called Catastrophic Forgetting Dissector (or CFD) to explain catastrophic forgetting in continual learning settings. We also introduce a new method called Critical Freezing based on the observations of our tool. Experiments on ResNet articulate how catastrophic forgetting happens, particularly showing which components of this famous network are forgetting. Our new continual learning algorithm defeats various recent techniques by a significant margin, proving the capability of the investigation. Critical freezing not only attacks catastrophic forgetting but also exposes explainability.
翻訳日:2022-12-07 06:13:43 公開日:2022-07-22
# i.i.d.仮定を緩和する:ルートエントロピー正則化による適応的ミニマックス最適後悔

Relaxing the I.I.D. Assumption: Adaptively Minimax Optimal Regret via Root-Entropic Regularization ( http://arxiv.org/abs/2007.06552v3 )

ライセンス: Link先を確認
Blair Bilodeau, Jeffrey Negrea, Daniel M. Roy(参考訳) 未知の制約セット内で任意に変化する分布からデータを生成する場合、専門家のアドバイスによる予測を考える。 この半逆設定は、(極端において)未知の制約集合がシングルトンに制限される古典的なi.i.d.設定と、制約集合がすべての分布の集合である場合の非拘束逆設定を含む。 Hedgeアルゴリズム(Hedge algorithm)は、長年、敵対体制において最小値(rate)が最適であることが知られていたが、最近、i.d.データに対して同時に最小値が最適であることが示されている。 本研究では,制約集合上の自然順序の全てのレベルで適応性を求めることにより,i.i.d.仮定を緩和することを提案する。 我々は,すべてのレベルにおいてミニマックス後悔の上限と下限を一致させ,決定論的学習率を持つヘッジが極端外において最適以下であることを示し,すべてのレベルにおいてミニマックス後悔を適応的に得ることを証明した。 この最適適応性は、初期予測分布のエントロピーではなく、現在の予測分布のエントロピーの平方根として暗黙的にスケールする新しい適応正規化スキームを用いて、従順化リーダー(FTRL)フレームワークを用いて達成する。 最後に、FTRLの統計的性能を半逆スペクトルに沿って研究するための新しい技術ツールを提供する。

We consider prediction with expert advice when data are generated from distributions varying arbitrarily within an unknown constraint set. This semi-adversarial setting includes (at the extremes) the classical i.i.d. setting, when the unknown constraint set is restricted to be a singleton, and the unconstrained adversarial setting, when the constraint set is the set of all distributions. The Hedge algorithm -- long known to be minimax (rate) optimal in the adversarial regime -- was recently shown to be simultaneously minimax optimal for i.i.d. data. In this work, we propose to relax the i.i.d. assumption by seeking adaptivity at all levels of a natural ordering on constraint sets. We provide matching upper and lower bounds on the minimax regret at all levels, show that Hedge with deterministic learning rates is suboptimal outside of the extremes, and prove that one can adaptively obtain minimax regret at all levels. We achieve this optimal adaptivity using the follow-the-regularized-leader (FTRL) framework, with a novel adaptive regularization scheme that implicitly scales as the square root of the entropy of the current predictive distribution, rather than the entropy of the initial predictive distribution. Finally, we provide novel technical tools to study the statistical performance of FTRL along the semi-adversarial spectrum.
翻訳日:2022-11-10 23:06:11 公開日:2022-07-22
# 基本ビジョンタスクのパフォーマンス評価はどの程度信頼できるか?

How Trustworthy are Performance Evaluations for Basic Vision Tasks? ( http://arxiv.org/abs/2008.03533v4 )

ライセンス: Link先を確認
Tran Thien Dat Nguyen, Hamid Rezatofighi, Ba-Ngu Vo, Ba-Tuong Vo, Silvio Savarese, Ian Reid(参考訳) 本稿では,オブジェクト検出,インスタンスレベルのセグメンテーション,マルチオブジェクト追跡といった,オブジェクト集合を含む基本ビジョンタスクの性能評価基準について検討する。 既存の基準によるアルゴリズムのランク付けはパラメータの異なる選択(例えばiou(intersection over union)しきい値など)で変動し、それらの評価は信頼できない。 さらに重要なことに、基準の評価を信頼できるかどうかを検証する手段はない。 この研究は、パフォーマンス基準に対する信頼性の概念を示唆している。 一 信頼性のためのパラメータに対する堅牢性 (ii)衛生検査における文脈的有意義性、及び (iii)計量特性などの数学的要件との整合性。 これらの要件は多くの広く使用されている基準で見落とされ、形状の集合の指標を用いて代替基準を探索する。 また,これらの基準を信頼性の要求条件に基づいて評価した。

This paper examines performance evaluation criteria for basic vision tasks involving sets of objects namely, object detection, instance-level segmentation and multi-object tracking. The rankings of algorithms by an existing criterion can fluctuate with different choices of parameters, e.g. Intersection over Union (IoU) threshold, making their evaluations unreliable. More importantly, there is no means to verify whether we can trust the evaluations of a criterion. This work suggests a notion of trustworthiness for performance criteria, which requires (i) robustness to parameters for reliability, (ii) contextual meaningfulness in sanity tests, and (iii) consistency with mathematical requirements such as the metric properties. We observe that these requirements were overlooked by many widely-used criteria, and explore alternative criteria using metrics for sets of shapes. We also assess all these criteria based on the suggested requirements for trustworthiness.
翻訳日:2022-11-01 12:04:20 公開日:2022-07-22
# ランダム林を用いたモデル誤差推定によるサントス海峡の海洋変動予測の強化

Enhancing Oceanic Variables Forecast in the Santos Channel by Estimating Model Error with Random Forests ( http://arxiv.org/abs/2208.05966v1 )

ライセンス: Link先を確認
Felipe M. Moreno (1), Caio F. D. Netto (1), Marcel R. de Barros (1), Jefferson F. Coelho (1), Lucas P. de Freitas (1), Marlon S. Mathias (2), Luiz A. Schiaveto Neto (1), Marcelo Dottori (3), Fabio G. Cozman (1), Anna H. R. Costa (1), Edson S. Gomi (1), Eduardo A. Tannuri (1) ((1) Escola Polit\'ecnica - University of Sao Paulo, Brazil, (2) Instituto de Estudos Avan\c{c}ados - University of Sao Paulo, Brazil, (3) Instituto Oceanogr\'afico - University of Sao Paulo, Brazil)(参考訳) 本研究では,海洋シナリオにおける海面高度(SSH)の予測と流速(速度と方向)を改善する。 我々は,ブラジルのサントス海峡で開発された数値予測システムの誤差を予測するために,ランダムフォレストを利用する。 我々は,2019年から2021年の間に,サントスの運用予測システム(SOFS)とデータを収集した。 これまでの研究では、チャネル入口における電流速度に類似した手法を適用し、SHH予測を改善するためにアプリケーションを拡張し、チャネル内に4つの他のステーションを含める。 ルート平均角誤差(RMSE)の予測では平均11.9%、アプローチでは38.7%の削減が得られた。 また,予測変数と駅の合計14組み合わせのうち,約定値(IOA)を10で増加させた。

In this work we improve forecasting of Sea Surface Height (SSH) and current velocity (speed and direction) in oceanic scenarios. We do so by resorting to Random Forests so as to predict the error of a numerical forecasting system developed for the Santos Channel in Brazil. We have used the Santos Operational Forecasting System (SOFS) and data collected in situ between the years of 2019 and 2021. In previous studies we have applied similar methods for current velocity in the channel entrance, in this work we expand the application to improve the SHH forecast and include four other stations in the channel. We have obtained an average reduction of 11.9% in forecasting Root-Mean Square Error (RMSE) and 38.7% in bias with our approach. We also obtained an increase of Agreement (IOA) in 10 of the 14 combinations of forecasted variables and stations.
翻訳日:2022-08-28 22:36:35 公開日:2022-07-22
# 効率的な性能推定による進化的ニューラルネットワーク探索

Guided Evolutionary Neural Architecture Search With Efficient Performance Estimation ( http://arxiv.org/abs/2208.06475v1 )

ライセンス: Link先を確認
Vasco Lopes, Miguel Santos, Bruno Degardin, Lu\'is A. Alexandre(参考訳) ニューラルアーキテクチャサーチ(NAS)法は優れた結果を得た画像処理に成功している。 しかし、NAS法はしばしば複雑であり、生成したアーキテクチャが良い結果をもたらすとすぐに局所的なミニマに収束する傾向がある。 本稿では,ガイド型NASの新しいアプローチであるGAAを提案する。 GEAは、ゼロプロキシ推定器を用いて、初期化段階で各世代で複数のアーキテクチャを生成し評価することで、探索空間を探索し、進化を導く。 その後、GAAは、各世代で既存のアーキテクチャからいくつかのオフスプリングを生成することにより、複雑さを増すことなく検索空間に関する知識を継続的に抽出する。 さらにgeaは、最もパフォーマンスの高いアーキテクチャを子孫世代によって搾取し、同時に親の変異による探索を促進し、若いアーキテクチャを古いアーキテクチャを損なうことを好む。 実験により,提案手法の有効性が実証され,様々なパラメータの重要性が評価された。 その結果,GAAはNAS-Bench-101,NAS-Bench-201,TransNAS-Bench-101ベンチマークのすべてのデータセットに対して最先端の結果が得られることがわかった。

Neural Architecture Search (NAS) methods have been successfully applied to image tasks with excellent results. However, NAS methods are often complex and tend to converge to local minima as soon as generated architectures seem to yield good results. This paper proposes GEA, a novel approach for guided NAS. GEA guides the evolution by exploring the search space by generating and evaluating several architectures in each generation at initialisation stage using a zero-proxy estimator, where only the highest-scoring architecture is trained and kept for the next generation. Subsequently, GEA continuously extracts knowledge about the search space without increased complexity by generating several off-springs from an existing architecture at each generation. More, GEA forces exploitation of the most performant architectures by descendant generation while simultaneously driving exploration through parent mutation and favouring younger architectures to the detriment of older ones. Experimental results demonstrate the effectiveness of the proposed method, and extensive ablation studies evaluate the importance of different parameters. Results show that GEA achieves state-of-the-art results on all data sets of NAS-Bench-101, NAS-Bench-201 and TransNAS-Bench-101 benchmarks.
翻訳日:2022-08-28 22:34:52 公開日:2022-07-22
# HiKonv: 量子畳み込みのスループットを、新しいビット単位の管理と計算で最大化する

HiKonv: Maximizing the Throughput of Quantized Convolution With Novel Bit-wise Management and Computation ( http://arxiv.org/abs/2208.00763v1 )

ライセンス: Link先を確認
Yao Chen, Junhao Pan, Xinheng Liu, Jinjun Xiong and Deming Chen(参考訳) CNNの量子化は、低ビット幅のデータ表現による計算とストレージのコスト削減を意図して大きく進歩している。 しかし、CPUの ALU やFPGAの DSP など、既存のフルビット幅処理ユニットが、様々な量子化ビット幅での畳み込みにおいて、より高い計算スループットを実現するために、どのように利用できるかという体系的な研究はない。 本研究では,新しいビットワイド管理と並列計算により,低ビット幅の量子化データ入力を持つ処理ユニット上での畳み込みのスループットを最大化する統一解HiKonvを提案する。 我々は,高並列化低ビット幅畳み込みのためのフルビット幅乗算器を用いた理論的枠組みと性能モデルを確立し,この臨界領域における高性能コンピューティングの新しいブレークスルーを示す。 例えば、cpu内の1つの32ビット処理ユニットは、128の2値化畳み込み操作(乗算と加算)と13の4ビット畳み込み操作を1つの乗算命令で処理でき、fpga dspの1つの27x18乗算器は1クロックサイクルで1,4,8ビット入力で60,8,2の畳み込み操作を実行できる。 我々は、CPUとFPGAの両方におけるHiKonvの有効性を示す。 CPUでは、HiKonvは1から8ビットの入力でベースライン実装を上回り、1-D畳み込みでは最大7.6倍と1.4倍の性能向上を提供し、4-D畳み込みでは2.74倍と3.19倍の性能向上を実現している。 FPGAでは、HiKonvソリューションにより、1つのDSPがより短い処理レイテンシで複数の畳み込みを処理することができる。 バイナライズされた入力では、HiKonv を持つ各 DSP は 76.6 LUT に等しい。 DAC-SDC 2020のチャンピオンモデルと比較して、HiKonvは2.37倍のスループット向上と2.61倍のDSP効率向上を実現している。

Quantization for CNN has shown significant progress with the intention of reducing the cost of computation and storage with low-bitwidth data representations. There are, however, no systematic studies on how an existing full-bitwidth processing unit, such as ALU in CPUs and DSP in FPGAs, can be better utilized to deliver significantly higher computation throughput for convolution under various quantized bitwidths. In this study, we propose HiKonv, a unified solution that maximizes the throughput of convolution on a given underlying processing unit with low-bitwidth quantized data inputs through novel bit-wise management and parallel computation. We establish theoretical framework and performance models using a full-bitwidth multiplier for highly parallelized low-bitwidth convolution, and demonstrate new breakthroughs for high-performance computing in this critical domain. For example, a single 32-bit processing unit in CPU can deliver 128 binarized convolution operations (multiplications and additions) and 13 4-bit convolution operations with a single multiplication instruction, and a single 27x18 multiplier in the FPGA DSP can deliver 60, 8 or 2 convolution operations with 1, 4 or 8-bit inputs in one clock cycle. We demonstrate the effectiveness of HiKonv on both CPU and FPGA. On CPU, HiKonv outperforms the baseline implementation with 1 to 8-bit inputs and provides up to 7.6x and 1.4x performance improvements for 1-D convolution, and performs 2.74x and 3.19x over the baseline implementation for 4-bit signed and unsigned data inputs for 2-D convolution. On FPGA, HiKonv solution enables a single DSP to process multiple convolutions with a shorter processing latency. For binarized input, each DSP with HiKonv is equivalent up to 76.6 LUTs. Compared to the DAC-SDC 2020 champion model, HiKonv achieves a 2.37x throughput improvement and 2.61x DSP efficiency improvement, respectively.
翻訳日:2022-08-07 14:35:14 公開日:2022-07-22
# V-Coder:知識グラフのセマンティック開示のためのアダプティブオートエンコーダ

V-Coder: Adaptive AutoEncoder for Semantic Disclosure in Knowledge Graphs ( http://arxiv.org/abs/2208.01735v1 )

ライセンス: Link先を確認
Christian M.M. Frey, Matthias Schubert(参考訳) セマンティックウェブまたは知識グラフ(KG)は、構造化知識へのアクセスを必要とするインテリジェントシステムにとって最も重要な情報ソースの1つである。 主な課題の1つは、テキストデータから曖昧な情報の抽出と処理である。 人間の知覚に従えば、2つの名前付きエンティティ間の意味的結合が重なり合うことは、マシンの自動駆動プロセスからそれを見る場合、関係が生きているという我々の常識によって明らかになる。 本研究では,KG の範囲内での関係解決の問題,すなわちネットワーク内のエンティティ間の関係性の本質的意味について検討している。 本稿では,V-Coderと呼ばれる新しい適応型オートエンコーダを提案する。 これらの関係は曖昧であり、絡み合いの候補であると見なすことができる。 適応学習理論(art)と同様に,各関係の品質を別々に学習しながら,先行したパターンを捨てることなく,競争層で単位を増加させることで,kgから新たなパターンを学習する。 freebase、yago、nellの現実世界のデータセットの評価により、v-coderは破損した入力データからリンクを復元できるだけでなく、kgにおける関係のセマンティックな開示がリンク予測を改善する傾向を示すことが示された。 意味的評価は評価を包含する。

Semantic Web or Knowledge Graphs (KG) emerged to one of the most important information source for intelligent systems requiring access to structured knowledge. One of the major challenges is the extraction and processing of unambiguous information from textual data. Following the human perception, overlapping semantic linkages between two named entities become clear due to our common-sense about the context a relationship lives in which is not the case when we look at it from an automatically driven process of a machine. In this work, we are interested in the problem of Relational Resolution within the scope of KGs, i.e, we are investigating the inherent semantic of relationships between entities within a network. We propose a new adaptive AutoEncoder, called V-Coder, to identify relations inherently connecting entities from different domains. Those relations can be considered as being ambiguous and are candidates for disentanglement. Likewise to the Adaptive Learning Theory (ART), our model learns new patterns from the KG by increasing units in a competitive layer without discarding the previous observed patterns whilst learning the quality of each relation separately. The evaluation on real-world datasets of Freebase, Yago and NELL shows that the V-Coder is not only able to recover links from corrupted input data, but also shows that the semantic disclosure of relations in a KG show the tendency to improve link prediction. A semantic evaluation wraps the evaluation up.
翻訳日:2022-08-07 14:28:20 公開日:2022-07-22
# DeFakePro:ENF認証を用いた分散型DeepFake攻撃検出

DeFakePro: Decentralized DeepFake Attacks Detection using ENF Authentication ( http://arxiv.org/abs/2207.13070v1 )

ライセンス: Link先を確認
Deeraj Nagothu, Ronghua Xu, Yu Chen, Erik Blasch, Alexander Aved(参考訳) deepfakeのような生成モデルの進歩により、ユーザーは対象人物を模倣し、オンラインインタラクションを操作することができる。 偽情報が社会の混乱を引き起こし、信頼の基礎を損なう可能性があることが認識されている。 本稿では,オンラインビデオ会議ツールにおける分散コンセンサス機構に基づくディープフェイク検出手法であるdefakeproについて述べる。 デジタルメディア記録に埋め込まれた環境指紋であるElectronic Network Frequency (ENF)は、Proof-of-ENF (PoENF)アルゴリズムと呼ばれるコンセンサス機構を設計する。 ENF信号のゆらぎの類似性は、PoENFアルゴリズムを用いて、会議ツールで放送されたメディアを認証する。 悪意のある参加者によるビデオ会議設定を利用して、他の参加者にディープフェイクビデオ録画をブロードキャストすることで、DeFakeProシステムは、入ってくるメディアの真偽をオーディオチャンネルとビデオチャンネルの両方で検証する。

Advancements in generative models, like Deepfake allows users to imitate a targeted person and manipulate online interactions. It has been recognized that disinformation may cause disturbance in society and ruin the foundation of trust. This article presents DeFakePro, a decentralized consensus mechanism-based Deepfake detection technique in online video conferencing tools. Leveraging Electrical Network Frequency (ENF), an environmental fingerprint embedded in digital media recording, affords a consensus mechanism design called Proof-of-ENF (PoENF) algorithm. The similarity in ENF signal fluctuations is utilized in the PoENF algorithm to authenticate the media broadcasted in conferencing tools. By utilizing the video conferencing setup with malicious participants to broadcast deep fake video recordings to other participants, the DeFakePro system verifies the authenticity of the incoming media in both audio and video channels.
翻訳日:2022-07-27 12:36:26 公開日:2022-07-22
# 冗長性に着目したゲーム理論に基づく教師なしランキング -遺伝子エンリッチメント解析への応用-

Redundancy-aware unsupervised ranking based on game theory -- application to gene enrichment analysis ( http://arxiv.org/abs/2207.12184v1 )

ライセンス: Link先を確認
Chiara Balestra, Carlo Maj, Emmanuel Mueller, Andreas Mayr(参考訳) 遺伝子集合集は、特定の表現型形質の遺伝子富化を研究する共通の基盤である。 遺伝子セットエンリッチメント分析は、遺伝子セットコレクションに過剰に発現し、特定の表現形質に関連付けられる遺伝子を同定することを目的としている。 しかし、これは膨大な数の仮説検証を伴うため、遺伝子集合のサイズを減らす前処理ステップが有用かどうか疑問視されることが多い。 さらに、しばしば重なり合う遺伝子セットと、それに伴う遺伝子セットのコレクションの低解釈性は、含まれた遺伝子セットの減少を要求する。 このバイオインフォマティクスの文脈に触発され、シングルトンの分布とその大きさに基づいて集合群内の集合をランク付けする方法を提案する。 値関数の指数関数的評価数を伴わずにshapley値を計算することにより,集合の重要度スコアを得る。 さらに,集合が顕著な交点を示す場合,集合が冗長であるようなランキングに冗長性意識を含めることの課題にも対処する。 最終的に,遺伝子集合コレクションに対する我々のアプローチを評価し,得られた分類値から,遺伝子の冗長性が低く,高いカバレッジが得られた。 提案されたランキングの教師なしの性質は、コレクションのサイズを減らす際に特定の表現型の特徴に対して重要な遺伝子セットの数を明らかに増加させることを許さない。 しかし,提案するランキングは,遺伝子集合の解釈可能性を高めるためにバイオインフォマティクスで利用されており,シェープリー値の計算に冗長性を含める方向に進んでいると考えられる。

Gene set collections are a common ground to study the enrichment of genes for specific phenotypic traits. Gene set enrichment analysis aims to identify genes that are over-represented in gene sets collections and might be associated with a specific phenotypic trait. However, as this involves a massive number of hypothesis testing, it is often questionable whether a pre-processing step to reduce gene sets collections' sizes is helpful. Moreover, the often highly overlapping gene sets and the consequent low interpretability of gene sets' collections demand for a reduction of the included gene sets. Inspired by this bioinformatics context, we propose a method to rank sets within a family of sets based on the distribution of the singletons and their size. We obtain sets' importance scores by computing Shapley values without incurring into the usual exponential number of evaluations of the value function. Moreover, we address the challenge of including a redundancy awareness in the rankings obtained where, in our case, sets are redundant if they show prominent intersections. We finally evaluate our approach for gene sets collections; the rankings obtained show low redundancy and high coverage of the genes. The unsupervised nature of the proposed ranking does not allow for an evident increase in the number of significant gene sets for specific phenotypic traits when reducing the size of the collections. However, we believe that the rankings proposed are of use in bioinformatics to increase interpretability of the gene sets collections and a step forward to include redundancy into Shapley values computations.
翻訳日:2022-07-26 16:03:58 公開日:2022-07-22
# generative adversarial network(gan-cest)を用いた3次元mt/cest画像の高速化と定量化

Accelerated and Quantitative 3D Semisolid MT/CEST Imaging using a Generative Adversarial Network (GAN-CEST) ( http://arxiv.org/abs/2207.11297v1 )

ライセンス: Link先を確認
Jonah Weigand-Whittier (1), Maria Sedykh (2), Kai Herz (3 and 4), Jaume Coll-Font (1 and 5), Anna N. Foster (1 and 5), Elizabeth R. Gerstner (6), Christopher Nguyen (1 and 5 and 7), Moritz Zaiss (2 and 3), Christian T. Farrar (1) and Or Perlman (1 and 8 and 9) ((1) Athinoula A. Martinos Center for Biomedical Imaging, Department of Radiology, Massachusetts General Hospital and Harvard Medical School, Charlestown, MA, USA, (2) Department of Neuroradiology, Friedrich-Alexander Universit\"at Erlangen-N\"urnberg (FAU), University Hospital Erlangen, Erlangen, Germany, (3) Magnetic Resonance Center, Max Planck Institute for Biological Cybernetics, T\"ubingen, Germany, (4) Department of Biomedical Magnetic Resonance, University of T\"ubingen, T\"ubingen, Germany, (5) Cardiovascular Research Center, Cardiology Division, Massachusetts General Hospital, Charlestown, MA, USA, (6) Massachusetts General Hospital Cancer Center, Harvard Medical School, Boston, MA, USA, (7) Health Science Technology, Harvard-MIT, Cambridge, MA, USA, (8) Department of Biomedical Engineering, Tel Aviv University, Tel Aviv, Israel, (9) Sagol School of Neuroscience, Tel Aviv University, Tel Aviv, Israel)(参考訳) 目的: 定量的な3次元化学交換飽和移動(CEST)および半固体磁化移動(MT)イメージングに必要な取得時間を著しく短縮し、迅速な化学交換パラメータマップの再構築を可能にする。 方法: 健常者, がん患者, 心臓患者のL-アルギニンファントム, 全身脳, ふくらはぎ筋の3次元CESTおよびMT磁気共鳴指紋(MRF)データセットを, 3つの異なるスキャナーモデルとコイルを用いて3つの異なる部位の3T臨床スキャナーを用いて取得した。 次にgan-cest(generative adversarial network supervised framework)を設計、訓練し、入力データ空間から量的交換パラメータ空間へのマッピングを学習し、知覚的および定量的なコンテンツを保存した。 結果: GAN-CEST 3D取得時間は42-52秒で, CEST-MRFより70%短かった。 脳全体の定量的再構築には0.8秒を要した。 GANをベースとしたL-アルギニン濃度とpH(Pearson's r > 0.97, NRMSE < 1.5%)との間には良好な一致が認められた。 脳腫瘍患者のGAN-CEST画像は、それぞれ3.8$\pm$1.3%と4.6$\pm$1.3%、SSIMは96.3$\pm$1.6%、95.0$\pm$2.4%である。 半固体交換パラメータはnrmse < 7%, ssim > 94%であった。 GAN-CESTはMRFに比べて性能が向上しノイズが低減した。 結論: GAN-CESTは,訓練中に利用できない病態やスキャナーモデルに直面する場合であっても,定量的半固形MT/CESTマッピングの取得時間を著しく短縮することができる。

Purpose: To substantially shorten the acquisition time required for quantitative 3D chemical exchange saturation transfer (CEST) and semisolid magnetization transfer (MT) imaging and allow for rapid chemical exchange parameter map reconstruction. Methods: Three-dimensional CEST and MT magnetic resonance fingerprinting (MRF) datasets of L-arginine phantoms, whole-brains, and calf muscles from healthy volunteers, cancer patients, and cardiac patients were acquired using 3T clinical scanners at 3 different sites, using 3 different scanner models and coils. A generative adversarial network supervised framework (GAN-CEST) was then designed and trained to learn the mapping from a reduced input data space to the quantitative exchange parameter space, while preserving perceptual and quantitative content. Results: The GAN-CEST 3D acquisition time was 42-52 seconds, 70% shorter than CEST-MRF. The quantitative reconstruction of the entire brain took 0.8 seconds. An excellent agreement was observed between the ground truth and GAN-based L-arginine concentration and pH values (Pearson's r > 0.97, NRMSE < 1.5%). GAN-CEST images from a brain-tumor subject yielded a semi-solid volume fraction and exchange rate NRMSE of 3.8$\pm$1.3% and 4.6$\pm$1.3%, respectively, and SSIM of 96.3$\pm$1.6% and 95.0$\pm$2.4%, respectively. The mapping of the calf-muscle exchange parameters in a cardiac patient, yielded NRMSE < 7% and SSIM > 94% for the semi-solid exchange parameters. In regions with large susceptibility artifacts, GAN-CEST has demonstrated improved performance and reduced noise compared to MRF. Conclusion: GAN-CEST can substantially reduce the acquisition time for quantitative semisolid MT/CEST mapping, while retaining performance even when facing pathologies and scanner models that were not available during training.
翻訳日:2022-07-26 15:48:15 公開日:2022-07-22
# ベイジアン推論から見たグラフニューラルネットワークの非線形性理解

Understanding Non-linearity in Graph Neural Networks from the Bayesian-Inference Perspective ( http://arxiv.org/abs/2207.11311v1 )

ライセンス: Link先を確認
Rongzhe Wei, Haoteng Yin, Junteng Jia, Austin R. Benson, Pan Li(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造データにおける非線形関係を捉えるという印象的な能力により、グラフよりも多くの予測タスクにおいて優位性を示している。 しかし,ノード分類タスクでは,gnnの線形化に対する限界的改善が観察されることが多い。 以前の研究はこの現象についてほとんど理解していない。 本稿では,ノード分類タスクにおけるgnnの非線形性の関数を深く研究するためにベイズ学習を利用する。 統計モデルCSBMから生成したグラフから, ノードラベルの最大位置推定は, ノード属性の非線型性, ノード属性の非線形変換, 近隣からのReLU-Active特徴集約の2種類からなることを示した。 後者は多くのGNNモデルで使用される非線形性の種類と驚くほど一致している。 ノード属性に対するガウス的仮定をさらに示唆することにより、これらのReLUアクティベーションの優位性は、ノード属性がグラフ構造よりもはるかに情報的である場合にのみ有意であることを示す。 トレーニングとテストデータセットの間にノード属性の分散シフトがある場合、同様の議論が可能になる。 最後に,本理論を合成ネットワークと実世界ネットワークの両方で検証する。

Graph neural networks (GNNs) have shown superiority in many prediction tasks over graphs due to their impressive capability of capturing nonlinear relations in graph-structured data. However, for node classification tasks, often, only marginal improvement of GNNs over their linear counterparts has been observed. Previous works provide very few understandings of this phenomenon. In this work, we resort to Bayesian learning to deeply investigate the functions of non-linearity in GNNs for node classification tasks. Given a graph generated from the statistical model CSBM, we observe that the max-a-posterior estimation of a node label given its own and neighbors' attributes consists of two types of non-linearity, a possibly non-linear transformation of node attributes and a ReLU-activated feature aggregation from neighbors. The latter surprisingly matches the type of non-linearity used in many GNN models. By further imposing Gaussian assumption on node attributes, we prove that the superiority of those ReLU activations is only significant when the node attributes are far more informative than the graph structure, which nicely matches many previous empirical observations. A similar argument can be achieved when there is a distribution shift of node attributes between the training and testing datasets. Finally, we verify our theory on both synthetic and real-world networks.
翻訳日:2022-07-26 15:47:35 公開日:2022-07-22
# スペクトル固有ベクトル埋め込みと密接に関連した柔軟なページランクベースのグラフ埋め込みフレームワーク

A flexible PageRank-based graph embedding framework closely related to spectral eigenvector embeddings ( http://arxiv.org/abs/2207.11321v1 )

ライセンス: Link先を確認
Disha Shur, Yufan Huang, David F. Gleich(参考訳) ランダムなノード集合上にシードされたパーソナライズされたPageRankベクトルの行列に基づいて,簡単な埋め込み手法を提案する。 この行列(1)の要素別対数によって生成される埋め込みは、スペクトル埋め込みが重要となるグラフのクラスに対するスペクトル埋め込みと関連しており、したがってデータの有用な表現であり、(2)ネットワーク全体またはその小さな部分に対して可能であり、正確な局所表現が可能であり、(3)ネットワークのサイズに比べて比較的少ないページランクベクトルを使用する。 最も重要なことは、この埋め込み戦略の一般的な性質は、固有ベクトルとスペクトル技術が十分に確立されていない多くの新興アプリケーションを開くことである。 例えば、同様のテクニックはハイパーグラフからページランクベクトルを使って"スペクトルライクな"埋め込みを得ることができる。

We study a simple embedding technique based on a matrix of personalized PageRank vectors seeded on a random set of nodes. We show that the embedding produced by the element-wise logarithm of this matrix (1) are related to the spectral embedding for a class of graphs where spectral embeddings are significant, and hence useful representation of the data, (2) can be done for the entire network or a smaller part of it, which enables precise local representation, and (3) uses a relatively small number of PageRank vectors compared to the size of the networks. Most importantly, the general nature of this embedding strategy opens up many emerging applications, where eigenvector and spectral techniques may not be well established, to the PageRank-based relatives. For instance, similar techniques can be used on PageRank vectors from hypergraphs to get "spectral-like" embeddings.
翻訳日:2022-07-26 15:47:13 公開日:2022-07-22
# JAM: リアクティブおよびモバイルマルチエージェントシステムによる分散コンピューティングとシミュレーションのためのJavaScriptエージェントマシン - テクニカルレポート

JAM: The JavaScript Agent Machine for Distributed Computing and Simulation with reactive and mobile Multi-agent Systems -- A Technical Report ( http://arxiv.org/abs/2207.11300v1 )

ライセンス: Link先を確認
Stefan Bosse(参考訳) エージェントベースモデリング(ABM)、シミュレーション(ABS)、分散計算(ABC)が確立されている。 インターネットとウェブベースの技術は適切なキャリアである。 本稿では、JavaScript Agent Machine(JAM)プラットフォームのチュートリアル的な側面と、モバイルステートベースのリアクティブエージェントのプログラミングに広く使われているJavaScriptプログラミング言語AgentJSのサブセットであるAgentJSを使ったエージェントプログラミングに関する技術的レポートである。 特定の設計選択の動機を説明することに加えて、アーキテクチャのコア概念と、javascriptにおけるエージェントのプログラミングを導入することに加えて、インターネットのような強力な異種環境に大規模マルチエージェントシステムを展開するためのjamプラットフォームとそのコンポーネントを例示している。 JAMは、強力な異種およびモバイル環境へのデプロイに適している。 最後に、JAMはABCやABSに統一的な手法で使用することができ、最終的にはシミュレーション(ABS)と組み合わせてモバイルの群衆センシングを可能にする。

Agent-based modelling (ABM), simulation (ABS), and distributed computation (ABC) are established methods. The Internet and Web-based technologies are suitable carriers. This paper is a technical report with some tutorial aspects of the JavaScript Agent Machine (JAM) platform and the programming of agents with AgentJS, a sub-set of the widely used JavaScript programming language for the programming of mobile state-based reactive agents. In addition to explaining the motivation for particular design choices and introducing core concepts of the architecture and the programming of agents in JavaScript, short examples illustrate the power of the JAM platform and its components for the deployment of large-scale multi-agent system in strong heterogeneous environments like the Internet. JAM is suitable for the deployment in strong heterogeneous and mobile environments. Finally, JAM can be used for ABC as well as for ABS in an unified methodology, finally enabling mobile crowd sensing coupled with simulation (ABS).
翻訳日:2022-07-26 15:40:04 公開日:2022-07-22
# 書評者割当用紙入札における操作防止のトレードオフ

Tradeoffs in Preventing Manipulation in Paper Bidding for Reviewer Assignment ( http://arxiv.org/abs/2207.11315v1 )

ライセンス: Link先を確認
Steven Jecmen, Nihar B. Shah, Fei Fang, Vincent Conitzer(参考訳) 多くのカンファレンスは,レビュアーの割り当て手順の重要なコンポーネントとして,紙入札に頼っている。 これらの入札は、各レビュアーが適切な書類に割り当てられることを保証するためにレビュアーを割り当てるときに考慮される。 しかし、入札の利点はあるものの、紙入札に頼れば、悪意のあるレビュワーが非倫理的な目的(例えば、友人の紙に割り当てられるなど)で紙の割り当てを操作できる。 この操作を防ぐためのいくつかの異なるアプローチが提案され、デプロイされている。 本稿では,入札操作に対処するアルゴリズムが満足すべき特定の望ましい特性を列挙する。 次に、今後の調査の方向性とともに、様々なアプローチのハイレベルな分析を提供する。

Many conferences rely on paper bidding as a key component of their reviewer assignment procedure. These bids are then taken into account when assigning reviewers to help ensure that each reviewer is assigned to suitable papers. However, despite the benefits of using bids, reliance on paper bidding can allow malicious reviewers to manipulate the paper assignment for unethical purposes (e.g., getting assigned to a friend's paper). Several different approaches to preventing this manipulation have been proposed and deployed. In this paper, we enumerate certain desirable properties that algorithms for addressing bid manipulation should satisfy. We then offer a high-level analysis of various approaches along with directions for future investigation.
翻訳日:2022-07-26 15:39:47 公開日:2022-07-22
# 音声認識の公平性に向けて:性能格差の発見と緩和

Toward Fairness in Speech Recognition: Discovery and mitigation of performance disparities ( http://arxiv.org/abs/2207.11345v1 )

ライセンス: Link先を確認
Pranav Dheram, Murugesan Ramakrishnan, Anirudh Raju, I-Fan Chen, Brian King, Katherine Powell, Melissa Saboowala, Karan Shetty, Andreas Stolcke(参考訳) その他のAIの形式については、最近、異なるユーザコホート間のパフォーマンス格差に関して音声認識が検討されている。 音声認識における公平性を実現する1つのアプローチは、(1)サブパーパフォーマンスに苦しむ話者コホートを識別し、(2)発見したコホートを対象とする公平性軽減策を適用することである。 本稿では,製品規模のAIアシスタント音声認識システムから得られたデータを用いて,性能格差の発見と緩和の両面での初期発見について報告する。 地理情報と人口統計情報に基づくコホート発見と,話者ラベルのない話者をグループ化するよりスケーラブルな手法を比較し,話者埋め込み技術を用いて検討した。 公平さを緩和するために、表現不足のコホートのオーバーサンプリングや、追加入力変数による話者コホートメンバシップのモデル化は、全体的な認識精度を低下させることなく、トップとボトムパフォーマンスのコホート間のギャップを減少させる。

As for other forms of AI, speech recognition has recently been examined with respect to performance disparities across different user cohorts. One approach to achieve fairness in speech recognition is to (1) identify speaker cohorts that suffer from subpar performance and (2) apply fairness mitigation measures targeting the cohorts discovered. In this paper, we report on initial findings with both discovery and mitigation of performance disparities using data from a product-scale AI assistant speech recognition system. We compare cohort discovery based on geographic and demographic information to a more scalable method that groups speakers without human labels, using speaker embedding technology. For fairness mitigation, we find that oversampling of underrepresented cohorts, as well as modeling speaker cohort membership by additional input variables, reduces the gap between top- and bottom-performing cohorts, without deteriorating overall recognition accuracy.
翻訳日:2022-07-26 15:28:53 公開日:2022-07-22
# 協調エッジコンピューティングにおける分散CNN推論高速化のための受容場ベースセグメンテーション

Receptive Field-based Segmentation for Distributed CNN Inference Acceleration in Collaborative Edge Computing ( http://arxiv.org/abs/2207.11293v1 )

ライセンス: Link先を確認
Nan Li, Alexandros Iosifidis, Qi Zhang(参考訳) 本稿では,協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。 推定タスク分割における推定精度の損失を回避するため,レセプティブフィールドベースセグメンテーション(rfs)を提案する。 計算時間と通信オーバーヘッドを削減するため,cnnモデルを複数の畳み込み層のブロックに分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。 このスキームでは、コラボレーティブエッジサーバ(ES)は、各融合ブロックを計算した後のみ、サブアウトプットのごく一部を交換する必要がある。 さらに, CNNモデルを複数のブロックに分割する最適解を見つけるために, 動的プログラミングを用いて, 融合層並列化(DPFP)のための動的プログラミングを行う。 実験結果から,DPFPがVGG-16の推算を73%まで加速できることが示された。 さらに,dpfpの信頼性を時間変動チャネルで評価することで,厳格なサービス期限で高い信頼性を確保するための有効な解決策であることを示す。

This paper studies inference acceleration using distributed convolutional neural networks (CNNs) in collaborative edge computing network. To avoid inference accuracy loss in inference task partitioning, we propose receptive field-based segmentation (RFS). To reduce the computation time and communication overhead, we propose a novel collaborative edge computing using fused-layer parallelization to partition a CNN model into multiple blocks of convolutional layers. In this scheme, the collaborative edge servers (ESs) only need to exchange small fraction of the sub-outputs after computing each fused block. In addition, to find the optimal solution of partitioning a CNN model into multiple blocks, we use dynamic programming, named as dynamic programming for fused-layer parallelization (DPFP). The experimental results show that DPFP can accelerate inference of VGG-16 up to 73% compared with the pre-trained model, which outperforms the existing work MoDNN in all tested scenarios. Moreover, we evaluate the service reliability of DPFP under time-variant channel, which shows that DPFP is an effective solution to ensure high service reliability with strict service deadline.
翻訳日:2022-07-26 15:22:33 公開日:2022-07-22
# エッジコンピューティングにおけるSeamless Collaborationを用いた分散ディープラーニング推論高速化

Distributed Deep Learning Inference Acceleration using Seamless Collaboration in Edge Computing ( http://arxiv.org/abs/2207.11294v1 )

ライセンス: Link先を確認
Nan Li, Alexandros Iosifidis, Qi Zhang(参考訳) 本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。 推論タスク分割における推論精度を確保するために,セグメントベースの分割を行う際の受容場を検討する。 通信処理と計算処理の並列化を最大化し,推論タスクの総推論時間を最小化するために,第2エッジサーバ(ES)上のサブタスクの重複領域をHALPと呼ぶホストES上で実行する新しいタスク協調方式を設計する。 さらに、halpを複数のタスクのシナリオに拡張します。 GTX 1080TI と JETSON AGX Xavier では,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x の CNN 推論を高速化し,最先端の MoDNN よりも優れていた。 さらに,halpは,厳格なサービス期限で高い信頼性を確保するための有効なソリューションであることを示す,時間変動チャネル下でのサービス信頼性を評価する。

This paper studies inference acceleration using distributed convolutional neural networks (CNNs) in collaborative edge computing. To ensure inference accuracy in inference task partitioning, we consider the receptive-field when performing segment-based partitioning. To maximize the parallelization between the communication and computing processes, thereby minimizing the total inference time of an inference task, we design a novel task collaboration scheme in which the overlapping zone of the sub-tasks on secondary edge servers (ESs) is executed on the host ES, named as HALP. We further extend HALP to the scenario of multiple tasks. Experimental results show that HALP can accelerate CNN inference in VGG-16 by 1.7-2.0x for a single task and 1.7-1.8x for 4 tasks per batch on GTX 1080TI and JETSON AGX Xavier, which outperforms the state-of-the-art work MoDNN. Moreover, we evaluate the service reliability under time-variant channel, which shows that HALP is an effective solution to ensure high service reliability with strict service deadline.
翻訳日:2022-07-26 15:22:14 公開日:2022-07-22
# vlsi回路テストのための新しいメタ予測系アルゴリズム

A Novel Meta-predictor based Algorithm for Testing VLSI Circuits ( http://arxiv.org/abs/2207.11312v1 )

ライセンス: Link先を確認
Shruti Pandey, Jayadeva, Smruti R. Sarangi(参考訳) 集積回路(IC)のテストは非常に高価なプロセスであるが、ICの欠陥レベルを決定する上でも最も重要なプロセスである。 icの製造欠陥はスタッキング・アット・フェイトモデルを用いてモデル化される。 Stuck-at-faultモデルは、製造プロセス中に発生する物理的欠陥の大部分をカバーする。 半導体技術の進歩による特徴量減少に伴い、欠陥のサイズも小さくなっている。 これらの難しい欠陥に対するテストは、決定論的テスト生成(DTG)アルゴリズムを用いて生成される。 我々の研究は、テスト品質を損なうことなく、PODEM(DTGアルゴリズム)のコストを削減することを目的としている。 回路とターゲットネットの最適モデルを選択するためにメタ予測器を訓練した。 このアンサンブルは95%の精度で最良の確率予測モデルを選択する。 これにより、CPU時間の観点から、バックトラック決定の数が減少し、PODEMのパフォーマンスが大幅に向上する。 メタ予測器を用いたMLguided PODEMアルゴリズムは,ISCAS85ベンチマーク回路において,ベースラインPODEMを34%,最先端のMLGuidedアルゴリズムを15%上回る性能を示した。

Testing of integrated circuits (IC) is a highly expensive process but also the most important one in determining the defect level of an IC. Manufacturing defects in the IC are modeled using stuck-at-fault models. Stuck-at-fault models cover most of the physical faults that occur during the manufacturing process. With decreasing feature sizes due to the advancement of semiconductor technology, the defects are also getting smaller in size. Tests for these hard-to-detect defects are generated using deterministic test generation (DTG) algorithms. Our work aims at reducing the cost of Path Oriented Decision Making: PODEM (a DTG algorithm) without compromising the test quality. We trained a meta predictor to choose the best model given the circuit and the target net. This ensemble chooses the best probability prediction model with a 95% accuracy. This leads to a reduced number of backtracking decisions and much better performance of PODEM in terms of its CPU time. We show that our ML- guided PODEM algorithm with a meta predictor outperforms the baseline PODEM by 34% and other state-of-the-art ML-guided algorithms by at least 15% for ISCAS85 benchmark circuits.
翻訳日:2022-07-26 15:05:59 公開日:2022-07-22
# サンプルワイドラベル融合によるマルチアノテータ雑音ラベルからの学習

Learning from Multiple Annotator Noisy Labels via Sample-wise Label Fusion ( http://arxiv.org/abs/2207.11327v1 )

ライセンス: Link先を確認
Zhengqi Gao, Fan-Keng Sun, Mingran Yang, Sucheng Ren, Zikai Xiong, Marc Engeler, Antonio Burazer, Linda Wildling, Luca Daniel, Duane S. Boning(参考訳) データは現代のディープラーニングの核心にある。 教師付き学習の素晴らしいパフォーマンスは、大量のラベル付きデータをベースとして構築されている。 しかし、いくつかの実世界のアプリケーションでは、正確なラベル付けは不可能であり、代わりに複数のノイズラベル(正確なラベルの代わりに)がデータサンプルごとに複数のアノテータによって提供される。 このような騒がしいトレーニングデータセットで分類器を学ぶのは難しい作業です。 従来の手法では、全てのデータサンプルがアノテータエラーに関連するパラメータの同じセットを共有していると仮定するが、ラベルエラー学習はアノテータとデータサンプルに依存するべきである。 そこで本研究では,新しい学習アルゴリズムを提案する。 提案手法は,MNIST, CIFAR-100, ImageNet-100上での最先端のベースライン手法と比較して優位性を示す。 私たちのコードは、https://github.com/zhengqigao/Learning-from-Multiple-Annotator-Noisy-Labelsで利用可能です。

Data lies at the core of modern deep learning. The impressive performance of supervised learning is built upon a base of massive accurately labeled data. However, in some real-world applications, accurate labeling might not be viable; instead, multiple noisy labels (instead of one accurate label) are provided by several annotators for each data sample. Learning a classifier on such a noisy training dataset is a challenging task. Previous approaches usually assume that all data samples share the same set of parameters related to annotator errors, while we demonstrate that label error learning should be both annotator and data sample dependent. Motivated by this observation, we propose a novel learning algorithm. The proposed method displays superiority compared with several state-of-the-art baseline methods on MNIST, CIFAR-100, and ImageNet-100. Our code is available at: https://github.com/zhengqigao/Learning-from-Multiple-Annotator-Noisy-Labels.
翻訳日:2022-07-26 15:05:43 公開日:2022-07-22
# サッカー選手の価値評価のための機械学習モデリング

Machine Learning Modeling to Evaluate the Value of Football Players ( http://arxiv.org/abs/2207.11361v1 )

ライセンス: Link先を確認
Chenyao Li, Stylianos Kampakis, Philip Treleaven(参考訳) 多くのスポーツ、特にサッカーにおいて、コーチやアナリストは記法分析を使って重要なパフォーマンス指標を探す。 本手法は,映像とゴールスコアの数値記録に基づくイベントの統計的要約を利用する。 残念ながら、このアプローチは、機械学習(ml)によるより複雑なプロセス変数の分析を単純化する技術の進化の継続によって時代遅れになっている。 人工知能(AI)の一形態である機械学習は、アルゴリズムを使用して意味のあるパターンを検出し、位置データに基づいて構造を定義する。 本研究では,選手の様々な特徴,選手の給与,プレーヤの市場価値との関連性を明らかにする機械学習モデルを確立することにより,現在のサッカー選手の価値を評価する新しい手法について検討する。 このプロジェクトで使用された選手のデータは、いくつかのサッカーウェブサイトにある。 選手の給与に関するデータは選手の価値を評価するためのプロキシとなり、その他の特徴は選手の適切な給与を予測するためのMLモデルの確立とトレーニングに使用される。 モチベーションは、サッカー選手の異なる特徴と給与の関係を探求することにある。それぞれの特徴が給与にどう影響するか、あるいは給与に影響を与える最も重要な特徴は何なのか? 多くの基準はサッカー選手の価値を反映できるが、選手の給与は最も直感的で重要な指標の1つであり、選手の給与を代行として評価する。 さらに、選手の特徴は選手の評価に影響する可能性があるが、選手の価値は主に基本的な特徴、コートのパフォーマンス、クラブでの成績の3つの要因によって決定される。

In most sports, especially football, most coaches and analysts search for key performance indicators using notational analysis. This method utilizes a statistical summary of events based on video footage and numerical records of goal scores. Unfortunately, this approach is now obsolete owing to the continuous evolutionary increase in technology that simplifies the analysis of more complex process variables through machine learning (ML). Machine learning, a form of artificial intelligence (AI), uses algorithms to detect meaningful patterns and define a structure based on positional data. This research investigates a new method to evaluate the value of current football players, based on establishing the machine learning models to investigate the relations among the various features of players, the salary of players, and the market value of players. The data of the football players used for this project is from several football websites. The data on the salary of football players will be the proxy for evaluating the value of players, and other features will be used to establish and train the ML model for predicting the suitable salary for the players. The motivation is to explore what are the relations between different features of football players and their salaries - how each feature affects their salaries, or which are the most important features to affect the salary? Although many standards can reflect the value of football players, the salary of the players is one of the most intuitive and crucial indexes, so this study will use the salary of players as the proxy to evaluate their value. Moreover, many features of players can affect the valuation of the football players, but the value of players is mainly decided by three types of factors: basic characteristics, performance on the court, and achievements at the club.
翻訳日:2022-07-26 15:05:29 公開日:2022-07-22
# 映像からの人間中心環境理解のためのエゴセントリックシーンコンテキスト

Egocentric scene context for human-centric environment understanding from video ( http://arxiv.org/abs/2207.11365v1 )

ライセンス: Link先を確認
Tushar Nagarajan, Santhosh Kumar Ramakrishnan, Ruta Desai, James Hillis, Kristen Grauman(参考訳) ファーストパーソンビデオは、カメラ着用者の永続的な環境の文脈での活動を強調する。 しかし、現在のビデオ理解のアプローチは、下層の物理的空間から切り離され、直接見えるもののみをキャプチャする短いビデオクリップから視覚的特徴を引き出す。 本稿では,人間中心の環境理解を促進するために,カメラ装着者の(潜在的に見えない)局所環境を予測した表現を学習することにより,エゴセントリック映像とカメラポーズを時間とともにリンクする手法を提案する。 環境が完全に観察可能なシミュレーション3D環境のエージェントからのビデオを用いてそのようなモデルを訓練し、見知らぬ環境からのハウスツアーの実際のビデオでテストする。 映像を物理的環境に接地することで,カメラ装着者がどの部屋にいるか(フレームレベルの情報が不足している)を予測できる従来のシーン分類モデルに勝ることを示し,環境中心のクエリに対応するビデオモーメントのローカライズに活用し,先行手法を上回っている。 プロジェクトページ: http://vision.cs.utexas.edu/projects/ego-scene-context/

First-person video highlights a camera-wearer's activities in the context of their persistent environment. However, current video understanding approaches reason over visual features from short video clips that are detached from the underlying physical space and only capture what is directly seen. We present an approach that links egocentric video and camera pose over time by learning representations that are predictive of the camera-wearer's (potentially unseen) local surroundings to facilitate human-centric environment understanding. We train such models using videos from agents in simulated 3D environments where the environment is fully observable, and test them on real-world videos of house tours from unseen environments. We show that by grounding videos in their physical environment, our models surpass traditional scene classification models at predicting which room a camera-wearer is in (where frame-level information is insufficient), and can leverage this grounding to localize video moments corresponding to environment-centric queries, outperforming prior methods. Project page: http://vision.cs.utexas.edu/projects/ego-scene-context/
翻訳日:2022-07-26 14:25:32 公開日:2022-07-22
# Neural-Sim:NeRFでトレーニングデータを生成する学習

Neural-Sim: Learning to Generate Training Data with NeRF ( http://arxiv.org/abs/2207.11368v1 )

ライセンス: Link先を確認
Yunhao Ge, Harkirat Behl, Jiashu Xu, Suriya Gunasekar, Neel Joshi, Yale Song, Xin Wang, Laurent Itti, Vibhav Vineet(参考訳) コンピュータビジョンモデルのトレーニングは通常、多様なシーン構成と特性の下で大量の画像を収集し、ラベル付けする必要がある。 このプロセスは非常に時間がかかり、キャプチャされたデータ配信がアプリケーションシナリオのターゲットドメインに適切にマッピングされることを保証することは困難です。 近年,これらの問題に対処する手段として合成データが登場している。 しかし、既存のアプローチでは、人間の専門家が各シーンのプロパティを手動でチューニングするか、制御をほとんど、あるいは全く行わない自動メソッドを使用する必要がある。 本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。 提案手法は,人的負担のないオンデマンドでデータを生成し,目標タスクの精度を最大化する。 本稿では,本手法が合成および実世界の物体検出タスクに与える影響について述べる。 また,実環境におけるさまざまなポーズを伴うオブジェクト検出のためのテストシナリオを提供する,新たな"ycb-in-the-wild"データセットとベンチマークも紹介する。

Training computer vision models usually requires collecting and labeling vast amounts of imagery under a diverse set of scene configurations and properties. This process is incredibly time-consuming, and it is challenging to ensure that the captured data distribution maps well to the target domain of an application scenario. Recently, synthetic data has emerged as a way to address both of these issues. However, existing approaches either require human experts to manually tune each scene property or use automatic methods that provide little to no control; this requires rendering large amounts of random data variations, which is slow and is often suboptimal for the target domain. We present the first fully differentiable synthetic data pipeline that uses Neural Radiance Fields (NeRFs) in a closed-loop with a target application's loss function. Our approach generates data on-demand, with no human labor, to maximize accuracy for a target task. We illustrate the effectiveness of our method on synthetic and real-world object detection tasks. We also introduce a new "YCB-in-the-Wild" dataset and benchmark that provides a test scenario for object detection with varied poses in real-world environments.
翻訳日:2022-07-26 14:25:12 公開日:2022-07-22
# 駐車スペース分類システムの展開のための異なるアノテーション戦略の評価

Evaluation of Different Annotation Strategies for Deployment of Parking Spaces Classification Systems ( http://arxiv.org/abs/2207.11372v1 )

ライセンス: Link先を確認
Andre G. Hochuli, Alceu S. Britto Jr., Paulo R. L. de Almeida, Williams B. S. Alves and Fabio M. C. Cagni(参考訳) 視覚に基づくアプローチで個々の駐車スペースを占有と空に分類する場合、人間の専門家は、ターゲット駐車場で収集された画像を含むトレーニングセットに注釈を付けてシステムを微調整する必要がある。 本稿では,3種類のアノテーション(ポリゴン,バウンディングボックス,固定サイズ正方形)を解析し,駐車場の異なるデータ表現を提供する。 その根拠は、手技アノテーションの精度とモデル性能の最良のトレードオフを明らかにすることである。 また, 対象駐車場における事前学習モデルの微調整に必要なアノテート駐車場数についても検討した。 PKLotデータセットを用いた実験では、固定サイズの正方形のような低い精度のアノテーションを使用して、1000以上のラベル付きサンプルでターゲット駐車場にモデルを微調整することが可能である。

When using vision-based approaches to classify individual parking spaces between occupied and empty, human experts often need to annotate the locations and label a training set containing images collected in the target parking lot to fine-tune the system. We propose investigating three annotation types (polygons, bounding boxes, and fixed-size squares), providing different data representations of the parking spaces. The rationale is to elucidate the best trade-off between handcraft annotation precision and model performance. We also investigate the number of annotated parking spaces necessary to fine-tune a pre-trained model in the target parking lot. Experiments using the PKLot dataset show that it is possible to fine-tune a model to the target parking lot with less than 1,000 labeled samples, using low precision annotations such as fixed-size squares.
翻訳日:2022-07-26 14:24:52 公開日:2022-07-22
# 対人ロバスト性は知覚に影響を及ぼすか?

Do Perceptually Aligned Gradients Imply Adversarial Robustness? ( http://arxiv.org/abs/2207.11378v1 )

ライセンス: Link先を確認
Roy Ganz, Bahjat Kawar and Michael Elad(参考訳) 過去10年間、ディープラーニングベースのネットワークは、画像分類を含む多くのタスクで前例のない成功を収めてきた。 この顕著な成果にもかかわらず、近年の研究では、そのようなネットワークは小さな悪意のある摂動(adversarial examples)によって簡単に騙されることが示されている。 このセキュリティの弱点は、堅牢なモデルを得るための広範な研究につながった。 このようなモデルの明確な頑健さの利点に加えて、入力に対するそれらの勾配が人間の知覚と一致することも観察された。 いくつかの研究は、パーセプティカル・アラインド・グラディエント(PAG)を堅牢なトレーニングの副産物とみなしているが、独立した現象と見なしたり、独自の意味を研究することはなかった。 本研究では,この特徴に注目し,知覚的指向性がロバスト性を意味するかどうかをテストする。 そこで本研究では,訓練用分類器のPAGを直接促進し,そのような勾配を持つモデルが敵攻撃に対してより堅牢であるかどうかを検討する。 CIFAR-10とSTLの大規模な実験により、これらのモデルがロバスト性能を改善し、PAGとロバストネスの間の驚くべき双方向接続を明らかにした。

In the past decade, deep learning-based networks have achieved unprecedented success in numerous tasks, including image classification. Despite this remarkable achievement, recent studies have demonstrated that such networks are easily fooled by small malicious perturbations, also known as adversarial examples. This security weakness led to extensive research aimed at obtaining robust models. Beyond the clear robustness benefits of such models, it was also observed that their gradients with respect to the input align with human perception. Several works have identified Perceptually Aligned Gradients (PAG) as a byproduct of robust training, but none have considered it as a standalone phenomenon nor studied its own implications. In this work, we focus on this trait and test whether Perceptually Aligned Gradients imply Robustness. To this end, we develop a novel objective to directly promote PAG in training classifiers and examine whether models with such gradients are more robust to adversarial attacks. Extensive experiments on CIFAR-10 and STL validate that such models have improved robust performance, exposing the surprising bidirectional connection between PAG and robustness.
翻訳日:2022-07-26 14:24:36 公開日:2022-07-22
# PieTrack: 合成データトレーニングと自己教師型ドメイン適応に基づくMOTソリューション

PieTrack: An MOT solution based on synthetic data training and self-supervised domain adaptation ( http://arxiv.org/abs/2207.11325v1 )

ライセンス: Link先を確認
Yirui Wang, Shenghua He, Youbao Tang, Jingyu Chen, Honghao Zhou, Sanliang Hong, Junjie Liang, Yanxin Huang, Ning Zhang, Ruei-Sung Lin, Mei Han(参考訳) 人間の検出によるデータのラベル付けやプライバシー問題に対処するため、人工データは代用として使われ、人間の検出・追跡タスクにおいて有望な結果を示している。 第7回 Benchmarking Multi-Target Tracking (BMTT) ワークショップに参加します。 私たちのソリューションであるpietrackは、トレーニング済みの重みを使わずに、合成データに基づいて開発されています。 そこで本研究では,合成データ(MOTSynthなど)と実データ(MOT17など)のドメインシフト問題を,人為的なラベルを伴わずに緩和できる自己教師付きドメイン適応手法を提案する。 提案したマルチスケールアンサンブル推論を利用して,MOT17テストセットで58.7のHOTAスコアを達成した。

In order to cope with the increasing demand for labeling data and privacy issues with human detection, synthetic data has been used as a substitute and showing promising results in human detection and tracking tasks. We participate in the 7th Workshop on Benchmarking Multi-Target Tracking (BMTT), themed on "How Far Can Synthetic Data Take us"? Our solution, PieTrack, is developed based on synthetic data without using any pre-trained weights. We propose a self-supervised domain adaptation method that enables mitigating the domain shift issue between the synthetic (e.g., MOTSynth) and real data (e.g., MOT17) without involving extra human labels. By leveraging the proposed multi-scale ensemble inference, we achieved a final HOTA score of 58.7 on the MOT17 testing set, ranked third place in the challenge.
翻訳日:2022-07-26 14:17:39 公開日:2022-07-22
# エゴセントリックなビデオ理解のためのビデオスウィントランスフォーマー@Ego4Dが2022年に挑戦

Video Swin Transformers for Egocentric Video Understanding @ Ego4D Challenges 2022 ( http://arxiv.org/abs/2207.11329v1 )

ライセンス: Link先を確認
Maria Escobar, Laura Daza, Cristina Gonz\'alez, Jordi Pont-Tuset, Pablo Arbel\'aez(参考訳) 我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。 本手法は両課題において競争性能を達成した。

We implemented Video Swin Transformer as a base architecture for the tasks of Point-of-No-Return temporal localization and Object State Change Classification. Our method achieved competitive performance on both challenges.
翻訳日:2022-07-26 14:17:24 公開日:2022-07-22
# 多人数3次元ポーズ推定のための動的グラフ推論

Dynamic Graph Reasoning for Multi-person 3D Pose Estimation ( http://arxiv.org/abs/2207.11341v1 )

ライセンス: Link先を確認
Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu(参考訳) 複数人物の3次元ポーズ推定は,特に群集シーンにおいて,隠蔽と奥行きのあいまいさのため,困難な課題である。 これらの問題を解決するために、既存の手法では、グラフニューラルネットワークによる特徴表現の拡張や構造的制約の追加により、ボディコンテキストの手がかりをモデル化している。 しかし、これらの手法は、事前定義されたグラフを持つルートノードから3dをデコードする単一ルート定式化では堅牢ではない。 本稿では, gr-m3d を提案する。これは動的な \textbf{g}raph \textbf{r}easoning を用いて, \textbf{m}ulti-person \textbf{3d} ポーズ推定をモデル化する。 GR-M3Dの復号グラフは事前定義ではなく予測される。 特に、まずいくつかのデータマップを生成し、sdar(scale and depth awarefine module)でそれらを拡張します。 そして、これらのデータマップから、各人物の複数のルートキーポイントと密集した復号パスを推定する。 これらに基づいて、動的復号グラフは、復号経路に経路重みを割り当て、その拡張されたデータマップから経路重みを推定することによって構築される。 この過程は動的グラフ推論 (DGR) と呼ばれる。 最後に、3dポーズを検出者毎に動的デコードグラフに従ってデコードする。 gr-m3dは、入力データに応じてソフトパス重みを採用して暗黙的に復号グラフの構造を調整でき、これにより、復号グラフを異なる入力者に対して最善の適応性を持たせ、従来の方法よりも咬合や深さの曖昧さを扱うことができる。 本研究では,提案手法がトップダウン手法よりも優れており,3次元ポーズデータセットにおいて最先端の結果が得られることを示す。

Multi-person 3D pose estimation is a challenging task because of occlusion and depth ambiguity, especially in the cases of crowd scenes. To solve these problems, most existing methods explore modeling body context cues by enhancing feature representation with graph neural networks or adding structural constraints. However, these methods are not robust for their single-root formulation that decoding 3D poses from a root node with a pre-defined graph. In this paper, we propose GR-M3D, which models the \textbf{M}ulti-person \textbf{3D} pose estimation with dynamic \textbf{G}raph \textbf{R}easoning. The decoding graph in GR-M3D is predicted instead of pre-defined. In particular, It firstly generates several data maps and enhances them with a scale and depth aware refinement module (SDAR). Then multiple root keypoints and dense decoding paths for each person are estimated from these data maps. Based on them, dynamic decoding graphs are built by assigning path weights to the decoding paths, while the path weights are inferred from those enhanced data maps. And this process is named dynamic graph reasoning (DGR). Finally, the 3D poses are decoded according to dynamic decoding graphs for each detected person. GR-M3D can adjust the structure of the decoding graph implicitly by adopting soft path weights according to input data, which makes the decoding graphs be adaptive to different input persons to the best extent and more capable of handling occlusion and depth ambiguity than previous methods. We empirically show that the proposed bottom-up approach even outperforms top-down methods and achieves state-of-the-art results on three 3D pose datasets.
翻訳日:2022-07-26 14:17:20 公開日:2022-07-22
# 深層ニューラルネットワークヒートマップはアルツハイマー病のパターンを捉え、神経画像研究の大規模メタ分析で報告される

Deep neural network heatmaps capture Alzheimer's disease patterns reported in a large meta-analysis of neuroimaging studies ( http://arxiv.org/abs/2207.11352v1 )

ライセンス: Link先を確認
Di Wang, Nicolas Honnorat, Peter T. Fox, Kerstin Ritter, Simon B. Eickhoff, Sudha Seshadri, Mohamad Habes(参考訳) ディープニューラルネットワークは、現在最も高度で正確な機械学習モデルを提供しており、アルツハイマー病の患者の構造的MRIスキャンと健康管理を区別している。 残念ながら、これらのモデルが捉えた微妙な脳変化は、これらの多層および非線形モデルの複雑さのため、解釈が難しい。 この問題に対処し、深層ニューラルネットワークから抽出した画像パターンを分析するために、いくつかの熱マップ法が提案されているが、これらの方法の定量的比較は行われていない。 本稿では,adniデータセットのt1 mriスキャンを用いて訓練された畳み込みニューラルネットワーク(cnn)から熱マップを導出し,これらの熱マップとサポートベクターマシン(svm)係数に対応する脳地図を比較した。 レイヤワイド・レバレンス・プロパゲーション(LRP)、IG(Integrated Gradients)、GGC(Guid Grad-CAM)の3つの顕著な熱マップ法が研究されている。 熱マップの質を視覚的あるいは質的に評価した先行研究とは対照的に,77voxel-based morphometry (vbm) をadniとは独立に組み合わせた大規模なメタ分析から,地対地図と重なる重なりを計算し,正確な定量測定を行った。 以上の結果から,3つの熱マップ法はメタアナリシスマップをカバーする脳領域を捉えることができ,SVM係数よりも優れた結果が得られた。 それらのうち、igは独立メタ分析と最も重なり合うヒートマップを作成した。

Deep neural networks currently provide the most advanced and accurate machine learning models to distinguish between structural MRI scans of subjects with Alzheimer's disease and healthy controls. Unfortunately, the subtle brain alterations captured by these models are difficult to interpret because of the complexity of these multi-layer and non-linear models. Several heatmap methods have been proposed to address this issue and analyze the imaging patterns extracted from the deep neural networks, but no quantitative comparison between these methods has been carried out so far. In this work, we explore these questions by deriving heatmaps from Convolutional Neural Networks (CNN) trained using T1 MRI scans of the ADNI data set, and by comparing these heatmaps with brain maps corresponding to Support Vector Machines (SVM) coefficients. Three prominent heatmap methods are studied: Layer-wise Relevance Propagation (LRP), Integrated Gradients (IG), and Guided Grad-CAM (GGC). Contrary to prior studies where the quality of heatmaps was visually or qualitatively assessed, we obtained precise quantitative measures by computing overlap with a ground-truth map from a large meta-analysis that combined 77 voxel-based morphometry (VBM) studies independently from ADNI. Our results indicate that all three heatmap methods were able to capture brain regions covering the meta-analysis map and achieved better results than SVM coefficients. Among them, IG produced the heatmaps with the best overlap with the independent meta-analysis.
翻訳日:2022-07-26 14:16:49 公開日:2022-07-22
# オントロジーマッチングのための概念埋め込みにおけるwaserstein距離の検討

Exploring Wasserstein Distance across Concept Embeddings for Ontology Matching ( http://arxiv.org/abs/2207.11324v1 )

ライセンス: Link先を確認
Yuan An and Alex Kalinowski and Jane Greenberg(参考訳) オントロジー要素間の距離を測定することは、任意のマッチング解の基本成分である。 離散記号演算に依存する文字列ベースの距離メトリクスは、浅い構文マッチングで悪名高い。 本研究では,オントロジー概念の埋め込みにおけるwasserstein距離計量について検討する。 ワッサーシュタイン距離計量は言語的、構造的、論理的情報を組み込む連続空間を対象とする。 本研究では,事前学習した単語埋め込みシステムであるfasttextを用いて,オントロジー要素ラベルの埋め込みを行う。 本研究では,オンテルゲー間の類似度の測定,個々の要素間のマッチングの発見,文脈情報を含むマッチングの精錬におけるwasserstein距離の有効性について検討した。 OAEI カンファレンストラックと MSE ベンチマークによる実験は,AML や LogMap などの主要なシステムと比較して,競争力のある結果が得られる。 その結果、最適輸送とwasserstein距離を組み込んだ非教師付きオントロジーマッチングを改善するための有望な軌道が示された。

Measuring the distance between ontological elements is a fundamental component for any matching solutions. String-based distance metrics relying on discrete symbol operations are notorious for shallow syntactic matching. In this study, we explore Wasserstein distance metric across ontology concept embeddings. Wasserstein distance metric targets continuous space that can incorporate linguistic, structural, and logical information. In our exploratory study, we use a pre-trained word embeddings system, fasttext, to embed ontology element labels. We examine the effectiveness of Wasserstein distance for measuring similarity between (blocks of) ontolgoies, discovering matchings between individual elements, and refining matchings incorporating contextual information. Our experiments with the OAEI conference track and MSE benchmarks achieve competitive results compared to the leading systems such as AML and LogMap. Results indicate a promising trajectory for the application of optimal transport and Wasserstein distance to improve embedding-based unsupervised ontology matchings.
翻訳日:2022-07-26 14:04:48 公開日:2022-07-22
# 分子のHOMO-LUMOギャップの高速かつ正確な予測のためのグラフ畳み込みニューラルネットワークのスケーラブルな訓練

Scalable training of graph convolutional neural networks for fast and accurate predictions of HOMO-LUMO gap in molecules ( http://arxiv.org/abs/2207.11333v1 )

ライセンス: Link先を確認
Jong Youl Choi, Pei Zhang, Kshitij Mehta, Andrew Blanchard, Massimiliano Lupo Pasini(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、分子構造のグラフ表現から物質特性を予測するための、物質科学におけるディープラーニング(DL)モデルの一般的なクラスである。 分子設計のための正確で包括的なGCNNサロゲートをトレーニングするには、大規模なグラフデータセットが必要である。 GPUと分散コンピューティングの最近の進歩は、GCNNトレーニングの計算コストを効果的に削減するための道を開く。 しかし、高パフォーマンスコンピューティング(hpc)リソースを効率的にトレーニングするためには、大規模データ管理とスケーラブルな確率的バッチ最適化を同時に最適化する必要がある。 本研究は, 数百万分子の物質特性を予測するためのGCNNモデルをHPCシステム上に構築することに焦点を当てる。 PyTorchで分散データ並列性を活用するために,大規模GCNNトレーニング用の社内ライブラリであるHydraGNNを使用しています。 我々は,大規模分子グラフデータの効率的な保存と読み出しのための高性能データ管理フレームワークであるADIOSを使用している。 我々は2つのオープンソースの大規模グラフデータセットの並列トレーニングを行い、HOMO-LUMOギャップとして知られる重要な量子特性のためのGCNN予測器を構築する。 我々は,oak ridge leadership computing facility (olcf) の summit supercomputer とnational energy research scientific computing center (nersc) の perlmutter system という2つの doe スーパーコンピュータ上でのアプローチのスケーラビリティ,正確性,収束性を測定した。 HydraGNNによる実験結果について報告する。 一 従来の方法に比べてデータのロード時間を4.2倍に短縮すること、及び ii) summit と perlmutter の両方で 1024 gpu までのトレーニングを行うための線形スケーリング性能。

Graph Convolutional Neural Network (GCNN) is a popular class of deep learning (DL) models in material science to predict material properties from the graph representation of molecular structures. Training an accurate and comprehensive GCNN surrogate for molecular design requires large-scale graph datasets and is usually a time-consuming process. Recent advances in GPUs and distributed computing open a path to reduce the computational cost for GCNN training effectively. However, efficient utilization of high performance computing (HPC) resources for training requires simultaneously optimizing large-scale data management and scalable stochastic batched optimization techniques. In this work, we focus on building GCNN models on HPC systems to predict material properties of millions of molecules. We use HydraGNN, our in-house library for large-scale GCNN training, leveraging distributed data parallelism in PyTorch. We use ADIOS, a high-performance data management framework for efficient storage and reading of large molecular graph data. We perform parallel training on two open-source large-scale graph datasets to build a GCNN predictor for an important quantum property known as the HOMO-LUMO gap. We measure the scalability, accuracy, and convergence of our approach on two DOE supercomputers: the Summit supercomputer at the Oak Ridge Leadership Computing Facility (OLCF) and the Perlmutter system at the National Energy Research Scientific Computing Center (NERSC). We present our experimental results with HydraGNN showing i) reduction of data loading time up to 4.2 times compared with a conventional method and ii) linear scaling performance for training up to 1,024 GPUs on both Summit and Perlmutter.
翻訳日:2022-07-26 14:00:03 公開日:2022-07-22
# 生成的会話ネットワークを用いた知識付き会話データ拡張

Knowledge-Grounded Conversational Data Augmentation with Generative Conversational Networks ( http://arxiv.org/abs/2207.11363v1 )

ライセンス: Link先を確認
Yen-Ting Lin, Alexandros Papangelis, Seokhwan Kim, Dilek Hakkani-Tur(参考訳) リッチでオープンなドメインのテキストデータは一般に利用可能であり、興味深い現象(暗記、皮肉、共感など)を含むこともあるが、多くは言語処理タスク用に設計されており、通常は非会話形式である。 本研究では、生成会話ネットワークを用いて会話データを自動的に生成し、利用可能な言語や知識データの広さの恩恵を享受し、オープンなドメインの会話エージェントを訓練する。 自動測定と人的エミュレータを用いて,話題のチャットデータセットに関する知識のない会話に対するアプローチを評価した。 以上の結果から,知識基盤のない会話では,GCNはシードデータから一般化することができ,より関連性が少なく,よりエンゲージメントが高く,知識基盤の会話ではより知識に重点を置き,流動的で,活発な会話を創出できることがわかった。 具体的には,オープンドメインの会話と10\%のシードデータとの会話では,100%のデータを使用するベースラインに近い動作をするが,知識の接頭辞では,人間によるエンゲージメント,フラレンシー,関連度において,1%のデータしか利用しない。

While rich, open-domain textual data are generally available and may include interesting phenomena (humor, sarcasm, empathy, etc.) most are designed for language processing tasks, and are usually in a non-conversational format. In this work, we take a step towards automatically generating conversational data using Generative Conversational Networks, aiming to benefit from the breadth of available language and knowledge data, and train open domain social conversational agents. We evaluate our approach on conversations with and without knowledge on the Topical Chat dataset using automatic metrics and human evaluators. Our results show that for conversations without knowledge grounding, GCN can generalize from the seed data, producing novel conversations that are less relevant but more engaging and for knowledge-grounded conversations, it can produce more knowledge-focused, fluent, and engaging conversations. Specifically, we show that for open-domain conversations with 10\% of seed data, our approach performs close to the baseline that uses 100% of the data, while for knowledge-grounded conversations, it achieves the same using only 1% of the data, on human ratings of engagingness, fluency, and relevance.
翻訳日:2022-07-26 13:59:08 公開日:2022-07-22
# 不完全画像データ応用のためのテンソル次元減少に基づく予測モデル

A Supervised Tensor Dimension Reduction-Based Prognostics Model for Applications with Incomplete Imaging Data ( http://arxiv.org/abs/2207.11353v1 )

ライセンス: Link先を確認
Chengyu Zhou and Xiaolei Fang(参考訳) 本稿では,画像に基づく予測モデルにおいて2つのアドバンテージを有するテンソルデータの教師付き次元縮小手法を提案する。 第一に、このモデルは、アプリケーションを不完全なデータに拡張するテンソルデータを完結させる必要がない。 第二に、TTF(Time-to-failure)を用いて低次元特徴の抽出を監督し、抽出した特徴をその後の予後に有効にする。 さらに,パラメータ推定のための最適化アルゴリズムを提案し,特定の分布の下で閉形式解を導出する。

This paper proposes a supervised dimension reduction methodology for tensor data which has two advantages over most image-based prognostic models. First, the model does not require tensor data to be complete which expands its application to incomplete data. Second, it utilizes time-to-failure (TTF) to supervise the extraction of low-dimensional features which makes the extracted features more effective for the subsequent prognostic. Besides, an optimization algorithm is proposed for parameter estimation and closed-form solutions are derived under certain distributions.
翻訳日:2022-07-26 13:55:30 公開日:2022-07-22
# 雑音下の古典的通信を用いた分散量子状態識別の学習

Learning Distributed Quantum State Discrimination with Noisy Classical Communications ( http://arxiv.org/abs/2207.11354v1 )

ライセンス: Link先を確認
Hari Hara Suthan Chittoor, Osvaldo Simeone(参考訳) Alice と Bob が、Alice と Bob で部分的に観測される量子系の状態と、局所的な操作と古典的な通信(LOCC)を通してBob で観測される状態を検出することを任務とする分散量子センシングシステムを考える。 以前の作業では、アリスとボブのパラメータ化量子回路(PQC)を介してローカル操作を最適化する分散プロトコルであるLOCCNetが導入された。 本稿では,分散量子状態識別のためのノイズ認識LOCCNet(NA-LOCCNet)を提案する。 観測された2つの量子ビット対に対する特定のアンサーゼを提案し、ノイズ認識型トレーニング設計基準について述べる。 実験により,古典的な通信がノイズである場合に,観測された量子系のノイズが検出能力の向上に有効であることが確認された。

Consider a distributed quantum sensing system in which Alice and Bob are tasked with detecting the state of a quantum system that is observed partly at Alice and partly at Bob via local operations and classical communication (LOCC). Prior work introduced LOCCNet, a distributed protocol that optimizes the local operations via parameterized quantum circuits (PQCs) at Alice and Bob. This paper presents Noise Aware-LOCCNet (NA-LOCCNet) for distributed quantum state discrimination in the presence of noisy classical communication. We propose specific ansatzes for the case of two observed qubit pairs, and we describe a noise-aware training design criterion. Through experiments, we observe that quantum, entanglement-breaking, noise on the observed quantum system can be useful in improving the detection capacity of the system when classical communication is noisy.
翻訳日:2022-07-26 13:48:03 公開日:2022-07-22
# cnn vs transformer robustnessコンテストへの公平な取り組み

An Impartial Take to the CNN vs Transformer Robustness Contest ( http://arxiv.org/abs/2207.11347v1 )

ライセンス: Link先を確認
Francesco Pinto, Philip H.S. Torr, Puneet K. Dokania(参考訳) コンピュータビジョンにおけるトランスフォーマーの人気が高まった後、いくつかの研究は、分散シフトに対してより堅牢であるかどうかを判断し、畳み込みニューラルネットワーク(CNN)よりも優れた不確実性推定を提供することを試みた。 ほぼ全会一致の結論は、それらが成り立つことであり、しばしば、この仮定された優越性の理由が自己認識機構によるものであると明確に推測される。 本稿では,最近の最先端cnn(特にconvnext)が,現在の最先端トランスフォーマーよりも堅牢で信頼性の高い,あるいは場合によってはそれ以上であることを示す,広範な実証分析を行う。 しかし、明確な勝者は存在しない。 したがって、あるアーキテクチャ群が他よりも圧倒的に優れていることを述べようとする誘惑があるが、テクスチャや背景、単純さといった同様の脆弱性に苦しむ一方で、様々なタスクで同様の並外れたパフォーマンスを享受しているように見える。

Following the surge of popularity of Transformers in Computer Vision, several studies have attempted to determine whether they could be more robust to distribution shifts and provide better uncertainty estimates than Convolutional Neural Networks (CNNs). The almost unanimous conclusion is that they are, and it is often conjectured more or less explicitly that the reason of this supposed superiority is to be attributed to the self-attention mechanism. In this paper we perform extensive empirical analyses showing that recent state-of-the-art CNNs (particularly, ConvNeXt) can be as robust and reliable or even sometimes more than the current state-of-the-art Transformers. However, there is no clear winner. Therefore, although it is tempting to state the definitive superiority of one family of architectures over another, they seem to enjoy similar extraordinary performances on a variety of tasks while also suffering from similar vulnerabilities such as texture, background, and simplicity biases.
翻訳日:2022-07-26 13:42:25 公開日:2022-07-22
# 不確実性定量化による半教師付き学習の補完

Complementing Semi-Supervised Learning with Uncertainty Quantification ( http://arxiv.org/abs/2207.12131v1 )

ライセンス: Link先を確認
Ehsan Kazemi(参考訳) 完全教師付き分類の問題は、大量の注釈付きデータを必要とすることであるが、多くのデータセットでは、大量のデータがラベル付けされていない。 この問題を解決するために、半教師付き学習(SSL)はラベル付きドメインの分類器の知識を活用し、アノテーション付きデータとして類似した分布を持つ未ラベルのドメインに外挿する。 SSL手法の最近の成功は、しきい値付き擬似ラベリングと、未ラベル領域の整合正則化に決定的に依存している。 しかし, 従来の手法では, ノイズラベルによるトレーニングプロセスや, 強化による分布サンプルの流出など, 擬似ラベルや未ラベルサンプルの不確実性は含まない。 sslの最近の発展に触発されて,本論文の目標は,アレテータ的および認識的不確実性定量化に依存する新しい教師なし不確実性認識目標を提案することである。 sslの最近の技術と提案されている不確実性認識損失関数を補完する我々のアプローチは、計算的に軽量でありながら標準sslベンチマークよりも優れています。 CIFAR-100やMini-ImageNetのような複雑なデータセットでは,結果が最先端の成果を上回っている。

The problem of fully supervised classification is that it requires a tremendous amount of annotated data, however, in many datasets a large portion of data is unlabeled. To alleviate this problem semi-supervised learning (SSL) leverages the knowledge of the classifier on the labeled domain and extrapolates it to the unlabeled domain which has a supposedly similar distribution as annotated data. Recent success on SSL methods crucially hinges on thresholded pseudo labeling and thereby consistency regularization for the unlabeled domain. However, the existing methods do not incorporate the uncertainty of the pseudo labels or unlabeled samples in the training process which are due to the noisy labels or out of distribution samples owing to strong augmentations. Inspired by the recent developments in SSL, our goal in this paper is to propose a novel unsupervised uncertainty-aware objective that relies on aleatoric and epistemic uncertainty quantification. Complementing the recent techniques in SSL with the proposed uncertainty-aware loss function our approach outperforms or is on par with the state-of-the-art over standard SSL benchmarks while being computationally lightweight. Our results outperform the state-of-the-art results on complex datasets such as CIFAR-100 and Mini-ImageNet.
翻訳日:2022-07-26 13:35:30 公開日:2022-07-22
# 視覚変換器を用いた運動障害の特定のための時空間注意の適用

Applying Spatiotemporal Attention to Identify Distracted and Drowsy Driving with Vision Transformers ( http://arxiv.org/abs/2207.12148v1 )

ライセンス: Link先を確認
Samay Lakhani(参考訳) 2021年における自動車事故の20%の増加は、気晴らしと眠気の増加の結果である。 眠気と気を散らす運転は、全自動車事故の45%の原因である。 眠気と運転注意をそらす手段として、コンピュータビジョンを用いた検出方法は低コストで正確で最小限の侵襲性を持つように設計されている。 本研究では,3d-cnnsの最先端精度を上回るために視覚トランスフォーマを用いた。 2台のトランスフォーマーが眠気と気晴らしのために訓練された。 ドローシービデオトランスモデルは、National Tsing-Hua University Drowsy Driving Dataset (NTHU-DDD) でトレーニングされ、ビデオスウィントランスフォーマーモデルが2つのクラスで10のエポック – ドローシーと非ドローシーは10.5時間以上シミュレーションされた。 注意をそらすビデオトランスフォーマーは、運転者監視データセット (dmd) で訓練され、ビデオスウィントランスは9つの気晴らし関連のクラスで50エポックで訓練された。 眠気モデルの精度は44%に達し, テストセットの損失値が高く, 過フィッティングやモデル性能の低下が確認された。 オーバーフィッティングは限られたトレーニングデータを示し、応用モデルアーキテクチャは学習すべき量的パラメータが不足している。 DMDの最先端モデルの性能は97.5%に達し、十分なデータと強力なアーキテクチャでトランスフォーマーが不適合な運転検出に適していることを示している。 将来の研究は、より正確性と効率性を達成するために、tokenlearnerのような新しい強力なモデルを使用し、既存のデータセットをマージして飲酒運転の検出と道路事故を検知し、交通クラッシュを防ぐ包括的なソリューションを作り、自動車安全産業に革命をもたらす機能するプロトタイプを展開するべきである。

A 20% rise in car crashes in 2021 compared to 2020 has been observed as a result of increased distraction and drowsiness. Drowsy and distracted driving are the cause of 45% of all car crashes. As a means to decrease drowsy and distracted driving, detection methods using computer vision can be designed to be low-cost, accurate, and minimally invasive. This work investigated the use of the vision transformer to outperform state-of-the-art accuracy from 3D-CNNs. Two separate transformers were trained for drowsiness and distractedness. The drowsy video transformer model was trained on the National Tsing-Hua University Drowsy Driving Dataset (NTHU-DDD) with a Video Swin Transformer model for 10 epochs on two classes -- drowsy and non-drowsy simulated over 10.5 hours. The distracted video transformer was trained on the Driver Monitoring Dataset (DMD) with Video Swin Transformer for 50 epochs over 9 distraction-related classes. The accuracy of the drowsiness model reached 44% and a high loss value on the test set, indicating overfitting and poor model performance. Overfitting indicates limited training data and applied model architecture lacked quantifiable parameters to learn. The distracted model outperformed state-of-the-art models on DMD reaching 97.5%, indicating that with sufficient data and a strong architecture, transformers are suitable for unfit driving detection. Future research should use newer and stronger models such as TokenLearner to achieve higher accuracy and efficiency, merge existing datasets to expand to detecting drunk driving and road rage to create a comprehensive solution to prevent traffic crashes, and deploying a functioning prototype to revolutionize the automotive safety industry.
翻訳日:2022-07-26 13:30:19 公開日:2022-07-22
# TRUST-LAPSE: モデルモニタリングのための説明可能で行動可能なミストラストスコーディングフレームワーク

TRUST-LAPSE: An Explainable & Actionable Mistrust Scoring Framework for Model Monitoring ( http://arxiv.org/abs/2207.11290v1 )

ライセンス: Link先を確認
Nandita Bhaskhar, Daniel L. Rubin, Christopher Lee-Messer(参考訳) トレーニング済みのMLモデルの継続的監視によって、安全なデプロイメントには、予測をいつ、信頼すべきでないかを判断することが不可欠だ。 このようなフレームワークは、ハイパフォーマンス、説明可能、ポストホック、アクション可能でなければならない。 連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。 潜在空間埋め込みのシーケンスを用いて,各入力サンプルのモデル予測の信頼性を評価する。 具体的には (a)潜在空間における距離測定値(マハラノビス距離)と類似度測定値(コサイン類似度)を用いて不信を推定する。 b) 非パラメトリックスライディングウインドウ型連続監視アルゴリズムにおいて, 逐次不信頼スコアによって過去の入力表現の列に対する相関の偏差が決定される。 我々は,(1)分布シフト入力検出と(2)データドリフト検出の2つの下流課題を通して,パブリックデータセットを用いたオーディオとビジョンの多種多様な領域を横断し,さらに,実世界脳波(eeg)データ集合への挑戦的アプローチのベンチマークを行った。 AUROCsは84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs) で、ベースラインを10ポイント以上上回っている。 セマンティックコンテンツの入力に敏感な人気ベースラインにおいて重要な障害を露呈し、実際のモデル監視には適さない。 ストリームの90%以上は、すべてのドメインに対して20%のエラーを示します。 広範な質的定量的評価を通じて,信頼感の低下はより強固であり,実践への導入が容易であることを示す。

Continuous monitoring of trained ML models to determine when their predictions should and should not be trusted is essential for their safe deployment. Such a framework ought to be high-performing, explainable, post-hoc and actionable. We propose TRUST-LAPSE, a "mistrust" scoring framework for continuous model monitoring. We assess the trustworthiness of each input sample's model prediction using a sequence of latent-space embeddings. Specifically, (a) our latent-space mistrust score estimates mistrust using distance metrics (Mahalanobis distance) and similarity metrics (cosine similarity) in the latent-space and (b) our sequential mistrust score determines deviations in correlations over the sequence of past input representations in a non-parametric, sliding-window based algorithm for actionable continuous monitoring. We evaluate TRUST-LAPSE via two downstream tasks: (1) distributionally shifted input detection and (2) data drift detection, across diverse domains -- audio & vision using public datasets and further benchmark our approach on challenging, real-world electroencephalograms (EEG) datasets for seizure detection. Our latent-space mistrust scores achieve state-of-the-art results with AUROCs of 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs), outperforming baselines by over 10 points. We expose critical failures in popular baselines that remain insensitive to input semantic content, rendering them unfit for real-world model monitoring. We show that our sequential mistrust scores achieve high drift detection rates: over 90% of the streams show < 20% error for all domains. Through extensive qualitative and quantitative evaluations, we show that our mistrust scores are more robust and provide explainability for easy adoption into practice.
翻訳日:2022-07-26 13:29:14 公開日:2022-07-22
# PanGu-Coder:関数レベル言語モデリングによるプログラム合成

PanGu-Coder: Program Synthesis with Function-Level Language Modeling ( http://arxiv.org/abs/2207.11280v1 )

ライセンス: Link先を確認
Fenia Christopoulou, Gerasimos Lampouras, Milan Gritta, Guchun Zhang, Yinpeng Guo, Zhongqi Li, Qi Zhang, Meng Xiao, Bo Shen, Lin Li, Hao Yu, Li Yan, Pingyi Zhou, Xin Wang, Yuchi Ma, Ignacio Iacobacci, Yasheng Wang, Guangtai Liang, Jiansheng Wei, Xin Jiang, Qianxiang Wang, Qun Liu(参考訳) 本稿では,テキスト対コード生成にpangu-alphaアーキテクチャを応用した,プリトレーニングされたデコーダ専用言語モデルであるpangu-coderを提案する。 第1段階は生のプログラミング言語データを事前学習するためにcausal language modelling (clm) を使用し、第2段階はcausal language modelling と masked language modelling (mlm) のトレーニング目的を組み合わせることで、テキスト対コード生成の下流タスクに焦点を当て、自然言語プログラム定義とコード関数の緩やかにキュレートされたペアをトレーニングします。 最後にpangu-coder-ftについて論じる。これは競合プログラミング問題とコードを統合テストと組み合わせることで微調整されている。 我々は,PanGu-Coderを,機能的に正しいプログラムを生成するかどうかに焦点をあてて評価し,コンテキストウィンドウを小さくし,少ないデータでトレーニングしながら,CodeXのような同様のサイズのモデルよりも同等あるいは優れたパフォーマンスを実現することを示す。

We present PanGu-Coder, a pretrained decoder-only language model adopting the PanGu-Alpha architecture for text-to-code generation, i.e. the synthesis of programming language solutions given a natural language problem description. We train PanGu-Coder using a two-stage strategy: the first stage employs Causal Language Modelling (CLM) to pre-train on raw programming language data, while the second stage uses a combination of Causal Language Modelling and Masked Language Modelling (MLM) training objectives that focus on the downstream task of text-to-code generation and train on loosely curated pairs of natural language program definitions and code functions. Finally, we discuss PanGu-Coder-FT, which is fine-tuned on a combination of competitive programming problems and code with continuous integration tests. We evaluate PanGu-Coder with a focus on whether it generates functionally correct programs and demonstrate that it achieves equivalent or better performance than similarly sized models, such as CodeX, while attending a smaller context window and training on less data.
翻訳日:2022-07-26 13:11:04 公開日:2022-07-22
# 公平性を考慮した多目的最適化に向けて

Towards Fairness-Aware Multi-Objective Optimization ( http://arxiv.org/abs/2207.12138v1 )

ライセンス: Link先を確認
Guo Yu, Lianbo Ma, Wei Du, Wenli Du, Yaochu Jin(参考訳) 近年、広範囲のアプリケーションにおいて、意思決定における不公平さや差別を緩和するフェアネス対応機械学習の急速な発展が見られる。 しかし、公平なリソース割り当て問題やデータ駆動型多目的最適化問題など、実生活でよく見られるフェアネス対応多目的最適化にはあまり注意が払われていない。 本稿では,公平性の観点から多目的最適化の理解を照らし,広めることを目的とする。 この目的のために,多目的最適化におけるユーザの好みに関する議論から始め,機械学習と多目的最適化における公平性との関係を考察する。 以上の議論に続いて、従来の多目的最適化、データ駆動最適化、フェデレーション最適化において、フェアネスの重要性をさらに明らかにする。 最後に、公平性を考慮した多目的最適化の課題と機会に対処する。 本稿は、最適化の文脈における公平性を理解し、公正性に配慮した多目的最適化研究への関心を高めるために、少し前進することを願っている。

Recent years have seen the rapid development of fairness-aware machine learning in mitigating unfairness or discrimination in decision-making in a wide range of applications. However, much less attention has been paid to the fairness-aware multi-objective optimization, which is indeed commonly seen in real life, such as fair resource allocation problems and data driven multi-objective optimization problems. This paper aims to illuminate and broaden our understanding of multi-objective optimization from the perspective of fairness. To this end, we start with a discussion of user preferences in multi-objective optimization and then explore its relationship to fairness in machine learning and multi-objective optimization. Following the above discussions, representative cases of fairness-aware multiobjective optimization are presented, further elaborating the importance of fairness in traditional multi-objective optimization, data-driven optimization and federated optimization. Finally, challenges and opportunities in fairness-aware multi-objective optimization are addressed. We hope that this article makes a small step forward towards understanding fairness in the context of optimization and promote research interest in fairness-aware multi-objective optimization.
翻訳日:2022-07-26 13:07:49 公開日:2022-07-22
# ai/ml-empowered 5gネットワークによる準リアルタイム分散状態推定

Near Real-Time Distributed State Estimation via AI/ML-Empowered 5G Networks ( http://arxiv.org/abs/2207.11117v1 )

ライセンス: Link先を確認
Ognjen Kundacina, Miodrag Forcan, Mirsad Cosovic, Darijo Raca, Merim Dzaferagic, Dragisa Miskovic, Mirjana Maksimovic, Dejan Vukobratovic(参考訳) 第5世代(5G)ネットワークは、フレキシブル、ソフトウェア化、データ駆動、インテリジェントグリッドへの移行を加速する可能性がある。 機械学習(ML)/人工知能(AI)機能のサポートの進化に伴い、5Gネットワークは新たなデータ中心のスマートグリッド(SG)サービスを実現することが期待されている。 本稿では,データ駆動型SGサービスとML/AI対応5Gネットワークが共生関係でどのように統合できるかを検討する。 我々は、エネルギー管理システムの鍵となる状態推定(SE)機能に注目し、2つの主要な疑問に焦点をあてる。 まず,5Gコアネットワークと無線アクセスネットワークアーキテクチャの要素と分散SEをどのように統合できるかについて概説する。 次に,2つの強力な分散se手法を比較し,比較する。 一 図式的モデル及び信念の伝播、及び ii) グラフニューラルネットワーク。 通信遅延を考慮した,準リアルタイム分散seを5gネットワークでサポートする性能と能力について検討する。

Fifth-Generation (5G) networks have a potential to accelerate power system transition to a flexible, softwarized, data-driven, and intelligent grid. With their evolving support for Machine Learning (ML)/Artificial Intelligence (AI) functions, 5G networks are expected to enable novel data-centric Smart Grid (SG) services. In this paper, we explore how data-driven SG services could be integrated with ML/AI-enabled 5G networks in a symbiotic relationship. We focus on the State Estimation (SE) function as a key element of the energy management system and focus on two main questions. Firstly, in a tutorial fashion, we present an overview on how distributed SE can be integrated with the elements of the 5G core network and radio access network architecture. Secondly, we present and compare two powerful distributed SE methods based on: i) graphical models and belief propagation, and ii) graph neural networks. We discuss their performance and capability to support a near real-time distributed SE via 5G network, taking into account communication delays.
翻訳日:2022-07-25 13:54:49 公開日:2022-07-22
# 時変ベイズ最適化による制御器チューニングについて

On Controller Tuning with Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2207.11120v1 )

ライセンス: Link先を確認
Paul Brunzema and Alexander von Rohr and Sebastian Trimpe(参考訳) 条件や環境の変化は、システムのダイナミクスを時間とともに変化させる可能性がある。 最適な制御性能を確保するために、コントローラはこれらの変更に適応する必要がある。 根本的な原因と変更時期が不明な場合には、この適応のためにオンラインデータに頼る必要があります。 本稿では,制御対象とその変更に関する事前知識を用いて,時間変化ベイズ最適化(TVBO)を用いて,環境変化におけるコントローラのオンラインチューニングを行う。 2つの特性は、多くのオンラインコントローラチューニング問題の特徴である: 第一に、これらは、例えば摩耗と涙によるシステムダイナミクスの変化による目標の漸進的かつ持続的な変化を示す。 第二に、最適化問題はチューニングパラメータの凸である。 現在のTVBO法はこれらの特性を明示的に考慮していないため、パラメータ空間の過度探索によるチューニング性能の低下や不安定なコントローラが多数存在する。 本稿では,インクリメンタルかつ持続的な変化の仮定を組み込んだ,不確実性インジェクション(ui)を用いた新しいtvboルゲティング戦略を提案する。 制御対象は、時間領域のWienerプロセスを介してUIを備えた時空間ガウス過程(GP)としてモデル化される。 さらに,線形不等式制約を持つGPモデルを用いて空間次元の凸性仮定を明示的にモデル化する。 数値実験では,本モデルがTVBOの最先端手法よりも優れ,後悔の低減と不安定なパラメータ構成の低下を示す。

Changing conditions or environments can cause system dynamics to vary over time. To ensure optimal control performance, controllers should adapt to these changes. When the underlying cause and time of change is unknown, we need to rely on online data for this adaptation. In this paper, we will use time-varying Bayesian optimization (TVBO) to tune controllers online in changing environments using appropriate prior knowledge on the control objective and its changes. Two properties are characteristic of many online controller tuning problems: First, they exhibit incremental and lasting changes in the objective due to changes to the system dynamics, e.g., through wear and tear. Second, the optimization problem is convex in the tuning parameters. Current TVBO methods do not explicitly account for these properties, resulting in poor tuning performance and many unstable controllers through over-exploration of the parameter space. We propose a novel TVBO forgetting strategy using Uncertainty-Injection (UI), which incorporates the assumption of incremental and lasting changes. The control objective is modeled as a spatio-temporal Gaussian process (GP) with UI through a Wiener process in the temporal domain. Further, we explicitly model the convexity assumptions in the spatial dimension through GP models with linear inequality constraints. In numerical experiments, we show that our model outperforms the state-of-the-art method in TVBO, exhibiting reduced regret and fewer unstable parameter configurations.
翻訳日:2022-07-25 13:54:33 公開日:2022-07-22
# 形状の最適再パラメータ化のための微分同相の深層学習

Deep learning of diffeomorphisms for optimal reparametrizations of shapes ( http://arxiv.org/abs/2207.11141v1 )

ライセンス: Link先を確認
Elena Celledoni, Helge Gl\"ockner, J{\o}rgen Riseth, Alexander Schmeding(参考訳) 形状解析における基本的な問題の一つは、これらの形状の間の(測地線)距離を計算する前に曲線や曲面を整列させることである。 このアライメントを実現する最適再パラメータ化は、微分同相群上の最適化問題につながる計算上要求されるタスクである。 本稿では, 近似問題を解くために, 基本微分同相の合成による配向保存微分同相の近似を構築する。 本稿では,非パラメータ曲線と曲面の両方に適用可能なpytorchに実装した実用的なアルゴリズムを提案する。 我々は普遍近似結果を導出し、微分同相の合成のリプシッツ定数の境界を得る。

In shape analysis, one of the fundamental problems is to align curves or surfaces before computing a (geodesic) distance between these shapes. To find the optimal reparametrization realizing this alignment is a computationally demanding task which leads to an optimization problem on the diffeomorphism group. In this paper, we construct approximations of orientation-preserving diffeomorphisms by composition of elementary diffeomorphisms to solve the approximation problem. We propose a practical algorithm implemented in PyTorch which is applicable both to unparametrized curves and surfaces. We derive universal approximation results and obtain bounds for the Lipschitz constant of the obtained compositions of diffeomorphisms.
翻訳日:2022-07-25 13:54:12 公開日:2022-07-22
# 量子機械学習における公正性の検証

Verifying Fairness in Quantum Machine Learning ( http://arxiv.org/abs/2207.11173v1 )

ライセンス: Link先を確認
Ji Guan, Wang Fang and Mingsheng Ying(参考訳) 量子コンピューティングの非古典的能力のため、量子機械学習は独立に適用され、特に金融の分野では、意思決定のために古典的モデルに埋め込まれる。 公正やその他の倫理的な問題は、意思決定における主要な関心事の1つである。 In this work, we define a formal framework for the fairness verification and analysis of quantum machine learning decision models, where we adopt one of the most popular notions of fairness in the literature based on the intuition -- any two similar individuals must be treated similarly and are thus unbiased. We show that quantum noise can improve fairness and develop an algorithm to check whether a (noisy) quantum machine learning model is fair. In particular, this algorithm can find bias kernels of quantum data (encoding individuals) during checking. These bias kernels generate infinitely many bias pairs for investigating the unfairness of the model. Our algorithm is designed based on a highly efficient data structure -- Tensor Networks -- and implemented on Google's TensorFlow Quantum. このアルゴリズムの有用性と有効性は,27 qubits (2^{27}$-dimensional state space)tripling (2^{18}$倍)の量子機械学習モデルを検証するための最先端アルゴリズムのランダムな(ノイズの多い)量子決定モデルに対して,実世界のデータに対する収入予測と信用スコアを含む実験結果によって確認される。

Due to the beyond-classical capability of quantum computing, quantum machine learning is applied independently or embedded in classical models for decision making, especially in the field of finance. Fairness and other ethical issues are often one of the main concerns in decision making. In this work, we define a formal framework for the fairness verification and analysis of quantum machine learning decision models, where we adopt one of the most popular notions of fairness in the literature based on the intuition -- any two similar individuals must be treated similarly and are thus unbiased. We show that quantum noise can improve fairness and develop an algorithm to check whether a (noisy) quantum machine learning model is fair. In particular, this algorithm can find bias kernels of quantum data (encoding individuals) during checking. These bias kernels generate infinitely many bias pairs for investigating the unfairness of the model. Our algorithm is designed based on a highly efficient data structure -- Tensor Networks -- and implemented on Google's TensorFlow Quantum. The utility and effectiveness of our algorithm are confirmed by the experimental results, including income prediction and credit scoring on real-world data, for a class of random (noisy) quantum decision models with 27 qubits ($2^{27}$-dimensional state space) tripling ($2^{18}$ times more than) that of the state-of-the-art algorithms for verifying quantum machine learning models.
翻訳日:2022-07-25 13:54:02 公開日:2022-07-22
# E2N: Goal-Oriented Mesh Adaptationのためのエラー推定ネットワーク

E2N: Error Estimation Networks for Goal-Oriented Mesh Adaptation ( http://arxiv.org/abs/2207.11233v1 )

ライセンス: Link先を確認
Joseph G. Wallwork, Jingyi Lu, Mingrui Zhang and Matthew D. Piggott(参考訳) 偏微分方程式 (pde) が与えられると、目標指向誤差推定は、例えば有限要素法を用いて、診断量(qoi)や目標における誤差がどのように発生し、蓄積するかを理解することができる。 誤差見積を個々の要素からのコントリビューションに分解することにより、QoIエラーを最小化する目的でメッシュを変更する適応法を定式化することができる。 しかし、標準誤差推定の定式化は、実際には未知の真の随伴解を含む。 このように、これを「強化された」近似(例えば、高次空間や洗練されたメッシュ上で)で近似することが一般的である。 一般に計算コストは大幅に増加し、これは(ゴール指向の)適応シミュレーションの競争力を損なうボトルネックとなる。 本稿では,高価な誤り推定ステップを適切に構成され,訓練されたニューラルネットワークに選択的に置き換えることで,"データ駆動型"目標指向のメッシュ適応手法を開発することを目的とする。 そうすることで、リッチな空間を作らなくても誤差推定器が得られる。 ここでは、メッシュ幾何学および基礎となる問題物理に関する様々なパラメータの局所値を入力とし、エラー推定器に対する対応する寄与を出力とする要素単位の構成を用いる。 本手法は,潮流まわりの流れに関連する適応メッシュテストケースにおいて,下流後流を介して相互作用し,農場全体の電力出力をqoiとする場合において,計算コストを低減し,同じ精度が得られることを実証する。 さらに,要素別アプローチはトレーニングコストがかなり低いことを示す。

Given a partial differential equation (PDE), goal-oriented error estimation allows us to understand how errors in a diagnostic quantity of interest (QoI), or goal, occur and accumulate in a numerical approximation, for example using the finite element method. By decomposing the error estimates into contributions from individual elements, it is possible to formulate adaptation methods, which modify the mesh with the objective of minimising the resulting QoI error. However, the standard error estimate formulation involves the true adjoint solution, which is unknown in practice. As such, it is common practice to approximate it with an 'enriched' approximation (e.g. in a higher order space or on a refined mesh). Doing so generally results in a significant increase in computational cost, which can be a bottleneck compromising the competitiveness of (goal-oriented) adaptive simulations. The central idea of this paper is to develop a "data-driven" goal-oriented mesh adaptation approach through the selective replacement of the expensive error estimation step with an appropriately configured and trained neural network. In doing so, the error estimator may be obtained without even constructing the enriched spaces. An element-by-element construction is employed here, whereby local values of various parameters related to the mesh geometry and underlying problem physics are taken as inputs, and the corresponding contribution to the error estimator is taken as output. We demonstrate that this approach is able to obtain the same accuracy with a reduced computational cost, for adaptive mesh test cases related to flow around tidal turbines, which interact via their downstream wakes, and where the overall power output of the farm is taken as the QoI. Moreover, we demonstrate that the element-by-element approach implies reasonably low training costs.
翻訳日:2022-07-25 13:52:53 公開日:2022-07-22
# 腕運動認識のための力覚センサ配置の最適化

Optimization of Forcemyography Sensor Placement for Arm Movement Recognition ( http://arxiv.org/abs/2207.10915v1 )

ライセンス: Link先を確認
Xiaohao Xu, Zihao Du, Huaxin Zhang, Ruichao Zhang, Zihan Hong, Qin Huang, Bin Han(参考訳) 人間の運動認識のための最適なウェアラブルデバイスを設計する方法は、信頼性と正確な人間と機械の協調に不可欠である。 従来は主にウェアラブルデバイスをヒューリスティックに製造していた。 そこで本研究では,センサの最適配置を自動決定するなど,ウェアラブルデバイスの製造を最適化するための最適化アルゴリズムを設計できるのか,という学術的な疑問を提起する。 特に本研究は,腕運動認識の応用において,fmgアームバンド用フォースミオグラフィー(fmg)センサの配置を最適化することに焦点を当てている。 まず、グラフ理論に基づいて、センサの信号と接続性を考慮してアームバンドをモデル化する。 次に、腕の動き認識のためのグラフベースアームバンドモデリングネットワーク(GAM-Net)を導入する。 その後、FMGアームバンドのセンサ配置最適化を定式化し、ゆるやかな局所探索による最適化アルゴリズムを提案する。 最適化アルゴリズムの有効性を検討するため,16個のセンサを用いたFMGアームバンドを用いた機械的メンテナンスタスクのデータセットを収集した。 実験の結果,アルゴリズムを最適化したセンサは4つに過ぎず,全センサと同等の認識精度を維持することができた。 最後に、生理的観点から最適化されたセンサ配置結果を検証する。 この研究は、人間の生体信号収集や運動認識といった下流のタスクを考慮したウェアラブルデバイスの自動製造に光を当てたい。 私たちのコードとデータセットはhttps://github.com/JerryX1110/IROS22-FMG-Sensor-Optimizationで公開されています。

How to design an optimal wearable device for human movement recognition is vital to reliable and accurate human-machine collaboration. Previous works mainly fabricate wearable devices heuristically. Instead, this paper raises an academic question: can we design an optimization algorithm to optimize the fabrication of wearable devices such as figuring out the best sensor arrangement automatically? Specifically, this work focuses on optimizing the placement of Forcemyography (FMG) sensors for FMG armbands in the application of arm movement recognition. Firstly, based on graph theory, the armband is modeled considering sensors' signals and connectivity. Then, a Graph-based Armband Modeling Network (GAM-Net) is introduced for arm movement recognition. Afterward, the sensor placement optimization for FMG armbands is formulated and an optimization algorithm with greedy local search is proposed. To study the effectiveness of our optimization algorithm, a dataset for mechanical maintenance tasks using FMG armbands with 16 sensors is collected. Our experiments show that using only 4 sensors optimized with our algorithm can help maintain a comparable recognition accuracy to using all sensors. Finally, the optimized sensor placement result is verified from a physiological view. This work would like to shed light on the automatic fabrication of wearable devices considering downstream tasks, such as human biological signal collection and movement recognition. Our code and dataset are available at https://github.com/JerryX1110/IROS22-FMG-Sensor-Optimization
翻訳日:2022-07-25 13:51:43 公開日:2022-07-22
# PLD-SLAM:動的シーンにおけるポイントとラインセグメントを用いたリアルタイムビジュアルSLAM

PLD-SLAM: A Real-Time Visual SLAM Using Points and Line Segments in Dynamic Scenes ( http://arxiv.org/abs/2207.10916v1 )

ライセンス: Link先を確認
BaoSheng Zhang(参考訳) 本稿では,視覚的同時ローカライゼーションとマッピング(SLAM)の実用化における問題点について考察する。 この技術の普及と適用により、SLAMシステムの実用性は、例えばシステムの安定性を保ち、低テクスチャ環境や動的環境における正確なポーズ推定を実現する方法や、実際のシーンにおけるシステムの普遍性とリアルタイム性能の向上など、新たなホットトピックとなっている。 本稿では,高ダイナミック環境における動的物体の影響を回避し,点特徴と線特徴を組み合わせたリアルタイムステレオ間接視覚SLAMシステム PLD-SLAMを提案する。 また,適度なキーフレーム選択と効率的なループクロージャ検出(lcd)を実現するための新しいグローバルグレー類似性(ggs)アルゴリズムを提案する。 GGSの恩恵を受け、PDD-SLAMは、巨大な特徴辞書モデルを事前訓練しロードすることなく、ほとんどの実シーンでリアルタイムに正確なポーズ推定を実現することができる。 提案システムの性能を検証するために,我々は,公開データセットkitti,euroc mav,屋内ステレオデータセットなどにおいて,既存のsota(state-of-the-art)手法と比較した。 実験の結果, PLD-SLAMはほとんどのシナリオで安定性と精度を確保しつつ, リアルタイム性能が向上していることがわかった。 さらに,GGS実験結果の分析により,キーフレーム選択やLCDの性能に優れた結果が得られた。

In this paper, we consider the problems in the practical application of visual simultaneous localization and mapping (SLAM). With the popularization and application of the technology in wide scope, the practicability of SLAM system has become a new hot topic after the accuracy and robustness, e.g., how to keep the stability of the system and achieve accurate pose estimation in the low-texture and dynamic environment, and how to improve the universality and real-time performance of the system in the real scenes, etc. This paper proposes a real-time stereo indirect visual SLAM system, PLD-SLAM, which combines point and line features, and avoid the impact of dynamic objects in highly dynamic environments. We also present a novel global gray similarity (GGS) algorithm to achieve reasonable keyframe selection and efficient loop closure detection (LCD). Benefiting from the GGS, PLD-SLAM can realize real-time accurate pose estimation in most real scenes without pre-training and loading a huge feature dictionary model. To verify the performance of the proposed system, we compare it with existing state-of-the-art (SOTA) methods on the public datasets KITTI, EuRoC MAV, and the indoor stereo datasets provided by us, etc. The experiments show that the PLD-SLAM has better real-time performance while ensuring stability and accuracy in most scenarios. In addition, through the analysis of the experimental results of the GGS, we can find it has excellent performance in the keyframe selection and LCD.
翻訳日:2022-07-25 13:51:22 公開日:2022-07-22
# 不完全条件下でのコヒーレント統合フォトニックニューラルネットワークの特性評価

Characterizing Coherent Integrated Photonic Neural Networks under Imperfections ( http://arxiv.org/abs/2207.10835v1 )

ライセンス: Link先を確認
Sanmitra Banerjee, Mahdi Nikdast, Krishnendu Chakrabarty(参考訳) 統合フォトニックニューラルネットワーク(IPNN)は、計算速度とエネルギー効率を大幅に向上させるため、従来の電子AIアクセラレーターの後継として期待されている。 特に、コヒーレントIPNNは、エネルギー効率の良い行列ベクトル乗算を行うために、一元変換にマッハ・ツェンダー干渉計(MZI)のアレイを使用する。 しかし、IPNNの基盤となるMZIデバイスは、光リソグラフィ変動や熱クロストークに起因する不確実性の影響を受けやすく、非均一なMZI挿入損失と調整相角での低精度符号化による量子化誤差による不整合を経験することができる。 本稿では、ボトムアップアプローチを用いて、IPNNにおける不確実性と不完全性(以下、不完全性と呼ぶ)の影響を、初めて体系的に特徴づける。 IPNNの精度への影響は、影響を受けるコンポーネントの調整されたパラメータ(位相角など)、物理的位置、不完全性の性質と分布によって大きく異なることが示される。 信頼性向上のために,不完全性の下で,分類精度の破壊的劣化につながる重要なipnnビルディングブロックを同定する。 本研究は, 複数回の同時不完全性の下では, 少ない範囲で不完全性パラメータが制限された場合でもIPNN推論精度が最大46%低下することを示す。 また,IPNNの入力層の横の線形層におけるMZIに影響を及ぼす欠陥に,推論精度が敏感であることを示す。

Integrated photonic neural networks (IPNNs) are emerging as promising successors to conventional electronic AI accelerators as they offer substantial improvements in computing speed and energy efficiency. In particular, coherent IPNNs use arrays of Mach-Zehnder interferometers (MZIs) for unitary transformations to perform energy-efficient matrix-vector multiplication. However, the underlying MZI devices in IPNNs are susceptible to uncertainties stemming from optical lithographic variations and thermal crosstalk and can experience imprecisions due to non-uniform MZI insertion loss and quantization errors due to low-precision encoding in the tuned phase angles. In this paper, we, for the first time, systematically characterize the impact of such uncertainties and imprecisions (together referred to as imperfections) in IPNNs using a bottom-up approach. We show that their impact on IPNN accuracy can vary widely based on the tuned parameters (e.g., phase angles) of the affected components, their physical location, and the nature and distribution of the imperfections. To improve reliability measures, we identify critical IPNN building blocks that, under imperfections, can lead to catastrophic degradation in the classification accuracy. We show that under multiple simultaneous imperfections, the IPNN inferencing accuracy can degrade by up to 46%, even when the imperfection parameters are restricted within a small range. Our results also indicate that the inferencing accuracy is sensitive to imperfections affecting the MZIs in the linear layers next to the input layer of the IPNN.
翻訳日:2022-07-25 13:48:55 公開日:2022-07-22
# 希少データからの動的システムの安定化のためのコンテキストアウェアコントローラ推論

Context-aware controller inference for stabilizing dynamical systems from scarce data ( http://arxiv.org/abs/2207.11049v1 )

ライセンス: Link先を確認
Steffen W. R. Werner, Benjamin Peherstorfer(参考訳) 本稿では,不足データから高次元力学系を安定化するためのデータ駆動制御手法を提案する。 提案するコンテクストアウェアコントローラ推論手法は,システム安定化のための不安定なダイナミクスに対してのみ,コントローラが局所的に動作する必要があるという観測に基づく。 つまり、不安定なダイナミクスだけを学ぶだけで十分であり、それは通常、全てのシステムダイナミクスの高次元の状態空間よりもずっと低い次元空間に制限されており、そのため、それらを特定するのに十分なデータサンプルは少ない。 数値実験により、文脈対応コントローラ推論は従来のデータ駆動制御技術や強化学習のバリエーションよりも桁違いに少ないデータサンプルから安定化コントローラを学習することを示した。 さらに, コンテクスト・アウェア・コントローラ推論の低データ要件は, 複雑な物理学におけるデータ・スカルス工学問題において特に有益であり, システムダイナミクスの学習は, データとトレーニングコストの面では, しばしば難解であることを示した。

This work introduces a data-driven control approach for stabilizing high-dimensional dynamical systems from scarce data. The proposed context-aware controller inference approach is based on the observation that controllers need to act locally only on the unstable dynamics to stabilize systems. This means it is sufficient to learn the unstable dynamics alone, which are typically confined to much lower dimensional spaces than the high-dimensional state spaces of all system dynamics and thus few data samples are sufficient to identify them. Numerical experiments demonstrate that context-aware controller inference learns stabilizing controllers from orders of magnitude fewer data samples than traditional data-driven control techniques and variants of reinforcement learning. The experiments further show that the low data requirements of context-aware controller inference are especially beneficial in data-scarce engineering problems with complex physics, for which learning complete system dynamics is often intractable in terms of data and training costs.
翻訳日:2022-07-25 13:48:29 公開日:2022-07-22
# 高速多車両自律走行のための動作計画と制御

Motion Planning and Control for Multi Vehicle Autonomous Racing at High Speeds ( http://arxiv.org/abs/2207.11136v1 )

ライセンス: Link先を確認
Ayoub Raji, Alexander Liniger, Andrea Giove, Alessandro Toschi, Nicola Musiu, Daniele Morra, Micaela Verucchi, Danilo Caporale, Marko Bertogna(参考訳) 本稿では,自律走行のための多層移動計画と制御アーキテクチャを提案し,静的障害物を避け,アクティブオーバーテイクを行い,75ドル/秒以上の速度に達する。 使用済みのオフライングローバル軌跡生成とオンラインモデル予測コントローラは、タイヤとカムバー効果がベーシックなPacejka Magic Formulaの拡張バージョンで表現される車両の最適化と動的モデルに基づいている。 提案したシングルトラックモデルは,実実験データがない場合に,車両の動特性を適切にシミュレーションできるマルチボディモータースポーツライブラリを用いて同定し,検証する。 コントローラの基本正規化項と制約は、許容される速度と経路追跡を保証しながら入力の変化率を減少させるために調整される。 モーションプランニング戦略は、カルマンフィルタが生成する相手の予測を考慮したFren\'et-Frameベースのプランナーで構成される。 プランナーは、3秒の地平線で追跡される衝突のない経路と速度プロファイルを選択し、追従や乗っ取りといった異なる目標を達成する。 提案手法はダララのAV-21レースカーに適用され、楕円形レーストラックで最大25$m/s^{2}$まで加速試験された。

This paper presents a multi-layer motion planning and control architecture for autonomous racing, capable of avoiding static obstacles, performing active overtakes, and reaching velocities above 75 $m/s$. The used offline global trajectory generation and the online model predictive controller are highly based on optimization and dynamic models of the vehicle, where the tires and camber effects are represented in an extended version of the basic Pacejka Magic Formula. The proposed single-track model is identified and validated using multi-body motorsport libraries which allow simulating the vehicle dynamics properly, especially useful when real experimental data are missing. The fundamental regularization terms and constraints of the controller are tuned to reduce the rate of change of the inputs while assuring an acceptable velocity and path tracking. The motion planning strategy consists of a Fren\'et-Frame-based planner which considers a forecast of the opponent produced by a Kalman filter. The planner chooses the collision-free path and velocity profile to be tracked on a 3 seconds horizon to realize different goals such as following and overtaking. The proposed solution has been applied on a Dallara AV-21 racecar and tested at oval race tracks achieving lateral accelerations up to 25 $m/s^{2}$.
翻訳日:2022-07-25 13:45:32 公開日:2022-07-22
# 入射エッジを有する変圧器による粒子シミュレーション

Transformer with Implicit Edges for Particle-based Physics Simulation ( http://arxiv.org/abs/2207.10860v1 )

ライセンス: Link先を確認
Yidi Shao, Chen Change Loy, Bo Dai(参考訳) 粒子系システムは、複雑な力学で物理系をシミュレートする柔軟で統一的な方法を提供する。 既存のパーティクルベースシステムのデータ駆動シミュレータの多くは、グラフノードとグラフエッジによって自然に表現できるため、グラフニューラルネットワーク(GNN)をネットワークバックボーンとして採用している。 しかしながら、粒子系は通常数十万の粒子を含むが、グラフエッジとしての粒子相互作用の明示的なモデリングは必然的に、粒子相互作用の増加による計算オーバーヘッドを著しく高める。 そこで,本稿では,粒子間相互作用の豊富な意味をエッジフリーで捉えるトランストランス法を提案する。 TIEの中核となる考え方は、ペアワイズ粒子相互作用を含む計算を粒子ごとのアップデートに分散させることである。 これは、GNNのグラフエッジの更新公式に似た自己アテンションモジュールを調整することで実現される。 TIEの一般化能力を向上させるため、学習可能な物質特異的抽象粒子を用いてTIEを改良し、局所的な粒子的意味論からグローバルな物質的意味論を解き放つ。 様々な複雑さと素材の多様な領域におけるモデルを評価する。 既存のGNNベースの手法と比較して、ベルやホイッスルを使わずに、TIEはこれらの領域で優れた性能と一般化を実現している。 コードとモデルはhttps://github.com/ftbabi/tie_eccv2022.gitで入手できる。

Particle-based systems provide a flexible and unified way to simulate physics systems with complex dynamics. Most existing data-driven simulators for particle-based systems adopt graph neural networks (GNNs) as their network backbones, as particles and their interactions can be naturally represented by graph nodes and graph edges. However, while particle-based systems usually contain hundreds even thousands of particles, the explicit modeling of particle interactions as graph edges inevitably leads to a significant computational overhead, due to the increased number of particle interactions. Consequently, in this paper we propose a novel Transformer-based method, dubbed as Transformer with Implicit Edges (TIE), to capture the rich semantics of particle interactions in an edge-free manner. The core idea of TIE is to decentralize the computation involving pair-wise particle interactions into per-particle updates. This is achieved by adjusting the self-attention module to resemble the update formula of graph edges in GNN. To improve the generalization ability of TIE, we further amend TIE with learnable material-specific abstract particles to disentangle global material-wise semantics from local particle-wise semantics. We evaluate our model on diverse domains of varying complexity and materials. Compared with existing GNN-based methods, without bells and whistles, TIE achieves superior performance and generalization across all these domains. Codes and models are available at https://github.com/ftbabi/TIE_ECCV2022.git.
翻訳日:2022-07-25 13:43:21 公開日:2022-07-22
# グラフ機械学習におけるプライバシと透明性:統一的な視点

Privacy and Transparency in Graph Machine Learning: A Unified Perspective ( http://arxiv.org/abs/2207.10896v1 )

ライセンス: Link先を確認
Megha Khosla(参考訳) グラフ機械学習(GraphML)は、古典的な機械学習を不規則なグラフドメインに一般化することで、最近のルネッサンスを享受し、複数のドメインにおけるモデルのファジィリングとそれらの応用につながった。 信頼できるAIシステムのための政府機関による機密性の高いドメインや規制の適用性の増加に伴い、研究者たちはグラフ学習の透明性とプライバシーの問題の調査を開始した。 しかし、これらの話題は主に独立して研究されている。 本稿では、GraphMLにおけるプライバシーと透明性の相互作用に関する統一的な視点を提供する。

Graph Machine Learning (GraphML), whereby classical machine learning is generalized to irregular graph domains, has enjoyed a recent renaissance, leading to a dizzying array of models and their applications in several domains. With its growing applicability to sensitive domains and regulations by government agencies for trustworthy AI systems, researchers have started looking into the issues of transparency and privacy of graph learning. However, these topics have been mainly investigated independently. In this position paper, we provide a unified perspective on the interplay of privacy and transparency in GraphML.
翻訳日:2022-07-25 13:42:55 公開日:2022-07-22
# 効率的・スケーラブルなディープラーニングのための層分割とマージ

Layer-Wise Partitioning and Merging for Efficient and Scalable Deep Learning ( http://arxiv.org/abs/2207.11019v1 )

ライセンス: Link先を確認
Samson B. Akintoye, Liangxiu Han, Huw Lloyd, Xin Zhang, Darren Dancey, Haoming Chen, and Daoqiang Zhang(参考訳) ディープニューラルネットワーク(dnn)モデルは、通常、ある層から別の層へと順次訓練され、前方、後方、ロックの問題を更新し、トレーニング時間に関して性能が低下する。 これらの問題を緩和するための既存の並列戦略は、準最適ランタイムのパフォーマンスを提供する。 本研究では,新しいレイヤ分割とマージ,前方および後方パス並列フレームワークを提案し,トレーニング性能の向上を実現した。 提案された作品の新規性は 1) トレーニングプロセス中に既存の戦略のメモリコストを伴わずにデバイス間の通信オーバーヘッドを最小限に抑えることができる層分割統合モデル 2) 更新ロック問題に対処するためのフォワードパスと後方パスの並列化と最適化、総トレーニングコストの最小化。 実使用例における実験的評価により, 提案手法は訓練速度の点で最先端手法よりも優れており, 非並列手法の精度を損なうことなく, ほぼ線形速度向上を達成していることが示された。

Deep Neural Network (DNN) models are usually trained sequentially from one layer to another, which causes forward, backward and update locking's problems, leading to poor performance in terms of training time. The existing parallel strategies to mitigate these problems provide suboptimal runtime performance. In this work, we have proposed a novel layer-wise partitioning and merging, forward and backward pass parallel framework to provide better training performance. The novelty of the proposed work consists of 1) a layer-wise partition and merging model which can minimise communication overhead between devices without the memory cost of existing strategies during the training process; 2) a forward pass and backward pass parallelisation and optimisation to address the update locking problem and minimise the total training cost. The experimental evaluation on real use cases shows that the proposed method outperforms the state-of-the-art approaches in terms of training speed; and achieves almost linear speedup without compromising the accuracy performance of the non-parallel approach.
翻訳日:2022-07-25 13:42:44 公開日:2022-07-22
# アクション・スペース強化のハイブリッド学習 : 連続的, 離散的: 最適実行のための学習

Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement Learning For Optimal Execution ( http://arxiv.org/abs/2207.11152v1 )

ライセンス: Link先を確認
Feiyang Pan, Tongzhe Zhang, Ling Luo, Jia He, Shuoling Liu(参考訳) 最適実行はアルゴリズム取引におけるコスト削減のための逐次的意思決定問題である。 研究によると、強化学習(RL)は順序分割のサイズを決定するのに役立つ。 しかし、問題は未解決のままである: 適切なリミット価格にどのようにリミットオーダーを置くか? 重要な課題は、アクション空間の「連続-離散双対性」にある。 一方,価格変動率を用いた連続的な行動空間が一般化に好まれる。 一方、トレーダは最終的に、異なる特性(例えば、流動性と価格範囲)を持つ全ての在庫の専門化を必要とするダックサイズの存在により、個別にリミット価格を選択する必要がある。 そのため、一般化のための連続制御と特殊化のための離散制御が必要です。 そこで本研究では,両者の利点を両立させるハイブリッドRL法を提案する。 まず、アクションサブセットをスコープするために継続的制御エージェントを使用し、次に特定の制限価格を選択するためにきめ細かいエージェントをデプロイします。 大規模な実験により,本手法は既存のRLアルゴリズムよりも標本効率が高く,訓練の安定性が向上し,従来の学習に基づく命令実行法よりも優れていた。

Optimal execution is a sequential decision-making problem for cost-saving in algorithmic trading. Studies have found that reinforcement learning (RL) can help decide the order-splitting sizes. However, a problem remains unsolved: how to place limit orders at appropriate limit prices? The key challenge lies in the "continuous-discrete duality" of the action space. On the one hand, the continuous action space using percentage changes in prices is preferred for generalization. On the other hand, the trader eventually needs to choose limit prices discretely due to the existence of the tick size, which requires specialization for every single stock with different characteristics (e.g., the liquidity and the price range). So we need continuous control for generalization and discrete control for specialization. To this end, we propose a hybrid RL method to combine the advantages of both of them. We first use a continuous control agent to scope an action subset, then deploy a fine-grained agent to choose a specific limit price. Extensive experiments show that our method has higher sample efficiency and better training stability than existing RL algorithms and significantly outperforms previous learning-based methods for order execution.
翻訳日:2022-07-25 13:42:26 公開日:2022-07-22
# 地図変形を伴う高密度RGB-D-慣性SLAM

Dense RGB-D-Inertial SLAM with Map Deformations ( http://arxiv.org/abs/2207.10940v1 )

ライセンス: Link先を確認
Tristan Laidlow, Michael Bloesch, Wenbin Li, Stefan Leutenegger(参考訳) 濃密な視覚的SLAM法は環境の高密度な再構成を推定できるが、特に最適化が不十分な場合には、追跡ステップの堅牢性の欠如に悩まされる。 疎視SLAMシステムは、密結合核融合における慣性測定を含めることで、高い精度と堅牢性を達成した。 この性能に着想を得て, 密結合型RGB-D-慣性SLAMシステムを提案する。 当社のシステムは,GPU上で動作するリアルタイム機能を備えている。 カメラのポーズ、速度、IMUバイアス、重力方向を共同で最適化し、一貫した完全に密集したサーフベースで環境を再現する。 合成と実世界の両方のデータセットに関する一連の実験を通して、我々の密集した視覚-慣性SLAMシステムは、関連するRGB-DのみのSLAMシステムよりも高速な動きや低テクスチャ、低幾何学的変動に対してより堅牢であることを示す。

While dense visual SLAM methods are capable of estimating dense reconstructions of the environment, they suffer from a lack of robustness in their tracking step, especially when the optimisation is poorly initialised. Sparse visual SLAM systems have attained high levels of accuracy and robustness through the inclusion of inertial measurements in a tightly-coupled fusion. Inspired by this performance, we propose the first tightly-coupled dense RGB-D-inertial SLAM system. Our system has real-time capability while running on a GPU. It jointly optimises for the camera pose, velocity, IMU biases and gravity direction while building up a globally consistent, fully dense surfel-based 3D reconstruction of the environment. Through a series of experiments on both synthetic and real world datasets, we show that our dense visual-inertial SLAM system is more robust to fast motions and periods of low texture and low geometric variation than a related RGB-D-only SLAM system.
翻訳日:2022-07-25 13:39:43 公開日:2022-07-22
# 資源効率の良い深部特徴抽出による高速肺超音波検査

Rapid Lung Ultrasound COVID-19 Severity Scoring with Resource-Efficient Deep Feature Extraction ( http://arxiv.org/abs/2207.10998v1 )

ライセンス: Link先を確認
Pierre Raillard, Lorenzo Cristoni, Andrew Walden, Roberto Lazzari, Thomas Pulimood, Louis Grandjean, Claudia AM Gandini Wheeler-Kingshott, Yipeng Hu, Zachary MC Baum(参考訳) 人工知能による肺超音波画像解析は、新型コロナウイルスのパンデミック全体での迅速な診断支援の有効な手法として実証されている。 しかしながら、このようなテクニックは、インテリジェントなディープラーニングイメージ分析モデルを開発するために、数日から数週間のトレーニングプロセスとハイパーパラメータチューニングを必要とする可能性がある。 本研究は, 最短トレーニング時間で重症度を評価するための深部特徴抽出器として, 既訓練モデルの活用に焦点を当てた。 本稿では,計算能力への依存を減らすため,単純でコンパクトなニューラルネットワークに先立って既存の手法を事前訓練した初期化手法を提案する。 この計算能力の削減は、パンデミックの初期段階など、時間制限や資源制約のある状況において極めて重要である。 2万以上の画像を含む49例のデータセットにおいて,既存の手法を特徴抽出器として使用することで,訓練時間のみを要しながら,covid-19関連肺炎重症度を効果的に分類できることを実証した。 本手法は,4段階の重度スコア尺度で0.93以上の精度を達成でき,患者ごとのスコアとグローバルスコアを専門家の注釈付き地上真実と比較できる。 これらの結果から, 治療経過のモニタリング, 患者の階層化, 治療管理, その他の呼吸器疾患に対する迅速な展開, 使用の可能性が示唆された。

Artificial intelligence-based analysis of lung ultrasound imaging has been demonstrated as an effective technique for rapid diagnostic decision support throughout the COVID-19 pandemic. However, such techniques can require days- or weeks-long training processes and hyper-parameter tuning to develop intelligent deep learning image analysis models. This work focuses on leveraging 'off-the-shelf' pre-trained models as deep feature extractors for scoring disease severity with minimal training time. We propose using pre-trained initializations of existing methods ahead of simple and compact neural networks to reduce reliance on computational capacity. This reduction of computational capacity is of critical importance in time-limited or resource-constrained circumstances, such as the early stages of a pandemic. On a dataset of 49 patients, comprising over 20,000 images, we demonstrate that the use of existing methods as feature extractors results in the effective classification of COVID-19-related pneumonia severity while requiring only minutes of training time. Our methods can achieve an accuracy of over 0.93 on a 4-level severity score scale and provides comparable per-patient region and global scores compared to expert annotated ground truths. These results demonstrate the capability for rapid deployment and use of such minimally-adapted methods for progress monitoring, patient stratification and management in clinical practice for COVID-19 patients, and potentially in other respiratory diseases.
翻訳日:2022-07-25 13:39:26 公開日:2022-07-22
# gessure -- 動的ジェスチャー認識guiアプリケーションを可能にする堅牢な顔認証

GesSure -- A Robust Face-Authentication enabled Dynamic Gesture Recognition GUI Application ( http://arxiv.org/abs/2207.11033v1 )

ライセンス: Link先を確認
Ankit Jha, Ishita Pratham G. Shenwai, Ayush Batra, Siddharth Kotian, Piyush Modi(参考訳) マウスやキーボードのような物理的インタラクティブなデバイスを使用することで、人間と機械の相互作用を阻害し、パンデミック時の表面接触の確率を高める。 既存のジェスチャー認識システムはユーザ認証を持っておらず、信頼できない。 現在のジェスチャー認識技術における静的ジェスチャーは、長い適応期間を導入し、ユーザの互換性を低下させる。 当社の技術は、ユーザ認識と安全性に重点を置いている。 タスク操作には有意義で関連するジェスチャーを使用し、結果としてユーザエクスペリエンスが向上します。 本稿では,グラフィカルなユーザインタフェースを活用し,ユーザ認識と認証によるセキュリティを重視した,堅牢で顔認証可能なジェスチャー認識システムを設計することを目的とする。 ユーザ認証にはmtcnnとfacenetを使用し,ジェスチャー認識にはlstm-cnnアーキテクチャを用い,ジェスチャの5つのクラスで95%の精度を実現している。 われわれの研究で開発されたプロトタイプは、保存、印刷、ビデオプレーヤーの操作と終了の制御、そしてスリープ、シャットダウン、アンロックといったコンテキストフリーなオペレーティングシステムタスクを直感的に実行した。 私たちのアプリケーションとデータセットはオープンソースとして利用可能です。

Using physical interactive devices like mouse and keyboards hinders naturalistic human-machine interaction and increases the probability of surface contact during a pandemic. Existing gesture-recognition systems do not possess user authentication, making them unreliable. Static gestures in current gesture-recognition technology introduce long adaptation periods and reduce user compatibility. Our technology places a strong emphasis on user recognition and safety. We use meaningful and relevant gestures for task operation, resulting in a better user experience. This paper aims to design a robust, face-verification-enabled gesture recognition system that utilizes a graphical user interface and primarily focuses on security through user recognition and authorization. The face model uses MTCNN and FaceNet to verify the user, and our LSTM-CNN architecture for gesture recognition, achieving an accuracy of 95% with five classes of gestures. The prototype developed through our research has successfully executed context-dependent tasks like save, print, control video-player operations and exit, and context-free operating system tasks like sleep, shut-down, and unlock intuitively. Our application and dataset are available as open source.
翻訳日:2022-07-25 13:39:03 公開日:2022-07-22
# ハイパースペクトル画像復調のためのグラフ空間スペクトル全変動モデル

Graph Spatio-Spectral Total Variation Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2207.11050v1 )

ライセンス: Link先を確認
Shingo Takemoto, Kazuki Naganuma, and Shunsuke Ono(参考訳) 混合雑音除去などの様々な用途において,高スペクトル像(HSI)の有効正則化として,SSTVモデルが広く用いられている。 しかし, sstvは局所的な空間差を均一に計算するので, 複雑な空間構造を細かなエッジやテクスチャで保ちながら, ノイズの除去は困難である。 本稿では,雑音hsisからターゲットhsiの空間構造を明示的に反映するグラフを生成し,このグラフに基づいて設計した重み付き空間差分演算子を組み込んだ,新しいテレビ型正規化手法であるgraph-sstv(gsstv)を提案する。 さらに,gsstvを含む凸最適化問題として混合雑音除去問題を定式化し,本手法に基づく効率的なアルゴリズムを開発し,この問題を解決した。 最後に, 混合雑音除去実験により, 既存のhsi正規化モデルと比較してgsstvの有効性を示す。 ソースコードはhttps://www.mdi.c.で入手できる。 titech.ac.jp/publications/gsstv.

The spatio-spectral total variation (SSTV) model has been widely used as an effective regularization of hyperspectral images (HSI) for various applications such as mixed noise removal. However, since SSTV computes local spatial differences uniformly, it is difficult to remove noise while preserving complex spatial structures with fine edges and textures, especially in situations of high noise intensity. To solve this problem, we propose a new TV-type regularization called Graph-SSTV (GSSTV), which generates a graph explicitly reflecting the spatial structure of the target HSI from noisy HSIs and incorporates a weighted spatial difference operator designed based on this graph. Furthermore, we formulate the mixed noise removal problem as a convex optimization problem involving GSSTV and develop an efficient algorithm based on the primal-dual splitting method to solve this problem. Finally, we demonstrate the effectiveness of GSSTV compared with existing HSI regularization models through experiments on mixed noise removal. The source code will be available at https://www.mdi.c.titech.ac.jp/publications/gsstv.
翻訳日:2022-07-25 13:38:43 公開日:2022-07-22
# 自己教師付きディープニューラルネットワークを用いたマルチタイムスペックル低減

Multi-temporal speckle reduction with self-supervised deep neural networks ( http://arxiv.org/abs/2207.11095v1 )

ライセンス: Link先を確認
In\`es Meraoumia, Emanuele Dalsasso, Lo\"ic Denis, R\'emy Abergel, and Florence Tupin(参考訳) スペックルフィルタリングは一般的に合成開口レーダ(sar)画像の解析の前提条件である。 シングルイメージのデスペックリングの領域では、非常に進歩した。 最新の技術は、SAR画像特有の様々な構造やテクスチャを復元するために、ディープニューラルネットワークに依存している。 SAR画像の時系列化により、同一領域における異なるスペックル実現を組み合わせることで、スペックルフィルタリングを改善することができる。 ディープニューラルネットワークの教師付きトレーニングには、接地したスペックルのないイメージが必要である。 このような画像は、空間的あるいは時間的統合によって、平均化によってのみ間接的に取得でき、不完全である。 マルチ時間スペックルフィルタにより高画質の復元が可能となる可能性を考えると、地中画像の限界を回避する必要がある。 本研究では,複合sar画像に対する自己教師あり学習戦略であるmerlinを,複数時空間フィルタリングに拡張した。 これには、複素振幅の実部と虚部の間の空間的および時間的次元における統計的依存性の源をモデル化する必要がある。 シミュレーションスペックルを用いたデータセットの定量的解析は、追加のSAR画像を含む場合のスペックル低減の明確な改善を示している。 この手法はterrasar-x画像のスタックに適用され、競合するマルチテンポラルスペックルフィルタリング手法よりも優れていることを示す。 トレーニングされたモデルのコードは、LTCI Labの imageS チームの $\href{https://gitlab.telecom-paris.fr/ring/multi-temporal-merlin/}{\text{GitLab}}$で無償公開されている。

Speckle filtering is generally a prerequisite to the analysis of synthetic aperture radar (SAR) images. Tremendous progress has been achieved in the domain of single-image despeckling. Latest techniques rely on deep neural networks to restore the various structures and textures peculiar to SAR images. The availability of time series of SAR images offers the possibility of improving speckle filtering by combining different speckle realizations over the same area. The supervised training of deep neural networks requires ground-truth speckle-free images. Such images can only be obtained indirectly through some form of averaging, by spatial or temporal integration, and are imperfect. Given the potential of very high quality restoration reachable by multi-temporal speckle filtering, the limitations of ground-truth images need to be circumvented. We extend a recent self-supervised training strategy for single-look complex SAR images, called MERLIN, to the case of multi-temporal filtering. This requires modeling the sources of statistical dependencies in the spatial and temporal dimensions as well as between the real and imaginary components of the complex amplitudes. Quantitative analysis on datasets with simulated speckle indicates a clear improvement of speckle reduction when additional SAR images are included. Our method is then applied to stacks of TerraSAR-X images and shown to outperform competing multi-temporal speckle filtering approaches. The code of the trained models is made freely available on the $\href{https://gitlab.telecom-paris.fr/ring/multi-temporal-merlin/}{\text{GitLab}}$ of the IMAGES team of the LTCI Lab, T\'el\'ecom Paris Institut Polytechnique de Paris.
翻訳日:2022-07-25 13:38:25 公開日:2022-07-22
# 網膜血管の生理的シミュレーションによるoctアンギオグラフのアノテーションフリーセグメンテーション

Physiology-based simulation of the retinal vasculature enables annotation-free segmentation of OCT angiographs ( http://arxiv.org/abs/2207.11102v1 )

ライセンス: Link先を確認
Martin J. Menten, Johannes C. Paetzold, Alina Dima, Bjoern H. Menze, Benjamin Knier, Daniel Rueckert(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、眼の循環系を非侵襲的に画像化することができる。 網膜血管を確実に特徴付けるためには、これらの画像から定量的指標を自動的に抽出する必要がある。 このようなバイオマーカーの計算には、血管の正確なセグメンテーションが必要である。 しかし, セグメンテーションの深層学習に基づく手法は, ボクセルレベルのアノテーションを用いた教師付きトレーニングに大きく依存している。 本研究では,大量のリアルなOCTA画像と内在的に一致する基底真理ラベルを合成するパイプラインを提案し,トレーニングデータの手動アノテーションの必要性を回避した。 提案手法は2つの新しい構成要素に基づいている。 1)種々の網膜血管叢をモデル化する生理的シミュレーション 2) 典型的なアーティファクトを含むOCTA画像取得プロセスをエミュレートする物理ベースの画像拡張スイート。 広範囲なベンチマーク実験において, 網膜血管分割アルゴリズムの訓練に成功し, 合成データの有用性を実証した。 本稿では,OCTA画像の定量化を推し進めるための多目的ツールであると考えられる。

Optical coherence tomography angiography (OCTA) can non-invasively image the eye's circulatory system. In order to reliably characterize the retinal vasculature, there is a need to automatically extract quantitative metrics from these images. The calculation of such biomarkers requires a precise semantic segmentation of the blood vessels. However, deep-learning-based methods for segmentation mostly rely on supervised training with voxel-level annotations, which are costly to obtain. In this work, we present a pipeline to synthesize large amounts of realistic OCTA images with intrinsically matching ground truth labels; thereby obviating the need for manual annotation of training data. Our proposed method is based on two novel components: 1) a physiology-based simulation that models the various retinal vascular plexuses and 2) a suite of physics-based image augmentations that emulate the OCTA image acquisition process including typical artifacts. In extensive benchmarking experiments, we demonstrate the utility of our synthetic data by successfully training retinal vessel segmentation algorithms. Encouraged by our method's competitive quantitative and superior qualitative performance, we believe that it constitutes a versatile tool to advance the quantitative analysis of OCTA images.
翻訳日:2022-07-25 13:37:57 公開日:2022-07-22
# Sentinel-1 GRD画像の多重時間スペックル削減のための高速戦略

Fast strategies for multi-temporal speckle reduction of Sentinel-1 GRD images ( http://arxiv.org/abs/2207.11111v1 )

ライセンス: Link先を確認
In\`es Meraoumia, Emanuele Dalsasso, Lo\"ic Denis, Florence Tupin(参考訳) SAR(Synthetic Aperture Radar)画像におけるスペックルの削減と物理パラメータの変動の制限は、多くの場合、そのようなデータの可能性を完全に活用するための重要なステップである。 現在、ディープラーニングアプローチは、単一の画像のSAR復元において、アート結果の状態を生んでいる。 それでも、巨大なマルチテンポラリスタックがしばしば利用可能となり、画像の品質をさらに向上するために効率的に利用することができる。 本稿では,SAR2SARという単一画像の切り離しアルゴリズムを用いた2つの高速戦略をマルチテンポラリ・フレームワークで検討する。 1つはQueganフィルタに基づいており、SAR2SARによる局所反射率事前推定を置き換える。 2つ目は、SAR2SARを使用して、時系列の時間的算術平均(super-image)という形で多重時間情報を符号化する比画像からスペックルを抑圧する。 Sentinel-1 GRDデータによる実験結果から,これらの2つのマルチ時間戦略は,計算コストを抑えながらフィルタリング結果を改善することを示した。

Reducing speckle and limiting the variations of the physical parameters in Synthetic Aperture Radar (SAR) images is often a key-step to fully exploit the potential of such data. Nowadays, deep learning approaches produce state of the art results in single-image SAR restoration. Nevertheless, huge multi-temporal stacks are now often available and could be efficiently exploited to further improve image quality. This paper explores two fast strategies employing a single-image despeckling algorithm, namely SAR2SAR, in a multi-temporal framework. The first one is based on Quegan filter and replaces the local reflectivity pre-estimation by SAR2SAR. The second one uses SAR2SAR to suppress speckle from a ratio image encoding the multi-temporal information under the form of a "super-image", i.e. the temporal arithmetic mean of a time series. Experimental results on Sentinel-1 GRD data show that these two multi-temporal strategies provide improved filtering results while adding a limited computational cost.
翻訳日:2022-07-25 13:37:39 公開日:2022-07-22
# Multiface: ニューラルフェイスレンダリングのためのデータセット

Multiface: A Dataset for Neural Face Rendering ( http://arxiv.org/abs/2207.11243v1 )

ライセンス: Link先を確認
Cheng-hsin Wuu, Ningyuan Zheng, Scott Ardisson, Rohan Bali, Danielle Belko, Eric Brockmeyer, Lucas Evans, Timothy Godisart, Hyowon Ha, Alexander Hypes, Taylor Koska, Steven Krenn, Stephen Lombardi, Xiaomin Luo, Kevyn McPhail, Laura Millerschoen, Michal Perdoch, Mark Pitts, Alexander Richard, Jason Saragih, Junko Saragih, Takaaki Shiratori, Tomas Simon, Matt Stewart, Autumn Trimble, Xinshuo Weng, David Whitewolf, Chenglei Wu, Shoou-I Yu, Yaser Sheikh(参考訳) 近年、人間の顔の写実的なアバターは長い道のりを歩んでいるが、この分野の研究は、一般公開された高品質なデータセットの欠如、密集したマルチビューカメラの撮影、被写体のリッチな表情によって制限されている。 本研究では,多視点・高精細な顔データセットであるmultifaceを,realial labs research for neural face renderingで13名から収集した。 顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。 データセットのリリースとともに、異なるモデルアーキテクチャが新しい視点と表現のモデルの補間能力に与える影響についてアブレーション研究を行う。 条件付きVAEモデルをベースラインとして,空間バイアス,テクスチャワープフィールド,残差接続を加えることで,新規なビュー合成の性能が向上することがわかった。 私たちのコードとデータは、https://github.com/facebookresearch/multifaceで利用可能です。

Photorealistic avatars of human faces have come a long way in recent years, yet research along this area is limited by a lack of publicly available, high-quality datasets covering both, dense multi-view camera captures, and rich facial expressions of the captured subjects. In this work, we present Multiface, a new multi-view, high-resolution human face dataset collected from 13 identities at Reality Labs Research for neural face rendering. We introduce Mugsy, a large scale multi-camera apparatus to capture high-resolution synchronized videos of a facial performance. The goal of Multiface is to close the gap in accessibility to high quality data in the academic community and to enable research in VR telepresence. Along with the release of the dataset, we conduct ablation studies on the influence of different model architectures toward the model's interpolation capacity of novel viewpoint and expressions. With a conditional VAE model serving as our baseline, we found that adding spatial bias, texture warp field, and residual connections improves performance on novel view synthesis. Our code and data is available at: https://github.com/facebookresearch/multiface
翻訳日:2022-07-25 13:37:21 公開日:2022-07-22
# WRHT:光インターコネクションシステムにおける分散DNNトレーニングのための効率的なオールリデューサ

WRHT: Efficient All-reduce for Distributed DNN Training in Optical Interconnect System ( http://arxiv.org/abs/2207.10982v1 )

ライセンス: Link先を確認
Fei Dai, Yawen Chen, Zhiyi Huang, Haibo Zhang, and Fangfang Zhang(参考訳) 通信効率はディープニューラルネットワーク(DNN)の分散トレーニングを加速する上で重要な役割を果たす。 All-reduceは分散DNNトレーニングにおいてモデルパラメータを減らすための重要な通信プリミティブである。 既存のall-reduceアルゴリズムのほとんどは、大規模dnnの分散トレーニングの通信要件を満たさない従来の電気インターコネクトシステム向けに設計されている。 電気インターコネクトの有望な選択肢の1つは光配線であり、高帯域幅、低伝送遅延、低電力コストを提供することができる。 我々は、WDM(Wavelength Division Multiplexing)を利用して分散データ並列DNNトレーニングの通信時間を短縮できる、光配線系における全リデュース操作を実現するWRHT(Wavelength Reused Hierarchical Tree)と呼ばれる効率的なスキームを提案する。 さらに、wrhtを用いた全reduceを実現するために、通信ステップの最小数と通信時間を導出する。 シミュレーションの結果、WRHTの通信時間はそれぞれ75.59%、49.25%、70.1%減少し、従来の3つのオールリデュースアルゴリズムは光配線系でシミュレートされた。 シミュレーションの結果、wrhtは、電気配線システムにおける既存の2つの全還元アルゴリズムと比較して、全還元動作の通信時間を86.69%と84.71%削減できることが示されている。

Communication efficiency plays an important role in accelerating the distributed training of Deep Neural Networks (DNN). All-reduce is the key communication primitive to reduce model parameters in distributed DNN training. Most existing all-reduce algorithms are designed for traditional electrical interconnect systems, which cannot meet the communication requirements for distributed training of large DNNs. One of the promising alternatives for electrical interconnect is optical interconnect, which can provide high bandwidth, low transmission delay, and low power cost. We propose an efficient scheme called WRHT (Wavelength Reused Hierarchical Tree) for implementing all-reduce operation in optical interconnect system, which can take advantage of WDM (Wavelength Division Multiplexing) to reduce the communication time of distributed data-parallel DNN training. We further derive the minimum number of communication steps and communication time to realize the all-reduce using WRHT. Simulation results show that the communication time of WRHT is reduced by 75.59%, 49.25%, and 70.1% respectively compared with three traditional all-reduce algorithms simulated in optical interconnect system. Simulation results also show that WRHT can reduce the communication time for all-reduce operation by 86.69% and 84.71% in comparison with two existing all-reduce algorithms in electrical interconnect system.
翻訳日:2022-07-25 13:36:47 公開日:2022-07-22
# 文脈に面した最適性:確率的文脈 MDP に対する規則的保証

Optimism in Face of a Context: Regret Guarantees for Stochastic Contextual MDP ( http://arxiv.org/abs/2207.11126v1 )

ライセンス: Link先を確認
Orin Levy and Yishay Mansour(参考訳) 我々は,最小到達可能性仮定の下での確率的文脈的MDPに対する最小化アルゴリズムを,オフライン最小二乗回帰オラクルへのアクセスを用いて提案する。 ダイナミクスが分かっている場所、ダイナミクスが未知だがコンテキストに依存しない場所、そしてダイナミクスが未知でコンテキスト依存である最も困難な設定の3つの設定を分析します。 後者について、アルゴリズムは$ \tilde{o}\left( \max\{h,{1}/{p_{min}}\}h|s|^{3/2}\sqrt{|a|t\log(\max\{|\mathcal{f}|,|\mathcal{p}|\}/\delta)} \right)$ regret bound, with probability $1-\delta$, where $\mathcal{p}$ and $\mathcal{f}$ is finite and realizable function class using the dynamics and rewards, $p_{min}$ is the minimum reachability parameter, $s$ is the set of actions, $a$ the horizon, $h$ the $t$ the episodes of episodes, $t$ the number of episodes を得る。 我々の知る限り、我々のアプローチは一般関数近似を用いた文脈的 MDP に適用された最初の楽観的なアプローチである(すなわち、線形であるような関数クラスに関する追加の知識がない)。 さらに、既知の力学の場合でさえ成り立つ期待された後悔に対して、$\Omega(\sqrt{T H |S| |A| \ln(|\mathcal{F}|/|S|)/\ln(|A|)})$の低い境界を示す。

We present regret minimization algorithms for stochastic contextual MDPs under minimum reachability assumption, using an access to an offline least square regression oracle. We analyze three different settings: where the dynamics is known, where the dynamics is unknown but independent of the context and the most challenging setting where the dynamics is unknown and context-dependent. For the latter, our algorithm obtains $ \tilde{O}\left( \max\{H,{1}/{p_{min}}\}H|S|^{3/2}\sqrt{|A|T\log(\max\{|\mathcal{F}|,|\mathcal{P}|\}/\delta)} \right)$ regret bound, with probability $1-\delta$, where $\mathcal{P}$ and $\mathcal{F}$ are finite and realizable function classes used to approximate the dynamics and rewards respectively, $p_{min}$ is the minimum reachability parameter, $S$ is the set of states, $A$ the set of actions, $H$ the horizon, and $T$ the number of episodes. To our knowledge, our approach is the first optimistic approach applied to contextual MDPs with general function approximation (i.e., without additional knowledge regarding the function class, such as it being linear and etc.). In addition, we present a lower bound of $\Omega(\sqrt{T H |S| |A| \ln(|\mathcal{F}|/|S|)/\ln(|A|)})$, on the expected regret which holds even in the case of known dynamics.
翻訳日:2022-07-25 13:34:13 公開日:2022-07-22
# 関連バックプロパゲーションによる動的グラフニューラルネットワークの解説

Explaining Dynamic Graph Neural Networks via Relevance Back-propagation ( http://arxiv.org/abs/2207.11175v1 )

ライセンス: Link先を確認
Jiaxuan Xie, Yezi Liu, Yanning Shen(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データの豊富な情報をキャプチャする上で、顕著な効果を示している。 しかし、GNNのブラックボックスの性質は、ユーザーがモデルの理解と信頼を妨げ、アプリケーションに困難をもたらす。 近年ではGNNの説明に関する研究が盛んになっているが、その多くは静的グラフに焦点を当てており、動的GNNの説明はほとんど探索されていない。 時間変化グラフ構造に特有の特徴があるため、動的GNNを説明するのは難しい。 動的グラフ上の静的グラフ用に設計された既存のモデルを直接使用することは、スナップショット間の一時的な依存関係を無視するため、実現不可能である。 本稿ではDGExplainerを提案し,動的GNNの信頼性について説明する。 DGExplainerは、動的GNNの出力活性化スコアを前層のニューロンの関連度に再分割し、入力ニューロンの関連スコアが取得されるまで反復する。 実世界のデータセット上で定量的かつ定性的な実験を行い、動的GNNにおけるリンク予測とノード回帰のための重要なノードを特定するためのフレームワークの有効性を実証する。

Graph Neural Networks (GNNs) have shown remarkable effectiveness in capturing abundant information in graph-structured data. However, the black-box nature of GNNs hinders users from understanding and trusting the models, thus leading to difficulties in their applications. While recent years witness the prosperity of the studies on explaining GNNs, most of them focus on static graphs, leaving the explanation of dynamic GNNs nearly unexplored. It is challenging to explain dynamic GNNs, due to their unique characteristic of time-varying graph structures. Directly using existing models designed for static graphs on dynamic graphs is not feasible because they ignore temporal dependencies among the snapshots. In this work, we propose DGExplainer to provide reliable explanation on dynamic GNNs. DGExplainer redistributes the output activation score of a dynamic GNN to the relevances of the neurons of its previous layer, which iterates until the relevance scores of the input neuron are obtained. We conduct quantitative and qualitative experiments on real-world datasets to demonstrate the effectiveness of the proposed framework for identifying important nodes for link prediction and node regression for dynamic GNNs.
翻訳日:2022-07-25 13:33:22 公開日:2022-07-22
# DNNの分散訓練におけるRoCE混雑抑制策の影響

Impact of RoCE Congestion Control Policies on Distributed Training of DNNs ( http://arxiv.org/abs/2207.10898v1 )

ライセンス: Link先を確認
Tarannum Khan, Saeed Rashidi, Srinivas Sridharan, Pallavi Shurpali, Aditya Akella, Tushar Krishna(参考訳) RDMA over Converged Ethernet (RoCE) は、従来のイーサネットベースのファブリックとの互換性のため、データセンターネットワークに大きな注目を集めている。 しかし、RDMAプロトコルは(ほぼ)損失のないネットワーク上でのみ効率が良く、RoCEネットワークにおける渋滞制御の重要な役割を強調している。 残念なことに、プライオリティフロー制御(PFC)に基づくネイティブなRoCE渋滞制御スキームは、不公平さ、ラインオブブロッキング、デッドロックといった多くの欠点に悩まされている。 そのため、近年、PFCの欠点を最小限に抑えるため、RoCEネットワークにさらなる渋滞制御を提供するスキームが提案されている。 しかし、これらのスキームは一般的なデータセンター環境に対して提案されている。 コモディティハードウェアを使用して構築され、汎用ワークロードを実行する一般的なデータセンタとは対照的に、ハイパフォーマンスな分散トレーニングプラットフォームは、ハイエンドアクセラレータとネットワークコンポーネントをデプロイし、通信のためのコレクティブ(all-reduce、all-to-all)通信ライブラリを使用してトレーニングワークロードのみを実行する。 さらに、これらのプラットフォームは通常プライベートネットワークを持ち、通信トラフィックを他のデータセンタトラフィックから分離する。 スケーラブルなトポロジアウェア集団アルゴリズムは本質的に、インキャストパターンを避け、トラフィックを最適にバランスさせるように設計されている。 これらの特徴は、従来提案されていた汎用データセンター環境の混雑制御方式を再検討することを必要とする。 本稿では,分散トレーニングプラットフォーム上での動作において,SOTA RoCEの混雑制御方式とPFCの比較を徹底的に分析する。 以上の結果から,従来提案されていたRoCEの混雑制御スキームは,トレーニングワークロードのエンドツーエンドのパフォーマンスにはほとんど影響を与えず,分散トレーニングプラットフォームやワークロードの特性に基づいた,最適化された低オーバヘッドの混雑制御スキームの設計の必要性が示唆された。

RDMA over Converged Ethernet (RoCE) has gained significant attraction for datacenter networks due to its compatibility with conventional Ethernet-based fabric. However, the RDMA protocol is efficient only on (nearly) lossless networks, emphasizing the vital role of congestion control on RoCE networks. Unfortunately, the native RoCE congestion control scheme, based on Priority Flow Control (PFC), suffers from many drawbacks such as unfairness, head-of-line-blocking, and deadlock. Therefore, in recent years many schemes have been proposed to provide additional congestion control for RoCE networks to minimize PFC drawbacks. However, these schemes are proposed for general datacenter environments. In contrast to the general datacenters that are built using commodity hardware and run general-purpose workloads, high-performance distributed training platforms deploy high-end accelerators and network components and exclusively run training workloads using collectives (All-Reduce, All-To-All) communication libraries for communication. Furthermore, these platforms usually have a private network, separating their communication traffic from the rest of the datacenter traffic. Scalable topology-aware collective algorithms are inherently designed to avoid incast patterns and balance traffic optimally. These distinct features necessitate revisiting previously proposed congestion control schemes for general-purpose datacenter environments. In this paper, we thoroughly analyze some of the SOTA RoCE congestion control schemes vs. PFC when running on distributed training platforms. Our results indicate that previously proposed RoCE congestion control schemes have little impact on the end-to-end performance of training workloads, motivating the necessity of designing an optimized, yet low-overhead, congestion control scheme based on the characteristics of distributed training platforms and workloads.
翻訳日:2022-07-25 13:32:55 公開日:2022-07-22
# 決定境界解析によるディープニューラルネットワークの効率的なテスト

Efficient Testing of Deep Neural Networks via Decision Boundary Analysis ( http://arxiv.org/abs/2207.10942v1 )

ライセンス: Link先を確認
Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Lei Ma, Mike Papadakis, Yves Le Traon(参考訳) ディープラーニングは、複数の産業アプリケーションドメインで競争力があるため、私たちの日常生活においてますます重要な役割を担います。 dl対応システムの中核として、深層ニューラルネットワークは注意深く収集され組織化されたトレーニングデータから知識を自動的に学習し、目に見えないデータのラベルを予測する能力を得る。 包括的なテストが必要となる従来のソフトウェアシステムと同様に、dnnはトレーニングされたモデルの品質が需要を満たすように慎重に評価する必要があります。 実際には、業界におけるDNNの品質を評価するためのデファクトスタンダードは、ラベル付きテストデータの集合上でのパフォーマンス(精度)をチェックすることである。 しかし、このようなラベル付きデータの準備は、データラベリングが労働集約的であること、特に新しいラベル付きデータが毎日やってくることなどによって、容易ではないことが多い。 近年の研究では、DNNのテスト選択は、ラベル付けに最小限の代表データを選択し、モデルを評価することでこの問題に対処する有望な方向であることが示されている。 しかし、人間の努力は必要であり、自動化はできない。 本稿では,従来のテストデータから得られる情報のみを用いて,新たなラベル付きデータに対してDNNの性能を推定する手法であるAriesを提案する。 この手法の背景にある重要な洞察は、決定境界と同じような距離を持つデータに対して、モデルが同様の予測精度を持つべきであるということです。 提案手法を13種類のデータ変換手法を用いて大規模に評価した。 その結果,Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていないことがわかった。 さらにariesは、128件中96件で最先端の選択ラベルベースの手法を上回っている。

Deep learning plays a more and more important role in our daily life due to its competitive performance in multiple industrial application domains. As the core of DL-enabled systems, deep neural networks automatically learn knowledge from carefully collected and organized training data to gain the ability to predict the label of unseen data. Similar to the traditional software systems that need to be comprehensively tested, DNNs also need to be carefully evaluated to make sure the quality of the trained model meets the demand. In practice, the de facto standard to assess the quality of DNNs in industry is to check their performance (accuracy) on a collected set of labeled test data. However, preparing such labeled data is often not easy partly because of the huge labeling effort, i.e., data labeling is labor-intensive, especially with the massive new incoming unlabeled data every day. Recent studies show that test selection for DNN is a promising direction that tackles this issue by selecting minimal representative data to label and using these data to assess the model. However, it still requires human effort and cannot be automatic. In this paper, we propose a novel technique, named Aries, that can estimate the performance of DNNs on new unlabeled data using only the information obtained from the original test data. The key insight behind our technique is that the model should have similar prediction accuracy on the data which have similar distances to the decision boundary. We performed a large-scale evaluation of our technique on 13 types of data transformation methods. The results demonstrate the usefulness of our technique that the estimated accuracy by Aries is only 0.03% -- 2.60% (on average 0.61%) off the true accuracy. Besides, Aries also outperforms the state-of-the-art selection-labeling-based methods in most (96 out of 128) cases.
翻訳日:2022-07-25 13:32:23 公開日:2022-07-22
# OWL 2 QLのCQE: "Longest Honeymoon"アプローチ(拡張バージョン)

CQE in OWL 2 QL: A "Longest Honeymoon" Approach (extended version) ( http://arxiv.org/abs/2207.11155v1 )

ライセンス: Link先を確認
Piero Bonatti, Gianluca Cima, Domenico Lembo, Lorenzo Marconi, Riccardo Rosati, Luigi Sauro, Domenico Fabio Savo(参考訳) 制御クエリ評価(CQE)はセマンティックWebオントロジーの文脈で最近研究されている。 CQEの目標は、外部ユーザが機密情報を推測しないように、クエリ回答を隠蔽することにある。 一般に、回答を隠蔽する方法は複数あり、従来のCQEアプローチでは、どの回答が目に見えるか、どれがそうでないかを事前に選択する。 本稿では,その代わりに動的CQE手法,すなわち,従来のクエリの評価に基づいて,現在のクエリに対する応答を変更することを提案する。 我々は,機密データを保護できるだけでなく,可能な限り多くのクエリに対して肯定的に回答できるという直感的意味合いで,可能な限りの応答修正を遅らせることで,この目標を達成するシステムを目指している。 また,クエリ履歴によらず,静的アプローチでは動作を意図的にシミュレートすることはできないことを示す。 興味深いことに、OWL 2 QLオントロジーとデニアルによって表現されたポリシーでは、セマンティクスによるクエリ評価は1次再編集可能であり、AC0ではデータ複雑性が増大する。 このことは,本論文で論じる実践的アルゴリズムの発展の道を開くものである。

Controlled Query Evaluation (CQE) has been recently studied in the context of Semantic Web ontologies. The goal of CQE is concealing some query answers so as to prevent external users from inferring confidential information. In general, there exist multiple, mutually incomparable ways of concealing answers, and previous CQE approaches choose in advance which answers are visible and which are not. In this paper, instead, we study a dynamic CQE method, namely, we propose to alter the answer to the current query based on the evaluation of previous ones. We aim at a system that, besides being able to protect confidential data, is maximally cooperative, which intuitively means that it answers affirmatively to as many queries as possible; it achieves this goal by delaying answer modifications as much as possible. We also show that the behavior we get cannot be intensionally simulated through a static approach, independent of query history. Interestingly, for OWL 2 QL ontologies and policy expressed through denials, query evaluation under our semantics is first-order rewritable, and thus in AC0 in data complexity. This paves the way for the development of practical algorithms, which we also preliminarily discuss in the paper.
翻訳日:2022-07-25 13:31:31 公開日:2022-07-22
# Denoisingを用いた共同学習による画像圧縮の最適化

Optimizing Image Compression via Joint Learning with Denoising ( http://arxiv.org/abs/2207.10869v1 )

ライセンス: Link先を確認
Ka Leong Cheng and Yueqi Xie and Qifeng Chen(参考訳) ハイレベルなノイズは、スマートフォンのカメラに搭載された比較的小さなセンサーによって、現在の撮像された画像に通常存在し、ノイズは画像圧縮アルゴリズムの損失に余計な課題をもたらす。 画像の詳細とノイズを区別する能力がないため、一般的な画像圧縮法では、圧縮中に望ましくない画像ノイズを明示的に保存し、圧縮時に不快なノイズを回復するために追加ビットを割り当てる。 観測結果から,画像圧縮アルゴリズムの雑音認識を,共振および圧縮として最適化し,ビットの誤配置問題を解決する。 鍵となるのは、圧縮中の望ましくないノイズを排除し、元のノイズのない画像をノイズのないビットに変換することである。 具体的には,プラグイン機能付き二分岐重み共有アーキテクチャを提案し,計算コストを少なくして目的をシンプルかつ効果的に実現できるようにする。 実験の結果,本手法は,合成データと実世界データの両方において,既存のベースライン法よりも大幅に改善することが判明した。 ソースコードはhttps://github.com/felixcheng97/denoisecompressionで入手できます。

High levels of noise usually exist in today's captured images due to the relatively small sensors equipped in the smartphone cameras, where the noise brings extra challenges to lossy image compression algorithms. Without the capacity to tell the difference between image details and noise, general image compression methods allocate additional bits to explicitly store the undesired image noise during compression and restore the unpleasant noisy image during decompression. Based on the observations, we optimize the image compression algorithm to be noise-aware as joint denoising and compression to resolve the bits misallocation problem. The key is to transform the original noisy images to noise-free bits by eliminating the undesired noise during compression, where the bits are later decompressed as clean images. Specifically, we propose a novel two-branch, weight-sharing architecture with plug-in feature denoisers to allow a simple and effective realization of the goal with little computational cost. Experimental results show that our method gains a significant improvement over the existing baseline methods on both the synthetic and real-world datasets. Our source code is available at https://github.com/felixcheng97/DenoiseCompression.
翻訳日:2022-07-25 13:30:55 公開日:2022-07-22
# xaiによる衛星通信用適応画像圧縮の高速化

XAI based Performance Preserving Adaptive Image Compression for Efficient Satellite Communication ( http://arxiv.org/abs/2207.10885v1 )

ライセンス: Link先を確認
KyungChae Lee(参考訳) 多国籍協力の時代には、衛星画像の収集と分析がますます重要になっている。 衛星画像解析の典型的な手順は、衛星から地上へのバルク画像データの送信であり、大きなオーバーヘッドをもたらす。 本稿では,解析結果に悪影響を及ぼさずに伝送オーバーヘッドを低減するため,新しい画像圧縮方式RDICを提案する。 RDICは、解析モデル自体から取得した画素重要度スコアに応じて画像を圧縮する推論に基づく画像圧縮方式である。 実験結果から,RDIC方式は高い圧縮率と低い精度の損失を示す画像の重要領域の捕捉に成功していることがわかった。

In the era of multinational cooperation, gathering and analyzing the satellite images are getting easier and more important. Typical procedure of the satellite image analysis include transmission of the bulky image data from satellite to the ground producing significant overhead. To reduce the amount of the transmission overhead while making no harm to the analysis result, we propose a novel image compression scheme RDIC in this paper. RDIC is a reasoning based image compression scheme that compresses an image according to the pixel importance score acquired from the analysis model itself. From the experimental results we showed that our RDIC scheme successfully captures the important regions in an image showing high compression rate and low accuracy loss.
翻訳日:2022-07-25 13:30:37 公開日:2022-07-22
# 交通予測のための自動拡張時空間同期グラフモデリング

Automated Dilated Spatio-Temporal Synchronous Graph Modeling for Traffic Prediction ( http://arxiv.org/abs/2207.10830v1 )

ライセンス: Link先を確認
Guangyin Jin, Fuxian Li, Jinlei Zhang, Mudan Wang, Jincai Huang(参考訳) 交通ネットワークの複雑な時空間依存性のため、インテリジェント交通システムにおいて正確な交通予測は難しい課題である。 グラフ畳み込みネットワーク(GCN)と組み合わせて、短期および長期の時空間依存を捉えるため、多くの既存の研究が洗練された時間的モデリングアプローチを利用している。 しかし、複雑な設計で分離されたモジュールは時空間表現学習の有効性と効率を制限できる。 さらに、従来のほとんどの研究では、グローバルな時空間関係を特徴付ける固定グラフ構築法を採用しており、これは異なる期間と異なるデータシナリオに対するモデルの学習能力を制限している。 これらの制約を克服するため,トラフィック予測のための自動拡張時空間同期グラフネットワークであるAuto-DSTSGNを提案する。 具体的には,より深い層に拡張係数を積み重ねることで,短期および長期の時空間相関を捉える自動拡張時空間同期グラフ(Auto-DSTSG)を設計する。 さらに,異なるデータシナリオに適応可能な時空間同期グラフを自動的に構築するグラフ構造探索手法を提案する。 4つの実世界のデータセットに対する大規模な実験により、我々のモデルは最先端の手法と比較して約10%改善できることを示した。 ソースコードはhttps://github.com/jinguangyin/Auto-DSTSGNで公開されている。

Accurate traffic prediction is a challenging task in intelligent transportation systems because of the complex spatio-temporal dependencies in transportation networks. Many existing works utilize sophisticated temporal modeling approaches to incorporate with graph convolution networks (GCNs) for capturing short-term and long-term spatio-temporal dependencies. However, these separated modules with complicated designs could restrict effectiveness and efficiency of spatio-temporal representation learning. Furthermore, most previous works adopt the fixed graph construction methods to characterize the global spatio-temporal relations, which limits the learning capability of the model for different time periods and even different data scenarios. To overcome these limitations, we propose an automated dilated spatio-temporal synchronous graph network, named Auto-DSTSGN for traffic prediction. Specifically, we design an automated dilated spatio-temporal synchronous graph (Auto-DSTSG) module to capture the short-term and long-term spatio-temporal correlations by stacking deeper layers with dilation factors in an increasing order. Further, we propose a graph structure search approach to automatically construct the spatio-temporal synchronous graph that can adapt to different data scenarios. Extensive experiments on four real-world datasets demonstrate that our model can achieve about 10% improvements compared with the state-of-art methods. Source codes are available at https://github.com/jinguangyin/Auto-DSTSGN.
翻訳日:2022-07-25 13:27:34 公開日:2022-07-22
# 動的グラフニューラルネットワークのためのロバスト知識適応

Robust Knowledge Adaptation for Dynamic Graph Neural Networks ( http://arxiv.org/abs/2207.10839v1 )

ライセンス: Link先を確認
Hanjie Li, Changsheng Li, Kaituo Feng, Ye Yuan, Guoren Wang, Hongyuan Zha(参考訳) グラフ構造化データは、実世界の多くのアプリケーションにおいて、リンクやノードの追加など、本質的に動的文字を持つことが多い。 近年、このようなグラフデータをモデル化するための動的グラフニューラルネットワークへの関心が高まっており、既存のほとんどのアプローチでは、新しいリンクが構築されると、近隣ノードの埋め込みは、新しい情報を伝達するために時間的ダイナミクスを学習することによって更新されるべきであると仮定している。 しかし、そのようなアプローチは、新しいコネクションによって導入されたノードがノイズ情報を含んでいる場合、その知識を他のノードに伝達することは信頼性がなく、モデルが崩壊する可能性さえあるという制限に苦しむ。 本稿では,動的グラフニューラルネットワークのための強化学習による強固な知識適応フレームワーク adanet を提案する。 新しいリンクを追加すると、隣接ノードの埋め込みを即座に更新する以前のアプローチとは対照的に、adanetは、関連する新しいリンクのためにどのノードを更新するべきかを適応的に決定しようとする。 隣接ノードの埋め込みを更新するかどうかが他の隣接ノードに大きな影響を与えることを考慮し、ノード更新の選択をシーケンス決定問題として定式化し、強化学習を通じてこの問題に対処する。 これにより、堅牢なノード埋め込み表現を学習するために、知識を他のノードに適応的に伝達することができる。 我々の知識を最大限に活用するために、我々のアプローチは動的グラフニューラルネットワークのための強化学習を通して堅牢な知識適応を探求する最初の試みである。 3つのベンチマークデータセットに関する広範な実験は、adanetが最先端のパフォーマンスを達成していることを示している。 さらに,AdaNetの頑健さを定量的かつ質的に評価し,データセットに異なるノイズの度合いを加えることで実験を行った。

Graph structured data often possess dynamic characters in nature, e.g., the addition of links and nodes, in many real-world applications. Recent years have witnessed the increasing attentions paid to dynamic graph neural networks for modelling such graph data, where almost all the existing approaches assume that when a new link is built, the embeddings of the neighbor nodes should be updated by learning the temporal dynamics to propagate new information. However, such approaches suffer from the limitation that if the node introduced by a new connection contains noisy information, propagating its knowledge to other nodes is not reliable and even leads to the collapse of the model. In this paper, we propose AdaNet: a robust knowledge Adaptation framework via reinforcement learning for dynamic graph neural Networks. In contrast to previous approaches immediately updating the embeddings of the neighbor nodes once adding a new link, AdaNet attempts to adaptively determine which nodes should be updated because of the new link involved. Considering that the decision whether to update the embedding of one neighbor node will have great impact on other neighbor nodes, we thus formulate the selection of node update as a sequence decision problem, and address this problem via reinforcement learning. By this means, we can adaptively propagate knowledge to other nodes for learning robust node embedding representations. To the best of our knowledge, our approach constitutes the first attempt to explore robust knowledge adaptation via reinforcement learning for dynamic graph neural networks. Extensive experiments on three benchmark datasets demonstrate that AdaNet achieves the state-of-the-art performance. In addition, we perform the experiments by adding different degrees of noise into the dataset, quantitatively and qualitatively illustrating the robustness of AdaNet.
翻訳日:2022-07-25 13:27:12 公開日:2022-07-22
# コインランドリーに何が? ロンドンにおける海外所有住宅のマッピングと特徴付け

What's in the laundromat? Mapping and characterising offshore owned domestic property in London ( http://arxiv.org/abs/2207.10931v1 )

ライセンス: Link先を確認
Jonathan Bourne, Andrea Ingianni, Rex McKenzie(参考訳) イギリス、特にロンドンはマネーロンダリングのグローバルなハブであり、その大部分は国内資産を利用している。 しかし、英国におけるオフショア国内資産の分布と特性の理解は、データの入手が困難である。 本稿では、オフショア企業の所有する英国資産の公開データセットを強化することで、その状況を改善しようとする。 データ処理パイプラインを作成し,複数のデータセットと機械学習技術を用いて,6つのユースケースに分類されたアドレスのパースセットを作成する。 拡張データセットには、オリジナルのデータセットよりも44,000以上の138,000のプロパティが含まれている。 大多数は国内(95k)で、ロンドン(42k)では不均等な額である。 ロンドンにおける平均オフショアの国内資産は合計で133億GBPであり、約56億GBPである。 ロンドンにおけるオフショア不動産の価格・流通・エントロピー・集中をairbnb資産・低利用・空資産・従来の国内資産と比較し,詳細な分析を行った。 我々は、ロンドンにおけるオフショア、ローユース、airbnbの資産の合計は144,000から164,000であり、合計で145~74億 gbpの価値があると見積もっている。 さらに、オフショアの国内資産は、他のすべての資産種よりも高価でエントロピー/集中度が高い。 さらに,価格と分布特性の異なる2種類の沖合特性,営巣特性と個体特性を同定した。 最後に、拡張オフショアプロパティデータセット、完全低使用のロンドンデータセット、拡張データセットを作成するパイプラインをリリースし、このトピックを研究するための障壁を減らします。

The UK, particularly London, is a global hub for money laundering, a significant portion of which uses domestic property. However, understanding the distribution and characteristics of offshore domestic property in the UK is challenging due to data availability. This paper attempts to remedy that situation by enhancing a publicly available dataset of UK property owned by offshore companies. We create a data processing pipeline which draws on several datasets and machine learning techniques to create a parsed set of addresses classified into six use classes. The enhanced dataset contains 138,000 properties 44,000 more than the original dataset. The majority are domestic (95k), with a disproportionate amount of those in London (42k). The average offshore domestic property in London is worth 1.33 million GBP collectively this amounts to approximately 56 Billion GBP. We perform an in-depth analysis of the offshore domestic property in London, comparing the price, distribution and entropy/concentration with Airbnb property, low-use/empty property and conventional domestic property. We estimate that the total amount of offshore, low-use and airbnb property in London is between 144,000 and 164,000 and that they are collectively worth between 145-174 billion GBP. Furthermore, offshore domestic property is more expensive and has higher entropy/concentration than all other property types. In addition, we identify two different types of offshore property, nested and individual, which have different price and distribution characteristics. Finally, we release the enhanced offshore property dataset, the complete low-use London dataset and the pipeline for creating the enhanced dataset to reduce the barriers to studying this topic.
翻訳日:2022-07-25 13:26:45 公開日:2022-07-22
# k-Nearest Neighbour分類におけるデータ削減のためのマルチラベルプロトタイプ生成

Multilabel Prototype Generation for Data Reduction in k-Nearest Neighbour classification ( http://arxiv.org/abs/2207.10947v1 )

ライセンス: Link先を確認
Jose J. Valero-Mas, Antonio Javier Gallego, Pablo Alonso-Jim\'enez, and Xavier Serra(参考訳) PG(Prototype Generation)法は、通常、大規模コーパスに取り組む際に、$k$-Nearest Neighbour(k$NN)分類器の効率を改善するために検討される。 このようなアプローチは、初期セットと比較して分類性能を低下させることなくコーパスの縮小バージョンを生成することを目的としている。 マルチクラスシナリオでの大規模な適用にもかかわらず、マルチラベル空間のためのPGメソッドの提案に対処する研究はほとんどない。 本研究は,4種類のPG戦略の新規な適応を多ラベルケースに適用するものである。 これらの提案は、3つのマルチラベルの$k$NNベースの分類器、さまざまなドメインとコーパスサイズからなる12のコーパス、およびデータに人工的に誘導される異なるノイズシナリオを用いて評価される。 その結果, 提案手法は, 提案手法を適用せず, ノイズシナリオにおいて統計的に優れたロバスト性を示すとともに, 効率性, 分類性能の両面において, 文献における参照多重ラベルPGの唯一の手法であることがわかった。 さらに、これらの新しいPG戦略は、目標シナリオに応じて、その構成による効率性または有効性基準の優先順位付けを可能にするため、これまで他の作業で満たされていなかった解空間の広い範囲をカバーできる。

Prototype Generation (PG) methods are typically considered for improving the efficiency of the $k$-Nearest Neighbour ($k$NN) classifier when tackling high-size corpora. Such approaches aim at generating a reduced version of the corpus without decreasing the classification performance when compared to the initial set. Despite their large application in multiclass scenarios, very few works have addressed the proposal of PG methods for the multilabel space. In this regard, this work presents the novel adaptation of four multiclass PG strategies to the multilabel case. These proposals are evaluated with three multilabel $k$NN-based classifiers, 12 corpora comprising a varied range of domains and corpus sizes, and different noise scenarios artificially induced in the data. The results obtained show that the proposed adaptations are capable of significantly improving -- both in terms of efficiency and classification performance -- the only reference multilabel PG work in the literature as well as the case in which no PG method is applied, also presenting a statistically superior robustness in noisy scenarios. Moreover, these novel PG strategies allow prioritising either the efficiency or efficacy criteria through its configuration depending on the target scenario, hence covering a wide area in the solution space not previously filled by other works.
翻訳日:2022-07-25 13:26:20 公開日:2022-07-22
# 事前学習と転校学習のためのハイパー表現

Hyper-Representations for Pre-Training and Transfer Learning ( http://arxiv.org/abs/2207.10951v1 )

ライセンス: Link先を確認
Konstantin Sch\"urholt, Boris Knyazev, Xavier Gir\'o-i-Nieto, Damian Borth(参考訳) モデル動物園に与えられたニューラルネットワーク重みの学習表現は、モデル検査からニューラルアーキテクチャ探索、知識蒸留まで、多くの潜在的な応用がある新興的で挑戦的な領域である。 近年, モデル動物園で訓練されたオートエンコーダは, モデル内の内在的・外在的特性を捉える超表現を学習することができた。 本研究では,新しいモデル重みを事前学習として標本化するために,生成用ハイパー表現を拡張した。 本稿では,ハイパフォーマンスモデル生成の鍵となる層幅損失正規化と,ハイパー表現の経験的密度に基づくサンプリング手法を提案する。 本手法で生成したモデルは多様で高性能であり, トランスファー学習のベースラインを上回ることができる。 以上の結果から,モデル動物園からハイパー表現による新しいモデルへの知識集約の可能性を示し,新たな研究の道筋を拓いた。

Learning representations of neural network weights given a model zoo is an emerging and challenging area with many potential applications from model inspection, to neural architecture search or knowledge distillation. Recently, an autoencoder trained on a model zoo was able to learn a hyper-representation, which captures intrinsic and extrinsic properties of the models in the zoo. In this work, we extend hyper-representations for generative use to sample new model weights as pre-training. We propose layer-wise loss normalization which we demonstrate is key to generate high-performing models and a sampling method based on the empirical density of hyper-representations. The models generated using our methods are diverse, performant and capable to outperform conventional baselines for transfer learning. Our results indicate the potential of knowledge aggregation from model zoos to new models via hyper-representations thereby paving the avenue for novel research directions.
翻訳日:2022-07-25 13:25:58 公開日:2022-07-22
# ニューラルネットワークにおける破滅的予測を克服するためのパラメータ再利用の再検討

Revisiting Parameter Reuse to Overcome Catastrophic Forgetting in Neural Networks ( http://arxiv.org/abs/2207.11005v1 )

ライセンス: Link先を確認
Yuqing Zhao, Divya Saxena, Jiannong Cao(参考訳) ニューラルネットワークは、さまざまな分布を持つデータセットで継続的に学習するときに、以前に学んだ知識を忘れがちだ。 データセット間のより重要な分散シフトは、より忘れ去られる。 近年、パラメータアイソレーションに基づくアプローチは、大きな分布シフトを伴う忘れを克服する大きな可能性を示している。 しかし、トレーニング中に各データセットのニューラルパスを修正し、推論時にデータセットラベルを必要とするため、一般化が不十分である。 さらに、過去のデータを将来のデータよりも優先するため、下位の知識転送をサポートしない。 本稿では,学習パラメータを十分に再利用して成長させ,壊滅的な忘れを克服し,データセットラベルを必要とせずに正の後方移動を可能にする,adaptclという新しい適応学習手法を提案する。 提案手法は,凍ったパラメータを最適に再利用することで,同じ神経経路上で適応的に成長する。 さらに、パラメータレベルのデータ駆動プルーニングを使用して、データに同じ優先度を割り当てる。 我々は,MNIST変数,DomainNet,およびFood Freshness Detectionデータセットについて,データセットラベルを必要とせずに分散シフトの異なる強度で広範な実験を行った。 提案手法は, 誤りを最小化し, ポジティブな後進知識伝達を可能にする上で, 代替ベースラインよりも優れていることを示す。

Neural networks tend to forget previously learned knowledge when continuously learning on datasets with varying distributions, a phenomenon known as catastrophic forgetting. More significant distribution shifts among datasets lead to more forgetting. Recently, parameter-isolation-based approaches have shown great potential in overcoming forgetting with significant distribution shifts. However, they suffer from poor generalization as they fix the neural path for each dataset during training and require dataset labels during inference. In addition, they do not support backward knowledge transfer as they prioritize past data over future ones. In this paper, we propose a new adaptive learning method, named AdaptCL, that fully reuses and grows on learned parameters to overcome catastrophic forgetting and allows the positive backward transfer without requiring dataset labels. Our proposed technique adaptively grows on the same neural path by allowing optimal reuse of frozen parameters. Besides, it uses parameter-level data-driven pruning to assign equal priority to the data. We conduct extensive experiments on MNIST Variants, DomainNet, and Food Freshness Detection datasets under different intensities of distribution shifts without requiring dataset labels. Results demonstrate that our proposed method is superior to alternative baselines in minimizing forgetting and enabling positive backward knowledge transfer.
翻訳日:2022-07-25 13:25:43 公開日:2022-07-22
# 交通速度予測のためのトランスファタブル断面積再構成ネットワーク

A Transferable Intersection Reconstruction Network for Traffic Speed Prediction ( http://arxiv.org/abs/2207.11030v1 )

ライセンス: Link先を確認
Pengyu Fu, Liang Chu, Zhuoran Hou, Jincheng Hu, Yanjun Huang and Yuanjian Zhang(参考訳) 交通速度の予測は多くの重要なアプリケーションにとって鍵であり、またその様々な影響要因のために難しい課題でもある。 近年,様々なハイブリッドモデルによる情報収集が試みられ,予測精度が向上している。 しかし,これらの手法の空間情報取得方式には2段階の微分問題がある。 モデリングは単純だが空間情報をほとんど含まないか、モデリングは完全だが柔軟性に欠ける。 本稿では,柔軟性を確保するために空間情報を導入するため,irnet(transportable intersection reconstruction network)を提案する。 まず, 道路網のトポロジーを単純化した, 同じ構造を持つ仮想交差点に交差点を再構成する。 そして、空間情報を交差点情報と交通流方向のシーケンス情報に分割し、様々なモデルを通して時空間特性を求める。 第三に、予測のために時空間的特徴を融合するために自己注意機構を用いる。 ベースラインとの比較実験では、予測効果だけでなく、転送性能にも明らかな利点がある。

Traffic speed prediction is the key to many valuable applications, and it is also a challenging task because of its various influencing factors. Recent work attempts to obtain more information through various hybrid models, thereby improving the prediction accuracy. However, the spatial information acquisition schemes of these methods have two-level differentiation problems. Either the modeling is simple but contains little spatial information, or the modeling is complete but lacks flexibility. In order to introduce more spatial information on the basis of ensuring flexibility, this paper proposes IRNet (Transferable Intersection Reconstruction Network). First, this paper reconstructs the intersection into a virtual intersection with the same structure, which simplifies the topology of the road network. Then, the spatial information is subdivided into intersection information and sequence information of traffic flow direction, and spatiotemporal features are obtained through various models. Third, a self-attention mechanism is used to fuse spatiotemporal features for prediction. In the comparison experiment with the baseline, not only the prediction effect, but also the transfer performance has obvious advantages.
翻訳日:2022-07-25 13:25:26 公開日:2022-07-22
# 都市交通状況予測のための空間的特徴抽出・評価ネットワーク

Spatial-Temporal Feature Extraction and Evaluation Network for Citywide Traffic Condition Prediction ( http://arxiv.org/abs/2207.11034v1 )

ライセンス: Link先を確認
Shilin Pu, Liang Chu, Zhuoran Hou, Jincheng Hu, Yanjun Huang, Yuanjian Zhang(参考訳) 交通予測は、インテリジェント交通システムにおける交通制御とスケジューリングタスクの実現において重要な役割を果たす。 データソースの多様化により、複雑な空間的時間的依存とトラフィックフローの非線形特性をモデル化するために、リッチなトラフィックデータを使用することが、インテリジェント交通システムにとって重要な課題である。 さらに,異なるデータから抽出した時空間的特徴の重要性を明確に評価することが課題となっている。 二重層-時空間特徴抽出・評価モデル(DL-STFEE)を提案する。 DL-STFEEの下層は空間時間特徴抽出層である。 トラヒックデータの空間的特徴と時間的特徴を多グラフグラフ畳み込みおよび注意機構により抽出し、空間的特徴と時間的特徴の異なる組み合わせを生成する。 DL-STFEEの上層は時空間特徴評価層である。 高次元自己認識機構によって生じる注目スコア行列を通じて、空間的特徴の組み合わせを融合評価し、異なる組み合わせが予測効果に与える影響を評価する。 3つの実験セットが実際の交通データセット上で行われ、DL-STFEEが空間的時間的特徴を効果的に捉え、異なる空間的時間的特徴の組み合わせの重要性を評価する。

Traffic prediction plays an important role in the realization of traffic control and scheduling tasks in intelligent transportation systems. With the diversification of data sources, reasonably using rich traffic data to model the complex spatial-temporal dependence and nonlinear characteristics in traffic flow are the key challenge for intelligent transportation system. In addition, clearly evaluating the importance of spatial-temporal features extracted from different data becomes a challenge. A Double Layer - Spatial Temporal Feature Extraction and Evaluation (DL-STFEE) model is proposed. The lower layer of DL-STFEE is spatial-temporal feature extraction layer. The spatial and temporal features in traffic data are extracted by multi-graph graph convolution and attention mechanism, and different combinations of spatial and temporal features are generated. The upper layer of DL-STFEE is the spatial-temporal feature evaluation layer. Through the attention score matrix generated by the high-dimensional self-attention mechanism, the spatial-temporal features combinations are fused and evaluated, so as to get the impact of different combinations on prediction effect. Three sets of experiments are performed on actual traffic datasets to show that DL-STFEE can effectively capture the spatial-temporal features and evaluate the importance of different spatial-temporal feature combinations.
翻訳日:2022-07-25 13:25:12 公開日:2022-07-22
# ニューラルネットワーク圧縮のための量子スパースウェイト分解

Quantized Sparse Weight Decomposition for Neural Network Compression ( http://arxiv.org/abs/2207.11048v1 )

ライセンス: Link先を確認
Andrey Kuzmin, Mart van Baalen, Markus Nagel, Arash Behboodi(参考訳) 本稿では,ニューラルネットワークの重み圧縮の新しい手法を提案する。 提案手法では, 重みテンソルを分散量子化行列因子として保存し, 対象モデルの重みを生成する推論中にその積をフライ上で計算する。 推定勾配降下法を用いて、重みテンソルの量子化およびスパース因子化を求める。 このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。 エンドツーエンドの微調整と組み合わせることで、精度とモデルサイズの間のトレードオフの観点から、従来の最先端の手法に匹敵する、あるいは同等である。 本手法は,ベクトル量子化や極端圧縮レジームとは異なり,適度な圧縮レジームに適用できる。

In this paper, we introduce a novel method of neural network weight compression. In our method, we store weight tensors as sparse, quantized matrix factors, whose product is computed on the fly during inference to generate the target model's weights. We use projected gradient descent methods to find quantized and sparse factorization of the weight tensors. We show that this approach can be seen as a unification of weight SVD, vector quantization, and sparse PCA. Combined with end-to-end fine-tuning our method exceeds or is on par with previous state-of-the-art methods in terms of the trade-off between accuracy and model size. Our method is applicable to both moderate compression regimes, unlike vector quantization, and extreme compression regimes.
翻訳日:2022-07-25 13:24:51 公開日:2022-07-22
# METER-ML:自動メタン源マッピングのためのマルチセンサ地球観測ベンチマーク

METER-ML: A Multi-sensor Earth Observation Benchmark for Automated Methane Source Mapping ( http://arxiv.org/abs/2207.11166v1 )

ライセンス: Link先を確認
Bryan Zhu, Nicholas Lui, Jeremy Irvin, Jimmy Le, Sahil Tadwalkar, Chenghao Wang, Zutao Ouyang, Frankie Y. Liu, Andrew Y. Ng, Robert B. Jackson(参考訳) 地球温暖化の緩和にはメタン排出量の削減が不可欠である。 メタンの排出をその源に当てはめるには、メタン源インフラの包括的なデータセットが必要である。 リモートセンシング画像のディープラーニングによる最近の進歩は、メタン源の位置と特性を識別する可能性を秘めているが、機械学習の研究者や実践者が自動マッピングアプローチを構築するための公開データがない。 このギャップを埋めるために,アメリカ合衆国に86,625枚のnaip,sentinel-1,sentinel-2画像を含むmemeter-mlと呼ばれるマルチセンサーデータセットを構築し,濃縮動物供給,炭鉱,埋立処分場,天然ガス処理工場,石油精製所,石油ターミナル,排水処理施設などのメタン源施設の有無をラベル付けした。 我々は,空間分解能,空間フットプリント,画像生成物,スペクトル帯域の異なるモデルを用いて実験を行った。 筆者らのモデルでは, 濃縮動物給餌操作を同定するための0.915の精密リコール曲線と, 専門家ラベルテストセット上での石油精製所および石油ターミナルの0.821の範囲が達成され, 大規模マッピングの可能性が示唆された。 meter-ml は https://stanfordmlgroup.github.io/projects/meter-ml/ で無料で利用できる。

Reducing methane emissions is essential for mitigating global warming. To attribute methane emissions to their sources, a comprehensive dataset of methane source infrastructure is necessary. Recent advancements with deep learning on remotely sensed imagery have the potential to identify the locations and characteristics of methane sources, but there is a substantial lack of publicly available data to enable machine learning researchers and practitioners to build automated mapping approaches. To help fill this gap, we construct a multi-sensor dataset called METER-ML containing 86,625 georeferenced NAIP, Sentinel-1, and Sentinel-2 images in the U.S. labeled for the presence or absence of methane source facilities including concentrated animal feeding operations, coal mines, landfills, natural gas processing plants, oil refineries and petroleum terminals, and wastewater treatment plants. We experiment with a variety of models that leverage different spatial resolutions, spatial footprints, image products, and spectral bands. We find that our best model achieves an area under the precision recall curve of 0.915 for identifying concentrated animal feeding operations and 0.821 for oil refineries and petroleum terminals on an expert-labeled test set, suggesting the potential for large-scale mapping. We make METER-ML freely available at https://stanfordmlgroup.github.io/projects/meter-ml/ to support future work on automated methane source mapping.
翻訳日:2022-07-25 13:21:57 公開日:2022-07-22
# マルチドメインベンチマークによるFew-Shotオブジェクト検出の再検討

Rethinking Few-Shot Object Detection on a Multi-Domain Benchmark ( http://arxiv.org/abs/2207.11169v1 )

ライセンス: Link先を確認
Kibok Lee, Hao Yang, Satyaki Chakraborty, Zhaowei Cai, Gurumurthy Swaminathan, Avinash Ravichandran, Onkar Dabeer(参考訳) 既存のほとんどの作業は、プレトレーニングとマイショット学習データセットが同じドメインのものであるような設定にフォーカスしている。 しかし、複数の領域で少数のショットアルゴリズムが重要であるため、評価は幅広い応用を反映する必要がある。 FSODアルゴリズムを評価するために,多領域から10個のデータセットからなるMulti-dOmain Few-Shot Object Detection (MoFSOD) ベンチマークを提案する。 FSOD性能に対する凍結層、異なるアーキテクチャ、異なる事前学習データセットの影響を包括的に分析する。 実験の結果、これまでの研究で検討されていないいくつかの重要な要因が示されました。 1) 従来の信念に反して,マルチドメインベンチマークでは,ファインチューニング(ft)は,fsodの強力なベースラインであり,最先端(sota)アルゴリズムと同等以上の性能を発揮する。 2) ft をベースラインとして利用することで,複数のアーキテクチャを探索することが可能になります。 3) 事前学習と数発の学習を分離することにより、MoFSODはさまざまな事前学習データセットの影響を探り、適切な選択によって下流タスクのパフォーマンスを大幅に向上させることができる。 これらの結果に基づき,fsod性能向上のための調査の道筋を列挙し,mofsodベンチマークでsota性能につながる既存のアルゴリズムの2つの簡単な修正を提案する。 コードはhttps://github.com/amazon-research/few-shot-object-detection-benchmarkで入手できる。

Most existing works on few-shot object detection (FSOD) focus on a setting where both pre-training and few-shot learning datasets are from a similar domain. However, few-shot algorithms are important in multiple domains; hence evaluation needs to reflect the broad applications. We propose a Multi-dOmain Few-Shot Object Detection (MoFSOD) benchmark consisting of 10 datasets from a wide range of domains to evaluate FSOD algorithms. We comprehensively analyze the impacts of freezing layers, different architectures, and different pre-training datasets on FSOD performance. Our empirical results show several key factors that have not been explored in previous works: 1) contrary to previous belief, on a multi-domain benchmark, fine-tuning (FT) is a strong baseline for FSOD, performing on par or better than the state-of-the-art (SOTA) algorithms; 2) utilizing FT as the baseline allows us to explore multiple architectures, and we found them to have a significant impact on down-stream few-shot tasks, even with similar pre-training performances; 3) by decoupling pre-training and few-shot learning, MoFSOD allows us to explore the impact of different pre-training datasets, and the right choice can boost the performance of the down-stream tasks significantly. Based on these findings, we list possible avenues of investigation for improving FSOD performance and propose two simple modifications to existing algorithms that lead to SOTA performance on the MoFSOD benchmark. The code is available at https://github.com/amazon-research/few-shot-object-detection-benchmark.
翻訳日:2022-07-25 13:21:27 公開日:2022-07-22
# 少数ショット物体検出のための多面蒸留法

Multi-Faceted Distillation of Base-Novel Commonality for Few-shot Object Detection ( http://arxiv.org/abs/2207.11184v1 )

ライセンス: Link先を確認
Shuang Wu, Wenjie Pei, Dianwen Mei, Fanglin Chen, Jiandong Tian, Guangming Lu(参考訳) これは、クラスに依存しない一般化可能な知識を、豊富なサンプルを持つベースクラスから、2段階のトレーニング戦略によって限られたサンプルを持つ新しいクラスへと暗黙的に学習し、転送できると仮定している。 しかし、オブジェクト検出器は明示的なモデリングなしではクラスに依存しない知識とクラス固有の知識とを区別できないため、必ずしもそうではない。 本研究は,認識関連意味共通点,局所化関連意味共通点,分布共通点の3種類のクラス非依存共通点を,ベースクラスと新規クラスの間で明示的に学習することを提案する。 我々は,3種類の共通点のすべてを同時にかつ効率的に蒸留できるメモリバンクに基づく統一蒸留フレームワークを設計した。 広範な実験により,本手法は既存の微調整ベース手法の多くに容易に統合でき,高いマージンで性能を一貫して向上できることが示された。

Most of existing methods for few-shot object detection follow the fine-tuning paradigm, which potentially assumes that the class-agnostic generalizable knowledge can be learned and transferred implicitly from base classes with abundant samples to novel classes with limited samples via such a two-stage training strategy. However, it is not necessarily true since the object detector can hardly distinguish between class-agnostic knowledge and class-specific knowledge automatically without explicit modeling. In this work we propose to learn three types of class-agnostic commonalities between base and novel classes explicitly: recognition-related semantic commonalities, localization-related semantic commonalities and distribution commonalities. We design a unified distillation framework based on a memory bank, which is able to perform distillation of all three types of commonalities jointly and efficiently. Extensive experiments demonstrate that our method can be readily integrated into most of existing fine-tuning based methods and consistently improve the performance by a large margin.
翻訳日:2022-07-25 13:20:59 公開日:2022-07-22
# DivideとConquer:Point-Wiseのバイナリ化による3Dポイントクラウドインスタンスセグメンテーション

Divide and Conquer: 3D Point Cloud Instance Segmentation With Point-Wise Binarization ( http://arxiv.org/abs/2207.11209v1 )

ライセンス: Link先を確認
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang(参考訳) ポイントクラウド上のインスタンスセグメンテーションは、3Dシーン理解にとって極めて重要である。 距離クラスタリングは、一般的に最先端の方法(SOTA)で使われ、通常は有効であるが、隣接するオブジェクトを同じセマンティックラベル(特に隣接するポイントを共有する場合)でセグメント化する際にはうまく機能しない。 オフセットポイントの不均一な分布のため、これらの既存のメソッドはすべてのインスタンスポイントをクラスタ化できない。 そこで我々は,新たな分割・征服戦略を設計し,各点を二項化してセグメントインスタンスに分割するPBNetというエンドツーエンドネットワークを提案する。 pbnetはオフセットインスタンスポイントを、高密度と低密度の2つのカテゴリ(hps対.lps)に分割する。 隣接オブジェクトは、LPを除去して明確に分離し、隣の投票方法でLPを割り当てることで完了および洗練することができる。 さらにクラスタリングエラーを低減すべく,フラグメントインスタンスを集約するための平均サイズに基づく反復的マージアルゴリズムを開発した。 ScanNetV2とS3DISデータセットの実験は、我々のモデルの優位性を示している。 特にPBNetは、ScanNetV2の公式ベンチマークチャレンジ(Validation Set)において、これまでで最高のAP50とAP25を達成した。

Instance segmentation on point clouds is crucially important for 3D scene understanding. Distance clustering is commonly used in state-of-the-art methods (SOTAs), which is typically effective but does not perform well in segmenting adjacent objects with the same semantic label (especially when they share neighboring points). Due to the uneven distribution of offset points, these existing methods can hardly cluster all instance points. To this end, we design a novel divide and conquer strategy and propose an end-to-end network named PBNet that binarizes each point and clusters them separately to segment instances. PBNet divides offset instance points into two categories: high and low density points (HPs vs.LPs), which are then conquered separately. Adjacent objects can be clearly separated by removing LPs, and then be completed and refined by assigning LPs via a neighbor voting method. To further reduce clustering errors, we develop an iterative merging algorithm based on mean size to aggregate fragment instances. Experiments on ScanNetV2 and S3DIS datasets indicate the superiority of our model. In particular, PBNet achieves so far the best AP50 and AP25 on the ScanNetV2 official benchmark challenge (Validation Set) while demonstrating high efficiency.
翻訳日:2022-07-25 13:20:42 公開日:2022-07-22
# 意味セグメンテーションにおける重み融合による予測性能と校正の改善

Improving Predictive Performance and Calibration by Weight Fusion in Semantic Segmentation ( http://arxiv.org/abs/2207.11211v1 )

ライセンス: Link先を確認
Timo S\"amann, Ahmed Mostafa Hammam, Andrei Bursuc, Christoph Stiller, Horst-Michael Gro{\ss}(参考訳) ネットワークの深いアンサンブルの予測は、様々なベンチマークやKaggleコンペティションにおける予測性能と校正を改善するために人気があり効果的な方法である。 しかし、深いアンサンブルのランタイムとトレーニングコストはアンサンブルのサイズによって線形に増大し、多くの用途に適さない。 averagingensemble weights は予測の代わりにこの不利な推論を回避し、トレーニングコストを削減するためにモデルの中間チェックポイントに適用される。 実効性はあるものの、重量平均化の理解と性能を改良した作品はごくわずかであり、このアプローチを再検討し、単純な重量融合(wf)戦略によって予測性能とキャリブレーションが大幅に向上することを示す。 重みが重み空間、機能空間、損失の項を満たす必要条件について述べる。 さらに,機能的空間間重量を測定するための新しい試験法(オラクル試験)を提案する。 我々は、アートセグメンテーションCNNやトランスフォーマー、BDD100KやCityscapesといった実世界データセットなど、最先端のWF戦略の汎用性を実証する。 WFを類似のアパッチと比較し,予測性能とキャリブレーションの観点から分布内および分布外データに対する優位性を示す。

Averaging predictions of a deep ensemble of networks is apopular and effective method to improve predictive performance andcalibration in various benchmarks and Kaggle competitions. However, theruntime and training cost of deep ensembles grow linearly with the size ofthe ensemble, making them unsuitable for many applications. Averagingensemble weights instead of predictions circumvents this disadvantageduring inference and is typically applied to intermediate checkpoints ofa model to reduce training cost. Albeit effective, only few works haveimproved the understanding and the performance of weight averaging.Here, we revisit this approach and show that a simple weight fusion (WF)strategy can lead to a significantly improved predictive performance andcalibration. We describe what prerequisites the weights must meet interms of weight space, functional space and loss. Furthermore, we presenta new test method (called oracle test) to measure the functional spacebetween weights. We demonstrate the versatility of our WF strategy acrossstate of the art segmentation CNNs and Transformers as well as real worlddatasets such as BDD100K and Cityscapes. We compare WF with similarapproaches and show our superiority for in- and out-of-distribution datain terms of predictive performance and calibration.
翻訳日:2022-07-25 13:20:20 公開日:2022-07-22
# エントロピー正規化データ自由再生によるクラスインクリメンタル学習

Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free Replay ( http://arxiv.org/abs/2207.11213v1 )

ライセンス: Link先を確認
Huan Liu, Li Gu, Zhixiang Chi, Yang Wang, Yuanhao Yu, Jun Chen and Jin Tang(参考訳) FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。 近年,クラスインクリメンタルラーニング(cil)におけるリプレイベース手法は非効率であり,そのためfscilでは好ましくないと主張している。 これは、実のところ、FSCILの分野に大きな影響を与えている。 本稿では,データ再生の導入が驚くほど好都合であることを示す。 しかし、古いデータの保存と再生はプライバシー上の懸念につながる可能性がある。 この問題に対処するために,実データにアクセスせずにジェネレータでデータを合成できるデータフリーリプレイを提案する。 知識蒸留における不確かさデータの有効性を観察するために,より不確かさのある例を奨励するために,生成訓練にエントロピー正則化を課す。 さらに,生成したデータを1ホットライクなラベルでラベル付けする手法を提案する。 この修正により、従来の知識蒸留手法における異なる目的のバランスの問題を軽減するクロスエントロピー損失を最小化することでネットワークを学習することができる。 最後に,cifar-100,miniimagenet,cub-200の広範な実験結果と解析を行い,提案手法の有効性を示す。

Few-shot class-incremental learning (FSCIL) has been proposed aiming to enable a deep learning system to incrementally learn new classes with limited data. Recently, a pioneer claims that the commonly used replay-based method in class-incremental learning (CIL) is ineffective and thus not preferred for FSCIL. This has, if truth, a significant influence on the fields of FSCIL. In this paper, we show through empirical results that adopting the data replay is surprisingly favorable. However, storing and replaying old data can lead to a privacy concern. To address this issue, we alternatively propose using data-free replay that can synthesize data by a generator without accessing real data. In observing the the effectiveness of uncertain data for knowledge distillation, we impose entropy regularization in the generator training to encourage more uncertain examples. Moreover, we propose to relabel the generated data with one-hot-like labels. This modification allows the network to learn by solely minimizing the cross-entropy loss, which mitigates the problem of balancing different objectives in the conventional knowledge distillation approach. Finally, we show extensive experimental results and analysis on CIFAR-100, miniImageNet and CUB-200 to demonstrate the effectiveness of our proposed one.
翻訳日:2022-07-25 13:19:58 公開日:2022-07-22
# マンモグラムにおける乳房腫瘤検出のためのディープラーニングハイパーパラメータ最適化

Deep Learning Hyperparameter Optimization for Breast Mass Detection in Mammograms ( http://arxiv.org/abs/2207.11244v1 )

ライセンス: Link先を確認
Adarsh Sehgal, Muskan Sehgal, Hung Manh La, and George Bebis(参考訳) マンモグラフィによる正確な乳がん診断は、世界中の何百万人もの命を救える可能性がある。 深層学習(DL)法はマンモグラムの質量検出に非常に有効であることが示されている。 現在のDLモデルのさらなる改良により、これらの手法の有効性がさらに向上する。 この文脈における重要な問題は、DLモデルの適切なハイパーパラメータの選択方法である。 本稿では,遺伝アルゴリズム(gas)を用いた肝細胞癌検出のためのdlモデルのハイパーパラメータをチューニングするための新しい手法であるga-e2eを提案する。 以上の結果から, パラメータ値の差は, 分類器の性能決定に用いられる曲線下領域(auc)を大きく変化させる可能性が示唆された。

Accurate breast cancer diagnosis through mammography has the potential to save millions of lives around the world. Deep learning (DL) methods have shown to be very effective for mass detection in mammograms. Additional improvements of current DL models will further improve the effectiveness of these methods. A critical issue in this context is how to pick the right hyperparameters for DL models. In this paper, we present GA-E2E, a new approach for tuning the hyperparameters of DL models for brest cancer detection using Genetic Algorithms (GAs). Our findings reveal that differences in parameter values can considerably alter the area under the curve (AUC), which is used to determine a classifier's performance.
翻訳日:2022-07-25 13:19:38 公開日:2022-07-22
# サイバー脅威インテリジェンスのためのマルチレベルファインチューニング、データ拡張、Few-Shot Learning

Multi-Level Fine-Tuning, Data Augmentation, and Few-Shot Learning for Specialized Cyber Threat Intelligence ( http://arxiv.org/abs/2207.11076v1 )

ライセンス: Link先を確認
Markus Bayer, Tobias Frey, Christian Reuter(参考訳) オープンソースからサイバー脅威情報を集めることは、システムがより大きく複雑になるにつれて、高いレベルのセキュリティを維持し、達成するためにますます重要になっている。 しかし、これらのオープンソースはしばしば情報過負荷にさらされる。 したがって、必要な情報に情報を凝縮する機械学習モデルを適用することは有用である。 しかし、以前の研究や応用により、既存の分類器は、一般化能力の低いため、新興のサイバーセキュリティイベントに関する特定の情報を抽出できないことが示されている。 そこで本稿では,新たなインシデント毎に新たな分類器をトレーニングすることで,この問題を克服するシステムを提案する。 標準のトレーニング手法を使って、多くのラベル付きデータを必要とするため、3つの異なる低データレジームテクニック(転送学習、データ拡張、少数ショット学習)を組み合わせて、非常に少ないラベル付きインスタンスから高品質の分類器をトレーニングします。 2021年のMicrosoft Exchange Serverデータ漏洩から得られた,3人の専門家による新たなデータセットを用いて,我々のアプローチを評価した。 その結果,F1スコアは標準訓練法と比較して21ポイント以上増加し,18ポイント以上増加していた。 さらに、この方法で訓練された分類器と32のインスタンスは、1800のインスタンスで訓練された分類器よりも5f1以下のスコアである。

Gathering cyber threat intelligence from open sources is becoming increasingly important for maintaining and achieving a high level of security as systems become larger and more complex. However, these open sources are often subject to information overload. It is therefore useful to apply machine learning models that condense the amount of information to what is necessary. Yet, previous studies and applications have shown that existing classifiers are not able to extract specific information about emerging cybersecurity events due to their low generalization ability. Therefore, we propose a system to overcome this problem by training a new classifier for each new incident. Since this requires a lot of labelled data using standard training methods, we combine three different low-data regime techniques - transfer learning, data augmentation, and few-shot learning - to train a high-quality classifier from very few labelled instances. We evaluated our approach using a novel dataset derived from the Microsoft Exchange Server data breach of 2021 which was labelled by three experts. Our findings reveal an increase in F1 score of more than 21 points compared to standard training methods and more than 18 points compared to a state-of-the-art method in few-shot learning. Furthermore, the classifier trained with this method and 32 instances is only less than 5 F1 score points worse than a classifier trained with 1800 instances.
翻訳日:2022-07-25 13:19:26 公開日:2022-07-22
# ファクトシート:自動自己報告パーソナリティ認識トラック

Fact sheet: Automatic Self-Reported Personality Recognition Track ( http://arxiv.org/abs/2207.11012v1 )

ライセンス: Link先を確認
Francisca Pessanha, Gizem Sogancioglu(参考訳) 本研究は,このようなケーススタディに影響を及ぼす様々な文脈要因を解消するためのインフォームドベースラインを提案する。 そこで本研究では,与えられたメタデータと自己割当パーソナリティ特性の相関を解析し,その情報のみに基づくモデルを開発した。 さらに,このインフォームドベースラインの性能を,最先端の視覚,言語,音声の特徴に基づくモデルと比較した。 現在のデータセットでは、単純なメタデータ機能(年齢、性別、セッション数)のみを訓練したモデルが、単純な音声、言語的、視覚的特徴に基づくシステムと比較して、優れた、あるいは類似したパフォーマンスを示した。

We propose an informed baseline to help disentangle the various contextual factors of influence in this type of case studies. For this purpose, we analysed the correlation between the given metadata and the self-assigned personality trait scores and developed a model based solely on this information. Further, we compared the performance of this informed baseline with models based on state-of-the-art visual, linguistic and audio features. For the present dataset, a model trained solely on simple metadata features (age, gender and number of sessions) proved to have superior or similar performance when compared with simple audio, linguistic or visual features-based systems.
翻訳日:2022-07-25 13:15:56 公開日:2022-07-22
# ハンドデクルージョンと除去による3次元干渉型ハンドポース推定

3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal ( http://arxiv.org/abs/2207.11061v1 )

ライセンス: Link先を確認
Hao Meng, Sheng Jin, Wentao Liu, Chen Qian, Mengxiang Lin, Wanli Ouyang, Ping Luo(参考訳) 単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。 相互作用する2つの手の3Dポーズを同時に予測する従来の作業とは異なり、課題となるハンドポーズ推定タスクを分解し、各手のポーズを別々に推定することを提案する。 このようにして、シングルハンドポーズ推定システムにおける最新の研究成果を活用することは容易である。 しかし,(1)重度な手の咬合と(2)均質な手の外観に起因する曖昧さから,相互作用シナリオにおける手のポーズ推定は非常に困難である。 そこで本研究では,この2つの課題に対処すべく,手指脱閉除去(hdr)フレームワークを提案する。 また、モデルトレーニングを容易化し、関連する研究の進展を促進するために、最初の大規模合成アモーダルハンドデータセット「amodal interhand dataset(aih)」を提案する。 実験により,提案手法が従来の手ポーズ推定手法を大きく上回ることがわかった。 コードとデータはhttps://github.com/MengHao666/HDRで公開されている。

Estimating 3D interacting hand pose from a single RGB image is essential for understanding human actions. Unlike most previous works that directly predict the 3D poses of two interacting hands simultaneously, we propose to decompose the challenging interacting hand pose estimation task and estimate the pose of each hand separately. In this way, it is straightforward to take advantage of the latest research progress on the single-hand pose estimation system. However, hand pose estimation in interacting scenarios is very challenging, due to (1) severe hand-hand occlusion and (2) ambiguity caused by the homogeneous appearance of hands. To tackle these two challenges, we propose a novel Hand De-occlusion and Removal (HDR) framework to perform hand de-occlusion and distractor removal. We also propose the first large-scale synthetic amodal hand dataset, termed Amodal InterHand Dataset (AIH), to facilitate model training and promote the development of the related research. Experiments show that the proposed method significantly outperforms previous state-of-the-art interacting hand pose estimation approaches. Codes and data are available at https://github.com/MengHao666/HDR.
翻訳日:2022-07-25 13:15:43 公開日:2022-07-22
# RealFlow:ビデオからのEMベースのリアルな光フローデータセット生成

RealFlow: EM-based Realistic Optical Flow Dataset Generation from Videos ( http://arxiv.org/abs/2207.11075v1 )

ライセンス: Link先を確認
Yunhui Han, Kunming Luo, Ao Luo, Jiangyu Liu, Haoqiang Fan, Guiming Luo, Shuaicheng Liu(参考訳) ピクセル単位のフローラベルのマニュアルアノテーションは、違法に高価で退屈なため、ビデオから真実のラベルを取得することは難しい。 さらに、既存のアプローチでは、合成データセットのトレーニングされたモデルを、必然的にドメインの不一致に悩まされ、現実世界のアプリケーションのパフォーマンスを阻害する、認証ビデオに適用しようとしています。 そこで本稿では,実写ビデオから直接,大規模光フローデータセットを作成できる期待最大化フレームワークであるrealflowを提案する。 具体的には、まず一対のビデオフレーム間の光フローを推定し、予測されたフローに基づいてこのペアから新しい画像を合成する。 これにより、新しい画像対とその対応する流れを新しいトレーニングセットとみなすことができる。 さらに,画像合成のアーティファクトを軽減するために,ソフトマックススプレイティングと双方向ホールフィリング技術を採用した実写画像ペアレンダリング(RIPR)モジュールを設計する。 Eステップでは、RIPRは新しい画像をレンダリングして大量のトレーニングデータを生成する。 mステップでは、生成されたトレーニングデータを利用して、次のeステップで光フローを推定できる光フローネットワークを訓練する。 反復学習の段階において、フローネットワークの能力は徐々に改善され、フローの精度と合成データセットの品質が向上する。 実験の結果,RealFlowは従来のデータセット生成手法よりもかなり大きなマージンで優れていた。 さらに, 提案手法は, 教師なしおよび教師なしの両方の光学流法と比較して, 2つの標準ベンチマークにおける最先端性能を実現する。 私たちのコードとデータセットはhttps://github.com/megvii-research/realflowで利用可能です。

Obtaining the ground truth labels from a video is challenging since the manual annotation of pixel-wise flow labels is prohibitively expensive and laborious. Besides, existing approaches try to adapt the trained model on synthetic datasets to authentic videos, which inevitably suffers from domain discrepancy and hinders the performance for real-world applications. To solve these problems, we propose RealFlow, an Expectation-Maximization based framework that can create large-scale optical flow datasets directly from any unlabeled realistic videos. Specifically, we first estimate optical flow between a pair of video frames, and then synthesize a new image from this pair based on the predicted flow. Thus the new image pairs and their corresponding flows can be regarded as a new training set. Besides, we design a Realistic Image Pair Rendering (RIPR) module that adopts softmax splatting and bi-directional hole filling techniques to alleviate the artifacts of the image synthesis. In the E-step, RIPR renders new images to create a large quantity of training data. In the M-step, we utilize the generated training data to train an optical flow network, which can be used to estimate optical flows in the next E-step. During the iterative learning steps, the capability of the flow network is gradually improved, so is the accuracy of the flow, as well as the quality of the synthesized dataset. Experimental results show that RealFlow outperforms previous dataset generation methods by a considerably large margin. Moreover, based on the generated dataset, our approach achieves state-of-the-art performance on two standard benchmarks compared with both supervised and unsupervised optical flow methods. Our code and dataset are available at https://github.com/megvii-research/RealFlow
翻訳日:2022-07-25 13:15:19 公開日:2022-07-22
# MAE事前訓練によるVanilla ViTバックボーンを用いた顔表情認識

Facial Expression Recognition using Vanilla ViT backbones with MAE Pretraining ( http://arxiv.org/abs/2207.11081v1 )

ライセンス: Link先を確認
Jia Li and Ziyang Zhang(参考訳) 人間は通常、表情によって自発的または自発的に感情を伝える。 顔画像、すなわち表情認識(fer)から基本表現(幸福、悲しみ、中立など)を自動的に認識することは極めて困難であり、多くの研究関心を集めている。 この問題に対処するために,大規模データセットと強力な推論モデルが提案されている。 かなりの進歩があったが、畳み込みニューラルネットワーク(cnns)や精巧に改造された視覚トランスフォーマー(vits)を用いた芸術のほとんどが上流の教師付き事前訓練に大きく依存している。 トランスフォーマーは、ますます多くのコンピュータビジョンタスクにおいて、CNNを支配している。 しかし、cnnに比べてインダクティブなバイアスが少ないため、トレーニングにはもっと多くのデータが必要です。 上流タスクからの余分なトレーニングサンプルのないバニラViTが競争精度を達成できるかどうかを探索するために,MAEプレトレーニング付き平易なViTを用いてFERタスクを実行する。 具体的には、まず、表現ラベルなしで大きな表情データセット上で、最初のViTをMasked Autoencoder (MAE)として事前訓練する。 次に、人気のある表情データセットのViTを表現ラベルで微調整する。 提案手法はRAF-DBの90.22\%、AfectNetの61.73\%と非常に競合し、FER研究の単純なViTベースのベースラインとして機能する。

Humans usually convey emotions voluntarily or involuntarily by facial expressions. Automatically recognizing the basic expression (such as happiness, sadness, and neutral) from a facial image, i.e., facial expression recognition (FER), is extremely challenging and attracts much research interests. Large scale datasets and powerful inference models have been proposed to address the problem. Though considerable progress has been made, most of the state of the arts employing convolutional neural networks (CNNs) or elaborately modified Vision Transformers (ViTs) depend heavily on upstream supervised pretraining. Transformers are taking place the domination of CNNs in more and more computer vision tasks. But they usually need much more data to train, since they use less inductive biases compared with CNNs. To explore whether a vanilla ViT without extra training samples from upstream tasks is able to achieve competitive accuracy, we use a plain ViT with MAE pretraining to perform the FER task. Specifically, we first pretrain the original ViT as a Masked Autoencoder (MAE) on a large facial expression dataset without expression labels. Then, we fine-tune the ViT on popular facial expression datasets with expression labels. The presented method is quite competitive with 90.22\% on RAF-DB, 61.73\% on AfectNet and can serve as a simple yet strong ViT-based baseline for FER studies.
翻訳日:2022-07-25 13:14:52 公開日:2022-07-22
# 映像からの視覚認識型3次元表情再構成

Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos ( http://arxiv.org/abs/2207.11094v1 )

ライセンス: Link先を確認
Panagiotis P. Filntisis, George Retsinas, Foivos Paraperas-Papantoniou, Athanasios Katsamanis, Anastasios Roussos, Petros Maragos(参考訳) 画像データから単眼的3d顔再構成技術の最新は、ディープラーニングの出現によって、いくつかの素晴らしい進歩を遂げている。 しかし、主に1枚のRGB画像からの入力に焦点を当てており、以下の重要な要素を見下ろしている。 a) 今日,関心のある顔画像データの大部分は,単一の画像からではなく,リッチな動的情報を含むビデオから来ている。 b)さらに,これらのビデオは,通常,何らかの形態の口頭コミュニケーション(公開講演,テレ会議,視聴覚型人間-コンピュータインタラクション,インタビュー,映画におけるモノローグ/ダイアログ等)の個人をキャプチャする。 このような映像に既存の3d顔再建法を適用すると、音声とうまく一致しないため、口領域の形状や運動の復元におけるアーティファクトはしばしば厳しいものとなる。 上記の制限を克服するために,3次元口頭表情の視覚認識再構成を行う最初の方法を提案する。 これは、3d再構成された音声頭部からの知覚が元の映像に類似するように、嵌合過程を導く「リップリード」損失を提案するものである。 興味深いことに、従来のランドマークの損失よりも口の動きを3Dで再現し、直接の3D監視にも適している。 さらに、考案された手法は、テキストの書き起こしや対応するオーディオに頼らず、ラベルなしデータセットでのトレーニングに最適である。 本研究では,3つの大規模データセットの客観的評価と2つのWebベースユーザスタディによる主観評価により,本手法の有効性を検証する。

The recent state of the art on monocular 3D face reconstruction from image data has made some impressive advancements, thanks to the advent of Deep Learning. However, it has mostly focused on input coming from a single RGB image, overlooking the following important factors: a) Nowadays, the vast majority of facial image data of interest do not originate from single images but rather from videos, which contain rich dynamic information. b) Furthermore, these videos typically capture individuals in some form of verbal communication (public talks, teleconferences, audiovisual human-computer interactions, interviews, monologues/dialogues in movies, etc). When existing 3D face reconstruction methods are applied in such videos, the artifacts in the reconstruction of the shape and motion of the mouth area are often severe, since they do not match well with the speech audio. To overcome the aforementioned limitations, we present the first method for visual speech-aware perceptual reconstruction of 3D mouth expressions. We do this by proposing a "lipread" loss, which guides the fitting process so that the elicited perception from the 3D reconstructed talking head resembles that of the original video footage. We demonstrate that, interestingly, the lipread loss is better suited for 3D reconstruction of mouth movements compared to traditional landmark losses, and even direct 3D supervision. Furthermore, the devised method does not rely on any text transcriptions or corresponding audio, rendering it ideal for training in unlabeled datasets. We verify the efficiency of our method through exhaustive objective evaluations on three large-scale datasets, as well as subjective evaluation with two web-based user studies.
翻訳日:2022-07-25 13:14:28 公開日:2022-07-22
# 擬似トークンを進化させるゼロショットビデオキャプション

Zero-Shot Video Captioning with Evolving Pseudo-Tokens ( http://arxiv.org/abs/2207.11100v1 )

ライセンス: Link先を確認
Yoad Tewel, Yoav Shalev, Roy Nadler, Idan Schwartz, Lior Wolf(参考訳) 本稿では,gpt-2言語モデルとクリップ画像テキストマッチングモデルという2つの凍結型ネットワークを用いたゼロショットビデオキャプション手法を提案する。 マッチングスコアは、ビデオフレームのサブセットに対して高い平均マッチングスコアを持つ文を生成するための言語モデルを制御するために使用される。 ゼロショット画像キャプション法とは違って,文全体を一度に検討する。 これは、生成プロセス中にプロンプトの一部をスクラッチから最適化し、プロンプト内の他のすべてのトークンの表現を変更し、反復的にプロセスを繰り返し、生成した文の特異性と包括性を徐々に改善することで達成される。 実験の結果,生成したキャプションはコヒーレントであり,実世界の幅広い知識を表現できることがわかった。 私たちのコードは、https://github.com/YoadTew/zero-shot-to-textで利用可能です。

We introduce a zero-shot video captioning method that employs two frozen networks: the GPT-2 language model and the CLIP image-text matching model. The matching score is used to steer the language model toward generating a sentence that has a high average matching score to a subset of the video frames. Unlike zero-shot image captioning methods, our work considers the entire sentence at once. This is achieved by optimizing, during the generation process, part of the prompt from scratch, by modifying the representation of all other tokens in the prompt, and by repeating the process iteratively, gradually improving the specificity and comprehensiveness of the generated sentence. Our experiments show that the generated captions are coherent and display a broad range of real-world knowledge. Our code is available at: https://github.com/YoadTew/zero-shot-video-to-text
翻訳日:2022-07-25 13:14:00 公開日:2022-07-22
# 参照型識別画像キャプションの再考

Rethinking the Reference-based Distinctive Image Captioning ( http://arxiv.org/abs/2207.11118v1 )

ライセンス: Link先を確認
Yangjun Mao, Long Chen, Zhihong Jiang, Dong Zhang, Zhimeng Zhang, Jian Shao, Jun Xiao(参考訳) 特定画像キャプチャー(DIC: Distinctive Image Captioning)は、過去数年間で注目されている。 最近のDIC研究は、ターゲット画像と意味相似参照画像のセット、すなわち参照ベースDIC(Ref-DIC)を比較して、特徴的なキャプションを生成することを提案する。 生成されたキャプションがターゲットと参照イメージを区別できるようにする。 残念ながら、既存のRef-DIC作品の参照画像は、シーンレベルのターゲット画像にしか似ていないため、参照画像を考えることなく、Ref-DICモデルが自明なキャプションを生成できるような、一般的なオブジェクトが少ないため、区別が容易である。 Ref-DICモデルがターゲット画像のユニークなオブジェクト(または属性)を確実に認識するために、まず2つの新しいRef-DICベンチマークを提案する。 具体的には、ターゲット画像と参照画像のオブジェクト/属性レベルでの類似性(vs.シーンレベル)を厳密に制御する2段階マッチング機構を設計する。 第2に,トランスフォーマーをベースとした強力なRef-DICベースラインを作成した。 対象画像から視覚的な特徴を抽出するだけでなく、対象画像と参照画像のオブジェクト間の差異を符号化する。 最後に、より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErと呼ばれる新しい評価指標を提案し、生成されたキャプションの精度と識別性を評価した。 実験結果から,トランスDICは特異なキャプションを生成できることが示された。 さらに、異なるメトリクスに対して2つの新しいベンチマークでいくつかの最先端モデルを上回っている。

Distinctive Image Captioning (DIC) -- generating distinctive captions that describe the unique details of a target image -- has received considerable attention over the last few years. A recent DIC work proposes to generate distinctive captions by comparing the target image with a set of semantic-similar reference images, i.e., reference-based DIC (Ref-DIC). It aims to make the generated captions can tell apart the target and reference images. Unfortunately, reference images used by existing Ref-DIC works are easy to distinguish: these reference images only resemble the target image at scene-level and have few common objects, such that a Ref-DIC model can trivially generate distinctive captions even without considering the reference images. To ensure Ref-DIC models really perceive the unique objects (or attributes) in target images, we first propose two new Ref-DIC benchmarks. Specifically, we design a two-stage matching mechanism, which strictly controls the similarity between the target and reference images at object-/attribute- level (vs. scene-level). Secondly, to generate distinctive captions, we develop a strong Transformer-based Ref-DIC baseline, dubbed as TransDIC. It not only extracts visual features from the target image, but also encodes the differences between objects in the target and reference images. Finally, for more trustworthy benchmarking, we propose a new evaluation metric named DisCIDEr for Ref-DIC, which evaluates both the accuracy and distinctiveness of the generated captions. Experimental results demonstrate that our TransDIC can generate distinctive captions. Besides, it outperforms several state-of-the-art models on the two new benchmarks over different metrics.
翻訳日:2022-07-25 13:13:46 公開日:2022-07-22
# 表情認識のための適応的グラフベース特徴正規化

Adaptive Graph-Based Feature Normalization for Facial Expression Recognition ( http://arxiv.org/abs/2207.11123v1 )

ライセンス: Link先を確認
Yangtao Du and Qingqing Wang and Yujie Xiong(参考訳) 表情認識(FER)は、曖昧な顔画像と注釈者の主観性に起因する不確実性に悩まされ、抽出的意味論と特徴的共変量シフト問題を引き起こす。 既存の作業は通常、ノイズ分布を推定したり、クリーンなデータから学んだ知識でネットワークトレーニングを指導することで、誤ったラベル付きデータを補正する。 本研究では,表現の関連付けによる特徴分布の正規化により,データ不確実性からferモデルを保護するための適応グラフ型特徴正規化(agfn)手法を提案する。 具体的には,各ミニバッチにおけるサンプルのトポロジカルグラフをサンプリングプロセスを通じて適応的に構築し,提案ネットワークを最適化するための座標降下戦略を設計するポアソングラフ生成器を提案する。 ベンチマークデータセット ferplus と raf-db はそれぞれ 91.84% と 91.11% の精度で動作し、誤ったラベル付きデータの割合が増加 (20% まで) すると、ネットワークは既存の作品を大幅に上回る3.38% と 4.52% となる。

Facial Expression Recognition (FER) suffers from data uncertainties caused by ambiguous facial images and annotators' subjectiveness, resulting in excursive semantic and feature covariate shifting problem. Existing works usually correct mislabeled data by estimating noise distribution, or guide network training with knowledge learned from clean data, neglecting the associative relations of expressions. In this work, we propose an Adaptive Graph-based Feature Normalization (AGFN) method to protect FER models from data uncertainties by normalizing feature distributions with the association of expressions. Specifically, we propose a Poisson graph generator to adaptively construct topological graphs for samples in each mini-batches via a sampling process, and correspondingly design a coordinate descent strategy to optimize proposed network. Our method outperforms state-of-the-art works with accuracies of 91.84% and 91.11% on the benchmark datasets FERPlus and RAF-DB, respectively, and when the percentage of mislabeled data increases (e.g., to 20%), our network surpasses existing works significantly by 3.38% and 4.52%.
翻訳日:2022-07-25 13:13:16 公開日:2022-07-22
# InfiniteNature-Zero:単一画像から自然シーンの永遠視点生成を学習する

InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images ( http://arxiv.org/abs/2207.11148v1 )

ライセンス: Link先を確認
Zhengqi Li, Qianqian Wang, Noah Snavely, Angjoo Kanazawa(参考訳) 本稿では,カメラのポーズやシーンの複数ビューを必要とせず,単一の写真コレクションから学習する自然シーンの非有界なフライスルー映像を生成する方法を提案する。 そこで本研究では,輪郭を含む仮想カメラ軌跡をサンプリング・レンダリングし,単一のビューの集合から安定したビュー生成を学習する,新しい自己教師型ビュー生成訓練パラダイムを提案する。 テスト時には、トレーニング中にビデオを見ることはないが、われわれのアプローチは1枚の画像を撮って、リアルで多様なコンテンツを含む何百もの新しいビューからなる長いカメラの軌跡を生成することができる。 提案手法を,多視点映像の提示を必要とする最新の最先端の教師付きビュー生成手法と比較し,優れた性能と合成品質を示す。

We present a method for learning to generate unbounded flythrough videos of natural scenes starting from a single view, where this capability is learned from a collection of single photographs, without requiring camera poses or even multiple views of each scene. To achieve this, we propose a novel self-supervised view generation training paradigm, where we sample and rendering virtual camera trajectories, including cyclic ones, allowing our model to learn stable view generation from a collection of single views. At test time, despite never seeing a video during training, our approach can take a single image and generate long camera trajectories comprised of hundreds of new views with realistic and diverse content. We compare our approach with recent state-of-the-art supervised view generation methods that require posed multi-view videos and demonstrate superior performance and synthesis quality.
翻訳日:2022-07-25 13:12:53 公開日:2022-07-22
# 適応型ソフトコントラスト学習

Adaptive Soft Contrastive Learning ( http://arxiv.org/abs/2207.11163v1 )

ライセンス: Link先を確認
Chen Feng, Ioannis Patras(参考訳) 自己教師付き学習は最近、人間のアノテーションなしで表現学習で大きな成功を収めている。 対照的な学習法である支配的手法は、一般的にインスタンス識別タスクに基づいており、個々のサンプルは独立したカテゴリとして扱われる。 しかし、全てのサンプルが異なると仮定すると、同じ犬の複数のビューのような共通の視覚的データセットにおける類似のサンプルの自然なグループ化と矛盾する。 本稿では,このギャップを埋めるために,ソフトサンプル間関係,すなわち適応ソフトコントラスト学習(ascl)を導入する適応的手法を提案する。 より具体的には、ASCLは元のインスタンス識別タスクをマルチインスタンスソフト識別タスクに変換し、サンプル間の関係を適応的に導入する。 既存の自己教師付き学習フレームワークのための効果的かつ簡潔なプラグインモジュールとして、ASCLはパフォーマンスと効率の両面で、いくつかのベンチマークで最高のパフォーマンスを達成する。 コードはhttps://github.com/mrchenfeng/ascl_icpr2022で入手できる。

Self-supervised learning has recently achieved great success in representation learning without human annotations. The dominant method -- that is contrastive learning, is generally based on instance discrimination tasks, i.e., individual samples are treated as independent categories. However, presuming all the samples are different contradicts the natural grouping of similar samples in common visual datasets, e.g., multiple views of the same dog. To bridge the gap, this paper proposes an adaptive method that introduces soft inter-sample relations, namely Adaptive Soft Contrastive Learning (ASCL). More specifically, ASCL transforms the original instance discrimination task into a multi-instance soft discrimination task, and adaptively introduces inter-sample relations. As an effective and concise plug-in module for existing self-supervised learning frameworks, ASCL achieves the best performance on several benchmarks in terms of both performance and efficiency. Code is available at https://github.com/MrChenFeng/ASCL_ICPR2022.
翻訳日:2022-07-25 13:12:39 公開日:2022-07-22
# 自己制御型核符号化のためのスケール依存層

Scale dependant layer for self-supervised nuclei encoding ( http://arxiv.org/abs/2207.10950v1 )

ライセンス: Link先を確認
Peter Naylor, Yao-Hung Hubert Tsai, Marick La\'e and Makoto Yamada(参考訳) 近年の自己教師あり学習の発展は、関心の対象を中心に焦点が進化する多段階パイプラインにおける人間の介入をさらに減少させる可能性がある。 本稿では,病理組織像中の核に焦点を配置する。 特に,ダウンストリームタスクに対して教師なしの方法でセル情報を抽出することを目的とした。 核は様々なサイズに存在するため、核の再サイズ時にスケーリング問題をバイパスする新しいスケール依存畳み込み層を提案する。 3つの核データセットで、手作り、事前訓練されたResNet、教師付きResNet、自己管理機能などの手法をベンチマークする。 提案した畳み込み層は性能を向上し,この層とBarlows-Twinsの組み合わせにより,低サンプリング設定における教師付きパラダイムよりも優れた核符号化が可能であり,他の教師なし手法よりも優れていることを示す。 さらに、既存のTNBCデータセットを拡張して、核分類と分類のための小さなサンプル設定データセットを充実・公開するために、核クラスアノテーションを組み込む。

Recent developments in self-supervised learning give us the possibility to further reduce human intervention in multi-step pipelines where the focus evolves around particular objects of interest. In the present paper, the focus lays in the nuclei in histopathology images. In particular we aim at extracting cellular information in an unsupervised manner for a downstream task. As nuclei present themselves in a variety of sizes, we propose a new Scale-dependant convolutional layer to bypass scaling issues when resizing nuclei. On three nuclei datasets, we benchmark the following methods: handcrafted, pre-trained ResNet, supervised ResNet and self-supervised features. We show that the proposed convolution layer boosts performance and that this layer combined with Barlows-Twins allows for better nuclei encoding compared to the supervised paradigm in the low sample setting and outperforms all other proposed unsupervised methods. In addition, we extend the existing TNBC dataset to incorporate nuclei class annotation in order to enrich and publicly release a small sample setting dataset for nuclei segmentation and classification.
翻訳日:2022-07-25 13:10:13 公開日:2022-07-22
# テクスチャ情報に基づく可視・近赤外画像融合

Visible and Near Infrared Image Fusion Based on Texture Information ( http://arxiv.org/abs/2207.10953v1 )

ライセンス: Link先を確認
Guanyu Zhang, Beichen Sun, Yuehan Qi, Yang Liu(参考訳) マルチセンサー融合は、自動運転車の環境認識システムで広く利用されている。 環境変化による干渉を解消し、運転システム全体がより安全で信頼性の高いものにする。 本稿では, テクスチャ情報に基づく新しい可視・近赤外融合法を提案し, 環境画像の非構造化を図った。 従来の可視・近赤外画像融合法におけるアーティファクト,情報損失,ノイズの問題を目的とした。 まず、融合画像の基本層としての相対総変量(RTV)計算により、テクスチャ除去後の可視画像(RGB)と近赤外画像(NIR)の構造情報を求め、第2に、ベイズ分類モデルを確立して、可視画像内の雑音情報と雑音量とを、共同フィルタにより適応的にフィルタリングし、次いで、色空間変換により融合画像を得る。 実験結果から,提案手法は,可視・近赤外画像のスペクトル特性と固有情報を,アーチファクトや色歪を伴わずに保存でき,しかも独特のテクスチャを保ちながら頑健性が保たれることを示した。

Multi-sensor fusion is widely used in the environment perception system of the autonomous vehicle. It solves the interference caused by environmental changes and makes the whole driving system safer and more reliable. In this paper, a novel visible and near-infrared fusion method based on texture information is proposed to enhance unstructured environmental images. It aims at the problems of artifact, information loss and noise in traditional visible and near infrared image fusion methods. Firstly, the structure information of the visible image (RGB) and the near infrared image (NIR) after texture removal is obtained by relative total variation (RTV) calculation as the base layer of the fused image; secondly, a Bayesian classification model is established to calculate the noise weight and the noise information and the noise information in the visible image is adaptively filtered by joint bilateral filter; finally, the fused image is acquired by color space conversion. The experimental results demonstrate that the proposed algorithm can preserve the spectral characteristics and the unique information of visible and near-infrared images without artifacts and color distortion, and has good robustness as well as preserving the unique texture.
翻訳日:2022-07-25 13:09:54 公開日:2022-07-22
# 高速なVoxelPose:オーソグラフィー投影によるリアルタイム3次元人物位置推定

Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic Projection ( http://arxiv.org/abs/2207.10955v1 )

ライセンス: Link先を確認
Hang Ye, Wentao Zhu, Chunyu Wang, Rujie Wu, Yizhou Wang(参考訳) ボクセル法はマルチカメラによる多人数3Dポーズ推定において有望な結果を得たが、特に大きなシーンでは計算負荷が重い。 我々は, 3次元座標面に特徴量を再投影し, x, y, z 座標をそれぞれ別々に推定することにより,より高速なvoxelposeを提案する。 そのために,xy平面とz軸に投影された体積特徴に基づいて2dボックスとその高さを推定し,まず3dバウンディングボックスで各人物をローカライズする。 そして、各人物に対して、3つの座標平面から部分的な関節座標を推定し、これらを融合させて最終3次元ポーズを求める。 この手法は高価な3d-cnnsを含まず、voxelposeの速度を10倍に向上させると同時に、最先端の手法としての競合精度を実現し、リアルタイムアプリケーションにおけるその可能性を証明している。

While the voxel-based methods have achieved promising results for multi-person 3D pose estimation from multi-cameras, they suffer from heavy computation burdens, especially for large scenes. We present Faster VoxelPose to address the challenge by re-projecting the feature volume to the three two-dimensional coordinate planes and estimating X, Y, Z coordinates from them separately. To that end, we first localize each person by a 3D bounding box by estimating a 2D box and its height based on the volume features projected to the xy-plane and z-axis, respectively. Then for each person, we estimate partial joint coordinates from the three coordinate planes separately which are then fused to obtain the final 3D pose. The method is free from costly 3D-CNNs and improves the speed of VoxelPose by ten times and meanwhile achieves competitive accuracy as the state-of-the-art methods, proving its potential in real-time applications.
翻訳日:2022-07-25 13:09:33 公開日:2022-07-22
# QueryProp: 高性能ビデオオブジェクト検出のためのオブジェクトクエリプロパゲーション

QueryProp: Object Query Propagation for High-Performance Video Object Detection ( http://arxiv.org/abs/2207.10959v1 )

ライセンス: Link先を確認
Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang(参考訳) ビデオオブジェクト検出はコンピュータビジョンにおいて重要かつ困難なトピックである。 従来の手法は主に、時間情報を活用するための画像レベルまたはボックスレベルの特徴伝搬戦略の設計に重点を置いている。 本稿では,より効率的かつ効率的な特徴伝搬フレームワークにより,ビデオオブジェクト検出器は精度と速度の両面で向上できると主張している。 本稿では,オブジェクトレベルの特徴伝達について検討し,高性能ビデオオブジェクト検出のためのobject query propagation(queryprop)フレームワークを提案する。 提案するクエリプロップは2つの伝播戦略を含んでいる。 1)スパースキーフレームから密度の高い非キーフレームへのクエリ伝搬を行い、非キーフレームの冗長な計算を低減する。 2) 先行キーフレームから現在のキーフレームへのクエリ伝達を行い、時間的コンテキストモデリングによる特徴表現を改善する。 さらにクエリの伝達を容易にするため、適応型伝搬ゲートは柔軟なキーフレーム選択を実現するよう設計されている。 imagenet vidデータセットに関する広範な実験を行う。 QueryPropは最先端のメソッドで同等の精度を実現し、適切な精度/速度のトレードオフを行う。 コードはhttps://github.com/hf1995/QueryProp.comで入手できる。

Video object detection has been an important yet challenging topic in computer vision. Traditional methods mainly focus on designing the image-level or box-level feature propagation strategies to exploit temporal information. This paper argues that with a more effective and efficient feature propagation framework, video object detectors can gain improvement in terms of both accuracy and speed. For this purpose, this paper studies object-level feature propagation, and proposes an object query propagation (QueryProp) framework for high-performance video object detection. The proposed QueryProp contains two propagation strategies: 1) query propagation is performed from sparse key frames to dense non-key frames to reduce the redundant computation on non-key frames; 2) query propagation is performed from previous key frames to the current key frame to improve feature representation by temporal context modeling. To further facilitate query propagation, an adaptive propagation gate is designed to achieve flexible key frame selection. We conduct extensive experiments on the ImageNet VID dataset. QueryProp achieves comparable accuracy with state-of-the-art methods and strikes a decent accuracy/speed trade-off. Code is available at https://github.com/hf1995/QueryProp.
翻訳日:2022-07-25 13:09:15 公開日:2022-07-22
# 男性におけるx線画像からの日和見性股関節骨折リスク予測 : 男性における骨粗しょう症(mros)研究から

Opportunistic hip fracture risk prediction in Men from X-ray: Findings from the Osteoporosis in Men (MrOS) Study ( http://arxiv.org/abs/2207.10970v1 )

ライセンス: Link先を確認
Lars Schmarje, Stefan Reinhold, Timo Damm, Eric Orwoll, Claus-C. Gl\"uer, Reinhard Koch(参考訳) 骨粗しょう症は骨折のリスクを高める一般的な疾患である。 特に高齢者の股関節骨折は、死亡率の増加、生活の質の低下、死亡率の増加につながる。 骨折の前は静かな疾患であり、しばしば診断も治療も行われない。 dual-energy x-ray absorptiometry (dxa) により評価された骨骨密度 (abmd) は骨粗しょう症診断の金本位法であり, 将来の骨折予測 (予後) にも用いられる。 しかし、特に発展途上国の患者に限らず、必要な特別な機器は至るところでは利用できない。 そこで本研究では,CT(CT)データのX線および2次元投影画像から,股関節骨折のリスクを直接予測できる深層学習分類モデルを提案する。 本手法は完全に自動化されており,追加のスクリーニングを行わずに,より広い人口のリスクの高い患者を特定できるため,日和見スクリーニング設定に適している。 MrOS(MrOS)によるX線およびCT投射の訓練と評価を行った。 3108X線(89例の股関節骨折)または2150CT(80例の股関節骨折)を用いた。 AUCは81.44 +- 3.11% / 81.04 +- 5.54% (平均+-STD) で, 年齢, BMI, 転倒履歴, 健康背景などの情報をX線コホートとCTコホートで5倍の精度で予測できることが示されている。 p < 0.01) のアプローチは、x線コホート上の cox proportional-hazards モデルや \frax の 70.19 +- 6.58 と 74.72 +- 7.21 の手法よりも著しく優れている。 両コホーツABMDによる予測では,モデルが優れていた。 早期に破骨菌症診断の改善にFORMが貢献できると確信している。

Osteoporosis is a common disease that increases fracture risk. Hip fractures, especially in elderly people, lead to increased morbidity, decreased quality of life and increased mortality. Being a silent disease before fracture, osteoporosis often remains undiagnosed and untreated. Areal bone mineral density (aBMD) assessed by dual-energy X-ray absorptiometry (DXA) is the gold-standard method for osteoporosis diagnosis and hence also for future fracture prediction (prognostic). However, the required special equipment is not broadly available everywhere, in particular not to patients in developing countries. We propose a deep learning classification model (FORM) that can directly predict hip fracture risk from either plain radiographs (X-ray) or 2D projection images of computed tomography (CT) data. Our method is fully automated and therefore well suited for opportunistic screening settings, identifying high risk patients in a broader population without additional screening. FORM was trained and evaluated on X-rays and CT projections from the Osteoporosis in Men (MrOS) study. 3108 X-rays (89 incident hip fractures) or 2150 CTs (80 incident hip fractures) with a 80/20 split were used. We show that FORM can correctly predict the 10-year hip fracture risk with a validation AUC of 81.44 +- 3.11% / 81.04 +- 5.54% (mean +- STD) including additional information like age, BMI, fall history and health background across a 5-fold cross validation on the X-ray and CT cohort, respectively. Our approach significantly (p < 0.01) outperforms previous methods like Cox Proportional-Hazards Model and \frax with 70.19 +- 6.58 and 74.72 +- 7.21 respectively on the X-ray cohort. Our model outperform on both cohorts hip aBMD based predictions. We are confident that FORM can contribute on improving osteoporosis diagnosis at an early stage.
翻訳日:2022-07-25 13:08:57 公開日:2022-07-22
# ビデオに基づくヒューマンポーズ推定のための関節の時間相関のモデル化による人体運動学の学習

Learning Human Kinematics by Modeling Temporal Correlations between Joints for Video-based Human Pose Estimation ( http://arxiv.org/abs/2207.10971v1 )

ライセンス: Link先を確認
Yonghao Dang, Jianqin Yin, Shaojie Zhang, Jiping Liu, Yanzhu Hu(参考訳) ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。 人間のポーズを正確に推定することで、ロボットは人間に適切な反応を与えることができる。 既存のアプローチのほとんどは、ビデオから時間的特徴を抽出するために光学フロー、RNN、CNNを使用している。 これらの試みの肯定的な結果にもかかわらず、ほとんどは、関節間の時間的相関を無視して、時間的次元に沿って、簡単に特徴を統合するだけである。 従来手法とは対照的に,異なるフレーム間での関節間の時間的相関を明示的にモデル化するドメインクロスアテンション機構に基づくKMM(プラグイン・アンド・プレイ・キネマティクス・モデリング・モジュール)を提案する。 具体的には、提案したKMMは、その時間的類似性を計算することによって、任意の2つの関節間の時間的相関をモデル化する。 このようにして、KMMは各関節の動きの手がかりを学習することができる。 運動手がかり(時間領域)と関節の歴史的位置(空間領域)を用いて、KMMは前もって現在のフレームにおける関節の初期位置を推測することができる。 また,KMMに基づくキネマティックス・モデリング・ネットワーク(KIMNet)を提案し,ポーズ特徴と関節の初期位置を組み合わせることで関節の最終位置を求める。 KIMNetは、関節間の時間的相関を明示的にモデル化することにより、現在の閉塞した関節を前モーメントのすべての関節に従って推測することができる。 さらに、KMMは注目機構によって達成され、高解像度の機能を維持することができる。 そのため、現在フレームにリッチな歴史的ポーズ情報を転送することができ、閉塞した関節の位置を特定する効果的なポーズ情報を提供する。 本手法は2つの標準ビデオベースポーズ推定ベンチマークで最先端の結果を得る。 さらに, 提案手法の有効性を示すとともに, 咬合に対するロバスト性を示す。

Estimating human poses from videos is critical in human-computer interaction. By precisely estimating human poses, the robot can provide an appropriate response to the human. Most existing approaches use the optical flow, RNNs, or CNNs to extract temporal features from videos. Despite the positive results of these attempts, most of them only straightforwardly integrate features along the temporal dimension, ignoring temporal correlations between joints. In contrast to previous methods, we propose a plug-and-play kinematics modeling module (KMM) based on the domain-cross attention mechanism to model the temporal correlation between joints across different frames explicitly. Specifically, the proposed KMM models the temporal correlation between any two joints by calculating their temporal similarity. In this way, KMM can learn the motion cues of each joint. Using the motion cues (temporal domain) and historical positions of joints (spatial domain), KMM can infer the initial positions of joints in the current frame in advance. In addition, we present a kinematics modeling network (KIMNet) based on the KMM for obtaining the final positions of joints by combining pose features and initial positions of joints. By explicitly modeling temporal correlations between joints, KIMNet can infer the occluded joints at present according to all joints at the previous moment. Furthermore, the KMM is achieved through an attention mechanism, which allows it to maintain the high resolution of features. Therefore, it can transfer rich historical pose information to the current frame, which provides effective pose information for locating occluded joints. Our approach achieves state-of-the-art results on two standard video-based pose estimation benchmarks. Moreover, the proposed KIMNet shows some robustness to the occlusion, demonstrating the effectiveness of the proposed method.
翻訳日:2022-07-25 13:08:18 公開日:2022-07-22
# ニューラル:自律的3次元再構成のための神経不確かさ

NeurAR: Neural Uncertainty for Autonomous 3D Reconstruction ( http://arxiv.org/abs/2207.10985v1 )

ライセンス: Link先を確認
Yunlong Ran, Jing Zeng, Shibo He, Lincheng Li, Yingfeng Chen, Gimhee Lee, Jiming Chen, Qi Ye(参考訳) 暗黙の神経表現はオフラインの3D再構成において魅力的な結果を示し、オンラインSLAMシステムの可能性も最近示した。 しかし, ロボットが現場を探索し, 展望経路を計画する必要がある自律的3次元再構築に適用することは研究されていない。 本稿では,2つの課題に対処して,自律的3次元シーン再構成のための暗黙的ニューラルネットワーク表現の利用の可能性について初めて検討する。 1)新しい表現に基づく視点計画の候補視点の質を評価する基準を求めること 2)手作りではなく,様々な場面に一般化できるデータから基準を学習する。 最初の課題として、視点品質を定量化するために、ピーク信号対雑音比(PSNR)のプロキシを提案する。 シーン内の空間点の色を決定論的ではなくガウス分布下の確率変数として扱い、その分布の分散が再構成の不確かさを定量化し、プロキシを構成することにより、プロキシを取得する。 第2の課題として、プロキシはシーンの暗黙のニューラルネットワークのパラメータと共同で最適化される。 提案するビュー品質基準により,新たな表現を自律的3次元再構成に適用することができる。 本手法は,レンダリングされた画像品質および再構成した3次元モデルの形状品質について,tsdfや表示計画を用いない再構成法と比較して,様々な指標において有意な改善を示す。

Implicit neural representations have shown compelling results in offline 3D reconstruction and also recently demonstrated the potential for online SLAM systems. However, applying them to autonomous 3D reconstruction, where robots are required to explore a scene and plan a view path for the reconstruction, has not been studied. In this paper, we explore for the first time the possibility of using implicit neural representations for autonomous 3D scene reconstruction by addressing two key challenges: 1) seeking a criterion to measure the quality of the candidate viewpoints for the view planning based on the new representations, and 2) learning the criterion from data that can generalize to different scenes instead of hand-crafting one. For the first challenge, a proxy of Peak Signal-to-Noise Ratio (PSNR) is proposed to quantify a viewpoint quality. The proxy is acquired by treating the color of a spatial point in a scene as a random variable under a Gaussian distribution rather than a deterministic one; the variance of the distribution quantifies the uncertainty of the reconstruction and composes the proxy. For the second challenge, the proxy is optimized jointly with the parameters of an implicit neural network for the scene. With the proposed view quality criterion, we can then apply the new representations to autonomous 3D reconstruction. Our method demonstrates significant improvements on various metrics for the rendered image quality and the geometry quality of the reconstructed 3D models when compared with variants using TSDF or reconstruction without view planning.
翻訳日:2022-07-25 13:07:52 公開日:2022-07-22
# 少数ショット物体の計数と検出

Few-shot Object Counting and Detection ( http://arxiv.org/abs/2207.10988v1 )

ライセンス: Link先を確認
Thanh Nguyen, Chau Pham, Khoi Nguyen, Minh Hoai(参考訳) 我々は、少数のオブジェクトのカウントと検出という新しいタスクに取り組む。 対象のオブジェクトクラスのいくつかの典型的なバウンディングボックスを考えると、ターゲットのクラスのすべてのオブジェクトをカウントして検出しようとします。 このタスクは、少数ショットオブジェクトカウントと同じ監督を共有し、さらにオブジェクトバウンディングボックスと合計オブジェクトカウントを出力します。 この課題に対処するために、新しい2段階トレーニング戦略と、新しい不確実性を認識した複数ショットオブジェクト検出器、Counting-DETRを導入する。 前者は、後者を訓練するための擬似接地箱を作成することを目的としている。 後者は、前者が提供した擬似的地中真理を利用するが、擬似的地中真理の不完全性を考慮するために必要なステップを踏む。 提案手法の有効性を検証するため,FSCD-147とFSCD-LVISという2つの新しいデータセットを導入した。 どちらのデータセットも複雑なシーン、画像ごとに複数のオブジェクトクラス、オブジェクトの形状、サイズ、外観に大きなバリエーションがある。 提案手法は,少数ショットのオブジェクトカウントと少数ショットのオブジェクト検出に適応した強力なベースラインに優れ,測定値と検出値の両方に大きな差がある。 コードとモデルは \url{https://github.com/vinairesearch/counting-detr} で入手できる。

We tackle a new task of few-shot object counting and detection. Given a few exemplar bounding boxes of a target object class, we seek to count and detect all objects of the target class. This task shares the same supervision as the few-shot object counting but additionally outputs the object bounding boxes along with the total object count. To address this challenging problem, we introduce a novel two-stage training strategy and a novel uncertainty-aware few-shot object detector: Counting-DETR. The former is aimed at generating pseudo ground-truth bounding boxes to train the latter. The latter leverages the pseudo ground-truth provided by the former but takes the necessary steps to account for the imperfection of pseudo ground-truth. To validate the performance of our method on the new task, we introduce two new datasets named FSCD-147 and FSCD-LVIS. Both datasets contain images with complex scenes, multiple object classes per image, and a huge variation in object shapes, sizes, and appearance. Our proposed approach outperforms very strong baselines adapted from few-shot object counting and few-shot object detection with a large margin in both counting and detection metrics. The code and models are available at \url{https://github.com/VinAIResearch/Counting-DETR}.
翻訳日:2022-07-25 13:07:29 公開日:2022-07-22
# メタ登録:シングルペア画像登録のための学習テスト時間最適化

Meta-Registration: Learning Test-Time Optimization for Single-Pair Image Registration ( http://arxiv.org/abs/2207.10996v1 )

ライセンス: Link先を確認
Zachary MC Baum, Yipeng Hu, Dean C Barratt(参考訳) ニューラルネットワークは、画像ペア間の最適な変換である大量のトレーニングデータを用いて、学習による医用画像の登録のために提案されている。 これらのトレーニングされたネットワークは、テストタイム最適化として知られる単一のテストイメージにさらに最適化することができる。 この研究は、画像登録をメタ学習アルゴリズムとして定式化する。 このようなネットワークは、トレーニング画像ペアの調整と、テスト時間最適化の有効性の向上を同時に行うことで、トレーニングすることができる。 提案するメタ登録は,ネットワークの"外部"メタ最適化におけるテスト時間最適化の効率と効果を最大化するために仮定されている。 トレーニングデータでは時間的にクリティカルなアプリケーションが多いが、潜在的に得られる速度と精度は、古典的な登録アルゴリズム、メタラーニングなし登録ネットワーク、テスト時間最適化データなしのシングルペア最適化と比較される。 前立腺癌108例の臨床経直腸超音波画像データを用いて実験を行った。 これらの実験により,メタ登録プロトコルの有効性が実証され,既存の学習手法と比較して性能が大幅に向上した。 さらに、メタ登録は、テスト時の迅速な最適化プロセスのため、ほんの少しの時間で、古典的な反復メソッドに匹敵する結果を得る。

Neural networks have been proposed for medical image registration by learning, with a substantial amount of training data, the optimal transformations between image pairs. These trained networks can further be optimized on a single pair of test images - known as test-time optimization. This work formulates image registration as a meta-learning algorithm. Such networks can be trained by aligning the training image pairs while simultaneously improving test-time optimization efficacy; tasks which were previously considered two independent training and optimization processes. The proposed meta-registration is hypothesized to maximize the efficiency and effectiveness of the test-time optimization in the "outer" meta-optimization of the networks. For image guidance applications that often are time-critical yet limited in training data, the potentially gained speed and accuracy are compared with classical registration algorithms, registration networks without meta-learning, and single-pair optimization without test-time optimization data. Experiments are presented in this paper using clinical transrectal ultrasound image data from 108 prostate cancer patients. These experiments demonstrate the effectiveness of a meta-registration protocol, which yields significantly improved performance relative to existing learning-based methods. Furthermore, the meta-registration achieves comparable results to classical iterative methods in a fraction of the time, owing to its rapid test-time optimization process.
翻訳日:2022-07-25 13:07:01 公開日:2022-07-22
# POP:ウェブ型クロスモーダルクエリ拡張による新ファッション製品のマイニング性能

POP: Mining POtential Performance of new fashion products via webly cross-modal query expansion ( http://arxiv.org/abs/2207.11001v1 )

ライセンス: Link先を確認
Christian Joppi, Geri Skenderi, Marco Cristani(参考訳) 本研究では,新ファッション製品性能予測(NFPPF)問題に対する外因性観測データを生成することのできるデータ中心パイプラインを提案する。 われわれのパイプラインは、洋服プローブの1枚の画像から、行方不明の過去を製作する。 まず、画像に関連するテキストタグを拡張して、過去に特定の時間にウェブにアップロードされたファッションやファッションのできない画像を検索する。 バイナリ分類器は、これらのWebイメージに対して、確実な学習によって堅牢にトレーニングされ、過去のファッション性やプローブイメージがこのファッション性の概念にどの程度準拠しているかを学習する。 このコンプライアンスは、潜在的なパフォーマンス(pop)時系列を生成し、早期に利用可能になった場合のプローブの実行方法を示している。 POPは、最近のVISUELLEファストファッションデータセットにおけるすべての最先端モデルのセールス予測を改善することで、プローブの将来のパフォーマンスを非常に予測可能であることを証明している。 また,POPはFashion Forwardベンチマークにおける新しいスタイル(服飾品のアンサンブル)の根本的人気を反映し,我々のWeb学習信号が真に人気を表現し,誰でもアクセスでき,分析のどの時点でも一般化可能であることを示す。 コード、データ、POP時系列は、https://github.com/HumaticsLAB/POP-Mining-Potential-Performance.comで公開されている。

We propose a data-centric pipeline able to generate exogenous observation data for the New Fashion Product Performance Forecasting (NFPPF) problem, i.e., predicting the performance of a brand-new clothing probe with no available past observations. Our pipeline manufactures the missing past starting from a single, available image of the clothing probe. It starts by expanding textual tags associated with the image, querying related fashionable or unfashionable images uploaded on the web at a specific time in the past. A binary classifier is robustly trained on these web images by confident learning, to learn what was fashionable in the past and how much the probe image conforms to this notion of fashionability. This compliance produces the POtential Performance (POP) time series, indicating how performing the probe could have been if it were available earlier. POP proves to be highly predictive for the probe's future performance, ameliorating the sales forecasts of all state-of-the-art models on the recent VISUELLE fast-fashion dataset. We also show that POP reflects the ground-truth popularity of new styles (ensembles of clothing items) on the Fashion Forward benchmark, demonstrating that our webly-learned signal is a truthful expression of popularity, accessible by everyone and generalizable to any time of analysis. Forecasting code, data and the POP time series are available at: https://github.com/HumaticsLAB/POP-Mining-POtential-Performance
翻訳日:2022-07-25 13:06:41 公開日:2022-07-22
# クラスインクリメンタルな教師なしドメイン適応のためのプロトタイプ誘導連続適応

Prototype-Guided Continual Adaptation for Class-Incremental Unsupervised Domain Adaptation ( http://arxiv.org/abs/2207.10856v1 )

ライセンス: Link先を確認
Hongbin Lin, Yifan Zhang, Zhen Qiu, Shuaicheng Niu, Chuang Gan, Yanxia Liu, Mingkui Tan(参考訳) 本稿では、ラベル付きソースドメインにすべてのクラスが含まれているが、ラベルなしターゲットドメイン内のクラスが順次増加する、CI-UDA(Class-Incremental Unsupervised Domain Adaptation)と呼ばれる新しい、実用的で困難な問題について研究する。 この問題は2つの困難から難しい。 まず、ソースとターゲットのラベルセットは各タイムステップで一貫性がなく、正確なドメインアライメントの実行が困難になる。 第二に、以前のターゲットクラスは現在のステップでは利用できないため、以前の知識を忘れることになる。 そこで本研究では,2つのソリューション戦略からなるPrototype-Guided Continual Adaptation (ProCA)法を提案する。 1) ラベルプロトタイプ識別: ターゲットサンプルの累積予測確率で共有クラスを検出することで,ターゲットラベルプロトタイプを識別する。 2) プロトタイプに基づくアライメントとリプレイ: 識別されたラベルのプロトタイプに基づいて、両方のドメインをアライメントし、モデルに事前の知識を保持するよう強制する。 これら2つの戦略により、ProCAは、ソースモデルをクラスインクリメンタルな未ラベルのターゲットドメインに効果的に適応させることができる。 広範囲な実験は、CI-UDAの解決におけるProCAの有効性と優位性を示している。 ソースコードはhttps://github.com/Hongbin98/ProCA.gitで入手できる。

This paper studies a new, practical but challenging problem, called Class-Incremental Unsupervised Domain Adaptation (CI-UDA), where the labeled source domain contains all classes, but the classes in the unlabeled target domain increase sequentially. This problem is challenging due to two difficulties. First, source and target label sets are inconsistent at each time step, which makes it difficult to conduct accurate domain alignment. Second, previous target classes are unavailable in the current step, resulting in the forgetting of previous knowledge. To address this problem, we propose a novel Prototype-guided Continual Adaptation (ProCA) method, consisting of two solution strategies. 1) Label prototype identification: we identify target label prototypes by detecting shared classes with cumulative prediction probabilities of target samples. 2) Prototype-based alignment and replay: based on the identified label prototypes, we align both domains and enforce the model to retain previous knowledge. With these two strategies, ProCA is able to adapt the source model to a class-incremental unlabeled target domain effectively. Extensive experiments demonstrate the effectiveness and superiority of ProCA in resolving CI-UDA. The source code is available at https://github.com/Hongbin98/ProCA.git
翻訳日:2022-07-25 13:04:08 公開日:2022-07-22
# geodesic-former:ジオデシックガイドによる3dポイントクラウドインスタンスセグメンタ

Geodesic-Former: a Geodesic-Guided Few-shot 3D Point Cloud Instance Segmenter ( http://arxiv.org/abs/2207.10859v1 )

ライセンス: Link先を確認
Tuan Ngo and Khoi Nguyen(参考訳) 本稿では3Dポイントクラウドにおける新しい問題を紹介する。 ターゲットクラスを例示するいくつかの注釈付きポイントクラウドを考えると、このターゲットクラスのすべてのインスタンスをクエリポイントクラウドに分割することが目標です。 この問題には、ポイントワイズインスタンスセグメンテーションアノテーションが収集に極めて高価である幅広い実用的応用がある。 この問題を解決するために、geodesic-former - 3d point cloudインスタンスセグメンテーションのための最初の測地線ガイドトランスフォーマを提案する。 鍵となる考え方は、測地線距離を利用して、LiDAR 3D点雲の密度不均衡に取り組むことである。 LiDAR 3Dポイントの雲は、物体表面の近くに密集しており、ユークリッド距離が異なる物体を区別する効果を弱めている。 一方、測地距離は、トランスフォーマデコーダの注意機構の誘導信号として使用できるシーンの幾何学を符号化し、インスタンスの異なる特徴を表すカーネルを生成するため、より適している。 これらのカーネルは、最終的なインスタンスマスクを得るために動的畳み込みで使用される。 新しいタスクでジオデシックフォーマを評価するために、scannetv2とs3disという2つの一般的な3dポイントクラウドインスタンスセグメンテーションデータセットの新しい分割を提案する。 geodesic-formerは、最先端の3dポイントクラウドインスタンスセグメンテーションアプローチに適応した強力なベースラインを一貫して上回っている。 コードはhttps://github.com/vinairesearch/geoformerで入手できる。

This paper introduces a new problem in 3D point cloud: few-shot instance segmentation. Given a few annotated point clouds exemplified a target class, our goal is to segment all instances of this target class in a query point cloud. This problem has a wide range of practical applications where point-wise instance segmentation annotation is prohibitively expensive to collect. To address this problem, we present Geodesic-Former -- the first geodesic-guided transformer for 3D point cloud instance segmentation. The key idea is to leverage the geodesic distance to tackle the density imbalance of LiDAR 3D point clouds. The LiDAR 3D point clouds are dense near the object surface and sparse or empty elsewhere making the Euclidean distance less effective to distinguish different objects. The geodesic distance, on the other hand, is more suitable since it encodes the scene's geometry which can be used as a guiding signal for the attention mechanism in a transformer decoder to generate kernels representing distinct features of instances. These kernels are then used in a dynamic convolution to obtain the final instance masks. To evaluate Geodesic-Former on the new task, we propose new splits of the two common 3D point cloud instance segmentation datasets: ScannetV2 and S3DIS. Geodesic-Former consistently outperforms strong baselines adapted from state-of-the-art 3D point cloud instance segmentation approaches with a significant margin. Code is available at https://github.com/VinAIResearch/GeoFormer.
翻訳日:2022-07-25 13:03:45 公開日:2022-07-22
# コントラシブ・セルフ・スーパーバイザード・ラーニングの高次適応性について

On Higher Adversarial Susceptibility of Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2207.10862v1 )

ライセンス: Link先を確認
Rohit Gupta, Naveed Akhtar, Ajmal Mian and Mubarak Shah(参考訳) コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。 しかし、2つの学習パラダイムによって引き起こされる表現の性質が似ているかどうかは、いまだによく分かっていない。 敵対的ロバストネスのレンズで調査する。 本研究は,教師付き学習よりもcslの感度が高いことを明らかにする。 CSL表現空間における単位超球面上のデータ表現の均一分布を、この現象の鍵となる要因として特定する。 トレーニングデータに偽陰性が存在する場合,入力摂動に対するモデル感度が向上することが確認できた。 本研究は, 対向的摂動と他の入力汚職を用いた画像分類と映像分類の広範な実験によって裏付けられる。 洞察に基づいて、CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。 対向攻撃型CSLと教師付きCSLとのパフォーマンスギャップを最大68%減少させることを示した。 最後に, 対戦型自己指導学習の成果を取り入れ, 堅牢なCSLパラダイムに寄与する。 この領域における2つの異なる最先端手法に対して平均5%の利得を示す。

Contrastive self-supervised learning (CSL) has managed to match or surpass the performance of supervised learning in image and video classification. However, it is still largely unknown if the nature of the representation induced by the two learning paradigms is similar. We investigate this under the lens of adversarial robustness. Our analytical treatment of the problem reveals intrinsic higher sensitivity of CSL over supervised learning. It identifies the uniform distribution of data representation over a unit hypersphere in the CSL representation space as the key contributor to this phenomenon. We establish that this increases model sensitivity to input perturbations in the presence of false negatives in the training data. Our finding is supported by extensive experiments for image and video classification using adversarial perturbations and other input corruptions. Building on the insights, we devise strategies that are simple, yet effective in improving model robustness with CSL training. We demonstrate up to 68% reduction in the performance gap between adversarially attacked CSL and its supervised counterpart. Finally, we contribute to robust CSL paradigm by incorporating our findings in adversarial self-supervised learning. We demonstrate an average gain of about 5% over two different state-of-the-art methods in this domain.
翻訳日:2022-07-25 13:03:15 公開日:2022-07-22
# 単発セグメンテーションのための4次元畳み込みスウィントランスによるコストアグリゲーション

Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation ( http://arxiv.org/abs/2207.10866v1 )

ライセンス: Link先を確認
Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim(参考訳) 本稿では,VAT(Volumetric Aggregation with Transformers)と呼ばれる新しいコスト集約ネットワークを提案する。 変圧器の使用は、グローバル受容場上の自己アテンションを通じて相関マップアグリゲーションの恩恵を受ける。 しかし、トークン境界における不連続性はトークンエッジ付近で利用可能なローカルコンテキストを減少させ、インダクティブバイアスを減少させるため、トランスフォーマー処理のための相関マップのトークン化は有害である。 この問題に対処するため,高次元スウィン変換器は,すべての画素に局所的コンテキストを付与し,畳み込み帰納バイアスを導入する一連の小カーネル畳み込みによって先行する4次元スウィン変換器を提案する。 さらに,より微細なレベルでの凝集が誘導されるピラミッド構造に変圧器を適用することにより,凝集性能を向上する。 変換器出力のノイズは、クエリの外観埋め込みの助けを借りて、その後のデコーダにフィルタリングされる。 このモデルでは、数ショットのセグメンテーションですべての標準ベンチマークに対して、新しい最先端技術が設定される。 VATは,コスト集約が中心的な役割を担うセマンティック対応において,最先端のパフォーマンスを実現する。

This paper presents a novel cost aggregation network, called Volumetric Aggregation with Transformers (VAT), for few-shot segmentation. The use of transformers can benefit correlation map aggregation through self-attention over a global receptive field. However, the tokenization of a correlation map for transformer processing can be detrimental, because the discontinuity at token boundaries reduces the local context available near the token edges and decreases inductive bias. To address this problem, we propose a 4D Convolutional Swin Transformer, where a high-dimensional Swin Transformer is preceded by a series of small-kernel convolutions that impart local context to all pixels and introduce convolutional inductive bias. We additionally boost aggregation performance by applying transformers within a pyramidal structure, where aggregation at a coarser level guides aggregation at a finer level. Noise in the transformer output is then filtered in the subsequent decoder with the help of the query's appearance embedding. With this model, a new state-of-the-art is set for all the standard benchmarks in few-shot segmentation. It is shown that VAT attains state-of-the-art performance for semantic correspondence as well, where cost aggregation also plays a central role.
翻訳日:2022-07-25 13:02:56 公開日:2022-07-22
# ドメイン適応セマンティックセマンティックセグメンテーションのための双方向コントラスト学習

Bi-directional Contrastive Learning for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2207.10892v1 )

ライセンス: Link先を確認
Geon Lee, Chanho Eom, Wonkyung Lee, Hyekang Park, Bumsub Ham(参考訳) 本稿では、ソース画像と対応する接地木ラベルで訓練されたモデルを対象領域に一般化する意味的セグメンテーションのための教師なしドメイン適応手法を提案する。 ドメイン適応セマンティックセマンティックセグメンテーションの鍵は、ターゲットとなる接地木ラベルなしでドメイン不変性と識別的特徴を学習することである。 そこで本研究では,ドメインに関わらず,異なるオブジェクトのクラス間変動を最大化しつつ,同一オブジェクトのクラス内特徴量を最小限に抑えた双方向画素型コントラスト学習フレームワークを提案する。 具体的には,対象画像と対象画像(正対)で同一のオブジェクトクラスの画素レベル特徴とプロトタイプを整合させ,それぞれ異なるクラス(負のペア)を分離し,ソース画像の画素レベル特徴と対象画像のプロトタイプとを別方向にアライメントおよび分離処理を行う。 クロスドメインマッチングはドメイン不変の特徴表現を奨励し、双方向のピクセルプロトタイプ対応は同じオブジェクトクラスの特徴を集約し、識別的特徴を提供する。 コントラスト学習のためのトレーニングペアを確立するために,異なる領域にまたがる非パラメトリックラベル転送,すなわち画素-プロトタイプ対応を用いて,対象画像の動的擬似ラベルを生成することを提案する。 また,トレーニング中のプロトタイプのクラス毎の偏りを補償するキャリブレーション手法を提案する。

We present a novel unsupervised domain adaptation method for semantic segmentation that generalizes a model trained with source images and corresponding ground-truth labels to a target domain. A key to domain adaptive semantic segmentation is to learn domain-invariant and discriminative features without target ground-truth labels. To this end, we propose a bi-directional pixel-prototype contrastive learning framework that minimizes intra-class variations of features for the same object class, while maximizing inter-class variations for different ones, regardless of domains. Specifically, our framework aligns pixel-level features and a prototype of the same object class in target and source images (i.e., positive pairs), respectively, sets them apart for different classes (i.e., negative pairs), and performs the alignment and separation processes toward the other direction with pixel-level features in the source image and a prototype in the target image. The cross-domain matching encourages domain-invariant feature representations, while the bidirectional pixel-prototype correspondences aggregate features for the same object class, providing discriminative features. To establish training pairs for contrastive learning, we propose to generate dynamic pseudo labels of target images using a non-parametric label transfer, that is, pixel-prototype correspondences across different domains. We also present a calibration method compensating class-wise domain biases of prototypes gradually during training.
翻訳日:2022-07-25 13:02:33 公開日:2022-07-22
# 深部多カメラペデストリアン局在のための3次元ランダムオクルージョンと多層投影

3D Random Occlusion and Multi-Layer Projection for Deep Multi-Camera Pedestrian Localization ( http://arxiv.org/abs/2207.10895v1 )

ライセンス: Link先を確認
Rui Qiu, Ming Xu, Yuyao Yan, Jeremy S. Smith and Xi Yang(参考訳) 深層学習に基づく単眼歩行検出法は大きな進歩を遂げているが、それでも重度の閉塞に対して脆弱である。 マルチビュー情報融合は潜在的な解決策であるが、既存のマルチビューデータセットに注釈付きトレーニングサンプルがないため、アプリケーションに制限があるため、オーバーフィッティングのリスクが高まる。 この問題を解決するために, 歩行者の平均的な大きさで複数のビューに投影された地上面上の3次元シリンダー閉塞をランダムに生成し, トレーニングにおける過度な適合の影響を緩和するデータ拡張手法を提案する。 さらに、各視点の特徴マップは、各歩行者の高さにまたがる特徴を十分に活用し、地上平面上の歩行者の位置を推定できるホモグラフを用いて、異なる高さの複数の平行平面に投影される。 提案した3DROM法は,多視点歩行者検出のための最先端のディープラーニング手法と比較して,性能が大幅に向上した。

Although deep-learning based methods for monocular pedestrian detection have made great progress, they are still vulnerable to heavy occlusions. Using multi-view information fusion is a potential solution but has limited applications, due to the lack of annotated training samples in existing multi-view datasets, which increases the risk of overfitting. To address this problem, a data augmentation method is proposed to randomly generate 3D cylinder occlusions, on the ground plane, which are of the average size of pedestrians and projected to multiple views, to relieve the impact of overfitting in the training. Moreover, the feature map of each view is projected to multiple parallel planes at different heights, by using homographies, which allows the CNNs to fully utilize the features across the height of each pedestrian to infer the locations of pedestrians on the ground plane. The proposed 3DROM method has a greatly improved performance in comparison with the state-of-the-art deep-learning based methods for multi-view pedestrian detection.
翻訳日:2022-07-25 13:02:06 公開日:2022-07-22
# 画像キャプションのための未来文脈の効率的なモデル化

Efficient Modeling of Future Context for Image Captioning ( http://arxiv.org/abs/2207.10897v1 )

ライセンス: Link先を確認
Zhengcong Fei, Junshi Huang, Xiaoming Wei, Xiaolin Wei(参考訳) 画像キャプションに対する既存のアプローチは、通常、与えられた画像や履歴が生成した単語を含む局所的な文脈で条件づけされた制約を伴って、文章を左から右に単語ずつ生成する。 復号化の過程でグローバル情報を利用するための研究が数多く行われてきた。 しかし、将来の文脈を効果的かつ効率的に組み込む方法はまだ解明されていない。 この問題に対処するために,非自己回帰画像キャプチャ(NAIC)がマスク操作の2面関係を活用できることに着想を得て,従来の自己回帰画像キャプチャ(AIC)モデルにこの進歩を移植し,推論効率を余分な時間コストなしで維持することを目指す。 特に、AICモデルとNAICモデルは、まず共有ビジュアルエンコーダと組み合わせて訓練され、視覚エンコーダは、十分な、有効な将来のコンテキストを含むように強制される。 実証的な証拠は,提案手法がMS COCOベンチマークにおける自動測定と人的評価の両方において,最先端のベースラインを明らかに上回っていることを示している。 ソースコードは、https://github.com/feizc/Future-Caption.comで入手できる。

Existing approaches to image captioning usually generate the sentence word-by-word from left to right, with the constraint of conditioned on local context including the given image and history generated words. There have been many studies target to make use of global information during decoding, e.g., iterative refinement. However, it is still under-explored how to effectively and efficiently incorporate the future context. To respond to this issue, inspired by that Non-Autoregressive Image Captioning (NAIC) can leverage two-side relation with modified mask operation, we aim to graft this advance to the conventional Autoregressive Image Captioning (AIC) model while maintaining the inference efficiency without extra time cost. Specifically, AIC and NAIC models are first trained combined with shared visual encoders, forcing the visual encoder to contain sufficient and valid future context; then the AIC model is encouraged to capture the causal dynamics of cross-layer interchanging from NAIC model on its unconfident words, which follows a teacher-student paradigm and optimized with the distribution calibration training objective. Empirical evidences demonstrate that our proposed approach clearly surpass the state-of-the-art baselines in both automatic metrics and human evaluations on the MS COCO benchmark. The source code is available at: https://github.com/feizc/Future-Caption.
翻訳日:2022-07-25 13:01:47 公開日:2022-07-22
# DBQ-SSD: 効率的な3Dオブジェクト検出のための動的ボールクエリ

DBQ-SSD: Dynamic Ball Query for Efficient 3D Object Detection ( http://arxiv.org/abs/2207.10909v1 )

ライセンス: Link先を確認
Jinrong Yang, Lin Song, Songtao Liu, Zeming Li, Xiaoping Li, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) 多くの点ベースの3D検出器は、効率的な推論のためにいくつかの点を落とすために点特徴サンプリング戦略を採用している。 これらの戦略は一般に固定されたルールと手作りのルールに基づいており、複雑なシーンを扱うのが困難である。 これらと異なり、入力特徴に応じて入力点のサブセットを適応的に選択する動的ボールクエリ(DBQ)ネットワークを提案し、選択された各点に対して適切な受容場を持つ特徴変換を割り当てる。 最先端の3d検出器に組み込み、エンドツーエンドでトレーニングすることで、計算コストを大幅に削減することができる。 広範な実験により,kittiおよびwaymoデータセットのレイテンシを30%-60%削減できることが実証された。 具体的には,kitti と waymo のデータセットで性能劣化が無視できる162fps,30fpsまで検出速度を推定できる。

Many point-based 3D detectors adopt point-feature sampling strategies to drop some points for efficient inference. These strategies are typically based on fixed and handcrafted rules, making difficult to handle complicated scenes. Different from them, we propose a Dynamic Ball Query (DBQ) network to adaptively select a subset of input points according to the input features, and assign the feature transform with suitable receptive field for each selected point. It can be embedded into some state-of-the-art 3D detectors and trained in an end-to-end manner, which significantly reduces the computational cost. Extensive experiments demonstrate that our method can reduce latency by 30%-60% on KITTI and Waymo datasets. Specifically, the inference speed of our detector can reach 162 FPS and 30 FPS with negligible performance degradation on KITTI and Waymo datasets, respectively.
翻訳日:2022-07-25 13:01:20 公開日:2022-07-22
# ガンベル最適化損失を用いた長期インスタンス分割

Long-tailed Instance Segmentation using Gumbel Optimized Loss ( http://arxiv.org/abs/2207.10936v1 )

ライセンス: Link先を確認
Konstantinos Panagiotis Alexandridis, Jiankang Deng, Anh Nguyen and Shan Luo(参考訳) 近年,物体検出とセグメンテーションの分野で大きな進歩を遂げている。 しかし、まれなカテゴリに関しては、最先端の手法では検出できないため、稀なカテゴリと頻繁なカテゴリの間に大きなパフォーマンスギャップが生じる。 本稿では,深部検出器で使用されるSigmoidあるいはSoftmax関数が低性能の理由であり,長い尾検出とセグメンテーションに最適であることを示す。 これに対処するために, 長尾検出とセグメンテーションのためのガムベル最適化損失 (gol) を開発した。 これは、ロングテール検出のほとんどのクラスが期待される確率が低いという事実を考慮して、不均衡データセットにおけるレアクラスのグムベル分布と一致している。 提案したGOLは,APでは1.1%,LVISでは9.0%,検出では8.0%,レアクラスの検出ではMask-RCNNに比べて20.3%向上した。 コード提供: https://github.com/kostas1515/gol

Major advancements have been made in the field of object detection and segmentation recently. However, when it comes to rare categories, the state-of-the-art methods fail to detect them, resulting in a significant performance gap between rare and frequent categories. In this paper, we identify that Sigmoid or Softmax functions used in deep detectors are a major reason for low performance and are sub-optimal for long-tailed detection and segmentation. To address this, we develop a Gumbel Optimized Loss (GOL), for long-tailed detection and segmentation. It aligns with the Gumbel distribution of rare classes in imbalanced datasets, considering the fact that most classes in long-tailed detection have low expected probability. The proposed GOL significantly outperforms the best state-of-the-art method by 1.1% on AP , and boosts the overall segmentation by 9.0% and detection by 8.0%, particularly improving detection of rare classes by 20.3%, compared to Mask-RCNN, on LVIS dataset. Code available at: https://github.com/kostas1515/GOL
翻訳日:2022-07-25 13:01:05 公開日:2022-07-22
# アダプティブクラスタを用いた動的局所アグリゲーションネットワークによる異常検出

Dynamic Local Aggregation Network with Adaptive Clusterer for Anomaly Detection ( http://arxiv.org/abs/2207.10948v1 )

ライセンス: Link先を確認
Zhiwei Yang, Peng Wu, Jing Liu, Xiaotao Liu(参考訳) メモリ応答型オートエンコーダ(ae)に基づく既存の異常検出手法には,(1)メモリバンクの確立にはメモリ空間の追加が必要である。 2) 主観的仮定から得られたプロトタイプの固定数は,データ特徴の違いや多様性を無視する。 これらの欠点を克服するために,適応クラスタを用いた動的局所集約ネットワークDLAN-ACを導入する。 まず、提案したDLANは、AEから高レベルな機能を自動で学習して集約し、より代表的なプロトタイプを得ると同時に、余分なメモリ空間を解放する。 第2に,提案するacはビデオデータを適応的にクラスタリングし,初期プロトタイプを先行情報で導出することができる。 さらに,プロトタイプ構築に寄与しない機能クラスタを自動的に排除するDLANを実現するための動的冗長クラスタリング戦略(DRCS)を提案する。 ベンチマーク実験により,DLAN-ACは既存の手法よりも優れており,本手法の有効性が検証された。 私たちのコードはhttps://github.com/Beyond-Zw/DLAN-ACで公開されています。

Existing methods for anomaly detection based on memory-augmented autoencoder (AE) have the following drawbacks: (1) Establishing a memory bank requires additional memory space. (2) The fixed number of prototypes from subjective assumptions ignores the data feature differences and diversity. To overcome these drawbacks, we introduce DLAN-AC, a Dynamic Local Aggregation Network with Adaptive Clusterer, for anomaly detection. First, The proposed DLAN can automatically learn and aggregate high-level features from the AE to obtain more representative prototypes, while freeing up extra memory space. Second, The proposed AC can adaptively cluster video data to derive initial prototypes with prior information. In addition, we also propose a dynamic redundant clustering strategy (DRCS) to enable DLAN for automatically eliminating feature clusters that do not contribute to the construction of prototypes. Extensive experiments on benchmarks demonstrate that DLAN-AC outperforms most existing methods, validating the effectiveness of our method. Our code is publicly available at https://github.com/Beyond-Zw/DLAN-AC.
翻訳日:2022-07-25 13:00:43 公開日:2022-07-22
# ビジネス分析におけるアルゴリズムフェアネス:研究と実践の方向性

Algorithmic Fairness in Business Analytics: Directions for Research and Practice ( http://arxiv.org/abs/2207.10991v1 )

ライセンス: Link先を確認
Maria De-Arteaga and Stefan Feuerriegel and Maytal Saar-Tsechansky(参考訳) ビジネス分析(BA)の広範な採用は、財政的な利益と効率の向上をもたらした。 しかし、これらの進歩は、BAが公正性に影響を及ぼす決定を下すと、法的および倫理的課題の増大に同時に注意を向けている。 これらの懸念に応えて、アルゴリズム的公正性の新たな研究は、集団のサブグループ、特に歴史的に疎外された集団に対して異なる結果または他の形の不正をもたらす可能性のあるアルゴリズム的アウトプットを扱う。 公正性は法的コンプライアンス、社会的責任、実用性に基づいて関連しており、適切に体系的に対処されていない場合、不公平なbaシステムは社会的な損害をもたらし、組織の生存、競争性、全体的なパフォーマンスを脅かす可能性がある。 本稿では,アルゴリズムフェアネスの先見的,BAに着目したレビューを行う。 まず,バイアスの源泉と測定値,およびバイアス緩和アルゴリズムに関する最先端の研究を概観する。 次に、ユーティリティ・フェアネスの関係について詳細な議論を行い、これらの2つの構成要素間のトレードオフの頻繁な仮定は、しばしば間違いまたは近視的であることを強調した。 最後に、BAの効果的かつ責任ある展開の鍵となる、インパクトのあるオープンな課題に対処するビジネス学者の機会を特定することによって、前進の道を示す。

The extensive adoption of business analytics (BA) has brought financial gains and increased efficiencies. However, these advances have simultaneously drawn attention to rising legal and ethical challenges when BA inform decisions with fairness implications. As a response to these concerns, the emerging study of algorithmic fairness deals with algorithmic outputs that may result in disparate outcomes or other forms of injustices for subgroups of the population, especially those who have been historically marginalized. Fairness is relevant on the basis of legal compliance, social responsibility, and utility; if not adequately and systematically addressed, unfair BA systems may lead to societal harms and may also threaten an organization's own survival, its competitiveness, and overall performance. This paper offers a forward-looking, BA-focused review of algorithmic fairness. We first review the state-of-the-art research on sources and measures of bias, as well as bias mitigation algorithms. We then provide a detailed discussion of the utility-fairness relationship, emphasizing that the frequent assumption of a trade-off between these two constructs is often mistaken or short-sighted. Finally, we chart a path forward by identifying opportunities for business scholars to address impactful, open challenges that are key to the effective and responsible deployment of BA.
翻訳日:2022-07-25 12:58:07 公開日:2022-07-22
# コンフォーマンスメトリックを用いたプロセスモデルにおける動的ドリフト検出

Gradual Drift Detection in Process Models Using Conformance Metrics ( http://arxiv.org/abs/2207.11007v1 )

ライセンス: Link先を確認
Victor Gallego-Fontenla, Juan C. Vidal, Manuel Lama(参考訳) 計画的あるいは予期せぬ変更は、実際のプロセスの実行中によくあることです。 これらの変化を検出するためには、そのようなプロセスを実行する組織のパフォーマンスを最適化する必要がある。 最先端に存在しているアルゴリズムのほとんどは、突然の変化を検出し、他のタイプの変更を残している。 本稿では,段階的ドリフトの自動検出に焦点をあてる。これは特別なタイプの変化であり,2つのモデルの場合が一定期間に重複する。 提案するアルゴリズムは,変更の自動検出を行うための適合性チェックメトリックに依存し,これらの変更を突然あるいは段階的に完全に自動分類する。 このアプローチは、さまざまな変更分布を持つ120のログからなる合成データセットで検証され、主要な最先端アルゴリズムよりも検出と分類精度、遅延と変更領域の重なりにおいて、よりよい結果を得た。

Changes, planned or unexpected, are common during the execution of real-life processes. Detecting these changes is a must for optimizing the performance of organizations running such processes. Most of the algorithms present in the state-of-the-art focus on the detection of sudden changes, leaving aside other types of changes. In this paper, we will focus on the automatic detection of gradual drifts, a special type of change, in which the cases of two models overlap during a period of time. The proposed algorithm relies on conformance checking metrics to carry out the automatic detection of the changes, performing also a fully automatic classification of these changes into sudden or gradual. The approach has been validated with a synthetic dataset consisting of 120 logs with different distributions of changes, getting better results in terms of detection and classification accuracy, delay and change region overlapping than the main state-of-the-art algorithms.
翻訳日:2022-07-25 12:57:44 公開日:2022-07-22
# 離散コンテンツ表現を用いた画像生成

Few-shot Image Generation Using Discrete Content Representation ( http://arxiv.org/abs/2207.10833v1 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, Liqing Zhang(参考訳) 少数ショット画像生成と少数ショット画像翻訳は2つの関連するタスクであり、どちらもわずか数枚の画像で見えないカテゴリの新しい画像を生成することを目的としている。 そこで本研究では, 少数ショット画像生成タスクに, 少数ショット画像変換法を適用した最初の試みを行う。 少数ショット画像翻訳は、画像をスタイルベクトルとコンテンツマップに切り離す。 目に見えないスタイルのベクターと異なるコンテンツマップを組み合わせることで、異なる画像を生成することができる。 しかし、コンテンツマップを提供するために画像を保存する必要があり、見えないスタイルのベクターは、コンテンツマップと互換性がないかもしれない。 少数ショット画像生成タスクに適応するために,参照画像を保存するのではなく,連続コンテンツマップを離散コンテンツマップに量子化することで,局所コンテンツベクトルのコンパクト辞書を学習する。 さらに,スタイルベクトルに条件付き離散コンテンツマップの自己回帰分布をモデル化し,コンテンツマップとスタイルベクトルの非互換性を軽減する。 3つの実データセットの定性的および定量的な結果から,本モデルが従来の手法よりも高い多様性と忠実さの画像を生成できることが示される。

Few-shot image generation and few-shot image translation are two related tasks, both of which aim to generate new images for an unseen category with only a few images. In this work, we make the first attempt to adapt few-shot image translation method to few-shot image generation task. Few-shot image translation disentangles an image into style vector and content map. An unseen style vector can be combined with different seen content maps to produce different images. However, it needs to store seen images to provide content maps and the unseen style vector may be incompatible with seen content maps. To adapt it to few-shot image generation task, we learn a compact dictionary of local content vectors via quantizing continuous content maps into discrete content maps instead of storing seen images. Furthermore, we model the autoregressive distribution of discrete content map conditioned on style vector, which can alleviate the incompatibility between content map and style vector. Qualitative and quantitative results on three real datasets demonstrate that our model can produce images of higher diversity and fidelity for unseen categories than previous methods.
翻訳日:2022-07-25 12:55:20 公開日:2022-07-22
# ビデオデブロアリングのための時空間変形型アテンションネットワーク

Spatio-Temporal Deformable Attention Network for Video Deblurring ( http://arxiv.org/abs/2207.10852v1 )

ライセンス: Link先を確認
Huicong Zhang, Haozhe Xie and Hongxun Yao(参考訳) ビデオデブラリング手法の重要な成功要因は、隣接するビデオフレームのシャープな画素で中フレームのぼやけた画素を補償することである。 したがって、本手法は、推定された光フローに基づいて隣接フレームを整列させ、アライメントフレームを融合して復元する。 しかし、これらの手法は、ビデオフレームからぼやけたピクセルをもたらすピクセルのぼやけたレベルをほとんど考慮しないため、不満足な結果を生み出すことがある。 実際、ビデオフレームのすべてのピクセルはシャープでメリットがあるわけではない。 この問題に対処するために,ビデオフレームの画素単位のぼかしレベルを考慮し,シャープ画素の情報を抽出するビデオデアリングのための時空間変形型アテンションネットワーク(STDANet)を提案する。 具体的には、STDANetは、動き推定器と時空間デフォルマブルアテンション(STDA)モジュールを組み合わせたエンコーダデコーダネットワークであり、動き推定器はベースオフセットとして使用される粗い光フローを予測し、対応するシャープピクセルをSTDAモジュールで見つける。 実験の結果,提案したSTDANetはGoPro,DVD,BSDデータセットの最先端手法に対して良好に動作していることがわかった。

The key success factor of the video deblurring methods is to compensate for the blurry pixels of the mid-frame with the sharp pixels of the adjacent video frames. Therefore, mainstream methods align the adjacent frames based on the estimated optical flows and fuse the alignment frames for restoration. However, these methods sometimes generate unsatisfactory results because they rarely consider the blur levels of pixels, which may introduce blurry pixels from video frames. Actually, not all the pixels in the video frames are sharp and beneficial for deblurring. To address this problem, we propose the spatio-temporal deformable attention network (STDANet) for video delurring, which extracts the information of sharp pixels by considering the pixel-wise blur levels of the video frames. Specifically, STDANet is an encoder-decoder network combined with the motion estimator and spatio-temporal deformable attention (STDA) module, where motion estimator predicts coarse optical flows that are used as base offsets to find the corresponding sharp pixels in STDA module. Experimental results indicate that the proposed STDANet performs favorably against state-of-the-art methods on the GoPro, DVD, and BSD datasets.
翻訳日:2022-07-25 12:55:00 公開日:2022-07-22
# 需要学習による公正なネットワーク収益管理

Fairness-aware Network Revenue Management with Demand Learning ( http://arxiv.org/abs/2207.11159v1 )

ライセンス: Link先を確認
Xi Chen, Jiameng Lyu, Yining Wang, Yuan Zhou(参考訳) 総収入の最大化に加えて、多くの業界の意思決定者は、異なる資源の公平な消費を保証し、特定の資源の飽和を避けることを望む。 本論文は,これらの実践的ニーズを背景として,需要学習と資源間の消費に対する公平性の両面から,価格に基づくネットワーク収益管理の問題を研究する。 我々は、公平さを収益の最大化目標に組み込むことを目的として、正規化収益、すなわちフェアネス正規化による総収益を導入する。 正規化収益を最大化するために,UCB (Upper-Confidence-Bound) 要求学習手法を用いた原始二重型オンラインポリシーを提案する。 我々は、アルゴリズムを連続価格設定のための統一的かつ計算効率の良いフレームワークにするために、いくつかの革新的手法を採用する。 我々のアルゴリズムは、$\tilde O(N^{5/2}\sqrt{T})$, $N$は製品数を表し、$T$は期間数を表す。 いくつかのnrm例における数値実験は、収益と公平さのバランスをとるためのアルゴリズムの有効性を示している。

In addition to maximizing the total revenue, decision-makers in lots of industries would like to guarantee fair consumption across different resources and avoid saturating certain resources. Motivated by these practical needs, this paper studies the price-based network revenue management problem with both demand learning and fairness concern about the consumption across different resources. We introduce the regularized revenue, i.e., the total revenue with a fairness regularization, as our objective to incorporate fairness into the revenue maximization goal. We propose a primal-dual-type online policy with the Upper-Confidence-Bound (UCB) demand learning method to maximize the regularized revenue. We adopt several innovative techniques to make our algorithm a unified and computationally efficient framework for the continuous price set and a wide class of fairness regularizers. Our algorithm achieves a worst-case regret of $\tilde O(N^{5/2}\sqrt{T})$, where $N$ denotes the number of products and $T$ denotes the number of time periods. Numerical experiments in a few NRM examples demonstrate the effectiveness of our algorithm for balancing revenue and fairness.
翻訳日:2022-07-25 12:51:55 公開日:2022-07-22
# グループ標本混合モデルに対する一般化された識別可能性境界

Generalized Identifiability Bounds for Mixture Models with Grouped Samples ( http://arxiv.org/abs/2207.11164v1 )

ライセンス: Link先を確認
Robert A. Vandermeulen, Ren\'e Saitenmacher(参考訳) 最近の研究は、$m$成分を持つ有限混合モデルが同定可能であることを示し、同じ混合成分から得られることが知られている2m-1$の大きさのサンプル群にアクセスできる限り、混合成分について仮定はしない。 この研究において、この結果を一般化し、混合モデルの$k$混合成分のすべての部分集合が線型独立であれば、混合モデルは群当たり$(2m-1)/(k-1)$サンプルで識別可能であることを示す。 さらに,この値は改善できないことを示す。 我々は、対応する下界とともに「決定性」として知られるより強固な形の識別可能性に対する類似の結果を証明する。 この独立性仮定は、混合成分が$k$次元空間からランダムに選択されるとほぼ確実に成り立つ。 本稿では,多項混合モデルと話題モデリングにおける結果の意義について述べる。

Recent work has shown that finite mixture models with $m$ components are identifiable, while making no assumptions on the mixture components, so long as one has access to groups of samples of size $2m-1$ which are known to come from the same mixture component. In this work we generalize that result and show that, if every subset of $k$ mixture components of a mixture model are linearly independent, then that mixture model is identifiable with only $(2m-1)/(k-1)$ samples per group. We further show that this value cannot be improved. We prove an analogous result for a stronger form of identifiability known as "determinedness" along with a corresponding lower bound. This independence assumption almost surely holds if mixture components are chosen randomly from a $k$-dimensional space. We describe some implications of our results for multinomial mixture models and topic modeling.
翻訳日:2022-07-25 12:51:35 公開日:2022-07-22
# 回転するだけ - 回転変換によるバックドア攻撃の展開

Just Rotate it: Deploying Backdoor Attacks via Rotation Transformation ( http://arxiv.org/abs/2207.10825v1 )

ライセンス: Link先を確認
Tong Wu, Tianhao Wang, Vikash Sehwag, Saeed Mahloujifar, Prateek Mittal(参考訳) 近年の研究では、深層学習モデルが、外部のトリガーパターンや物体(ステッカー、サングラスなど)に急激な相関を付与するバックドア中毒攻撃に弱いことが示されている。 このような外部からのトリガー信号は不要であり、回転ベースの画像変換を用いて高い効率のバックドアを容易に挿入できる。 本手法では,限られた量のオブジェクトを回転させ,不正確なラベル付けを行うことで,被毒データセットを構築する。 画像分類とオブジェクト検出タスクに関する包括的な実証研究を通じて、クリーンなパフォーマンスを維持しながら、攻撃成功率は非常に高い。 さらに,標準的なデータ拡張手法と攻撃に対する4つの異なるバックドア防御を評価し,それらのいずれも一貫した緩和アプローチとして機能しないことを見いだした。 我々の攻撃は、画像分類とオブジェクト検出アプリケーションの両方で示されるように、オブジェクトを回転させるだけで、現実世界に容易に展開できる。 全体として、私たちの研究は、新しい、シンプルで、物理的に実現可能で、非常に効果的なバックドア攻撃ベクターを強調しています。 ビデオデモはhttps://youtu.be/6jif8wnx34mで公開しています。

Recent works have demonstrated that deep learning models are vulnerable to backdoor poisoning attacks, where these attacks instill spurious correlations to external trigger patterns or objects (e.g., stickers, sunglasses, etc.). We find that such external trigger signals are unnecessary, as highly effective backdoors can be easily inserted using rotation-based image transformation. Our method constructs the poisoned dataset by rotating a limited amount of objects and labeling them incorrectly; once trained with it, the victim's model will make undesirable predictions during run-time inference. It exhibits a significantly high attack success rate while maintaining clean performance through comprehensive empirical studies on image classification and object detection tasks. Furthermore, we evaluate standard data augmentation techniques and four different backdoor defenses against our attack and find that none of them can serve as a consistent mitigation approach. Our attack can be easily deployed in the real world since it only requires rotating the object, as we show in both image classification and object detection applications. Overall, our work highlights a new, simple, physically realizable, and highly effective vector for backdoor attacks. Our video demo is available at https://youtu.be/6JIF8wnX34M.
翻訳日:2022-07-25 12:50:48 公開日:2022-07-22
# マージツリー(および永続化図)の主測地線解析

Principal Geodesic Analysis of Merge Trees (and Persistence Diagrams) ( http://arxiv.org/abs/2207.10960v1 )

ライセンス: Link先を確認
Mathieu Pont, Jules Vidal and Julien Tierny(参考訳) 本稿では,主成分分析(pca)フレームワーク [87] をマージ木のワッサースタイン計量空間 [92] に適用したマージ木の主測地線解析(mt-pga)のための計算枠組みを提案する。 MT-PGA計算を制約付き最適化問題として定式化し、直交測地線軸の基底の調整を目的とした。 我々は,共有メモリ並列性を利用する効率的な反復アルゴリズムと,エネルギー勾配を適合させる解析式を導入し,高速な反復を保証する。 私たちのアプローチは、極端に永続的な図にも簡単に拡張できます。 公開アンサンブルに関する大規模な実験は、MT-PGA計算によるアプローチの効率性を示す。 我々は,2つの典型的なPCAアプリケーションを統合することで,コントリビューションの有用性を示す。 まず、MT-PGAをデータ還元に適用し、MT-PGAベースの最初の座標でそれらを簡潔に表現することでマージ木を確実に圧縮する。 第2に,MT-PGAベースの最初の2方向を利用してアンサンブルの2次元レイアウトを生成する次元削減フレームワークを提案する。 これらのレイアウトをパーシステンス相関ビューで拡張し、アンサンブルにおける特徴変動のグローバルおよびローカルな視覚的インスペクションを可能にする。 どちらのアプリケーションでも、定量的実験は我々のフレームワークの関連性を評価する。 最後に、結果の再現に使用できる軽量なC++実装を提供します。

This paper presents a computational framework for the Principal Geodesic Analysis of merge trees (MT-PGA), a novel adaptation of the celebrated Principal Component Analysis (PCA) framework [87] to the Wasserstein metric space of merge trees [92]. We formulate MT-PGA computation as a constrained optimization problem, aiming at adjusting a basis of orthogonal geodesic axes, while minimizing a fitting energy. We introduce an efficient, iterative algorithm which exploits shared-memory parallelism, as well as an analytic expression of the fitting energy gradient, to ensure fast iterations. Our approach also trivially extends to extremum persistence diagrams. Extensive experiments on public ensembles demonstrate the efficiency of our approach - with MT-PGA computations in the orders of minutes for the largest examples. We show the utility of our contributions by extending to merge trees two typical PCA applications. First, we apply MT-PGA to data reduction and reliably compress merge trees by concisely representing them by their first coordinates in the MT-PGA basis. Second, we present a dimensionality reduction framework exploiting the first two directions of the MT-PGA basis to generate two-dimensional layouts of the ensemble. We augment these layouts with persistence correlation views, enabling global and local visual inspections of the feature variability in the ensemble. In both applications, quantitative experiments assess the relevance of our framework. Finally, we provide a lightweight C++ implementation that can be used to reproduce our results.
翻訳日:2022-07-25 12:50:27 公開日:2022-07-22
# DeVIS: ビデオインスタンスセグメンテーションで変形可能なトランスフォーマーを動作させる

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation ( http://arxiv.org/abs/2207.11103v1 )

ライセンス: Link先を確認
Adri\`a Caelles and Tim Meinhardt and Guillem Bras\'o and Laura Leal-Taix\'e(参考訳) ビデオインスタンスセグメンテーション(vis)は、ビデオシーケンスにおけるマルチオブジェクト検出、追跡、セグメンテーションに共同で取り組む。 過去にVISメソッドは、これらのサブタスクの断片化をアーキテクチャ設計で反映していたため、共同ソリューションでは欠落していた。 トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。 それでも、既存のTransformerベースの手法の二次的な複雑さは、長いトレーニング時間、高いメモリ要求、低単一スケールの機能マップの処理を必要とする。 変形可能な注意はより効率的な代替手段を提供するが、時間領域やセグメンテーションタスクへの応用はまだ検討されていない。 本研究では、変形可能な変換器の効率と性能を活かしたVIS法であるDeformable VIS(DeVIS)を提案する。 複数のフレームにまたがる全てのVISサブタスクを推論するために、インスタンス対応オブジェクトクエリで時間的マルチスケールの変形可能な注意を提示する。 さらに,マルチスケール機能を備えた新たな画像・ビデオインスタンスマスクヘッドを導入し,マルチキュークリップトラッキングによるニアオンラインビデオ処理を行う。 DeVISはメモリとトレーニング時間の要件を減らし、YouTube-VIS 2021の最先端結果と挑戦的なOVISデータセットを達成する。 コードはhttps://github.com/acaelles97/DeVISで入手できる。

Video Instance Segmentation (VIS) jointly tackles multi-object detection, tracking, and segmentation in video sequences. In the past, VIS methods mirrored the fragmentation of these subtasks in their architectural design, hence missing out on a joint solution. Transformers recently allowed to cast the entire VIS task as a single set-prediction problem. Nevertheless, the quadratic complexity of existing Transformer-based methods requires long training times, high memory requirements, and processing of low-single-scale feature maps. Deformable attention provides a more efficient alternative but its application to the temporal domain or the segmentation task have not yet been explored. In this work, we present Deformable VIS (DeVIS), a VIS method which capitalizes on the efficiency and performance of deformable Transformers. To reason about all VIS subtasks jointly over multiple frames, we present temporal multi-scale deformable attention with instance-aware object queries. We further introduce a new image and video instance mask head with multi-scale features, and perform near-online video processing with multi-cue clip tracking. DeVIS reduces memory as well as training time requirements, and achieves state-of-the-art results on the YouTube-VIS 2021, as well as the challenging OVIS dataset. Code is available at https://github.com/acaelles97/DeVIS.
翻訳日:2022-07-25 12:50:03 公開日:2022-07-22
# 2段階ファインチューニング: クラス不均衡データ学習のための新しい戦略

Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced Data ( http://arxiv.org/abs/2207.10858v1 )

ライセンス: Link先を確認
Taha ValizadehAslani, Yiwen Shi, Jing Wang, Ping Ren, Yi Zhang, Meng Hu, Liang Zhao, Hualou Liang(参考訳) 長い尾の分散データの分類は難しい問題であり、深刻なクラス不均衡に悩まされ、少数のサンプルしか持たない尾のクラスの性能が低下する。 このようなサンプルの曖昧さのため、事前訓練されたモデルを下流タスクに転送する際、テールクラスでの学習は特に微調整が難しい。 本稿では,これらの課題に対処するために,標準的な微調整の簡単な修正を提案する。 具体的には,2段階のファインチューニングを提案する。まず,事前訓練されたモデルの最終層をクラスバランスの再重み付け損失で微調整し,次に標準のファインチューニングを実行する。 1)モデルパラメータのごく一部のみを微調整し,残りを未修正のままにしておくことで,事前訓練された表現を活用すること,(2)モデルが特定のタスクの初期表現を学習できること,(3)モデル更新時にテールクラスの学習が不利益になるのを防ぐこと,の2つの利点がある。 テキスト分類の2クラスおよび複数クラスのタスクの合成データセットに関する広範な実験を行い,ADME(吸収,分布,代謝,排他)セマンティックラベリングへの実世界の応用について検討した。 実験結果から,提案した2段階微調整は,従来の損失による微調整と,上記のデータセットに対する再加重損失による微調整の両方に優れていた。

Classification on long-tailed distributed data is a challenging problem, which suffers from serious class-imbalance and hence poor performance on tail classes with only a few samples. Owing to this paucity of samples, learning on the tail classes is especially challenging for the fine-tuning when transferring a pretrained model to a downstream task. In this work, we present a simple modification of standard fine-tuning to cope with these challenges. Specifically, we propose a two-stage fine-tuning: we first fine-tune the final layer of the pretrained model with class-balanced reweighting loss, and then we perform the standard fine-tuning. Our modification has several benefits: (1) it leverages pretrained representations by only fine-tuning a small portion of the model parameters while keeping the rest untouched; (2) it allows the model to learn an initial representation of the specific task; and importantly (3) it protects the learning of tail classes from being at a disadvantage during the model updating. We conduct extensive experiments on synthetic datasets of both two-class and multi-class tasks of text classification as well as a real-world application to ADME (i.e., absorption, distribution, metabolism, and excretion) semantic labeling. The experimental results show that the proposed two-stage fine-tuning outperforms both fine-tuning with conventional loss and fine-tuning with a reweighting loss on the above datasets.
翻訳日:2022-07-25 12:49:16 公開日:2022-07-22
# 共変量を持たない高次元確率線形文脈バンディット

High dimensional stochastic linear contextual bandit with missing covariates ( http://arxiv.org/abs/2207.11165v1 )

ライセンス: Link先を確認
Byoungwook Jang, Julia Nepper, Marc Chevrette, Jo Handelsman, Alfred O. Hero III(参考訳) バンドイット問題における最近の研究は、逐次決定設定においてラッソ収束理論を採用した。 完全に観察された文脈であっても、既存のラッソ収束理論の適用を妨げる技術的課題がある。 1)条件付き準ガウス雑音下での制限固有値条件の証明 2) コンテキスト変数と選択されたアクションの間の依存を考慮に入れます。 本稿では,確率線形バンディットアルゴリズムの後悔に対する共変量の欠如の影響について検討する。 本研究は,共変量サンプリング確率の観点から,提案アルゴリズムが生み出した後悔に対する高い確率上限を与え,その後悔が最大$\zeta_{min}^2$ によって低下することを示し,ここでは$\zeta_{min}$が文脈ベクトルにおける共変量観測の最小確率である。 本稿では,クラス識別型dnaプローブの逐次選択による遺伝子発現データ収集のための実験設計の実用化について述べる。

Recent works in bandit problems adopted lasso convergence theory in the sequential decision-making setting. Even with fully observed contexts, there are technical challenges that hinder the application of existing lasso convergence theory: 1) proving the restricted eigenvalue condition under conditionally sub-Gaussian noise and 2) accounting for the dependence between the context variables and the chosen actions. This paper studies the effect of missing covariates on regret for stochastic linear bandit algorithms. Our work provides a high-probability upper bound on the regret incurred by the proposed algorithm in terms of covariate sampling probabilities, showing that the regret degrades due to missingness by at most $\zeta_{min}^2$, where $\zeta_{min}$ is the minimum probability of observing covariates in the context vector. We illustrate our algorithm for the practical application of experimental design for collecting gene expression data by a sequential selection of class discriminating DNA probes.
翻訳日:2022-07-25 12:46:08 公開日:2022-07-22
# 変分推論における統計的および計算的トレードオフ--推論モデル選択を事例として

Statistical and Computational Trade-offs in Variational Inference: A Case Study in Inferential Model Selection ( http://arxiv.org/abs/2207.11208v1 )

ライセンス: Link先を確認
Kush Bhatia, Nikki Lijing Kuang, Yi-An Ma, Yixin Wang(参考訳) 変分推論は、最近、大規模なベイズ推定において古典的マルコフ連鎖モンテカルロ(MCMC)の代替として人気である。 変分推論の基本的な考え方は、計算効率の統計的精度を交換することである。 計算コストを削減しつつも、統計的精度を損なう可能性がある。 本研究では,変分推論におけるこの統計的および計算的トレードオフを,推論モデル選択におけるケーススタディを通じて検討する。 対角線と低ランクの精度行列を持つガウス不変量モデル(すなわち変分近似族)に着目し,ベイズ後方推定誤差と頻繁な不確実性定量誤差の2つの側面におけるトレードオフの理論研究を開始する。 ベイズ後後方推定の観点からは、正確な後後方に対する変動後後方の誤差を特徴付ける。 一定の計算予算が与えられると、より低いランクの推論モデルがより高い統計近似誤差を持つ変分後部を生成するが、計算誤差は低く、確率的最適化における分散を減少させ、さらに収束を加速する。 頻繁な不確実性定量化の観点から、変分後部の精度行列を不確実性推定とする。 真の漸近的精度と比較して、変動近似はデータのサンプリングの不確実性に起因する追加の統計的誤差に悩まされる。 さらに、計算予算が増加するにつれて、この統計誤差が支配的要因となる。 その結果、小さなデータセットでは、最適推定誤差を達成するために推論モデルがフルランクである必要はない。 我々は、これらの統計的および計算的トレードオフを経験的研究で証明し、理論的な発見を裏付ける。

Variational inference has recently emerged as a popular alternative to the classical Markov chain Monte Carlo (MCMC) in large-scale Bayesian inference. The core idea of variational inference is to trade statistical accuracy for computational efficiency. It aims to approximate the posterior, reducing computation costs but potentially compromising its statistical accuracy. In this work, we study this statistical and computational trade-off in variational inference via a case study in inferential model selection. Focusing on Gaussian inferential models (a.k.a. variational approximating families) with diagonal plus low-rank precision matrices, we initiate a theoretical study of the trade-offs in two aspects, Bayesian posterior inference error and frequentist uncertainty quantification error. From the Bayesian posterior inference perspective, we characterize the error of the variational posterior relative to the exact posterior. We prove that, given a fixed computation budget, a lower-rank inferential model produces variational posteriors with a higher statistical approximation error, but a lower computational error; it reduces variances in stochastic optimization and, in turn, accelerates convergence. From the frequentist uncertainty quantification perspective, we consider the precision matrix of the variational posterior as an uncertainty estimate. We find that, relative to the true asymptotic precision, the variational approximation suffers from an additional statistical error originating from the sampling uncertainty of the data. Moreover, this statistical error becomes the dominant factor as the computation budget increases. As a consequence, for small datasets, the inferential model need not be full-rank to achieve optimal estimation error. We finally demonstrate these statistical and computational trade-offs inference across empirical studies, corroborating the theoretical findings.
翻訳日:2022-07-25 12:45:55 公開日:2022-07-22
# クロスモーダルランダムネットワーク予測による不確実性を考慮したマルチモーダル学習

Uncertainty-aware Multi-modal Learning via Cross-modal Random Network Prediction ( http://arxiv.org/abs/2207.10851v1 )

ライセンス: Link先を確認
Hu Wang, Jianpeng Zhang, Yuanhong Chen, Congbo Ma, Jodie Avery, Louise Hull, Gustavo Carneiro(参考訳) マルチモーダル学習は、予測プロセス中に複数の入力データモダリティを等しく組み合わせてトレーニングモデルにフォーカスする。 しかし、この等しい組み合わせは、様々なモダリティが通常、様々な不確実性のレベルを伴っているため、予測精度を損なう可能性がある。 このような不確実性を利用してモダリティを組み合わせる方法はいくつか研究されているが、これらの手法は特定の分類やセグメンテーションの問題に対処するように設計されており、他のタスクに容易に翻訳できないか、数値的な不安定さに悩まされているため、成功は限られている。 本稿では,クロスモーダルランダムネットワーク予測(CRNP)による特徴密度の測定により不確かさを推定する不確実性認識型マルチモーダル学習器を提案する。 CRNPは、安定したトレーニングプロセスを持ちながら、異なる予測タスク間の変換にほとんど適応を必要としないように設計されている。 技術的観点からは、不確かさを推定し、マルチモーダルデータを結合するためにランダムネットワーク予測を探索する最初のアプローチである。 2つの3次元マルチモーダル医用画像分割タスクと3つの2次元マルチモーダルコンピュータビジョン分類タスクの実験は、CRNPの有効性、適応性、堅牢性を示している。 また,提案モデルを検証するために,異なる融合関数と可視化について広範な議論を行う。

Multi-modal learning focuses on training models by equally combining multiple input data modalities during the prediction process. However, this equal combination can be detrimental to the prediction accuracy because different modalities are usually accompanied by varying levels of uncertainty. Using such uncertainty to combine modalities has been studied by a couple of approaches, but with limited success because these approaches are either designed to deal with specific classification or segmentation problems and cannot be easily translated into other tasks, or suffer from numerical instabilities. In this paper, we propose a new Uncertainty-aware Multi-modal Learner that estimates uncertainty by measuring feature density via Cross-modal Random Network Prediction (CRNP). CRNP is designed to require little adaptation to translate between different prediction tasks, while having a stable training process. From a technical point of view, CRNP is the first approach to explore random network prediction to estimate uncertainty and to combine multi-modal data. Experiments on two 3D multi-modal medical image segmentation tasks and three 2D multi-modal computer vision classification tasks show the effectiveness, adaptability and robustness of CRNP. Also, we provide an extensive discussion on different fusion functions and visualization to validate the proposed model.
翻訳日:2022-07-25 12:45:10 公開日:2022-07-22
# ジェネリック・ポイント・セット・データによる汎用的非リジッド多モードバイオメディカル・イメージ・レジストレーションの学習

Learning Generalized Non-Rigid Multimodal Biomedical Image Registration from Generic Point Set Data ( http://arxiv.org/abs/2207.10994v1 )

ライセンス: Link先を確認
Zachary MC Baum, Tamas Ungi, Christopher Schlenger, Yipeng Hu, Dean C Barratt(参考訳) Free Point Transformer (FPT) は,深層ニューラルネットワークを用いたデータ駆動型非剛性点集合登録手法として提案されている。 FPTは点近傍や対応に基づいて制約を仮定しないため、シャンファー距離に基づいて教師なし損失を最小限に抑えることで、簡単に柔軟に訓練することができる。 これにより、fptは、地表面の変形が得られない現実世界の医用画像アプリケーションや、整列すべき点集合の完全性が変化する程度しか得られないシナリオに適応できる。 本研究は、FPTの対応検出能力とトレーニングデータセットへの依存性の限界をテストするため、医用画像データセットから医用画像データセットへのFPTの一般化可能性を検討する。 まず, modelnet40 データセット上で fpt をトレーニングし,反復的および学習に基づく点集合登録法よりも fpt の有効性と優れた登録性能を示す。 第2に, 剛性と非剛性が優れていること, 欠落データに対するロバスト性を示す。 最後に,modelnetで訓練されたfptの興味深い一般化性について,再建された脊柱および総脊柱モデルの自由手超音波スキャンを追加訓練なしで登録することにより,13例の平均的真理曲率の差を1.3度とした。

Free Point Transformer (FPT) has been proposed as a data-driven, non-rigid point set registration approach using deep neural networks. As FPT does not assume constraints based on point vicinity or correspondence, it may be trained simply and in a flexible manner by minimizing an unsupervised loss based on the Chamfer Distance. This makes FPT amenable to real-world medical imaging applications where ground-truth deformations may be infeasible to obtain, or in scenarios where only a varying degree of completeness in the point sets to be aligned is available. To test the limit of the correspondence finding ability of FPT and its dependency on training data sets, this work explores the generalizability of the FPT from well-curated non-medical data sets to medical imaging data sets. First, we train FPT on the ModelNet40 dataset to demonstrate its effectiveness and the superior registration performance of FPT over iterative and learning-based point set registration methods. Second, we demonstrate superior performance in rigid and non-rigid registration and robustness to missing data. Last, we highlight the interesting generalizability of the ModelNet-trained FPT by registering reconstructed freehand ultrasound scans of the spine and generic spine models without additional training, whereby the average difference to the ground truth curvatures is 1.3 degrees, across 13 patients.
翻訳日:2022-07-25 12:44:46 公開日:2022-07-22
# 顔の老化におけるカスタム構造保存

Custom Structure Preservation in Face Aging ( http://arxiv.org/abs/2207.11025v1 )

ライセンス: Link先を確認
Guillermo Gomez-Trenado (1), St\'ephane Lathuili\`ere (2), Pablo Mesejo (1), \'Oscar Cord\'on (1) ((1) DaSCI research institute, DECSAI, University of Granada, Granada, Spain, (2) LTCI, T\'el\'ecom-Paris, Intitute Polytechnique de Paris, Palaiseau, France)(参考訳) そこで本研究では,顔画像に関連性のある細部を維持しつつ,構造変化を生成できる顔画像編集のための新しいアーキテクチャを提案する。 本稿では,入力画像のスタイルと内容のアンタングルを解消し,入力画像のスタイルとコンテンツ表現を,出力を目標年齢に条件付けながら組み合わせたスタイルベースの戦略を取り入れた新しいデコーダネットワークを提案する。 既存の老化手法を超越して、ユーザは推論中に入力画像の構造保存の度合いを調整できる。 そこで本稿では,入力画像内の関連領域を破棄すべき領域と区別するマスク機構であるCUstom Structure Preservationモジュールを導入する。 CUSPは追加の監視を必要としない。 最後に,ユーザ調査を含む定量的・質的分析により,本手法が先行技術よりも優れており,画像編集と構造保存に関する戦略の有効性を示す。 コードと事前訓練されたモデルはhttps://github.com/guillermogotre/CUSP.comで入手できる。

In this work, we propose a novel architecture for face age editing that can produce structural modifications while maintaining relevant details present in the original image. We disentangle the style and content of the input image and propose a new decoder network that adopts a style-based strategy to combine the style and content representations of the input image while conditioning the output on the target age. We go beyond existing aging methods allowing users to adjust the degree of structure preservation in the input image during inference. To this purpose, we introduce a masking mechanism, the CUstom Structure Preservation module, that distinguishes relevant regions in the input image from those that should be discarded. CUSP requires no additional supervision. Finally, our quantitative and qualitative analysis which include a user study, show that our method outperforms prior art and demonstrates the effectiveness of our strategy regarding image editing and adjustable structure preservation. Code and pretrained models are available at https://github.com/guillermogotre/CUSP.
翻訳日:2022-07-25 12:44:19 公開日:2022-07-22
# セマンティック摂動に対する運動論的ロバストニューラルネットワークの訓練

Training Certifiably Robust Neural Networks Against Semantic Perturbations ( http://arxiv.org/abs/2207.11177v1 )

ライセンス: Link先を確認
Rem Yang, Jacob Laurel, Sasa Misailovic, Gagandeep Singh(参考訳) スケーリングや回転のようなセマンティックイメージの摂動は、ディープニューラルネットワーク(DNN)を欺くことが容易に示されている。 したがって、これらの摂動に対して確実に堅牢であるようにDNNを訓練することは重要である。 しかしながら、既存の決定論的意味検証器が極めて遅いため、決定論的意味的ロバストネスの目的をトレーニング手順に組み込むことはできない。 これらの課題に対処するために,意味的イメージ摂動に対する決定論的確固たる堅牢性を示す最初のトレーニングフレームワークであるCST(Certified Semantic Training)を提案する。 当社のフレームワークでは,既存の作業とは異なり,トレーニングに十分な速度で使用可能な,GPU最適化の新たなバリデーションを活用しています。 以上の結果から,CSTでトレーニングしたネットワークは,既存の作業に基づくベースラインでトレーニングしたネットワークと比較して,証明可能なセマンティックロバスト性とクリーンな精度の両方を一貫して達成していることがわかった。

Semantic image perturbations, such as scaling and rotation, have been shown to easily deceive deep neural networks (DNNs). Hence, training DNNs to be certifiably robust to these perturbations is critical. However, no prior work has been able to incorporate the objective of deterministic semantic robustness into the training procedure, as existing deterministic semantic verifiers are exceedingly slow. To address these challenges, we propose Certified Semantic Training (CST), the first training framework for deterministic certified robustness against semantic image perturbations. Our framework leverages a novel GPU-optimized verifier that, unlike existing works, is fast enough for use in training. Our results show that networks trained via CST consistently achieve both better provable semantic robustness and clean accuracy, compared to networks trained via baselines based on existing works.
翻訳日:2022-07-25 12:44:03 公開日:2022-07-22
# 臨床ノートから抽出した概念に基づく異なる表現モデルによる死亡予測

Assessing mortality prediction through different representation models based on concepts extracted from clinical notes ( http://arxiv.org/abs/2207.10872v1 )

ライセンス: Link先を確認
Hoda Memarzadeh, Nasser Ghadiri, Maryam Lotfi Shahreza(参考訳) 近年、医療提供の質と安全性を高めるために電子医療記録(EMR)の使用に特に関心が寄せられている。 EMRは大量の臨床記録を含む傾向にある。 埋め込みの学習は、音符をそれに匹敵する形式に変換する方法である。 トランスフォーマーベースの表現モデルは、最近大きな飛躍を遂げた。 これらのモデルは、自然言語テキストを効果的に理解するために、大規模なオンラインデータセットで事前学習される。 学習の埋め込みの質は、臨床ノートを表現モデルへの入力として使う方法に影響される。 臨床ノートには、異なるレベルの情報値を持ついくつかのセクションがある。 医療提供者が同じ概念に異なる表現を使用することも一般的である。 既存の方法は、臨床メモを直接または初期前処理で表現モデルに入力する。 しかし,適切な埋め込みを学習するためには,最も本質的な臨床ノートセクションを同定した。 次に,選択されたセクションから抽出した概念をUMLS(Unified Medical Language System)の標準名にマッピングした。 臨床モデルのインプットとして,ユニークな概念に対応する標準句を用いた。 医療用医療情報マート(MIMIC-III)データセットのサブセットを用いて,病院死亡予測作業における学習した埋め込みベクトルの有用性を評価する実験を行った。 実験によると, 臨床変換器を用いた表現モデルでは, 他の入力形式と比較して, 抽出されたユニークな概念の標準名から入力が生成される。 ベストパフォーマンスモデルはそれぞれBioBERT、PubMedBERT、UmlsBERTである。

Recent years have seen particular interest in using electronic medical records (EMRs) for secondary purposes to enhance the quality and safety of healthcare delivery. EMRs tend to contain large amounts of valuable clinical notes. Learning of embedding is a method for converting notes into a format that makes them comparable. Transformer-based representation models have recently made a great leap forward. These models are pre-trained on large online datasets to understand natural language texts effectively. The quality of a learning embedding is influenced by how clinical notes are used as input to representation models. A clinical note has several sections with different levels of information value. It is also common for healthcare providers to use different expressions for the same concept. Existing methods use clinical notes directly or with an initial preprocessing as input to representation models. However, to learn a good embedding, we identified the most essential clinical notes section. We then mapped the extracted concepts from selected sections to the standard names in the Unified Medical Language System (UMLS). We used the standard phrases corresponding to the unique concepts as input for clinical models. We performed experiments to measure the usefulness of the learned embedding vectors in the task of hospital mortality prediction on a subset of the publicly available Medical Information Mart for Intensive Care (MIMIC-III) dataset. According to the experiments, clinical transformer-based representation models produced better results with getting input generated by standard names of extracted unique concepts compared to other input formats. The best-performing models were BioBERT, PubMedBERT, and UmlsBERT, respectively.
翻訳日:2022-07-25 12:43:33 公開日:2022-07-22
# 時系列特性を振り返る - 時系列予測が完璧になる

Respecting Time Series Properties Makes Deep Time Series Forecasting Perfect ( http://arxiv.org/abs/2207.10941v1 )

ライセンス: Link先を確認
Li Shen, Yuning Wei and Yangzhu Wang(参考訳) 時間的特徴の扱い方は,どの時系列予測モデルにおいても核となる問題となる。 皮肉なことに、ディープラーニングベースのモデル、あるいは最先端のベースラインでさえ、しばしば無視または誤解される。 この行動は効率が悪く、不安定である。 本稿では,正規化法,多変量予測法,入力シーケンス長を含む時系列特性の観点から,有意だが未確立な3つの時系列予測機構や手法を厳密に分析する。 対応する座標と解は経験的および理論的に与えられる。 そこで本稿では,上記の解析に基づいて,rtnet という新たな時系列予測ネットワークを提案する。 一般的には、監督型と自己監督型の両方の予測形式と組み合わせられる。 RTNetは、どの予測フォーマットであっても、時系列特性を尊重するという中核的な考え方のおかげで、3つの実世界のベンチマークデータセットにおいて、他の数十のSOTA時系列予測ベースラインと比較して明らかに優れた予測性能を示す。 全体としては、予測精度を向上しながら、時間の複雑さやメモリ使用量も少なくなります。 ソースコードはhttps://github.com/origamisl/rtnetで入手できる。

How to handle time features shall be the core question of any time series forecasting model. Ironically, it is often ignored or misunderstood by deep-learning based models, even those baselines which are state-of-the-art. This behavior makes their inefficient, untenable and unstable. In this paper, we rigorously analyze three prevalent but deficient/unfounded deep time series forecasting mechanisms or methods from the view of time series properties, including normalization methods, multivariate forecasting and input sequence length. Corresponding corollaries and solutions are given on both empirical and theoretical basis. We thereby propose a novel time series forecasting network, i.e. RTNet, on the basis of aforementioned analysis. It is general enough to be combined with both supervised and self-supervised forecasting format. Thanks to the core idea of respecting time series properties, no matter in which forecasting format, RTNet shows obviously superior forecasting performances compared with dozens of other SOTA time series forecasting baselines in three real-world benchmark datasets. By and large, it even occupies less time complexity and memory usage while acquiring better forecasting accuracy. The source code is available at https://github.com/OrigamiSL/RTNet.
翻訳日:2022-07-25 12:40:33 公開日:2022-07-22
# 潜在空間教師なしセマンティックセマンティックセグメンテーション

Latent Space Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2207.11067v1 )

ライセンス: Link先を確認
Knut J. Str{\o}mmen, Jim T{\o}rresen, Ulysse C\^ot\'e-Allard(参考訳) 小型でエネルギー効率のよいウェアラブルセンサーの開発により、バイオシグナールの可用性が向上した。 連続的に記録され、しばしば多次元の時系列を大規模に解析するために、意味のない教師なしデータセグメンテーションを実行できることは、注目に値する目標である。 これを実現する一般的な方法は、時系列内の変化点をセグメンテーション基底として識別することである。 しかし、従来の変更点検出アルゴリズムには欠点があり、現実の応用性が制限される。 特に、それらは一般的に利用可能な完全な時系列に依存しているため、リアルタイムアプリケーションでは使用できない。 もう一つの一般的な制限は、多次元の時系列のセグメンテーションをうまく扱えない(あるいはできない)ことである。 この研究の主な貢献は、オンラインデータとバッチデータの両方を容易に扱えるように設計された、Latent Space Unsupervised Semantic Segmentation (LS-USS)と呼ばれる、多次元時系列のための新しい非教師付きセグメンテーションアルゴリズムを提案することである。 LS-USSを、さまざまな実世界のデータセット上の、最先端の変更点検出アルゴリズムと比較する場合、オフラインとリアルタイムの両方で、LS-USSは、同等またはより良いパフォーマンスで体系的に達成される。

The development of compact and energy-efficient wearable sensors has led to an increase in the availability of biosignals. To analyze these continuously recorded, and often multidimensional, time series at scale, being able to conduct meaningful unsupervised data segmentation is an auspicious target. A common way to achieve this is to identify change-points within the time series as the segmentation basis. However, traditional change-point detection algorithms often come with drawbacks, limiting their real-world applicability. Notably, they generally rely on the complete time series to be available and thus cannot be used for real-time applications. Another common limitation is that they poorly (or cannot) handle the segmentation of multidimensional time series. Consequently, the main contribution of this work is to propose a novel unsupervised segmentation algorithm for multidimensional time series named Latent Space Unsupervised Semantic Segmentation (LS-USS), which was designed to work easily with both online and batch data. When comparing LS-USS against other state-of-the-art change-point detection algorithms on a variety of real-world datasets, in both the offline and real-time setting, LS-USS systematically achieves on par or better performances.
翻訳日:2022-07-25 12:40:14 公開日:2022-07-22
# 人工知能システムは理解できますか?

Do Artificial Intelligence Systems Understand? ( http://arxiv.org/abs/2207.11089v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Carlos Blanco(参考訳) インテリジェントマシンは本当にインテリジェントか? インテリジェンスの哲学的概念は、現在のシステムがどのように機能するかを説明するのに十分だろうか? 理解は知性にとって必要かつ十分な条件か? もし機械が理解できたら、主観性をそれに当てはめるべきだろうか? 本稿では、いわゆる「知的機械」が単に記号を処理するのではなく、理解できるかどうかを決定する問題に対処する。 構文と意味論の関係を扱う。 主論は、意識的な機械を構築する可能性に関する議論において意味論の必然性に関するもので、「機械が(強い意味で)理解できるならば、規則と直観を組み合わせなければならない」、「意味論が構文に還元できないなら、機械は理解できない」という2つの教義に凝縮されている。 我々の結論は、提示された「知性」の振る舞いを説明するために、機械に理解を委ねる必要はないことを述べており、単にタスク解決ツールとしての知性に対する統語的・機械的なアプローチは、現在の技術開発状況で表示できる操作範囲を正当化するのに十分である。

Are intelligent machines really intelligent? Is the underlying philosophical concept of intelligence satisfactory for describing how the present systems work? Is understanding a necessary and sufficient condition for intelligence? If a machine could understand, should we attribute subjectivity to it? This paper addresses the problem of deciding whether the so-called "intelligent machines" are capable of understanding, instead of merely processing signs. It deals with the relationship between syntaxis and semantics. The main thesis concerns the inevitability of semantics for any discussion about the possibility of building conscious machines, condensed into the following two tenets: "If a machine is capable of understanding (in the strong sense), then it must be capable of combining rules and intuitions"; "If semantics cannot be reduced to syntaxis, then a machine cannot understand." Our conclusion states that it is not necessary to attribute understanding to a machine in order to explain its exhibited "intelligent" behavior; a merely syntactic and mechanistic approach to intelligence as a task-solving tool suffices to justify the range of operations that it can display in the current state of technological development.
翻訳日:2022-07-25 12:39:52 公開日:2022-07-22
# スコアベース生成モデルによる分類

Classification via score-based generative modelling ( http://arxiv.org/abs/2207.11091v1 )

ライセンス: Link先を確認
Yongchao Huang(参考訳) 本研究では,識別的および生成的分類設定におけるスコアベース勾配学習の応用について検討した。 スコア関数は密度の代替としてデータ分布を特徴付けるのに用いられる。 スコアマッチングによって効率よく学習でき、信頼性のあるサンプルを柔軟に生成し、識別的分類品質を高め、密度を回復し、生成的分類器を構築する。 我々はスコアベース表現を含む決定理論を分析し、シミュレーションおよび実世界のデータセットの実験を行い、バイナリ分類性能の達成と改善、特に高次元および不均衡状況における摂動に対する堅牢性を示す。

In this work, we investigated the application of score-based gradient learning in discriminative and generative classification settings. Score function can be used to characterize data distribution as an alternative to density. It can be efficiently learned via score matching, and used to flexibly generate credible samples to enhance discriminative classification quality, to recover density and to build generative classifiers. We analysed the decision theories involving score-based representations, and performed experiments on simulated and real-world datasets, demonstrating its effectiveness in achieving and improving binary classification performance, and robustness to perturbations, particularly in high dimensions and imbalanced situations.
翻訳日:2022-07-25 12:39:33 公開日:2022-07-22
# 離散鍵値ボトルネック

Discrete Key-Value Bottleneck ( http://arxiv.org/abs/2207.11240v1 )

ライセンス: Link先を確認
Frederik Tr\"auble, Anirudh Goyal, Nasim Rahaman, Michael Mozer, Kenji Kawaguchi, Yoshua Bengio, Bernhard Sch\"olkopf(参考訳) ディープニューラルネットワークは、データストリームがi.i.d.であり、ラベル付きデータが多く、クラスラベルがバランスを取っている標準設定での予測と分類のタスクでうまく機能する。 非定常データストリームや不均衡データストリームなど,分散シフトに伴う課題が発生する。 この課題に対処した強力なアプローチの1つは、ラベルなしデータのボリュームに対する大規模エンコーダの自己教師付き事前訓練と、タスク固有のチューニングである。 新しいタスクが与えられた場合、エンコーダの重みを更新することは、多くの重みを微調整する必要があるため困難であり、その結果、以前のタスクに関する情報を忘れてしまう。 本研究では,この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能な(キー,値)コードのペアを含む離散的ボトルネックを構築する。 この設定では、エンコーダの処理、離散的ボトルネックによる表現、およびプリトレーニングされたエンコーダに入力が供給され、エンコーダの出力が最寄りキーの選択に使用され、対応する値がデコーダに供給されて現在のタスクが解決されるデコードパラダイムに従う。 モデルは推論中に限られた数の(キー、値)ペアをフェッチし、再使用し、局所化およびコンテキスト依存のモデル更新を可能にする。 理論上,分布シフトの効果を最小限に抑えるためのモデルの有効性を検証し,(キー,値)ペアの離散的ボトルネックが仮説クラスの複雑性を減少させることを示した。 提案手法の利点を,様々なベンチマークデータセット間の分散シフトシナリオの挑戦の下で実証的に検証し,提案手法が他の様々なベースラインと比較して,共通脆弱性を非非定常的および非定常的なトレーニング分布に還元することを示す。

Deep neural networks perform well on prediction and classification tasks in the canonical setting where data streams are i.i.d., labeled data is abundant, and class labels are balanced. Challenges emerge with distribution shifts, including non-stationary or imbalanced data streams. One powerful approach that has addressed this challenge involves self-supervised pretraining of large encoders on volumes of unlabeled data, followed by task-specific tuning. Given a new task, updating the weights of these encoders is challenging as a large number of weights needs to be fine-tuned, and as a result, they forget information about the previous tasks. In the present work, we propose a model architecture to address this issue, building upon a discrete bottleneck containing pairs of separate and learnable (key, value) codes. In this setup, we follow the encode; process the representation via a discrete bottleneck; and decode paradigm, where the input is fed to the pretrained encoder, the output of the encoder is used to select the nearest keys, and the corresponding values are fed to the decoder to solve the current task. The model can only fetch and re-use a limited number of these (key, value) pairs during inference, enabling localized and context-dependent model updates. We theoretically investigate the ability of the proposed model to minimize the effect of the distribution shifts and show that such a discrete bottleneck with (key, value) pairs reduces the complexity of the hypothesis class. We empirically verified the proposed methods' benefits under challenging distribution shift scenarios across various benchmark datasets and show that the proposed model reduces the common vulnerability to non-i.i.d. and non-stationary training distributions compared to various other baselines.
翻訳日:2022-07-25 12:39:23 公開日:2022-07-22
# オーディオ・トランスクリプト・エンターメントによるASR誤り検出

ASR Error Detection via Audio-Transcript entailment ( http://arxiv.org/abs/2207.10849v1 )

ライセンス: Link先を確認
Nimshi Venkat Meripo, Sandeep Konam(参考訳) 最新の自動音声認識(ASR)システムの性能改善にもかかわらず、転写エラーは避けられない。 これらのエラーは、臨床ドキュメントの助けとなると、医療などの重要な領域に大きな影響を与える可能性がある。 したがって、ASRエラーの検出は、下流アプリケーションへのさらなるエラー伝搬を防止するための重要な第一歩である。 そこで本研究では,音声書き起こしによるASR誤り検出のための新しいエンドツーエンドアプローチを提案する。 我々の知る限りでは、我々はこの問題を音声セグメントとその対応する転写セグメント間のエンドツーエンドの包含タスクとして最初に捉えている。 私たちの直感は、認識エラーがなければ、オーディオと書き起こしの間に双方向の制約があるべきだということです。 提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。 両方のモダリティのエンコードされた表現は、包含を予測するために融合される。 本実験では, 医師と患者との会話が用いられているので, 医療用語に特に重点を置いている。 提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。

Despite improved performances of the latest Automatic Speech Recognition (ASR) systems, transcription errors are still unavoidable. These errors can have a considerable impact in critical domains such as healthcare, when used to help with clinical documentation. Therefore, detecting ASR errors is a critical first step in preventing further error propagation to downstream applications. To this end, we propose a novel end-to-end approach for ASR error detection using audio-transcript entailment. To the best of our knowledge, we are the first to frame this problem as an end-to-end entailment task between the audio segment and its corresponding transcript segment. Our intuition is that there should be a bidirectional entailment between audio and transcript when there is no recognition error and vice versa. The proposed model utilizes an acoustic encoder and a linguistic encoder to model the speech and transcript respectively. The encoded representations of both modalities are fused to predict the entailment. Since doctor-patient conversations are used in our experiments, a particular emphasis is placed on medical terms. Our proposed model achieves classification error rates (CER) of 26.2% on all transcription errors and 23% on medical errors specifically, leading to improvements upon a strong baseline by 12% and 15.4%, respectively.
翻訳日:2022-07-25 12:38:48 公開日:2022-07-22
# 確率帯域におけるSPRTに基づく効率的なベストアーム同定

SPRT-based Efficient Best Arm Identification in Stochastic Bandits ( http://arxiv.org/abs/2207.11158v1 )

ライセンス: Link先を確認
Arpan Mukherjee and Ali Tajer(参考訳) 本稿では,確率的マルチアームバンディットにおける最適腕識別(BAI)問題について検討する。 指数的ブレイディット族(英語版)の一般類を考える。 指数関数的なバンディット群に対する最先端のアルゴリズムは計算の課題に直面している。 これらの課題を緩和するために, bai 問題を逐次仮説検定と捉えた新しい枠組みが提案されている。 この枠組みに基づき、標準的な逐次確率比テストを利用するbaiアルゴリズムが設計されている。 このアルゴリズムは,(1)サンプルの複雑さが漸近的に最適であること,(2)$\delta-$PACであること,(3)最先端アプローチの計算課題に対処すること,の3つの特徴を有する。 具体的には、ガウス的な設定にのみ焦点をあてたこれらのアプローチは、ベストかつ挑戦的な腕と見なされる腕からのトンプソンサンプリングを必要とする。 本稿では,挑戦者の同定が計算コストが高く,提案アルゴリズムが回避できることを解析的に示す。 最後に,解析を支援する数値実験を行った。

This paper investigates the best arm identification (BAI) problem in stochastic multi-armed bandits in the fixed confidence setting. The general class of the exponential family of bandits is considered. The state-of-the-art algorithms for the exponential family of bandits face computational challenges. To mitigate these challenges, a novel framework is proposed, which views the BAI problem as sequential hypothesis testing, and is amenable to tractable analysis for the exponential family of bandits. Based on this framework, a BAI algorithm is designed that leverages the canonical sequential probability ratio tests. This algorithm has three features for both settings: (1) its sample complexity is asymptotically optimal, (2) it is guaranteed to be $\delta-$PAC, and (3) it addresses the computational challenge of the state-of-the-art approaches. Specifically, these approaches, which are focused only on the Gaussian setting, require Thompson sampling from the arm that is deemed the best and a challenger arm. This paper analytically shows that identifying the challenger is computationally expensive and that the proposed algorithm circumvents it. Finally, numerical experiments are provided to support the analysis.
翻訳日:2022-07-25 12:37:16 公開日:2022-07-22
# 機械学習に基づく統計的仮説テスト:大規模偏差解析

Statistical Hypothesis Testing Based on Machine Learning: Large Deviations Analysis ( http://arxiv.org/abs/2207.10939v1 )

ライセンス: Link先を確認
Paolo Braca, Leonardo M. Millefiori, Augusto Aubry, Stefano Marano, Antonio De Maio and Peter Willett(参考訳) 機械学習(ml)分類手法の性能(特にエラー確率がゼロに収束する率)について検討する。 大きな偏差の理論を利用して、ml分類器が指数関数的に消滅するエラー確率を示すための数学的条件、例えば$\sim \exp\left(-n\,i + o(n) \right)$ を提供する。 このような条件は、トレーニングフェーズで学習したデータ駆動決定関数(d3f、つまり最終二分決定が行われる前にしきい値となるもの)の累積生成関数のfenchel-legendre変換に依存する。 したがって、D3F および従って、関連する誤差レート $I$ は、与えられたトレーニングセットに依存し、有限サイズと仮定される。 興味深いことに、これらの条件は、基礎となる統計モデルで利用可能な情報に基づいて生成された利用可能なデータセット、または合成データセットを数値的に検証し、検証することができる。 言い換えれば、ゼロへの分類誤差確率収束とそのレートは、トレーニングに利用可能なデータセットの一部で計算できる。 大きな偏差理論と整合して、正規化された d3f 統計量からガウス分布への収束を十分に確立することができる。 この性質は所望の漸近的な誤報確率を設定するために利用され、非常に現実的な値である$n$でも経験的に正確であることが分かる。 さらに、近似誤差確率曲線 $\sim \zeta_n \exp\left(-n\,I \right)$ は、洗練された漸近微分(しばしば正確な漸近と呼ばれる)のおかげで与えられる。

We study the performance -- and specifically the rate at which the error probability converges to zero -- of Machine Learning (ML) classification techniques. Leveraging the theory of large deviations, we provide the mathematical conditions for a ML classifier to exhibit error probabilities that vanish exponentially, say $\sim \exp\left(-n\,I + o(n) \right)$, where $n$ is the number of informative observations available for testing (or another relevant parameter, such as the size of the target in an image) and $I$ is the error rate. Such conditions depend on the Fenchel-Legendre transform of the cumulant-generating function of the Data-Driven Decision Function (D3F, i.e., what is thresholded before the final binary decision is made) learned in the training phase. As such, the D3F and, consequently, the related error rate $I$, depend on the given training set, which is assumed of finite size. Interestingly, these conditions can be verified and tested numerically exploiting the available dataset, or a synthetic dataset, generated according to the available information on the underlying statistical model. In other words, the classification error probability convergence to zero and its rate can be computed on a portion of the dataset available for training. Coherently with the large deviations theory, we can also establish the convergence, for $n$ large enough, of the normalized D3F statistic to a Gaussian distribution. This property is exploited to set a desired asymptotic false alarm probability, which empirically turns out to be accurate even for quite realistic values of $n$. Furthermore, approximate error probability curves $\sim \zeta_n \exp\left(-n\,I \right)$ are provided, thanks to the refined asymptotic derivation (often referred to as exact asymptotics), where $\zeta_n$ represents the most representative sub-exponential terms of the error probabilities.
翻訳日:2022-07-25 12:34:40 公開日:2022-07-22
# マルチタスク学習を用いた複数感情記述子推定のためのアンサンブルアプローチ

An Ensemble Approach for Multiple Emotion Descriptors Estimation Using Multi-task Learning ( http://arxiv.org/abs/2207.10878v1 )

ライセンス: Link先を確認
Irfan Haider, Minh-Trieu Tran, Soo-Hyung Kim, Hyung-Jeong Yang, Guee-Sang Lee(参考訳) 本稿では,第4回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションへの提案方法について述べる。 この方法は、マルチタスク学習チャレンジに使用される。 顔情報のみを使用する代わりに、顔と顔の周囲のコンテキストを含む提供されるデータセットから完全な情報を利用する。 InceptionNet V3モデルを用いて深い特徴を抽出し,特徴を洗練するために注意機構を適用した。 その後、これらの機能をトランスフォーマーブロックと多層パーセプトロンネットワークに組み込んで、最後の複数の種類の感情を得る。 本モデルは覚醒とヴァレンスを予測し,感情表現を分類し,同時に行動単位を推定する。 提案システムは,MTLチャレンジ検証データセット上で0.917の性能を実現する。

This paper illustrates our submission method to the fourth Affective Behavior Analysis in-the-Wild (ABAW) Competition. The method is used for the Multi-Task Learning Challenge. Instead of using only face information, we employ full information from a provided dataset containing face and the context around the face. We utilized the InceptionNet V3 model to extract deep features then we applied the attention mechanism to refine the features. After that, we put those features into the transformer block and multi-layer perceptron networks to get the final multiple kinds of emotion. Our model predicts arousal and valence, classifies the emotional expression and estimates the action units simultaneously. The proposed system achieves the performance of 0.917 on the MTL Challenge validation dataset.
翻訳日:2022-07-25 12:32:42 公開日:2022-07-22
# 自己中心型ビデオからプロシージャを学習する私の見解

My View is the Best View: Procedure Learning from Egocentric Videos ( http://arxiv.org/abs/2207.10883v1 )

ライセンス: Link先を確認
Siddhant Bansal, Chetan Arora, C.V. Jawahar(参考訳) 手順学習は、キーステップを識別し、タスクを実行する論理的順序を決定することを含む。 既存のアプローチでは、手順を学ぶために第三者のビデオを使用し、操作されたオブジェクトの外観を小さくし、しばしば俳優によってオクルードされ、重大なエラーを引き起こす。 対照的に、ファーストパーソン(エゴセントリック)のウェアラブルカメラから得られたビデオは、そのアクションの邪魔にならない明確なビューを提供する。 しかし エゴセントリックビデオからの手順学習は困難です (a)着用者の頭部の動きにより、カメラビューが極端に変化し、 (b)ビデオの制約のない性質による無関係なフレームの存在。 このため、現在の最先端の手法では、アクションがほぼ同じ時間に発生し、同じ持続時間であるという仮定は保たない。 代わりに,ビデオ間のキーステップ間の時間的対応によって提供される信号を使用することを提案する。 そこで本研究では,手続き学習のための新しい自己教師付き対応と切断(cnc)フレームワークを提案する。 CnCは、複数のビデオにまたがるキーステップ間の時間的対応を特定し、利用する。 我々の実験によると、CnCはベンチマークのProceLとCrossTaskのデータセットをそれぞれ5.2%と6.3%上回っている。 さらに,エゴセントリックなビデオを用いたプロシージャ学習のために,130人の被験者が16タスクをこなした62時間のビデオからなるEgoProceLデータセットを提案する。 ソースコードとデータセットはプロジェクトページhttps://sid2697.github.io/egoprocel/で入手できる。

Procedure learning involves identifying the key-steps and determining their logical order to perform a task. Existing approaches commonly use third-person videos for learning the procedure, making the manipulated object small in appearance and often occluded by the actor, leading to significant errors. In contrast, we observe that videos obtained from first-person (egocentric) wearable cameras provide an unobstructed and clear view of the action. However, procedure learning from egocentric videos is challenging because (a) the camera view undergoes extreme changes due to the wearer's head motion, and (b) the presence of unrelated frames due to the unconstrained nature of the videos. Due to this, current state-of-the-art methods' assumptions that the actions occur at approximately the same time and are of the same duration, do not hold. Instead, we propose to use the signal provided by the temporal correspondences between key-steps across videos. To this end, we present a novel self-supervised Correspond and Cut (CnC) framework for procedure learning. CnC identifies and utilizes the temporal correspondences between the key-steps across multiple videos to learn the procedure. Our experiments show that CnC outperforms the state-of-the-art on the benchmark ProceL and CrossTask datasets by 5.2% and 6.3%, respectively. Furthermore, for procedure learning using egocentric videos, we propose the EgoProceL dataset consisting of 62 hours of videos captured by 130 subjects performing 16 tasks. The source code and the dataset are available on the project page https://sid2697.github.io/egoprocel/.
翻訳日:2022-07-25 12:32:32 公開日:2022-07-22
# 深層学習を用いた視覚に基づくヒューマンフォール検出システム

Vision-based Human Fall Detection Systems using Deep Learning: A Review ( http://arxiv.org/abs/2207.10952v1 )

ライセンス: Link先を確認
Ekram Alam, Abu Sufian, Paramartha Dutta, Marco Leo(参考訳) 人間の転倒は、特に高齢者や障害者にとって、非常に重要な健康上の問題の1つである。 世界の高齢者の数は着実に増加している。 そのため、人間による転倒検出は、これらの人々にとって効果的な生活支援手法になりつつある。 支援的な生活には、ディープラーニングとコンピュータビジョンが広く使われている。 本稿では,ディープラーニング(DL)に基づく非侵襲的(ビジョンベース)転倒検出技術について論じる。 また,転倒検出ベンチマークデータセットについても報告する。 そこで我々は,転倒検知システムの性能評価に使用される各種指標について簡単に考察する。 本稿では、視覚に基づく人間の転倒検出技術についても今後の方向性を示す。

Human fall is one of the very critical health issues, especially for elders and disabled people living alone. The number of elder populations is increasing steadily worldwide. Therefore, human fall detection is becoming an effective technique for assistive living for those people. For assistive living, deep learning and computer vision have been used largely. In this review article, we discuss deep learning (DL)-based state-of-the-art non-intrusive (vision-based) fall detection techniques. We also present a survey on fall detection benchmark datasets. For a clear understanding, we briefly discuss different metrics which are used to evaluate the performance of the fall detection systems. This article also gives a future direction on vision-based human fall detection techniques.
翻訳日:2022-07-25 12:32:10 公開日:2022-07-22
# 田口県における欠陥ファスナー分類のための逐次畳み込みニューラルネットワークの設計

Taguchi based Design of Sequential Convolution Neural Network for Classification of Defective Fasteners ( http://arxiv.org/abs/2207.10992v1 )

ライセンス: Link先を確認
Manjeet Kaur and Krishan Kumar Chauhan and Tanya Aggarwal and Pushkar Bharadwaj and Renu Vig and Isibor Kennedy Ihianle and Garima Joshi and Kayode Owa(参考訳) ファスナーは機械の様々な部分を確保する上で重要な役割を担っている。 ファスナーの表面のデント、ひび割れ、ひび割れなどの変形は、材料特性と製造過程における機器の不正な取り扱いによって引き起こされる。 その結果,安全かつ信頼性の高い運用を実現するためには品質管理が必要である。 既存の欠陥検査方法は、かなりの時間、お金、その他のリソースを消費する手動検査に依存しているが、ヒューマンエラーのために正確性が保証できない。 自動欠陥検出システムは、欠陥解析のための手動検査技術に影響を与えている。 しかし、畳み込みニューラルネットワーク(CNN)やディープラーニングベースのアプローチといった計算手法は進化的手法である。 設計パラメータ値を慎重に選択することで、CNNの完全なポテンシャルを実現することができる。 田口による実験・解析の設計を用いて, 本研究における堅牢な自動システムの構築を試みた。 システムのトレーニングに使われるデータセットは、DefectiveとNon-defectiveの2つのラベル付きクラスを持つM14サイズのナッツのために手動で作成されている。 データセットには合計264のイメージがある。 提案されたシーケンシャルCNNは、96.3%の検証精度、0.277の検証損失0.001の学習率を持つ。

Fasteners play a critical role in securing various parts of machinery. Deformations such as dents, cracks, and scratches on the surface of fasteners are caused by material properties and incorrect handling of equipment during production processes. As a result, quality control is required to ensure safe and reliable operations. The existing defect inspection method relies on manual examination, which consumes a significant amount of time, money, and other resources; also, accuracy cannot be guaranteed due to human error. Automatic defect detection systems have proven impactful over the manual inspection technique for defect analysis. However, computational techniques such as convolutional neural networks (CNN) and deep learning-based approaches are evolutionary methods. By carefully selecting the design parameter values, the full potential of CNN can be realised. Using Taguchi-based design of experiments and analysis, an attempt has been made to develop a robust automatic system in this study. The dataset used to train the system has been created manually for M14 size nuts having two labeled classes: Defective and Non-defective. There are a total of 264 images in the dataset. The proposed sequential CNN comes up with a 96.3% validation accuracy, 0.277 validation loss at 0.001 learning rate.
翻訳日:2022-07-25 12:32:02 公開日:2022-07-22
# 発達・行動科学におけるオープンビデオデータ共有

Open video data sharing in developmental and behavioural science ( http://arxiv.org/abs/2207.11020v1 )

ライセンス: Link先を確認
Peter B Marschik, Tomas Kulvicius, Sarah Fl\"ugge, Claudius Widmann, Karin Nielsen-Saines, Martin Schulte-R\"uther, Britta H\"uning, Sven B\"olte, Luise Poustka, Jeff Sigafoos, Florentin W\"org\"otter, Christa Einspieler, Dajie Zhang(参考訳) ビデオ記録は、研究および臨床実践における幼児および子供の行動を記録するために広く用いられている方法である。 ビデオデータは機密性の倫理的な懸念から共有されることは滅多にないが、大規模なデータセットの共有の必要性は増え続けている。 この需要は、臨床評価を補完するスクリーニングツールなど、データ駆動型コンピュータベースのアプローチが関与する場合、さらに重要となる。 プライバシー保護規則に従ってデータを共有するには、データ識別の取り組みがデータの有用性を低下させるのか? 我々は,脳性麻痺などの神経障害を早期に発見するための確立し,グローバルに実践したビデオ診断ツールであるprechtlのgeneral movement assessment(gma)を紹介することで,この問題に対処した。 現在、幼児運動分析のための共有専門家注釈付き大規模データリポジトリは存在しない。 このようなデータセットは、人間の評価者のトレーニングと再校正、およびコンピュータベースのアプローチの開発に大きな恩恵をもたらすだろう。 本研究は, 先天的な乳児のコホートと合計19451個の汎用運動ビデオスニペットのシーケンスを, ヒト臨床推論とコンピュータによる解析のためにランダムに選択したものである。 ビデオ録画による偽名化が有効なアプローチであることは,今回初めて実証した。 ビデオのリアクションは人間のアセスメントやコンピュータビジョンの手法の分類精度に影響を与えず、動画データを共有するのに適切かつ容易に対応できる解決策を示唆した。 我々は,移動アセスメント以外の科学・臨床分野における映像データを識別するための効率的かつプライバシルールに適合するアプローチについて,さらなる調査を要請する。 これらのアプローチにより、スタンドアローンのビデオデータセットの共有とマージが可能になり、科学と公衆衛生を向上する。

Video recording is a widely used method for documenting infant and child behaviours in research and clinical practice. Video data has rarely been shared due to ethical concerns of confidentiality, although the need of shared large-scaled datasets remains increasing. This demand is even more imperative when data-driven computer-based approaches are involved, such as screening tools to complement clinical assessments. To share data while abiding by privacy protection rules, a critical question arises whether efforts at data de-identification reduce data utility? We addressed this question by showcasing the Prechtl's general movements assessment (GMA), an established and globally practised video-based diagnostic tool in early infancy for detecting neurological deficits, such as cerebral palsy. To date, no shared expert-annotated large data repositories for infant movement analyses exist. Such datasets would massively benefit training and recalibration of human assessors and the development of computer-based approaches. In the current study, sequences from a prospective longitudinal infant cohort with a total of 19451 available general movements video snippets were randomly selected for human clinical reasoning and computer-based analysis. We demonstrated for the first time that pseudonymisation by face-blurring video recordings is a viable approach. The video redaction did not affect classification accuracy for either human assessors or computer vision methods, suggesting an adequate and easy-to-apply solution for sharing movement video data. We call for further explorations into efficient and privacy rule-conforming approaches for deidentifying video data in scientific and clinical fields beyond movement assessments. These approaches shall enable sharing and merging stand-alone video datasets into large data pools to advance science and public health.
翻訳日:2022-07-25 12:31:43 公開日:2022-07-22
# パンオプティカルシーングラフ生成

Panoptic Scene Graph Generation ( http://arxiv.org/abs/2207.11247v1 )

ライセンス: Link先を確認
Jingkang Yang, Yi Zhe Ang, Zujin Guo, Kaiyang Zhou, Wayne Zhang, and Ziwei Liu(参考訳) 既存の研究では、画像のシーン理解のための重要な技術であるシーングラフ生成(SGG)が検出の観点から検出されている。 このようなパラダイムは、この分野の進歩を妨げるいくつかの問題を引き起こすと論じる。 例えば、現在のデータセットにおけるボックスベースのラベルのバウンディングは通常、ヘアのような冗長なクラスを含み、コンテキスト理解に不可欠なバックグラウンド情報を除外する。 本研究では,厳密なバウンディングボックスではなく,パノプティカルなセグメンテーションに基づいて,より包括的なシーングラフ表現をモデルに要求する新しい問題課題である,パノプティカルシーングラフ生成(PSG)を導入する。 cocoと視覚ゲノムからの49k重なり合った画像を含む高品質psgデータセットがコミュニティのために作成され、その進捗を追跡している。 ベンチマークには,sggの古典的な手法から修正した4つの2段ベースラインと,効率的なトランスフォーマーベースの検出器であるdetrに基づくpsgtrとpsgformerと呼ばれる2つの1段ベースラインを構築した。 psgtrはトリプレットを直接学習するために一連のクエリを使用するが、psgformerは2つのトランスフォーマーデコーダからのクエリ形式でオブジェクトとリレーションを別々にモデル化し、プロンプトライクなリレーション・オブジェクトマッチング機構を使用する。 最後に、オープンチャレンジと今後の方向性に関する洞察を共有します。

Existing research addresses scene graph generation (SGG) -- a critical technology for scene understanding in images -- from a detection perspective, i.e., objects are detected using bounding boxes followed by prediction of their pairwise relationships. We argue that such a paradigm causes several problems that impede the progress of the field. For instance, bounding box-based labels in current datasets usually contain redundant classes like hairs, and leave out background information that is crucial to the understanding of context. In this work, we introduce panoptic scene graph generation (PSG), a new problem task that requires the model to generate a more comprehensive scene graph representation based on panoptic segmentations rather than rigid bounding boxes. A high-quality PSG dataset, which contains 49k well-annotated overlapping images from COCO and Visual Genome, is created for the community to keep track of its progress. For benchmarking, we build four two-stage baselines, which are modified from classic methods in SGG, and two one-stage baselines called PSGTR and PSGFormer, which are based on the efficient Transformer-based detector, i.e., DETR. While PSGTR uses a set of queries to directly learn triplets, PSGFormer separately models the objects and relations in the form of queries from two Transformer decoders, followed by a prompting-like relation-object matching mechanism. In the end, we share insights on open challenges and future directions.
翻訳日:2022-07-25 12:28:57 公開日:2022-07-22
# MobileDenseNet: モバイルデバイスにおけるオブジェクト検出の新しいアプローチ

MobileDenseNet: A new approach to object detection on mobile devices ( http://arxiv.org/abs/2207.11031v1 )

ライセンス: Link先を確認
Mohammad Hajizadeh, Mohammad Sabokrou, Adel Rahmani(参考訳) 物体検出問題の解決はここ数年で大きく進歩した。 ハードウェアの制限が存在するインスタンスでは、より軽量なモデルが必要であり、また、モデルがモバイルデバイス用に調整される必要がある。 本稿では,これらの問題に対処するアルゴリズムを作成する際の手法を評価する。 本稿の主な目的は、高速かつリアルタイムな効率を維持しつつ、最先端アルゴリズムの精度を高めることである。 1段階のオブジェクト検出における最も重要な問題は、小さなオブジェクトと不正確なローカライズに関するものである。 ソリューションとして、組み込みシステムに適したmobiledensenetという名の新しいネットワークを作成しました。 また,小型物体の検出を支援するモバイル機器用軽量ネックFCPNLiteを開発した。 組込みシステムでネックを引用した論文はほとんどない。 ネットワークが他と違うのは、結合機能の利用です。 ネットワークのヘッドに対する小さな変更は、速度やパラメータの制限を伴わずに精度を増幅した。 要するに、挑戦的なCoCoとPascalのVOCデータセットへのフォーカスは、それぞれ24.8と76.8のパーセンテージだった。 我々のネットワークはモバイルデバイス上でリアルタイムの効率を維持しながら精度を向上させることができる。 Pixel 3(Snapdragon 845)の動作速度を22.8fpsに計算した。 この研究のソースコードはhttps://github.com/hajizadeh/mobiledensenetで入手できる。

Object detection problem solving has developed greatly within the past few years. There is a need for lighter models in instances where hardware limitations exist, as well as a demand for models to be tailored to mobile devices. In this article, we will assess the methods used when creating algorithms that address these issues. The main goal of this article is to increase accuracy in state-of-the-art algorithms while maintaining speed and real-time efficiency. The most significant issues in one-stage object detection pertains to small objects and inaccurate localization. As a solution, we created a new network by the name of MobileDenseNet suitable for embedded systems. We also developed a light neck FCPNLite for mobile devices that will aid with the detection of small objects. Our research revealed that very few papers cited necks in embedded systems. What differentiates our network from others is our use of concatenation features. A small yet significant change to the head of the network amplified accuracy without increasing speed or limiting parameters. In short, our focus on the challenging CoCo and Pascal VOC datasets were 24.8 and 76.8 in percentage terms respectively - a rate higher than that recorded by other state-of-the-art systems thus far. Our network is able to increase accuracy while maintaining real-time efficiency on mobile devices. We calculated operational speed on Pixel 3 (Snapdragon 845) to 22.8 fps. The source code of this research is available on https://github.com/hajizadeh/MobileDenseNet.
翻訳日:2022-07-25 12:28:30 公開日:2022-07-22
# ラグランジアン法によるq関数学習(機械翻訳への応用)

Lagrangian Method for Q-Function Learning (with Applications to Machine Translation) ( http://arxiv.org/abs/2207.11161v1 )

ライセンス: Link先を確認
Huang Bojun(参考訳) 本稿では,q関数の最適学習の基本問題に対する新しいアプローチについて述べる。 このアプローチでは、最適q-函数は古典的なベルマン最適性方程式から導かれる非線形ラグランジュ函数の鞍点として定式化される。 この論文は、ラグランジアンはその非線形性にもかかわらず強い双対性を楽しむことを示し、一般ラグランジアン法からq関数学習への道を開く。 実演として,双対性理論に基づく模倣学習アルゴリズムを開発し,そのアルゴリズムを最先端機械翻訳ベンチマークに適用する。 この論文はラグランジアン鞍点の最適性に関する対称性の破れ現象を示し、ラグランジアン法の発展において見過ごされている方向を正当化する。

This paper discusses a new approach to the fundamental problem of learning optimal Q-functions. In this approach, optimal Q-functions are formulated as saddle points of a nonlinear Lagrangian function derived from the classic Bellman optimality equation. The paper shows that the Lagrangian enjoys strong duality, in spite of its nonlinearity, which paves the way to a general Lagrangian method to Q-function learning. As a demonstration, the paper develops an imitation learning algorithm based on the duality theory, and applies the algorithm to a state-of-the-art machine translation benchmark. The paper then turns to demonstrate a symmetry breaking phenomenon regarding the optimality of the Lagrangian saddle points, which justifies a largely overlooked direction in developing the Lagrangian method.
翻訳日:2022-07-25 12:28:14 公開日:2022-07-22
# fairgrape: 顔属性分類のためのフェアネスアウェア勾配プルーニング法

FairGRAPE: Fairness-aware GRAdient Pruning mEthod for Face Attribute Classification ( http://arxiv.org/abs/2207.10888v1 )

ライセンス: Link先を確認
Xiaofeng Lin, Seungbae Kim, Jungseock Joo(参考訳) 既存のプルーニング技術は、深層ニューラルネットワークの全体的な予測能力を保ちながら、圧縮プロセス中に隠れたバイアスを増幅する。 異なるサブグループに対する刈り込みの不釣り合いな影響を最小限に抑える新しい刈り取り法,フェアネス・アウェア勾配刈り込み法(fairgrape)を提案する。 本手法は,各モデル重みの群別重要度を算出し,プルーニングにおけるグループ間全体重要度を維持できる重みのサブセットを選択する。 提案手法は,ネットワークエッジを小さな重要値でプルークし,重要値の更新によって手順を繰り返す。 提案手法はFairFace, UTKFace, CelebA, ImageNetの4つの異なるデータセットに対して, 性能劣化の相違を最大90%低減するフェース属性分類のタスクに対して有効であることを示す。 本手法は,高い刈り込み率(99%)の条件下では,より効果的である。 実験で使用されたコードとデータセットはhttps://github.com/Bernardo1998/FairGRAPEで公開されている。

Existing pruning techniques preserve deep neural networks' overall ability to make correct predictions but may also amplify hidden biases during the compression process. We propose a novel pruning method, Fairness-aware GRAdient Pruning mEthod (FairGRAPE), that minimizes the disproportionate impacts of pruning on different sub-groups. Our method calculates the per-group importance of each model weight and selects a subset of weights that maintain the relative between-group total importance in pruning. The proposed method then prunes network edges with small importance values and repeats the procedure by updating importance values. We demonstrate the effectiveness of our method on four different datasets, FairFace, UTKFace, CelebA, and ImageNet, for the tasks of face attribute classification where our method reduces the disparity in performance degradation by up to 90% compared to the state-of-the-art pruning algorithms. Our method is substantially more effective in a setting with a high pruning rate (99%). The code and dataset used in the experiments are available at https://github.com/Bernardo1998/FairGRAPE
翻訳日:2022-07-25 12:27:26 公開日:2022-07-22
# 自己教師付き対向ロバストネスのための非結合型対向コントラスト学習

Decoupled Adversarial Contrastive Learning for Self-supervised Adversarial Robustness ( http://arxiv.org/abs/2207.10899v1 )

ライセンス: Link先を確認
Chaoning Zhang, Kang Zhang, Chenshuang Zhang, Axi Niu, Jiu Feng, Chang D. Yoo, and In So Kweon(参考訳) 頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己監督学習(SSL)は2つの活発な研究分野である。 ATをSSLに統合し、複数の先行作業は、ラベルなしで堅牢な表現を学ぶという非常に重要な課題を達成しました。 広く使われているフレームワークは、ATとSSLを結合する逆比較学習であり、非常に複雑な最適化問題を構成する。 非ロバストsslと疑似教師付きatという2つのサブプロブレムを解決することで、単純化され、改善されるかもしれないと推測する。 このモチベーションは、タスクの焦点を結合問題の最適統合戦略を探すことから、サブプロブレムのサブソリューションを見つけることへとシフトさせる。 これにより、 at to ssl フレームワークを直接導入する以前のプラクティスを捨て、decoupled adversarial contrastive learning (deacl) と呼ばれる2段階のフレームワークを提案した。 我々のDeACLは,SOTA自己監督型対向ロバスト性を実現し,トレーニング時間を大幅に短縮し,その有効性と効率性を検証した。 さらに、私たちのDeACLはより説明可能なソリューションであり、その成功は、頑健な表現学習のためにラベルのないサンプルを活用するための半教師付きATとのギャップを埋める。 コードはhttps://github.com/pantheon5100/DeACLで公開されている。

Adversarial training (AT) for robust representation learning and self-supervised learning (SSL) for unsupervised representation learning are two active research fields. Integrating AT into SSL, multiple prior works have accomplished a highly significant yet challenging task: learning robust representation without labels. A widely used framework is adversarial contrastive learning which couples AT and SSL, and thus constitute a very complex optimization problem. Inspired by the divide-and-conquer philosophy, we conjecture that it might be simplified as well as improved by solving two sub-problems: non-robust SSL and pseudo-supervised AT. This motivation shifts the focus of the task from seeking an optimal integrating strategy for a coupled problem to finding sub-solutions for sub-problems. With this said, this work discards prior practices of directly introducing AT to SSL frameworks and proposed a two-stage framework termed Decoupled Adversarial Contrastive Learning (DeACL). Extensive experimental results demonstrate that our DeACL achieves SOTA self-supervised adversarial robustness while significantly reducing the training time, which validates its effectiveness and efficiency. Moreover, our DeACL constitutes a more explainable solution, and its success also bridges the gap with semi-supervised AT for exploiting unlabeled samples for robust representation learning. The code is publicly accessible at https://github.com/pantheon5100/DeACL.
翻訳日:2022-07-25 12:27:01 公開日:2022-07-22
# 自己監督型静的動的絡み合いによる1枚の画像中の3次元物体の観察

Seeing 3D Objects in a Single Image via Self-Supervised Static-Dynamic Disentanglement ( http://arxiv.org/abs/2207.11232v1 )

ライセンス: Link先を確認
Prafull Sharma, Ayush Tewari, Yilun Du, Sergey Zakharov, Rares Ambrus, Adrien Gaidon, William T. Freeman, Fredo Durand, Joshua B. Tenenbaum, Vincent Sitzmann(参考訳) 人間の知覚は3dシーンの可動性と不動部分を確実に識別し、不完全な観察から物体と背景の3d構造を完成させる。 このスキルはラベル付きの例ではなく、単にオブジェクトの動きを観察することで学んでいます。 本研究では,訓練時間にラベルなしの多視点映像を観察し,車載道路などの複雑なシーンの1枚の画像観察を,その3次元構造を再現し,移動可能で不動な部分とつながれた3次元ニューラルシーン表現にマッピングする手法を提案する。 2次元ニューラルグラウンド計画により、可動部と移動可能部を別々にパラメータ化する。 これらの地上計画は、地平面に整列した2次元グリッドであり、局所的に3次元神経放射場にデコードできる。 我々のモデルはニューラルレンダリングによって自己教師される。 本研究では, オブジェクト中心の3次元表現の抽出, 新規ビュー合成, インスタンスセグメンテーション, 3次元境界ボックス予測など, 簡易なヒューリスティック手法を用いて, ストリートスケールの3次元シーンにおいて, データ効率のよい3次元シーン理解モデルのためのバックボーンとしての価値を強調した。 この絡み合いにより、削除、挿入、剛体運動などのオブジェクト操作によるシーン編集も可能となる。

Human perception reliably identifies movable and immovable parts of 3D scenes, and completes the 3D structure of objects and background from incomplete observations. We learn this skill not via labeled examples, but simply by observing objects move. In this work, we propose an approach that observes unlabeled multi-view videos at training time and learns to map a single image observation of a complex scene, such as a street with cars, to a 3D neural scene representation that is disentangled into movable and immovable parts while plausibly completing its 3D structure. We separately parameterize movable and immovable scene parts via 2D neural ground plans. These ground plans are 2D grids of features aligned with the ground plane that can be locally decoded into 3D neural radiance fields. Our model is trained self-supervised via neural rendering. We demonstrate that the structure inherent to our disentangled 3D representation enables a variety of downstream tasks in street-scale 3D scenes using simple heuristics, such as extraction of object-centric 3D representations, novel view synthesis, instance segmentation, and 3D bounding box prediction, highlighting its value as a backbone for data-efficient 3D scene understanding models. This disentanglement further enables scene editing via object manipulation such as deletion, insertion, and rigid-body motion.
翻訳日:2022-07-25 12:25:50 公開日:2022-07-22
# AiATrack: トランスフォーマーの視覚的トラッキングに対する注意

AiATrack: Attention in Attention for Transformer Visual Tracking ( http://arxiv.org/abs/2207.09603v2 )

ライセンス: Link先を確認
Shenyuan Gao, Chunluan Zhou, Chao Ma, Xinggang Wang, Junsong Yuan(参考訳) トランスフォーマートラッカーは近年,注目機構が重要な役割を担う,目覚ましい進歩を遂げている。 しかし、注意機構における独立相関計算は、ノイズとあいまいな注意重みを生じさせ、さらなるパフォーマンス向上を阻害する可能性がある。 そこで本研究では,すべての相関ベクトル間のコンセンサスを求めることにより,適切な相関性を高め,誤検出を抑制するaiaモジュールを提案する。 aiaモジュールはセルフアテンションブロックとクロスアテンションブロックの両方に容易に適用でき、機能集約と視覚追跡のための情報伝達が容易になる。 さらに,時間的参照をフル活用するために,効率的な機能再利用とターゲット背景埋め込みを導入することで,AiATrackと呼ばれる合理化トランスフォーマー追跡フレームワークを提案する。 実験の結果,トラッカは6つのトラッキングベンチマークにおいて,リアルタイム速度で動作しながら最先端のパフォーマンスを達成できた。

Transformer trackers have achieved impressive advancements recently, where the attention mechanism plays an important role. However, the independent correlation computation in the attention mechanism could result in noisy and ambiguous attention weights, which inhibits further performance improvement. To address this issue, we propose an attention in attention (AiA) module, which enhances appropriate correlations and suppresses erroneous ones by seeking consensus among all correlation vectors. Our AiA module can be readily applied to both self-attention blocks and cross-attention blocks to facilitate feature aggregation and information propagation for visual tracking. Moreover, we propose a streamlined Transformer tracking framework, dubbed AiATrack, by introducing efficient feature reuse and target-background embeddings to make full use of temporal references. Experiments show that our tracker achieves state-of-the-art performance on six tracking benchmarks while running at a real-time speed.
翻訳日:2022-07-25 10:49:21 公開日:2022-07-22
# ERA:早期行動予測のための専門家検索と会議

ERA: Expert Retrieval and Assembly for Early Action Prediction ( http://arxiv.org/abs/2207.09675v3 )

ライセンス: Link先を確認
Lin Geng Foo, Tianjiao Li, Hossein Rahmani, Qiuhong Ke, Jun Liu(参考訳) 初期アクション予測は、完全に実行される前にアクションのクラスラベルをうまく予測することを目的としている。 これは、異なる行動の開始段階が非常によく似ており、差別に対して微妙な違いしか持たないため、難しい課題である。 本稿では,入力サンプルと他の類似したサンプルを区別するために,識別的微妙な差異を用いた専門家集合の検索と組み立てを行う,新しいエキスパート検索・アセンブリ(era)モジュールを提案する。 初期の行動予測に微妙な違いを効果的に活用するよう、我々は専門家に非常に類似したサンプルを区別するよう促し、それらのサンプルの間に存在する微妙な違いを学習させました。 さらに、専門家の最適化のバランスを保ち、より良いパフォーマンスをもたらす効果的なエキスパート学習率最適化法を設計する。 我々は4つの公開アクションデータセットで era モジュールを評価し,最新性能を実現する。

Early action prediction aims to successfully predict the class label of an action before it is completely performed. This is a challenging task because the beginning stages of different actions can be very similar, with only minor subtle differences for discrimination. In this paper, we propose a novel Expert Retrieval and Assembly (ERA) module that retrieves and assembles a set of experts most specialized at using discriminative subtle differences, to distinguish an input sample from other highly similar samples. To encourage our model to effectively use subtle differences for early action prediction, we push experts to discriminate exclusively between samples that are highly similar, forcing these experts to learn to use subtle differences that exist between those samples. Additionally, we design an effective Expert Learning Rate Optimization method that balances the experts' optimization and leads to better performance. We evaluate our ERA module on four public action datasets and achieve state-of-the-art performance.
翻訳日:2022-07-25 10:49:06 公開日:2022-07-22
# brace:ダンスモーション合成のためのブレイクダンス競技データセット

BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis ( http://arxiv.org/abs/2207.10120v2 )

ライセンス: Link先を確認
Davide Moltisanti, Jinyi Wu, Bo Dai, Chen Change Loy(参考訳) 音響条件付きダンスモーション合成のための生成モデル -ダンスモーションに対する音楽特徴- モデルは通常、人体の明確な知識なしに、動きパターンとオーディオパターンを関連付けるように訓練されている。 このアプローチは、強い音楽-ダンス相関、制御された動きデータ、比較的単純なポーズと動きの仮定に依存している。 これらの特徴はダンス・モーション・シンセサイザーのための既存のすべてのデータセットに見られ、実際に最近の手法で良い結果が得られ、複雑な人間のポーズを示す動的なダンス・シーケンスの集合をコンパイルし、これらの一般的な仮定に挑戦する新しいデータセットを導入する。 我々はアクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。 本誌はRed Bull BC Oneのコンペティションビデオからデータを入手した。 これらのビデオから人間のキーポイントを推定するのは、ダンスの複雑さと複数の移動カメラが記録されるため難しい。 我々は,詳細な推定モデルと手動アノテーションを活用して,高品質なキーポイントシーケンスを低コストで取得するハイブリッドラベリングパイプラインを採用する。 当社の努力は、3時間30分以上の密に注釈されたポーズを含むbraceデータセットを作成しました。 我々は,ブラスに関する最先端手法をテストし,複雑なシーケンスで評価した場合の限界を示した。 我々のデータセットは容易にダンスモーション合成の進歩を育むことができる。 複雑なポーズやスイフトの動きでは、モデルはモダリティと理性の間のマッピングを学ぶこと以上のことを余儀なくされます。

Generative models for audio-conditioned dance motion synthesis map music features to dance movements. Models are trained to associate motion patterns to audio patterns, usually without an explicit knowledge of the human body. This approach relies on a few assumptions: strong music-dance correlation, controlled motion data and relatively simple poses and movements. These characteristics are found in all existing datasets for dance motion synthesis, and indeed recent methods can achieve good results.We introduce a new dataset aiming to challenge these common assumptions, compiling a set of dynamic dance sequences displaying complex human poses. We focus on breakdancing which features acrobatic moves and tangled postures. We source our data from the Red Bull BC One competition videos. Estimating human keypoints from these videos is difficult due to the complexity of the dance, as well as the multiple moving cameras recording setup. We adopt a hybrid labelling pipeline leveraging deep estimation models as well as manual annotations to obtain good quality keypoint sequences at a reduced cost. Our efforts produced the BRACE dataset, which contains over 3 hours and 30 minutes of densely annotated poses. We test state-of-the-art methods on BRACE, showing their limitations when evaluated on complex sequences. Our dataset can readily foster advance in dance motion synthesis. With intricate poses and swift movements, models are forced to go beyond learning a mapping between modalities and reason more effectively about body structure and movements.
翻訳日:2022-07-25 10:48:49 公開日:2022-07-22
# セマンティック対応ファイングラインド対応

Semantic-Aware Fine-Grained Correspondence ( http://arxiv.org/abs/2207.10456v2 )

ライセンス: Link先を確認
Yingdong Hu, Renhao Wang, Kaifeng Zhang, Yang Gao(参考訳) 画像間の視覚的対応を確立することは、困難かつ必須の課題である。 近年,視覚対応のための表現をより良く学習するための自己指導手法が提案されている。 しかし,これらの手法は意味情報の活用に失敗し,低レベルの特徴のマッチングを過度に行うことが多い。 対照的に、人間の視覚はトラッキングの序文として異なる物体を区別することができる。 このパラダイムに触発されて,我々は意味認識のきめ細かな対応を学ぶことを提案する。 まず、画像レベルの自己管理手法の豊富なセットを通して意味的対応が暗黙的に可能であることを示す。 さらに、細粒度対応を目標とする画素レベルの自己教師型学習目標を設計する。 ダウンストリームタスクでは、これら2つの補完対応表現を融合して、パフォーマンスを相乗的に向上させることを示す。 提案手法は,映像オブジェクトのセグメンテーション,人物のポーズ追跡,人的部分追跡など,様々な視覚的対応タスクにおける畳み込みネットワークを用いた従来の自己管理手法を超越した手法である。

Establishing visual correspondence across images is a challenging and essential task. Recently, an influx of self-supervised methods have been proposed to better learn representations for visual correspondence. However, we find that these methods often fail to leverage semantic information and over-rely on the matching of low-level features. In contrast, human vision is capable of distinguishing between distinct objects as a pretext to tracking. Inspired by this paradigm, we propose to learn semantic-aware fine-grained correspondence. Firstly, we demonstrate that semantic correspondence is implicitly available through a rich set of image-level self-supervised methods. We further design a pixel-level self-supervised learning objective which specifically targets fine-grained correspondence. For downstream tasks, we fuse these two kinds of complementary correspondence representations together, demonstrating that they boost performance synergistically. Our method surpasses previous state-of-the-art self-supervised methods using convolutional networks on a variety of visual correspondence tasks, including video object segmentation, human pose tracking, and human part tracking.
翻訳日:2022-07-25 10:48:27 公開日:2022-07-22
# promix: クリーンサンプルユーティリティの最大化によるラベルノイズ対策

ProMix: Combating Label Noise via Maximizing Clean Sample Utility ( http://arxiv.org/abs/2207.10276v2 )

ライセンス: Link先を確認
Haobo Wang, Ruixuan Xiao, Yiwen Dong, Lei Feng, Junbo Zhao(参考訳) ラベルノイズ下でディープニューラルネットワークをトレーニングする能力は、不完全な注釈付きデータが比較的安価に取得できるため、魅力的である。 最先端のアプローチは、半教師付き学習(SSL)に基づいており、小さな損失例をクリーンに選択し、パフォーマンス向上のためにSSL技術を適用する。 しかし、選択ステップは、主に中規模でまともなクリーンなサブセットを提供し、豊富なクリーンなサンプルセットを見渡せる。 そこで本研究では,クリーンサンプルの有用性を最大化するために,新しい雑音ラベル学習フレームワークProMixを提案する。 提案手法では,信頼度の高いサンプルを抽出し,与えられたラベルと一致した予測を行う高信頼度選択手法を提案する。 CIFAR-10Nデータセット上のクリーンサンプルの検出において, 99.27の精度と98.22のリコールを実現することができる。 このような大量のクリーンなデータに基づいて、ProMixはCIFAR-10Nで+2.67%、CIFAR-100Nデータセットで+1.61%改善している。 コードとデータはhttps://github.com/justherozen/promixで入手できる。

The ability to train deep neural networks under label noise is appealing, as imperfectly annotated data are relatively cheaper to obtain. State-of-the-art approaches are based on semi-supervised learning(SSL), which selects small loss examples as clean and then applies SSL techniques for boosted performance. However, the selection step mostly provides a medium-sized and decent-enough clean subset, which overlooks a rich set of clean samples. In this work, we propose a novel noisy label learning framework ProMix that attempts to maximize the utility of clean samples for boosted performance. Key to our method, we propose a matched high-confidence selection technique that selects those examples having high confidence and matched prediction with its given labels. Combining with the small-loss selection, our method is able to achieve a precision of 99.27 and a recall of 98.22 in detecting clean samples on the CIFAR-10N dataset. Based on such a large set of clean data, ProMix improves the best baseline method by +2.67% on CIFAR-10N and +1.61% on CIFAR-100N datasets. The code and data are available at https://github.com/Justherozen/ProMix
翻訳日:2022-07-25 10:48:09 公開日:2022-07-22
# World Robot Challenge 2020 - パートナーロボット: 移動マニピュレータによるルームタイピングのためのデータ駆動アプローチ

World Robot Challenge 2020 -- Partner Robot: A Data-Driven Approach for Room Tidying with Mobile Manipulator ( http://arxiv.org/abs/2207.10106v2 )

ライセンス: Link先を確認
Tatsuya Matsushima, Yuki Noguchi, Jumpei Arima, Toshiki Aoki, Yuki Okita, Yuya Ikeda, Koki Ishimoto, Shohei Taniguchi, Yuki Yamashita, Shoichi Seto, Shixiang Shane Gu, Yusuke Iwasawa, Yutaka Matsuo(参考訳) Tidying up a household environment using a mobile manipulator poses various challenges in robotics, such as adaptation to large real-world environmental variations, and safe and robust deployment in the presence of humans.The Partner Robot Challenge in World Robot Challenge (WRC) 2020, a global competition held in September 2021, benchmarked tidying tasks in the real home environments, and importantly, tested for full system performances.For this challenge, we developed an entire household service robot system, which leverages a data-driven approach to adapt to numerous edge cases that occur during the execution, instead of classical manual pre-programmed solutions. 本稿では,視覚認識,物体操作,動作計画など,提案するロボットシステムの中核となる要素について述べる。 我々のロボットシステムは、家庭環境における移動操作のためのデータ駆動型ロボットシステムの有効性と可能性を検証し、第2位を獲得した。

Tidying up a household environment using a mobile manipulator poses various challenges in robotics, such as adaptation to large real-world environmental variations, and safe and robust deployment in the presence of humans.The Partner Robot Challenge in World Robot Challenge (WRC) 2020, a global competition held in September 2021, benchmarked tidying tasks in the real home environments, and importantly, tested for full system performances.For this challenge, we developed an entire household service robot system, which leverages a data-driven approach to adapt to numerous edge cases that occur during the execution, instead of classical manual pre-programmed solutions. In this paper, we describe the core ingredients of the proposed robot system, including visual recognition, object manipulation, and motion planning. Our robot system won the second prize, verifying the effectiveness and potential of data-driven robot systems for mobile manipulation in home environments.
翻訳日:2022-07-25 09:15:50 公開日:2022-07-22
# x線透視におけるロバストランドマークに基づくステント追跡

Robust Landmark-based Stent Tracking in X-ray Fluoroscopy ( http://arxiv.org/abs/2207.09933v3 )

ライセンス: Link先を確認
Luojie Huang, Yikang Liu, Li Chen, Eric Z. Chen, Xiao Chen, and Shanhui Sun(参考訳) 血管形成術(すなわち冠状動脈開放術)の術式では, バルーンやステントなどの装置をX線蛍光法で動脈内に設置し, 拡張する必要がある。 x線照射の限界のため、結果として生じる画像はしばしば騒がしい。 これらのデバイスの正しい配置をチェックするために、一般的に複数のモーション補償フレームが平均されてビューが向上する。 したがって、デバイス追跡はこの目的のために必要となる手順である。 血管形成装置は, 追跡が容易な無線式マーカーを備えるように設計されているが, 血管形成術におけるマーカーサイズや複雑なシーンが小さいため, 現状の方法では満足いく結果が得られない。 本稿では,u-netベースのランドマーク検出,resnetベースのステント提案と特徴抽出,および空間情報と出現特徴の両方を時間的に集約したグラフ畳み込みニューラルネットワーク(gcn)ベースのステントトラッキングという3つの階層モジュールからなる,単一ステント追跡のためのエンドツーエンドのディープラーニングフレームワークを提案する。 実験の結果,最先端のポイントベース追跡モデルと比較して検出精度が有意に向上した。 さらに、その高速な推論速度は臨床要件を満たす。

In clinical procedures of angioplasty (i.e., open clogged coronary arteries), devices such as balloons and stents need to be placed and expanded in arteries under the guidance of X-ray fluoroscopy. Due to the limitation of X-ray dose, the resulting images are often noisy. To check the correct placement of these devices, typically multiple motion-compensated frames are averaged to enhance the view. Therefore, device tracking is a necessary procedure for this purpose. Even though angioplasty devices are designed to have radiopaque markers for the ease of tracking, current methods struggle to deliver satisfactory results due to the small marker size and complex scenes in angioplasty. In this paper, we propose an end-to-end deep learning framework for single stent tracking, which consists of three hierarchical modules: U-Net based landmark detection, ResNet based stent proposal and feature extraction, and graph convolutional neural network (GCN) based stent tracking that temporally aggregates both spatial information and appearance features. The experiments show that our method performs significantly better in detection compared with the state-of-the-art point-based tracking models. In addition, its fast inference speed satisfies clinical requirements.
翻訳日:2022-07-25 09:15:38 公開日:2022-07-22
# 合成顔表情認識のためのAU-Supervised Convolutional Vision Transformer

AU-Supervised Convolutional Vision Transformers for Synthetic Facial Expression Recognition ( http://arxiv.org/abs/2207.09777v2 )

ライセンス: Link先を確認
Shuyi Mao, Xinpeng Li, Junyao Chen, Xiaojiang Peng(参考訳) 本稿では,ABAW(Affective Behavior Analysis in-the-Wild)コンペティション2022の6つの基本表現分類法について述べる。 合成データ(lsd)タスクからの学習において、表情認識(fer)法は、人工的に生成されたデータから表現の表現を学習し、実データに一般化することを目的としている。 合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を利用してパフォーマンス向上を行い,次のような貢献を行う。 まず、モデルを合成シナリオに適応させるために、事前訓練された大規模顔認識データから知識を利用する。 第2に,AUや疑似AUラベルを用いた補助データセットを共同でトレーニングすることにより,FERの性能を向上する,AU-Supervised Convolutional Vision Transformers (AU-CVT) と呼ばれる概念的に新しいフレームワークを提案する。 AU-CVTはF1スコアを0.6863$、精度を0.7433$と評価した。 私たちの作業のソースコードはオンラインで公開されている。

The paper describes our proposed methodology for the six basic expression classification track of Affective Behavior Analysis in-the-wild (ABAW) Competition 2022. In Learing from Synthetic Data(LSD) task, facial expression recognition (FER) methods aim to learn the representation of expression from the artificially generated data and generalise to real data. Because of the ambiguous of the synthetic data and the objectivity of the facial Action Unit (AU), we resort to the AU information for performance boosting, and make contributions as follows. First, to adapt the model to synthetic scenarios, we use the knowledge from pre-trained large-scale face recognition data. Second, we propose a conceptually-new framework, termed as AU-Supervised Convolutional Vision Transformers (AU-CVT), which clearly improves the performance of FER by jointly training auxiliary datasets with AU or pseudo AU labels. Our AU-CVT achieved F1 score as $0.6863$, accuracy as $0.7433$ on the validation set. The source code of our work is publicly available online: https://github.com/msy1412/ABAW4
翻訳日:2022-07-25 09:15:18 公開日:2022-07-22
# 分離型時空間Jigsawパズルによるビデオ異常検出

Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw Puzzles ( http://arxiv.org/abs/2207.10172v2 )

ライセンス: Link先を確認
Guodong Wang, Yunhong Wang, Jie Qin, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。 近年の自己教師型学習の進歩に触発された本論文は,多ラベルきめ細かな分類問題である時空間ジグソーパズル(spatio-temporal jigsaw puzzles)を直感的に解くことで,VADに対処する。 この方法は既存の作品よりもいくつかの利点がある。 1) 時空間ジグソーパズルは、空間的及び時間的次元で分離され、高度に識別的な外観及び動きの特徴をそれぞれ捉える。 2) ネットワークが正常事象と異常事象の微妙な時差を区別できるように, 様々な難易度をカバーする豊富なジグソーパズルを提供するために, 完全置換を用いる。 3)プリテキストタスクは、事前学習されたモデルに頼らず、エンドツーエンドで取り組まれる。 提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。 特に上海工科大学キャンパスでは,再建法や予測法よりも大きなマージンで優れている。

Video Anomaly Detection (VAD) is an important topic in computer vision. Motivated by the recent advances in self-supervised learning, this paper addresses VAD by solving an intuitive yet challenging pretext task, i.e., spatio-temporal jigsaw puzzles, which is cast as a multi-label fine-grained classification problem. Our method exhibits several advantages over existing works: 1) the spatio-temporal jigsaw puzzles are decoupled in terms of spatial and temporal dimensions, responsible for capturing highly discriminative appearance and motion features, respectively; 2) full permutations are used to provide abundant jigsaw puzzles covering various difficulty levels, allowing the network to distinguish subtle spatio-temporal differences between normal and abnormal events; and 3) the pretext task is tackled in an end-to-end manner without relying on any pre-trained models. Our method outperforms state-of-the-art counterparts on three public benchmarks. Especially on ShanghaiTech Campus, the result is superior to reconstruction and prediction-based methods by a large margin.
翻訳日:2022-07-25 09:14:59 公開日:2022-07-22
# 剛性偏微分方程式に対する教師なしガレルキンニューラルネットワーク

Unsupervised Legendre-Galerkin Neural Network for Stiff Partial Differential Equations ( http://arxiv.org/abs/2207.10241v2 )

ライセンス: Link先を確認
Junho Choi, Namjung Kim and Youngjoon Hong(参考訳) 近年、微分方程式や力学系の解法として機械学習が用いられている。 これらのアプローチは、深層ニューラルネットワークや統計的学習といった手法を応用数学の古典問題に適用する科学機械学習として知られる新しい研究分野へと発展してきた。 ニューラルネットワークは近似能力を提供するため、機械学習と最適化手法による計算パラメータ化は、様々な偏微分方程式(PDE)を解く際に顕著な性能を達成する。 本稿では,機械学習と人工知能を組み込んだ新しい数値アルゴリズムを開発し,PDEの解法を提案する。 特に,Regendre-Galerkinニューラルネットワークに基づく教師なし機械学習アルゴリズムを提案し,異なるタイプのPDEの解に対する正確な近似を求める。 提案したニューラルネットワークは、境界層挙動を有する特異摂動PDEと同様に、一般的な1Dおよび2DPDEに適用される。

Machine learning methods have been lately used to solve differential equations and dynamical systems. These approaches have been developed into a novel research field known as scientific machine learning in which techniques such as deep neural networks and statistical learning are applied to classical problems of applied mathematics. Because neural networks provide an approximation capability, computational parameterization through machine learning and optimization methods achieve noticeable performance when solving various partial differential equations (PDEs). In this paper, we develop a novel numerical algorithm that incorporates machine learning and artificial intelligence to solve PDEs. In particular, we propose an unsupervised machine learning algorithm based on the Legendre-Galerkin neural network to find an accurate approximation to the solution of different types of PDEs. The proposed neural network is applied to the general 1D and 2D PDEs as well as singularly perturbed PDEs that possess boundary layer behavior.
翻訳日:2022-07-25 09:14:41 公開日:2022-07-22
# 視覚的知識追跡

Visual Knowledge Tracing ( http://arxiv.org/abs/2207.10157v2 )

ライセンス: Link先を確認
Neehar Kondapaneni, Pietro Perona, Oisin Mac Aodha(参考訳) 放射線科医は腫瘍を認識することを学び、バードウォッチャーは類似種を区別することを学び、群集労働者は自動運転のようなアプリケーションのための貴重なデータに注釈をつける方法を学ぶ。 人間が学習すると、脳は抽出した視覚機能を更新し、最終的に最終的な分類決定を知らせる。 本研究では,視覚分類課題に挑戦しながら,人間の学習者の分類行動の進化を追跡する新たな課題を提案する。 本研究では,学習者の視覚特徴を共同で抽出し,活用する分類関数の予測を行うモデルを提案する。 異なる視覚知識追跡手法の性能を評価するために,実際の人間学習者から挑戦的な3つのデータセットを収集した。 その結果,本モデルでは3つの難解な医用画像と種識別課題において,人間学習者の分類行動を予測することができた。

Each year, thousands of people learn new visual categorization tasks -- radiologists learn to recognize tumors, birdwatchers learn to distinguish similar species, and crowd workers learn how to annotate valuable data for applications like autonomous driving. As humans learn, their brain updates the visual features it extracts and attend to, which ultimately informs their final classification decisions. In this work, we propose a novel task of tracing the evolving classification behavior of human learners as they engage in challenging visual classification tasks. We propose models that jointly extract the visual features used by learners as well as predicting the classification functions they utilize. We collect three challenging new datasets from real human learners in order to evaluate the performance of different visual knowledge tracing methods. Our results show that our recurrent models are able to predict the classification behavior of human learners on three challenging medical image and species identification tasks.
翻訳日:2022-07-25 09:14:30 公開日:2022-07-22
# ADMMによる効果的なコミュニケーションによるプライバシー保護型垂直的フェデレーション学習の改善

Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM ( http://arxiv.org/abs/2207.10226v2 )

ライセンス: Link先を確認
Chulin Xie, Pin-Yu Chen, Ce Zhang, Bo Li(参考訳) フェデレーション学習(fl)は、トレーニングデータをローカルに保持しながら、分散デバイスが共有モデルを共同でトレーニングすることを可能にする。 各クライアントが部分的なデータサンプルを持つ水平FL(HFL)設定とは異なり、各クライアントが部分的な特徴を収集できる垂直FL(VFL)は近年、集中的な研究努力を集めている。 本稿では,現在最先端のVFLフレームワークが直面している課題として,(1)学習した特徴の埋め込みを直接的に評価し,各局所的な特徴セットのユニークな特性を失う可能性があること,(2)サーバが各トレーニングステップでクライアントとグラデーションを通信する必要があること,そしてプライバシー予算の急速な消費につながる通信コストの増大,の2つを挙げる。 本稿では、これらの課題に対処し、複数のリニアヘッド(VIM)フレームワークを用いた効率的なVFLを提案し、各ヘッドが各クライアントの別々のコントリビューションを考慮に入れ、ローカルクライアントに対応する。 さらに,各ステップで複数のローカル更新を可能とすることで通信コストを低減し,差分プライバシー下でのより良い性能を実現するための,ADMM(Alternating Direction Method of Multipliers)ベースの手法を提案する。 モデル分割を伴うVFLや,モデル分割を伴わないさまざまな設定について検討する。 どちらの設定でも、フレームワークの差分プライバシーメカニズムを慎重に分析します。 さらに,本フレームワークの副産物として,学習した線形ヘッドの重み付けが,ローカルクライアントの重要性を反映していることを示す。 実世界の4つのデータセットにおいて、VIMは最先端のデータベースと比較して、はるかに高い性能と高速な収束を実現していることを示す。 また、ローカルクライアントの重要性を明確に評価し、VIMがクライアントレベルの説明やクライアントの妄想といった機能を実現することを示す。

Federated learning (FL) enables distributed devices to jointly train a shared model while keeping the training data local. Different from the horizontal FL (HFL) setting where each client has partial data samples, vertical FL (VFL), which allows each client to collect partial features, has attracted intensive research efforts recently. In this paper, we identified two challenges that state-of-the-art VFL frameworks are facing: (1) some works directly average the learned feature embeddings and therefore might lose the unique properties of each local feature set; (2) server needs to communicate gradients with the clients for each training step, incurring high communication cost that leads to rapid consumption of privacy budgets. In this paper, we aim to address the above challenges and propose an efficient VFL with multiple linear heads (VIM) framework, where each head corresponds to local clients by taking the separate contribution of each client into account. In addition, we propose an Alternating Direction Method of Multipliers (ADMM)-based method to solve our optimization problem, which reduces the communication cost by allowing multiple local updates in each step, and thus leads to better performance under differential privacy. We consider various settings including VFL with model splitting and without model splitting. For both settings, we carefully analyze the differential privacy mechanism for our framework. Moreover, we show that a byproduct of our framework is that the weights of learned linear heads reflect the importance of local clients. We conduct extensive evaluations and show that on four real-world datasets, VIM achieves significantly higher performance and faster convergence compared with state-of-the-arts. We also explicitly evaluate the importance of local clients and show that VIM enables functionalities such as client-level explanation and client denoising.
翻訳日:2022-07-25 09:14:14 公開日:2022-07-22