このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220725となっている論文です。

PDF登録状況(公開日: 20220725)

TitleAuthorsAbstract論文公表日・翻訳日
# 重心分布のシャープ濃度測定結果

Sharp Concentration Results for Heavy-Tailed Distributions ( http://arxiv.org/abs/2003.13819v3 )

ライセンス: Link先を確認
Milad Bakhshizadeh, Arian Maleki, Victor H. de la Pena(参考訳) 重み付き分布を持つ独立分布と同一分布の確率変数の和に対する濃度と大きな偏差を求める。 我々の濃度結果は、分布が$\mathbb{P}(X>t) \leq {\rm e}^{-I(t)}$を満たす確率変数に関係しており、$I: \mathbb{R} \rightarrow \mathbb{R}$は増加函数であり、$I(t)/t \rightarrow \alpha \in [0, \infty)$ as $t \rightarrow \infty$である。 我々の主定理は、サブワイブル確率変数の和の濃度などの既存の結果のいくつかを復元するだけでなく、重い尾を持つ確率変数の和に対する新しい結果を生成することもできる。 得られた濃度不等式は、独立確率変数の和に対する大きな偏差結果を与えるのに十分なシャープであることを示す。 標準トランザクション引数に基づく解析は, 重み付き確率変数の集中と大きな偏差に関する既存の結果を単純化し, 統一し, 一般化する。

We obtain concentration and large deviation for the sums of independent and identically distributed random variables with heavy-tailed distributions. Our concentration results are concerned with random variables whose distributions satisfy $\mathbb{P}(X>t) \leq {\rm e}^{- I(t)}$, where $I: \mathbb{R} \rightarrow \mathbb{R}$ is an increasing function and $I(t)/t \rightarrow \alpha \in [0, \infty)$ as $t \rightarrow \infty$. Our main theorem can not only recover some of the existing results, such as the concentration of the sum of subWeibull random variables, but it can also produce new results for the sum of random variables with heavier tails. We show that the concentration inequalities we obtain are sharp enough to offer large deviation results for the sums of independent random variables as well. Our analyses which are based on standard truncation arguments simplify, unify and generalize the existing results on the concentration and large deviation of heavy-tailed random variables.
翻訳日:2022-12-18 07:25:52 公開日:2022-07-25
# 時変凸最適化のための原始的および双対予測補正法

Primal and Dual Prediction-Correction Methods for Time-Varying Convex Optimization ( http://arxiv.org/abs/2004.11709v3 )

ライセンス: Link先を確認
Nicola Bastianello, Andrea Simonetto, Ruggero Carli(参考訳) 本稿では,主空間と双対空間の両方において,予測補正パラダイムに基づく時変凸最適化のための統一フレームワークを提案する。 このフレームワークでは、一定間隔で連続的に変化する最適化問題をサンプリングし、各問題を原始的あるいは二重修正ステップで概ね解決する。 予測ステップの出力で解法を暖かく開始し、過去の情報を用いて将来の問題を近似する。 予測手法は様々な仮定の下で研究され、比較される。 このフレームワークでカバーされるアルゴリズムの例としては、勾配法の時間変化版、分割法、乗算器の追随方向法(ADMM)がある。

We propose a unified framework for time-varying convex optimization based on the prediction-correction paradigm, both in the primal and dual spaces. In this framework, a continuously varying optimization problem is sampled at fixed intervals, and each problem is approximately solved with a primal or dual correction step. The solution method is warm-started with the output of a prediction step, which solves an approximation of a future problem using past information. Prediction approaches are studied and compared under different sets of assumptions. Examples of algorithms covered by this framework are time-varying versions of the gradient method, splitting methods, and the celebrated alternating direction method of multipliers (ADMM).
翻訳日:2022-12-10 04:25:58 公開日:2022-07-25
# 知識ベースコンプリート:ベースラインストライクバック(再び)

Knowledge Base Completion: Baseline strikes back (Again) ( http://arxiv.org/abs/2005.00804v3 )

ライセンス: Link先を確認
Prachi Jain, Sushant Rathi, Mausam, Soumen Chakrabarti(参考訳) 知識ベースコンプリート(KBC)は近年,非常に活発な分野である。 最近のKBCペーパーでは、アーキテクチャの変更、新しいトレーニング方法、あるいは新しい定式化が提案されている。 KBCシステムは通常、FB15k、FB15k-237、WN18、WN18RR、Yago3-10という標準ベンチマークデータセットで評価される。 既存のほとんどのメソッドは、計算コストを削減するために、これらのデータセットの各正のインスタンスに対して、少数の負のサンプルでトレーニングする。 本稿では,最近の開発で利用可能なすべての負のサンプルをトレーニングに活用できる方法について述べる。 利用可能なすべての負のサンプルを使ってトレーニングすると、すべてのデータセットで最先端のパフォーマンスが得られます。 このアプローチをCompleX-V2と呼ぶ。 また、最近論文で提案された多元的KBC手法が、この列車運行体制の恩恵を受け、ほとんどのデータセットのパフォーマンスにおいて区別できないものになっている点を強調した。 我々の研究は、これらの発見を踏まえて、それぞれの価値を再評価することを求めている。

Knowledge Base Completion (KBC) has been a very active area lately. Several recent KBCpapers propose architectural changes, new training methods, or even new formulations. KBC systems are usually evaluated on standard benchmark datasets: FB15k, FB15k-237, WN18, WN18RR, and Yago3-10. Most existing methods train with a small number of negative samples for each positive instance in these datasets to save computational costs. This paper discusses how recent developments allow us to use all available negative samples for training. We show that Complex, when trained using all available negative samples, gives near state-of-the-art performance on all the datasets. We call this approach COMPLEX-V2. We also highlight how various multiplicative KBC methods, recently proposed in the literature, benefit from this train-ing regime and become indistinguishable in terms of performance on most datasets. Our work calls for a reassessment of their individual value, in light of these findings.
翻訳日:2022-12-07 11:58:07 公開日:2022-07-25
# 4次元CT画像におけるSARS-CoV-2セグメンテーションモデルを用いたコビッド3次元位置決めの伝達可能性制限

Transferability limitations for Covid 3D Localization Using SARS-CoV-2 segmentation models in 4D CT images ( http://arxiv.org/abs/2208.08343v1 )

ライセンス: Link先を確認
Constantine Maganaris, Eftychios Protopapadakis, Nikolaos Bakalos, Nikolaos Doulamis, Dimitris Kalogeras, Aikaterini Angeli(参考訳) 本稿では, 深層学習モデルを用いたCT画像における肺炎感染領域のセマンティックセグメンテーションの伝達可能性限界について検討する。 提案手法では,hounsfield scaleに基づく3チャンネルと肺領域を示す1チャンネル (binary) の4チャンネル入力を用いた。 利用可能な3種類のCTデータセットを使用しました。 肺領域マスクが利用できない場合、深層学習モデルがプロキシ画像を生成する。 Covidセグメンテーションモデルを作成する際には、トランスファービリティーを慎重に使用すべきであることを示す実験結果が提示され、大量のデータセットでモデルを1回以上再トレーニングすることで、セグメンテーションの精度が低下する。

In this paper, we investigate the transferability limitations when using deep learning models, for semantic segmentation of pneumonia-infected areas in CT images. The proposed approach adopts a 4 channel input; 3 channels based on Hounsfield scale, plus one channel (binary) denoting the lung area. We used 3 different, publicly available, CT datasets. If the lung area mask was not available, a deep learning model generates a proxy image. Experimental results suggesting that transferability should be used carefully, when creating Covid segmentation models; retraining the model more than one times in large sets of data results in a decrease in segmentation accuracy.
翻訳日:2022-08-28 22:36:47 公開日:2022-07-25
# ニューラルポピュレーションにおける受容場構造同定のための統計的および機械学習アプローチの統合

Integrating Statistical and Machine Learning Approaches to Identify Receptive Field Structure in Neural Populations ( http://arxiv.org/abs/2208.12025v1 )

ライセンス: Link先を確認
Mehrad Sarmashghi, Shantanu P. Jadhav, Uri T. Eden(参考訳) ニューロンは複数の変数を同時にコードし、神経科学者は受容野の性質に基づいてニューロンを分類することに関心がある。 統計モデルは、神経スパイキング活性に影響を与える因子を決定し、個々のニューロンを分類するための強力なツールを提供する。 しかし、ニューラル記録技術は大量の個体から同時にスパイクデータを生成するために進歩しているため、古典的な統計手法はそのようなデータを扱うのに必要な計算効率を欠いていることが多い。 機械学習(ML)アプローチは、効率的な大規模データ分析を可能にすることで知られているが、通常はバランスの取れたデータを備えた大規模なトレーニングセットと、正確なラベルを適合させる必要がある。 さらに、モデルアセスメントと解釈は古典的な統計手法よりもMLにとって難しいことが多い。 これらの課題に対処するために、統計的モデリングと機械学習のアプローチを組み合わせた統合フレームワークを開発し、大集団のニューロンの符号化特性を同定する。 この枠組みを実証するために,ラット海馬から記録されたニューロンの集団データにこれらの手法を適用し,この領域における空間受容野の分布を特徴付ける。

Neurons can code for multiple variables simultaneously and neuroscientists are often interested in classifying neurons based on their receptive field properties. Statistical models provide powerful tools for determining the factors influencing neural spiking activity and classifying individual neurons. However, as neural recording technologies have advanced to produce simultaneous spiking data from massive populations, classical statistical methods often lack the computational efficiency required to handle such data. Machine learning (ML) approaches are known for enabling efficient large scale data analyses; however, they typically require massive training sets with balanced data, along with accurate labels to fit well. Additionally, model assessment and interpretation are often more challenging for ML than for classical statistical methods. To address these challenges, we develop an integrated framework, combining statistical modeling and machine learning approaches to identify the coding properties of neurons from large populations. In order to demonstrate this framework, we apply these methods to data from a population of neurons recorded from rat hippocampus to characterize the distribution of spatial receptive fields in this region.
翻訳日:2022-08-28 22:36:19 公開日:2022-07-25
# グラフニューラルネットワークによる分子構造-親密性関係の予測

Graph neural networks for the prediction of molecular structure-property relationships ( http://arxiv.org/abs/2208.04852v1 )

ライセンス: Link先を確認
Jan G. Rittig, Qinghe Gao, Manuel Dahmen, Alexander Mitsos, Artur M. Schweidtmann(参考訳) 分子特性予測は、薬物発見、分子生物学、物質やプロセス設計など、多くの分野において重要である。 しばしば用いられる量的構造-不純物/活性関係(QSPRs/QSARs)は、分子を記述子によって特徴づけ、線形または非線形モデルを介して興味のある性質にマッピングする。 対照的に、新しい機械学習手法であるグラフニューラルネットワークは、直接分子グラフ、すなわち、原子がノードと結合に対応し、結合がエッジに対応するグラフ表現に作用する。 GNNはエンドツーエンドでプロパティを学習できるため、QSPRやQSARのような情報記述子を必要としない。 gnnは様々な特性予測タスクで最先端の予測性能を達成し、活発な研究分野を表現できることが示されている。 本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。

Molecular property prediction is of crucial importance in many disciplines such as drug discovery, molecular biology, or material and process design. The frequently employed quantitative structure-property/activity relationships (QSPRs/QSARs) characterize molecules by descriptors which are then mapped to the properties of interest via a linear or nonlinear model. In contrast, graph neural networks, a novel machine learning method, directly work on the molecular graph, i.e., a graph representation where atoms correspond to nodes and bonds correspond to edges. GNNs allow to learn properties in an end-to-end fashion, thereby avoiding the need for informative descriptors as in QSPRs/QSARs. GNNs have been shown to achieve state-of-the-art prediction performance on various property predictions tasks and represent an active field of research. We describe the fundamentals of GNNs and demonstrate the application of GNNs via two examples for molecular property prediction.
翻訳日:2022-08-14 18:17:16 公開日:2022-07-25
# SFILES 2.0:拡張テキストベースのフローシート表現

SFILES 2.0: An extended text-based flowsheet representation ( http://arxiv.org/abs/2208.00778v1 )

ライセンス: Link先を確認
Gabriel Vogel, Lukas Schulze Balhorn, Edwin Hirtreiter, Artur M. Schweidtmann(参考訳) SFILESは化学プロセスフローシートのためのテキストベースの表記法である。 もともとは、D'Anterroches (2006)によって提案され、テキストベースのSMILES表記にインスパイアされた。 テキストベースのフォーマットは、ストレージフォーマット、計算アクセシビリティ、最終的にはデータ解析と処理に関するフローシート画像と比較して、いくつかの利点がある。 しかし、元々のSFILESバージョンは、トップとボトムの区別など、不明確なフローシート構成を記述できない。 化学プロセスの安全かつ信頼性の高い操作に必要な制御構造を記述することもできない。 また、化学プロセストポロジをSFILESに復号または符号化するためのソフトウェアも公開されていない。 拡張表記法と命名規則を完全記述したSFILES 2.0を提案する。 また,フローシートグラフとSFILES 2.0文字列の自動変換のためのオープンソースソフトウェアも提供する。 このようにして、研究者やエンジニアはフローシートトポロジをSFILES 2.0文字列として公開したいと思っています。 究極の目標は、化学プロセスフローシートの公正なデータベースを作成するための標準を設定することである。

SFILES is a text-based notation for chemical process flowsheets. It was originally proposed by d'Anterroches (2006) who was inspired by the text-based SMILES notation for molecules. The text-based format has several advantages compared to flowsheet images regarding the storage format, computational accessibility, and eventually for data analysis and processing. However, the original SFILES version cannot describe essential flowsheet configurations unambiguously, such as the distinction between top and bottom products. Neither is it capable of describing the control structure required for the safe and reliable operation of chemical processes. Also, there is no publicly available software for decoding or encoding chemical process topologies to SFILES. We propose the SFILES 2.0 with a complete description of the extended notation and naming conventions. Additionally, we provide open-source software for the automated conversion between flowsheet graphs and SFILES 2.0 strings. This way, we hope to encourage researchers and engineers to publish their flowsheet topologies as SFILES 2.0 strings. The ultimate goal is to set the standards for creating a FAIR database of chemical process flowsheets, which would be of great value for future data analysis and processing.
翻訳日:2022-08-07 14:29:19 公開日:2022-07-25
# 強化学習を用いたオープンエンド対話の動的計画

Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning ( http://arxiv.org/abs/2208.02294v1 )

ライセンス: Link先を確認
Deborah Cohen, Moonkyung Ryu, Yinlam Chow, Orgad Keller, Ido Greenberg, Avinatan Hassidim, Michael Fink, Yossi Matias, Idan Szpektor, Craig Boutilier, Gal Elidan(参考訳) 自然言語理解と生成の最近の進歩、会話型ボットの開発に関する何十年もの研究にもかかわらず、人間と「野生」でリッチにオープンな会話を継続できる自動エージェントの開発は、非常に難しい課題である。 本研究では、強化学習(RL)を用いてロボットの対話能力を大規模に活用するリアルタイム・オープンエンド対話システムの開発を行う。 我々の研究は、会話の進行に伴って変化する動的行動空間に特に適するSOTA言語モデルとRL技術を用いて生成された会話状態の簡潔な埋め込みをペアリングする。 クラウドソースデータを用いてトレーニングされた新しいシステムは、Google Assistantの実際のユーザを対象にしたライブ実験において、いくつかの興味の指標に関して、(強い)ベースライン教師付きモデルを大幅に超えることができる。

Despite recent advances in natural language understanding and generation, and decades of research on the development of conversational bots, building automated agents that can carry on rich open-ended conversations with humans "in the wild" remains a formidable challenge. In this work we develop a real-time, open-ended dialogue system that uses reinforcement learning (RL) to power a bot's conversational skill at scale. Our work pairs the succinct embedding of the conversation state generated using SOTA (supervised) language models with RL techniques that are particularly suited to a dynamic action space that changes as the conversation progresses. Trained using crowd-sourced data, our novel system is able to substantially exceeds the (strong) baseline supervised model with respect to several metrics of interest in a live experiment with real users of the Google Assistant.
翻訳日:2022-08-07 14:16:31 公開日:2022-07-25
# $\textrm{d}^3\textrm{former}$:増分学習のための脱バイアス二重蒸留変圧器

$\textrm{D}^3\textrm{Former}$: Debiased Dual Distilled Transformer for Incremental Learning ( http://arxiv.org/abs/2208.00777v1 )

ライセンス: Link先を確認
Abdelrahman Mohamed, Rushali Grandhe, KJ Joseph, Salman Khan, Fahad Khan(参考訳) クラスインクリメンタル学習(cil)は、学習段階ごとに新しいクラスのグループが遭遇する分類モデルを学ぶことを伴う。 目標は、今まで観察されたすべてのクラスで統一モデルパフォーマンスを学習することである。 従来の分類環境における視覚変換器(ViT)の近年の人気を考えると,その継続的な学習行動を研究することが興味深い。 本研究では,Debiased Dual Distilled Transformer for CIL, $\textrm{D}^3\textrm{Former}$を開発した。 提案モデルでは,データ効率と拡張性を確保するために,ハイブリッドネスト型ViT設計を採用している。 最近の ViT ベースの CIL アプローチとは対照的に,我々の $\textrm{D}^3\textrm{Former}$ は,新しいタスクが学習されると動的にアーキテクチャを拡張せず,多数のインクリメンタルタスクに適している。 改善されたCILの振る舞いは、$\textrm{D}^3\textrm{Former}$の2つの基本的変更によるものである。 まず,段階的な学習を,新しいクラスからの大多数のサンプルが,古いクラスで利用可能な限られた例をはるかに上回っている,長期的分類問題として扱う。 マイノリティな古いクラスに対する偏見を避けるため、ロジットを動的に調整し、古いタスクに関連する表現を維持することを強調することを提案する。 第2に,タスク間の学習が進むにつれて空間的注意マップの構成を維持することを提案する。 これは、最も差別的な領域への注意を維持するためにモデルを制約することで、破滅的な忘れを減らせるのに役立つ。 $\textrm{D}^3\textrm{Former}$は、CIFAR-100、MNIST、SVHN、ImageNetデータセットのインクリメンタルバージョンで好ましい結果を得る。

Class incremental learning (CIL) involves learning a classification model where groups of new classes are encountered in every learning phase. The goal is to learn a unified model performant on all the classes observed so far. Given the recent popularity of Vision Transformers (ViTs) in conventional classification settings, an interesting question is to study their continual learning behaviour. In this work, we develop a Debiased Dual Distilled Transformer for CIL dubbed $\textrm{D}^3\textrm{Former}$. The proposed model leverages a hybrid nested ViT design to ensure data efficiency and scalability to small as well as large datasets. In contrast to a recent ViT based CIL approach, our $\textrm{D}^3\textrm{Former}$ does not dynamically expand its architecture when new tasks are learned and remains suitable for a large number of incremental tasks. The improved CIL behaviour of $\textrm{D}^3\textrm{Former}$ owes to two fundamental changes to the ViT design. First, we treat the incremental learning as a long-tail classification problem where the majority samples from new classes vastly outnumber the limited exemplars available for old classes. To avoid biasness against the minority old classes, we propose to dynamically adjust logits to emphasize on retaining the representations relevant to old tasks. Second, we propose to preserve the configuration of spatial attention maps as the learning progresses across tasks. This helps in reducing catastrophic forgetting via constraining the model to retain the attention on the most discriminative regions. $\textrm{D}^3\textrm{Former}$ obtains favorable results on incremental versions of CIFAR-100, MNIST, SVHN, and ImageNet datasets.
翻訳日:2022-08-07 14:16:07 公開日:2022-07-25
# コード合成大規模言語モデルのためのハザード分析フレームワーク

A Hazard Analysis Framework for Code Synthesis Large Language Models ( http://arxiv.org/abs/2207.14157v1 )

ライセンス: Link先を確認
Heidy Khlaaf, Pamela Mishkin, Joshua Achiam, Gretchen Krueger, Miles Brundage(参考訳) 様々なコードベースでトレーニングされた大規模言語モデル(llm)であるcodexは、コードを合成して生成する能力において、以前の技術を超えている。 codexには多くのメリットがあるが、そのようなスケールでコードを生成するモデルには、重大な制限、アライメントの問題、誤用される可能性、およびそれ自体が不安定な影響や誤用の可能性を持つ可能性のある技術分野の進歩率を高める可能性がある。 しかし、このような安全性への影響は未だ分かっていない。 本稿では,openaiで構築されたハザード分析フレームワークを概説し,コーデックスのようなモデルが技術的,社会的,政治的,経済的に課される危険や安全性のリスクを明らかにする。 この分析は、高度なコード生成技術の能力を決定する新しい評価フレームワークによって、仕様のプロンプトの複雑さと表現力、そしてそれらの人間の能力に対する理解と実行能力から知らされる。

Codex, a large language model (LLM) trained on a variety of codebases, exceeds the previous state of the art in its capacity to synthesize and generate code. Although Codex provides a plethora of benefits, models that may generate code on such scale have significant limitations, alignment problems, the potential to be misused, and the possibility to increase the rate of progress in technical fields that may themselves have destabilizing impacts or have misuse potential. Yet such safety impacts are not yet known or remain to be explored. In this paper, we outline a hazard analysis framework constructed at OpenAI to uncover hazards or safety risks that the deployment of models like Codex may impose technically, socially, politically, and economically. The analysis is informed by a novel evaluation framework that determines the capacity of advanced code generation techniques against the complexity and expressivity of specification prompts, and their capability to understand and execute them relative to human ability.
翻訳日:2022-07-29 12:44:13 公開日:2022-07-25
# 選択的注意を用いた非強化選好のモデル化

Modelling non-reinforced preferences using selective attention ( http://arxiv.org/abs/2207.13699v1 )

ライセンス: Link先を確認
Noor Sajid, Panagiotis Tigas, Zafeirios Fountas, Qinghai Guo, Alexey Zakharov, Lancelot Da Costa(参考訳) 人工エージェントはどのようにして非強化された好みを学習し、その振る舞いを変化する環境に継続的に適応させるのか? 多様な記憶を符号化する(i$)と、好みの形成のためにこれらに選択的に参加する(i$)という2つの課題に分解する。 提案手法は, エージェントの世界モデルを用いて, 記憶をエンコードするために, 想像されたロールアウトと連動する多様な経験の集合を収集することで, 選択的注意による選好学習機構である \textsc{nore} を用いる。 これらの記憶は、エージェントの好みを更新するために、注意とゲーティングブロックを使用して選択的に出席する。 修正されたOpenAI Gym FrozenLake環境において、(外部信号なしで)環境の固定されたモデルの下で、かつ、ボラティリティのない環境において \textsc{Nore} を検証し、その振る舞いをヘビーンの好み学習機構である \textsc{Pepper} と比較する。 我々は,外部信号の欠如時に探索的嗜好を誘導する簡単な枠組みを \textsc{nore} で提供することを実証する。

How can artificial agents learn non-reinforced preferences to continuously adapt their behaviour to a changing environment? We decompose this question into two challenges: ($i$) encoding diverse memories and ($ii$) selectively attending to these for preference formation. Our proposed \emph{no}n-\emph{re}inforced preference learning mechanism using selective attention, \textsc{Nore}, addresses both by leveraging the agent's world model to collect a diverse set of experiences which are interleaved with imagined roll-outs to encode memories. These memories are selectively attended to, using attention and gating blocks, to update agent's preferences. We validate \textsc{Nore} in a modified OpenAI Gym FrozenLake environment (without any external signal) with and without volatility under a fixed model of the environment -- and compare its behaviour to \textsc{Pepper}, a Hebbian preference learning mechanism. We demonstrate that \textsc{Nore} provides a straightforward framework to induce exploratory preferences in the absence of external signals.
翻訳日:2022-07-29 11:56:54 公開日:2022-07-25
# VDL-Surrogate:エンサンブルシミュレーションのパラメータ空間探索のためのビュー依存潜在モデル

VDL-Surrogate: A View-Dependent Latent-based Model for Parameter Space Exploration of Ensemble Simulations ( http://arxiv.org/abs/2207.13091v1 )

ライセンス: Link先を確認
Neng Shi, Jiayi Xu, Hanqi Guo, Jonathan Woodring, Han-Wei Shen(参考訳) VDL-Surrogateは、高精細な可視化とユーザ特定視覚マッピングを可能にするアンサンブルシミュレーションのパラメータ空間探索のためのビュー依存ニューラルネット-ラテント-サロゲートモデルである。 代理可能なパラメータ空間探索により、多くの計算コストのかかるシミュレーションを実行することなく、ドメイン科学者はシミュレーション結果をプレビューすることができる。 しかし、計算資源によって制限された既存のサロゲートモデルは、可視化と分析に十分な解像度のプレビューを生成できない可能性がある。 計算資源の効率的な利用と高分解能探索を支援するため,様々な視点からレイキャスティングを行い,サンプルを収集し,コンパクトな潜伏表現を生成する。 この潜在符号化プロセスは、出力品質を維持しながら、サロゲートモデルトレーニングのコストを削減します。 モデル学習段階では、視界全体をカバーする視点を選択し、選択された視点に対して対応するVDL-Surrogateモデルを訓練する。 モデル推論段階では、予め選択された視点で潜在表現を予測し、潜在表現をデータ空間にデコードする。 任意の視点において、選択した視点で復号データよりも補間を行い、ユーザ指定のビジュアルマッピングを用いた可視化を生成する。 本稿では,宇宙・海洋シミュレーションにおけるvdl-surrogateの有効性と有効性を示し,定量的・質的評価を行った。 ソースコードは \url{https://github.com/trainsn/VDL-Surrogate} で公開されている。

We propose VDL-Surrogate, a view-dependent neural-network-latent-based surrogate model for parameter space exploration of ensemble simulations that allows high-resolution visualizations and user-specified visual mappings. Surrogate-enabled parameter space exploration allows domain scientists to preview simulation results without having to run a large number of computationally costly simulations. Limited by computational resources, however, existing surrogate models may not produce previews with sufficient resolution for visualization and analysis. To improve the efficient use of computational resources and support high-resolution exploration, we perform ray casting from different viewpoints to collect samples and produce compact latent representations. This latent encoding process reduces the cost of surrogate model training while maintaining the output quality. In the model training stage, we select viewpoints to cover the whole viewing sphere and train corresponding VDL-Surrogate models for the selected viewpoints. In the model inference stage, we predict the latent representations at previously selected viewpoints and decode the latent representations to data space. For any given viewpoint, we make interpolations over decoded data at selected viewpoints and generate visualizations with user-specified visual mappings. We show the effectiveness and efficiency of VDL-Surrogate in cosmological and ocean simulations with quantitative and qualitative evaluations. Source code is publicly available at \url{https://github.com/trainsn/VDL-Surrogate}.
翻訳日:2022-07-28 13:11:37 公開日:2022-07-25
# 解釈可能な重力波人口モデルの自動発見

Automated discovery of interpretable gravitational-wave population models ( http://arxiv.org/abs/2207.12409v1 )

ライセンス: Link先を確認
Kaze W.K Wong, Miles Cranmer(参考訳) データから重力波(GW)イベントの解析的集団モデルを発見するための自動アプローチを提案する。 重力波(GW)現象がより検出されるにつれて、ガウス混合モデルのようなフレキシブルモデルは、その表現性によってGW特性の分布に適合する上でより重要になっている。 しかし、柔軟なモデルは物理的動機付けを欠く多くのパラメータを持ち、これらのモデルの含意を解釈するのが困難である。 本研究では,このようなフレキシブルモデルの後方予測分布を解釈可能な解析式に蒸留することで,フレキシブルモデルを補完できることを示す。 我々は,パワーロープラスガウシアンなどの一般的なGW人口モデルを復元し,精度と単純さを組み合わせた新しい経験的人口モデルを求める。 これは、成長を続けるgwカタログで解釈可能な人口モデルを自動的に発見する戦略を示しており、他の天体物理学現象に適用できる可能性がある。

We present an automatic approach to discover analytic population models for gravitational-wave (GW) events from data. As more gravitational-wave (GW) events are detected, flexible models such as Gaussian Mixture Models have become more important in fitting the distribution of GW properties due to their expressivity. However, flexible models come with many parameters that lack physical motivation, making interpreting the implication of these models challenging. In this work, we demonstrate symbolic regression can complement flexible models by distilling the posterior predictive distribution of such flexible models into interpretable analytic expressions. We recover common GW population models such as a power-law-plus-Gaussian, and find a new empirical population model which combines accuracy and simplicity. This demonstrates a strategy to automatically discover interpretable population models in the ever-growing GW catalog, which can potentially be applied to other astrophysical phenomena.
翻訳日:2022-07-27 13:36:27 公開日:2022-07-25
# TDエラーアグリゲーションによる協調的アクタークリティカル

Cooperative Actor-Critic via TD Error Aggregation ( http://arxiv.org/abs/2207.12533v1 )

ライセンス: Link先を確認
Martin Figura, Yixuan Lin, Ji Liu, Vijay Gupta(参考訳) 分散協調型マルチエージェント強化学習では、エージェントは互いに情報を集約し、チーム平均目標関数を最大化するポリシーを学ぶことができる。 他人と協力する意思があるにもかかわらず、個々のエージェントは、プライバシー問題のために自分のローカル状態、報酬、価値機能に関する情報を直接共有することは望ましくないかもしれない。 本研究では,TDエラーアグリゲーションを用いた分散型アクタ批判アルゴリズムを導入し,通信チャネルが遅延やパケットのドロップアウトの影響を受けることを仮定する。 このような弱い仮定を行う費用は、送信されたデータの寸法によって測定された各エージェントの通信負担の増加である。 興味深いことに、通信負荷はグラフサイズが2倍に過ぎず、大規模なネットワークに適用可能なアルゴリズムを描画する。 我々は,各エージェントが平均目標関数を最大化するために,ステップサイズを小さくして収束解析を行う。

In decentralized cooperative multi-agent reinforcement learning, agents can aggregate information from one another to learn policies that maximize a team-average objective function. Despite the willingness to cooperate with others, the individual agents may find direct sharing of information about their local state, reward, and value function undesirable due to privacy issues. In this work, we introduce a decentralized actor-critic algorithm with TD error aggregation that does not violate privacy issues and assumes that communication channels are subject to time delays and packet dropouts. The cost we pay for making such weak assumptions is an increased communication burden for every agent as measured by the dimension of the transmitted data. Interestingly, the communication burden is only quadratic in the graph size, which renders the algorithm applicable in large networks. We provide a convergence analysis under diminishing step size to verify that the agents maximize the team-average objective function.
翻訳日:2022-07-27 13:36:11 公開日:2022-07-25
# 統合ヒト遺伝学的証拠を用いた臨床結果予測のためのベイズテンソル因子化

Bayesian tensor factorization for predicting clinical outcomes using integrated human genetics evidence ( http://arxiv.org/abs/2207.12538v1 )

ライセンス: Link先を確認
Onuralp Soylemez(参考訳) 薬物候補の承認成功率は極めて低く、安全性と有効性による失敗の多数である。 ターゲット、薬物分子、および指標に関する高次元情報の増加は、ML法が複数のデータモダリティを統合する機会を提供し、臨床的に有望な薬物標的を予測する。 特に、ヒト遺伝学の証拠を持つ薬物標的は、成功する確率が良いことが示されている。 しかし、最近のテンソル分解に基づくアプローチでは、目標や指示に関する追加情報は必ずしも予測精度を向上するとは限らない。 ここでは,このアプローチを再検討し,各ターゲット・インジケーションペアをサポートするために,公開ソースから照合された異なる種類のヒト遺伝学証拠を統合する。 ベイジアンテンソル分解法を用いて、ヒト遺伝学のすべての証拠(まれな疾患、遺伝子重荷、共通疾患)を組み込んだモデルが、単一の遺伝学の証拠を用いたモデルに対する臨床結果の予測を緩やかに改善することを示す。 臨床結果の予測には, 異なる種類のヒト遺伝学的証拠の相対的予測力について, さらなる知見が得られた。

The approval success rate of drug candidates is very low with the majority of failure due to safety and efficacy. Increasingly available high dimensional information on targets, drug molecules and indications provides an opportunity for ML methods to integrate multiple data modalities and better predict clinically promising drug targets. Notably, drug targets with human genetics evidence are shown to have better odds to succeed. However, a recent tensor factorization-based approach found that additional information on targets and indications might not necessarily improve the predictive accuracy. Here we revisit this approach by integrating different types of human genetics evidence collated from publicly available sources to support each target-indication pair. We use Bayesian tensor factorization to show that models incorporating all available human genetics evidence (rare disease, gene burden, common disease) modestly improves the clinical outcome prediction over models using single line of genetics evidence. We provide additional insight into the relative predictive power of different types of human genetics evidence for predicting the success of clinical outcomes.
翻訳日:2022-07-27 13:35:58 公開日:2022-07-25
# 実対称テンソルの近似低ランク分解

Approximate Low-Rank Decomposition for Real Symmetric Tensors ( http://arxiv.org/abs/2207.12529v1 )

ライセンス: Link先を確認
Alperen A. Erg\"ur, Jesus Rebollo Bueno, Petros Valettas(参考訳) アルゴリズム的観点から,摂動許容値の$\varepsilon$-roomが対称テンソル分解に及ぼす影響について検討した。 より正確には、次の問題に対して定理と設計アルゴリズムを証明する: 実対称$d$-tensor $f$, a norm $|| とする。 対称な$d$-テンソルの空間上の||$と、$||に関して$\varepsilon >0$エラー耐性を持つ。 ||$が与えられる。 最小の対称テンソルランクは、$f$の$\varepsilon$-neighborhoodである。 言い換えれば、賢い$\varepsilon$-perturbationの後、対称テンソルランクは$f$とは何ですか? 近似対称テンソルランク推定のための2つの異なる理論境界と3つのアルゴリズムを提供する。 最初の結果は、$L_p$-normsの場合のランダム化エネルギー増分アルゴリズムである。 第2の結果は単純なサンプリングに基づくアルゴリズムで,幾何関数解析の手法に触発されて,任意のノルムに対して動作する。 また、ヒルベルト・シュミットノルムの場合の補アルゴリズムも提供する。 すべてのアルゴリズムは厳密な複雑性推定を持ち、従って、$\varepsilon$-room of tolerance を持つ対称テンソルランクの2つの主要な定理が得られる。 また,エネルギー増量アルゴリズムの予備実装による実験についても報告する。

We investigate the effect of an $\varepsilon$-room of perturbation tolerance on symmetric tensor decomposition from an algorithmic perspective. More precisely, we prove theorems and design algorithms for the following problem: Suppose a real symmetric $d$-tensor $f$, a norm $||.||$ on the space of symmetric $d$-tensors, and $\varepsilon >0$ error tolerance with respect to $||.||$ are given. What is the smallest symmetric tensor rank in the $\varepsilon$-neighborhood of $f$? In other words, what is the symmetric tensor rank of $f$ after a clever $\varepsilon$-perturbation? We provide two different theoretical bounds and three algorithms for approximate symmetric tensor rank estimation. Our first result is a randomized energy increment algorithm for the case of $L_p$-norms. Our second result is a simple sampling-based algorithm, inspired by some techniques in geometric functional analysis, that works for any norm. We also provide a supplementary algorithm in the case of the Hilbert-Schmidt norm. All our algorithms come with rigorous complexity estimates, which in turn yield our two main theorems on symmetric tensor rank with $\varepsilon$-room of tolerance. We also report on our experiments with a preliminary implementation of the energy increment algorithm.
翻訳日:2022-07-27 13:34:21 公開日:2022-07-25
# ダイナミックポイントクラウド幾何符号化のためのフレーム間圧縮

Inter-Frame Compression for Dynamic Point Cloud Geometry Coding ( http://arxiv.org/abs/2207.12554v1 )

ライセンス: Link先を確認
Anique Akhtar, Zhu Li, Geert Van der Auwera(参考訳) 仮想と混合現実、自律運転、文化遺産といったアプリケーションには、効率的なポイントクラウド圧縮が不可欠です。 本稿では,動的点雲幾何圧縮のための深層学習に基づくフレーム間符号化方式を提案する。 本稿では,新しい予測ネットワークを用いて,先行フレームを用いて現在フレームの潜時表現を予測できる損失幾何圧縮方式を提案する。 提案するネットワークは,階層的マルチスケール3次元特徴学習とスパース畳み込みを用いて,従来のフレームを用いて現在のフレームを符号化する。 対象座標に畳み込みを用いて、前のフレームの潜在表現を現在のフレームのダウンサンプル座標にマッピングし、現在のフレームの特徴埋め込みを予測する。 本フレームワークは,確率係数化エントロピーモデルを用いて,予測された特徴の残差と実際の特徴を圧縮することによって伝達する。 受信機では、デコーダは、特徴埋め込みを段階的に再スケーリングすることにより、現在のフレームを階層的に再構築する。 我々は,最新のビデオベースのポイントクラウド圧縮(V-PCC)と,移動画像専門家グループ(MPEG)が標準化した幾何学ベースのポイントクラウド圧縮(G-PCC)とを比較した。 提案手法は,G-PCCに対する91%以上のBD-Rate Bjontegaard Delta Rate)削減,V-PCCフレーム内符号化モードに対する62%以上のBD-Rate削減,HEVCを用いたV-PCC P-frameを用いたフレーム間符号化モードに対する52%以上のBD-Rate削減を実現する。

Efficient point cloud compression is essential for applications like virtual and mixed reality, autonomous driving, and cultural heritage. In this paper, we propose a deep learning-based inter-frame encoding scheme for dynamic point cloud geometry compression. We propose a lossy geometry compression scheme that predicts the latent representation of the current frame using the previous frame by employing a novel prediction network. Our proposed network utilizes sparse convolutions with hierarchical multiscale 3D feature learning to encode the current frame using the previous frame. We employ convolution on target coordinates to map the latent representation of the previous frame to the downsampled coordinates of the current frame to predict the current frame's feature embedding. Our framework transmits the residual of the predicted features and the actual features by compressing them using a learned probabilistic factorized entropy model. At the receiver, the decoder hierarchically reconstructs the current frame by progressively rescaling the feature embedding. We compared our model to the state-of-the-art Video-based Point Cloud Compression (V-PCC) and Geometry-based Point Cloud Compression (G-PCC) schemes standardized by the Moving Picture Experts Group (MPEG). Our method achieves more than 91% BD-Rate Bjontegaard Delta Rate) reduction against G-PCC, more than 62% BD-Rate reduction against V-PCC intra-frame encoding mode, and more than 52% BD-Rate savings against V-PCC P-frame-based inter-frame encoding mode using HEVC.
翻訳日:2022-07-27 13:29:31 公開日:2022-07-25
# overwatch: コード編集シーケンスにおける学習パターン

Overwatch: Learning Patterns in Code Edit Sequences ( http://arxiv.org/abs/2207.12456v1 )

ライセンス: Link先を確認
Yuhao Zhang, Yasharth Bajpai, Priyanshu Gupta, Ameya Ketkar, Miltiadis Allamanis, Titus Barik, Sumit Gulwani, Arjun Radhakrishna, Mohammad Raza, Gustavo Soares, Ashish Tiwari(参考訳) 統合開発環境(IDE)は多くのソースコード編集タスクを自動化するツールを提供する。 伝統的にIDEは、空間コンテキスト、すなわち開発者が編集する場所のみを使用して、候補の編集レコメンデーションを生成する。 しかし、空間コンテキストだけでは開発者の次の編集を確実に予測するには不十分な場合が多いため、IDEはロケーションで多くの提案を生成する。 そのため、一般的にIDEは提案を積極的に提供せず、代わりに、開発者は特定のアイコンやメニューをクリックして、潜在的な提案の一覧から選択する必要がある。 結果として、開発者はツールサポートの存在を認識していないり、使用を忘れているため、ツールサポートを使用する機会を逃すことが多い。 開発者の振る舞いの共通パターンをよりよく理解し、より良い編集レコメンデーションを生成するために、時間的コンテキスト、すなわち開発者が最近実行した編集を使うことができる。 時間的文脈に基づいた編集レコメンデーションを可能にするために,ideで実行される開発者の編集の痕跡から編集シーケンスパターンを学習する新しい手法であるoverwatchを提案する。 私たちの実験によると、Overwatchの精度は78%で、IDEツールサポートの機会を逃した開発者が編集を完了しただけでなく、IDEにツールサポートがない新しい編集も予測できた。

Integrated Development Environments (IDEs) provide tool support to automate many source code editing tasks. Traditionally, IDEs use only the spatial context, i.e., the location where the developer is editing, to generate candidate edit recommendations. However, spatial context alone is often not sufficient to confidently predict the developer's next edit, and thus IDEs generate many suggestions at a location. Therefore, IDEs generally do not actively offer suggestions and instead, the developer is usually required to click on a specific icon or menu and then select from a large list of potential suggestions. As a consequence, developers often miss the opportunity to use the tool support because they are not aware it exists or forget to use it. To better understand common patterns in developer behavior and produce better edit recommendations, we can additionally use the temporal context, i.e., the edits that a developer was recently performing. To enable edit recommendations based on temporal context, we present Overwatch, a novel technique for learning edit sequence patterns from traces of developers' edits performed in an IDE. Our experiments show that Overwatch has 78% precision and that Overwatch not only completed edits when developers missed the opportunity to use the IDE tool support but also predicted new edits that have no tool support in the IDE.
翻訳日:2022-07-27 13:25:35 公開日:2022-07-25
# transition1x -- 汎用的なリアクティブ機械学習ポテンシャルを構築するためのデータセット

Transition1x -- a Dataset for Building Generalizable Reactive Machine Learning Potentials ( http://arxiv.org/abs/2207.12858v1 )

ライセンス: Link先を確認
Mathias Schreiner, Arghya Bhowmik, Tejs Vegge, Jonas Busk, Ole Winther(参考訳) 機械学習(ML)モデルは、分子動力学研究において有用であるのとは対照的に、反応障壁探索のサロゲートポテンシャルとして成功した。 これは、化学空間の関連する遷移状態領域におけるトレーニングデータの不足に起因する。 現在、小さな分子システム上でMLモデルをトレーニングするためのデータセットは、ほぼ平衡に近い構成を含んでいる。 本稿では, wb97x/6-31g(d)理論における反応経路とその周辺における分子配置の力とエネルギーの9.6億倍の密度汎関数理論(dft)を含むデータセットtransition1xを提案する。 データは、中間計算を節約しながら10k反応でdftを用いたヌッジ弾性バンド(neb)計算を実行して生成された。 我々は,人気のani1xおよびqm9データセット上でtransition1xおよびcross-validate上で,最先端の等価グラフメッセージパッシングニューラルネットワークモデルをトレーニングする。 MLモデルは、人気のあるベンチマークデータセットをトレーニングすることでのみ、遷移状態領域の機能を学習できないことを示す。 transition1xは新しい挑戦的なベンチマークで、平衡構成やリアクティブシステムから遠く離れた、次世代のMLフォースフィールドの開発に向けた重要なステップを提供する。

Machine Learning (ML) models have, in contrast to their usefulness in molecular dynamics studies, had limited success as surrogate potentials for reaction barrier search. It is due to the scarcity of training data in relevant transition state regions of chemical space. Currently, available datasets for training ML models on small molecular systems almost exclusively contain configurations at or near equilibrium. In this work, we present the dataset Transition1x containing 9.6 million Density Functional Theory (DFT) calculations of forces and energies of molecular configurations on and around reaction pathways at the wB97x/6-31G(d) level of theory. The data was generated by running Nudged Elastic Band (NEB) calculations with DFT on 10k reactions while saving intermediate calculations. We train state-of-the-art equivariant graph message-passing neural network models on Transition1x and cross-validate on the popular ANI1x and QM9 datasets. We show that ML models cannot learn features in transition-state regions solely by training on hitherto popular benchmark datasets. Transition1x is a new challenging benchmark that will provide an important step towards developing next-generation ML force fields that also work far away from equilibrium configurations and reactive systems.
翻訳日:2022-07-27 13:25:13 公開日:2022-07-25
# リップリミテッドビットによる垂直重み攻撃

Versatile Weight Attack via Flipping Limited Bits ( http://arxiv.org/abs/2207.12405v1 )

ライセンス: Link先を確認
Jiawang Bai, Baoyuan Wu, Zhifeng Li, and Shu-tao Xia(参考訳) ディープニューラルネットワーク(DNN)の脆弱性を探るため、トレーニング段階における中毒ベースのバックドア攻撃や推論段階における敵攻撃など、多くの攻撃パラダイムが研究されている。 本稿では,展開段階におけるモデルパラメータを修飾する新たな攻撃パラダイムについて検討する。 実効性とステルスネスの目標を考慮し,攻撃者の目的に応じて有効期間をカスタマイズ可能なビットフリップベースの重み攻撃を行うための一般的な定式化を提案する。 さらに,悪質な目的,すなわち単一サンプル攻撃(ssa)とトリガサンプル攻撃(tsa)の2例を報告した。 この目的のために、この問題を混合整数プログラミング(MIP)として定式化し、メモリ内のバイナリビット(0または1)の状態を共同で決定し、サンプル修正を学習する。 整数プログラミングにおける最新の手法を用いて、このMIP問題を連続最適化問題として等価に再構成し、乗算器の交互方向法(ADMM)を用いて効率よく効率的に解けるようにする。 したがって、反転した臨界ビットはヒューリスティックな戦略を用いるのではなく、最適化によって容易に決定することができる。 大規模な実験は、DNN攻撃におけるSSAとTSAの優位性を実証している。

To explore the vulnerability of deep neural networks (DNNs), many attack paradigms have been well studied, such as the poisoning-based backdoor attack in the training stage and the adversarial attack in the inference stage. In this paper, we study a novel attack paradigm, which modifies model parameters in the deployment stage. Considering the effectiveness and stealthiness goals, we provide a general formulation to perform the bit-flip based weight attack, where the effectiveness term could be customized depending on the attacker's purpose. Furthermore, we present two cases of the general formulation with different malicious purposes, i.e., single sample attack (SSA) and triggered samples attack (TSA). To this end, we formulate this problem as a mixed integer programming (MIP) to jointly determine the state of the binary bits (0 or 1) in the memory and learn the sample modification. Utilizing the latest technique in integer programming, we equivalently reformulate this MIP problem as a continuous optimization problem, which can be effectively and efficiently solved using the alternating direction method of multipliers (ADMM) method. Consequently, the flipped critical bits can be easily determined through optimization, rather than using a heuristic strategy. Extensive experiments demonstrate the superiority of SSA and TSA in attacking DNNs.
翻訳日:2022-07-27 13:24:53 公開日:2022-07-25
# 寒冷大気プラズマ活性化液体の抗菌活性予測のための機械学習

Machine Learning to Predict the Antimicrobial Activity of Cold Atmospheric Plasma-Activated Liquids ( http://arxiv.org/abs/2207.12478v1 )

ライセンス: Link先を確認
Mehmet Akif Ozdemir, Gizem Dilara Ozdemir, Merve Gul, Onan Guren and Utku Kursat Ercan(参考訳) プラズマは物質の4番目の状態として定義され、非熱プラズマは高電界下で大気圧で生成することができる。 プラズマ活性液体(PAL)の強い広帯域抗菌効果が知られている。 医療分野における機械学習(ML)の適用性の証明は、血漿医学にも応用されることを奨励している。 したがって、MLによるPALの応用は、様々なパラメータが抗菌効果に与える影響をよりよく理解するための新たな視点を与えることができる。 本稿では,PALsのin vitro抗菌活性を定性的に予測するために,事前に得られたデータを用いて比較教師付きMLモデルを提示する。 文献検索を行い、33の関連記事からデータを収集する。 必要な前処理ステップの後、データに2つの教師付きML手法、すなわち分類と回帰を適用し、微生物不活性化(MI)予測を得る。 分類では、miは4つのカテゴリに分類され、回帰では、miは連続変数として使用される。 提案手法を評価するために, 分類モデルと回帰モデルのための2つの異なるロバストなクロスバリデーション戦略を行い, k-フォルダのクロスバリデーションと k-フォールドのクロスバリデーションを繰り返した。 また,異なる特徴がモデルに与える影響についても検討する。 その結果,超パラメータ最適化型森林分類器 (oRFC) とランダムフォレスト回帰器 (oRFR) が,他の分類モデルや回帰モデルよりもよい結果を示した。 最後に、oRFCの82.68%、oRFRの0.75のR2の試験精度を得る。 ML技術は、望まれる抗菌効果に支配的な役割を持つ血漿パラメータの理解に寄与する可能性がある。 さらに、このような知見は将来、血漿線量の定義に寄与する可能性がある。

Plasma is defined as the fourth state of matter and non-thermal plasma can be produced at atmospheric pressure under a high electrical field. The strong and broad-spectrum antimicrobial effect of plasma-activated liquids (PALs) is now well known. The proven applicability of machine learning (ML) in the medical field is encouraging for its application in the field of plasma medicine as well. Thus, ML applications on PALs could present a new perspective to better understand the influences of various parameters on their antimicrobial effects. In this paper, comparative supervised ML models are presented by using previously obtained data to qualitatively predict the in vitro antimicrobial activity of PALs. A literature search was performed and data is collected from 33 relevant articles. After the required preprocessing steps, two supervised ML methods, namely classification, and regression are applied to data to obtain microbial inactivation (MI) predictions. For classification, MI is labeled in four categories and for regression, MI is used as a continuous variable. Two different robust cross-validation strategies are conducted for classification and regression models to evaluate the proposed method; repeated stratified k-fold cross-validation and k-fold cross-validation, respectively. We also investigate the effect of different features on models. The results demonstrated that the hyperparameter-optimized Random Forest Classifier (oRFC) and Random Forest Regressor (oRFR) provided better results than other models for the classification and regression, respectively. Finally, the best test accuracy of 82.68% for oRFC and R2 of 0.75 for the oRFR are obtained. ML techniques could contribute to a better understanding of plasma parameters that have a dominant role in the desired antimicrobial effect. Furthermore, such findings may contribute to the definition of a plasma dose in the future.
翻訳日:2022-07-27 13:24:31 公開日:2022-07-25
# 属性予測器による公正度の推定と制御

Estimating and Controlling for Fairness via Sensitive Attribute Predictors ( http://arxiv.org/abs/2207.12497v1 )

ライセンス: Link先を確認
Beepul Bharti, Paul Yi, Jeremias Sulam(参考訳) 機械学習の分類器は、高リスクな意思決定(がんの診断や刑事訴追の判断など)にますます使われてきたが、過小評価されたグループに対する偏見を示している。 公正性の標準的な定義は、しばしば利用できない、関心のセンシティブな属性(例えば、性別や人種)へのアクセスを必要とする。 本研究では,機密属性が不明な環境では,機密属性予測器から派生した代理的機密属性を用いて公平性を確実に推定し,最終的に制御できることを実証する。 具体的には、まず、完全なデータ分布について少しの知識があれば、機密属性予測器を用いて分類器の真公正度測定値の上下境界を求めることができることを示す。 第2に,真に敏感な属性に関して公平性を制御することにより,公正性をどのように制御できるかを実証する。 我々の結果は、以前の作品よりもかなり穏やかな仮定のもとに置かれている。 結果は、合成データと実際のデータセットで示します。

Although machine learning classifiers have been increasingly used in high-stakes decision making (e.g., cancer diagnosis, criminal prosecution decisions), they have demonstrated biases against underrepresented groups. Standard definitions of fairness require access to sensitive attributes of interest (e.g., gender and race), which are often unavailable. In this work we demonstrate that in these settings where sensitive attributes are unknown, one can still reliably estimate and ultimately control for fairness by using proxy sensitive attributes derived from a sensitive attribute predictor. Specifically, we first show that with just a little knowledge of the complete data distribution, one may use a sensitive attribute predictor to obtain upper and lower bounds of the classifier's true fairness metric. Second, we demonstrate how one can provably control for fairness with respect to the true sensitive attributes by controlling for fairness with respect to the proxy sensitive attributes. Our results hold under assumptions that are significantly milder than previous works. We illustrate our results on a series of synthetic and real datasets.
翻訳日:2022-07-27 13:24:04 公開日:2022-07-25
# ビッグデータのベアブル・ライトネス:科学機械学習における膨大な公開データセットを目指して

The Bearable Lightness of Big Data: Towards Massive Public Datasets in Scientific Machine Learning ( http://arxiv.org/abs/2207.12546v1 )

ライセンス: Link先を確認
Wai Tong Chung and Ki Sung Jung and Jacqueline H. Chen and Matthias Ihme(参考訳) 一般的に、大規模なデータセットは、ディープラーニングモデルが精度と一般化性が向上する。 しかし, 分子化学, 天体物理学, 計算流体力学(CFD)などからの高忠実度シミュレーションデータセットは, 次元性や記憶の制約により計算が困難である。 損失のある圧縮アルゴリズムは、データ完全性が保存されている限り、ストレージの制限を緩和するのに役立つ。 この点を説明するために,petascale cfdシミュレーションのデータに基づいてトレーニングおよびテストされた深層学習モデルは,意味セグメンテーション問題において損失圧縮中に生じる誤りに対して頑健であることを示す。 この結果から, コミュニティデータセット構築のためのオープンソースデータリポジトリに, 高忠実度科学データを公開するための現実的な手法が得られた。 本稿では,ビッグデータフレームワーク構築の要件を概説,構築,評価し,科学的機械学習のためのhttps://blastnet.github.io/で実証する。

In general, large datasets enable deep learning models to perform with good accuracy and generalizability. However, massive high-fidelity simulation datasets (from molecular chemistry, astrophysics, computational fluid dynamics (CFD), etc. can be challenging to curate due to dimensionality and storage constraints. Lossy compression algorithms can help mitigate limitations from storage, as long as the overall data fidelity is preserved. To illustrate this point, we demonstrate that deep learning models, trained and tested on data from a petascale CFD simulation, are robust to errors introduced during lossy compression in a semantic segmentation problem. Our results demonstrate that lossy compression algorithms offer a realistic pathway for exposing high-fidelity scientific data to open-source data repositories for building community datasets. In this paper, we outline, construct, and evaluate the requirements for establishing a big data framework, demonstrated at https://blastnet.github.io/, for scientific machine learning.
翻訳日:2022-07-27 13:23:47 公開日:2022-07-25
# 放射線検査における膝関節炎の重症度評価のための深層学習アルゴリズム

Deep learning-based algorithm for assessment of knee osteoarthritis severity in radiographs matches performance of radiologists ( http://arxiv.org/abs/2207.12521v1 )

ライセンス: Link先を確認
Albert Swiecicki, Nianyi Li, Jonathan O'Donnell, Nicholas Said, Jichen Yang, Richard C. Mather, William A. Jiranek, Maciej A. Mazurowski(参考訳) 完全自動深層学習アルゴリズムは,Kellgren-Lawrenceグレーティングシステムを用いたX線写真における膝関節炎の重症度評価において,放射線技師のパフォーマンスと一致した。 膝関節症の重症度をKellgren-Lawrence grading systemに従って評価するために、後アンテリア(PA)と側ラテラル(LAT)ビューを併用した自動ディープラーニングベースのアルゴリズムを開発する。 多施設性変形性膝関節症(most)患者2802例の9739点の検査データセットを用いた。 データセットは2040人、検証セットは259人、テストセットは503人に分けられた。 1)膝関節の局所化,(2)KL分類による分類の2段階において,新しい深層学習法を用いて膝OAの評価を行った。 本手法ではpaとlatのビューをモデルへの入力として用いた。 このアルゴリズムにより得られたスコアは, テストセット全体を対象としたMOSTデータセットと, テストセットのサブセットについて, 当施設の5人の放射線学者による評価結果とを比較した。 このモデルはMOSTデータセットのレーティングと比較してテストセット全体の71.90%のマルチクラス精度を得た。 この集合の二次重み付きカッパ係数は 0.9066 である。 研究に参加した当院の放射線科医の対間での4次重み付きkappaの平均値は0.748であった。 当施設の放射線科医とアルゴリズムの平均二次重み付きカッパは0.769。 提案モデルはmsk放射線科医にkl分類の等価性を示したが,再現性は良好であった。 また, 当施設の放射線科医は, 放射線科医と同程度に一致した。 このアルゴリズムは、膝関節症重症度を再現可能な評価に使用できる。

A fully-automated deep learning algorithm matched performance of radiologists in assessment of knee osteoarthritis severity in radiographs using the Kellgren-Lawrence grading system. To develop an automated deep learning-based algorithm that jointly uses Posterior-Anterior (PA) and Lateral (LAT) views of knee radiographs to assess knee osteoarthritis severity according to the Kellgren-Lawrence grading system. We used a dataset of 9739 exams from 2802 patients from Multicenter Osteoarthritis Study (MOST). The dataset was divided into a training set of 2040 patients, a validation set of 259 patients and a test set of 503 patients. A novel deep learning-based method was utilized for assessment of knee OA in two steps: (1) localization of knee joints in the images, (2) classification according to the KL grading system. Our method used both PA and LAT views as the input to the model. The scores generated by the algorithm were compared to the grades provided in the MOST dataset for the entire test set as well as grades provided by 5 radiologists at our institution for a subset of the test set. The model obtained a multi-class accuracy of 71.90% on the entire test set when compared to the ratings provided in the MOST dataset. The quadratic weighted Kappa coefficient for this set was 0.9066. The average quadratic weighted Kappa between all pairs of radiologists from our institution who took a part of study was 0.748. The average quadratic-weighted Kappa between the algorithm and the radiologists at our institution was 0.769. The proposed model performed demonstrated equivalency of KL classification to MSK radiologists, but clearly superior reproducibility. Our model also agreed with radiologists at our institution to the same extent as the radiologists with each other. The algorithm could be used to provide reproducible assessment of knee osteoarthritis severity.
翻訳日:2022-07-27 13:19:38 公開日:2022-07-25
# パターン化されたFlashで暗闇の遠くを見る

Seeing Far in the Dark with Patterned Flash ( http://arxiv.org/abs/2207.12570v1 )

ライセンス: Link先を確認
Zhanghao Sun, Jian Wang, Yicheng Wu, Shree Nayar(参考訳) フラッシュ照明は低光環境下での撮像に広く用いられている。 しかし、光強度は伝搬距離を2倍にすることで低下し、遠距離でのフラッシュイメージングには大きな課題が生じる。 本研究では,遠距離でのフラッシュイメージングのための新しいフラッシュ技術である`patterned flash'を提案する。 パターンフラッシュは光学パワーをドットアレイに集中させる。 信号が至る所でノイズに圧倒される従来の均一フラッシュと比較して、パターン付フラッシュは視野を横切る狭い分布の地点で強い信号を提供し、それらの地点の信号がセンサノイズから際立っていることを確実にする。 これにより、後処理で重要なオブジェクトや詳細を解決できる。 さらに、パターン化されたフラッシュはシーンにテクスチャを投影し、深度知覚のための構造化光システムとして扱うことができる。 新たなシステムとして,畳み込みニューラルネットワークを用いた画像再構成と深度推定アルゴリズムを開発した。 ハードウェアプロトタイプを構築し,様々な場面で提案したフラッシュ技術をテストする。 実験の結果,低照度環境において,当社のパターン化フラッシュは長距離で性能が著しく向上することがわかった。

Flash illumination is widely used in imaging under low-light environments. However, illumination intensity falls off with propagation distance quadratically, which poses significant challenges for flash imaging at a long distance. We propose a new flash technique, named ``patterned flash'', for flash imaging at a long distance. Patterned flash concentrates optical power into a dot array. Compared with the conventional uniform flash where the signal is overwhelmed by the noise everywhere, patterned flash provides stronger signals at sparsely distributed points across the field of view to ensure the signals at those points stand out from the sensor noise. This enables post-processing to resolve important objects and details. Additionally, the patterned flash projects texture onto the scene, which can be treated as a structured light system for depth perception. Given the novel system, we develop a joint image reconstruction and depth estimation algorithm with a convolutional neural network. We build a hardware prototype and test the proposed flash technique on various scenes. The experimental results demonstrate that our patterned flash has significantly better performance at long distances in low-light environments.
翻訳日:2022-07-27 13:19:12 公開日:2022-07-25
# 超解像における新しい劣化の学習一般化型潜在表現

Learning Generalizable Latent Representations for Novel Degradations in Super Resolution ( http://arxiv.org/abs/2207.12941v1 )

ライセンス: Link先を確認
Fengjun Li, Xin Feng, Fanglin Chen, Guangming Lu and Wenjie Pei(参考訳) ブラインド画像超解像(SR)の典型的な方法は、直接推定したり、潜在空間で分解表現を学習することで、未知の劣化に対処することに焦点を当てている。 これらの方法の潜在的な限界は、未知の分解が様々な手作りの劣化(例えば、ビキューブのダウンサンプリング)の統合によってシミュレートできるという仮定である。 実世界の劣化は、新しい劣化と呼ばれる手作りの劣化によってシミュレーションの範囲を超えることができる。 そこで本研究では,手作り(ベース)劣化から新しい劣化へ一般化可能な,劣化の潜在表現空間を学習することを提案する。 次に、この潜伏空間における新規劣化の表現を利用して、新規劣化と整合した劣化画像を生成し、SRモデルのペアトレーニングデータを構成する。 さらに, 潜在表現空間における劣化の後方を事前分布(ガウス分布など)と一致させる変分推論を行う。 その結果、SRモデルのトレーニングデータを増やすために、新しい劣化のためのより高品質な表現をサンプリングすることができる。 我々は,新しい劣化を伴うブラインド超解像法の有効性と利点を検証するために,合成データと実世界のデータセットの両方について広範な実験を行う。

Typical methods for blind image super-resolution (SR) focus on dealing with unknown degradations by directly estimating them or learning the degradation representations in a latent space. A potential limitation of these methods is that they assume the unknown degradations can be simulated by the integration of various handcrafted degradations (e.g., bicubic downsampling), which is not necessarily true. The real-world degradations can be beyond the simulation scope by the handcrafted degradations, which are referred to as novel degradations. In this work, we propose to learn a latent representation space for degradations, which can be generalized from handcrafted (base) degradations to novel degradations. The obtained representations for a novel degradation in this latent space are then leveraged to generate degraded images consistent with the novel degradation to compose paired training data for SR model. Furthermore, we perform variational inference to match the posterior of degradations in latent representation space with a prior distribution (e.g., Gaussian distribution). Consequently, we are able to sample more high-quality representations for a novel degradation to augment the training data for SR model. We conduct extensive experiments on both synthetic and real-world datasets to validate the effectiveness and advantages of our method for blind super-resolution with novel degradations.
翻訳日:2022-07-27 13:16:35 公開日:2022-07-25
# pytorch -- the torchtimeパッケージ用のベンチマーク時系列データセット

Benchmark time series data sets for PyTorch -- the torchtime package ( http://arxiv.org/abs/2207.12503v1 )

ライセンス: Link先を確認
Philip Darke, Paolo Missier and Jaume Bacardit(参考訳) 電子健康記録データのためのモデルの開発は、少数の公開ベンチマークデータセットを特徴とする活発な研究分野である。 研究者は通常、カスタムデータ処理コードを書くが、これは再現性を妨げ、エラーを起こす可能性がある。 Pythonパッケージのtorchtimeは、一般的に使用されているPyTorch用のPhytoNetとUEA & UCR時系列分類レポジトリデータセットの再現可能な実装を提供する。 不規則にサンプリングされ、部分的に観測された不等長の時系列を扱うための特徴を提供する。 PhysioNetのデータへのアクセスを単純化し、このエキサイティングな研究領域におけるモデルの公正な比較を可能にすることを目指している。

The development of models for Electronic Health Record data is an area of active research featuring a small number of public benchmark data sets. Researchers typically write custom data processing code but this hinders reproducibility and can introduce errors. The Python package torchtime provides reproducible implementations of commonly used PhysioNet and UEA & UCR time series classification repository data sets for PyTorch. Features are provided for working with irregularly sampled and partially observed time series of unequal length. It aims to simplify access to PhysioNet data and enable fair comparisons of models in this exciting area of research.
翻訳日:2022-07-27 13:06:00 公開日:2022-07-25
# 非線形重み付け更新の利点について

On the benefits of non-linear weight updates ( http://arxiv.org/abs/2207.12505v1 )

ライセンス: Link先を確認
Paul Norridge(参考訳) 最近の研究は、DNNの一般化性能が各ノードで信号対雑音比が最適化される程度に関係していることを示唆している。 対照的に、勾配Descent法は必ずしもSNR-最適重み設定につながるとは限らない。 SNRの性能を改善する1つの方法は、大きな重み更新を抑え、小さな重み更新を増幅することである。 このようなバランスは、いくつかの一般的なオプティマイザでは暗黙的であるが、これを明示するアプローチを提案する。 DNNパラメータを更新する前に、非線形関数を勾配に適用する。 このような非線形手法による性能調査を行う。 その結果、既存のオプティマイザに適応することで、多くの問題タイプのパフォーマンスが向上する。

Recent work has suggested that the generalisation performance of a DNN is related to the extent to which the Signal-to-Noise Ratio is optimised at each of the nodes. In contrast, Gradient Descent methods do not always lead to SNR-optimal weight configurations. One way to improve SNR performance is to suppress large weight updates and amplify small weight updates. Such balancing is already implicit in some common optimizers, but we propose an approach that makes this explicit. The method applies a non-linear function to gradients prior to making DNN parameter updates. We investigate the performance with such non-linear approaches. The result is an adaptation to existing optimizers that improves performance for many problem types.
翻訳日:2022-07-27 13:05:49 公開日:2022-07-25
# 深層学習の運転ダイナミクスに関する経験的深層的考察

An Empirical Deep Dive into Deep Learning's Driving Dynamics ( http://arxiv.org/abs/2207.12547v1 )

ライセンス: Link先を確認
Charles Edison Tripp, Jordan Perr-Sauer, Lucas Hayne, Monte Lunacek(参考訳) 本稿では,完全接続ネットワーク上での深層学習現象を調査し,多数のネットワークトポロジのトレーニングとテスト性能,複数の学習タスク,奥行き,自由パラメータ数,学習率,バッチサイズ,正規化ペナルティを網羅した実験データセットを提案する。 データセットは128万のハイパーパラメータ設定を調査し、それぞれ平均20回繰り返し、合計350万のトレーニング実行と、観察された1310億のトレーニングエポックのそれぞれのパフォーマンス指標20である。 この671GBデータセットの蓄積は、CPUコア年5,448、GPU年17.8、ノード年111.2を使用する。 さらに,学習課題やトポロジにまたがるパターンを明らかにする予備分析を行った。 我々は、エネルギー集約的かつヒューリスティックな実践を超えて分野を前進させるために必要な理論的発見の触媒として、現代の機械学習技術を実証的に研究することを目指している。

We present an empirical dataset surveying the deep learning phenomenon on fully-connected networks, encompassing the training and test performance of numerous network topologies, sweeping across multiple learning tasks, depths, numbers of free parameters, learning rates, batch sizes, and regularization penalties. The dataset probes 178 thousand hyperparameter settings with an average of 20 repetitions each, totaling 3.5 million training runs and 20 performance metrics for each of the 13.1 billion training epochs observed. Accumulating this 671 GB dataset utilized 5,448 CPU core-years, 17.8 GPU-years, and 111.2 node-years. Additionally, we provide a preliminary analysis revealing patterns which persist across learning tasks and topologies. We aim to inspire work empirically studying modern machine learning techniques as a catalyst for the theoretical discoveries needed to progress the field beyond energy-intensive and heuristic practices.
翻訳日:2022-07-27 13:05:39 公開日:2022-07-25
# 電流・ばらつきを用いた人体比較・分類の3次元形状系列

3D Shape Sequence of Human Comparison and Classification using Current and Varifolds ( http://arxiv.org/abs/2207.12485v1 )

ライセンス: Link先を確認
Emery Pierson, Mohamed Daoudi, Sylvain Arguillere(参考訳) 本稿では,人間の3次元形状配列の比較と分類の課題について述べる。 人間の運動の非線形ダイナミクスと表面パラメトリゼーションの経時変化は、この課題を非常に困難にしている。 この問題に対処するために、与えられた正の定値核から得られる内積を与えられた変数空間である無限次元空間に3次元形状列を埋め込むことを提案する。 具体的には、私たちのアプローチには2つのステップがあります。 1) 曲面は変数として表現され,この表現は,剛運動に同変かつパラメトリゼーションに不変な計量を誘導する。 2) 3次元形状の配列は、その無限次元ハンケル行列に由来するグラム行列によって表される。 ヒトの2つの3次元配列の比較問題は、2つのグラム・ハンケル行列の比較として定式化されている。 cvssp3d と dyna データセットの広範な実験により,本手法は人間の3次元動画像検索において最先端技術と競合することが示された。 実験のコードはhttps://github.com/CRISTAL-3DSAM/HumanComparisonVarifoldsで公開されている。

In this paper we address the task of the comparison and the classification of 3D shape sequences of human. The non-linear dynamics of the human motion and the changing of the surface parametrization over the time make this task very challenging. To tackle this issue, we propose to embed the 3D shape sequences in an infinite dimensional space, the space of varifolds, endowed with an inner product that comes from a given positive definite kernel. More specifically, our approach involves two steps: 1) the surfaces are represented as varifolds, this representation induces metrics equivariant to rigid motions and invariant to parametrization; 2) the sequences of 3D shapes are represented by Gram matrices derived from their infinite dimensional Hankel matrices. The problem of comparison of two 3D sequences of human is formulated as a comparison of two Gram-Hankel matrices. Extensive experiments on CVSSP3D and Dyna datasets show that our method is competitive with state-of-the-art in 3D human sequence motion retrieval. Code for the experiments is available at https://github.com/CRISTAL-3DSAM/HumanComparisonVarifolds.
翻訳日:2022-07-27 12:42:37 公開日:2022-07-25
# NeuriCam: キーフレームによるビデオの超解像とカラー化

NeuriCam: Video Super-Resolution and Colorization Using Key Frames ( http://arxiv.org/abs/2207.12496v1 )

ライセンス: Link先を確認
Bandhav Veluri, Ali Saffari, Collin Pernu, Joshua Smith, Michael Taylor, Shyamnath Gollakota(参考訳) 我々は、デュアルモードIOTカメラによる低消費電力ビデオキャプチャを実現するために、キーフレームビデオの超高解像度化とカラー化に基づくシステムであるNeuriCamを提案する。 我々のアイデアは、第1モードが低消費電力(1.1~mw)だがグレースケール、低解像度、ノイズビデオのみを出力し、第2モードがはるかに高消費電力(1~mw)を消費するデュアルモードカメラシステムを設計することである。 総エネルギー消費量を減らすため、高電力モードを重くサイクルし、1秒間に1回だけ画像を出力します。 このカメラシステムのデータは、近くのプラグインゲートウェイにワイヤレスでストリーミングされ、リアルタイムニューラルネットワークデコーダを実行して、高解像度のカラービデオを再構成します。 これを実現するために,各空間位置における特徴マップと入力フレームの内容との相関に基づいて,異なる特徴に異なる重みを割り当てる注目特徴フィルタ機構を導入する。 市販のカメラを用いた無線ハードウェアプロトタイプを設計し,パケットロスや視点ミスマッチといった現実的な問題に対処する。 我々のデュアルカメラハードウェアは、従来のビデオ超解像法よりも3.7〜dB、既存の色伝搬法より5.6〜dBのPSNRゲインを達成しつつ、カメラの消費電力を減少させる。 オープンソースコード:https://github.com/vb000/NeuriCam。

We present NeuriCam, a key-frame video super-resolution and colorization based system, to achieve low-power video capture from dual-mode IOT cameras. Our idea is to design a dual-mode camera system where the first mode is low power (1.1~mW) but only outputs gray-scale, low resolution and noisy video and the second mode consumes much higher power (100~mW) but outputs color and higher resolution images. To reduce total energy consumption, we heavily duty cycle the high power mode to output an image only once every second. The data from this camera system is then wirelessly streamed to a nearby plugged-in gateway, where we run our real-time neural network decoder to reconstruct a higher resolution color video. To achieve this, we introduce an attention feature filter mechanism that assigns different weights to different features, based on the correlation between the feature map and contents of the input frame at each spatial location. We design a wireless hardware prototype using off-the-shelf cameras and address practical issues including packet loss and perspective mismatch. Our evaluation shows that our dual-camera hardware reduces camera energy consumption while achieving an average gray-scale PSNR gain of 3.7~dB over prior video super resolution methods and 5.6~dB RGB gain over existing color propagation methods. Open-source code: https://github.com/vb000/NeuriCam.
翻訳日:2022-07-27 12:42:20 公開日:2022-07-25
# ライブストリーム埋め込み型3次元人体地図と形状推定

Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation ( http://arxiv.org/abs/2207.12537v1 )

ライセンス: Link先を確認
Zhouping Wang and Sarah Ostadabbas(参考訳) 3次元人体ポーズと時間的シーケンス内の形状推定は、人間の行動を理解する上で極めて重要である。 近年のポーズ推定は、単一の画像やビデオに基づくものが多いが、リアルタイム出力と時間的一貫性の特別な要件を考慮すると、ライブストリームビデオでの人間の動き推定は、まだ滅多に行われていない領域である。 この問題を解決するために,ライブストリームビデオにおけるポーズ推定の精度と時間的一貫性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法を提案する。 teposeは以前の予測をブリッジとして使用し、現在のフレームの誤差をフィードバックし、データフレームと履歴の予測の対応を学習する。 マルチスケールの時空間グラフ畳み込みネットワークを3次元ラベル付けのないデータセットを用いた対向訓練のための運動判別器として提示する。 本稿では,ライブストリームの特殊なデータ処理要件を満たすために,シーケンシャルなデータローディング戦略を提案する。 提案する各モジュールの重要性を実験的に示す。 以上の結果から,teposeは最先端性能のヒトポーズベンチマークに有効であることが示された。

3D Human body pose and shape estimation within a temporal sequence can be quite critical for understanding human behavior. Despite the significant progress in human pose estimation in the recent years, which are often based on single images or videos, human motion estimation on live stream videos is still a rarely-touched area considering its special requirements for real-time output and temporal consistency. To address this problem, we present a temporally embedded 3D human body pose and shape estimation (TePose) method to improve the accuracy and temporal consistency of pose estimation in live stream videos. TePose uses previous predictions as a bridge to feedback the error for better estimation in the current frame and to learn the correspondence between data frames and predictions in the history. A multi-scale spatio-temporal graph convolutional network is presented as the motion discriminator for adversarial training using datasets without any 3D labeling. We propose a sequential data loading strategy to meet the special start-to-end data processing requirement of live stream. We demonstrate the importance of each proposed module with extensive experiments. The results show the effectiveness of TePose on widely-used human pose benchmarks with state-of-the-art performance.
翻訳日:2022-07-27 12:41:51 公開日:2022-07-25
# UrduFake@FIRE2020: ウルドゥー語におけるフェイクニュース識別の共有トラック

UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu ( http://arxiv.org/abs/2207.12406v1 )

ライセンス: Link先を確認
Maaz Amjad, Grigori Sidorov, Alisa Zhila, Alexander Gelbukh and Paolo Rosso(参考訳) 本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。 これは、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを識別することを目的としているバイナリ分類タスクである。 データセットには5つのドメインのニュースが含まれている。 (i)健康。 (ii)スポーツ (iii)ショービズ (iv)技術、及び (v)ビジネス。 6つの国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)から42チームが登録した。 9チームが実験結果を提出した。 参加者は、機能ベースの従来の機械学習からニューラルネットワーク技術まで、さまざまな機械学習手法を使用した。 最高のパフォーマンスシステムはFスコアの0.90を達成し、BERTベースのアプローチが他の機械学習分類器よりも優れていることを示した。

This paper gives the overview of the first shared task at FIRE 2020 on fake news detection in the Urdu language. This is a binary classification task in which the goal is to identify fake news using a dataset composed of 900 annotated news articles for training and 400 news articles for testing. The dataset contains news in five domains: (i) Health, (ii) Sports, (iii) Showbiz, (iv) Technology, and (v) Business. 42 teams from 6 different countries (India, China, Egypt, Germany, Pakistan, and the UK) registered for the task. 9 teams submitted their experimental results. The participants used various machine learning methods ranging from feature-based traditional machine learning to neural network techniques. The best performing system achieved an F-score value of 0.90, showing that the BERT-based approach outperforms other machine learning classifiers.
翻訳日:2022-07-27 12:35:47 公開日:2022-07-25
# 言語、オーバーラップ・アウェア、チューニング自由に依存しない教師なし話者ダイアリゼーション

Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning Free ( http://arxiv.org/abs/2207.12504v1 )

ライセンス: Link先を確認
M. Iftekhar Tanveer and Diego Casabuena and Jussi Karlgren and Rosie Jones(参考訳) ポッドキャストは本質的に会話型であり、話者の変化は、コンテンツ理解のための話者ダイアリゼーションを必要とすることが多い。 言語固有のコンポーネントに依存しない話者ダイアリゼーションのための教師なし手法を提案する。 このアルゴリズムは重複認識であり、話者数に関する情報を必要としない。 ポッドキャストデータによるgoogle cloud platformソリューションに対する純度スコア(f-scoreでは34%)の79%の改善を示した。

Podcasts are conversational in nature and speaker changes are frequent -- requiring speaker diarization for content understanding. We propose an unsupervised technique for speaker diarization without relying on language-specific components. The algorithm is overlap-aware and does not require information about the number of speakers. Our approach shows 79% improvement on purity scores (34% on F-score) against the Google Cloud Platform solution on podcast data.
翻訳日:2022-07-27 12:35:35 公開日:2022-07-25
# DialCrowd 2.0: 高品質な対話システムクラウドソーシングツールキット

DialCrowd 2.0: A Quality-Focused Dialog System Crowdsourcing Toolkit ( http://arxiv.org/abs/2207.12551v1 )

ライセンス: Link先を確認
Jessica Huynh, Ting-Rui Chiang, Jeffrey Bigham, Maxine Eskenazi(参考訳) ダイアログシステム開発者は、システムのトレーニング、微調整、評価に高品質なデータが必要です。 彼らは多くの労働者から大量のデータを提供するため、クラウドソーシングを使うことが多い。 しかし、データの品質は十分ではないかもしれない。 これは、リクエストがタスクを提示する方法と、ワーカとのインタラクション方法に起因する可能性がある。 本稿では、例えば、タスクをより明確に提示し、労働者との効果的なコミュニケーションを容易にすることで、要求者が高品質なデータを得るのを助けるために、DialCrowd 2.0を紹介します。 DialCrowd 2.0は、改良されたヒューマンインテリジェンスタスク(HIT)の作成をガイドし、現在開発者や研究者が使用しているワークフローに直接適用することができる。

Dialog system developers need high-quality data to train, fine-tune and assess their systems. They often use crowdsourcing for this since it provides large quantities of data from many workers. However, the data may not be of sufficiently good quality. This can be due to the way that the requester presents a task and how they interact with the workers. This paper introduces DialCrowd 2.0 to help requesters obtain higher quality data by, for example, presenting tasks more clearly and facilitating effective communication with workers. DialCrowd 2.0 guides developers in creating improved Human Intelligence Tasks (HITs) and is directly applicable to the workflows used currently by developers and researchers.
翻訳日:2022-07-27 12:35:27 公開日:2022-07-25
# ニューラルデータ・テキスト生成の革新

Innovations in Neural Data-to-text Generation ( http://arxiv.org/abs/2207.12571v1 )

ライセンス: Link先を確認
Mandar Sharma, Ajay Gogineni, Naren Ramakrishnan(参考訳) 過去10年間に自然言語処理(NLP)研究を引き起こした神経ブームは、同様に、データ・テキスト生成(DTG)に大きな革新をもたらした。 本調査は,アプローチ,ベンチマークデータセット,評価プロトコルの構造化検討を通じて,ニューラルネットワークのdtgパラダイムへの統合ビューを提供する。 この調査は、DTGを他の自然言語生成(NLG)の風景から切り離す境界線を描き、文献の最新の合成を包含し、より大きなNLG傘の内外からの技術的採用のステージを強調した。 この包括的視点では、言語能力のあるシステムの設計だけでなく、公平性と説明責任を示すシステムにも焦点をあてたdtg研究の有望な道筋を強調する。

The neural boom that has sparked natural language processing (NLP) research through the last decade has similarly led to significant innovations in data-to-text generation (DTG). This survey offers a consolidated view into the neural DTG paradigm with a structured examination of the approaches, benchmark datasets, and evaluation protocols. This survey draws boundaries separating DTG from the rest of the natural language generation (NLG) landscape, encompassing an up-to-date synthesis of the literature, and highlighting the stages of technological adoption from within and outside the greater NLG umbrella. With this holistic view, we highlight promising avenues for DTG research that not only focus on the design of linguistically capable systems but also systems that exhibit fairness and accountability.
翻訳日:2022-07-27 12:35:16 公開日:2022-07-25
# 構成可能なセミPOMDPによるEmpty Container RepositioningとFleet Deploymentの最適化

Optimizing Empty Container Repositioning and Fleet Deployment via Configurable Semi-POMDPs ( http://arxiv.org/abs/2207.12509v1 )

ライセンス: Link先を確認
Riccardo Poiani, Ciprian Stirbu, Alberto Maria Metelli and Marcello Restelli(参考訳) 世界経済と市場の継続的な成長に伴い、資源の不均衡は実際のロジスティックシナリオにおける中心的な問題の一つになってきた。 海上輸送において、この貿易不均衡はEmpty Container Repositioning (ECR)問題につながる。 輸出国から輸入国に輸送された貨物は、輸出国における新商品要求を満たすために再配置される必要がある空のコンテナへと変貌する。 このような問題において、協調的再配置政策が達成できる性能は、船舶が従うルート(すなわち艦隊配備)に厳密に依存する。 歴史的に、作戦研究(OR)アプローチは、艦船群と共に配置方針を最適化するために提案された。 しかしながら、将来的なコンテナの供給と需要の確率性と、環境内に存在するブラックボックスおよび非線形制約により、これらのアプローチはこれらのシナリオに不適当である。 本稿では,このような問題をモデル化するための新しいフレームワークであるConfigurable Semi-POMDPを紹介する。 さらに,2段階学習アルゴリズム"configure & conquer" (cc) を提案し,まず最適な艦隊展開戦略の近似を見出して環境設定を行い,その後,調整された環境環境でecrポリシーを学習して「克服」する。 この問題の大規模かつ現実的な事例において、我々のアプローチを検証する。 実験の結果, CCはOR手法の落とし穴を回避し, ECR政策と船舶艦隊の最適化に成功し, 世界貿易環境における優れた性能を実現していることがわかった。

With the continuous growth of the global economy and markets, resource imbalance has risen to be one of the central issues in real logistic scenarios. In marine transportation, this trade imbalance leads to Empty Container Repositioning (ECR) problems. Once the freight has been delivered from an exporting country to an importing one, the laden will turn into empty containers that need to be repositioned to satisfy new goods requests in exporting countries. In such problems, the performance that any cooperative repositioning policy can achieve strictly depends on the routes that vessels will follow (i.e., fleet deployment). Historically, Operation Research (OR) approaches were proposed to jointly optimize the repositioning policy along with the fleet of vessels. However, the stochasticity of future supply and demand of containers, together with black-box and non-linear constraints that are present within the environment, make these approaches unsuitable for these scenarios. In this paper, we introduce a novel framework, Configurable Semi-POMDPs, to model this type of problems. Furthermore, we provide a two-stage learning algorithm, "Configure & Conquer" (CC), that first configures the environment by finding an approximation of the optimal fleet deployment strategy, and then "conquers" it by learning an ECR policy in this tuned environmental setting. We validate our approach in large and real-world instances of the problem. Our experiments highlight that CC avoids the pitfalls of OR methods and that it is successful at optimizing both the ECR policy and the fleet of vessels, leading to superior performance in world trade environments.
翻訳日:2022-07-27 12:32:34 公開日:2022-07-25
# セミリーク:セミ教師あり学習に対するメンバーシップ推論攻撃

Semi-Leak: Membership Inference Attacks Against Semi-supervised Learning ( http://arxiv.org/abs/2207.12535v1 )

ライセンス: Link先を確認
Xinlei He and Hongbin Liu and Neil Zhenqiang Gong and Yang Zhang(参考訳) 半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を活用して機械学習(ML)モデルをトレーニングする。 最先端のSSLメソッドは、ラベル付きデータをはるかに少なく活用することで、教師付き学習に匹敵するパフォーマンスを達成することができる。 しかし、既存の作業のほとんどはSSLのパフォーマンス向上に重点を置いている。 本研究では、SSLのトレーニングデータプライバシーを研究することで、異なる角度で研究する。 具体的には、SSLでトレーニングされたMLモデルに対して、データ拡張に基づく最初のメンバーシップ推論攻撃を提案する。 データサンプルとモデルへのブラックボックスアクセスが与えられた場合、メンバシップ推論攻撃の目的は、データサンプルがモデルのトレーニングデータセットに属するかどうかを決定することである。 評価の結果,提案攻撃は既存のメンバシップ推論攻撃より一貫して優れており,SSLで訓練されたモデルに対して最高の性能を発揮することがわかった。 さらに,SSLにおけるメンバシップリークの理由は,教師付き学習において一般的に信じられているもの,すなわちオーバーフィッティング(トレーニングとテストの精度のギャップ)とは異なることが判明した。 sslモデルは(ほぼ0オーバーフィッティングで)テストデータによく一般化されているが、その正確性によらず、より自信を持って予測することでトレーニングデータを'記憶'する。 また、SSLに対するメンバーシップ推論攻撃を防ぐための早期停止策についても検討する。 その結果,早期停止は会員推定攻撃を緩和するが,モデルの実用性劣化のコストは低減することが示された。

Semi-supervised learning (SSL) leverages both labeled and unlabeled data to train machine learning (ML) models. State-of-the-art SSL methods can achieve comparable performance to supervised learning by leveraging much fewer labeled data. However, most existing works focus on improving the performance of SSL. In this work, we take a different angle by studying the training data privacy of SSL. Specifically, we propose the first data augmentation-based membership inference attacks against ML models trained by SSL. Given a data sample and the black-box access to a model, the goal of membership inference attack is to determine whether the data sample belongs to the training dataset of the model. Our evaluation shows that the proposed attack can consistently outperform existing membership inference attacks and achieves the best performance against the model trained by SSL. Moreover, we uncover that the reason for membership leakage in SSL is different from the commonly believed one in supervised learning, i.e., overfitting (the gap between training and testing accuracy). We observe that the SSL model is well generalized to the testing data (with almost 0 overfitting) but ''memorizes'' the training data by giving a more confident prediction regardless of its correctness. We also explore early stopping as a countermeasure to prevent membership inference attacks against SSL. The results show that early stopping can mitigate the membership inference attack, but with the cost of model's utility degradation.
翻訳日:2022-07-27 12:29:38 公開日:2022-07-25
# モバイルリアルタイムスーパーレゾリューションのためのコンパイラアウェアニューラルアーキテクチャ探索

Compiler-Aware Neural Architecture Search for On-Mobile Real-time Super-Resolution ( http://arxiv.org/abs/2207.12577v1 )

ライセンス: Link先を確認
Yushu Wu, Yifan Gong, Pu Zhao, Yanyu Li, Zheng Zhan, Wei Niu, Hao Tang, Minghai Qin, Bin Ren, and Yanzhi Wang(参考訳) ディープラーニングベースの超解像(SR)は、画像の品質と幅広いアプリケーションシナリオのため、近年大きな人気を集めている。 しかし、従来の手法は大量の計算と大量の電力消費に悩まされ、特にモバイルデバイスのようなリソース制限されたプラットフォームではリアルタイムの推論が困難になる。 これを軽減するために,適応SRブロックを用いた深度探索と層間幅探索を行うコンパイラ対応SRニューラルアーキテクチャサーチ(NAS)フレームワークを提案する。 推論速度は、SR損失とともに直接最適化され、リアルタイム推論要求を満たすとともに、高画質のSRモデルを導出する。 探索処理の各イテレーションでモバイルデバイスの速度を測定する代わりに、コンパイラ最適化に組み込まれた速度モデルを用いて、SRブロックの推論遅延を様々な幅構成で予測し、より高速な収束を実現する。 提案フレームワークでは,モバイルプラットフォーム(Samsung Galaxy S21)のGPU/DSP上で,競合SR性能(PSNRおよびSSIM)で 720p の解像度を実現するためのリアルタイムSR推論を実現する。

Deep learning-based super-resolution (SR) has gained tremendous popularity in recent years because of its high image quality performance and wide application scenarios. However, prior methods typically suffer from large amounts of computations and huge power consumption, causing difficulties for real-time inference, especially on resource-limited platforms such as mobile devices. To mitigate this, we propose a compiler-aware SR neural architecture search (NAS) framework that conducts depth search and per-layer width search with adaptive SR blocks. The inference speed is directly taken into the optimization along with the SR loss to derive SR models with high image quality while satisfying the real-time inference requirement. Instead of measuring the speed on mobile devices at each iteration during the search process, a speed model incorporated with compiler optimizations is leveraged to predict the inference latency of the SR block with various width configurations for faster convergence. With the proposed framework, we achieve real-time SR inference for implementing 720p resolution with competitive SR performance (in terms of PSNR and SSIM) on GPU/DSP of mobile platforms (Samsung Galaxy S21).
翻訳日:2022-07-27 12:29:16 公開日:2022-07-25
# 構造化遷移を伴うゼロサムマルコフゲームにおける架空のプレイポリシー最適化

Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions ( http://arxiv.org/abs/2207.12463v1 )

ライセンス: Link先を確認
Shuang Qiu, Xiaohan Wei, Jieping Ye, Zhaoran Wang, Zhuoran Yang(参考訳) 固定環境での単一エージェントのポリシー最適化は、最近強化学習コミュニティで多くの研究の注目を集めているが、複数のエージェントが潜在的に競争的な環境で遊んでいる場合、理論的にはあまり知られていない。 我々は、構造化されているが未知の遷移を持つゼロサムマルコフゲームに対して、新しい架空のプレイポリシー最適化アルゴリズムを提案し、分析する。 遷移構造の2つのクラスを考える:因子付き独立遷移と単一コントローラ遷移。 どちらのシナリオでも、2エージェントの競争ゲームシナリオで$k$のエピソードの後、厳密な$\widetilde{\mathcal{o}}(\sqrt{k})$ regret boundsを証明します。 各エージェントの後悔は、すべてのポリシーシーケンスを観察した後、後から1つの最善のポリシーを選択できる敵に対して測定される。 本アルゴリズムは,非定常環境における同時ポリシー最適化の範囲内で,アッパー信頼境界(UCB)型楽観主義と架空の遊びの組み合わせを特徴とする。 両プレイヤーが提案したアルゴリズムを採用すると、それらの全体的な最適性ギャップは$\widetilde{\mathcal{o}}(\sqrt{k})$となる。

While single-agent policy optimization in a fixed environment has attracted a lot of research attention recently in the reinforcement learning community, much less is known theoretically when there are multiple agents playing in a potentially competitive environment. We take steps forward by proposing and analyzing new fictitious play policy optimization algorithms for zero-sum Markov games with structured but unknown transitions. We consider two classes of transition structures: factored independent transition and single-controller transition. For both scenarios, we prove tight $\widetilde{\mathcal{O}}(\sqrt{K})$ regret bounds after $K$ episodes in a two-agent competitive game scenario. The regret of each agent is measured against a potentially adversarial opponent who can choose a single best policy in hindsight after observing the full policy sequence. Our algorithms feature a combination of Upper Confidence Bound (UCB)-type optimism and fictitious play under the scope of simultaneous policy optimization in a non-stationary environment. When both players adopt the proposed algorithms, their overall optimality gap is $\widetilde{\mathcal{O}}(\sqrt{K})$.
翻訳日:2022-07-27 12:23:23 公開日:2022-07-25
# ビジュアルレゴマニュアルを機械実行可能なプランに翻訳する

Translating a Visual LEGO Manual to a Machine-Executable Plan ( http://arxiv.org/abs/2207.12572v1 )

ライセンス: Link先を確認
Ruocheng Wang, Yunzhi Zhang, Jiayuan Mao, Chin-Yi Cheng, Jiajun Wu(参考訳) 本研究では,人間設計者によって作成された画像ベースのステップ・バイ・ステップ・アセンブリマニュアルを機械解釈可能な命令に翻訳する問題について検討する。 私たちはこの問題を逐次予測タスクとして定式化し、各ステップでモデルがマニュアルを読み、現在の形状に追加するコンポーネントを見つけ、3dポーズを推測します。 この課題は、手動画像と実際の3Dオブジェクトとの2D-3D対応を確立すること、ステップで追加すべき新しいコンポーネントが以前のステップから構築されたオブジェクトであるため、見えない3Dオブジェクトの3Dポーズ推定を行う。 これら2つの課題に対処するために,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNet(Manual-to-Executable-Plan Network)を提案する。 キーとなるアイデアは、ニューラルネットワーク2Dキーポイント検出モジュールと2D-3Dプロジェクションアルゴリズムを統合して、高精度な予測と、見えないコンポーネントへの強力な一般化を実現することである。 mepnetは、新たに収集した3つのlegoマニュアルデータセットとminecraft houseデータセットの既存のメソッドを上回っている。

We study the problem of translating an image-based, step-by-step assembly manual created by human designers into machine-interpretable instructions. We formulate this problem as a sequential prediction task: at each step, our model reads the manual, locates the components to be added to the current shape, and infers their 3D poses. This task poses the challenge of establishing a 2D-3D correspondence between the manual image and the real 3D object, and 3D pose estimation for unseen 3D objects, since a new component to be added in a step can be an object built from previous steps. To address these two challenges, we present a novel learning-based framework, the Manual-to-Executable-Plan Network (MEPNet), which reconstructs the assembly steps from a sequence of manual images. The key idea is to integrate neural 2D keypoint detection modules and 2D-3D projection algorithms for high-precision prediction and strong generalization to unseen components. The MEPNet outperforms existing methods on three newly collected LEGO manual datasets and a Minecraft house dataset.
翻訳日:2022-07-27 12:20:18 公開日:2022-07-25
# p$-dknn:深部表現の統計的検証による分布外検出

$p$-DkNN: Out-of-Distribution Detection Through Statistical Testing of Deep Representations ( http://arxiv.org/abs/2207.12545v1 )

ライセンス: Link先を確認
Adam Dziedzic, Stephan Rabanser, Mohammad Yaghini, Armin Ale, Murat A. Erdogdu, Nicolas Papernot(参考訳) 確固とした信頼推定が欠如しているため、ニューラルネットワークは自律運転やヘルスケアといった安全クリティカルな領域では不十分である。 これらの設定では、アウト・オブ・ディストリビューション(OOD)データの予測を控える能力を持つことは、イン・ディストリビューションデータの正しく分類することと同じくらい重要である。 これは、訓練されたディープニューラルネットワークを取り、その中間の隠れ表現の類似性構造を分析し、エンドツーエンドモデル予測に関連する$p$-valuesを計算する新しい推論手順である。 直観的には、潜在表現で実行される統計的テストは分類器としてだけでなく、統計的によく確立された不確かさの推定にも役立つ。 $p$-DkNNはスケーラブルで、隠されたレイヤによって学習された表現の合成を活用し、ディープ表現学習を成功させる。 理論解析はニーマン・ピアソン分類を基盤とし,近年の選択的分類(削除オプション)の進歩と結びつける。 我々は,OOD入力の予測と分布内入力の精度の維持との間にある利点を実証する。 我々は、$p$-DkNNでアダプティブアタッカーが、最悪のOOD入力の形式である敵の例を作成し、入力に意味のある変更を導入する。

The lack of well-calibrated confidence estimates makes neural networks inadequate in safety-critical domains such as autonomous driving or healthcare. In these settings, having the ability to abstain from making a prediction on out-of-distribution (OOD) data can be as important as correctly classifying in-distribution data. We introduce $p$-DkNN, a novel inference procedure that takes a trained deep neural network and analyzes the similarity structures of its intermediate hidden representations to compute $p$-values associated with the end-to-end model prediction. The intuition is that statistical tests performed on latent representations can serve not only as a classifier, but also offer a statistically well-founded estimation of uncertainty. $p$-DkNN is scalable and leverages the composition of representations learned by hidden layers, which makes deep representation learning successful. Our theoretical analysis builds on Neyman-Pearson classification and connects it to recent advances in selective classification (reject option). We demonstrate advantageous trade-offs between abstaining from predicting on OOD inputs and maintaining high accuracy on in-distribution inputs. We find that $p$-DkNN forces adaptive attackers crafting adversarial examples, a form of worst-case OOD inputs, to introduce semantically meaningful changes to the inputs.
翻訳日:2022-07-27 12:18:08 公開日:2022-07-25
# AMLB: AutoMLベンチマーク

AMLB: an AutoML Benchmark ( http://arxiv.org/abs/2207.12560v1 )

ライセンス: Link先を確認
Pieter Gijsbers, Marcos L. P. Bueno, Stefan Coors, Erin LeDell, S\'ebastien Poirier, Janek Thomas, Bernd Bischl, Joaquin Vanschoren(参考訳) さまざまなAutoMLフレームワークを比較することは、非常に難しく、しばしば正しくない。 ベストプラクティスに従ったオープンで拡張可能なベンチマークを導入し、AutoMLフレームワークを比較する際の一般的なミスを回避する。 71の分類と33の回帰タスクで9つのよく知られたAutoMLフレームワークを徹底的に比較する。 AutoMLフレームワークの違いは、多面的な分析、モデルの正確性の評価、推論時間によるトレードオフ、フレームワークの失敗などで調査されている。 また、相対的なAutoMLフレームワークランキングが異なるタスクのサブセットを見つけるためにBradley-Terry木を使用します。 ベンチマークには、多くのAutoMLフレームワークを統合し、フレームワークのインストールやリソース割り当てから詳細な評価に至るまで、実証的な評価プロセスのエンドツーエンドを自動化するオープンソースツールが付属している。 このベンチマークでは、公開データセットを使用し、他のautomlフレームワークやタスクで簡単に拡張でき、最新の結果のwebサイトがある。

Comparing different AutoML frameworks is notoriously challenging and often done incorrectly. We introduce an open and extensible benchmark that follows best practices and avoids common mistakes when comparing AutoML frameworks. We conduct a thorough comparison of 9 well-known AutoML frameworks across 71 classification and 33 regression tasks. The differences between the AutoML frameworks are explored with a multi-faceted analysis, evaluating model accuracy, its trade-offs with inference time, and framework failures. We also use Bradley-Terry trees to discover subsets of tasks where the relative AutoML framework rankings differ. The benchmark comes with an open-source tool that integrates with many AutoML frameworks and automates the empirical evaluation process end-to-end: from framework installation and resource allocation to in-depth evaluation. The benchmark uses public data sets, can be easily extended with other AutoML frameworks and tasks, and has a website with up-to-date results.
翻訳日:2022-07-27 12:17:44 公開日:2022-07-25
# 神経構造プルーニングのトレーサビリティ

Trainability Preserving Neural Structured Pruning ( http://arxiv.org/abs/2207.12534v1 )

ライセンス: Link先を確認
Huan Wang and Yun Fu(参考訳) 最近のいくつかの研究では、ニューラルネットワーク構造化プルーニングの最終性能に微調整学習率が不可欠であることが実証されている。 さらなる研究により、ネットワークのトレーサビリティは解答を刈り取ることで崩壊し、微調整前にトレーサビリティを回復する必要があることが判明した。 既存の試みは、トレーニング性を改善するために、重み直交化を利用して動的等長性を達成することを提案する。 しかし、それらは線形MLPネットワークでのみ動作する。 トレーサビリティを維持または回復し、現代のディープネットワークにスケーラブルなフィルタプルーニング方法の開発方法は、いまだに解明されていない。 本稿では,スパルシフィケーション時のトレーサビリティを効果的に維持できる正規化型構造プルーニング法であるトレーサビリティ保存プルーニング(tpp)を提案する。 具体的には、tppは畳み込み型カーネルのグラム行列を正則化し、プルーニングされたフィルタを保留されたフィルタから分離する。 畳み込み層に加えて、bnパラメータを正規化し、トレーサビリティを向上させることも提案する。 経験的に、TPPは線形MLPネットワーク上での地中動力学的等尺性回復法と競合することができる。 非線形ネットワーク(ResNet56/VGG19、CIFARデータセット)では、他のソリューションよりも大きなマージンで優れています。 さらに、TPPはImageNet上の最新のディープネットワーク(ResNets)とも効果的に連携でき、多くのトップパフォーマンスのフィルタプルーニング手法と比較して、優れたパフォーマンスを提供する。 私たちの知る限りでは、これは大規模ディープニューラルネットワークの刈り取り時のトレーニング性を効果的に維持する最初のアプローチです。

Several recent works empirically find finetuning learning rate is critical to the final performance in neural network structured pruning. Further researches find that the network trainability broken by pruning answers for it, thus calling for an urgent need to recover trainability before finetuning. Existing attempts propose to exploit weight orthogonalization to achieve dynamical isometry for improved trainability. However, they only work for linear MLP networks. How to develop a filter pruning method that maintains or recovers trainability and is scalable to modern deep networks remains elusive. In this paper, we present trainability preserving pruning (TPP), a regularization-based structured pruning method that can effectively maintain trainability during sparsification. Specifically, TPP regularizes the gram matrix of convolutional kernels so as to de-correlate the pruned filters from the kept filters. Beside the convolutional layers, we also propose to regularize the BN parameters for better preserving trainability. Empirically, TPP can compete with the ground-truth dynamical isometry recovery method on linear MLP networks. On non-linear networks (ResNet56/VGG19, CIFAR datasets), it outperforms the other counterpart solutions by a large margin. Moreover, TPP can also work effectively with modern deep networks (ResNets) on ImageNet, delivering encouraging performance in comparison to many top-performing filter pruning methods. To our best knowledge, this is the first approach that effectively maintains trainability during pruning for the large-scale deep neural networks.
翻訳日:2022-07-27 12:15:06 公開日:2022-07-25
# ニューロモルフィックハードウェアを用いたアメリカ手話の静的ハンドジェスチャ認識

Static Hand Gesture Recognition for American Sign Language using Neuromorphic Hardware ( http://arxiv.org/abs/2207.12559v1 )

ライセンス: Link先を確認
MohammedReza Mohammadi, Peyton Chandarana, James Seekings, Sara Hendrix, Ramtin Zand(参考訳) 本稿では,ASL AlphabetとASL Digitsという2つの静的アメリカン手話(ASL)手話分類タスクのための4つのスパイクニューラルネットワーク(SNN)モデルを開発する。 SNNモデルはIntelのニューロモルフィックプラットフォームであるLoihiにデプロイされ、エッジコンピューティングデバイスであるIntel Neural Compute Stick 2 (NCS2)にデプロイされた同等のディープニューラルネットワーク(DNN)モデルと比較される。 我々は,2つのシステム間の総合的な比較を行い,精度,レイテンシ,消費電力,エネルギーについて検討した。 最高のDNNモデルはASL Alphabetデータセットで99.6%の精度を達成するが、最高のパフォーマンスのSNNモデルは99.44%の精度である。 ASL-Digitsデータセットでは、最高のSNNモデルは99.52%の精度でDNNのモデルよりも優れている。 さらに,NCS2と比較して,Loihiのニューロモルフィックハードウェア実装は消費電力とエネルギーの最大14.67倍,4.09倍の削減を実現した。

In this paper, we develop four spiking neural network (SNN) models for two static American Sign Language (ASL) hand gesture classification tasks, i.e., the ASL Alphabet and ASL Digits. The SNN models are deployed on Intel's neuromorphic platform, Loihi, and then compared against equivalent deep neural network (DNN) models deployed on an edge computing device, the Intel Neural Compute Stick 2 (NCS2). We perform a comprehensive comparison between the two systems in terms of accuracy, latency, power consumption, and energy. The best DNN model achieves an accuracy of 99.6% on the ASL Alphabet dataset, whereas the best performing SNN model has an accuracy of 99.44%. For the ASL-Digits dataset, the best SNN model outperforms all of its DNN counterparts with 99.52% accuracy. Moreover, our obtained experimental results show that the Loihi neuromorphic hardware implementations achieve up to 14.67x and 4.09x reduction in power consumption and energy, respectively, when compared to NCS2.
翻訳日:2022-07-27 12:14:38 公開日:2022-07-25
# winogavil: 視覚言語モデルに挑戦するgamified association benchmark

WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models ( http://arxiv.org/abs/2207.12576v1 )

ライセンス: Link先を確認
Yonatan Bitton, Nitzan Bitton Guetta, Ron Yosef, Yuval Elovici, Mohit Bansal, Gabriel Stanovsky, Roy Schwartz(参考訳) 視覚言語モデルは、視覚質問応答などのタスクでうまく機能する一方で、基本的な人間常識の推論スキルに関しては苦労している。 本研究では,視覚・言語関連を収集するオンラインゲームであるWinoGAViLについて紹介する。 人気カードゲームのコードネームにインスパイアされたスパイマスターは、いくつかの視覚候補に関連するテキストの手がかりを与え、別のプレイヤーはそれらを識別する必要があります。 人間のプレイヤーは、ライバルのaiモデルに挑戦するが、他の人間のプレイヤーによって解決できる協会を作ることで報われる。 私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間にとって直感的である(>90% Jaccard index)が、最先端のAIモデルでは挑戦的だ。 我々の分析とプレイヤーからのフィードバックは、収集された協会は、一般的な知識、常識、抽象など、多様な推論スキルを必要とすることを示している。 データセット、コード、インタラクティブなゲームをリリースし、より優れた関連性を持つモデルの開発に使用できる将来的なデータ収集を可能にします。

While vision-and-language models perform well on tasks such as visual question answering, they struggle when it comes to basic human commonsense reasoning skills. In this work, we introduce WinoGAViL: an online game to collect vision-and-language associations, (e.g., werewolves to a full moon), used as a dynamic benchmark to evaluate state-of-the-art models. Inspired by the popular card game Codenames, a spymaster gives a textual cue related to several visual candidates, and another player has to identify them. Human players are rewarded for creating associations that are challenging for a rival AI model but still solvable by other human players. We use the game to collect 3.5K instances, finding that they are intuitive for humans (>90% Jaccard index) but challenging for state-of-the-art AI models, where the best model (ViLT) achieves a score of 52%, succeeding mostly where the cue is visually salient. Our analysis as well as the feedback we collect from players indicate that the collected associations require diverse reasoning skills, including general knowledge, common sense, abstraction, and more. We release the dataset, the code and the interactive game, aiming to allow future data collection that can be used to develop models with better association abilities.
翻訳日:2022-07-27 12:14:19 公開日:2022-07-25
# ワクチンの分極的議論における情報の流れと物語のエンゲージメント力のダイナミクス

Dynamics of information flow and engaging power of narratives in the polarised debate on vaccines ( http://arxiv.org/abs/2207.12264v1 )

ライセンス: Link先を確認
Emanuele Brugnoli and Marco Delmastro(参考訳) 本研究では,ワクチン論争の複雑さを新たな包括的視点から考察する。 イタリア語の文脈に着目して,2016-2021年のオンライン情報のほとんどを,誤情報の評判とそうでないものの両方の情報源によって検証した。 信頼できる情報源は、より大きなニュースルームに頼り、誤報よりも多くのニュースをカバーできるが、対応する時系列の転送エントロピー解析により、ワクチンの主題において、前者が必ずしも後者を情報的に支配していないことが分かる。 実際、パンデミック以前の時代は、誤った情報がプロセスのリーダーであり、因果関係であっても、信頼できる情報源からのニュースよりも劇的にユーザーエンゲージメントを高めている。 この情報ギャップはCovid-19の流行で埋められたが、情報エコシステムのドライバーとしての信頼性の高い情報源の新たな役割は、ワクチンの誤情報によるユーザエンゲージメントを減少させる効果に部分的にしか及ばない。 以上の結果から,予防接種効果以外は,特にパンデミック期以前の反バックス説に十分な反抗力を持たず,科学的否定や陰謀説の信条の悪化に寄与していることが明らかとなった。 しかし同時に,誤情報の拡散に対する説得力のある反論提案の有効性も確認した。 実際、予防接種の有効性は、安全性の懸念、法的問題、ワクチン事業など他の分断的な議論と比較すると、パンデミック期間中に誤った情報によって議論された最も興味深い話題となっている。 機関的・主流的なコミュニケーションの長所と短所を強調することで、ワクチンの誤情報に対するキャンペーンの改善とターゲティングの改善に役立てることができる。

In this study we approach the complexity of the vaccine debate from a new and comprehensive perspective. Focusing on the Italian context, we examine almost all the online information produced in the 2016-2021 timeframe by both sources that have a reputation for misinformation and those that do not. Although reliable sources can rely on larger newsrooms and cover more news than misinformation ones, the transfer entropy analysis of the corresponding time series reveals that the former have not always informationally dominated the latter on the vaccine subject. Indeed, the pre-pandemic period sees misinformation establish itself as leader of the process, even in causal terms, and gain dramatically more user engagement than news from reliable sources. Despite this information gap was filled during the Covid-19 outbreak, the newfound leading role of reliable sources as drivers of the information ecosystem has only partially had a beneficial effect in reducing user engagement with misinformation on vaccines. Our results indeed show that, except for effectiveness of vaccination, reliable sources have never adequately countered the anti-vax narrative, specially in the pre-pandemic period, thus contributing to exacerbate science denial and belief in conspiracy theories. At the same time, however, they confirm the efficacy of assiduously proposing a convincing counter-narrative to misinformation spread. Indeed, effectiveness of vaccination turns out to be the least engaging topic discussed by misinformation during the pandemic period, when compared to other polarising arguments such as safety concerns, legal issues and vaccine business. By highlighting the strengths and weaknesses of institutional and mainstream communication, our findings can be a valuable asset for improving and better targeting campaigns against misinformation on vaccines.
翻訳日:2022-07-26 16:10:23 公開日:2022-07-25
# マルチモーダルヒト-ロボット相互作用における連続ErrP検出

Continuous ErrP detections during multimodal human-robot interaction ( http://arxiv.org/abs/2207.12267v1 )

ライセンス: Link先を確認
Su Kyoung Kim, Michael Maurus, Mathias Trampler, Marc Tabie, Elsa Andrea Kirchner(参考訳) ヒューマン・イン・ザ・ループのアプローチはロボットアプリケーションにとって非常に重要である。 本研究では,人間とロボットの対話をシミュレートしたロボットが,音声やジェスチャーで人間と対話するマルチモーダルヒューマン・ロボットインタラクション(hri)シナリオを実装した。 ロボットはその意図を口頭で発表し、ポインティングジェスチャーを用いて適切な動作を選択する。 人間のパートナーは、ロボットが選択した動作(ポインティングジェスチャー)とロボットの口頭発表(意図)が一致しているかを評価する。 ロボットの言語的発表がロボットの対応行動選択と一致しない場合、人間の脳波(eeg)における誤り関連電位(errps)を期待する。 脳波で明らかな、人間によるロボット行動のこれらの本質的評価は、リアルタイムで記録され、オンラインで継続的に分割され、非同期に分類される。 特徴選択のために,前向きと後向きのスライディングウィンドウの組み合わせで分類器を訓練する手法を提案する。 9名の被験者の平均分類成績は91%であった。 予想通り,被験者間では比較的高い変動率を示した。 将来的には、機能選択のカスタマイズを可能にするために、提案された機能選択アプローチが拡張される予定である。 この目的のために、分類性能におけるオブジェクト間変動を考慮した前方および後方のスライドウインドウの最良の組み合わせを自動選択する。 また,人間とロボットの対話性を改善するために,errpによるエラーケースにおける本質的ヒューマンエラー評価をインタラクティブ強化学習で活用する予定である。

Human-in-the-loop approaches are of great importance for robot applications. In the presented study, we implemented a multimodal human-robot interaction (HRI) scenario, in which a simulated robot communicates with its human partner through speech and gestures. The robot announces its intention verbally and selects the appropriate action using pointing gestures. The human partner, in turn, evaluates whether the robot's verbal announcement (intention) matches the action (pointing gesture) chosen by the robot. For cases where the verbal announcement of the robot does not match the corresponding action choice of the robot, we expect error-related potentials (ErrPs) in the human electroencephalogram (EEG). These intrinsic evaluations of robot actions by humans, evident in the EEG, were recorded in real time, continuously segmented online and classified asynchronously. For feature selection, we propose an approach that allows the combinations of forward and backward sliding windows to train a classifier. We achieved an average classification performance of 91% across 9 subjects. As expected, we also observed a relatively high variability between the subjects. In the future, the proposed feature selection approach will be extended to allow for customization of feature selection. To this end, the best combinations of forward and backward sliding windows will be automatically selected to account for inter-subject variability in classification performance. In addition, we plan to use the intrinsic human error evaluation evident in the error case by the ErrP in interactive reinforcement learning to improve multimodal human-robot interaction.
翻訳日:2022-07-26 16:09:51 公開日:2022-07-25
# OpenRAN Gym: PAWRプラットフォーム上でのAI/ML開発、データ収集、O-RANのテスト

OpenRAN Gym: AI/ML Development, Data Collection, and Testing for O-RAN on PAWR Platforms ( http://arxiv.org/abs/2207.12362v1 )

ライセンス: Link先を確認
Leonardo Bonati, Michele Polese, Salvatore D'Oro, Stefano Basagni, Tommaso Melodia(参考訳) Open Radio Access Network (RAN)アーキテクチャは、次世代のセルネットワークにおける相互運用性、オープン性、プログラム可能なデータ駆動制御を可能にする。 しかし、ヘテロジニアスなセルのデプロイメントとスケールをまたいで一般化し、そのような多様な環境でネットワークのパフォーマンスを最適化する効率的なソリューションの開発とテストは、まだほとんど研究されていない複雑なタスクである。 本稿では,次世代Open RANシステムのためのエンドツーエンドのデータ駆動制御ソリューションの,データ収集,設計,プロトタイピング,テストを行う,統一的でオープンかつO-RAN準拠の実験ツールボックスであるOpenRAN Gymを提案する。 OpenRAN Gymは、RAN統計とRAN制御のデータ収集のためのいくつかのソフトウェアフレームワークと、実験的な無線プラットフォームで動作するように調整された軽量なO-RAN RAN Intelligent Controller(RIC)に拡張され、統合されている。 まず、OpenRAN Gymのさまざまなアーキテクチャコンポーネントの概要を説明し、それが大規模なデータ収集や設計、人工知能と機械学習O-RAN準拠アプリケーション(xApps)のトレーニング、テストにどのように利用されているかを説明する。 次に、軟弱化したRAN上で開発されたxAppsをテストする方法を詳細に説明し、OpenRAN Gymで開発された2つのxAppsの例を示し、Colosseumテストベッドにデプロイされた7つのベースステーションと42のユーザを持つネットワークを制御する。 最後に,OpenRAN Gym on Colosseumで開発されたソリューションを,PAWRプログラムのArenaテストベッドやPhorWDER,COSMOSプラットフォームといった,実世界の異種無線プラットフォームにエクスポートする方法を示す。 OpenRAN Gymとそのソフトウェアコンポーネントはオープンソースであり、研究コミュニティで公開されている。

Open Radio Access Network (RAN) architectures will enable interoperability, openness and programmable data-driven control in next generation cellular networks. However, developing and testing efficient solutions that generalize across heterogeneous cellular deployments and scales, and that optimize network performance in such diverse environments is a complex task that is still largely unexplored. In this paper we present OpenRAN Gym, a unified, open, and O-RAN-compliant experimental toolbox for data collection, design, prototyping and testing of end-to-end data-driven control solutions for next generation Open RAN systems. OpenRAN Gym extends and combines into a unique solution several software frameworks for data collection of RAN statistics and RAN control, and a lightweight O-RAN near-real-time RAN Intelligent Controller (RIC) tailored to run on experimental wireless platforms. We first provide an overview of the various architectural components of OpenRAN Gym and describe how it is used to collect data and design, train and test artificial intelligence and machine learning O-RAN-compliant applications (xApps) at scale. We then describe in detail how to test the developed xApps on softwarized RANs and provide an example of two xApps developed with OpenRAN Gym that are used to control a network with 7 base stations and 42 users deployed on the Colosseum testbed. Finally, we show how solutions developed with OpenRAN Gym on Colosseum can be exported to real-world, heterogeneous wireless platforms, such as the Arena testbed and the POWDER and COSMOS platforms of the PAWR program. OpenRAN Gym and its software components are open-source and publicly-available to the research community.
翻訳日:2022-07-26 16:09:27 公開日:2022-07-25
# intelオプタン持続メモリにおけるgnnベースのレコメンダシステムベンチマーク

Benchmarking GNN-Based Recommender Systems on Intel Optane Persistent Memory ( http://arxiv.org/abs/2207.11918v1 )

ライセンス: Link先を確認
Yuwei Hu, Jiajie Li, Zhongming Yu, Zhiru Zhang(参考訳) グラフ上の機械学習タスクを処理する効果的な方法として登場したグラフニューラルネットワーク(GNN)は、リコメンデーションシステムの構築に新たなアプローチを導入している。 GNNベースのリコメンデータシステム(GNNRecSys)を大規模グラフでトレーニングすると、メモリフットプリントが大きくなり、典型的なサーバでは容易にDRAM容量を超える。 既存のソリューションでは、サブグラフを動的に構築するコストが高く、サブグラフ間で大きな冗長性を持つため、非効率な分散サブグラフトレーニングを採用している。 新たなintel optane persistence memoryは、単一マシンが低コストで最大6tbのメモリを持つことができるため、シングルマシンのgnnrecsysトレーニングが実現可能となり、分散トレーニングの非効率性が排除される。 GNNRecSysでOptaneを使用する際の大きな懸念点は、DRAMと比較してOptaneの帯域幅が比較的低いことである。 この制限は特に、GNNRecSysワークロードの高性能化に寄与する可能性がある。 GNNRecSysのトレーニングにOptaneが適しているかどうかを理解するため、GNNRecSysワークロードの詳細な特徴と総合的なベンチマーク研究を行う。 ベンチマークの結果から,OptaneをベースとしたシングルマシンGNNRecSysトレーニングは,特に深層GNNモデルを扱う場合,分散トレーニングよりも優れていた。 我々は、スピードアップの出所を分析し、gnnrecsysワークロードのオプタンの設定方法に関するガイダンスを提供し、さらなる最適化の機会について論じる。

Graph neural networks (GNNs), which have emerged as an effective method for handling machine learning tasks on graphs, bring a new approach to building recommender systems, where the task of recommendation can be formulated as the link prediction problem on user-item bipartite graphs. Training GNN-based recommender systems (GNNRecSys) on large graphs incurs a large memory footprint, easily exceeding the DRAM capacity on a typical server. Existing solutions resort to distributed subgraph training, which is inefficient due to the high cost of dynamically constructing subgraphs and significant redundancy across subgraphs. The emerging Intel Optane persistent memory allows a single machine to have up to 6 TB of memory at an affordable cost, thus making single-machine GNNRecSys training feasible, which eliminates the inefficiencies in distributed training. One major concern of using Optane for GNNRecSys is Optane's relatively low bandwidth compared with DRAMs. This limitation can be particularly detrimental to achieving high performance for GNNRecSys workloads since their dominant compute kernels are sparse and memory access intensive. To understand whether Optane is a good fit for GNNRecSys training, we perform an in-depth characterization of GNNRecSys workloads and a comprehensive benchmarking study. Our benchmarking results show that when properly configured, Optane-based single-machine GNNRecSys training outperforms distributed training by a large margin, especially when handling deep GNN models. We analyze where the speedup comes from, provide guidance on how to configure Optane for GNNRecSys workloads, and discuss opportunities for further optimizations.
翻訳日:2022-07-26 16:05:22 公開日:2022-07-25
# ConceptBeam: 概念駆動型ターゲット音声抽出

ConceptBeam: Concept Driven Target Speech Extraction ( http://arxiv.org/abs/2207.11964v1 )

ライセンス: Link先を確認
Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada, and Kunio Kashino(参考訳) 本稿では,意味情報に基づく音声抽出のための新しい枠組みであるconceptbeamを提案する。 ターゲット音声抽出手段は、ターゲット話者の音声を混合して抽出する。 典型的なアプローチは、高調波構造や到着方向などの音声信号の特性を利用したものである。 対照的に、ConceptBeamは意味的なヒントでこの問題に取り組む。 具体的には,ある概念,すなわち興味のある話題について話す話者の発話を,画像や音声などの概念特定器を用いて抽出する。 この新たな問題を解決することは、会話で議論される特定のトピックに焦点を当てたリスニングシステムのような革新的なアプリケーションへの扉を開くことになる。 キーワードとは異なり、概念は抽象概念であり、ターゲット概念を直接表現することは困難である。 本手法では,概念指定子を共有埋め込み空間にマッピングすることにより,概念を意味埋め込みとして符号化する。 このモダリティ非依存空間は、画像とそれらの音声キャプションからなるペアデータを用いて深度測定学習によって構築することができる。 我々は、モダリティに依存した情報、すなわち混合中の音声セグメント、および特定のモダリティに依存しない概念をブリッジするためにそれを使用する。 提案手法の実証として,音声キャプションに関連する一連の画像を用いて実験を行った。 すなわち、これらの音声キャプションから音声混合を生成し、その画像や音声信号を用いて概念特定を行う。 識別されたセグメントの音響特性を用いて対象音声を抽出した。 本研究では,認識システムから得られたキーワードをベースとしたConceptBeamと音源分離に基づく2つの手法を比較する。 概念ビームは, 基本法を明らかに上回り, 意味表現に基づく音声を効果的に抽出することを示す。

We propose a novel framework for target speech extraction based on semantic information, called ConceptBeam. Target speech extraction means extracting the speech of a target speaker in a mixture. Typical approaches have been exploiting properties of audio signals, such as harmonic structure and direction of arrival. In contrast, ConceptBeam tackles the problem with semantic clues. Specifically, we extract the speech of speakers speaking about a concept, i.e., a topic of interest, using a concept specifier such as an image or speech. Solving this novel problem would open the door to innovative applications such as listening systems that focus on a particular topic discussed in a conversation. Unlike keywords, concepts are abstract notions, making it challenging to directly represent a target concept. In our scheme, a concept is encoded as a semantic embedding by mapping the concept specifier to a shared embedding space. This modality-independent space can be built by means of deep metric learning using paired data consisting of images and their spoken captions. We use it to bridge modality-dependent information, i.e., the speech segments in the mixture, and the specified, modality-independent concept. As a proof of our scheme, we performed experiments using a set of images associated with spoken captions. That is, we generated speech mixtures from these spoken captions and used the images or speech signals as the concept specifiers. We then extracted the target speech using the acoustic characteristics of the identified segments. We compare ConceptBeam with two methods: one based on keywords obtained from recognition systems and another based on sound source separation. We show that ConceptBeam clearly outperforms the baseline methods and effectively extracts speech based on the semantic representation.
翻訳日:2022-07-26 16:04:50 公開日:2022-07-25
# t分布を用いた音声感情認識のためのラベル不確かさモデルと予測

Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions ( http://arxiv.org/abs/2207.12135v1 )

ライセンス: Link先を確認
Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkmann(参考訳) 異なる人々が他者の感情表現を異なる形で知覚するので、覚醒的・無礼的なアノテーションは主観的である。 これに対処するため、これらの感情アノテーションは通常、複数のアノテーションによって収集され、アノテータ間で平均化され、覚醒と評価のためのラベルを得る。 しかし,平均値以外にラベルの不確実性も重要であり,自動感情認識のためのモデル化や予測も行なわなければならない。 文献では、単純さのため、ラベルの不確実性モデリングは一般に、収集されたアノテーションに対するガウス的仮定でアプローチされる。 しかし,リソースの制約によりアノテーションの数が比較的少ないため,ガウス的アプローチはやや粗い仮定である。 対照的に、本研究では、利用可能なアノテーションの数を考慮できる学生のt分布を用いてラベル分布をモデル化することを提案する。 このモデルでは、対応するkullback-leiblerの発散に基づく損失関数を導出し、それを用いて感情ラベルの分布を推定し、平均と不確かさを推定する。 定性的かつ定量的な分析により,ガウス分布上のt分布の利点を示す。 提案手法をAVEC'16データセット上で検証する。 その結果、t分布に基づくアプローチは、最先端の不確実性モデリングによるガウス的アプローチよりも改善され、最適なコンバージェンスとさらに高速なコンバージェンスが得られた。

As different people perceive others' emotional expressions differently, their annotation in terms of arousal and valence are per se subjective. To address this, these emotion annotations are typically collected by multiple annotators and averaged across annotators in order to obtain labels for arousal and valence. However, besides the average, also the uncertainty of a label is of interest, and should also be modeled and predicted for automatic emotion recognition. In the literature, for simplicity, label uncertainty modeling is commonly approached with a Gaussian assumption on the collected annotations. However, as the number of annotators is typically rather small due to resource constraints, we argue that the Gaussian approach is a rather crude assumption. In contrast, in this work we propose to model the label distribution using a Student's t-distribution which allows us to account for the number of annotations available. With this model, we derive the corresponding Kullback-Leibler divergence based loss function and use it to train an estimator for the distribution of emotion labels, from which the mean and uncertainty can be inferred. Through qualitative and quantitative analysis, we show the benefits of the t-distribution over a Gaussian distribution. We validate our proposed method on the AVEC'16 dataset. Results reveal that our t-distribution based approach improves over the Gaussian approach with state-of-the-art uncertainty modeling results in speech-based emotion recognition, along with an optimal and even faster convergence.
翻訳日:2022-07-26 16:04:28 公開日:2022-07-25
# 高次元データ可視化のためのlalacian-based cluster-contractive t-sne

Laplacian-based Cluster-Contractive t-SNE for High Dimensional Data Visualization ( http://arxiv.org/abs/2207.12214v1 )

ライセンス: Link先を確認
Yan Sun, Yi Han, Jicong Fan(参考訳) 低次元空間における高次元データの表現を目的とし、隠れた有用な情報を抽出したり、データの視覚的理解や解釈を容易にする。 しかしながら、高次元データに暗黙的に含まれている潜在的なクラスタ情報を考慮する者は少ない。 本稿では,2次元散乱プロットとして高次元データを可視化する手法の1つである t-SNE に基づく新しいグラフレイアウト非線形次元削減手法 LaptSNE を提案する。 特に、laptsneはグラフラプラシアンの固有値情報を利用して、高次元空間から低次元空間への局所的および大域的な構造の保存を学ぶ際に、低次元埋め込みのポテンシャルクラスターを縮小する。 正規化対称ラプラシアンの固有値が決定変数の関数であるため、提案されたモデルを解くのは非自明である。 本稿では,laptsneの最適化問題を解くための収束保証付きメジャー化最小化アルゴリズムを提案し,ラプラシアン合成目的の最適化を考える際に広く注目される勾配を解析的に計算する方法を示す。 本手法は, 視覚的および定式的な定量的測定により, 最先端手法との形式的比較により評価した。 その結果, t-SNE や UMAP などのベースラインよりも本手法の方が優れていることが示された。 また,本手法をスペクトルクラスタリングに拡張し,高精度かつパラメータフリーなクラスタリングアルゴリズムを構築し,実際のアプリケーションで高い信頼性と利便性を実現する。

Dimensionality reduction techniques aim at representing high-dimensional data in low-dimensional spaces to extract hidden and useful information or facilitate visual understanding and interpretation of the data. However, few of them take into consideration the potential cluster information contained implicitly in the high-dimensional data. In this paper, we propose LaptSNE, a new graph-layout nonlinear dimensionality reduction method based on t-SNE, one of the best techniques for visualizing high-dimensional data as 2D scatter plots. Specifically, LaptSNE leverages the eigenvalue information of the graph Laplacian to shrink the potential clusters in the low-dimensional embedding when learning to preserve the local and global structure from high-dimensional space to low-dimensional space. It is nontrivial to solve the proposed model because the eigenvalues of normalized symmetric Laplacian are functions of the decision variable. We provide a majorization-minimization algorithm with convergence guarantee to solve the optimization problem of LaptSNE and show how to calculate the gradient analytically, which may be of broad interest when considering optimization with Laplacian-composited objective. We evaluate our method by a formal comparison with state-of-the-art methods, both visually and via established quantitative measurements. The results demonstrate the superiority of our method over baselines such as t-SNE and UMAP. We also extend our method to spectral clustering and establish an accurate and parameter-free clustering algorithm, which provides us high reliability and convenience in real applications.
翻訳日:2022-07-26 16:01:16 公開日:2022-07-25
# SecretGen: 分散識別による事前学習モデルのプライバシ回復

SecretGen: Privacy Recovery on Pre-Trained Models via Distribution Discrimination ( http://arxiv.org/abs/2207.12263v1 )

ライセンス: Link先を確認
Zhuowen Yuan, Fan Wu, Yunhui Long, Chaowei Xiao, Bo Li(参考訳) 事前学習されたモデルの利用によるトランスファー学習は、機械学習コミュニティのトレンドになりつつある。 その結果、多くの事前訓練されたモデルがオンラインでリリースされ、さらなる研究が促進される。 しかし、これらの事前訓練されたモデルが、彼らのトレーニングデータのプライバシーに敏感な情報を漏洩するかどうかについて、大きな懸念を抱いている。 そこで,本稿では,「事前学習したモデルから効果的に個人情報を回収できるのか?そのような機密情報を回収するのに十分な条件は何か?」という問いに答える。 まず,プライベートなトレーニング分布と他の分布を区別できる異なる統計情報を探索する。 そこで本研究では,個人情報を効果的に復元する新しいデータ復元フレームワークであるsecretgenを提案する。 対象とするリカバリインスタンスの真の予測に基づいてプライベートデータをリカバリできる以前の方法と比較して、secretgenはそのような事前知識を必要としないため、より実用的になる。 さまざまなシナリオ下でさまざまなデータセットに対して広範な実験を行い、SecretGenを他のベースラインと比較し、異なる補助情報の影響をよりよく理解するための体系的なベンチマークと最適化操作を提供します。 真のクラス予測に関する事前知識がなければ、SecretGenは、そのような事前知識を利用するものと比較して、同様のパフォーマンスでプライベートデータを復元できることを示す。 事前の知識が与えられた場合、SecretGenはベースラインメソッドを大幅に上回る。 また,プライバシに敏感なアプリケーションのモデル選択を支援する,事前学習モデルのプライバシ脆弱性をさらに定量化するための定量的指標をいくつか提案する。 私たちのコードは、https://github.com/AI-Secure/SecretGen.comで利用可能です。

Transfer learning through the use of pre-trained models has become a growing trend for the machine learning community. Consequently, numerous pre-trained models are released online to facilitate further research. However, it raises extensive concerns on whether these pre-trained models would leak privacy-sensitive information of their training data. Thus, in this work, we aim to answer the following questions: "Can we effectively recover private information from these pre-trained models? What are the sufficient conditions to retrieve such sensitive information?" We first explore different statistical information which can discriminate the private training distribution from other distributions. Based on our observations, we propose a novel private data reconstruction framework, SecretGen, to effectively recover private information. Compared with previous methods which can recover private data with the ground true prediction of the targeted recovery instance, SecretGen does not require such prior knowledge, making it more practical. We conduct extensive experiments on different datasets under diverse scenarios to compare SecretGen with other baselines and provide a systematic benchmark to better understand the impact of different auxiliary information and optimization operations. We show that without prior knowledge about true class prediction, SecretGen is able to recover private data with similar performance compared with the ones that leverage such prior knowledge. If the prior knowledge is given, SecretGen will significantly outperform baseline methods. We also propose several quantitative metrics to further quantify the privacy vulnerability of pre-trained models, which will help the model selection for privacy-sensitive applications. Our code is available at: https://github.com/AI-secure/SecretGen.
翻訳日:2022-07-26 16:00:50 公開日:2022-07-25
# すべての領域の裏側にシフトがある:パノラマ意味セグメンテーションのための歪み認識視覚トランスフォーマーの適用

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2207.11860v1 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Hao Shi, Simon Rei{\ss}, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen(参考訳) 本稿では,パノラマ意味セグメンテーション(panoramic semantic segmentation,パノラマ意味セグメンテーション)について述べる。 パノラマセグメンテーションは,(1)パノラマ上の画像歪みと物体変形,(2)パノラマセグメンタの訓練のためのアノテーションの欠如,の2つの重要な課題により未検討である。 そこで本研究では,パノラマセマンティクスセグメンテーション(trans4pass)アーキテクチャのためのトランスフォーマーを提案する。 まず,DPE(Deformable Patch Embedding)モジュールとDMLP(Deformable MLP)モジュールを備えるTrans4PASSは,物体の変形や画像の歪みを,(適応前や後などで)設計上,任意の場所(浅層や深層)で処理することができる。 さらに,dmlpv2と並列トークン混合を特徴とする改良されたtrans4pass+モデルについても紹介する。 第2に,教師なしドメイン適応のための相互原型適応 (mpa) 戦略を提案する。 第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を持つ新しいデータセット(SynPASS)を作成し、360{\deg}画像のSyn2Real適応スキームを探索する。 室内および屋外のシナリオをカバーする広範な実験を行い,各シナリオをpin2panおよびsyn2real regimensを用いて検討した。 Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/jamycheung/trans4passで入手できる。

In this paper, we address panoramic semantic segmentation, which provides a full-view and dense-pixel understanding of surroundings in a holistic way. Panoramic segmentation is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of annotations for training panoramic segmenters. To tackle these problems, we propose a Transformer for Panoramic Semantic Segmentation (Trans4PASS) architecture. First, to enhance distortion awareness, Trans4PASS, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLP) modules, is capable of handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels) by design. We further introduce the upgraded Trans4PASS+ model, featuring DMLPv2 with parallel token mixing to improve the flexibility and generalizability in modeling discriminative cues. Second, we propose a Mutual Prototypical Adaptation (MPA) strategy for unsupervised domain adaptation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images to explore a Synthetic-to-Real (Syn2Real) adaptation scheme in 360{\deg} imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.
翻訳日:2022-07-26 16:00:25 公開日:2022-07-25
# 歪み最小化のためのリーマン幾何学的アプローチとその応用

Riemannian Geometry Approach for Minimizing Distortion and its Applications ( http://arxiv.org/abs/2207.12038v1 )

ライセンス: Link先を確認
Dror Ozeri(参考訳) Affine 変換 $T$ が与えられたとき、Fisher 歪み $Dist_F(T)$ を定義する。 フィッシャー歪はリーマン計量構造を有しており、与えられたアフィン変換の集合 $\{t_{i}\}_{i=1}^n$ に対して平均歪変換を求めるアルゴリズムを提供し、全体的な歪み$\sum_{i=1}^ndist_f^{2}(t^{-1}t_{i})を最小化するアフィン変換$t$を求める。 例えば、アフィンパノラマのレンダリングにこの変換を適用します。

Given an affine transformation $T$, we define its Fisher distortion $Dist_F(T)$. We show that the Fisher distortion has Riemannian metric structure and provide an algorithm for finding mean distorting transformation -- namely -- for a given set $\{T_{i}\}_{i=1}^N$ of affine transformations, find an affine transformation $T$ that minimize the overall distortion $\sum_{i=1}^NDist_F^{2}(T^{-1}T_{i}).$ The mean distorting transformation can be useful in some fields -- in particular, we apply it for rendering affine panoramas.
翻訳日:2022-07-26 15:59:48 公開日:2022-07-25
# SoC FPGAに実装した無人着陸アルゴリズムのループ内ハードウェアシミュレーション

Hardware-in-the-loop simulation of a UAV autonomous landing algorithm implemented in SoC FPGA ( http://arxiv.org/abs/2207.12198v1 )

ライセンス: Link先を確認
Hubert Szolc and Tomasz Kryjak(参考訳) 本論文では,異種SoC FPGAプラットフォーム上に実装された無人航空機(UAV)制御アルゴリズムのハードウェア・イン・ザ・ループ(HiL)シミュレーションシステムを提案する。 PC上で動作するAirSimシミュレータとAMD XilinxのZynq SoCチップを搭載したArty Z7開発ボードが使用された。 通信はシリアルUSBリンクを介して行われた。 特別にマークされた着陸路への自律着陸をケーススタディとして選択した。 着陸地点検出アルゴリズムがZynq SoCプラットフォーム上に実装された。 これにより、1280 x 720 @60 fpsのビデオストリームをリアルタイムで処理できる。 性能テストの結果、システムは正しく動作し、制御の安定性に悪影響を及ぼす遅延はないことがわかった。 提案する概念は比較的単純で実装コストの低いものである。 同時に、組込みプラットフォームに実装されたUAVの様々な種類のハイレベル認識および制御アルゴリズムをテストするために応用できる。 githubで開発されたコードには、pc上で動作するpythonスクリプトと、arty z7上で動作するcコードの両方が含まれています。

This paper presents a system for hardware-in-the-loop (HiL) simulation of unmanned aerial vehicle (UAV) control algorithms implemented on a heterogeneous SoC FPGA computing platforms. The AirSim simulator running on a PC and an Arty Z7 development board with a Zynq SoC chip from AMD Xilinx were used. Communication was carried out via a serial USB link. An application for autonomous landing on a specially marked landing strip was selected as a case study. A landing site detection algorithm was implemented on the Zynq SoC platform. This allowed processing a 1280 x 720 @ 60 fps video stream in real time. Performed tests showed that the system works correctly and there are no delays that could negatively affect the stability of the control. The proposed concept is characterised by relative simplicity and low implementation cost. At the same time, it can be applied to test various types of high-level perception and control algorithms for UAV implemented on embedded platforms. We provide the code developed on GitHub, which includes both Python scripts running on the PC and C code running on Arty Z7.
翻訳日:2022-07-26 15:59:36 公開日:2022-07-25
# マルチグリッドのための学習緩和

Learning Relaxation for Multigrid ( http://arxiv.org/abs/2207.11255v1 )

ライセンス: Link先を確認
Dmitry Kuznichov(参考訳) 過去10年間、ニューラルネットワーク(nns)は、自動運転車、医療診断、検索エンジン、さらにはアート創造など、多くのエンジニアリング分野で非常に効果的なツールであることが証明されてきた。 実際、NNは伝統的なアルゴリズムを著しく上回っている。 最近注目を浴びている分野の1つは、数値解法、特に離散偏微分方程式の設計にnnsを使うことである。 近年の論文では、離散偏微分方程式や他のスパース行列問題を解くための主要な計算ツールであるマルチグリッド法の開発にnnsを採用することを検討している。 我々はこれらの新しいアイデアを拡張し、この文脈ではあまり注目されていないマルチグリッドアルゴリズムの重要な構成要素である、いわゆる緩和演算子(スムーサーとも呼ばれる)に焦点を当てる。 NNを用いてランダムな係数を持つ拡散作用素のアンサンブル、ヤコビ型スムース、および4Color GaussSeidelスムースのために緩和パラメータを学習するためのアプローチを検討する。 後者は極めて効率的で、連続したオーバーリラクゼーション(sor)スムーザの並列化が容易である。 さらに,2グリッド法とGerlfandの公式を損失関数として,比較的小さな格子上での学習緩和パラメータを容易に実装できることを示す。 これらの手法は, ほぼ最適パラメータを効率的に生成し, 大規模グリッド上での乗算アルゴリズムの収束率を大幅に向上させる。

During the last decade, Neural Networks (NNs) have proved to be extremely effective tools in many fields of engineering, including autonomous vehicles, medical diagnosis and search engines, and even in art creation. Indeed, NNs often decisively outperform traditional algorithms. One area that is only recently attracting significant interest is using NNs for designing numerical solvers, particularly for discretized partial differential equations. Several recent papers have considered employing NNs for developing multigrid methods, which are a leading computational tool for solving discretized partial differential equations and other sparse-matrix problems. We extend these new ideas, focusing on so-called relaxation operators (also called smoothers), which are an important component of the multigrid algorithm that has not yet received much attention in this context. We explore an approach for using NNs to learn relaxation parameters for an ensemble of diffusion operators with random coefficients, for Jacobi type smoothers and for 4Color GaussSeidel smoothers. The latter yield exceptionally efficient and easy to parallelize Successive Over Relaxation (SOR) smoothers. Moreover, this work demonstrates that learning relaxation parameters on relatively small grids using a two-grid method and Gelfand's formula as a loss function can be implemented easily. These methods efficiently produce nearly-optimal parameters, thereby significantly improving the convergence rate of multigrid algorithms on large grids.
翻訳日:2022-07-26 15:59:10 公開日:2022-07-25
# ビッグモデルトレーニングへの取り組み

Dive into Big Model Training ( http://arxiv.org/abs/2207.11912v1 )

ライセンス: Link先を確認
Qinghua Liu, Yuxiang Jiang(参考訳) モデルサイズの増加とパフォーマンスの継続的な改善は、ビッグモデル時代の到来を告げるものだ。 本報告では,訓練対象と訓練方法に潜り込み,ビッグモデルトレーニングがどのように機能するかを考察する。 具体的には、トレーニング対象は、Webスケールのデータを活用して、自己教師付き学習に基づく極めて有能で信じられないほど大きなモデルを開発する方法、そして分散トレーニングに基づくトレーニング方法論は、大規模なトレーニングを現実にする方法を説明する。 既存のトレーニング方法論を,トレーニング並列性,メモリ節約技術,モデルスパーシティ設計の3つのカテゴリにまとめる。 並列性の訓練は、発生する並列性の次元に応じて、データ、パイプライン、テンソル並列性に分類される。 メモリセーブ技術は直交的であり、トレーニング並列処理を補完する。 モデル空間設計は、一定の計算コストでモデルサイズをさらにスケールアップする。 大きなモデルのトレーニングの継続的な更新リストは、https://github.com/qhliu26/bm-trainingで提供されている。

The increasing scale of model size and continuous improvement of performance herald the arrival of the Big Model era. In this report, we explore what and how the big model training works by diving into training objectives and training methodologies. Specifically,training objectives describe how to leverage web-scale data to develop extremely capable and incredibly large models based on self-supervised learning, and training methodologies which are based on distributed training describe how to make big model training a reality. We summarize the existing training methodologies into three main categories: training parallelism, memory-saving technologies, and model sparsity design. Training parallelism can be categorized into data, pipeline, and tensor parallelism according to the dimension of parallelism that takes place. Memory-saving technologies are orthogonal and complementary to training parallelism. And model sparsity design further scales up the model size with a constant computational cost. A continuously updated paper list of big model training is provided at https://github.com/qhliu26/BM-Training.
翻訳日:2022-07-26 15:52:47 公開日:2022-07-25
# 機械学習のためのディファレンシャルテスト:深層学習以外の分類アルゴリズムの解析

Differential testing for machine learning: an analysis for classification algorithms beyond deep learning ( http://arxiv.org/abs/2207.11976v1 )

ライセンス: Link先を確認
Steffen Herbold, Steffen Tunkel(参考訳) コンテキスト: ディファレンシャルテストは、同じアルゴリズムの異なる実装を使用して、ソフトウェアテストの結果を比較する有用なアプローチである。 近年、この手法はディープラーニングフレームワークのテストキャンペーンに成功している。 目的: ディープラーニング以外のディファレンシャルテストの適用に関する知識はほとんどない。 この記事では、このギャップを分類アルゴリズムで埋めたいと思います。 方法:Scikit-learn,Weka,Spark MLlib,Caretを用いたケーススタディを行い,複数のフレームワークでどのアルゴリズムが利用可能か,同一の振る舞いを示すべきアルゴリズムのペアを特定することで実現可能性,特定したペアのテストを実行し,偏差を分析することでの有効性を考察した。 結果: 一般的なアルゴリズムには大きな可能性を見出しましたが、他のフレームワークで同じ設定を判断できない場合が多いため、実現可能性には限界があります。 実現可能なテストの実行により、スコアとクラスに多くの偏差があることが判明した。 クラスの統計的重要性に基づく寛大なアプローチだけが、大量のテスト失敗につながるわけではない。 結論: ディープラーニング以外の差分テストの可能性は、機械学習ライブラリの品質の研究に限られているように思われる。 実践者は、実装に関する深い知識がある場合、特にクラスの重大な違いしか考慮しない粗いオラクルが十分である場合、まだこのアプローチを使うことがある。

Context: Differential testing is a useful approach that uses different implementations of the same algorithms and compares the results for software testing. In recent years, this approach was successfully used for test campaigns of deep learning frameworks. Objective: There is little knowledge on the application of differential testing beyond deep learning. Within this article, we want to close this gap for classification algorithms. Method: We conduct a case study using Scikit-learn, Weka, Spark MLlib, and Caret in which we identify the potential of differential testing by considering which algorithms are available in multiple frameworks, the feasibility by identifying pairs of algorithms that should exhibit the same behavior, and the effectiveness by executing tests for the identified pairs and analyzing the deviations. Results: While we found a large potential for popular algorithms, the feasibility seems limited because often it is not possible to determine configurations that are the same in other frameworks. The execution of the feasible tests revealed that there is a large amount of deviations for the scores and classes. Only a lenient approach based on statistical significance of classes does not lead to a huge amount of test failures. Conclusions: The potential of differential testing beyond deep learning seems limited for research into the quality of machine learning libraries. Practitioners may still use the approach if they have deep knowledge about implementations, especially if a coarse oracle that only considers significant differences of classes is sufficient.
翻訳日:2022-07-26 15:52:32 公開日:2022-07-25
# 表象的倫理モデル校正

Representational Ethical Model Calibration ( http://arxiv.org/abs/2207.12043v1 )

ライセンス: Link先を確認
Robert Carruthers, Isabel Straw, James K Ruffle, Daniel Herron, Amy Nelson, Danilo Bzdok, Delmiro Fernandez-Reyes, Geraint Rees, and Parashkev Nachev(参考訳) エクイティは医療の倫理の基本であると広く考えられている。 臨床的意思決定の文脈では、個々の患者の管理を導く知性(エビデンスベースまたは直感的)の比較忠実度に依存している。 現代の機械学習の分断的な力によって近年注目されているが、そのような認識的平等は、伝統的でも革新的でも、あらゆる決定指導の文脈で生じている。 しかし、その量化に関する一般的な枠組みは、保証なしに、現在存在しない。 ここでは,人口の多様性を最大化するために作られた多次元のアイデンティティを学習する上で評価されるモデル忠実性の観点から認識的等式を定式化し,表現的倫理モデル校正のための包括的枠組みを導入する。 英国バイオバンクの大規模マルチモーダルデータに基づくフレームワークを用いて、人口の多様な表現を導出し、モデル性能を定量化し、レスポンシブ修復を行う。 我々は、医療における疫学的株式の定量化と保証を原則とした解決策として、研究、臨床、規制分野にまたがる応用を提供する。

Equity is widely held to be fundamental to the ethics of healthcare. In the context of clinical decision-making, it rests on the comparative fidelity of the intelligence -- evidence-based or intuitive -- guiding the management of each individual patient. Though brought to recent attention by the individuating power of contemporary machine learning, such epistemic equity arises in the context of any decision guidance, whether traditional or innovative. Yet no general framework for its quantification, let alone assurance, currently exists. Here we formulate epistemic equity in terms of model fidelity evaluated over learnt multi-dimensional representations of identity crafted to maximise the captured diversity of the population, introducing a comprehensive framework for Representational Ethical Model Calibration. We demonstrate use of the framework on large-scale multimodal data from UK Biobank to derive diverse representations of the population, quantify model performance, and institute responsive remediation. We offer our approach as a principled solution to quantifying and assuring epistemic equity in healthcare, with applications across the research, clinical, and regulatory domains.
翻訳日:2022-07-26 15:52:09 公開日:2022-07-25
# 適応非同期制御のためのメタニューラル常微分方程式

Meta Neural Ordinary Differential Equations For Adaptive Asynchronous Control ( http://arxiv.org/abs/2207.12062v1 )

ライセンス: Link先を確認
Achkan Salehi, Steffen R\"uhl, Stephane Doncieux(参考訳) モデルに基づく強化学習と制御は、ロボット工学を含む様々な意思決定問題領域において大きな可能性を示している。 しかし、現実世界のロボットシステムは、その方法の適用性を制限する課題をしばしば提示する。 特に、多くの産業システムで共同で発生する2つの問題に留意する。 1)不規則/非同期観測と行動 2) あるエピソードから別のエピソード(例えば、様々なペイロード慣性特性)への環境ダイナミクスの劇的な変化。 本稿では,連続時間予測と制御のためのメタラーニング適応ダイナミクスモデルを用いて,それらの困難を克服する汎用フレームワークを提案する。 シミュレーション産業用ロボットにおける提案手法の評価を行った。 実際のロボットシステムの評価は、このプレプリントの今後のイテレーションで追加される。

Model-based Reinforcement Learning and Control have demonstrated great potential in various sequential decision making problem domains, including in robotics settings. However, real-world robotics systems often present challenges that limit the applicability of those methods. In particular, we note two problems that jointly happen in many industrial systems: 1) Irregular/asynchronous observations and actions and 2) Dramatic changes in environment dynamics from an episode to another (e.g. varying payload inertial properties). We propose a general framework that overcomes those difficulties by meta-learning adaptive dynamics models for continuous-time prediction and control. We evaluate the proposed approach on a simulated industrial robot. Evaluations on real robotic systems will be added in future iterations of this pre-print.
翻訳日:2022-07-26 15:51:48 公開日:2022-07-25
# 参加型フェデレーション学習における協調 : ゲーム理論の視点から

Collaboration in Participant-Centric Federated Learning: A Game-Theoretical Perspective ( http://arxiv.org/abs/2207.12030v1 )

ライセンス: Link先を確認
Guangjing Huang and Xu Chen and Tao Ouyang and Qian Ma and Lin Chen and Junshan Zhang(参考訳) Federated Learning(FL)は、ユーザのプライバシ保護と協調的な人工知能モデルのトレーニングのための、有望な分散フレームワークである。 重要な研究の注目を集めているブートストラップコンポーネントは、flのユーザコラボレーションを促進するインセンティブメカニズムの設計である。 ほとんどの研究はブローカー中心のアプローチを採用し、中央オペレーターが参加者を引き付け、さらに訓練されたモデルを得るのを助ける。 参加者が共通の関心のためにflモデルを追求するために参加者中心のコラボレーションを鍛えることを考慮している作品はほとんどなく、これはブローカー中心のflからインセンティブ機構設計の劇的な違いを引き起こす。 利己的で異質な参加者を協調させるために,参加者中心flの効果的かつ効率的なコラボレーションをインセンティブ化する新しい分析フレームワークを提案する。 具体的には,cofl(contribution-oblivious fl)とcafl(contribution-aware fl)の2つのゲームモデルを提案する。 さらに,COFLゲームとCAFLゲームの両方のナッシュ均衡の特異性と存在を解析し,平衡解を実現するための効率的なアルゴリズムを設計する。 広範囲な性能評価の結果,COFLには自由乾燥現象があり,最小限の閾値を最適化したCAFLモデルの導入により大幅に緩和できることがわかった。

Federated learning (FL) is a promising distributed framework for collaborative artificial intelligence model training while protecting user privacy. A bootstrapping component that has attracted significant research attention is the design of incentive mechanism to stimulate user collaboration in FL. The majority of works adopt a broker-centric approach to help the central operator to attract participants and further obtain a well-trained model. Few works consider forging participant-centric collaboration among participants to pursue an FL model for their common interests, which induces dramatic differences in incentive mechanism design from the broker-centric FL. To coordinate the selfish and heterogeneous participants, we propose a novel analytic framework for incentivizing effective and efficient collaborations for participant-centric FL. Specifically, we respectively propose two novel game models for contribution-oblivious FL (COFL) and contribution-aware FL (CAFL), where the latter one implements a minimum contribution threshold mechanism. We further analyze the uniqueness and existence for Nash equilibrium of both COFL and CAFL games and design efficient algorithms to achieve equilibrium solutions. Extensive performance evaluations show that there exists free-riding phenomenon in COFL, which can be greatly alleviated through the adoption of CAFL model with the optimized minimum threshold.
翻訳日:2022-07-26 15:49:00 公開日:2022-07-25
# 動的環境に対するマルチスケールアセット分布モデル

Multi-Scale Asset Distribution Model for Dynamic Environments ( http://arxiv.org/abs/2207.12063v1 )

ライセンス: Link先を確認
Payam Zahadat and Ada Diaconescu(参考訳) 多くの自己組織システムにおいて、外部環境から必要な資源を抽出する能力は、システムの成長と生存に不可欠である。 例えば、有機植物における日光と栄養素の抽出、企業組織における金銭的収入、群知能行動における移動ロボットなどである。 競争の激しい変化する環境で運用する場合、そのようなシステムは、利用可能なリソースを抽出する能力を改善し適応するために、内部資産を賢明に分配しなければならない。 システムのサイズが大きくなると、資産分配プロセスは、しばしばマルチスケールの制御トポロジを中心に組織される。 このトポロジーは、システムの内部制約と適応メカニズムに依存する静的(固定)または動的(成長と構造適応をもたらす)である。 本稿では,植物由来の資産分配モデルを拡張し,より広い範囲の自然・人工システムドメインに適用可能な,より汎用的なマルチスケールモデルを提案する。 本研究では,マルチスケール制御プロセスのトポロジが,環境内で資源の可用性が変化した場合の自己適応能力に与える影響について検討する。 その結果,システム分枝間のトポロジカル特性や競合レベルの違いが,システム全体の収益性,適応遅延,環境変化時の外乱にどのように影響するかが明らかになった。 これらの知見は,システム設計者が特定のアプリケーションおよび実行環境に適したトポロジと構成を選択するための基盤となる。

In many self-organising systems the ability to extract necessary resources from the external environment is essential to the system's growth and survival. Examples include the extraction of sunlight and nutrients in organic plants, of monetary income in business organisations and of mobile robots in swarm intelligence actions. When operating within competitive, ever-changing environments, such systems must distribute their internal assets wisely so as to improve and adapt their ability to extract available resources. As the system size increases, the asset-distribution process often gets organised around a multi-scale control topology. This topology may be static (fixed) or dynamic (enabling growth and structural adaptation) depending on the system's internal constraints and adaptive mechanisms. In this paper, we expand on a plant-inspired asset-distribution model and introduce a more general multi-scale model applicable across a wider range of natural and artificial system domains. We study the impact that the topology of the multi-scale control process has upon the system's ability to self-adapt asset distribution when resource availability changes within the environment. Results show how different topological characteristics and different competition levels between system branches impact overall system profitability, adaptation delays and disturbances when environmental changes occur. These findings provide a basis for system designers to select the most suitable topology and configuration for their particular application and execution environment.
翻訳日:2022-07-26 15:48:38 公開日:2022-07-25
# NeuMesh: 幾何学とテクスチャ編集のためのアンタングル型ニューラルネットワークベース命令場を学習する

NeuMesh: Learning Disentangled Neural Mesh-based Implicit Field for Geometry and Texture Editing ( http://arxiv.org/abs/2207.11911v1 )

ライセンス: Link先を確認
Bangbang Yang, Chong Bao, Junyi Zeng, Hujun Bao, Yinda Zhang, Zhaopeng Cui, Guofeng Zhang(参考訳) 非常に最近のニューラル暗黙的レンダリング技術は急速に進化し、新しいビュー合成と3次元シーン再構成において大きな優位性を示している。 しかし、編集目的の既存のニューラルレンダリング手法は、剛性変換のような限られた機能や、日常生活からの汎用オブジェクトのきめ細かい編集に適用できない機能を提供している。 本稿では,メッシュ頂点上の不連続な形状とテクスチャコードを持つニューラルネットワークの暗黙的場を符号化することにより,メッシュ誘導幾何編集,テクスチャスワッピングによるテクスチャ編集,フィリング,ペインティング操作など,一連の編集機能を実現するメッシュベース表現を提案する。 そこで本研究では,メッシュ表現の空間的識別性を拡大する学習可能な手指指示器,定常収束を実現するための蒸留・微調整機構,正確なテクスチャ編集を実現する空間認識最適化戦略など,いくつかの手法を開発した。 実データと合成データの両方における広範な実験と編集例により,本手法の表現品質と編集能力に優れることが示された。 コードはプロジェクトのWebページで公開されている。

Very recently neural implicit rendering techniques have been rapidly evolved and shown great advantages in novel view synthesis and 3D scene reconstruction. However, existing neural rendering methods for editing purposes offer limited functionality, e.g., rigid transformation, or not applicable for fine-grained editing for general objects from daily lives. In this paper, we present a novel mesh-based representation by encoding the neural implicit field with disentangled geometry and texture codes on mesh vertices, which facilitates a set of editing functionalities, including mesh-guided geometry editing, designated texture editing with texture swapping, filling and painting operations. To this end, we develop several techniques including learnable sign indicators to magnify spatial distinguishability of mesh-based representation, distillation and fine-tuning mechanism to make a steady convergence, and the spatial-aware optimization strategy to realize precise texture editing. Extensive experiments and editing examples on both real and synthetic data demonstrate the superiority of our method on representation quality and editing ability. Code is available on the project webpage: https://zju3dv.github.io/neumesh/.
翻訳日:2022-07-26 15:42:59 公開日:2022-07-25
# Patchwork++: 高速でロバストなグラウンドセグメンテーションによる部分的なアンダーセグメンテーションを3Dポイントクラウドで解決

Patchwork++: Fast and Robust Ground Segmentation Solving Partial Under-Segmentation Using 3D Point Cloud ( http://arxiv.org/abs/2207.11919v1 )

ライセンス: Link先を確認
Seungjae Lee, Hyungtae Lim, and Hyun Myung(参考訳) 3次元LiDARセンサを用いた3次元認識の分野では、地中セグメンテーションは、移動可能な領域検出や物体認識など、様々な目的に欠かせない課題である。 このような状況下では,いくつかの接地分割法が提案されている。 しかし、いくつかの制限がある。 第一に、いくつかのグラウンドセグメンテーション法は、周囲に応じてパラメータを微調整する必要がある。 さらに、パラメータが適切に調整されたとしても、部分的な部分分割問題がまだ発生し得るため、一部の地域ではグラウンドセグメンテーションが失敗する可能性がある。 最後に、地盤区分法は、通常、地盤が保持壁など他の構造物の上にある場合、適切な地盤平面の推定に失敗する。 そこで本研究では,パッチワークの拡張であるpatchwork++と呼ばれるロバストな地上セグメンテーション手法を提案する。 patchwork++は、前回のグラウンドセグメンテーション結果に基づいて適切なパラメータを適応的に計算するためにadaptive ground likelihood estimation(a-gle)を利用する。 さらに, 時間的地盤逆転 (TGR) は, 仮接地特性を用いて部分的過偏化問題を緩和する。 また、地表面を異なる層で高める場合でも、地表面を適切に分断するために、地域方向垂直面嵌合(R−VPF)を導入する。 最後に反射ノイズ除去(rnr)を行い,3次元ライダー反射モデルに基づいて仮想ノイズ点を効率的に除去する。 本研究では,SemanticKITTIデータセットを用いて定性的,定量的評価を行った。 私たちのコードはhttps://github.com/url-kaist/patchwork-plusplusで利用可能です。

In the field of 3D perception using 3D LiDAR sensors, ground segmentation is an essential task for various purposes, such as traversable area detection and object recognition. Under these circumstances, several ground segmentation methods have been proposed. However, some limitations are still encountered. First, some ground segmentation methods require fine-tuning of parameters depending on the surroundings, which is excessively laborious and time-consuming. Moreover, even if the parameters are well adjusted, a partial under-segmentation problem can still emerge, which implies ground segmentation failures in some regions. Finally, ground segmentation methods typically fail to estimate an appropriate ground plane when the ground is above another structure, such as a retaining wall. To address these problems, we propose a robust ground segmentation method called Patchwork++, an extension of Patchwork. Patchwork++ exploits adaptive ground likelihood estimation (A-GLE) to calculate appropriate parameters adaptively based on the previous ground segmentation results. Moreover, temporal ground revert (TGR) alleviates a partial under-segmentation problem by using the temporary ground property. Also, region-wise vertical plane fitting (R-VPF) is introduced to segment the ground plane properly even if the ground is elevated with different layers. Finally, we present reflected noise removal (RNR) to eliminate virtual noise points efficiently based on the 3D LiDAR reflection model. We demonstrate the qualitative and quantitative evaluations using a SemanticKITTI dataset. Our code is available at https://github.com/url-kaist/patchwork-plusplus
翻訳日:2022-07-26 15:42:38 公開日:2022-07-25
# 性能劣化のないConvMixerモデルの暗号化法

An Encryption Method of ConvMixer Models without Performance Degradation ( http://arxiv.org/abs/2207.11939v1 )

ライセンス: Link先を確認
Ryota Iijima and Hitoshi Kiya(参考訳) 本論文では,秘密鍵を用いたConvMixerモデルの暗号化手法を提案する。 DNNモデルの暗号化手法は, 敵防御, モデル保護, プライバシ保護画像分類を実現するために研究されている。 しかし,従来の暗号手法では,モデルの性能が平易なモデルと比較して低下している。 そこで本研究では,ConvMixerモデルの暗号化手法を提案する。 本手法は,ConvMixerが持つ埋め込みアーキテクチャに基づいて実施され,秘密鍵で暗号化されたテスト画像を使用する場合にのみ,平易な画像で訓練されたモデルと同じ性能が得られる。 また,提案手法では,モデルトレーニングやネットワーク修正のための特別なデータを必要としない。 実験では,CIFAR10データセット上の画像分類タスクにおいて,分類精度とモデル保護の観点から,提案手法の有効性を評価する。

In this paper, we propose an encryption method for ConvMixer models with a secret key. Encryption methods for DNN models have been studied to achieve adversarial defense, model protection and privacy-preserving image classification. However, the use of conventional encryption methods degrades the performance of models compared with that of plain models. Accordingly, we propose a novel method for encrypting ConvMixer models. The method is carried out on the basis of an embedding architecture that ConvMixer has, and models encrypted with the method can have the same performance as models trained with plain images only when using test images encrypted with a secret key. In addition, the proposed method does not require any specially prepared data for model training or network modification. In an experiment, the effectiveness of the proposed method is evaluated in terms of classification accuracy and model protection in an image classification task on the CIFAR10 dataset.
翻訳日:2022-07-26 15:42:10 公開日:2022-07-25
# リモートセンシング画像のパンスハーペン化のための文脈的注意を伴うディープダブルストリーム残差ネットワーク

Deep dual stream residual network with contextual attention for pansharpening of remote sensing images ( http://arxiv.org/abs/2207.12004v1 )

ライセンス: Link先を確認
Syeda Roshana Ali, Anis Ur Rahman, Muhammad Shahzad(参考訳) パンシャーペニングは高分解能マルチスペクトル画像の空間的詳細を高分解能パンクロマティック画像の特徴を用いて拡張する。 伝統的なパンシャープ化アプローチはいくつかあるが、高いスペクトルと空間的忠実性を示す画像を生成することは、まだ未解決の問題である。 近年,深層学習は有望なパンシャープ画像の生成に利用されてきたが,これらの手法の多くは特徴抽出に同じネットワークを用いてマルチスペクトル画像とパンクロマティック画像の両方に類似した処理を施している。 本稿では,新しい2重注意型2ストリームネットワークを提案する。 まず、両方の画像に対して2つの別々のネットワークを使って特徴抽出し、抽出した特徴を再分類するアテンション機構を備えたエンコーダから始める。 次に、コンパクトな表現を形成する特徴を画像再構成ネットワークに融合してパンシャーペン画像を生成する。 標準的な定量的評価指標と視覚検査を用いたPl\'{e}iadesデータセットの実験結果から,提案手法がパンシャープ画像品質の点で他の手法よりも優れていることを示す。

Pansharpening enhances spatial details of high spectral resolution multispectral images using features of high spatial resolution panchromatic image. There are a number of traditional pansharpening approaches but producing an image exhibiting high spectral and spatial fidelity is still an open problem. Recently, deep learning has been used to produce promising pansharpened images; however, most of these approaches apply similar treatment to both multispectral and panchromatic images by using the same network for feature extraction. In this work, we present present a novel dual attention-based two-stream network. It starts with feature extraction using two separate networks for both images, an encoder with attention mechanism to recalibrate the extracted features. This is followed by fusion of the features forming a compact representation fed into an image reconstruction network to produce a pansharpened image. The experimental results on the Pl\'{e}iades dataset using standard quantitative evaluation metrics and visual inspection demonstrates that the proposed approach performs better than other approaches in terms of pansharpened image quality.
翻訳日:2022-07-26 15:41:58 公開日:2022-07-25
# REPNP:ロバスト画像復元に先立つ深層強化学習によるプラグアンドプレイ

REPNP: Plug-and-Play with Deep Reinforcement Learning Prior for Robust Image Restoration ( http://arxiv.org/abs/2207.12056v1 )

ライセンス: Link先を確認
Chong Wang, Rongkai Zhang, Saiprasad Ravishankar, Bihan Wen(参考訳) 事前学習した深層モデルに基づく画像復元手法は,様々な逆問題に対する独特の柔軟性から注目されている。 特に、Plug-and-Play(PnP)フレームワークは、既製のDeep Denoiserを既知の観測モデルと異なる画像復元タスクに組み込む、人気があり強力なツールである。 しかし、実際のものと正確に一致する観測モデルを得ることは、実際は困難である。 したがって、従来のディープデノイザを用いたPnPスキームは、実世界の画像復元タスクにおいて満足な結果が得られない可能性がある。 PnPフレームワークのロバスト性は、決定論的最適化によって訓練された既成のディープデノイザを使用することによって大きく制限されていると我々は主張する。 そこで本研究では,DRLをベースとした軽量デノイザを高精細画像復元作業に用いることで,RePNP(Deep reinforcement Learning)に基づくPnPフレームワークを提案する。 実験の結果,提案したRePNPは実測値から逸脱したPnP方式で用いられる観測モデルに対して頑健であることがわかった。 これにより、RePNPは画像劣化および超分解能タスクに対するより信頼性の高い復元結果を生成することができる。 RePNPは、最先端の深層画像復元ベースラインと比較すると、モデルパラメータの少ないモデル偏差によるより良い結果が得られる。

Image restoration schemes based on the pre-trained deep models have received great attention due to their unique flexibility for solving various inverse problems. In particular, the Plug-and-Play (PnP) framework is a popular and powerful tool that can integrate an off-the-shelf deep denoiser for different image restoration tasks with known observation models. However, obtaining the observation model that exactly matches the actual one can be challenging in practice. Thus, the PnP schemes with conventional deep denoisers may fail to generate satisfying results in some real-world image restoration tasks. We argue that the robustness of the PnP framework is largely limited by using the off-the-shelf deep denoisers that are trained by deterministic optimization. To this end, we propose a novel deep reinforcement learning (DRL) based PnP framework, dubbed RePNP, by leveraging a light-weight DRL-based denoiser for robust image restoration tasks. Experimental results demonstrate that the proposed RePNP is robust to the observation model used in the PnP scheme deviating from the actual one. Thus, RePNP can generate more reliable restoration results for image deblurring and super resolution tasks. Compared with several state-of-the-art deep image restoration baselines, RePNP achieves better results subjective to model deviation with fewer model parameters.
翻訳日:2022-07-26 15:41:39 公開日:2022-07-25
# DeepFusion:シングルビュー深度と勾配予測を用いた単眼SLAMのリアルタイム高密度3次元再構成

DeepFusion: Real-Time Dense 3D Reconstruction for Monocular SLAM using Single-View Depth and Gradient Predictions ( http://arxiv.org/abs/2207.12244v1 )

ライセンス: Link先を確認
Tristan Laidlow, Jan Czarnowski, Stefan Leutenegger(参考訳) sparse monocular concurrent localization and mapping (slam) システムによって作成されたキーポイントベースの地図は、カメラ追跡に有用であるが、密集した3d再構成は多くのロボットタスクに望ましい。 深度カメラを含むソリューションは範囲や屋内空間に制限されており、フレーム間の測光誤差を最小化することに基づく密集した再構成システムは通常、制約が低く、スケールの曖昧さに苦しむ。 そこで本研究では,畳み込みニューラルネットワーク(cnn)の出力を利用して,メートル法スケールを含むキーフレームの完全密度マップを作成する3次元再構成システムを提案する。 当社のシステムであるDeepFusionは,GPU上でリアルタイムに高密度な再構築を行うことができる。 ネットワークが生成する学習的不確実性を用いて、cnnの深さと勾配の予測を確率的方法で半拡散型マルチビューステレオアルゴリズムの出力と融合する。 ネットワークはキーフレーム毎に1回だけ実行される必要があるが、新しいフレームごとに深度マップを最適化することで、新しい幾何学的制約を常に利用することができる。 合成および実世界のデータセットのパフォーマンスに基づいて、DeepFusionは、少なくとも他の同等のシステムと同様に、実行可能であることを示す。

While the keypoint-based maps created by sparse monocular simultaneous localisation and mapping (SLAM) systems are useful for camera tracking, dense 3D reconstructions may be desired for many robotic tasks. Solutions involving depth cameras are limited in range and to indoor spaces, and dense reconstruction systems based on minimising the photometric error between frames are typically poorly constrained and suffer from scale ambiguity. To address these issues, we propose a 3D reconstruction system that leverages the output of a convolutional neural network (CNN) to produce fully dense depth maps for keyframes that include metric scale. Our system, DeepFusion, is capable of producing real-time dense reconstructions on a GPU. It fuses the output of a semi-dense multiview stereo algorithm with the depth and gradient predictions of a CNN in a probabilistic fashion, using learned uncertainties produced by the network. While the network only needs to be run once per keyframe, we are able to optimise for the depth map with each new frame so as to constantly make use of new geometric constraints. Based on its performance on synthetic and real-world datasets, we demonstrate that DeepFusion is capable of performing at least as well as other comparable systems.
翻訳日:2022-07-26 15:41:15 公開日:2022-07-25
# 簡易グラスピングのための高品質触覚センサの試作

Exploiting High Quality Tactile Sensors for Simplified Grasping ( http://arxiv.org/abs/2207.12360v1 )

ライセンス: Link先を確認
Pedro Machado, T.M. McGinnity(参考訳) ロボットは、形状、重量、素材の種類などさまざまな種類の物体をつかむことが期待されている。 人間に類似した触覚能力を持つロボットを提供することは、人間とロボット、ロボットとロボットの相互作用を含むアプリケーション、特にロボットがこれまで遭遇していなかった複雑な物体を把握・操作することが期待される状況において不可欠である。 物体のつかみと操作を成功させる重要な側面は、複数の高性能センサーを備えた高品質な指先を特定の接触面に適切に分散させることである。 本稿では,市販の2種類のロボット指先(BioTacとWTS-FT)を用いて,指先接触面に複数のセンサを配置し,その使用状況を詳細に解析する。 さらに,指先が高性能であることから,日常的な物体の把握には複雑な適応的把持アルゴリズムが必須ではないことを示す。 比例制御系に基づく単純なアルゴリズムは,関連する指先が高い感度を示す場合,多くの把持アプリケーションにおいて十分である。 定量化評価では,BioTacをベースとした指先は,WTS-FT装置よりも優れており,最大850gまでの負荷の昇降が可能であり,また,物体が大きな外部振動に晒された場合でも,単純な比例制御器が把握に適応できることを示した。

Robots are expected to grasp a wide range of objects varying in shape, weight or material type. Providing robots with tactile capabilities similar to humans is thus essential for applications involving human-to-robot or robot-to-robot interactions, particularly in those situations where a robot is expected to grasp and manipulate complex objects not previously encountered. A critical aspect for successful object grasp and manipulation is the use of high-quality fingertips equipped with multiple high-performance sensors, distributed appropriately across a specific contact surface. In this paper, we present a detailed analysis of the use of two different types of commercially available robotic fingertips (BioTac and WTS-FT), each of which is equipped with multiple sensors distributed across the fingertips' contact surface. We further demonstrate that, due to the high performance of the fingertips, a complex adaptive grasping algorithm is not required for grasping of everyday objects. We conclude that a simple algorithm based on a proportional controller will suffice for many grasping applications, provided the relevant fingertips exhibit high sensitivity. In a quantified assessment, we also demonstrate that, due in part to the sensor distribution, the BioTac-based fingertip performs better than the WTS-FT device, in enabling lifting of loads up to 850g, and that the simple proportional controller can adapt the grasp even when the object is exposed to significant external vibrational challenges.
翻訳日:2022-07-26 15:40:52 公開日:2022-07-25
# SegPGD: セグメンテーションロバストネスの評価と強化のための効果的で効率的な敵攻撃

SegPGD: An Effective and Efficient Adversarial Attack for Evaluating and Boosting Segmentation Robustness ( http://arxiv.org/abs/2207.12391v1 )

ライセンス: Link先を確認
Jindong Gu, Hengshuang Zhao, Volker Tresp, Philip Torr(参考訳) ディープニューラルネットワークに基づく画像分類は、敵の摂動に弱い。 入力画像に人工的小・知覚不能な摂動を加えることで、画像分類を容易に騙すことができる。 最も効果的な防衛戦略の1つとして、訓練中のトレーニングデータに敵の例を作成して注入する分類モデルの脆弱性に対処するために、敵の訓練が提案された。 分類モデルの攻撃と防御は近年,集中的に研究されている。 分類の拡張としてのセマンティックセグメンテーションも近年注目されている。 最近の研究は、セグメント化モデルを騙すための効果的な敵例を作成するために、多数の攻撃イテレーションが必要であることを示している。 この観察により, セグメンテーションモデルにおけるロバストネス評価と対角トレーニングの両方が困難となる。 本研究では,SegPGDと呼ばれる効果的かつ効率的なセグメンテーション攻撃手法を提案する。 さらに,提案したSegPGDが,同じ回数の攻撃繰り返しでPGDよりも効果的な敵例を生成できることを示す収束解析も提供する。 さらに,SegPGDをセグメンテーション対戦訓練の基盤となる攻撃法として適用することを提案する。 SegPGDはより効果的な敵の例を生成することができるため、SegPGDを用いた敵の訓練はセグメントモデルの堅牢性を高めることができる。 本提案は,一般的なセグメンテーションモデルアーキテクチャと標準セグメンテーションデータセットの実験でも検証されている。

Deep neural network-based image classifications are vulnerable to adversarial perturbations. The image classifications can be easily fooled by adding artificial small and imperceptible perturbations to input images. As one of the most effective defense strategies, adversarial training was proposed to address the vulnerability of classification models, where the adversarial examples are created and injected into training data during training. The attack and defense of classification models have been intensively studied in past years. Semantic segmentation, as an extension of classifications, has also received great attention recently. Recent work shows a large number of attack iterations are required to create effective adversarial examples to fool segmentation models. The observation makes both robustness evaluation and adversarial training on segmentation models challenging. In this work, we propose an effective and efficient segmentation attack method, dubbed SegPGD. Besides, we provide a convergence analysis to show the proposed SegPGD can create more effective adversarial examples than PGD under the same number of attack iterations. Furthermore, we propose to apply our SegPGD as the underlying attack method for segmentation adversarial training. Since SegPGD can create more effective adversarial examples, the adversarial training with our SegPGD can boost the robustness of segmentation models. Our proposals are also verified with experiments on popular Segmentation model architectures and standard segmentation datasets.
翻訳日:2022-07-26 15:40:25 公開日:2022-07-25
# 超解像再構成のためのスパースベース領域適応ネットワーク

Sparse-based Domain Adaptation Network for OCTA Image Super-Resolution Reconstruction ( http://arxiv.org/abs/2207.11882v1 )

ライセンス: Link先を確認
Huaying Hao, Cong Xu, Dan Zhang, Qifeng Yan, Jiong Zhang, Yue Liu, Yitian Zhao(参考訳) 高分解能網膜光コヒーレンス断層撮影(OCTA)は網膜血管の定量化と解析に重要である。 しかし、オクター像の分解能は、同じサンプリング周波数で視野に逆比例しており、より大きな血管領域を分析する臨床医には向いていない。 本稿では, 6x6 mm2/low- resolution (LR) OCTA 画像から高分解能 (HR) 表現への再構成を目的とした, Sparse-based domain Adaptation Super-Resolution Network (SASR) を提案する。 より具体的には、3x3 mm2/高分解能(HR)画像の簡単な分解を行い、合成LR画像を得る。 次に、合成LRに対応する3x3mm2画像領域を6x6mm2画像内に登録して、収穫したリアルLR画像を得る効率的な登録方法を用いる。 次に,合成データの完全教師付き再構成のためのマルチレベル超解像モデルを提案し,合成と現実のLR画像が特徴領域に統一されるような生成的・逆方向戦略により,現実的なLR画像の再構成を導く。 最後に, 血管端構造を動的に最適化する新規な疎いエッジ認識損失を設計する。 2つのOCTA集合に対する大規模な実験により,本手法は最先端の超解像再構成法よりも優れた性能を示した。 また,本手法の有効性をさらに検証するために,網膜構造分節の再構成結果の性能について検討した。

Retinal Optical Coherence Tomography Angiography (OCTA) with high-resolution is important for the quantification and analysis of retinal vasculature. However, the resolution of OCTA images is inversely proportional to the field of view at the same sampling frequency, which is not conducive to clinicians for analyzing larger vascular areas. In this paper, we propose a novel Sparse-based domain Adaptation Super-Resolution network (SASR) for the reconstruction of realistic 6x6 mm2/low-resolution (LR) OCTA images to high-resolution (HR) representations. To be more specific, we first perform a simple degradation of the 3x3 mm2/high-resolution (HR) image to obtain the synthetic LR image. An efficient registration method is then employed to register the synthetic LR with its corresponding 3x3 mm2 image region within the 6x6 mm2 image to obtain the cropped realistic LR image. We then propose a multi-level super-resolution model for the fully-supervised reconstruction of the synthetic data, guiding the reconstruction of the realistic LR images through a generative-adversarial strategy that allows the synthetic and realistic LR images to be unified in the feature domain. Finally, a novel sparse edge-aware loss is designed to dynamically optimize the vessel edge structure. Extensive experiments on two OCTA sets have shown that our method performs better than state-of-the-art super-resolution reconstruction methods. In addition, we have investigated the performance of the reconstruction results on retina structure segmentations, which further validate the effectiveness of our approach.
翻訳日:2022-07-26 15:34:37 公開日:2022-07-25
# 新生児集中治療ユニットにおける深層学習に基づく非接触生理モニタリング

Deep learning based non-contact physiological monitoring in Neonatal Intensive Care Unit ( http://arxiv.org/abs/2207.11886v1 )

ライセンス: Link先を確認
Nicky Nirlipta Sahoo, Balamurali Murugesan, Ayantika Das, Srinivasa Karthik, Keerthi Ram, Steffen Leonhardt, Jayaraj Joseph and Mohanasankar Sivaprakasam(参考訳) 新生児集中治療室(NICU)の乳幼児は、心臓の健康を継続的に監視する必要がある。 従来のモニタリングアプローチはコンタクトベースであり、新生児は様々な院内感染に悩まされる。 ビデオベースのモニタリングアプローチは、非接触計測のための潜在的な道を開いた。 本研究はNICUセットアップのビデオから心肺信号の遠隔推定のためのパイプラインを提案する。 我々は,非学習に基づくアプローチを取り入れたエンド・ツー・エンドのディープラーニング(DL)モデルを提案し,サロゲート基底真理(SGT)ラベルを監督のために生成し,真基底真理ラベルへの直接的な依存を回避した。 我々は,提案するdlベースパイプラインの有効性を検討するために拡張定性的定量的解析を行い,推定心拍数で平均平均絶対誤差4.6beats per minute (bpm),根平均2乗誤差6.2bpmを達成した。

Preterm babies in the Neonatal Intensive Care Unit (NICU) have to undergo continuous monitoring of their cardiac health. Conventional monitoring approaches are contact-based, making the neonates prone to various nosocomial infections. Video-based monitoring approaches have opened up potential avenues for contactless measurement. This work presents a pipeline for remote estimation of cardiopulmonary signals from videos in NICU setup. We have proposed an end-to-end deep learning (DL) model that integrates a non-learning based approach to generate surrogate ground truth (SGT) labels for supervision, thus refraining from direct dependency on true ground truth labels. We have performed an extended qualitative and quantitative analysis to examine the efficacy of our proposed DL-based pipeline and achieved an overall average mean absolute error of 4.6 beats per minute (bpm) and root mean square error of 6.2 bpm in the estimated heart rate.
翻訳日:2022-07-26 15:34:11 公開日:2022-07-25
# 光場イメージングのための単一画像超解像モデルにおけるサブアパーチャ特徴適応

Sub-Aperture Feature Adaptation in Single Image Super-resolution Model for Light Field Imaging ( http://arxiv.org/abs/2207.11894v1 )

ライセンス: Link先を確認
Aupendu Kar, Suresh Nehra, Jayanta Mukhopadhyay, Prabir Kumar Biswas(参考訳) 商用のLight Field(LF)カメラが利用可能になったことで、LFイメージングは計算写真における最新技術として登場した。 しかし、空間分解能は空間情報と角情報の本質的に多重化のため、商業用マイクロレンズベースのLFカメラでは著しく制限されている。 したがって、ライトフィールドカメラの他の応用における主要なボトルネックとなる。 本稿では,高精巧な光場画像領域特定超解像モデルではなく,強力なSISRモデルを活用するための,事前訓練されたSingle Image Super Resolution (SISR)ネットワークの適応モジュールを提案する。 適応モジュールは、サブアパーチャシフトブロックと融合ブロックとからなる。 これは、LF画像の空間的および角的情報をさらに活用して超解像性能を向上させるためのSISRネットワークの適応である。 実験により,提案手法は既存の光場超解法よりも優れた性能を示した。 また、すべてのデータセットでPSNRが1dB以上のゲインを達成し、スケールファクター2でトレーニング済みのSISRモデルと比較すると、PSNRはスケールファクター4で0.6から1dBを得る。

With the availability of commercial Light Field (LF) cameras, LF imaging has emerged as an up and coming technology in computational photography. However, the spatial resolution is significantly constrained in commercial microlens based LF cameras because of the inherent multiplexing of spatial and angular information. Therefore, it becomes the main bottleneck for other applications of light field cameras. This paper proposes an adaptation module in a pretrained Single Image Super Resolution (SISR) network to leverage the powerful SISR model instead of using highly engineered light field imaging domain specific Super Resolution models. The adaption module consists of a Sub aperture Shift block and a fusion block. It is an adaptation in the SISR network to further exploit the spatial and angular information in LF images to improve the super resolution performance. Experimental validation shows that the proposed method outperforms existing light field super resolution algorithms. It also achieves PSNR gains of more than 1 dB across all the datasets as compared to the same pretrained SISR models for scale factor 2, and PSNR gains 0.6 to 1 dB for scale factor 4.
翻訳日:2022-07-26 15:33:57 公開日:2022-07-25
# ランダム林と勾配ブースティングを用いた短期エネルギー消費予測

Forecasting the Short-Term Energy Consumption Using Random Forests and Gradient Boosting ( http://arxiv.org/abs/2207.11952v1 )

ライセンス: Link先を確認
Cristina Bianca Pop, Viorica Rozina Chifu, Corina Cordea, Emil Stefan Chifu, Octav Barsan(参考訳) 本稿では,歴史データに基づくエネルギー消費予測の分野におけるランダム林の性能と勾配促進アルゴリズムについて比較検討する。 これら2つのアルゴリズムを用いて,エネルギー消費を個別に予測し,重み付き平均アンサンブル法を用いて組み合わせる。 その結果, 重み付け平均アンサンブル法は, それぞれ単独で適用したアルゴリズムよりも精度の高い結果が得られることがわかった。

This paper analyzes comparatively the performance of Random Forests and Gradient Boosting algorithms in the field of forecasting the energy consumption based on historical data. The two algorithms are applied in order to forecast the energy consumption individually, and then combined together by using a Weighted Average Ensemble Method. The comparison among the achieved experimental results proves that the Weighted Average Ensemble Method provides more accurate results than each of the two algorithms applied alone.
翻訳日:2022-07-26 15:29:34 公開日:2022-07-25
# パーソナリティ駆動型ソーシャルマルチメディアコンテンツレコメンデーション

Personality-Driven Social Multimedia Content Recommendation ( http://arxiv.org/abs/2207.12236v1 )

ライセンス: Link先を確認
Qi Yang, Sergey Nikolenko, Alfred Huang, Aleksandr Farseev(参考訳) ソーシャルメディアマーケティングは、ブランドや製品の価値を幅広い聴衆に広める上で重要な役割を担っている。 広告収入を増やすために、Facebook Adsのようなグローバルメディア購入プラットフォームは、ブランド化されたオーガニックな投稿のリーチを絶えず減らし、ブランドが有料メディア広告により多くの費用を費やすように促している。 組織的かつ有償のソーシャルメディアマーケティングを効率的に行うためには、視聴者の関心やオンライン行動に合うようにコンテンツを調整し、大規模に手動で行うことは不可能である。 同時に、マイアーズ・ブリッグス・パーソナリティ・タイプ・インジケータのような様々なパーソナリティ型分類スキームは、パーソナリティ特性とユーザコンテンツ嗜好の依存関係を、統一的で構造化された方法でオーディエンス動作を分類することで、より広いスケールで明らかにすることができる。 この問題は研究コミュニティではまだ深く研究されていないが、コンテンツレコメンデーション精度に対する異なる性格特性の影響のレベルは、これまで広く利用され、包括的に評価されていない。 具体的には,Personality Content Marketing Recommender Engine (PersiC) と呼ばれる新しいパーソナリティ駆動型マルチビューコンテンツレコメンデータシステムを適用し,人格特性がコンテンツレコメンデーションモデルに与える影響について検討する。 実験結果と実世界のケーススタディにより,persicがパーソナリティ駆動型多視点コンテンツ推薦を効率的に行うことができるだけでなく,デジタル広告の効率を従来の人間誘導型アプローチと比較して420%以上向上させることのできる,行動可能なデジタル広告戦略推薦が可能になることが示された。

Social media marketing plays a vital role in promoting brand and product values to wide audiences. In order to boost their advertising revenues, global media buying platforms such as Facebook Ads constantly reduce the reach of branded organic posts, pushing brands to spend more on paid media ads. In order to run organic and paid social media marketing efficiently, it is necessary to understand the audience, tailoring the content to fit their interests and online behaviours, which is impossible to do manually at a large scale. At the same time, various personality type categorization schemes such as the Myers-Briggs Personality Type indicator make it possible to reveal the dependencies between personality traits and user content preferences on a wider scale by categorizing audience behaviours in a unified and structured manner. This problem is yet to be studied in depth by the research community, while the level of impact of different personality traits on content recommendation accuracy has not been widely utilised and comprehensively evaluated so far. Specifically, in this work we investigate the impact of human personality traits on the content recommendation model by applying a novel personality-driven multi-view content recommender system called Personality Content Marketing Recommender Engine, or PersiC. Our experimental results and real-world case study demonstrate not just PersiC's ability to perform efficient human personality-driven multi-view content recommendation, but also allow for actionable digital ad strategy recommendations, which when deployed are able to improve digital advertising efficiency by over 420% as compared to the original human-guided approach.
翻訳日:2022-07-26 15:29:25 公開日:2022-07-25
# 自己表現によるデュアルモード音声認識モデルの学習

Learning a Dual-Mode Speech Recognition Model via Self-Pruning ( http://arxiv.org/abs/2207.11906v1 )

ライセンス: Link先を確認
Chunxi Liu, Yuan Shangguan, Haichuan Yang, Yangyang Shi, Raghuraman Krishnamoorthi, Ozlem Kalinli(参考訳) ストリーミングとフルコンテキスト自動音声認識(ASR)ネットワークを単一エンドツーエンドのASRモデルに統合して、両方のユースケースにおけるモデルトレーニングとデプロイを簡略化することに関心が高まっている。 現実世界のASRアプリケーションでは、ストリーミングのASRモデルは、通常、どんなサーバーサイドのフルコンテキストモデルよりも多くのストレージと計算上の制約の下で動作します。 Omni-Sparsity Supernet Trainingの最近の進歩により、複数のサブネットが1つのモデルで共同で最適化されるようになり、デバイス上でのコンパクトなストリーミングASRモデルと大規模なサーバ非ストリーミングモデルを1つのスーパーネットで共同で学習することを目指している。 次に、wav2vec 2.0の自己教師付き学習と教師付きasrの微調整の両方でスーパーネットトレーニングを行うことで、先行研究で示したような大規模非ストリーミングモデルを大幅に改善できるだけでなく、コンパクトなスパースストリーミングモデルも改善できることを示す。

There is growing interest in unifying the streaming and full-context automatic speech recognition (ASR) networks into a single end-to-end ASR model to simplify the model training and deployment for both use cases. While in real-world ASR applications, the streaming ASR models typically operate under more storage and computational constraints - e.g., on embedded devices - than any server-side full-context models. Motivated by the recent progress in Omni-sparsity supernet training, where multiple subnetworks are jointly optimized in one single model, this work aims to jointly learn a compact sparse on-device streaming ASR model, and a large dense server non-streaming model, in a single supernet. Next, we present that, performing supernet training on both wav2vec 2.0 self-supervised learning and supervised ASR fine-tuning can not only substantially improve the large non-streaming model as shown in prior works, and also be able to improve the compact sparse streaming model.
翻訳日:2022-07-26 15:28:07 公開日:2022-07-25
# dcam:多変量データ系列分類を説明するための次元別クラスアクティベーションマップ

dCAM: Dimension-wise Class Activation Map for Explaining Multivariate Data Series Classification ( http://arxiv.org/abs/2207.12165v1 )

ライセンス: Link先を確認
Paul Boniol, Mohammed Meftah, Emmanuel Remy, Themis Palpanas(参考訳) データ系列分類は、データサイエンスにおいて重要かつ困難な問題である。 アルゴリズムをいくつかの決定に導いた入力の識別部分を見つけることで分類決定を説明することは、多くのアプリケーションにおいて本当に必要である。 畳み込みニューラルネットワークは、データ列の分類タスクでうまく機能するが、この種のアルゴリズムによる説明は、多変量データ系列の特定のケースでは不十分である。 この重要な制限に対処することは大きな課題です。 本稿では,時間的および次元的な識別情報を強調することにより,この問題を解決する新しい手法を提案する。 まず、次元の比較を可能にする畳み込みアーキテクチャを記述し、次に、多変量時系列(およびCNNモデル)に特化して設計された次元ワイドなクラス活性化マップであるdCAMを返却する手法を提案する。 いくつかの合成および実データセットを用いた実験により、dCAMは以前のアプローチよりも正確であるだけでなく、多変量時系列における識別的特徴発見と分類説明のための唯一の有効な解であることが示された。 この論文はSIGMOD'22に掲載されている。

Data series classification is an important and challenging problem in data science. Explaining the classification decisions by finding the discriminant parts of the input that led the algorithm to some decisions is a real need in many applications. Convolutional neural networks perform well for the data series classification task; though, the explanations provided by this type of algorithm are poor for the specific case of multivariate data series. Addressing this important limitation is a significant challenge. In this paper, we propose a novel method that solves this problem by highlighting both the temporal and dimensional discriminant information. Our contribution is two-fold: we first describe a convolutional architecture that enables the comparison of dimensions; then, we propose a method that returns dCAM, a Dimension-wise Class Activation Map specifically designed for multivariate time series (and CNN-based models). Experiments with several synthetic and real datasets demonstrate that dCAM is not only more accurate than previous approaches, but the only viable solution for discriminant feature discovery and classification explanation in multivariate time series. This paper has appeared in SIGMOD'22.
翻訳日:2022-07-26 15:25:18 公開日:2022-07-25
# 相互情報推定による対向ロバスト性の向上

Improving Adversarial Robustness via Mutual Information Estimation ( http://arxiv.org/abs/2207.12203v1 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Xinbo Gao, Bo Han, Xiaoyu Wang, Yibing Zhan, Tongliang Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵対的ノイズに対して脆弱である。 彼らは通常、間違った予測を行うために敵のサンプルによって誤解される。 この否定的効果を緩和するため,本稿では,情報理論の観点から,対象モデルの出力と入力逆サンプルの依存性について検討し,逆防御法を提案する。 具体的には、まず、出力間の相互情報(MI)と入力の自然なパターン(自然MI)と入力の逆パターン(逆MI)との相互情報(MI)をそれぞれ推定して依存度を測定する。 敵のサンプルは、通常、w.r.t.の天然試料に比べて、敵のmiとより小さい自然miを持つ。 本研究の目的は, 自然MIの最大化と, 学習過程における敵MIの最小化により, 敵ロバスト性を高めることである。 このようにして、ターゲットモデルは、客観的セマンティクスを含む自然パターンにもっと注意を払うことが期待されます。 実験により,本手法は複数攻撃に対する対向精度を効果的に向上できることが示された。

Deep neural networks (DNNs) are found to be vulnerable to adversarial noise. They are typically misled by adversarial samples to make wrong predictions. To alleviate this negative effect, in this paper, we investigate the dependence between outputs of the target model and input adversarial samples from the perspective of information theory, and propose an adversarial defense method. Specifically, we first measure the dependence by estimating the mutual information (MI) between outputs and the natural patterns of inputs (called natural MI) and MI between outputs and the adversarial patterns of inputs (called adversarial MI), respectively. We find that adversarial samples usually have larger adversarial MI and smaller natural MI compared with those w.r.t. natural samples. Motivated by this observation, we propose to enhance the adversarial robustness by maximizing the natural MI and minimizing the adversarial MI during the training process. In this way, the target model is expected to pay more attention to the natural pattern that contains objective semantics. Empirical evaluations demonstrate that our method could effectively improve the adversarial accuracy against multiple attacks.
翻訳日:2022-07-26 15:24:57 公開日:2022-07-25
# Series2Graph: 時系列のグラフベースのサブシーケンス異常検出

Series2Graph: Graph-based Subsequence Anomaly Detection for Time Series ( http://arxiv.org/abs/2207.12208v1 )

ライセンス: Link先を確認
Paul Boniol, Themis Palpanas(参考訳) 長いシーケンスにおける連続異常検出は、幅広い領域の応用において重要な問題である。 しかし、これまでの文献で提案されているアプローチには、異常発見アルゴリズムの設計に使用する事前のドメイン知識を必要とするか、同じタイプの繰り返し異常のある状況で使用するのが面倒で費用がかかるか、厳しい制限がある。 本研究では,これらの問題に対処し,ドメインに依存しないサブシーケンス検出に適した教師なし手法を提案する。 提案手法である series2graph は,部分列の新たな低次元埋め込みのグラフ表現に基づいている。 series2graphはラベル付きインスタンス(教師付き技術など)や異常のないデータ(ゼロ正の学習技術など)も必要とせず、さまざまな長さの異常を識別できる。 実験結果は,これまで使用されてきた最大規模の合成データセットと実データセットを用いて,提案手法が先行知識のない単一および再帰異常を正しく同定し,精度の面ではいくつかの競合するアプローチよりも優れていることを示した。 この論文はVLDB 2020に掲載されている。

Subsequence anomaly detection in long sequences is an important problem with applications in a wide range of domains. However, the approaches proposed so far in the literature have severe limitations: they either require prior domain knowledge used to design the anomaly discovery algorithms, or become cumbersome and expensive to use in situations with recurrent anomalies of the same type. In this work, we address these problems, and propose an unsupervised method suitable for domain agnostic subsequence anomaly detection. Our method, Series2Graph, is based on a graph representation of a novel low-dimensionality embedding of subsequences. Series2Graph needs neither labeled instances (like supervised techniques) nor anomaly-free data (like zero-positive learning techniques), and identifies anomalies of varying lengths. The experimental results, on the largest set of synthetic and real datasets used to date, demonstrate that the proposed approach correctly identifies single and recurrent anomalies without any prior knowledge of their characteristics, outperforming by a large margin several competing approaches in accuracy, while being up to orders of magnitude faster. This paper has appeared in VLDB 2020.
翻訳日:2022-07-26 15:24:38 公開日:2022-07-25
# 深層学習を用いた溶融プール熱場のサーロゲートモデリング

Surrogate Modeling of Melt Pool Thermal Field using Deep Learning ( http://arxiv.org/abs/2207.12259v1 )

ライセンス: Link先を確認
AmirPouya Hemmasian, Francis Ogoke, Parand Akbari, Jonathan Malen, Jack Beuth, Amir Barati Farimani(参考訳) 粉末ベースの添加物製造は過去10年間で製造業に変化をもたらした。 レーザー粉体融合では、粉体層の適切な領域を融解し、融合させることにより、2次元の断面を互いに上に形成する反復的に特定部を構築する。 このプロセスでは, 溶融プールとその熱場の挙動は, 製造部の品質と潜在的な欠陥を予測する上で非常に重要な役割を担っている。 しかし、そのような複雑な現象のシミュレーションは通常非常に時間がかかり、膨大な計算資源を必要とする。 flow-3dは反復数値解法を用いてこのようなシミュレーションを実行できるソフトウェアパッケージの1つである。 本研究では,flow-3dを用いた単線プロセスの3つのデータセットを作成し,レーザーパワー,レーザー速度,時間ステップの3つのパラメータを入力として,メルトプールの3次元熱場の挙動を予測可能な畳み込みニューラルネットワークを訓練する。 cnnは、温度場の相対根平均二乗誤差を2%〜3%とし、融体プール面積の予測において、結合スコアを80%〜90%の平均交点とする。 また、時間はそのモデルの入力の1つとして含まれるので、全てのステップを反復して計算することなく任意の時間ステップで熱場を即座に得ることができる。

Powder-based additive manufacturing has transformed the manufacturing industry over the last decade. In Laser Powder Bed Fusion, a specific part is built in an iterative manner in which two-dimensional cross-sections are formed on top of each other by melting and fusing the proper areas of the powder bed. In this process, the behavior of the melt pool and its thermal field has a very important role in predicting the quality of the manufactured part and its possible defects. However, the simulation of such a complex phenomenon is usually very time-consuming and requires huge computational resources. Flow-3D is one of the software packages capable of executing such simulations using iterative numerical solvers. In this work, we create three datasets of single-trail processes using Flow-3D and use them to train a convolutional neural network capable of predicting the behavior of the three-dimensional thermal field of the melt pool solely by taking three parameters as input: laser power, laser velocity, and time step. The CNN achieves a relative Root Mean Squared Error of 2% to 3% for the temperature field and an average Intersection over Union score of 80% to 90% in predicting the melt pool area. Moreover, since time is included as one of the inputs of the model, the thermal field can be instantly obtained for any arbitrary time step without the need to iterate and compute all the steps
翻訳日:2022-07-26 15:24:18 公開日:2022-07-25
# medml:小児の早期入院と重症度予測のための医療知識と機械学習モデルの利用

MedML: Fusing Medical Knowledge and Machine Learning Models for Early Pediatric COVID-19 Hospitalization and Severity Prediction ( http://arxiv.org/abs/2207.12283v1 )

ライセンス: Link先を確認
Junyi Gao, Chaoqi Yang, George Heintz, Scott Barrows, Elise Albers, Mary Stapel, Sara Warfield, Adam Cross, Jimeng Sun, the N3C consortium(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界各国の医療機関の資源を圧迫し、経済と社会の破壊を引き起こしている。 この結果、新型コロナウイルス(COVID-19)患者の入院や重篤な病気を予測し、限られた医療資源の配布を知らせるモデルが全国的に求められている。 小児科の患者に特有の電話の1つに反応します この課題に対処するため、電子健康記録を用いた小児人口予測タスクを2つ検討した。 1)どの子どもが入院する確率が高いかを予測すること、及び 2) 入院児では, 重度の症状を発症する傾向がみられた。 我々は、新しい機械学習モデルであるmedmlを用いて、全国的な小児感染症データチャレンジに回答する。 MedMLは600万以上の医療概念から医療知識と適合度スコアに基づいて最も予測可能な特徴を抽出し、グラフニューラルネットワーク(GNN)を介して異種医療特徴間の機能間関係を取り入れている。 入院予測タスクは143,605例,重症度予測タスクは11,465例で,国立コホート・コラボレーティブ(n3c)データセットのデータを用いて評価した。 また、モデル解釈可能性を評価するために、グループレベルおよび個別レベルの特徴重要度分析を詳細に報告する。 medmlは最大7%のaurocスコアと14%のauprcスコアを、最高のベースライン機械学習モデルと比較して達成し、パンデミックの開始以来、全国9つの地域、および3ヶ月にわたってよく機能する。 本研究チームは,最新のデータ駆動型特徴選択手法よりも予測可能かつ説明可能な新しいタイプの機械学習モデルのフレームワークとして,臨床領域知識を組み込む手法を開発した。

The COVID-19 pandemic has caused devastating economic and social disruption, straining the resources of healthcare institutions worldwide. This has led to a nationwide call for models to predict hospitalization and severe illness in patients with COVID-19 to inform distribution of limited healthcare resources. We respond to one of these calls specific to the pediatric population. To address this challenge, we study two prediction tasks for the pediatric population using electronic health records: 1) predicting which children are more likely to be hospitalized, and 2) among hospitalized children, which individuals are more likely to develop severe symptoms. We respond to the national Pediatric COVID-19 data challenge with a novel machine learning model, MedML. MedML extracts the most predictive features based on medical knowledge and propensity scores from over 6 million medical concepts and incorporates the inter-feature relationships between heterogeneous medical features via graph neural networks (GNN). We evaluate MedML across 143,605 patients for the hospitalization prediction task and 11,465 patients for the severity prediction task using data from the National Cohort Collaborative (N3C) dataset. We also report detailed group-level and individual-level feature importance analyses to evaluate the model interpretability. MedML achieves up to a 7% higher AUROC score and up to a 14% higher AUPRC score compared to the best baseline machine learning models and performs well across all nine national geographic regions and over all three-month spans since the start of the pandemic. Our cross-disciplinary research team has developed a method of incorporating clinical domain knowledge as the framework for a new type of machine learning model that is more predictive and explainable than current state-of-the-art data-driven feature selection methods.
翻訳日:2022-07-26 15:23:56 公開日:2022-07-25
# Few-Shot分類のためのコントラスト的知識強化メタラーニング

Contrastive Knowledge-Augmented Meta-Learning for Few-Shot Classification ( http://arxiv.org/abs/2207.12346v1 )

ライセンス: Link先を確認
Rakshith Subramanyam, Mark Heimann, Jayram Thathachar, Rushil Anirudh, Jayaraman J. Thiagarajan(参考訳) モデル非依存なメタ学習アルゴリズムは、いくつかの観察されたタスクから事前を推測することを目的としており、わずかな例で新しいタスクに適応するために使用できる。 既存のベンチマークで生じるタスクの固有の多様性を考えると、最近の手法では、階層やグラフのような独立した学習可能な構造を用いて、タスク固有の事前適応を可能にする。 これらのアプローチはメタ学習者を大幅に改善する一方で、異種タスクの分散が分散シフトと意味的差異に挑戦している場合に、そのパフォーマンスを向上させることを目標としています。 この目的のために我々は,知識グラフを進化させ,歴史的経験を効果的にエンコードする知識強調学習のための新しいアプローチであるCAML(Contrastive Knowledge-Augmented Meta Learning)を導入する。 標準ベンチマークを用いて,各学習シナリオにおけるcamlの性能評価を行った。 標準的なマイナショットタスク適応に加えて、より困難なマルチドメインタスク適応とマイナショットデータセットの一般化設定を経験的研究で検討する。 以上の結果から,CAMLはよく知られた手法を一貫して上回り,一般化の向上を実現している。

Model agnostic meta-learning algorithms aim to infer priors from several observed tasks that can then be used to adapt to a new task with few examples. Given the inherent diversity of tasks arising in existing benchmarks, recent methods use separate, learnable structure, such as hierarchies or graphs, for enabling task-specific adaptation of the prior. While these approaches have produced significantly better meta learners, our goal is to improve their performance when the heterogeneous task distribution contains challenging distribution shifts and semantic disparities. To this end, we introduce CAML (Contrastive Knowledge-Augmented Meta Learning), a novel approach for knowledge-enhanced few-shot learning that evolves a knowledge graph to effectively encode historical experience, and employs a contrastive distillation strategy to leverage the encoded knowledge for task-aware modulation of the base learner. Using standard benchmarks, we evaluate the performance of CAML in different few-shot learning scenarios. In addition to the standard few-shot task adaptation, we also consider the more challenging multi-domain task adaptation and few-shot dataset generalization settings in our empirical studies. Our results shows that CAML consistently outperforms best known approaches and achieves improved generalization.
翻訳日:2022-07-26 15:23:28 公開日:2022-07-25
# 形式的特性探索による近似加速器のエネルギー効率DNN推定

Energy-efficient DNN Inference on Approximate Accelerators Through Formal Property Exploration ( http://arxiv.org/abs/2207.12350v1 )

ライセンス: Link先を確認
Ourania Spantidi, Georgios Zervakis, Iraklis Anagnostopoulos and J\"org Henkel(参考訳) ディープニューラルネットワーク(DNN)は、現代のアプリケーションで多用されており、テストにエネルギー制約デバイスを配置している。 高エネルギー消費問題を回避するため、DNNアクセラレーターで近似計算が採用され、精度-エネルギー削減トレードオフのバランスが取れている。 しかし、近似による精度損失は非常に高く、DNNの性能が大幅に低下する可能性がある。 したがって、許容できるDNNの精度を維持するために特定のDNN演算を近似に割り当て、低エネルギー消費を達成するための微粒化機構が必要である。 本稿では,DNN加速器の形式的特性探索を可能にする重み-近似マッピングの自動フレームワークを提案する。 MAC単位レベルでは,既存のエネルギー効率のマッピングを$\times2$以上のエネルギーゲインで上回り,導入した近似に対する微粒化制御も大きく支持した。

Deep Neural Networks (DNNs) are being heavily utilized in modern applications and are putting energy-constraint devices to the test. To bypass high energy consumption issues, approximate computing has been employed in DNN accelerators to balance out the accuracy-energy reduction trade-off. However, the approximation-induced accuracy loss can be very high and drastically degrade the performance of the DNN. Therefore, there is a need for a fine-grain mechanism that would assign specific DNN operations to approximation in order to maintain acceptable DNN accuracy, while also achieving low energy consumption. In this paper, we present an automated framework for weight-to-approximation mapping enabling formal property exploration for approximate DNN accelerators. At the MAC unit level, our experimental evaluation surpassed already energy-efficient mappings by more than $\times2$ in terms of energy gains, while also supporting significantly more fine-grain control over the introduced approximation.
翻訳日:2022-07-26 15:23:06 公開日:2022-07-25
# 一段階の等角予測近似のための信頼深い学習損失関数

A Confident Deep Learning loss function for one-step Conformal Prediction approximation ( http://arxiv.org/abs/2207.12377v1 )

ライセンス: Link先を確認
Julia A. Meister, Khuong An Nguyen, Zhiyuan Luo(参考訳) 信頼度を計測可能なディープラーニング予測は、特にリスクの高い環境では、現実の問題に対してますます望ましい。 Conformal Prediction (CP)フレームワークは、最大エラー率を自動的に保証する汎用的なソリューションである。 しかし、cpは大規模なデータセットへの応用を制限する計算効率の非効率に苦しむ。 本稿では,従来の2ステップCPアプローチを1ステップで近似する新しい共形損失関数を提案する。 入力データと共形p値との直接関係を深層学習モデルにより学習することができる。 提案手法は,CP近似式であるAggregated Conformal Prediction (ACP)と比較して,最大86%のトレーニング時間短縮を実現する。 近似妥当性と予測効率の面では、よく確立されたMNISTデータセット上で、新しい損失関数のACPとの競合性を示すための総合的な実験的な評価を行う。

Deep Learning predictions with measurable confidence are increasingly desirable for real-world problems, especially in high-risk settings. The Conformal Prediction (CP) framework is a versatile solution that automatically guarantees a maximum error rate. However, CP suffers from computational inefficiencies that limit its application to large-scale datasets. In this paper, we propose a novel conformal loss function that approximates the traditionally two-step CP approach in a single step. By evaluating and penalising deviations from the stringent expected CP output distribution, a Deep Learning model may learn the direct relationship between input data and conformal p-values. Our approach achieves significant training time reductions up to 86% compared to Aggregated Conformal Prediction (ACP), an accepted CP approximation variant. In terms of approximate validity and predictive efficiency, we carry out a comprehensive empirical evaluation to show our novel loss function's competitiveness with ACP on the well-established MNIST dataset.
翻訳日:2022-07-26 15:22:50 公開日:2022-07-25
# HIRE:不均一グラフニューラルネットワークによる高次関係知識の蒸留

HIRE: Distilling High-order Relational Knowledge From Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2207.11887v1 )

ライセンス: Link先を確認
Jing Liu, Tongya Zheng, and Qinfen Hao(参考訳) 研究者は最近、学術分野と産業分野の両方で異種グラフが多用されているため、多くの異種グラフニューラルネットワーク(HGNN)を提案している。 本稿では,より強力なHGNNモデルを追求する代わりに,事前学習したHGNNから関係知識を抽出する多目的プラグアンドプレイモジュールの開発に関心がある。 私たちの知る限りでは、ヘテロジニアスグラフ上のハイ次関係性(hire)知識蒸留フレームワークを最初に提案し、hgnnのモデルアーキテクチャに関係なく予測性能を大幅に向上させることができた。 具体的には、HIREフレームワークは、まず第一級ノードレベルの知識蒸留を行い、教師HGNNのセマンティクスを予測ロジットでエンコードする。 一方,2次関係レベルの知識蒸留は,教師HGNNが生成した異なるタイプのノード埋め込み間の関係関係を模倣する。 各種HGNNモデルと3つの実世界の異種グラフの大規模な実験により,本手法が一貫した性能向上を実現し,その有効性と一般化能力を示す。

Researchers have recently proposed plenty of heterogeneous graph neural networks (HGNNs) due to the ubiquity of heterogeneous graphs in both academic and industrial areas. Instead of pursuing a more powerful HGNN model, in this paper, we are interested in devising a versatile plug-and-play module, which accounts for distilling relational knowledge from pre-trained HGNNs. To the best of our knowledge, we are the first to propose a HIgh-order RElational (HIRE) knowledge distillation framework on heterogeneous graphs, which can significantly boost the prediction performance regardless of model architectures of HGNNs. Concretely, our HIRE framework initially performs first-order node-level knowledge distillation, which encodes the semantics of the teacher HGNN with its prediction logits. Meanwhile, the second-order relation-level knowledge distillation imitates the relational correlation between node embeddings of different types generated by the teacher HGNN. Extensive experiments on various popular HGNNs models and three real-world heterogeneous graphs demonstrate that our method obtains consistent and considerable performance enhancement, proving its effectiveness and generalization ability.
翻訳日:2022-07-26 15:18:11 公開日:2022-07-25
# ハッシュスクリーニングとウィンドウスクリーニングを備えたディープフォレスト

Deep Forest with Hashing Screening and Window Screening ( http://arxiv.org/abs/2207.11951v1 )

ライセンス: Link先を確認
Pengfei Ma, Youxi Wu, Yan Li, Lei Guo, He Jiang, Xingquan Zhu, and Xindong Wu(参考訳) 新たなディープラーニングモデルとして、gcForestは様々なアプリケーションで広く利用されている。 しかし、gcforestの現在の多粒度スキャンは多くの冗長な特徴ベクトルを生成するため、モデルの時間コストが増大する。 冗長な特徴ベクトルをスクリーニングするために,多粒度走査のためのハッシュスクリーニング機構を導入し,ハッシュスクリーニングとウィンドウスクリーニングという2つの戦略を採用したHWフォレストモデルを提案する。 hw-forestは、多粒度走査によって生成される冗長な特徴ベクトルを除去し、時間コストとメモリ消費を大幅に削減するハッシュスクリーニング戦略において、特徴ベクトル間の類似性を計算するために知覚ハッシュアルゴリズムを採用している。 さらに,提案手法の性能を向上させるために,自己適応型インスタンススクリーニング手法を採用し,異なるデータセットにハイパーパラメータをチューニングすることなく,高い精度を実現することができる。 実験の結果,HW-Forestは他のモデルよりも精度が高く,時間コストも低減された。

As a novel deep learning model, gcForest has been widely used in various applications. However, the current multi-grained scanning of gcForest produces many redundant feature vectors, and this increases the time cost of the model. To screen out redundant feature vectors, we introduce a hashing screening mechanism for multi-grained scanning and propose a model called HW-Forest which adopts two strategies, hashing screening and window screening. HW-Forest employs perceptual hashing algorithm to calculate the similarity between feature vectors in hashing screening strategy, which is used to remove the redundant feature vectors produced by multi-grained scanning and can significantly decrease the time cost and memory consumption. Furthermore, we adopt a self-adaptive instance screening strategy to improve the performance of our approach, called window screening, which can achieve higher accuracy without hyperparameter tuning on different datasets. Our experimental results show that HW-Forest has higher accuracy than other models, and the time cost is also reduced.
翻訳日:2022-07-26 15:17:47 公開日:2022-07-25
# 効率性とスケーラビリティを向上させるGNN変換フレームワーク

GNN Transformation Framework for Improving Efficiency and Scalability ( http://arxiv.org/abs/2207.12000v1 )

ライセンス: Link先を確認
Seiji Maekawa, Yuya Sasaki, George Fletcher, Makoto Onizuka(参考訳) 本稿では,非スケーラブルGNNを,大規模グラフに対して効率的かつスケーラブルなプリ計算ベースGNNに自動変換するフレームワークを提案する。 私たちのフレームワークの利点は2つあります。 1) グラフ畳み込みにおいて, 局所的特徴集約と重み学習を分離することにより, 様々な非スケーリングGNNを大規模グラフに拡張する。 2) エッジを小さな不整合と平衡集合に分解することで,GPUの大規模グラフに対する事前計算を効率的に行う。 大規模グラフを用いた広範囲な実験により、変換されたGNNは既存のGNNよりも訓練時間で高速に動作し、最先端のGNNと競合する精度を達成できることを示した。 その結果,我々のトランスフォーメーションフレームワークは,スケーラブルなGNNの今後の研究にシンプルで効率的なベースラインを提供する。

We propose a framework that automatically transforms non-scalable GNNs into precomputation-based GNNs which are efficient and scalable for large-scale graphs. The advantages of our framework are two-fold; 1) it transforms various non-scalable GNNs to scale well to large-scale graphs by separating local feature aggregation from weight learning in their graph convolution, 2) it efficiently executes precomputation on GPU for large-scale graphs by decomposing their edges into small disjoint and balanced sets. Through extensive experiments with large-scale graphs, we demonstrate that the transformed GNNs run faster in training time than existing GNNs while achieving competitive accuracy to the state-of-the-art GNNs. Consequently, our transformation framework provides simple and efficient baselines for future research on scalable GNNs.
翻訳日:2022-07-26 15:17:30 公開日:2022-07-25
# 容量ネットワークを用いた有効かつ解釈可能な情報集約

Effective and Interpretable Information Aggregation with Capacity Networks ( http://arxiv.org/abs/2207.12013v1 )

ライセンス: Link先を確認
Markus Zopf(参考訳) 複数のインスタンスから情報を集約する方法は、複数のインスタンス学習の重要な疑問である。 以前のニューラルモデルは、よく知られたエンコーダ・デコーダ戦略の異なる変種を実装しており、すべての入力特徴が単一の高次元埋め込みを符号化され、出力を生成するためにデコードされる。 本研究は,コケ容量に触発され,キャパシティネットワークを提案する。 エンコーダ・デコーダとは異なり、キャパシティネットワークは複数の解釈可能な中間結果を生成し、意味的に意味のある空間に集約して最終的な出力を得る。 この単純な帰納バイアスを実装することで、様々なエンコーダ・デコーダアーキテクチャを幅広い実験で改善できることを示す。 さらに、解釈可能な中間結果はキャパシティネットワークを設計によって解釈可能とし、ネットワーク内部を意味的に有意義な検査、評価、正規化を可能にする。

How to aggregate information from multiple instances is a key question multiple instance learning. Prior neural models implement different variants of the well-known encoder-decoder strategy according to which all input features are encoded a single, high-dimensional embedding which is then decoded to generate an output. In this work, inspired by Choquet capacities, we propose Capacity networks. Unlike encoder-decoders, Capacity networks generate multiple interpretable intermediate results which can be aggregated in a semantically meaningful space to obtain the final output. Our experiments show that implementing this simple inductive bias leads to improvements over different encoder-decoder architectures in a wide range of experiments. Moreover, the interpretable intermediate results make Capacity networks interpretable by design, which allows a semantically meaningful inspection, evaluation, and regularization of the network internals.
翻訳日:2022-07-26 15:17:17 公開日:2022-07-25
# 周期的MDPのためのオンライン強化学習

Online Reinforcement Learning for Periodic MDP ( http://arxiv.org/abs/2207.12045v1 )

ライセンス: Link先を確認
Ayush Aniket and Arpan Chattopadhyay(参考訳) 我々は, 平均報酬最大化設定の下で, 状態遷移確率と報酬関数の両方が周期的に変化する特別な非定常MDPである周期的マルコフ決定過程(MDP)の学習について検討した。 本稿では,周期指数で状態空間を補足し,定常mdpとして問題を定式化し,周期的upper confidence bound reinforcement learning-2 (pucrl2) アルゴリズムを提案する。 PUCRL2の後悔は周期とともに直線的に変化し,水平線長のサブ線形として現れることを示す。 PUCRL2の有効性を示した。

We study learning in periodic Markov Decision Process(MDP), a special type of non-stationary MDP where both the state transition probabilities and reward functions vary periodically, under the average reward maximization setting. We formulate the problem as a stationary MDP by augmenting the state space with the period index, and propose a periodic upper confidence bound reinforcement learning-2 (PUCRL2) algorithm. We show that the regret of PUCRL2 varies linearly with the period and as sub-linear with the horizon length. Numerical results demonstrate the efficacy of PUCRL2.
翻訳日:2022-07-26 15:17:03 公開日:2022-07-25
# Live in the Moment: 政策の進化に適応した学習ダイナミクスモデル

Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy ( http://arxiv.org/abs/2207.12141v1 )

ライセンス: Link先を確認
Xiyao Wang, Wichayaporn Wongkamjan, Furong Huang(参考訳) モデルベース強化学習(RL)は、動的モデルを学び、政策学習のためのサンプルを生成することにより、モデルフリーRLよりも実際に高いサンプル効率を実現する。 以前の研究は、すべての歴史的政策のステートアクション訪問分布に適合する「グローバル」ダイナミクスモデルを学ぶ。 しかし,本稿では,グローバルなダイナミックスモデルを学習することは,使用中のポリシーが常に進化しているため,現在のポリシーのモデル予測に必ずしも利益をもたらすとは限らない。 トレーニング中のポリシーの進化は、状態行動の訪問分布の変化を引き起こす。 歴史的政策の分布がモデル学習とモデル展開に与える影響を理論的に解析する。 次に、ポリシー適応機構に基づいてポリシー適応動的モデルを学ぶ、新しいモデルベースRL法である「textit{Policy-adaptation Model-based Actor-Critic (PMAC)}を提案する。 このメカニズムは歴史的政策混合分布を動的に調整し、学習したモデルが進化した政策の状態-行動訪問分布に継続的に適応できるようにする。 MuJoCoにおける一連の連続制御環境の実験では、PMACは最先端の漸近的性能を達成し、サンプル効率は従来のモデルベース手法よりも約2倍高い。

Model-based reinforcement learning (RL) achieves higher sample efficiency in practice than model-free RL by learning a dynamics model to generate samples for policy learning. Previous works learn a "global" dynamics model to fit the state-action visitation distribution for all historical policies. However, in this paper, we find that learning a global dynamics model does not necessarily benefit model prediction for the current policy since the policy in use is constantly evolving. The evolving policy during training will cause state-action visitation distribution shifts. We theoretically analyze how the distribution of historical policies affects the model learning and model rollouts. We then propose a novel model-based RL method, named \textit{Policy-adaptation Model-based Actor-Critic (PMAC)}, which learns a policy-adapted dynamics model based on a policy-adaptation mechanism. This mechanism dynamically adjusts the historical policy mixture distribution to ensure the learned model can continually adapt to the state-action visitation distribution of the evolving policy. Experiments on a range of continuous control environments in MuJoCo show that PMAC achieves state-of-the-art asymptotic performance and almost two times higher sample efficiency than prior model-based methods.
翻訳日:2022-07-26 15:16:28 公開日:2022-07-25
# 点雲蓄積による動的3次元シーン解析

Dynamic 3D Scene Analysis by Point Cloud Accumulation ( http://arxiv.org/abs/2207.12394v1 )

ライセンス: Link先を確認
Shengyu Huang, Zan Gojcic, Jiahui Huang, Andreas Wieser, Konrad Schindler(参考訳) 自動運転車や移動ロボットで使用されるマルチビームLiDARセンサーは、3Dレンジスキャン(フレーム)のシーケンスを取得する。 各フレームは、角走査の解像度と閉塞が制限されたため、シーンをまばらに覆っている。 空間性は、セマンティックセグメンテーションや表面再構成のような下流プロセスのパフォーマンスを制限する。 幸いなことに、センサーが動くと、異なる視点からフレームをキャプチャする。 これは補完的な情報を提供し、共通のシーン座標フレームに蓄積されると、より密集したサンプリングと基礎となる3dシーンのより完全なカバレッジが得られる。 しかし、しばしばスキャンされたシーンは動く物体を含んでいる。 これらのオブジェクトのポイントは、スキャナのエゴモーションを解除することで、正しく一致しない。 本稿では,3次元スキャンシーケンスの中間レベル表現としての多フレーム点雲の蓄積について検討し,その幾何学的レイアウトやオブジェクトレベルの剛性を含む屋外ストリートシーンの帰納バイアスを利用する手法を開発した。 現状のシーンフロー推定器と比較して,提案手法は,各オブジェクト上の点を正確に蓄積する共通参照フレーム内のすべての3D点を整列することを目的としている。 提案手法は,複数のベンチマークデータセットのアライメントエラーを大幅に低減する。 さらに、蓄積されたポイントクラウドは、表面再構築のようなハイレベルなタスクに役立つ。

Multi-beam LiDAR sensors, as used on autonomous vehicles and mobile robots, acquire sequences of 3D range scans ("frames"). Each frame covers the scene sparsely, due to limited angular scanning resolution and occlusion. The sparsity restricts the performance of downstream processes like semantic segmentation or surface reconstruction. Luckily, when the sensor moves, frames are captured from a sequence of different viewpoints. This provides complementary information and, when accumulated in a common scene coordinate frame, yields a denser sampling and a more complete coverage of the underlying 3D scene. However, often the scanned scenes contain moving objects. Points on those objects are not correctly aligned by just undoing the scanner's ego-motion. In the present paper, we explore multi-frame point cloud accumulation as a mid-level representation of 3D scan sequences, and develop a method that exploits inductive biases of outdoor street scenes, including their geometric layout and object-level rigidity. Compared to state-of-the-art scene flow estimators, our proposed approach aims to align all 3D points in a common reference frame correctly accumulating the points on the individual objects. Our approach greatly reduces the alignment errors on several benchmark datasets. Moreover, the accumulated point clouds benefit high-level tasks like surface reconstruction.
翻訳日:2022-07-26 15:07:25 公開日:2022-07-25
# 画像のルックアンドフィールを評価するCLIPの探索

Exploring CLIP for Assessing the Look and Feel of Images ( http://arxiv.org/abs/2207.12396v1 )

ライセンス: Link先を確認
Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy(参考訳) 視覚コンテンツの知覚を測定することは、コンピュータビジョンにおける長年の問題である。 画像の外観や品質を評価するために多くの数学的モデルが開発されている。 このようなツールがノイズやぼかしレベルなどの劣化の定量化に有効であるにもかかわらず、そのような定量化は人間の言語と疎結合である。 視覚的コンテンツの感覚に関するより抽象的な認識に関しては、既存の手法は厳格なユーザー研究を通じて収集されたラベル付きデータで明示的に訓練された教師付きモデルにのみ依存する。 本稿では,画像の品質知覚(ルック)と抽象知覚(フェル)の両方をゼロショットで評価するために,コントラスト言語・イメージ事前学習(clip)モデルにカプセル化されたリッチビジュアル言語を探索することで,従来のパラダイムを超越する。 特に,実効的なプロンプト設計を議論し,前者を活用する効果的なプロンプトペアリング戦略を示す。 また、制御されたデータセットと画像品質評価(IQA)ベンチマークについて広範な実験を行った。 以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。 コードはhttps://github.com/IceClear/CLIP-IQAで無効になる。

Measuring the perception of visual content is a long-standing problem in computer vision. Many mathematical models have been developed to evaluate the look or quality of an image. Despite the effectiveness of such tools in quantifying degradations such as noise and blurriness levels, such quantification is loosely coupled with human language. When it comes to more abstract perception about the feel of visual content, existing methods can only rely on supervised models that are explicitly trained with labeled data collected via laborious user study. In this paper, we go beyond the conventional paradigms by exploring the rich visual language prior encapsulated in Contrastive Language-Image Pre-training (CLIP) models for assessing both the quality perception (look) and abstract perception (feel) of images in a zero-shot manner. In particular, we discuss effective prompt designs and show an effective prompt pairing strategy to harness the prior. We also provide extensive experiments on controlled datasets and Image Quality Assessment (IQA) benchmarks. Our results show that CLIP captures meaningful priors that generalize well to different perceptual assessments. Code will be avaliable at https://github.com/IceClear/CLIP-IQA.
翻訳日:2022-07-26 15:07:06 公開日:2022-07-25
# トランスフォーマーを用いた深部腹腔鏡ステレオマッチング

Deep Laparoscopic Stereo Matching with Transformers ( http://arxiv.org/abs/2207.12152v1 )

ライセンス: Link先を確認
Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, Tom Drummond, Zhiyong Wang, and Zongyuan Ge(参考訳) 画像認識や物体検出を含む多くのコンピュータビジョンタスクにおいて、トランスフォーマー構造をうまく活用する自己認識機構が約束されている。 急上昇にもかかわらず、ステレオマッチングの問題に対するトランスフォーマーの使用は比較的未検討のままである。 本稿では,特に腹腔鏡映像におけるステレオマッチング問題に対するトランスフォーマーの使用を包括的に検討し,cnnとトランスフォーマーのベストを統一した新しいハイブリッド型ディープステレオマッチングフレームワーク(hybridstereonet)を提案する。 具体的には,設計のロスランドスケープとドメイン内/ドメイン間精度を解析し,ボリューム的ステレオマッチングパイプラインにトランスフォーマーを導入する方法について検討する。 分析の結果,特徴表現学習にトランスフォーマーを用いる場合,コスト集約にCNNを用いる場合,コンバージェンスが早くなり,精度が向上し,他の選択肢よりも一般化性が向上することが示唆された。 Sceneflow、SCARED2019、dVPNデータセットに関する広範な実験は、HybridStereoNetの優れたパフォーマンスを示しています。

The self-attention mechanism, successfully employed with the transformer structure is shown promise in many computer vision tasks including image recognition, and object detection. Despite the surge, the use of the transformer for the problem of stereo matching remains relatively unexplored. In this paper, we comprehensively investigate the use of the transformer for the problem of stereo matching, especially for laparoscopic videos, and propose a new hybrid deep stereo matching framework (HybridStereoNet) that combines the best of the CNN and the transformer in a unified design. To be specific, we investigate several ways to introduce transformers to volumetric stereo matching pipelines by analyzing the loss landscape of the designs and in-domain/cross-domain accuracy. Our analysis suggests that employing transformers for feature representation learning, while using CNNs for cost aggregation will lead to faster convergence, higher accuracy and better generalization than other options. Our extensive experiments on Sceneflow, SCARED2019 and dVPN datasets demonstrate the superior performance of our HybridStereoNet.
翻訳日:2022-07-26 15:00:59 公開日:2022-07-25
# マルチスケールRAFT:学習型光フラウ推定のための階層的概念の組み合わせ

Multi-Scale RAFT: Combining Hierarchical Concepts for Learning-based Optical FLow Estimation ( http://arxiv.org/abs/2207.12163v1 )

ライセンス: Link先を確認
Azin Jahedi, Lukas Mehl, Marc Rivinius, Andr\'es Bruhn(参考訳) 多くの古典的および学習的光学フロー法は、精度と堅牢性の両方を改善するために階層的概念に依存している。 しかし、現在最も成功したアプローチの1つ、RAFTは、そのような概念をほとんど利用していない。 本稿では,マルチスケールなアイデアが依然として有用であることを示す。 より正確には、RAFTをベースラインとして、単一推定フレームワーク内に複数の階層的概念を組み合わせた新しいマルチスケールニューラルネットワークを提案する。 これらの概念には (i)部分的に共有された粗雑な建築 (ii)マルチスケール機能 (iii)階層的なコストボリュームと (iv)マルチスケールマルチイテレーション損失。 MPIシンテルとKITTIの実験は、我々のアプローチの利点を明確に示している。 RAFTに比べて大幅に改善されているだけでなく、特に非閉塞領域における最先端の結果も示している。 コードはhttps://github.com/cv-stuttgart/MS_RAFT.comから入手できる。

Many classical and learning-based optical flow methods rely on hierarchical concepts to improve both accuracy and robustness. However, one of the currently most successful approaches -- RAFT -- hardly exploits such concepts. In this work, we show that multi-scale ideas are still valuable. More precisely, using RAFT as a baseline, we propose a novel multi-scale neural network that combines several hierarchical concepts within a single estimation framework. These concepts include (i) a partially shared coarse-to-fine architecture, (ii) multi-scale features, (iii) a hierarchical cost volume and (iv) a multi-scale multi-iteration loss. Experiments on MPI Sintel and KITTI clearly demonstrate the benefits of our approach. They show not only substantial improvements compared to RAFT, but also state-of-the-art results -- in particular in non-occluded regions. Code will be available at https://github.com/cv-stuttgart/MS_RAFT.
翻訳日:2022-07-26 15:00:41 公開日:2022-07-25
# ポテンシャルエネルギーランキングによるドメインのデコレーション

Domain Decorrelation with Potential Energy Ranking ( http://arxiv.org/abs/2207.12194v1 )

ライセンス: Link先を確認
Sen Pei, Jiaxi Sun, Shiming Ciang, Gaofeng Meng(参考訳) 機械学習システム、特にディープラーニングに基づく手法は、実験環境下での現代のコンピュータビジョンタスクで大きな成功を収めている。 一般に、これらの古典的なディープラーニング手法は、emph{i.d.}仮定に基づいて構築され、トレーニングとテストデータの仮定は、同じ分布から独立かつ同一に描画される。 しかし、前述の 'emph{i.d.} 仮定は一般に現実世界のシナリオでは不可能であり、結果としてディープラーニングアルゴリズムのパフォーマンスが急落する。 この背景には、ドメインシフトが非難される主な要因の1つです。 この問題に対処するために、オブジェクトと背景の無関係な相関関係をフィルタリングしながらラベル識別特徴の学習を促進するために、オブジェクト特徴とドメイン特徴(\emph{i.e.}外見特徴)を分離するために \textbf{Po}tential \textbf{E}nergy \textbf{R}anking (PoER) を用いることを提案する。 poerはニューラルネットワークが、まず浅い層にドメイン情報を含むラベル関連の特徴をキャプチャし、次にラベル識別表現を段階的に抽出し、ドメイン不変な特徴の生成に不可欠なオブジェクトと背景の特性を認識するようにニューラルネットワークを強制する。 PoERは、ドメイン一般化ベンチマークで優れたパフォーマンスを報告し、既存の手法と比較して平均トップ1の精度を少なくとも1.20倍改善した。 さらに、私たちはeccv 2022 nico challenge\footnote{https://nicochallenge.com}でpoerを使い、バニラresnet-18でトップに立った。 コードはhttps://github.com/foreverps/poerで入手できる。

Machine learning systems, especially the methods based on deep learning, enjoy great success in modern computer vision tasks under experimental settings. Generally, these classic deep learning methods are built on the \emph{i.i.d.} assumption, supposing the training and test data are drawn from a similar distribution independently and identically. However, the aforementioned \emph{i.i.d.} assumption is in general unavailable in the real-world scenario, and as a result, leads to sharp performance decay of deep learning algorithms. Behind this, domain shift is one of the primary factors to be blamed. In order to tackle this problem, we propose using \textbf{Po}tential \textbf{E}nergy \textbf{R}anking (PoER) to decouple the object feature and the domain feature (\emph{i.e.,} appearance feature) in given images, promoting the learning of label-discriminative features while filtering out the irrelevant correlations between the objects and the background. PoER helps the neural networks to capture label-related features which contain the domain information first in shallow layers and then distills the label-discriminative representations out progressively, enforcing the neural networks to be aware of the characteristic of objects and background which is vital to the generation of domain-invariant features. PoER reports superior performance on domain generalization benchmarks, improving the average top-1 accuracy by at least 1.20\% compared to the existing methods. Moreover, we use PoER in the ECCV 2022 NICO Challenge\footnote{https://nicochallenge.com}, achieving top place with only a vanilla ResNet-18. The code has been made available at https://github.com/ForeverPs/PoER.
翻訳日:2022-07-26 15:00:28 公開日:2022-07-25
# YOLOv7とDeepSORTに基づくビデオオブジェクトのトラッキング

Video object tracking based on YOLOv7 and DeepSORT ( http://arxiv.org/abs/2207.12202v1 )

ライセンス: Link先を確認
Feng Yang, Xingle Zhang, Bo Liu(参考訳) 複数物体追跡(MOT)はコンピュータビジョンの分野で重要な技術であり、自動駆動、インテリジェントな監視、行動認識などの方向で広く利用されている。 現在広く使われているディープラーニングに基づくMOT手法のうち、DBTは業界で最も広く使われている手法であり、それらの性能はオブジェクト検出ネットワークに依存している。 現在、DBTアルゴリズムは性能が良く、最も広く使われているのはYOLOv5-DeepSORTである。 オブジェクト検出に優れたYOLOv7ネットワークを提案することで、YOLOv5-DeepSORTにインスパイアされ、オブジェクト検出部としてYOLOv7を適用し、YOLOv7-DeepSORTを提案する。 実験の結果、従来のYOLOv5-DeepSORTと比較して、YOLOv7-DeepSORTの性能はトラッキング精度が向上した。

Multiple object tracking (MOT) is an important technology in the field of computer vision, which is widely used in automatic driving, intelligent monitoring, behavior recognition and other directions. Among the current popular MOT methods based on deep learning, Detection Based Tracking (DBT) is the most widely used in industry, and the performance of them depend on their object detection network. At present, the DBT algorithm with good performance and the most widely used is YOLOv5-DeepSORT. Inspired by YOLOv5-DeepSORT, with the proposal of YOLOv7 network, which performs better in object detection, we apply YOLOv7 as the object detection part to the DeepSORT, and propose YOLOv7-DeepSORT. After experimental evaluation, compared with the previous YOLOv5-DeepSORT, YOLOv7-DeepSORT performances better in tracking accuracy.
翻訳日:2022-07-26 14:59:51 公開日:2022-07-25
# ArtFID:ニューラルスタイル伝達の定量的評価

ArtFID: Quantitative Evaluation of Neural Style Transfer ( http://arxiv.org/abs/2207.12280v1 )

ライセンス: Link先を確認
Matthias Wright and Bj\"orn Ommer(参考訳) ニューラルスタイルのトランスファーの分野は、最適化ベースのアプローチやフィードフォワードモデルからメタ学習方法まで、さまざまな方法を研究する研究が急増している。 開発された技術は、スタイル転送の分野を進歩させただけでなく、視覚合成など他の分野のコンピュータビジョンにもブレークスルーをもたらした。 しかし、定量的評価とベンチマークはコンピュータビジョン研究の柱となっているが、スタイル伝達モデルの再現性や定量的評価はまだ欠けている。 広く使用されているメトリクスが存在する視覚合成の他の分野と比較しても、スタイル転送の定量的評価は遅れている。 異なるスタイル伝達アプローチの自動比較とそれぞれの強度と弱みの研究を支援するため、スタイライゼーション性能の定量的測定から大きな恩恵を受けることができた。 そこで本研究では,現在の定性評価手法を補完する手法を提案する。 提案手法が人間の判断と強く一致することを示すために,広範囲な評価と大規模ユーザ調査を行った。

The field of neural style transfer has experienced a surge of research exploring different avenues ranging from optimization-based approaches and feed-forward models to meta-learning methods. The developed techniques have not just progressed the field of style transfer, but also led to breakthroughs in other areas of computer vision, such as all of visual synthesis. However, whereas quantitative evaluation and benchmarking have become pillars of computer vision research, the reproducible, quantitative assessment of style transfer models is still lacking. Even in comparison to other fields of visual synthesis, where widely used metrics exist, the quantitative evaluation of style transfer is still lagging behind. To support the automatic comparison of different style transfer approaches and to study their respective strengths and weaknesses, the field would greatly benefit from a quantitative measurement of stylization performance. Therefore, we propose a method to complement the currently mostly qualitative evaluation schemes. We provide extensive evaluations and a large-scale user study to show that the proposed metric strongly coincides with human judgment.
翻訳日:2022-07-26 14:59:36 公開日:2022-07-25
# ケージ付き放射フィールドの変形

Deforming Radiance Fields with Cages ( http://arxiv.org/abs/2207.12298v1 )

ライセンス: Link先を確認
Tianhan Xu and Tatsuya Harada(参考訳) 近年のラジアンスフィールドの進歩により、静的または動的3Dシーンのフォトリアリスティックレンダリングが可能になったが、シーン操作やアニメーションに使用される明示的な変形はサポートされていない。 本稿では,自由形放射場変形という,新しい種類の放射場変形を可能にする手法を提案する。 我々は,前景のケージと呼ばれる物体をインターフェースとして囲む三角形メッシュを用い,ケージ頂点を操作することにより,放射場の自由変形を可能にする。 我々のアプローチの核心はケージに基づく変形であり、メッシュの変形によく用いられる。 そこで我々は,これを放射場に拡張する新しい定式化を提案し,この方法により,サンプリング点の位置と視線方向を変形空間から標準空間にマッピングし,変形シーンのレンダリングを可能にする。 合成データセットと実世界のデータセットの変形結果から,本手法の有効性を示す。

Recent advances in radiance fields enable photorealistic rendering of static or dynamic 3D scenes, but still do not support explicit deformation that is used for scene manipulation or animation. In this paper, we propose a method that enables a new type of deformation of the radiance field: free-form radiance field deformation. We use a triangular mesh that encloses the foreground object called cage as an interface, and by manipulating the cage vertices, our approach enables the free-form deformation of the radiance field. The core of our approach is cage-based deformation which is commonly used in mesh deformation. We propose a novel formulation to extend it to the radiance field, which maps the position and the view direction of the sampling points from the deformed space to the canonical space, thus enabling the rendering of the deformed scene. The deformation results of the synthetic datasets and the real-world datasets demonstrate the effectiveness of our approach.
翻訳日:2022-07-26 14:59:19 公開日:2022-07-25
# ラベル効率半教師付きアクティブラーニングにおけるラベルなしデータの多様性の活用

Exploiting Diversity of Unlabeled Data for Label-Efficient Semi-Supervised Active Learning ( http://arxiv.org/abs/2207.12302v1 )

ライセンス: Link先を確認
Felix Buchert, Nassir Navab, Seong Tae Kim(参考訳) 大規模ラベル付きデータセットの可用性は、ディープラーニングの成功の鍵となるコンポーネントである。 しかし、大規模なデータセットにラベルをアノテートするのは一般的に時間と費用がかかる。 アクティブラーニング(active learning)は、最も重要なラベリングサンプルを選択することで、高価なラベリングの問題に対処する研究領域である。 多様性に基づくサンプリングアルゴリズムは、アクティブラーニングのための表現ベースアプローチの不可欠なコンポーネントとして知られています。 本稿では,新しい多様性に基づく初期データセット選択アルゴリズムを導入し,アクティブな学習環境における初期ラベル付けのための最も情報に富んだサンプルを選定する。 自己教師付き表現学習は、初期データセット選択アルゴリズムにおけるサンプルの多様性を検討するために用いられる。 また,一貫性に基づく組込みに多様性に基づくサンプリングを用いる,新しいアクティブラーニングクエリ戦略を提案する。 整合性に基づく埋め込み方式の多様性と整合性を考慮し、半教師付き学習環境におけるラベル付けのためのより情報的なサンプルを選択することができる。 比較実験により,従来のアクティブラーニング手法に比べてcifar-101データセットとcaltech-101データセットで有意な結果を得た。

The availability of large labeled datasets is the key component for the success of deep learning. However, annotating labels on large datasets is generally time-consuming and expensive. Active learning is a research area that addresses the issues of expensive labeling by selecting the most important samples for labeling. Diversity-based sampling algorithms are known as integral components of representation-based approaches for active learning. In this paper, we introduce a new diversity-based initial dataset selection algorithm to select the most informative set of samples for initial labeling in the active learning setting. Self-supervised representation learning is used to consider the diversity of samples in the initial dataset selection algorithm. Also, we propose a novel active learning query strategy, which uses diversity-based sampling on consistency-based embeddings. By considering the consistency information with the diversity in the consistency-based embedding scheme, the proposed method could select more informative samples for labeling in the semi-supervised learning setting. Comparative experiments show that the proposed method achieves compelling results on CIFAR-10 and Caltech-101 datasets compared with previous active learning approaches by utilizing the diversity of unlabeled data.
翻訳日:2022-07-26 14:59:04 公開日:2022-07-25
# ビデオフレーム補間のための誤り認識空間アンサンブル

Error-Aware Spatial Ensembles for Video Frame Interpolation ( http://arxiv.org/abs/2207.12305v1 )

ライセンス: Link先を確認
Zhixiang Chi, Rasoul Mohammadi Nasiri, Zheng Liu, Yuanhao Yu, Juwei Lu, Jin Tang, Konstantinos N Plataniotis(参考訳) ビデオフレーム補間〜(VFI)アルゴリズムは、近年、データ駆動アルゴリズムとその実装において前例のない進歩により、大幅に改善されている。 近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。 しかしながら、公表されたVFIのどの作品も補間誤差(IE)の空間的に不均一な特性を考慮していない。 この研究はそのような解決策をもたらす。 本稿では、光フローとieの相関を詳細に検討し、中間フレームを異なるieレベルに対応する異なる領域に分割する新しい誤差予測指標を提案する。 このie駆動のセグメンテーションを基盤とし、新しいエラー制御損失関数を用いることで、セグメント化された領域を徐々に処理し統合する空間適応補間ユニットのアンサンブルを導入する。 この空間アンサンブルは、効果的で計算的に魅力的なVFIソリューションをもたらす。 一般的なビデオ補間ベンチマークによる広範囲な実験は、提案手法が現在の関心のあるアプリケーションにおける現在の最先端(sota)よりも優れていることを示している。

Video frame interpolation~(VFI) algorithms have improved considerably in recent years due to unprecedented progress in both data-driven algorithms and their implementations. Recent research has introduced advanced motion estimation or novel warping methods as the means to address challenging VFI scenarios. However, none of the published VFI works considers the spatially non-uniform characteristics of the interpolation error (IE). This work introduces such a solution. By closely examining the correlation between optical flow and IE, the paper proposes novel error prediction metrics that partition the middle frame into distinct regions corresponding to different IE levels. Building upon this IE-driven segmentation, and through the use of novel error-controlled loss functions, it introduces an ensemble of spatially adaptive interpolation units that progressively processes and integrates the segmented regions. This spatial ensemble results in an effective and computationally attractive VFI solution. Extensive experimentation on popular video interpolation benchmarks indicates that the proposed solution outperforms the current state-of-the-art (SOTA) in applications of current interest.
翻訳日:2022-07-26 14:58:47 公開日:2022-07-25
# 深層学習におけるカルティーボの地域性について

Estimaci\'on de \'areas de cultivo mediante Deep Learning y programaci\'on convencional ( http://arxiv.org/abs/2207.12310v1 )

ライセンス: Link先を確認
Javier Caicedo and Pamela Acosta and Romel Pozo and Henry Guilcapi and Christian Mejia-Escobar(参考訳) 人工知能は、様々な分野の問題に対するより正確で効率的なソリューションの実装を可能にした。 農業分野では、生産と収益性を改善するために、常に作物が占める土地の程度を知ることが主なニーズである。 従来の計算手法では、手動で現場のデータを収集する必要があるため、高い労働コスト、実行時間、結果の不正確さが生じる。 本研究は,人口密度と人口密度の低い作物の面積を決定するために,従来のプログラムと相補するディープラーニング技術に基づく新しい手法を提案する。 我々は,エクアドルにおけるサトウキビの栽培と収穫において,最も認知されている企業の1つであると考えられる。 この戦略は、自然と都市の風景の航空写真データセットに基づいて訓練されたGAN(Generative Adversarial Neural Network)と、人口密度や人口密度の低い作物領域を識別するために、サトウキビプロットの航空写真データセットに基づいて訓練された畳み込みニューラルネットワーク(CNN)と、地域をパーセンテージに計算するための標準画像処理モジュールを組み合わせる。 実験の結果, 航空写真の品質は著しく向上し, 人口密度と人口密度の低い作物群とでは顕著な差がみられ, 耕作地や未耕作地のより正確な結果が得られた。 提案手法は,潜在的な害虫の検出,雑草植生の地域,動的作物開発,質的,定量的品質管理に拡張することができる。

Artificial Intelligence has enabled the implementation of more accurate and efficient solutions to problems in various areas. In the agricultural sector, one of the main needs is to know at all times the extent of land occupied or not by crops in order to improve production and profitability. The traditional methods of calculation demand the collection of data manually and in person in the field, causing high labor costs, execution times, and inaccuracy in the results. The present work proposes a new method based on Deep Learning techniques complemented with conventional programming for the determination of the area of populated and unpopulated crop areas. We have considered as a case study one of the most recognized companies in the planting and harvesting of sugar cane in Ecuador. The strategy combines a Generative Adversarial Neural Network (GAN) that is trained on a dataset of aerial photographs of natural and urban landscapes to improve image resolution; a Convolutional Neural Network (CNN) trained on a dataset of aerial photographs of sugar cane plots to distinguish populated or unpopulated crop areas; and a standard image processing module for the calculation of areas in a percentage manner. The experiments performed demonstrate a significant improvement in the quality of the aerial photographs as well as a remarkable differentiation between populated and unpopulated crop areas, consequently, a more accurate result of cultivated and uncultivated areas. The proposed method can be extended to the detection of possible pests, areas of weed vegetation, dynamic crop development, and both qualitative and quantitative quality control.
翻訳日:2022-07-26 14:58:32 公開日:2022-07-25
# celebv-hq: 大規模ビデオ顔属性データセット

CelebV-HQ: A Large-Scale Video Facial Attributes Dataset ( http://arxiv.org/abs/2207.12393v1 )

ライセンス: Link先を確認
Hao Zhu, Wayne Wu, Wentao Zhu, Liming Jiang, Siwei Tang, Li Zhang, Ziwei Liu, Chen Change Loy(参考訳) 大規模なデータセットは、顔生成/編集の成功に欠かせない役割を担い、新興研究分野の進歩を著しく促進してきた。 しかし、学術コミュニティには、顔関連ビデオの研究に欠かせない多様な顔属性アノテーションを備えたビデオデータセットがまだ欠けている。 本研究では,高品質Celebrity Video Dataset (CelebV-HQ) という顔属性アノテーションを用いた大規模で高品質で多様なビデオデータセットを提案する。 celebv-hqには35,666本のビデオクリップがあり、解像度は少なくとも512x512で、身元は15,653である。 すべてのクリップは、83の顔属性で手動でラベル付けされ、外観、アクション、感情をカバーしている。 我々は,CelebV-HQの多様性と時間的コヒーレンスを示すために,年齢,民族性,明るさ安定性,動きの滑らかさ,頭部の多様性,データ品質の総合的な分析を行う。 さらに、その汎用性とポテンシャルは、非条件映像生成と映像顔属性編集という2つの代表的なタスクで検証される。 さらに、我々は、CelebV-HQの将来の可能性と、それに関連する研究の方向性にもたらす新たな機会と課題を構想する。 データ、コード、モデルが公開されている。 プロジェクトページ: https://celebv-hq.github.io

Large-scale datasets have played indispensable roles in the recent success of face generation/editing and significantly facilitated the advances of emerging research fields. However, the academic community still lacks a video dataset with diverse facial attribute annotations, which is crucial for the research on face-related videos. In this work, we propose a large-scale, high-quality, and diverse video dataset with rich facial attribute annotations, named the High-Quality Celebrity Video Dataset (CelebV-HQ). CelebV-HQ contains 35,666 video clips with the resolution of 512x512 at least, involving 15,653 identities. All clips are labeled manually with 83 facial attributes, covering appearance, action, and emotion. We conduct a comprehensive analysis in terms of age, ethnicity, brightness stability, motion smoothness, head pose diversity, and data quality to demonstrate the diversity and temporal coherence of CelebV-HQ. Besides, its versatility and potential are validated on two representative tasks, i.e., unconditional video generation and video facial attribute editing. Furthermore, we envision the future potential of CelebV-HQ, as well as the new opportunities and challenges it would bring to related research directions. Data, code, and models are publicly available. Project page: https://celebv-hq.github.io.
翻訳日:2022-07-26 14:58:05 公開日:2022-07-25
# RA深度:分解能適応型自己監督単眼深度推定

RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2207.11984v1 )

ライセンス: Link先を確認
Mu He, Le Hui, Yikai Bian, Jian Ren, Jin Xie, Jian Yang(参考訳) 既存の単眼深度推定手法は、高価なアノテーションを排除し、有望な結果が得られる。 しかし、これらの手法は、他の異なる解像度で評価するために固定解像度でトレーニングされたモデルを直接採用する場合、深刻な性能低下に苦しむ。 本稿では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。 具体的には,同じシーンに対して任意のスケールの画像を生成できる簡易かつ効率的なデータ拡張手法を提案する。 次に,マルチパスエンコーダと密接な相互作用を持つデコーダを用いて,精度の高い奥行き推定のためのマルチスケール特徴を集約する2つの高分解能ネットワークを開発した。 最後に,シーン奥行きのスケール不変性を明示的に学習するために,スケールの異なる深さ予測におけるスケール間一貫性損失を定式化する。 KITTI、Make3D、NYU-V2データセットの大規模な実験では、RA-Depthは最先端のパフォーマンスを達成するだけでなく、解像度適応の優れた能力を示す。

Existing self-supervised monocular depth estimation methods can get rid of expensive annotations and achieve promising results. However, these methods suffer from severe performance degradation when directly adopting a model trained on a fixed resolution to evaluate at other different resolutions. In this paper, we propose a resolution adaptive self-supervised monocular depth estimation method (RA-Depth) by learning the scale invariance of the scene depth. Specifically, we propose a simple yet efficient data augmentation method to generate images with arbitrary scales for the same scene. Then, we develop a dual high-resolution network that uses the multi-path encoder and decoder with dense interactions to aggregate multi-scale features for accurate depth inference. Finally, to explicitly learn the scale invariance of the scene depth, we formulate a cross-scale depth consistency loss on depth predictions with different scales. Extensive experiments on the KITTI, Make3D and NYU-V2 datasets demonstrate that RA-Depth not only achieves state-of-the-art performance, but also exhibits a good ability of resolution adaptation.
翻訳日:2022-07-26 14:55:23 公開日:2022-07-25
# 3d siamese transformer network for single object tracking on point clouds (情報ネットワーク)

3D Siamese Transformer Network for Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2207.11995v1 )

ライセンス: Link先を確認
Le Hui, Lingpeng Wang, Linghua Tang, Kaihao Lan, Jin Xie, Jian Yang(参考訳) siamese networkベースのトラッカーは、3dシングルオブジェクトトラッキングをテンプレートのポイント特徴と検索領域の間の相互相関学習として定式化する。 追跡中のテンプレートと検索領域の外観変化が大きいため,検索領域の潜在的なターゲットを特定するために,それら間の堅牢な相互相関を学習する方法は依然として難しい問題である。 本稿では,テンプレートと点雲の探索領域間の堅牢な相互相関を学習するために,Transformer を用いて 3D Siamese Transformer ネットワークを構築した。 具体的には、ターゲットの形状コンテキスト情報を学習するシームズ点変換器ネットワークを開発する。 そのエンコーダは自己アテンションを使用して点雲の非局所情報をキャプチャし、対象の形状情報を特徴付けし、デコーダはクロスアテンションを使用して識別点の特徴をアップサンプルする。 その後,テンプレートと検索領域のロバストな相互相関を学習するために,反復的な粗粒間相関ネットワークを開発した。 クロスフィーチャー拡張を定式化し、クロスアテンションによって、テンプレートと検索領域の潜在的なターゲットを関連付ける。 潜在的なターゲットをさらに強化するために、特徴空間の局所的k-nnグラフに自己アテンションを適用してターゲット特徴を集約するego-feature拡張を用いる。 KITTI, nuScenes, Waymoデータセットを用いた実験により, 本手法が3次元物体追跡タスクにおける最先端性能を実現することを示す。

Siamese network based trackers formulate 3D single object tracking as cross-correlation learning between point features of a template and a search area. Due to the large appearance variation between the template and search area during tracking, how to learn the robust cross correlation between them for identifying the potential target in the search area is still a challenging problem. In this paper, we explicitly use Transformer to form a 3D Siamese Transformer network for learning robust cross correlation between the template and the search area of point clouds. Specifically, we develop a Siamese point Transformer network to learn shape context information of the target. Its encoder uses self-attention to capture non-local information of point clouds to characterize the shape information of the object, and the decoder utilizes cross-attention to upsample discriminative point features. After that, we develop an iterative coarse-to-fine correlation network to learn the robust cross correlation between the template and the search area. It formulates the cross-feature augmentation to associate the template with the potential target in the search area via cross attention. To further enhance the potential target, it employs the ego-feature augmentation that applies self-attention to the local k-NN graph of the feature space to aggregate target features. Experiments on the KITTI, nuScenes, and Waymo datasets show that our method achieves state-of-the-art performance on the 3D single object tracking task.
翻訳日:2022-07-26 14:55:01 公開日:2022-07-25
# multi-strategies range searchによるマルチビューステレオのコストボリュームピラミッドネットワーク

Cost Volume Pyramid Network with Multi-strategies Range Searching for Multi-view Stereo ( http://arxiv.org/abs/2207.12032v1 )

ライセンス: Link先を確認
Shiyu Gao, Zhaoxin Li, Zhaoqi Wang(参考訳) マルチビューステレオ(multi-view stereo)は、コンピュータビジョンにおける重要な研究課題である。 近年,この課題に対して,深層学習に基づく手法が優れた性能を示した。 コストボリュームピラミッドネットワークベースの手法は、細かな方法で深度マップを段階的に洗練し、少ないメモリ消費で有望な結果をもたらす。 しかし、これらの手法は各段階でのコストボリュームの特性を十分に考慮しておらず、各コストボリュームステージに類似した範囲探索戦略を採用することになる。 本稿では,マルチビューステレオの探索戦略を異にするコストボリュームピラミッド型ネットワークを提案する。 異なる深度範囲のサンプリング戦略を選択し、適応的な一方向フィルタリングを適用することにより、低解像度の段階でより正確な深度推定と、任意の解像度に反復的にサンプリングされた深度マップを得ることができる。 dtuデータセットとblendedmvsデータセットの両方について広範な実験を行い,本手法が最先端手法よりも優れていることを示した。

Multi-view stereo is an important research task in computer vision while still keeping challenging. In recent years, deep learning-based methods have shown superior performance on this task. Cost volume pyramid network-based methods which progressively refine depth map in coarse-to-fine manner, have yielded promising results while consuming less memory. However, these methods fail to take fully consideration of the characteristics of the cost volumes in each stage, leading to adopt similar range search strategies for each cost volume stage. In this work, we present a novel cost volume pyramid based network with different searching strategies for multi-view stereo. By choosing different depth range sampling strategies and applying adaptive unimodal filtering, we are able to obtain more accurate depth estimation in low resolution stages and iteratively upsample depth map to arbitrary resolution. We conducted extensive experiments on both DTU and BlendedMVS datasets, and results show that our method outperforms most state-of-the-art methods.
翻訳日:2022-07-26 14:54:35 公開日:2022-07-25
# Dense Object DetectionのためのAP損失の再検討:適応的なランク付けペア選択

Revisiting AP Loss for Dense Object Detection: Adaptive Ranking Pair Selection ( http://arxiv.org/abs/2207.12042v1 )

ライセンス: Link先を確認
Dongli Xu, Jinhong Deng, Wen Li(参考訳) 平均精度(AP)損失は,最近高密度物体検出タスクにおいて有望な性能を示した。 しかし、一対のランキングの観点からのap損失が検出器に与える影響の深い理解は、まだ開発されていない。本研究では、平均精度(ap)損失を再検討し、正のサンプルと負のサンプルの間でランキングのペアを選択することが重要な要素であることを明らかにした。この観察に基づいて、ap損失を改善するための2つの戦略を提案する。 そのうちの1つは、正と負の両方のサンプルのランク付けに焦点を当てた、Adaptive Pairwise Error(APE)損失である。 さらに,クラスタリングアルゴリズムを用いて正規化ランキングスコアとローカライズスコアを利用して,より正確なランキングペアを選択する。 MSCOCOデータセットを用いて行った実験は、現在の分類とランキング損失と比較して、提案手法の優位性を実証する。 コードはhttps://github.com/Xudangliatiger/APE-Lossで公開されている。

Average precision (AP) loss has recently shown promising performance on the dense object detection task. However,a deep understanding of how AP loss affects the detector from a pairwise ranking perspective has not yet been developed.In this work, we revisit the average precision (AP)loss and reveal that the crucial element is that of selecting the ranking pairs between positive and negative samples.Based on this observation, we propose two strategies to improve the AP loss. The first of these is a novel Adaptive Pairwise Error (APE) loss that focusing on ranking pairs in both positive and negative samples. Moreover,we select more accurate ranking pairs by exploiting the normalized ranking scores and localization scores with a clustering algorithm. Experiments conducted on the MSCOCO dataset support our analysis and demonstrate the superiority of our proposed method compared with current classification and ranking loss. The code is available at https://github.com/Xudangliatiger/APE-Loss.
翻訳日:2022-07-26 14:54:17 公開日:2022-07-25
# Bag-of-Visual-Words表現を用いた知識蒸留によるFew-Shotオブジェクト検出

Few-Shot Object Detection by Knowledge Distillation Using Bag-of-Visual-Words Representations ( http://arxiv.org/abs/2207.12049v1 )

ライセンス: Link先を確認
Wenjie Pei, Shuang Wu, Dianwen Mei, Fanglin Chen, Jiandong Tian, Guangming Lu(参考訳) 微調整によるオブジェクト検出法は目覚ましい進歩を遂げているが、未解決の課題は、クラス固有のオーバーフィッティングや新しいクラスへのサンプル固有のオーバーフィッティングの可能性である。 本研究は, 対象検出器の学習を誘導する新しい知識蒸留フレームワークを設計し, 基礎授業における事前学習段階と新規授業における微調整段階の両方において過適合を抑制する。 具体的には,画像集合の限られたサイズから視覚単語の代表的な袋(BoVW)を学習し,学習した視覚単語と画像の類似性に基づいて一般画像の符号化を行う新しい位置認識バグ・オブ・ビジュアルワードモデルを提案する。 次に、2つの異なる特徴空間に一貫したBoVW表現を持つ必要があるという事実に基づいて知識蒸留を行う。 この目的のために、オブジェクト検出から独立して特徴空間を事前学習し、この空間でBoVWを用いて画像をエンコードする。 得られた画像のBoVW表現は、オブジェクト検出器の学習を導くための蒸留知識とみなすことができ、同じ画像のオブジェクト検出器によって抽出された特徴は、蒸留知識と一貫したBoVW表現を導出することが期待できる。 本手法の有効性を検証し,他の最先端手法よりも優れていることを示す。

While fine-tuning based methods for few-shot object detection have achieved remarkable progress, a crucial challenge that has not been addressed well is the potential class-specific overfitting on base classes and sample-specific overfitting on novel classes. In this work we design a novel knowledge distillation framework to guide the learning of the object detector and thereby restrain the overfitting in both the pre-training stage on base classes and fine-tuning stage on novel classes. To be specific, we first present a novel Position-Aware Bag-of-Visual-Words model for learning a representative bag of visual words (BoVW) from a limited size of image set, which is used to encode general images based on the similarities between the learned visual words and an image. Then we perform knowledge distillation based on the fact that an image should have consistent BoVW representations in two different feature spaces. To this end, we pre-learn a feature space independently from the object detection, and encode images using BoVW in this space. The obtained BoVW representation for an image can be considered as distilled knowledge to guide the learning of object detector: the extracted features by the object detector for the same image are expected to derive the consistent BoVW representations with the distilled knowledge. Extensive experiments validate the effectiveness of our method and demonstrate the superiority over other state-of-the-art methods.
翻訳日:2022-07-26 14:54:00 公開日:2022-07-25
# 自己監督型学習における動的チャネル選択

Dynamic Channel Selection in Self-Supervised Learning ( http://arxiv.org/abs/2207.12065v1 )

ライセンス: Link先を確認
Tarun Krishna, Ayush K. Rai, Yasser A. D. Djilali, Alan F. Smeaton, Kevin McGuinness and Noel E. O'Connor(参考訳) 自己教師付きアプローチで構築されたコンピュータビジョンモデルは今や一般的だが、いくつかの重要な疑問が残っている。 自己教師型モデルは高度に冗長なチャネル機能を学ぶか? 自己管理ネットワークが重要なチャネルを動的に選択し、不要なチャネルを排除できるとしたらどうだろう? 現在、セルフスーパービジョンで事前訓練されたconvnetは、コンピュータビジョンで監視されたものと同等の性能を下流タスクで獲得している。 しかし、大量のパラメータ、計算に高価なトレーニング戦略、下流タスクにおける高速な推論の必要性など、自己教師型モデルには欠点がある。 本研究の目的は,教師付き学習のための標準チャネル選択手法が,自己監督型ネットワークにどのように適用できるかを検討することである。 我々は,様々なデータセット(特にCIFAR-10, CIFAR-100, ImageNet-100)にわたる画像分類タスクのチャネル計算に対して,目標予算$t_{d}$に対して,全てのチャネルを選択する際に元のネットワークに匹敵する性能を得るが,FLOPで報告される計算の大幅な削減を図った。

Whilst computer vision models built using self-supervised approaches are now commonplace, some important questions remain. Do self-supervised models learn highly redundant channel features? What if a self-supervised network could dynamically select the important channels and get rid of the unnecessary ones? Currently, convnets pre-trained with self-supervision have obtained comparable performance on downstream tasks in comparison to their supervised counterparts in computer vision. However, there are drawbacks to self-supervised models including their large numbers of parameters, computationally expensive training strategies and a clear need for faster inference on downstream tasks. In this work, our goal is to address the latter by studying how a standard channel selection method developed for supervised learning can be applied to networks trained with self-supervision. We validate our findings on a range of target budgets $t_{d}$ for channel computation on image classification task across different datasets, specifically CIFAR-10, CIFAR-100, and ImageNet-100, obtaining comparable performance to that of the original network when selecting all channels but at a significant reduction in computation reported in terms of FLOPs.
翻訳日:2022-07-26 14:53:35 公開日:2022-07-25
# ego4d challenge 2022による意図的条件付き長期的人間エゴセントリック行動予測

Intention-Conditioned Long-Term Human Egocentric Action Forecasting @ EGO4D Challenge 2022 ( http://arxiv.org/abs/2207.12080v1 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee(参考訳) 人間が将来どのように振る舞うかを予測するためには、人間をある目標に向けて導くため、人間の意図を理解することが不可欠である。 本稿では,人間の行動のシーケンス(低レベル)が人間の意図(高レベル)から駆動できると仮定した階層的アーキテクチャを提案する。 これに基づいて、エゴセントリックビデオにおける長期行動予測タスクを取り扱う。 我々のフレームワークはまず,階層型マルチタスクMLPミキサー(H3M)を用いて,Nの観察ビデオ上の2つのレベルの人的情報を抽出する。 そこで,本研究では,次のZ=20動作のK安定予測を生成する意図条件付き変分自動エンコーダ(I-CVAE)を用いて,未来の不確実性を条件とした。 人間の意図を高レベルの情報として活用することにより、我々のモデルは長期にわたるより時間的な行動を予測することができ、EGO4D Challengeにおける基準手法よりも結果を改善することができると主張している。 この研究はego4d ltaチャレンジで第1位となり、予測可能なシーケンスを提供し、名詞と全体的な行動の予測を改善した。 コードはhttps://github.com/evm7/ego4dlta-icvaeで入手できる。

To anticipate how a human would act in the future, it is essential to understand the human intention since it guides the human towards a certain goal. In this paper, we propose a hierarchical architecture which assumes a sequence of human action (low-level) can be driven from the human intention (high-level). Based on this, we deal with Long-Term Action Anticipation task in egocentric videos. Our framework first extracts two level of human information over the N observed videos human actions through a Hierarchical Multi-task MLP Mixer (H3M). Then, we condition the uncertainty of the future through an Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable predictions of the next Z=20 actions that the observed human might perform. By leveraging human intention as high-level information, we claim that our model is able to anticipate more time-consistent actions in the long-term, thus improving the results over baseline methods in EGO4D Challenge. This work ranked first in the EGO4D LTA Challenge by providing more plausible anticipated sequences, improving the anticipation of nouns and overall actions. The code is available at https://github.com/Evm7/ego4dlta-icvae.
翻訳日:2022-07-26 14:53:15 公開日:2022-07-25
# IGFormer:人体インタラクション認識のための対話グラフ変換器

IGFormer: Interaction Graph Transformer for Skeleton-based Human Interaction Recognition ( http://arxiv.org/abs/2207.12100v1 )

ライセンス: Link先を確認
Yunsheng Pang, Qiuhong Ke, Hossein Rahmani, James Bailey, Jun Liu(参考訳) 人間のインタラクション認識は多くのアプリケーションにおいて非常に重要である。 相互作用を認識する上で重要な手がかりの一つは、対話的な身体の部分である。 本研究では,インタラクティブな体部をグラフとしてモデル化し,スケルトンベースインタラクション認識のための新しいインタラクショングラフトランスフォーマ(igformer)ネットワークを提案する。 具体的には,対話体部間の意味的・距離的相関に基づいて対話グラフを構築し,学習したグラフに基づいて対話体部の情報を集約することにより,各人物の表現を向上させる。 さらに,各人間の骨格配列を体外時間系列に変換する意味分割モジュールを提案し,それらのグラフを学習するための骨格配列の空間的および時間的情報をよりよくキャプチャする。 3つのベンチマークデータセットに関する広範な実験は、我々のモデルが最先端をかなり上回っていることを示している。

Human interaction recognition is very important in many applications. One crucial cue in recognizing an interaction is the interactive body parts. In this work, we propose a novel Interaction Graph Transformer (IGFormer) network for skeleton-based interaction recognition via modeling the interactive body parts as graphs. More specifically, the proposed IGFormer constructs interaction graphs according to the semantic and distance correlations between the interactive body parts, and enhances the representation of each person by aggregating the information of the interactive body parts based on the learned graphs. Furthermore, we propose a Semantic Partition Module to transform each human skeleton sequence into a Body-Part-Time sequence to better capture the spatial and temporal information of the skeleton sequence for learning the graphs. Extensive experiments on three benchmark datasets demonstrate that our model outperforms the state-of-the-art with a significant margin.
翻訳日:2022-07-26 14:52:55 公開日:2022-07-25
# W2N:オブジェクト検出のための弱スーパービジョンからノイズスーパービジョンへ

W2N:Switching From Weak Supervision to Noisy Supervision for Object Detection ( http://arxiv.org/abs/2207.12104v1 )

ライセンス: Link先を確認
Zitong Huang, Yiping Bao, Bowen Dong, Erjin Zhou, Wangmeng Zuo(参考訳) weakly-supervised object detection (wsod)は、画像レベルのアノテーションのみを必要とするオブジェクト検出器をトレーニングすることを目的としている。 近年、よく訓練されたWSODネットワークから生成された正確なボックスを選択して、性能向上のための半教師付き検出フレームワークを監督する作業が行われている。 しかしながら、これらのアプローチは単にトレーニングセットを画像レベルの基準に従ってラベル付きとラベルなしのセットに分割し、十分な誤ったラベル付きまたは間違った局所化されたボックス予測を疑似グランドルースとして選択することで、検出性能の最適解となる。 この問題を克服するため,我々は,弱い監視からノイズの監視(w2n)に切り替える新しいパラダイムを持つ新しいwsodフレームワークを提案する。 一般に,十分に訓練されたwsodネットワークから生成された擬似基底構造を用いて,擬似ラベルを洗練し,より優れた物体検出を進行的に監督する2モジュール反復学習アルゴリズムを提案する。 ローカライズ適応モジュールでは,従来の擬似接地トラスにおける識別的部分の割合を減少させる正規化損失を提案し,さらなる訓練のためにより良い擬似接地トラスを得る。 半教師付きモジュールでは、半教師付き検出器を訓練するための高品質ラベルを選択するための2つのタスクのインスタンスレベルの分割手法を提案する。 異なるベンチマークによる実験結果からW2Nの有効性が検証され,W2Nは既存の純粋なWSOD法や伝達学習法よりも優れていた。 私たちのコードはhttps://github.com/1170300714/w2n_wsodで公開されています。

Weakly-supervised object detection (WSOD) aims to train an object detector only requiring the image-level annotations. Recently, some works have managed to select the accurate boxes generated from a well-trained WSOD network to supervise a semi-supervised detection framework for better performance. However, these approaches simply divide the training set into labeled and unlabeled sets according to the image-level criteria, such that sufficient mislabeled or wrongly localized box predictions are chosen as pseudo ground-truths, resulting in a sub-optimal solution of detection performance. To overcome this issue, we propose a novel WSOD framework with a new paradigm that switches from weak supervision to noisy supervision (W2N). Generally, with given pseudo ground-truths generated from the well-trained WSOD network, we propose a two-module iterative training algorithm to refine pseudo labels and supervise better object detector progressively. In the localization adaptation module, we propose a regularization loss to reduce the proportion of discriminative parts in original pseudo ground-truths, obtaining better pseudo ground-truths for further training. In the semi-supervised module, we propose a two tasks instance-level split method to select high-quality labels for training a semi-supervised detector. Experimental results on different benchmarks verify the effectiveness of W2N, and our W2N outperforms all existing pure WSOD methods and transfer learning methods. Our code is publicly available at https://github.com/1170300714/w2n_wsod.
翻訳日:2022-07-26 14:52:41 公開日:2022-07-25
# 弱教師付き物体検出のためのアクティブ学習戦略

Active Learning Strategies for Weakly-supervised Object Detection ( http://arxiv.org/abs/2207.12112v1 )

ライセンス: Link先を確認
Huy V. Vo, Oriane Sim\'eoni, Spyros Gidaris, Andrei Bursuc, Patrick P\'erez and Jean Ponce(参考訳) 弱いアノテーションで訓練されたオブジェクト検出器は、完全な教師付きオブジェクトに代わる手頃な選択肢である。 しかし、両者の間には依然として大きなパフォーマンス差がある。 弱検出検出器の文書化障害モードに対処するために設計された,新たなアクティブ学習戦略である 'box-in-box' (BiB) を用いて,トレーニングセットから自動で完全注釈付きサンプルを自動選択して,ベーストレーニング済みの弱検出検出器を微調整することにより,このギャップを狭めることを提案する。 VOC07とCOCOベンチマークの実験は、BiBが他のアクティブな学習技術より優れており、クラスごとの完全な注釈付き画像しか持たない弱教師付き検出器の性能が著しく向上していることを示している。 BiBは、完全に監督されたFast RCNNのパフォーマンスの97%に達し、VOC07のフルアノテートイメージの10%に過ぎなかった。 COCOでは、クラス当たり平均10の完全な注釈付き画像、あるいはトレーニングセットの1%に相当するものを使用して、弱教師付き検出器とフル教師付きFast RCNNの間のパフォーマンスギャップ(AP)を70%以上削減し、パフォーマンスとデータ効率のトレードオフを示す。 私たちのコードはhttps://github.com/huyvvo/bibで公開されています。

Object detectors trained with weak annotations are affordable alternatives to fully-supervised counterparts. However, there is still a significant performance gap between them. We propose to narrow this gap by fine-tuning a base pre-trained weakly-supervised detector with a few fully-annotated samples automatically selected from the training set using ``box-in-box'' (BiB), a novel active learning strategy designed specifically to address the well-documented failure modes of weakly-supervised detectors. Experiments on the VOC07 and COCO benchmarks show that BiB outperforms other active learning techniques and significantly improves the base weakly-supervised detector's performance with only a few fully-annotated images per class. BiB reaches 97% of the performance of fully-supervised Fast RCNN with only 10% of fully-annotated images on VOC07. On COCO, using on average 10 fully-annotated images per class, or equivalently 1% of the training set, BiB also reduces the performance gap (in AP) between the weakly-supervised detector and the fully-supervised Fast RCNN by over 70%, showing a good trade-off between performance and data efficiency. Our code is publicly available at https://github.com/huyvvo/BiB.
翻訳日:2022-07-26 14:52:12 公開日:2022-07-25
# nLMVS-Net:Deep Non-Lambertian Multi-View Stereo

nLMVS-Net: Deep Non-Lambertian Multi-View Stereo ( http://arxiv.org/abs/2207.11876v1 )

ライセンス: Link先を確認
Kohei Yamashita, Yuto Enyo, Shohei Nobuhara, Ko Nishino(参考訳) マルチビューステレオ (MVS) 法は, 画素ごとの深度だけでなく, 表面の正常値も同時に再現できるとともに, テクスチャレスで複雑な非ランベルト面の反射率も向上する。 我々のキーとなる考え方は、MVSをエンドツーエンドで学習可能なネットワークとして定式化し、これを nLMVS-Net と呼びます。 まず、面正規化を、新しいシェーディングネットワークによる各ビューの画素単位の確率密度として推定する。 これらの画素ごとの表面の正規密度と入力されたマルチビュー画像は、新しいコストボリュームフィルタリングネットワークに入力され、画素ごとの深さと表面の正常を回復する。 反射率も幾何再構成と交互に推定される。 新しく確立された合成および実世界のデータセットの広範囲な定量的評価は、nlmvs-netが自然環境において複雑な物体の形状と反射率をロバストかつ正確に回復できることを示している。

We introduce a novel multi-view stereo (MVS) method that can simultaneously recover not just per-pixel depth but also surface normals, together with the reflectance of textureless, complex non-Lambertian surfaces captured under known but natural illumination. Our key idea is to formulate MVS as an end-to-end learnable network, which we refer to as nLMVS-Net, that seamlessly integrates radiometric cues to leverage surface normals as view-independent surface features for learned cost volume construction and filtering. It first estimates surface normals as pixel-wise probability densities for each view with a novel shape-from-shading network. These per-pixel surface normal densities and the input multi-view images are then input to a novel cost volume filtering network that learns to recover per-pixel depth and surface normal. The reflectance is also explicitly estimated by alternating with geometry reconstruction. Extensive quantitative evaluations on newly established synthetic and real-world datasets show that nLMVS-Net can robustly and accurately recover the shape and reflectance of complex objects in natural settings.
翻訳日:2022-07-26 14:49:44 公開日:2022-07-25
# 点雲のサルエント物体検出

Salient Object Detection for Point Clouds ( http://arxiv.org/abs/2207.11889v1 )

ライセンス: Link先を確認
Songlin Fan, Wei Gao, and Ge Li(参考訳) 本稿では,未探索のタスクポイント・クラウド・サリエント・オブジェクト検出(SOD)について検討する。 画像に対するsodと異なり、点雲の注意シフトは、サルエントと非サルエントカテゴリにパラドックス的に属すような、塩分相反を引き起こす可能性がある。 この問題を回避するため,我々は,ポイントクラウドシナリオにおいて最も目を引く物体を合理的に反映する,サルエントオブジェクトの視点依存的な新たな視点を提案する。 この定式化に続いて,2,872個のイン/アウトドア3DビューからなるポイントクラウドSODのための最初のデータセットであるPCSODを紹介する。 私たちのデータセットのサンプルには、スーパー/サブクラス、バウンディングボックス、セグメンテーションマップといった階層的なアノテーションがラベル付けされています。 提案手法の有効性を示すため,ベースラインモデルと5つの代表モデルを総合的な比較のためにベンチマークする。 提案モデルでは,不規則点と不規則点を効果的に解析し,有意な物体を検出する。 タスク調整設計を取り入れることで,他のベースラインよりも目に見える優位性を示し,良好な結果が得られた。 広範な実験と議論は、この研究分野の有望な可能性を明らかにし、さらなる研究への道を開く。

This paper researches the unexplored task-point cloud salient object detection (SOD). Differing from SOD for images, we find the attention shift of point clouds may provoke saliency conflict, i.e., an object paradoxically belongs to salient and non-salient categories. To eschew this issue, we present a novel view-dependent perspective of salient objects, reasonably reflecting the most eye-catching objects in point cloud scenarios. Following this formulation, we introduce PCSOD, the first dataset proposed for point cloud SOD consisting of 2,872 in-/out-door 3D views. The samples in our dataset are labeled with hierarchical annotations, e.g., super-/sub-class, bounding box, and segmentation map, which endows the brilliant generalizability and broad applicability of our dataset verifying various conjectures. To evidence the feasibility of our solution, we further contribute a baseline model and benchmark five representative models for a comprehensive comparison. The proposed model can effectively analyze irregular and unordered points for detecting salient objects. Thanks to incorporating the task-tailored designs, our method shows visible superiority over other baselines, producing more satisfactory results. Extensive experiments and discussions reveal the promising potential of this research field, paving the way for further study.
翻訳日:2022-07-26 14:49:24 公開日:2022-07-25
# 顔クラスタリングのためのハードクラスタの緩和について

On Mitigating Hard Clusters for Face Clustering ( http://arxiv.org/abs/2207.11895v1 )

ライセンス: Link先を確認
Yingjie Chen, Huasong Zhong, Chong Chen, Chen Shen, Jianqiang Huang, Tao Wang, Yun Liang, Qianru Sun(参考訳) 顔クラスタリングは、大規模なラベルのない顔画像を使用して顔認識システムをスケールアップする有望な方法である。 クラスタの異質性(shaie)、サイズと空間のばらつきの高さによって引き起こされる、ハードクラスタと呼ばれる小さな、あるいはスパースな顔画像クラスタを特定することは依然として困難である。 その結果、一様閾値(クラスタを識別する)を使用する従来の方法は、ハードクラスタに属するべきサンプルのひどい分類に繋がることが多い。 本稿では,サンプルの近傍情報を活用し,クラスタメンバシップ(サンプル)を確率的に推定することで,この問題に対処する。 本稿では,標準密度ピーククラスタリングアルゴリズムを一様しきい値で適用できる2つのモジュール,neighbord-diffusion-based density (ndde) とtransition-probability-based distance (tpdi)を提案する。 複数のベンチマーク実験により,各モジュールが最終性能に寄与し,これらを他の高度な顔クラスタリング手法に組み込むことで,これらの手法の性能を新たな最先端に向上させることができることがわかった。 コードは、https://github.com/echoanran/On-Mitigating-Hard-Clustersで入手できる。

Face clustering is a promising way to scale up face recognition systems using large-scale unlabeled face images. It remains challenging to identify small or sparse face image clusters that we call hard clusters, which is caused by the heterogeneity, \ie, high variations in size and sparsity, of the clusters. Consequently, the conventional way of using a uniform threshold (to identify clusters) often leads to a terrible misclassification for the samples that should belong to hard clusters. We tackle this problem by leveraging the neighborhood information of samples and inferring the cluster memberships (of samples) in a probabilistic way. We introduce two novel modules, Neighborhood-Diffusion-based Density (NDDe) and Transition-Probability-based Distance (TPDi), based on which we can simply apply the standard Density Peak Clustering algorithm with a uniform threshold. Our experiments on multiple benchmarks show that each module contributes to the final performance of our method, and by incorporating them into other advanced face clustering methods, these two modules can boost the performance of these methods to a new state-of-the-art. Code is available at: https://github.com/echoanran/On-Mitigating-Hard-Clusters.
翻訳日:2022-07-26 14:49:03 公開日:2022-07-25
# ドメイン適応型人物探索

Domain Adaptive Person Search ( http://arxiv.org/abs/2207.11898v1 )

ライセンス: Link先を確認
Junjie Li, Yichao Yan, Guanshuo Wang, Fufu Yu, Qiong Jia, Shouhong Ding(参考訳) 人探索は,共同歩行者検出と人物識別(ReID)の実現を目的とした課題である。 以前の作品では、完全かつ弱く監督された設定の下で大きな進歩を遂げている。 しかし,既存の手法では人物探索モデルの一般化能力は無視されている。 本稿では,ラベル付きソースドメインからラベル付きターゲットドメインへのモデルを一般化することを目的とした,DAPS(Domain Adaptive Person Search)を提案する。 ひとつは、検出タスクとRe-IDタスクの両方において、ドメインのミスアライメントを同時に解決する方法であり、もうひとつは、ターゲットドメインの信頼性の高い検出結果なしでReIDサブタスクをトレーニングする方法である。 これらの課題に対処するため,我々は2つのデザインを持つ強固なベースラインフレームワークを提案する。 1) 画像レベルおよびタスクセンシティブなインスタンスレベルアライメントを含むドメインアライメントモジュールを設計し、ドメインの相違を最小限に抑える。 2) 動的クラスタリング戦略でラベルのないデータをフル活用し, 疑似バウンディングボックスを用いてターゲット領域におけるReIDと検出訓練を支援する。 上記の設計では,prwデータセット上で34.7%,top-1で80.6%を達成し,直接転送ベースラインを大きく上回った。 驚くべきことに、教師なしDAPSモデルの性能は、完全に教師付きされた手法や弱い教師付き手法を超越している。 コードはhttps://github.com/caposerenity/dapsで入手できる。

Person search is a challenging task which aims to achieve joint pedestrian detection and person re-identification (ReID). Previous works have made significant advances under fully and weakly supervised settings. However, existing methods ignore the generalization ability of the person search models. In this paper, we take a further step and present Domain Adaptive Person Search (DAPS), which aims to generalize the model from a labeled source domain to the unlabeled target domain. Two major challenges arises under this new setting: one is how to simultaneously solve the domain misalignment issue for both detection and Re-ID tasks, and the other is how to train the ReID subtask without reliable detection results on the target domain. To address these challenges, we propose a strong baseline framework with two dedicated designs. 1) We design a domain alignment module including image-level and task-sensitive instance-level alignments, to minimize the domain discrepancy. 2) We take full advantage of the unlabeled data with a dynamic clustering strategy, and employ pseudo bounding boxes to support ReID and detection training on the target domain. With the above designs, our framework achieves 34.7% in mAP and 80.6% in top-1 on PRW dataset, surpassing the direct transferring baseline by a large margin. Surprisingly, the performance of our unsupervised DAPS model even surpasses some of the fully and weakly supervised methods. The code is available at https://github.com/caposerenity/DAPS.
翻訳日:2022-07-26 14:48:38 公開日:2022-07-25
# 時空間的リアルタイム異常行動の検出・追跡・認識のためのハイブリッド分類器

Hybrid Classifiers for Spatio-temporal Real-time Abnormal Behaviors Detection, Tracking, and Recognition in Massive Hajj Crowds ( http://arxiv.org/abs/2207.11931v1 )

ライセンス: Link先を確認
Tarik Alafif, Anas Hadi, Manal Allahyani, Bander Alzahrani, Areej Alhothali, Reem Alotaibi, Ahmed Barnawi(参考訳) 個々の異常行動は、群衆の大きさ、状況、シーンによって異なる。 部分閉塞、ぼやけ、大数の異常行動、カメラの視認といった課題は、異常な行動のある個人を検出し、追跡し、認識する際に、大規模な群衆に発生する。 本稿では、我々の貢献を2つにまとめる。 まず,Hajjデータセット(HAJJv2)の注釈付きおよびラベル付き大規模集団異常行動を紹介する。 次に,2つのハイブリッド型畳み込みニューラルネットワーク (CNN) とランダムフォレスト (RF) を提案する。 小規模な群衆ビデオでは、ResNet-50事前訓練されたCNNモデルを微調整し、空間領域における全てのフレームが正常であるか異常であるかを検証する。 異常な挙動が観測された場合、ホーン・シュンク光流の大きさと向きに基づく動きに基づく個人検出法を用いて、異常な挙動を持つ個人を同定・追跡する。 Kalmanフィルタは大規模な群衆ビデオに使われ、検出された個人を後続のフレームで予測し追跡する。 次に、時間領域における異常な振る舞いを持つ個人を分類するために、すなわち、ばらつき、および標準偏差統計特徴を計算し、RFに供給する。 大規模群集では,yolov2オブジェクト検出手法を用いてresnet-50モデルを微調整し,空間領域に異常行動を有する個人を検出する。

Individual abnormal behaviors vary depending on crowd sizes, contexts, and scenes. Challenges such as partial occlusions, blurring, large-number abnormal behavior, and camera viewing occur in large-scale crowds when detecting, tracking, and recognizing individuals with abnormal behaviors. In this paper, our contribution is twofold. First, we introduce an annotated and labeled large-scale crowd abnormal behaviors Hajj dataset (HAJJv2). Second, we propose two methods of hybrid Convolutional Neural Networks (CNNs) and Random Forests (RFs) to detect and recognize Spatio-temporal abnormal behaviors in small and large-scales crowd videos. In small-scale crowd videos, a ResNet-50 pre-trained CNN model is fine-tuned to verify whether every frame is normal or abnormal in the spatial domain. If anomalous behaviors are observed, a motion-based individuals detection method based on the magnitudes and orientations of Horn-Schunck optical flow is used to locate and track individuals with abnormal behaviors. A Kalman filter is employed in large-scale crowd videos to predict and track the detected individuals in the subsequent frames. Then, means, variances, and standard deviations statistical features are computed and fed to the RF to classify individuals with abnormal behaviors in the temporal domain. In large-scale crowds, we fine-tune the ResNet-50 model using YOLOv2 object detection technique to detect individuals with abnormal behaviors in the spatial domain.
翻訳日:2022-07-26 14:48:16 公開日:2022-07-25
# 最適ボックス:強化学習によるアノテーション付きバウンディングボックスの調整によるエンド・ツー・エンドシーンテキスト認識の促進

Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes via Reinforcement Learning ( http://arxiv.org/abs/2207.11934v1 )

ライセンス: Link先を確認
Jingqun Tang, Wenming Qian, Luchuan Song, Xiena Dong, Lan Li, Xiang Bai(参考訳) テキストの検出と認識は、現代のOCRシステムにおいて不可欠な要素である。 ほとんどのocrアプローチは、テキスト認識段階の入力として使用される検出段階において、正確なテキスト境界ボックスの取得を試みる。 タイトなテキストバウンディングボックスを入力として使用する場合、テキスト認識器は、バウンディングボックスとテキスト認識の深部表現との矛盾により、最適性能を達成できないことが多い。 本稿では,テキスト認識モデルとの適合性を高めるために,各テキスト境界ボックスの形状を調整する強化学習ベース手法であるbox adjusterを提案する。 さらに,合成と現実のようなドメイン間の問題を扱う場合,提案手法はソースと対象ドメイン間のドメイン分布のミスマッチを著しく低減する。 学習のための基礎的真理として調整された境界ボックスを使用する場合,エンドツーエンドのテキスト認識システムの性能が向上することを示す実験を行った。 具体的には、シーンテキスト理解のためのいくつかのベンチマークデータセットにおいて、提案手法は、エンドツーエンドテキスト認識タスクで平均2.0%f-score、ドメイン適応タスクで4.6%f-scoreで最先端テキストスポッターを上回る。

Text detection and recognition are essential components of a modern OCR system. Most OCR approaches attempt to obtain accurate bounding boxes of text at the detection stage, which is used as the input of the text recognition stage. We observe that when using tight text bounding boxes as input, a text recognizer frequently fails to achieve optimal performance due to the inconsistency between bounding boxes and deep representations of text recognition. In this paper, we propose Box Adjuster, a reinforcement learning-based method for adjusting the shape of each text bounding box to make it more compatible with text recognition models. Additionally, when dealing with cross-domain problems such as synthetic-to-real, the proposed method significantly reduces mismatches in domain distribution between the source and target domains. Experiments demonstrate that the performance of end-to-end text recognition systems can be improved when using the adjusted bounding boxes as the ground truths for training. Specifically, on several benchmark datasets for scene text understanding, the proposed method outperforms state-of-the-art text spotters by an average of 2.0% F-Score on end-to-end text recognition tasks and 4.6% F-Score on domain adaptation tasks.
翻訳日:2022-07-26 14:47:50 公開日:2022-07-25
# 変形性アテンション変換器を用いた参照型画像超解像

Reference-based Image Super-Resolution with Deformable Attention Transformer ( http://arxiv.org/abs/2207.11938v1 )

ライセンス: Link先を確認
Jiezhang Cao, Jingyun Liang, Kai Zhang, Yawei Li, Yulun Zhang, Wenguan Wang, Luc Van Goo(参考訳) 参照ベース画像超解像(RefSR)は、補助参照(Ref)画像を超解像低分解能画像(LR)に活用することを目的としている。 近年、RefSRは単一のイメージSRを超える代替手段を提供するため、大きな注目を集めている。 しかし、RefSR問題に対処するには2つの重要な課題がある。 (i)LR画像とRef画像との対応が著しく異なる場合の一致は困難である。 (II) LR画像の詳細を補うためにRef画像から関連するテクスチャを転送する方法は非常に難しい。 本稿では,RefSRのこれらの問題に対処するため,複数のスケールを持つ変形性アテンショントランスフォーマー,すなわちDATSRを提案し,それぞれがテクスチャ特徴エンコーダ(TFE)モジュール,参照ベース変形性アテンション(RDA)モジュール,残像アグリゲーション(RFA)モジュールで構成されている。 具体的には、TFEはまずLRおよびRef画像のイメージ変換(例えば明るさ)を抽出し、RDAは複数の関連するテクスチャを利用してLR特徴のより多くの情報を補償し、RFAは最後にLR特徴と関連するテクスチャを集約し、より視覚的に快適な結果を得る。 大規模な実験により、我々のDATSRはベンチマークデータセットにおける最先端の性能を定量的に定性的に達成することを示した。

Reference-based image super-resolution (RefSR) aims to exploit auxiliary reference (Ref) images to super-resolve low-resolution (LR) images. Recently, RefSR has been attracting great attention as it provides an alternative way to surpass single image SR. However, addressing the RefSR problem has two critical challenges: (i) It is difficult to match the correspondence between LR and Ref images when they are significantly different; (ii) How to transfer the relevant texture from Ref images to compensate the details for LR images is very challenging. To address these issues of RefSR, this paper proposes a deformable attention Transformer, namely DATSR, with multiple scales, each of which consists of a texture feature encoder (TFE) module, a reference-based deformable attention (RDA) module and a residual feature aggregation (RFA) module. Specifically, TFE first extracts image transformation (e.g., brightness) insensitive features for LR and Ref images, RDA then can exploit multiple relevant textures to compensate more information for LR features, and RFA lastly aggregates LR features and relevant textures to get a more visually pleasant result. Extensive experiments demonstrate that our DATSR achieves state-of-the-art performance on benchmark datasets quantitatively and qualitatively.
翻訳日:2022-07-26 14:47:27 公開日:2022-07-25
# jigsaw-vit: vision transformerでジグソーパズルを学ぶ

Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer ( http://arxiv.org/abs/2207.11971v1 )

ライセンス: Link先を確認
Yingyi Chen, Xi Shen, Yahui Liu, Qinghua Tao, Johan A.K. Suykens(参考訳) 様々なコンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の成功は、この畳み込みのないネットワークの普及を促進する。 ViTがイメージパッチで動作するという事実は、シャッフルされたシーケンシャルなイメージパッチをその自然な形に戻すことを目的とした、古典的な自己教師型タスクであるジグソーパズル解決の問題に、潜在的に関係している。 その単純さにもかかわらず、ジグソーパズルの解法は、自己教師付き特徴表現学習、ドメインの一般化、きめ細かい分類など、畳み込みニューラルネットワーク(CNN)を用いた様々なタスクに有用であることが示されている。 本稿では, Jigsaw-ViT という画像分類において, ViT の自己教師付き補助損失としてジグソーパズルの解法を検討する。 Jigsaw-ViT を標準 ViT よりも優れているものにする2つの修正点を示す。 さらに簡単なことは、Jigsaw-ViTは標準のViTよりも一般化と堅牢性の両方を改善できるということです。 実験により,jigsaw パズルブランチの追加は,imagenet の大規模画像分類において vit よりも優れた一般化を提供することを示した。 さらに補助的なタスクは、Animal-10N, Food-101N, Clothing1Mのノイズラベルに対する堅牢性も向上する。 実装はhttps://yingyichen-cyy.github.io/jigsaw-vit/で利用可能です。

The success of Vision Transformer (ViT) in various computer vision tasks has promoted the ever-increasing prevalence of this convolution-free network. The fact that ViT works on image patches makes it potentially relevant to the problem of jigsaw puzzle solving, which is a classical self-supervised task aiming at reordering shuffled sequential image patches back to their natural form. Despite its simplicity, solving jigsaw puzzle has been demonstrated to be helpful for diverse tasks using Convolutional Neural Networks (CNNs), such as self-supervised feature representation learning, domain generalization, and fine-grained classification. In this paper, we explore solving jigsaw puzzle as a self-supervised auxiliary loss in ViT for image classification, named Jigsaw-ViT. We show two modifications that can make Jigsaw-ViT superior to standard ViT: discarding positional embeddings and masking patches randomly. Yet simple, we find that Jigsaw-ViT is able to improve both in generalization and robustness over the standard ViT, which is usually rather a trade-off. Experimentally, we show that adding the jigsaw puzzle branch provides better generalization than ViT on large-scale image classification on ImageNet. Moreover, the auxiliary task also improves robustness to noisy labels on Animal-10N, Food-101N, and Clothing1M as well as adversarial examples. Our implementation is available at https://yingyichen-cyy.github.io/Jigsaw-ViT/.
翻訳日:2022-07-26 14:46:55 公開日:2022-07-25
# transcl: 強力で柔軟な圧縮学習を実現するトランスフォーマー

TransCL: Transformer Makes Strong and Flexible Compressive Learning ( http://arxiv.org/abs/2207.11972v1 )

ライセンス: Link先を確認
Chong Mou, Jian Zhang(参考訳) 圧縮学習(Compressive Learning, CL)は、圧縮センシング(CS)による信号取得と、少数の測定に基づいて直接推論タスクを行う機械学習を統合する新興フレームワークである。 従来のイメージドメインメソッドに代わる有望な選択肢となり、メモリ節約と計算効率の面で大きな利点を享受する。 しかし、CLの以前の試みは、柔軟性に欠ける固定CS比だけでなく、MNIST/CIFARのようなデータセットにも制限されており、複雑な現実世界の高解像度(HR)データやビジョンタスクにスケールしない。 本稿では,任意のCS比を持つ大規模画像を対象としたトランスフォーマーを用いた圧縮学習フレームワークTransCLを提案する。 特に、transclはまず学習可能なブロックベース圧縮センシングの戦略を利用し、柔軟な線形投影戦略を提案し、任意のcs比のブロックバイブロック方式で、大規模画像上でclを実行可能にする。 次に,全ブロックのCS測定をシーケンスとして,純粋トランスフォーマーベースのバックボーンを配置し,様々なタスク指向のヘッドで視覚タスクを実行する。 十分な解析により,TransCLは干渉に対する強い耐性を示し,任意のCS比に対する堅牢な適応性を示した。 複雑なHRデータに対する大規模な実験により、提案したTransCLは、画像分類やセマンティックセグメンテーションタスクにおいて最先端のパフォーマンスを達成できることを示した。 特に、CS比が10\%$のTransCLは、元のデータで直接操作する場合とほとんど同じ性能を得ることができ、非常に低いCS比が1\%$である場合でも、満足度の高い性能を得ることができる。 提案するtransclのソースコードは \url{https://github.com/mc-e/transcl/} で入手できる。

Compressive learning (CL) is an emerging framework that integrates signal acquisition via compressed sensing (CS) and machine learning for inference tasks directly on a small number of measurements. It can be a promising alternative to classical image-domain methods and enjoys great advantages in memory saving and computational efficiency. However, previous attempts on CL are not only limited to a fixed CS ratio, which lacks flexibility, but also limited to MNIST/CIFAR-like datasets and do not scale to complex real-world high-resolution (HR) data or vision tasks. In this paper, a novel transformer-based compressive learning framework on large-scale images with arbitrary CS ratios, dubbed TransCL, is proposed. Specifically, TransCL first utilizes the strategy of learnable block-based compressed sensing and proposes a flexible linear projection strategy to enable CL to be performed on large-scale images in an efficient block-by-block manner with arbitrary CS ratios. Then, regarding CS measurements from all blocks as a sequence, a pure transformer-based backbone is deployed to perform vision tasks with various task-oriented heads. Our sufficient analysis presents that TransCL exhibits strong resistance to interference and robust adaptability to arbitrary CS ratios. Extensive experiments for complex HR data demonstrate that the proposed TransCL can achieve state-of-the-art performance in image classification and semantic segmentation tasks. In particular, TransCL with a CS ratio of $10\%$ can obtain almost the same performance as when operating directly on the original data and can still obtain satisfying performance even with an extremely low CS ratio of $1\%$. The source codes of our proposed TransCL is available at \url{https://github.com/MC-E/TransCL/}.
翻訳日:2022-07-26 14:46:30 公開日:2022-07-25
# 意味アノテーションのためのグラフクエリ

Graph Querying for Semantic Annotations ( http://arxiv.org/abs/2207.12166v1 )

ライセンス: Link先を確認
Maxime Amblard (SEMAGRAMME, LORIA), Bruno Guillaume (SEMAGRAMME, LORIA), Siyana Pavlova (SEMAGRAMME, LORIA), Guy Perrier (SEMAGRAMME, LORIA)(参考訳) 本稿では,オンラインツールであるGREW-MATCHを用いて,既存の意味的注釈付きコーパスからクエリやデータの可視化を行う方法について述べる。 複雑なクエリをシンプルに構築し、コーパスに対して実行する専用の構文が利用できる。 このようなクエリはアノテーション付きデータの横ビューを与え、これらのビューは1つのコーパスまたは複数のコーパス間のアノテーションの一貫性をチェックするのに役立つ。 GREW-MATCHはエラーマイニングツールとして見ることができ、不整合が検出されると、修正すべき文を見つけるのに役立つ。 最後に、GREW-MATCHはアノテーションタスクを補助するサイドツールとしても使用することができ、注釈付きデータと比較する既存のコーパスのアノテーション例を見つけるのに役立つ。

This paper presents how the online tool GREW-MATCH can be used to make queries and visualise data from existing semantically annotated corpora. A dedicated syntax is available to construct simple to complex queries and execute them against a corpus. Such queries give transverse views of the annotated data, these views can help for checking the consistency of annotations in one corpus or across several corpora. GREW-MATCH can then be seen as an error mining tool: when inconsistencies are detected, it helps finding the sentences which should be fixed. Finally, GREW-MATCH can also be used as a side tool to assist annotation tasks helping to find annotation examples in existing corpora to be compared to the data to be annotated.
翻訳日:2022-07-26 14:19:40 公開日:2022-07-25
# UCCAのどのくらいがAMRから予測できるのか?

How much of UCCA can be predicted from AMR? ( http://arxiv.org/abs/2207.12174v1 )

ライセンス: Link先を確認
Siyana Pavlova (SEMAGRAMME, LORIA), Maxime Amblard (SEMAGRAMME, LORIA), Bruno Guillaume (SEMAGRAMME, LORIA)(参考訳) 本稿では,AMR(Abstract Meaning Representation)がより抽象的なフレームワークであり,UCCA(Universal Conceptual Cognitive Annotation)が固定されたフレームワークであることを示す。 前者から後者への2つのグラフ書き換えシステム(決定論的および非決定論的システム)を構築するためにコーパスベースのアプローチを用いる。 その評価と,ルール構築中に発見したあいまいさについて紹介する。 最後に,異なるフレーバーのセマンティクスフレームワークの比較に関して,議論と今後の作業の方向性について述べる。

In this paper, we consider two of the currently popular semantic frameworks: Abstract Meaning Representation (AMR)a more abstract framework, and Universal Conceptual Cognitive Annotation (UCCA)-an anchored framework. We use a corpus-based approach to build two graph rewriting systems, a deterministic and a non-deterministic one, from the former to the latter framework. We present their evaluation and a number of ambiguities that we discovered while building our rules. Finally, we provide a discussion and some future work directions in relation to comparing semantic frameworks of different flavors.
翻訳日:2022-07-26 14:19:17 公開日:2022-07-25
# 制御論的観点からのステップサイズ減少下における非同期q-learningの有限時間解析

Finite-Time Analysis of Asynchronous Q-learning under Diminishing Step-Size from Control-Theoretic View ( http://arxiv.org/abs/2207.12217v1 )

ライセンス: Link先を確認
Han-Dong Lim, Donghwan Lee(参考訳) q-learningは長年にわたり強化学習アルゴリズムの1つであり、q-learningの理論分析は数十年にわたって活発な研究テーマとなっている。 Q-ラーニングの漸近収束解析の研究には長い伝統があるが、最近になって非漸近収束の研究が活発に行われている。 本研究の目的は,マルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析を制御システムの観点から検討することである。 特に,ステップサイズを減少させるq-ラーニングの離散時間変動スイッチングシステムモデルを導入し,一定のステップサイズを持つスイッチングシステム解析の最近の展開を著しく改善し,文献におけるアート結果のほとんどと同等以上の収束率である \(\mathcal{o}\left( \sqrt{\frac{\log k}{k}} \right)\) を導出する。 一方, ステップサイズの縮小によって生じる分析の難易度を回避するために, 同様の変換を用いた手法が新たに適用された。 提案する分析では,新たな洞察と,さまざまなシナリオをカバーするとともに,離散時間切替システムへのユニークな接続を通じて,q-learningに関する理解を深めるための,新たな簡易テンプレートを提供する。

Q-learning has long been one of the most popular reinforcement learning algorithms, and theoretical analysis of Q-learning has been an active research topic for decades. Although researches on asymptotic convergence analysis of Q-learning have a long tradition, non-asymptotic convergence has only recently come under active study. The main goal of this paper is to investigate new finite-time analysis of asynchronous Q-learning under Markovian observation models via a control system viewpoint. In particular, we introduce a discrete-time time-varying switching system model of Q-learning with diminishing step-sizes for our analysis, which significantly improves recent development of the switching system analysis with constant step-sizes, and leads to \(\mathcal{O}\left( \sqrt{\frac{\log k}{k}} \right)\) convergence rate that is comparable to or better than most of the state of the art results in the literature. In the mean while, a technique using the similarly transformation is newly applied to avoid the difficulty in the analysis posed by diminishing step-sizes. The proposed analysis brings in additional insights, covers different scenarios, and provides new simplified templates for analysis to deepen our understanding on Q-learning via its unique connection to discrete-time switching systems.
翻訳日:2022-07-26 14:19:03 公開日:2022-07-25
# 意味的プロセス記述に基づくOPC UAイベントトレースへのアクセスと解釈

Accessing and Interpreting OPC UA Event Traces based on Semantic Process Descriptions ( http://arxiv.org/abs/2207.12252v1 )

ライセンス: Link先を確認
Tom Westermann, Nemanja Hranisavljevic, Alexander Fay(参考訳) 生産システムからのイベントデータの解析は、Industrial 4.0に関連する多くのアプリケーションの基礎となっている。 しかし、この領域では異種および異種データが一般的である。 その結果、事象の文脈情報は不完全あるいは不適切に解釈され、結果として最適でない解析結果が得られる。 本稿では,イベントデータ(製品タイプ,プロセスタイプ,プロセスパラメータなど)のコンテキストに基づいて,生産システムのイベントデータにアクセスするアプローチを提案する。 このアプローチは: データベースシステムからフィルタリングされたイベントログを抽出する。 1)生産システムの階層構造の意味モデル 2) 形式化されたプロセス記述及び 3) OPC UA情報モデル。 概念実証として、OPC UA for Machinery Companion Specificationsに基づくサンプルサーバを用いて、我々のアプローチを実証する。

The analysis of event data from production systems is the basis for many applications associated with Industry 4.0. However, heterogeneous and disjoint data is common in this domain. As a consequence, contextual information of an event might be incomplete or improperly interpreted which results in suboptimal analysis results. This paper proposes an approach to access a production systems' event data based on the event data's context (such as the product type, process type or process parameters). The approach extracts filtered event logs from a database system by combining: 1) a semantic model of a production system's hierarchical structure, 2) a formalized process description and 3) an OPC UA information model. As a proof of concept we demonstrate our approach using a sample server based on OPC UA for Machinery Companion Specifications.
翻訳日:2022-07-26 14:18:40 公開日:2022-07-25
# 総人口知識アライメントを用いたバックドアフェデレーション学習支援技術報告

Technical Report: Assisting Backdoor Federated Learning with Whole Population Knowledge Alignment ( http://arxiv.org/abs/2207.12327v1 )

ライセンス: Link先を確認
Tian Liu, Xueyang Hu, Tao Shu(参考訳) FL(Federated Learning)の分散した性質から、FLがバックドア攻撃に対して脆弱であることが判明した。 単発バックドア攻撃は、FLモデル収束時にメインタスクとバックドアサブタスクの両方で高い精度を達成する。 しかし, 早期の単発バックドア攻撃は, 1) 通常の局所更新による希釈効果により, 最大バックドア効果が注入時に到達しない, 2) バックドア効果が急速に低下し, 新たな局所更新によってバックドアがオーバーライトされるため, 効果が低い。 本稿ではFLモデル情報漏洩を利用した早期単発バックドア攻撃を強化する。 FL収束は、クライアントが全人口の分布と勾配を模倣するデータセットを訓練した場合、迅速に行うことができることを示す。 この観察に基づいて,後続のバックドア攻撃の予備段階を含む2相バックドア攻撃を提案する。 事前フェーズでは、攻撃者が制御したクライアントがまず全人口分布推定攻撃を起動し、その後、勾配と推定分布の両方に整合した局所的なデータセットをトレーニングする。 予備段階から見れば、後から注入されたバックドアは、通常のモデル更新によってバックドア効果が希薄になるため、よりよい効果が得られる。 提案したバックドア攻撃の有効性を評価するため,様々なデータ不均一性設定下でMNISTデータセットに対して大規模な実験を行った。 提案したバックドア攻撃は,防御機構がある場合でも,成功率と長寿の両方で既存のバックドア攻撃よりも優れていた。

Due to the distributed nature of Federated Learning (FL), researchers have uncovered that FL is vulnerable to backdoor attacks, which aim at injecting a sub-task into the FL without corrupting the performance of the main task. Single-shot backdoor attack achieves high accuracy on both the main task and backdoor sub-task when injected at the FL model convergence. However, the early-injected single-shot backdoor attack is ineffective because: (1) the maximum backdoor effectiveness is not reached at injection because of the dilution effect from normal local updates; (2) the backdoor effect decreases quickly as the backdoor will be overwritten by the newcoming normal local updates. In this paper, we strengthen the early-injected single-shot backdoor attack utilizing FL model information leakage. We show that the FL convergence can be expedited if the client trains on a dataset that mimics the distribution and gradients of the whole population. Based on this observation, we proposed a two-phase backdoor attack, which includes a preliminary phase for the subsequent backdoor attack. In the preliminary phase, the attacker-controlled client first launches a whole population distribution inference attack and then trains on a locally crafted dataset that is aligned with both the gradient and inferred distribution. Benefiting from the preliminary phase, the later injected backdoor achieves better effectiveness as the backdoor effect will be less likely to be diluted by the normal model updates. Extensive experiments are conducted on MNIST dataset under various data heterogeneity settings to evaluate the effectiveness of the proposed backdoor attack. Results show that the proposed backdoor outperforms existing backdoor attacks in both success rate and longevity, even when defense mechanisms are in place.
翻訳日:2022-07-26 14:18:30 公開日:2022-07-25
# ランダムニューラルネットワークにおける活動の次元

Dimension of Activity in Random Neural Networks ( http://arxiv.org/abs/2207.12373v1 )

ライセンス: Link先を確認
David G. Clark, L.F. Abbott, Ashok Litwin-Kumar(参考訳) ニューラルネットワークは、多くの相互接続ユニットの協調活動を通して情報を処理する高次元非線形力学系である。 生物学的および機械学習ネットワークがどのように機能し、学習するかを理解するには、ユニット間の相互共分散に含まれるこの協調アクティビティの構造に関する知識が必要である。 動的平均場理論(DMFT)は、無作為ニューラルネットワークのいくつかの特徴を解明してきたが、既存のDMFTアプローチは相互共分散の計算をサポートしない。 DMFTアプローチを2箇所の空洞法により拡張することで,この長年の問題を解決する。 これは、初めて、共分散行列のスペクトルの参加比として定義される有効次元を含む、アクティビティコーディネーションのいくつかの空間的および時間的特徴を明らかにする。 本研究は, 乱数ニューラルネットワークにおける集合活動の構造と, より広範に, クエンチ障害を伴う高次元非線形力学系において, 一般的な解析フレームワークを提供する。

Neural networks are high-dimensional nonlinear dynamical systems that process information through the coordinated activity of many interconnected units. Understanding how biological and machine-learning networks function and learn requires knowledge of the structure of this coordinated activity, information contained in cross-covariances between units. Although dynamical mean field theory (DMFT) has elucidated several features of random neural networks -- in particular, that they can generate chaotic activity -- existing DMFT approaches do not support the calculation of cross-covariances. We solve this longstanding problem by extending the DMFT approach via a two-site cavity method. This reveals, for the first time, several spatial and temporal features of activity coordination, including the effective dimension, defined as the participation ratio of the spectrum of the covariance matrix. Our results provide a general analytical framework for studying the structure of collective activity in random neural networks and, more broadly, in high-dimensional nonlinear dynamical systems with quenched disorder.
翻訳日:2022-07-26 14:17:57 公開日:2022-07-25
# マルチノードニーブベイと最適線形支持ベクトルマシンの機械学習アルゴリズムを用いたAIによる反サイバーいじめシステム

AI Powered Anti-Cyber Bullying System using Machine Learning Algorithm of Multinomial Naive Bayes and Optimized Linear Support Vector Machine ( http://arxiv.org/abs/2207.11897v1 )

ライセンス: Link先を確認
Tosin Ige, Sikiru Adewale(参考訳) 「我々の社会がサイバーいじめを認めない限り、何千もの無言の犠牲者の苦しみは続くだろう」とアンナ・マリア・チャベスは語る。 サイバーいじめに対する信頼できる解決策を提供することができないサイバーいじめに関する一連の研究があった。 本研究では,92%の精度でいじめメッセージの検出と傍受が可能なモデルを開発することで,この問題に対する恒久的な解決策を提供することができた。 また,マルチノミナルナイーブベイズ(mnb)の機械学習アルゴリズムと最適化リニアサポートベクターマシン(svm)を用いた,人工知能を用いたアンチサイバブルシステムの開発に繋がるモデルをテストするためのチャットボット自動化メッセージングシステムを開発した。 我々のモデルは、いじめやいじめのメッセージを検出し、傍受し、即座に行動を起こすことができる。

"Unless and until our society recognizes cyber bullying for what it is, the suffering of thousands of silent victims will continue." ~ Anna Maria Chavez. There had been series of research on cyber bullying which are unable to provide reliable solution to cyber bullying. In this research work, we were able to provide a permanent solution to this by developing a model capable of detecting and intercepting bullying incoming and outgoing messages with 92% accuracy. We also developed a chatbot automation messaging system to test our model leading to the development of Artificial Intelligence powered anti-cyber bullying system using machine learning algorithm of Multinomial Naive Bayes (MNB) and optimized linear Support Vector Machine (SVM). Our model is able to detect and intercept bullying outgoing and incoming bullying messages and take immediate action.
翻訳日:2022-07-26 14:11:31 公開日:2022-07-25
# AI駆動型タレントインテリジェンスソリューションの設計 - TOEフレームワークの拡張を目的としたビッグデータの探索

Designing an AI-Driven Talent Intelligence Solution: Exploring Big Data to extend the TOE Framework ( http://arxiv.org/abs/2207.12052v1 )

ライセンス: Link先を確認
Ali Faqihi and Shah J Miah(参考訳) aiは、高度な自動化を実装することによって、動的プロビジョニングを可能にする人材管理のアプローチを改善する可能性がある。 本研究の目的は、人材管理問題に対処するAI指向のアーティファクトを開発するための新しい要件を特定することである。 プロフェッショナルアセスメントと計画属性の相互作用の強化に焦点を当てたデザインアーティファクトは、人材知能モジュールと個人の成長ニーズに大きく依存する、キャリアガイダンスのためのインテリジェントな雇用自動化ソリューションである。 技術-組織-環境理論のモデレーションの提案により,包括的AIソリューションフレームワークの主要な要素である構造化機械学習技術を用いて実験研究を行うための設計科学手法が採用された。

AI has the potential to improve approaches to talent management enabling dynamic provisions through implementing advanced automation. This study aims to identify the new requirements for developing AI-oriented artifacts to address talent management issues. Focusing on enhancing interactions between professional assessment and planning attributes, the design artifact is an intelligent employment automation solution for career guidance that is largely dependent on a talent intelligent module and an individuals growth needs. A design science method is adopted for conducting the experimental study with structured machine learning techniques which is the primary element of a comprehensive AI solution framework informed through a proposed moderation of the technology-organization-environment theory.
翻訳日:2022-07-26 14:11:13 公開日:2022-07-25
# プロセス関連ユーザインタラクションログのための参照データモデル

A Reference Data Model for Process-Related User Interaction Logs ( http://arxiv.org/abs/2207.12054v1 )

ライセンス: Link先を確認
Luka Abb, Jana-Rebecca Rehse(参考訳) ユーザインタラクション(UI)ログは、情報システム内のタスク実行中にユーザが実行する低レベルアクティビティを記録する高解像度イベントログである。 UIログの各イベントは、ボタンをクリックしたり、文字列をテキストフィールドに入力したりするなど、ユーザとインターフェースの間の単一のインタラクションに対応する。 UIログはタスクマイニングやロボットプロセス自動化(RPA)などの目的で使用されるが、各研究とツールは、ユーザインタラクションを構成する要素と属性の異なる概念化と実装に依存している。 この標準化の欠如により、異なるソースからのuiログの統合や、uiデータ収集ツールとダウンストリーム分析や自動化ソリューションの統合が困難になっている。 そこで本研究では,プロセス関連UIログの参照データモデルを提案する。 科学文献や業界ソリューションのレビューに基づいて、このモデルにはUIログのコア属性が含まれているが、スコープ、抽象化のレベル、ケースコンセプトに関してはフレキシブルである。 本稿では,イベントログのXES交換標準の拡張としてモデルを実装し,実生活RPAシナリオにおける実用性を示す。

User interaction (UI) logs are high-resolution event logs that record low-level activities performed by a user during the execution of a task in an information system. Each event in a UI log corresponds to a single interaction between the user and the interface, such as clicking a button or entering a string into a text field. UI logs are used for purposes like task mining or robotic process automation (RPA), but each study and tool relies on a different conceptualization and implementation of the elements and attributes that constitute user interactions. This lack of standardization makes it difficult to integrate UI logs from different sources and to combine tools for UI data collection with downstream analytics or automation solutions. To address this, we propose a universally applicable reference data model for process-related UI logs. Based on a review of scientific literature and industry solutions, this model includes the core attributes of UI logs, but remains flexible with regard to the scope, level of abstraction, and case notion. We provide an implementation of the model as an extension to the XES interchange standard for event logs and demonstrate its practical applicability in a real-life RPA scenario.
翻訳日:2022-07-26 14:11:02 公開日:2022-07-25
# フランス語の多人数対話データベース

A Multi-Party Dialogue Ressource in French ( http://arxiv.org/abs/2207.12162v1 )

ライセンス: Link先を確認
Maria Boritchev (SEMAGRAMME, LORIA), Maxime Amblard (SEMAGRAMME, LORIA)(参考訳) ボードゲーム「カタン」のフランス語話者間における,実生活,口頭,自発的多人数対話の書き起こしコーパスであるゲーム(ding)における対話について述べる。 我々の目標は、長文対話からなるフランス語の質の高いリソースを提供することであり、その学習を促進させることである(Asher et al., 2016)。 一般的な対話では、参加者は個人情報を共有するため、リソースを自由にかつオープンに拡散することは不可能である。 DinGでは、参加者の注意がゲームに集中しているため、自分自身について話すことができない。 また,より自然な自動対話システムを開発するために,注記を通して,対話における質問の性質について検討している(cruz blandon et al., 2019)。

We present Dialogues in Games (DinG), a corpus of manual transcriptions of real-life, oral, spontaneous multi-party dialogues between French-speaking players of the board game Catan. Our objective is to make available a quality resource for French, composed of long dialogues, to facilitate their study in the style of (Asher et al., 2016). In a general dialogue setting, participants share personal information, which makes it impossible to disseminate the resource freely and openly. In DinG, the attention of the participants is focused on the game, which prevents them from talking about themselves. In addition, we are conducting a study on the nature of the questions in dialogue, through annotation (Cruz Blandon et al., 2019), in order to develop more natural automatic dialogue systems.
翻訳日:2022-07-26 14:10:44 公開日:2022-07-25
# fire 2020におけるurduにおける偽ニュース検出に関する共通課題の概要

Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 ( http://arxiv.org/abs/2207.11893v1 )

ライセンス: Link先を確認
Maaz Amjad, Grigori Sidorov, Alisa Zhila, Alexander Gelbukh and Paolo Rosso(参考訳) 本稿では,ウルドゥー語における偽ニュース検出に関する最初の共通タスクについて述べる。 このタスクはバイナリ分類タスクとして設定され、ゴールは実ニュースと偽ニュースを区別することである。 900の注釈付きニュース記事と400のニュース記事からなるデータセットをテスト用に提供しました。 データセットには5つの領域にニュースが含まれている。 (i)健康。 (ii)スポーツ (iii)ショービズ (iv)技術、及び (v)ビジネス。 6つの国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)から42チームが登録した。 9チームが実験結果を提出した。 参加者は、機能ベースの従来の機械学習からニューラルネットワーク技術まで、さまざまな機械学習手法を使用した。 最高のパフォーマンスシステムはFスコアの0.90を達成し、BERTベースのアプローチが他の機械学習技術よりも優れていることを示した。

This overview paper describes the first shared task on fake news detection in Urdu language. The task was posed as a binary classification task, in which the goal is to differentiate between real and fake news. We provided a dataset divided into 900 annotated news articles for training and 400 news articles for testing. The dataset contained news in five domains: (i) Health, (ii) Sports, (iii) Showbiz, (iv) Technology, and (v) Business. 42 teams from 6 different countries (India, China, Egypt, Germany, Pakistan, and the UK) registered for the task. 9 teams submitted their experimental results. The participants used various machine learning methods ranging from feature-based traditional machine learning to neural networks techniques. The best performing system achieved an F-score value of 0.90, showing that the BERT-based approach outperforms other machine learning techniques
翻訳日:2022-07-26 14:06:23 公開日:2022-07-25
# ニューラルジェネレーションは現実の人々と出会う - ソーシャルで情報に富んだオープンドメイン対話エージェントの構築

Neural Generation Meets Real People: Building a Social, Informative Open-Domain Dialogue Agent ( http://arxiv.org/abs/2207.12021v1 )

ライセンス: Link先を確認
Ethan A. Chi, Ashwin Paranjape, Abigail See, Caleb Chiam, Kathleen Kenealy, Swee Kiat Lim, Amelia Hardy, Chetanya Rastogi, Haojun Li, Alexander Iyabor, Yutong He, Hari Sowrirajan, Peng Qi, Kaushik Ram Sadagopan, Nguyet Minh Phu, Dilara Soylu, Jillian Tang, Avanika Narayan, Giovanni Campagna, Christopher D. Manning(参考訳) オープンドメインのソーシャルチャットボットchirpy cardinalを紹介する。 情報と会話の両方を目指して、私たちのボットは、本物で感情的に知的な方法でユーザーとチャットします。 制御されたニューラルジェネレーションと手書きの対話を統合することで、ユーザとボットの両方が会話を交代させ、エンゲージメントと社会的に豊かな体験を生み出す。 Alexa Prize Socialbot Grand Challengeの第4回で展開されたChirpy Cardinalは、毎日何千もの会話を処理し、平均ユーザ評価3.58/5の9つのボットのうち2位にランクインした。

We present Chirpy Cardinal, an open-domain social chatbot. Aiming to be both informative and conversational, our bot chats with users in an authentic, emotionally intelligent way. By integrating controlled neural generation with scaffolded, hand-written dialogue, we let both the user and bot take turns driving the conversation, producing an engaging and socially fluent experience. Deployed in the fourth iteration of the Alexa Prize Socialbot Grand Challenge, Chirpy Cardinal handled thousands of conversations per day, placing second out of nine bots with an average user rating of 3.58/5.
翻訳日:2022-07-26 14:06:11 公開日:2022-07-25
# あなたは何で気が変わったのですか。 オンライングループ意思決定会話における経験的研究

What makes you change your mind? An empirical investigation in online group decision-making conversations ( http://arxiv.org/abs/2207.12035v1 )

ライセンス: Link先を確認
Georgi Karadzhov, Tom Stafford, Andreas Vlachos(参考訳) 人々は、プロジェクトミーティングや採用パネルなど、複雑なタスクを解決するためにグループディスカッションを活用しています。 そうすることで、彼らはさまざまな会話戦略に取り組み、最高のアプローチを互いに説得し、最終的に決定に到達しようとする。 そこで本研究では,誰かの心変わりを検知する手法について検討する。 この目的のために,課題解決のために協力する人々のグループディスカッションを含む,最近導入されたデータセットを活用する。 そこで我々は,ニューラルネットワークの分類や言語に依存しない変化点検出など,さまざまな手法を取り入れた。 これらの手法の評価は,タスクは自明なものではないが,学習とランクのトレーニングを併用した言語認識モデルを用いることが最善の方法であることを示している。 最後に、モデルが心の変化の原因を示す指標として発達する手がかりについて検討する。

People leverage group discussions to collaborate in order to solve complex tasks, e.g. in project meetings or hiring panels. By doing so, they engage in a variety of conversational strategies where they try to convince each other of the best approach and ultimately reach a decision. In this work, we investigate methods for detecting what makes someone change their mind. To this end, we leverage a recently introduced dataset containing group discussions of people collaborating to solve a task. To find out what makes someone change their mind, we incorporate various techniques such as neural text classification and language-agnostic change point detection. Evaluation of these methods shows that while the task is not trivial, the best way to approach it is using a language-aware model with learning-to-rank training. Finally, we examine the cues that the models develop as indicative of the cause of a change of mind.
翻訳日:2022-07-26 14:05:58 公開日:2022-07-25
# 離散潜在変数モデルのJSA学習による半監督タスク指向対話システムの改善

Advancing Semi-Supervised Task Oriented Dialog Systems by JSA Learning of Discrete Latent Variable Models ( http://arxiv.org/abs/2207.12235v1 )

ライセンス: Link先を確認
Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang and Junlan Feng(参考訳) ラベルなしダイアログデータを利用した半教師付きタスク指向ダイアログ(TOD)システムの開発が注目されている。 潜在状態todモデルの半教師あり学習では、変分学習がしばしば用いられるが、離散的潜在変数を通じて伝播する勾配の厄介な高分散と、ターゲットログを間接的に最適化することの欠点に苦しむ。 近年,有意な性能を持つ離散的潜在変数モデルを学ぶための統合確率近似(jsa)と呼ばれる代替アルゴリズムが登場している。 本稿では,JSA-TODと呼ばれる潜在状態TODモデルの半教師付き学習にJSAを適用することを提案する。 我々の知る限り、JSA-TODは、TODシステムのような長い逐次生成問題に対する離散潜在変数条件モデルの半教師付き学習を開発するための最初の成果である。 大規模な実験により、JSA-TODは変分学習よりも優れていた。 注目すべきは、20%のラベルを用いた半教師付きJSA-TODは、MultiWOZ2.1の完全な教師付きベースラインに近いパフォーマンスである。

Developing semi-supervised task-oriented dialog (TOD) systems by leveraging unlabeled dialog data has attracted increasing interests. For semi-supervised learning of latent state TOD models, variational learning is often used, but suffers from the annoying high-variance of the gradients propagated through discrete latent variables and the drawback of indirectly optimizing the target log-likelihood. Recently, an alternative algorithm, called joint stochastic approximation (JSA), has emerged for learning discrete latent variable models with impressive performances. In this paper, we propose to apply JSA to semi-supervised learning of the latent state TOD models, which is referred to as JSA-TOD. To our knowledge, JSA-TOD represents the first work in developing JSA based semi-supervised learning of discrete latent variable conditional models for such long sequential generation problems like in TOD systems. Extensive experiments show that JSA-TOD significantly outperforms its variational learning counterpart. Remarkably, semi-supervised JSA-TOD using 20% labels performs close to the full-supervised baseline on MultiWOZ2.1.
翻訳日:2022-07-26 14:05:46 公開日:2022-07-25
# 確率勾配アルゴリズムによる統計的推測

Statistical Inference with Stochastic Gradient Algorithms ( http://arxiv.org/abs/2207.12395v1 )

ライセンス: Link先を確認
Jeffrey Negrea, Jun Yang, Haoyue Feng, Daniel M. Roy, Jonathan H. Huggins(参考訳) 確率勾配アルゴリズムは大規模学習および推論問題における最適化とサンプリングの両方に広く用いられている。 しかし、実際には、これらのアルゴリズムのチューニングは通常、厳密で一般化可能な理論ではなく、ヒューリスティックスと試行錯誤を用いて行われる。 この理論と実践のギャップに対処するために,事前条件付き確率勾配アルゴリズムの非常に一般的なクラスのイテレートの大規模サンプル挙動を固定ステップサイズで特徴付けることにより,パラメータのチューニングの効果について考察する。 最適化設定において,大きな固定ステップサイズを持つ反復平均化により,(局所的な)m推定器を統計的に効率的に近似できることを示す。 サンプリングの文脈では,調整パラメータの選択が適切であれば,後方のbernstein-von mises極限,モデル誤特定のための後方調整,mleの漸近分布のいずれかに制限定常共分散が一致し,naiveチューニングではこれらいずれにも一致しないことを示す。 さらに,固定分布からの本質的に独立したサンプルは,データセット上の一定数のパスの後に得ることができると主張する。 シミュレーションと実データを用いて, 有限サンプルレジームにおける漸近的結果の検証を行った。 全体として、一定のステップサイズで適切に調整された確率勾配アルゴリズムは、点推定や後部的なサンプルを得るための計算効率が高く統計的に堅牢なアプローチを提供することを示した。

Stochastic gradient algorithms are widely used for both optimization and sampling in large-scale learning and inference problems. However, in practice, tuning these algorithms is typically done using heuristics and trial-and-error rather than rigorous, generalizable theory. To address this gap between theory and practice, we novel insights into the effect of tuning parameters by characterizing the large-sample behavior of iterates of a very general class of preconditioned stochastic gradient algorithms with fixed step size. In the optimization setting, our results show that iterate averaging with a large fixed step size can result in statistically efficient approximation of the (local) M-estimator. In the sampling context, our results show that with appropriate choices of tuning parameters, the limiting stationary covariance can match either the Bernstein--von Mises limit of the posterior, adjustments to the posterior for model misspecification, or the asymptotic distribution of the MLE; and that with a naive tuning the limit corresponds to none of these. Moreover, we argue that an essentially independent sample from the stationary distribution can be obtained after a fixed number of passes over the dataset. We validate our asymptotic results in realistic finite-sample regimes via several experiments using simulated and real data. Overall, we demonstrate that properly tuned stochastic gradient algorithms with constant step size offer a computationally efficient and statistically robust approach to obtaining point estimates or posterior-like samples.
翻訳日:2022-07-26 14:01:57 公開日:2022-07-25
# 局所性増強を伴う弱教師付き学習における2d en face optical coherence tomography angiography vessel segmentation

OCTAve: 2D en face Optical Coherence Tomography Angiography Vessel Segmentation in Weakly-Supervised Learning with Locality Augmentation ( http://arxiv.org/abs/2207.12238v1 )

ライセンス: Link先を確認
Amrest Chinkamol and Vetit Kanjaras and Phattarapong Sawangjai and Yitian Zhao and Thapanun Sudhawiyangkul and Chantana Chantrapornchai and Cuntai Guan and Theerawit Wilaiprasitporn(参考訳) 2d en face octaから血管構造を抽出するための深層学習技術を用いた研究が増えているが、このようなアプローチのために、網膜血管のような曲線構造上のデータアノテーション処理は非常に費用がかかり、時間がかかることが知られているが、アノテーションの問題に対処しようとする試みは少ない。 本研究では,ピクセルレベルのアノテーションを自動化するために,スクリブルベースの弱教師付き学習手法を提案する。 OCTAveと呼ばれる本提案手法は,スクリブルアノテートによる弱教師付き学習と,敵意と新たな自己監督型深層学習を組み合わせたものである。 本機構は,UNet型アーキテクチャの識別層からの識別出力を利用するために設計されており,この際,集合識別出力と分節マップ述語とのKulback-Liebler分節を最小化する。 この組み合わせにより,実験で示された血管構造の局在性が向上する。 提案手法を大規模公開データセット、すなわちrose, octa-500で検証した。 セグメンテーション性能は、最先端の完全教師付きおよびスクリブルベースの弱い教師付きアプローチと比較される。 実験で使用した作業の実装は[LINK]にあります。

While there have been increased researches using deep learning techniques for the extraction of vascular structure from the 2D en face OCTA, for such approach, it is known that the data annotation process on the curvilinear structure like the retinal vasculature is very costly and time consuming, albeit few tried to address the annotation problem. In this work, we propose the application of the scribble-base weakly-supervised learning method to automate the pixel-level annotation. The proposed method, called OCTAve, combines the weakly-supervised learning using scribble-annotated ground truth augmented with an adversarial and a novel self-supervised deep supervision. Our novel mechanism is designed to utilize the discriminative outputs from the discrimination layer of a UNet-like architecture where the Kullback-Liebler Divergence between the aggregate discriminative outputs and the segmentation map predicate is minimized during the training. This combined method leads to the better localization of the vascular structure as shown in our experiments. We validate our proposed method on the large public datasets i.e., ROSE, OCTA-500. The segmentation performance is compared against both state-of-the-art fully-supervised and scribble-based weakly-supervised approaches. The implementation of our work used in the experiments is located at [LINK].
翻訳日:2022-07-26 14:00:24 公開日:2022-07-25
# ロバストコミュニティ検出のためのミニマックスレート

Minimax Rates for Robust Community Detection ( http://arxiv.org/abs/2207.11903v1 )

ライセンス: Link先を確認
Allen Liu, Ankur Moitra(参考訳) 本研究では,逆ノード破壊を伴う確率ブロックモデルにおけるコミュニティ検出の問題について検討する。 我々の主な結果は、汚職の$\epsilon$-fractionを許容し、エラー$o(\epsilon) + e^{-\frac{c}{2} (1 \pm o(1))}$ where $c = (\sqrt{a}\sqrt{b})^2$ を信号対雑音比とし、$a/n$ と $b/n$ はそれぞれコミュニティ間およびコミュニティ内接続確率である。 これらの境界は基本的に、汚職のないSBMのミニマックスレートと一致する。 また、$\mathbb{z}_2$-synchronizationのロバストなアルゴリズムも与えます。 我々のアルゴリズムの核心は、大まかなクラスタリングの精度を確実に向上させるために、グローバル情報を利用する新しい半定プログラムである。 さらに,我々のアルゴリズムは,半ランダムモデルからの非有界モノトーン変化と逆破壊を混合する,さらに困難なノイズモデルで動作するという意味で,二重ロバストであることを示す。

In this work, we study the problem of community detection in the stochastic block model with adversarial node corruptions. Our main result is an efficient algorithm that can tolerate an $\epsilon$-fraction of corruptions and achieves error $O(\epsilon) + e^{-\frac{C}{2} (1 \pm o(1))}$ where $C = (\sqrt{a} - \sqrt{b})^2$ is the signal-to-noise ratio and $a/n$ and $b/n$ are the inter-community and intra-community connection probabilities respectively. These bounds essentially match the minimax rates for the SBM without corruptions. We also give robust algorithms for $\mathbb{Z}_2$-synchronization. At the heart of our algorithm is a new semidefinite program that uses global information to robustly boost the accuracy of a rough clustering. Moreover, we show that our algorithms are doubly-robust in the sense that they work in an even more challenging noise model that mixes adversarial corruptions with unbounded monotone changes, from the semi-random model.
翻訳日:2022-07-26 13:59:34 公開日:2022-07-25
# Boolean と $\mathbb{F}_p$-Matrix Factorization:理論から実践へ

Boolean and $\mathbb{F}_p$-Matrix Factorization: From Theory to Practice ( http://arxiv.org/abs/2207.11917v1 )

ライセンス: Link先を確認
Fedor Fomin, Fahad Panolan, Anurag Patil, Adil Tanveer(参考訳) ブール行列分解 (BMF) は、2つの低ランク二項行列のブール積として与えられた二項行列の近似を求める。 バイナリデータは、多くの分野においてユビキタスであり、医学、自然言語処理、バイオインフォマティクス、コンピュータグラフィックスなどでは、バイナリ行列によるデータの表現が一般的である。 残念ながら、bmfは計算が難しく、ヒューリスティックなアルゴリズムはブール分解を計算するために使われる。 近年、理論的なブレークスルーは2つの研究グループによって独立に得られた。 Ban et al. (SODA 2019) と Fomin et al. (Trans. Algorithms 2020) は、BMFが効率的な多項式時間近似スキーム(EPTAS)を認めていることを示している。 しかし、理論的な重要性にもかかわらず、ランタイムをランクから高い倍指数で依存しているため、これらのアルゴリズムは実際に実装できない。 我々の研究を動機づける主要な研究課題は、BMFの理論的進歩が実用的なアルゴリズムに繋がるかどうかである。 私たちの作品の主な概念的貢献は次のとおりである。 EPTAS for BMFは純粋に理論的に進歩しているが、これらのアルゴリズムの背後にある一般的なアプローチはより優れたヒューリスティックな設計の基礎となる。 また、この戦略を用いて、関連する$\mathbb{F}_p$-Matrix Factorizationの新しいアルゴリズムを開発する。 ここで、有限体 gf($p$) 上の行列 $a$ が与えられたとき、ここでは $p$ は素数、整数 $r$ である。 合成および実世界のデータに関する経験的研究は、bmfおよび$\mathbb{f}_p$-matrix因子化に対する新しいアルゴリズムの利点を示しています。

Boolean Matrix Factorization (BMF) aims to find an approximation of a given binary matrix as the Boolean product of two low-rank binary matrices. Binary data is ubiquitous in many fields, and representing data by binary matrices is common in medicine, natural language processing, bioinformatics, computer graphics, among many others. Unfortunately, BMF is computationally hard and heuristic algorithms are used to compute Boolean factorizations. Very recently, the theoretical breakthrough was obtained independently by two research groups. Ban et al. (SODA 2019) and Fomin et al. (Trans. Algorithms 2020) show that BMF admits an efficient polynomial-time approximation scheme (EPTAS). However, despite the theoretical importance, the high double-exponential dependence of the running times from the rank makes these algorithms unimplementable in practice. The primary research question motivating our work is whether the theoretical advances on BMF could lead to practical algorithms. The main conceptional contribution of our work is the following. While EPTAS for BMF is a purely theoretical advance, the general approach behind these algorithms could serve as the basis in designing better heuristics. We also use this strategy to develop new algorithms for related $\mathbb{F}_p$-Matrix Factorization. Here, given a matrix $A$ over a finite field GF($p$) where $p$ is a prime, and an integer $r$, our objective is to find a matrix $B$ over the same field with GF($p$)-rank at most $r$ minimizing some norm of $A-B$. Our empirical research on synthetic and real-world data demonstrates the advantage of the new algorithms over previous works on BMF and $\mathbb{F}_p$-Matrix Factorization.
翻訳日:2022-07-26 13:56:02 公開日:2022-07-25
# 情報処理等式と情報リスクブリッジ

Information Processing Equalities and the Information-Risk Bridge ( http://arxiv.org/abs/2207.11987v1 )

ライセンス: Link先を確認
Robert C. Williamson and Zac Cranko(参考訳) 統計実験のための情報測定の2つの新しいクラスを導入し、$\phi$-divergences, integral probability metrics, $\mathfrak{N}$-distances (MMD), $(f,\Gamma)$ divergences を2つ以上の分布間で一般化する。 これにより、情報の測度と統計的決定問題のベイズリスクの間の単純な幾何学的関係を導出し、変分$\phi$-divergence表現を完全に対称的に複数の分布に拡張することができる。 新しい発散の族はマルコフ作用素の作用により閉ざされ、古典的なデータ処理の不平等の洗練と一般化である情報処理の平等が生じる。 この等式は古典的リスク最小化における仮説クラスの選択の重要性についての洞察を与える。

We introduce two new classes of measures of information for statistical experiments which generalise and subsume $\phi$-divergences, integral probability metrics, $\mathfrak{N}$-distances (MMD), and $(f,\Gamma)$ divergences between two or more distributions. This enables us to derive a simple geometrical relationship between measures of information and the Bayes risk of a statistical decision problem, thus extending the variational $\phi$-divergence representation to multiple distributions in an entirely symmetric manner. The new families of divergence are closed under the action of Markov operators which yields an information processing equality which is a refinement and generalisation of the classical data processing inequality. This equality gives insight into the significance of the choice of the hypothesis class in classical risk minimization.
翻訳日:2022-07-26 13:54:32 公開日:2022-07-25
# 階層的強化学習とグラフニューラルネットワークによるフローシート合成

Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks ( http://arxiv.org/abs/2207.12051v1 )

ライセンス: Link先を確認
Laura Stops, Roel Leenhouts, Qinghe Gao, Artur M. Schweidtmann(参考訳) プロセス合成は、デジタル化と人工知能によって加速される破壊的変換を経験する。 本稿では,最新のアクター批判論理に基づく化学プロセス設計のための強化学習アルゴリズムを提案する。 提案アルゴリズムは,化学プロセスをグラフとして表現し,グラフ畳み込みニューラルネットワークを用いてプロセスグラフから学習する。 特に、グラフニューラルネットワークはエージェントアーキテクチャ内に実装され、状態の処理と意思決定を行う。 さらに、フローシートを生成するための階層的かつハイブリッドな意思決定プロセスを実装し、単位演算を離散決定として反復的に配置し、対応する設計変数を連続決定として選択する。 本手法は, 平衡反応, 共沸分離, リサイクルを含む事例研究において, 経済的に実行可能なフローシートを設計する可能性を示す。 結果は、離散的、連続的、ハイブリッドな行動空間における迅速な学習を示す。 提案する強化学習エージェントのフレキシブルなアーキテクチャにより,今後の研究において,大規模動作状態空間とシミュレータ処理のためのインタフェースを含める予定である。

Process synthesis experiences a disruptive transformation accelerated by digitization and artificial intelligence. We propose a reinforcement learning algorithm for chemical process design based on a state-of-the-art actor-critic logic. Our proposed algorithm represents chemical processes as graphs and uses graph convolutional neural networks to learn from process graphs. In particular, the graph neural networks are implemented within the agent architecture to process the states and make decisions. Moreover, we implement a hierarchical and hybrid decision-making process to generate flowsheets, where unit operations are placed iteratively as discrete decisions and corresponding design variables are selected as continuous decisions. We demonstrate the potential of our method to design economically viable flowsheets in an illustrative case study comprising equilibrium reactions, azeotropic separation, and recycles. The results show quick learning in discrete, continuous, and hybrid action spaces. Due to the flexible architecture of the proposed reinforcement learning agent, the method is predestined to include large action-state spaces and an interface to process simulators in future research.
翻訳日:2022-07-26 13:54:15 公開日:2022-07-25
# 準同型オートエンコーダ --観察された遷移からの学習群構造化表現

Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions ( http://arxiv.org/abs/2207.12067v1 )

ライセンス: Link先を確認
Hamza Keurti, Hsiao-Ru Pan, Michel Besserve, Benjamin F. Grewe, Bernhard Sch\"olkopf(参考訳) 私たちの行動が外界にどう影響するかという観点からも、外界を検証的に表す世界モデルをどのように取得することができるのか? 世界と相互作用してそのようなモデルを得ることができ、頭の外に存在する仮説的現実との関係について数学的デシラタを記述できるだろうか? 機械学習は観察的だけでなく介入的知識も含む表現へと向かっているため、表現学習やグループ理論のツールを用いてこれらの問題を研究している。 我々のアクチュエータが世界に作用するという仮定の下では、感覚情報だけでなく、世界の行動や遷移と整合した方法で感覚表現を変更する行動の内的表現を学習する手法を提案する。 我々は,その潜在空間に線形に作用する群表現を備えたオートエンコーダを用いて,群表現に適切な準同型性を強制する2段階再構成を訓練する。 既存の作業と比較して、このアプローチはグループ表現とエージェントがグループからサンプルできる変換についての仮定を少なくします。 提案手法は理論的に動機付けを行い,そのグループと環境のトポロジの正しい表現を学習できることを実証的に証明する。 また,軌道予測の性能を従来の手法と比較した。

How can we acquire world models that veridically represent the outside world both in terms of what is there and in terms of how our actions affect it? Can we acquire such models by interacting with the world, and can we state mathematical desiderata for their relationship with a hypothetical reality existing outside our heads? As machine learning is moving towards representations containing not just observational but also interventional knowledge, we study these problems using tools from representation learning and group theory. Under the assumption that our actuators act upon the world, we propose methods to learn internal representations of not just sensory information but also of actions that modify our sensory representations in a way that is consistent with the actions and transitions in the world. We use an autoencoder equipped with a group representation linearly acting on its latent space, trained on 2-step reconstruction such as to enforce a suitable homomorphism property on the group representation. Compared to existing work, our approach makes fewer assumptions on the group representation and on which transformations the agent can sample from the group. We motivate our method theoretically, and demonstrate empirically that it can learn the correct representation of the groups and the topology of the environment. We also compare its performance in trajectory prediction with previous methods.
翻訳日:2022-07-26 13:53:55 公開日:2022-07-25
# クラスタリングと可視化のためのGromov-Wasserstein型フィードバックによるデータの直交化

Orthogonalization of data via Gromov-Wasserstein type feedback for clustering and visualization ( http://arxiv.org/abs/2207.12279v1 )

ライセンス: Link先を確認
Martin Ryner and Johan Karlsson(参考訳) 本稿では,直交処理によるデータのクラスタリングと可視化のための適応的アプローチを提案する。 拡散マップフレームワークを用いてマルコフプロセスで表現されるデータポイントから始まり、グロモフ-ワッセルシュタイン距離にインスパイアされたフィードバック機構を適用してクラスタの直交性を適応的に増加させる。 このメカニズムは、スペクトルギャップを反復的に増加させ、データの直交性を洗練し、高い特異性を持つクラスタリングを実現する。 拡散マップフレームワークを用いて、遷移確率を用いたデータポイント間の関係を表現することにより、基礎となる距離、データのノイズ、ランダム初期化の両方に対して堅牢である。 本手法は,パラメータ値に対して一意な固定点にグローバルに収束することを示す。 また,マルコフ過程の遷移確率を2倍確率で求める手法を提案し,その場合,非凸最適化問題に対して最小化器を生成する。 本稿では, バイオ医薬品製造における低温電子顕微鏡画像データに適用し, 治療効果に関する生物学的知見を確認する。 遺伝子パッケージングの形態学的変異のある例を考察し,ヒトの分類と一致した生物学的に有意なクラスタリングの結果が得られたことを確認する。

In this paper we propose an adaptive approach for clustering and visualization of data by an orthogonalization process. Starting with the data points being represented by a Markov process using the diffusion map framework, the method adaptively increase the orthogonality of the clusters by applying a feedback mechanism inspired by the Gromov-Wasserstein distance. This mechanism iteratively increases the spectral gap and refines the orthogonality of the data to achieve a clustering with high specificity. By using the diffusion map framework and representing the relation between data points using transition probabilities, the method is robust with respect to both the underlying distance, noise in the data and random initialization. We prove that the method converges globally to a unique fixpoint for certain parameter values. We also propose a related approach where the transition probabilities in the Markov process are required to be doubly stochastic, in which case the method generates a minimizer to a nonconvex optimization problem. We apply the method on cryo-electron microscopy image data from biopharmaceutical manufacturing where we can confirm biologically relevant insights related to therapeutic efficacy. We consider an example with morphological variations of gene packaging and confirm that the method produces biologically meaningful clustering results consistent with human expert classification.
翻訳日:2022-07-26 13:53:13 公開日:2022-07-25
# サイバーセキュリティシミュレーションによる最適因果サイバーディフェンスエージェントの開発

Developing Optimal Causal Cyber-Defence Agents via Cyber Security Simulation ( http://arxiv.org/abs/2207.12355v1 )

ライセンス: Link先を確認
Alex Andrew and Sam Spillard and Joshua Collyer and Neil Dhir(参考訳) 本稿では,新たなサイバーセキュリティシミュレータと,最適化による意思決定モデルの統合を通じて,サイバーセキュリティの防衛について検討する。 特に最近発表されたアプローチである動的因果ベイズ最適化(DCBO)に注意が払われている。 シミュレーションネットワークの表示と,そのネットワーク内でレッドエージェントがどのように拡散するかの因果モデルにより,dcboがブルーエージェントとして機能することを提案する。 レッドエージェントによる侵入のコストを低減するために、DCBOがホストノードに対して最適な介入を行う方法を検討する。 そこで本研究では,DCBOの観測データを生成し,今後の研究の基盤となる数値計算結果を提供する,完全なサイバーシミュレーションシステムについて紹介する。

In this paper we explore cyber security defence, through the unification of a novel cyber security simulator with models for (causal) decision-making through optimisation. Particular attention is paid to a recently published approach: dynamic causal Bayesian optimisation (DCBO). We propose that DCBO can act as a blue agent when provided with a view of a simulated network and a causal model of how a red agent spreads within that network. To investigate how DCBO can perform optimal interventions on host nodes, in order to reduce the cost of intrusions caused by the red agent. Through this we demonstrate a complete cyber-simulation system, which we use to generate observational data for DCBO and provide numerical quantitative results which lay the foundations for future work in this space.
翻訳日:2022-07-26 13:52:53 公開日:2022-07-25
# 教師なしドメイン適応のためのクラス内類似による擬似ラベルの改良

Improving Pseudo Labels With Intra-Class Similarity for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2207.12139v1 )

ライセンス: Link先を確認
Jie Wang, Xiao-Lei Zhang(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル豊富なソースドメインから、異なるが関連する完全にラベル付けされたターゲットドメインに知識を転送する。 ドメインシフトの問題を解決するため、より多くのudaメソッドがターゲットサンプルの擬似ラベルを採用し、ターゲットドメインの一般化能力を向上させる。 しかし, 対象試料の不正確な擬似ラベルは, 最適化過程中に誤差の蓄積を伴う準最適性能が得られる可能性がある。 さらに、擬似ラベルが生成されると、生成した擬似ラベルをどう治療するかは明らかになっていない。 本稿では,対象領域における擬似ラベルの精度を向上させるための新しい手法を提案する。 従来のUDA法により,まず粗い擬似ラベルを生成する。 そして、生成された粗い擬似ラベルを改善するために、ターゲットサンプルのクラス内類似性を反復的に利用し、改良された擬似ラベルとソースおよびターゲットドメインを整列させる。 擬似ラベルの精度向上は、まず異種サンプルを削除し、次にスパンニングツリーを使用して、クラス内サンプルの間違った擬似ラベルでサンプルを除去することによって行われる。 提案手法をいくつかの従来の UDA 手法に追加用語として適用した。 実験により,提案手法により擬似ラベルの精度が向上し,従来のベースラインよりも識別性や領域不変性が向上することが示された。

Unsupervised domain adaptation (UDA) transfers knowledge from a label-rich source domain to a different but related fully-unlabeled target domain. To address the problem of domain shift, more and more UDA methods adopt pseudo labels of the target samples to improve the generalization ability on the target domain. However, inaccurate pseudo labels of the target samples may yield suboptimal performance with error accumulation during the optimization process. Moreover, once the pseudo labels are generated, how to remedy the generated pseudo labels is far from explored. In this paper, we propose a novel approach to improve the accuracy of the pseudo labels in the target domain. It first generates coarse pseudo labels by a conventional UDA method. Then, it iteratively exploits the intra-class similarity of the target samples for improving the generated coarse pseudo labels, and aligns the source and target domains with the improved pseudo labels. The accuracy improvement of the pseudo labels is made by first deleting dissimilar samples, and then using spanning trees to eliminate the samples with the wrong pseudo labels in the intra-class samples. We have applied the proposed approach to several conventional UDA methods as an additional term. Experimental results demonstrate that the proposed method can boost the accuracy of the pseudo labels and further lead to more discriminative and domain invariant features than the conventional baselines.
翻訳日:2022-07-26 13:49:45 公開日:2022-07-25
# c3-sl: コミュニケーション効率の高い分割学習のための円畳み込みに基づくバッチ分割圧縮

C3-SL: Circular Convolution-Based Batch-Wise Compression for Communication-Efficient Split Learning ( http://arxiv.org/abs/2207.12397v1 )

ライセンス: Link先を確認
Cheng-Yen Hsieh, Yu-Chuan Chuang, and An-Yeu (Andy) Wu(参考訳) 既存の研究のほとんどは、送信された特徴を圧縮することで分割学習(sl)の効率を向上させる。 しかし、ほとんどの研究は高次元特徴を低次元空間に変換する次元圧縮に焦点を当てている。 本稿では,複数の特徴を1つの特徴に圧縮する,SL(C3-SL)の円形畳み込みに基づくバッチ圧縮を提案する。 複数の特徴をマージしながら情報損失を回避するため,高次元空間における特徴の準直交性と円形畳み込みと重畳を利用する。 我々の知る限りでは、SLシナリオの下でバッチワイズ圧縮の可能性を探究する最初の人物です。 CIFAR-10 と CIFAR-100 のシミュレーション結果から,バニラSL と比較して16倍の圧縮率で精度が低下することを示した。 さらに、c3-slは1152xメモリと2.25倍の計算オーバーヘッドを大幅に削減する。

Most existing studies improve the efficiency of Split learning (SL) by compressing the transmitted features. However, most works focus on dimension-wise compression that transforms high-dimensional features into a low-dimensional space. In this paper, we propose circular convolution-based batch-wise compression for SL (C3-SL) to compress multiple features into one single feature. To avoid information loss while merging multiple features, we exploit the quasi-orthogonality of features in high-dimensional space with circular convolution and superposition. To the best of our knowledge, we are the first to explore the potential of batch-wise compression under the SL scenario. Based on the simulation results on CIFAR-10 and CIFAR-100, our method achieves a 16x compression ratio with negligible accuracy drops compared with the vanilla SL. Moreover, C3-SL significantly reduces 1152x memory and 2.25x computation overhead compared to the state-of-the-art dimension-wise compression method.
翻訳日:2022-07-26 13:49:25 公開日:2022-07-25
# treesketchnet: スケッチから3d木パラメータ生成へ

TreeSketchNet: From Sketch To 3D Tree Parameters Generation ( http://arxiv.org/abs/2207.12297v1 )

ライセンス: Link先を確認
Gilda Manfredi, Nicola Capece, Ugo Erra, and Monica Gruosso(参考訳) スタイリッシュなスケッチからの非線形物体の3次元モデリングは、コンピュータグラフィックスの専門家にとっても難しい課題である。 スタイル化されたスケッチからオブジェクトパラメータを外挿するのは、非常に複雑で面倒な作業です。 本研究では,モデル作成者と3dモデリングソフトウェアを仲介し,木の様式化されたスケッチを完全な3dモデルに変換するブローカーシステムを提案する。 入力スケッチは正確あるいは詳細である必要はなく、モデラーが3Dモデルに希望するツリーの初歩的なアウトラインのみを表現する必要がある。 我々のアプローチは、よく定義されたDeep Neural Network(DNN)アーキテクチャに基づいており、私たちはTreeSketchNet(TSN)と呼ばれ、畳み込みに基づいてWeberとPennパラメータを生成し、モデリングソフトウェアで解釈でき、単純なスケッチから始まる木の3Dモデルを生成することができる。 トレーニングデータセットは、専用のBlenderモデリングソフトウェアアドオンによって生成されたWeber-Pennパラメータに関連する合成生成スケッチで構成されている。 提案手法の精度は,合成スケッチと手作りスケッチの両方を用いてTSNを試験することによって検証した。 最後に,予測パラメータのコヒーレンスを複数の特徴量で評価することにより,結果の質的分析を行う。

3D modeling of non-linear objects from stylized sketches is a challenge even for experts in computer graphics. The extrapolation of objects parameters from a stylized sketch is a very complex and cumbersome task. In the present study, we propose a broker system that mediates between the modeler and the 3D modelling software and can transform a stylized sketch of a tree into a complete 3D model. The input sketches do not need to be accurate or detailed, and only need to represent a rudimentary outline of the tree that the modeler wishes to 3D-model. Our approach is based on a well-defined Deep Neural Network (DNN) architecture, we called TreeSketchNet (TSN), based on convolutions and able to generate Weber and Penn parameters that can be interpreted by the modelling software to generate a 3D model of a tree starting from a simple sketch. The training dataset consists of synthetically-generated sketches that are associated with Weber-Penn parameters generated by a dedicated Blender modelling software add-on. The accuracy of the proposed method is demonstrated by testing the TSN with both synthetic and hand-made sketches. Finally, we provide a qualitative analysis of our results, by evaluating the coherence of the predicted parameters with several distinguishing features.
翻訳日:2022-07-26 13:48:50 公開日:2022-07-25
# 機能的構成構造の生涯機械学習

Lifelong Machine Learning of Functionally Compositional Structures ( http://arxiv.org/abs/2207.12256v1 )

ライセンス: Link先を確認
Jorge A. Mendez(参考訳) 人間の知性の特徴は、知識の自己完結した塊を作り、異なる問題を解決するために新しい組み合わせでそれらを再利用する能力である。 このような構成構造を学ぶことは、基礎となる組合せ探索のため、人工的なシステムにとって困難である。 現在まで、作曲学習の研究は生涯または継続学習の研究から大きく進歩している。 この論文はこれら2つの系統を統合し、機能的構成構造を生涯学習するための汎用的な枠組みを提示した。 このフレームワークは、学習を2つの段階に分ける: 既存のコンポーネントを組み合わせて新しい問題を同化する方法を学び、新しい問題に対応するために既存のコンポーネントを適応する方法を学ぶ。 この分離は安定性と柔軟性の間のトレードオフを明示的に処理します。 この論文は、フレームワークを様々な教師付き強化学習(RL)アルゴリズムにインスタンス化した。 教師付き学習評価では 1)多様なタスクの生涯学習を改善する構成モデル。 2)多段階のプロセスは、構成的知識の生涯学習を許容し、 3) フレームワークで学習したコンポーネントは自己完結型かつ再利用可能な関数を表す。 同様のRL評価は、 1) 枠組みに基づくアルゴリズムは,高性能な政策の発見を加速し, 2)これらのアルゴリズムは、以前に学習したタスクのパフォーマンスを維持または改善する。 この論文は、一生涯にわたる合成RLアルゴリズムを、タスクの分布が時間とともに変化する非定常的な設定に拡張し、モジュール性は環境の異なる要素の変化を個別に追跡することができることを示した。 この論文の最終的な貢献は合成RLの新しいベンチマークであり、既存の手法が環境の組成特性を発見するのに苦労していることが明らかになった。

A hallmark of human intelligence is the ability to construct self-contained chunks of knowledge and reuse them in novel combinations for solving different problems. Learning such compositional structures has been a challenge for artificial systems, due to the underlying combinatorial search. To date, research into compositional learning has largely proceeded separately from work on lifelong or continual learning. This dissertation integrated these two lines of work to present a general-purpose framework for lifelong learning of functionally compositional structures. The framework separates the learning into two stages: learning how to combine existing components to assimilate a novel problem, and learning how to adapt the existing components to accommodate the new problem. This separation explicitly handles the trade-off between stability and flexibility. This dissertation instantiated the framework into various supervised and reinforcement learning (RL) algorithms. Supervised learning evaluations found that 1) compositional models improve lifelong learning of diverse tasks, 2) the multi-stage process permits lifelong learning of compositional knowledge, and 3) the components learned by the framework represent self-contained and reusable functions. Similar RL evaluations demonstrated that 1) algorithms under the framework accelerate the discovery of high-performing policies, and 2) these algorithms retain or improve performance on previously learned tasks. The dissertation extended one lifelong compositional RL algorithm to the nonstationary setting, where the task distribution varies over time, and found that modularity permits individually tracking changes to different elements in the environment. The final contribution of this dissertation was a new benchmark for compositional RL, which exposed that existing methods struggle to discover the compositional properties of the environment.
翻訳日:2022-07-26 13:43:55 公開日:2022-07-25
# MAPIE: 分散のない不確実性定量化のためのオープンソースライブラリ

MAPIE: an open-source library for distribution-free uncertainty quantification ( http://arxiv.org/abs/2207.12274v1 )

ライセンス: Link先を確認
Vianney Taquet, Vincent Blot, Thomas Morzadec, Louis Lacombe, Nicolas Brunel(参考訳) 機械学習(ml)モデルの予測に関連する不確実性の推定は、その堅牢性と予測能力を評価する上で非常に重要である。 本稿では,シングルアウトプット回帰とマルチクラス分類タスクのためのmlモデルの不確かさを定量化するオープンソースのpythonライブラリであるmapie(model agnostic prediction interval estimator)を紹介する。 MAPIEはコンフォメーション予測手法を実装しており、ユーザーは限界範囲のカバレッジや、モデルや基礎となるデータ分布に関する軽度な仮定で不確実性を容易に計算できる。 MAPIEはScikit-learn-contribでホストされており、完全にScikit-learn互換である。 そのため、Scikit-learn APIを備えたどんなタイプの回帰子や分類子も受け入れる。 ライブラリは、https://github.com/scikit-learn-contrib/MAPIE/.comで入手できる。

Estimating uncertainties associated with the predictions of Machine Learning (ML) models is of crucial importance to assess their robustness and predictive power. In this submission, we introduce MAPIE (Model Agnostic Prediction Interval Estimator), an open-source Python library that quantifies the uncertainties of ML models for single-output regression and multi-class classification tasks. MAPIE implements conformal prediction methods, allowing the user to easily compute uncertainties with strong theoretical guarantees on the marginal coverages and with mild assumptions on the model or on the underlying data distribution. MAPIE is hosted on scikit-learn-contrib and is fully "scikit-learn-compatible". As such, it accepts any type of regressor or classifier coming with a scikit-learn API. The library is available at: https://github.com/scikit-learn-contrib/MAPIE/.
翻訳日:2022-07-26 13:43:13 公開日:2022-07-25
# ドメイン一般化のためのドメイン不変特徴探索

Domain-invariant Feature Exploration for Domain Generalization ( http://arxiv.org/abs/2207.12020v1 )

ライセンス: Link先を確認
Wang Lu, Jindong Wang, Haoliang Li, Yiqiang Chen, Xing Xie(参考訳) ディープラーニングはここ数年で大きな成功を収めています。 しかし、ディープラーニングの性能は、非IIDの状況に直面している可能性がある。 ドメイン一般化(Domain Generalization、DG)は、モデルが見えないテスト分布、すなわちドメイン不変表現を学習することを可能にする。 本稿では、ドメイン不変性は、内部および相互の双方から生じるべきであると論じる。 内部不変性は、特徴が単一のドメインで学習でき、その特徴がデータ固有の意味論、すなわち他のドメインに依存しないドメイン内のプロパティをキャプチャすることを意味する。 相互不変性(mutual invariance)とは、複数のドメイン(クロスドメイン)で特徴を学習でき、その特徴には共通の情報、すなわち転送可能な他のドメインを含むことを意味する。 次に、ドメイン不変の特徴展開のためのDIFEXを提案する。 difexは知識蒸留フレームワークを用いて、高レベルフーリエ位相を内部不変特徴として捉え、相互不変特徴としてクロスドメイン相関アライメントを学ぶ。 我々はさらに、よりよい一般化のために特徴量を増やすために探索損失を設計する。 時系列とビジュアルベンチマークの両方で大規模な実験を行い、提案したDIFEXが最先端の性能を達成することを示した。

Deep learning has achieved great success in the past few years. However, the performance of deep learning is likely to impede in face of non-IID situations. Domain generalization (DG) enables a model to generalize to an unseen test distribution, i.e., to learn domain-invariant representations. In this paper, we argue that domain-invariant features should be originating from both internal and mutual sides. Internal invariance means that the features can be learned with a single domain and the features capture intrinsic semantics of data, i.e., the property within a domain, which is agnostic to other domains. Mutual invariance means that the features can be learned with multiple domains (cross-domain) and the features contain common information, i.e., the transferable features w.r.t. other domains. We then propose DIFEX for Domain-Invariant Feature EXploration. DIFEX employs a knowledge distillation framework to capture the high-level Fourier phase as the internally-invariant features and learn cross-domain correlation alignment as the mutually-invariant features. We further design an exploration loss to increase the feature diversity for better generalization. Extensive experiments on both time-series and visual benchmarks demonstrate that the proposed DIFEX achieves state-of-the-art performance.
翻訳日:2022-07-26 13:41:13 公開日:2022-07-25
# 連続学習における高度核空間による安定性と塑性のバランス

Balancing Stability and Plasticity through Advanced Null Space in Continual Learning ( http://arxiv.org/abs/2207.12061v1 )

ライセンス: Link先を確認
Yajing Kong, Liu Liu, Zhen Wang, Dacheng Tao(参考訳) 継続的学習(continual learning)は、リソース制約によってタスクを逐次学習する学習パラダイムであり、安定性と可塑性ジレンマが鍵となる課題である。 本稿では,従来のタスクの古いデータを格納することなく,安定性と可塑性のバランスをとるために,新しい連続学習手法Advanced Null Space(AdNS)を提案する。 具体的には、安定性を向上させるために、AdNSは、新しいヌル空間を得るために低ランク近似を使用し、過去のタスクの干渉を防ぐためにヌル空間に勾配を投影する。 ヌル空間の生成を制御するため,非一様制約強度を導入し,忘れの低減を図る。 さらに,現在のタスクの性能向上を図るため,単純だが効果的なタスク内蒸留法を提案する。 最後に、理論上、ヌル空間は可塑性と安定性においてそれぞれ重要な役割を果たす。 実験結果から,提案手法は最先端の連続学習手法よりも優れた性能が得られることが示された。

Continual learning is a learning paradigm that learns tasks sequentially with resources constraints, in which the key challenge is stability-plasticity dilemma, i.e., it is uneasy to simultaneously have the stability to prevent catastrophic forgetting of old tasks and the plasticity to learn new tasks well. In this paper, we propose a new continual learning approach, Advanced Null Space (AdNS), to balance the stability and plasticity without storing any old data of previous tasks. Specifically, to obtain better stability, AdNS makes use of low-rank approximation to obtain a novel null space and projects the gradient onto the null space to prevent the interference on the past tasks. To control the generation of the null space, we introduce a non-uniform constraint strength to further reduce forgetting. Furthermore, we present a simple but effective method, intra-task distillation, to improve the performance of the current task. Finally, we theoretically find that null space plays a key role in plasticity and stability, respectively. Experimental results show that the proposed method can achieve better performance compared to state-of-the-art continual learning approaches.
翻訳日:2022-07-26 13:40:53 公開日:2022-07-25
# 公共建築物のエネルギー消費予測のためのディープラーニング

Deep Learning for Forecasting the Energy Consumption in Public Buildings ( http://arxiv.org/abs/2207.11953v1 )

ライセンス: Link先を確認
Viorica Rozina Chifu, Cristina Bianca Pop, Emil St. Chifu, Horatiu Barleanu(参考訳) 本稿では,過去の計測値に基づいて,公共建築物のエネルギー消費量を予測するための長期短期記憶ネットワーク手法を提案する。 このアプローチは、データ処理ステップ、トレーニングとバリデーションステップ、最後に予測ステップの3つの主要なステップで構成されています。 我々は,イギリス国立公文書館の本館から30分毎に採取された測定値と,平均絶対誤差 (MAE) と平均絶対誤差 (MAPE) を用いた評価値を用いて実験を行った。

In this paper we propose a Long Short-Term Memory Network based method to forecast the energy consumption in public buildings, based on past measurements. Our approach consists of three main steps: data processing step, training and validation step, and finally the forecasting step. We tested our method on a data set consisting of measurements taken every half an hour from the main building of the National Archives of the United Kingdom, in Kew and as evaluation metrics we have used Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAPE).
翻訳日:2022-07-26 13:36:18 公開日:2022-07-25
# 自己教師付きグラフ表現学習のための生成部分グラフコントラスト

Generative Subgraph Contrast for Self-Supervised Graph Representation Learning ( http://arxiv.org/abs/2207.11996v1 )

ライセンス: Link先を確認
Yuehui Han, Le Hui, Haobo Jiang, Jianjun Qian, Jin Xie(参考訳) コントラスト学習はグラフ表現学習の分野で大きな可能性を秘めている。 正/負のサンプルを手動で構築することで、ほとんどのグラフコントラスト学習方法は、グラフ表現のサンプルを識別するためにベクトル内積に基づく類似度メトリックに依存する。 しかし、手作りのサンプル構成(例えば、グラフのノードやエッジの摂動)は、グラフの固有の局所構造を効果的に捉えることができない。 また、ベクトル内積に基づく類似度計量はグラフの局所構造を完全に活用してグラフ差をうまく特徴づけることができない。 そこで本稿では,効率良くロバストな自己教師付きグラフ表現学習のための適応的部分グラフ生成に基づくコントラスト学習フレームワークを提案し,それらの部分グラフ間の類似度指標として最適な移動距離を利用する。 本研究の目的は,グラフの内在的構造を捕捉し,サブグラフの特徴と構造に基づいてサンプルを同時に識別することで,対照的なサンプルを生成することである。 具体的には、各中心ノードに対して、対応する近傍ノードとの関係重みを適応的に学習することにより、まず補間部分グラフを生成するネットワークを開発する。 次に、それぞれ同じノードと異なるノードから正と負のグラフのペアを構築します。 最後に、構造的コントラスト損失を構成するために2種類の最適輸送距離(すなわちwasserstein距離とgromov-wasserstein距離)を用いる。 ベンチマークデータセットにおける広範なノード分類実験により,グラフコントラスト学習手法の有効性が検証された。

Contrastive learning has shown great promise in the field of graph representation learning. By manually constructing positive/negative samples, most graph contrastive learning methods rely on the vector inner product based similarity metric to distinguish the samples for graph representation. However, the handcrafted sample construction (e.g., the perturbation on the nodes or edges of the graph) may not effectively capture the intrinsic local structures of the graph. Also, the vector inner product based similarity metric cannot fully exploit the local structures of the graph to characterize the graph difference well. To this end, in this paper, we propose a novel adaptive subgraph generation based contrastive learning framework for efficient and robust self-supervised graph representation learning, and the optimal transport distance is utilized as the similarity metric between the subgraphs. It aims to generate contrastive samples by capturing the intrinsic structures of the graph and distinguish the samples based on the features and structures of subgraphs simultaneously. Specifically, for each center node, by adaptively learning relation weights to the nodes of the corresponding neighborhood, we first develop a network to generate the interpolated subgraph. We then construct the positive and negative pairs of subgraphs from the same and different nodes, respectively. Finally, we employ two types of optimal transport distances (i.e., Wasserstein distance and Gromov-Wasserstein distance) to construct the structured contrastive loss. Extensive node classification experiments on benchmark datasets verify the effectiveness of our graph contrastive learning method.
翻訳日:2022-07-26 13:36:06 公開日:2022-07-25
# 反事実推論とアクティブラーニングによる効率的な分類

Efficient Classification with Counterfactual Reasoning and Active Learning ( http://arxiv.org/abs/2207.12086v1 )

ライセンス: Link先を確認
Azhar Mohammed, Dang Nguyen, Bao Duong, Thin Nguyen(参考訳) データ拡張は、コンピュータビジョンにおける機械学習モデルの分類精度を改善する最も成功した手法の1つである。 しかし、ラベル付き合成サンプルの生成が困難であるため、表型データにデータ拡張を適用することは難しい問題である。 本稿では,表データに対する新しいデータ拡張手法を用いた効率的な分類器を提案する。 ccral と呼ばれる手法は, 因果推論を組み合わせることで, 元のトレーニングサンプルの反事実サンプルを学習し, 不確実性領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを行う。 これにより,本手法は未知のテストデータに対するモデルの一般化を最大化することができる。 本手法を解析的に検証し,標準ベースラインと比較した。 実験の結果, CCRALは, 精度とAUCの点で, 現実の表層データセットのベースラインよりもはるかに優れた性能を実現していることがわかった。 データとソースコードは、https://github.com/nphdang/CCRAL.comで入手できる。

Data augmentation is one of the most successful techniques to improve the classification accuracy of machine learning models in computer vision. However, applying data augmentation to tabular data is a challenging problem since it is hard to generate synthetic samples with labels. In this paper, we propose an efficient classifier with a novel data augmentation technique for tabular data. Our method called CCRAL combines causal reasoning to learn counterfactual samples for the original training samples and active learning to select useful counterfactual samples based on a region of uncertainty. By doing this, our method can maximize our model's generalization on the unseen testing data. We validate our method analytically, and compare with the standard baselines. Our experimental results highlight that CCRAL achieves significantly better performance than those of the baselines across several real-world tabular datasets in terms of accuracy and AUC. Data and source code are available at: https://github.com/nphdang/CCRAL.
翻訳日:2022-07-26 13:35:43 公開日:2022-07-25
# 教師なし時系列異常検出のための校正一級分類

Calibrated One-class Classification for Unsupervised Time Series Anomaly Detection ( http://arxiv.org/abs/2207.12201v1 )

ライセンス: Link先を確認
Hongzuo Xu and Yijie Wang and Songlei Jian and Qing Liao and Yongjun Wang and Guansong Pang(参考訳) 教師なし時系列異常検出は、様々な領域のターゲットシステムの潜在的な障害の監視と警告に有用である。 最先端のニューラルネットワーク構造と、データの正常性(正規パターンと振舞い)を可能な限り正確に学習するための新しい再構築/予測学習目標の開発に重点が置かれている。 しかし、これらの一級学習方法は、トレーニングデータ(すなわち異常汚染)の未知の異常によって欺くことができる。 さらに、彼らの正規性学習は、関心の異常に関する知識を欠いている。 その結果、しばしばバイアスのある不正確な正規性境界を学ぶ。 本稿では,この問題に取り組むための新しい一級学習手法である校正一級分類を提案する。 1級分類器は, 1級モデルが確信している予測を強調しながら, 異常汚染の影響を除去しうる不確定な予測を適応的にペナルタライズすることで, 2) 原データに基づいて実際の時系列異常挙動をシミュレートするために生成されたネイティブ異常例から正常なサンプルを識別することにより, 2つの方法で分類する。 これらの2つの校正は、汚染耐性、異常なインフォームドワンクラスの学習をもたらす。 6つの実世界のデータセットに対する大規模な実験により、我々のモデルは12の最先端の競合より大幅に優れ、6%から31%のF1スコアの改善が得られた。 ソースコードは \url{https://github.com/xuhongzuo/couta} で入手できる。

Unsupervised time series anomaly detection is instrumental in monitoring and alarming potential faults of target systems in various domains. Current state-of-the-art time series anomaly detectors mainly focus on devising advanced neural network structures and new reconstruction/prediction learning objectives to learn data normality (normal patterns and behaviors) as accurately as possible. However, these one-class learning methods can be deceived by unknown anomalies in the training data (i.e., anomaly contamination). Further, their normality learning also lacks knowledge about the anomalies of interest. Consequently, they often learn a biased, inaccurate normality boundary. This paper proposes a novel one-class learning approach, named calibrated one-class classification, to tackle this problem. Our one-class classifier is calibrated in two ways: (1) by adaptively penalizing uncertain predictions, which helps eliminate the impact of anomaly contamination while accentuating the predictions that the one-class model is confident in, and (2) by discriminating the normal samples from native anomaly examples that are generated to simulate genuine time series abnormal behaviors on the basis of original data. These two calibrations result in contamination-tolerant, anomaly-informed one-class learning, yielding a significantly improved normality modeling. Extensive experiments on six real-world datasets show that our model substantially outperforms twelve state-of-the-art competitors and obtains 6% - 31% F1 score improvement. The source code is available at \url{https://github.com/xuhongzuo/couta}.
翻訳日:2022-07-26 13:35:08 公開日:2022-07-25
# 離散推論による複雑な文書理解に向けて

Towards Complex Document Understanding By Discrete Reasoning ( http://arxiv.org/abs/2207.11871v1 )

ライセンス: Link先を確認
Fengbin Zhu, Wenqiang Lei, Fuli Feng, Chao Wang, Haozhou Zhang, Tat-Seng Chua(参考訳) Document Visual Question Answering (VQA) は、自然言語処理とコンピュータビジョンの両方において新たな研究トピックである自然言語による質問に答えるために、視覚的に豊富な文書を理解することを目的としている。 本研究では, 半構造化テーブルと非構造化テキストからなる3,067の文書ページと, TAT-DQAデータセットを拡張した16,558の質問応答ペアからなる新しい文書VQAデータセット, TAT-DQAを紹介する。 これらの文書は現実世界の財務報告からサンプリングされ、多数の数字を含んでいるため、このデータセットの質問に答えるために個別の推論能力が要求される。 TAT-DQAに基づいて、テキスト、レイアウト、視覚画像を含む多要素の情報を考慮に入れたMHSTと呼ばれる新しいモデルを開発し、対応する戦略、すなわち抽出や推論で異なるタイプの質問にインテリジェントに対処する。 大規模な実験により、MHSTモデルはベースライン法を著しく上回り、その有効性を示した。 しかし、パフォーマンスは専門家の人間よりもずっと遅れています。 我々の新しいTAT-DQAデータセットは、視覚と言語、特に離散的推論を必要とするシナリオにおいて、視覚に富んだドキュメントの深い理解を促進することを期待する。 また,提案モデルが今後,より高度なドキュメントVQAモデルの設計を促すことを期待している。

Document Visual Question Answering (VQA) aims to understand visually-rich documents to answer questions in natural language, which is an emerging research topic for both Natural Language Processing and Computer Vision. In this work, we introduce a new Document VQA dataset, named TAT-DQA, which consists of 3,067 document pages comprising semi-structured table(s) and unstructured text as well as 16,558 question-answer pairs by extending the TAT-QA dataset. These documents are sampled from real-world financial reports and contain lots of numbers, which means discrete reasoning capability is demanded to answer questions on this dataset. Based on TAT-DQA, we further develop a novel model named MHST that takes into account the information in multi-modalities, including text, layout and visual image, to intelligently address different types of questions with corresponding strategies, i.e., extraction or reasoning. Extensive experiments show that the MHST model significantly outperforms the baseline methods, demonstrating its effectiveness. However, the performance still lags far behind that of expert humans. We expect that our new TAT-DQA dataset would facilitate the research on deep understanding of visually-rich documents combining vision and language, especially for scenarios that require discrete reasoning. Also, we hope the proposed model would inspire researchers to design more advanced Document VQA models in future.
翻訳日:2022-07-26 13:31:28 公開日:2022-07-25
# 視覚感情分布学習における主観性を求めて

Seeking Subjectivity in Visual Emotion Distribution Learning ( http://arxiv.org/abs/2207.11875v1 )

ライセンス: Link先を確認
Jingyuan Yang, Jie Li, Leida Li, Xiumei Wang, Yuxuan Ding, and Xinbo Gao(参考訳) 近年,視覚刺激に対する人々の感情予測を目的とした視覚感情分析(VEA)が注目されている。 単一のラベル分類タスクではなく、異なる個人から投票することでveaをラベル分布学習(ldl)問題と考える方が合理的である。 既存の手法では、団結したネットワークで視覚的な感情分布を予測し、群衆投票の過程で固有の主観性を無視することが多い。 心理学において、 \textit{object-appraisal-emotion} モデルは、それぞれの感情が主観的な評価に影響され、さらに感情記憶によって形成されることを示した。 そこで本研究では,視覚感情分布の主観性を調べるために,新しい<textit{subjectivity appraise-and-match network (samnet)"を提案する。 群衆投票のプロセスにおける多様性を表現するために,まず,複数のブランチを持つ \textit{subjectivity appraising} を提案し,各ブランチが特定の個人の感情喚起過程をシミュレートする。 具体的には,各個人のユニークな感情体験を保ちながら,注意に基づくメカニズムで情緒記憶を構築する。 異なる個人間の相違を保証するために、主観的損失がさらに提案される。 さらに、ハンガリーのアルゴリズムと一対一の対応で、順序づけられていない感情ラベルを順序づけられた個人予測に割り当てることを目的とした、一致した損失を伴う「textit{Subjectivity Matching」を提案する。 公開視覚感情分布データセットを用いた広範囲な実験と比較を行い,提案手法が最先端手法を一貫して上回っていることを示す。 アブレーション研究は本手法の有効性を検証し,その解釈性を証明する。

Visual Emotion Analysis (VEA), which aims to predict people's emotions towards different visual stimuli, has become an attractive research topic recently. Rather than a single label classification task, it is more rational to regard VEA as a Label Distribution Learning (LDL) problem by voting from different individuals. Existing methods often predict visual emotion distribution in a unified network, neglecting the inherent subjectivity in its crowd voting process. In psychology, the \textit{Object-Appraisal-Emotion} model has demonstrated that each individual's emotion is affected by his/her subjective appraisal, which is further formed by the affective memory. Inspired by this, we propose a novel \textit{Subjectivity Appraise-and-Match Network (SAMNet)} to investigate the subjectivity in visual emotion distribution. To depict the diversity in crowd voting process, we first propose the \textit{Subjectivity Appraising} with multiple branches, where each branch simulates the emotion evocation process of a specific individual. Specifically, we construct the affective memory with an attention-based mechanism to preserve each individual's unique emotional experience. A subjectivity loss is further proposed to guarantee the divergence between different individuals. Moreover, we propose the \textit{Subjectivity Matching} with a matching loss, aiming at assigning unordered emotion labels to ordered individual predictions in a one-to-one correspondence with the Hungarian algorithm. Extensive experiments and comparisons are conducted on public visual emotion distribution datasets, and the results demonstrate that the proposed SAMNet consistently outperforms the state-of-the-art methods. Ablation study verifies the effectiveness of our method and visualization proves its interpretability.
翻訳日:2022-07-26 13:31:00 公開日:2022-07-25
# 健康とは何か? 病変局所化のためのジェネレーティブ・デファクト拡散

What is Healthy? Generative Counterfactual Diffusion for Lesion Localization ( http://arxiv.org/abs/2207.12268v1 )

ライセンス: Link先を確認
Pedro Sanchez, Antanas Kascenas, Xiao Liu, Alison Q. O'Neil, Sotirios A. Tsaftaris(参考訳) 医用画像セグメンテーションにおける濃密なアノテートマスクの要件の低減は,コスト制約のため重要である。 本稿では,画像レベルラベルのみを用いて脳病変のピクセルレベル予測を推測する問題を考察する。 遺伝子拡散確率モデル(DPM)の最近の進歩を活用して、「X病理が存在しない場合、患者はどのように現れるか」の反事実を合成する。 観察された患者状態と健康な偽物との差像は、病理の場所を推測するために使用できる。 我々は、入力の最小限の変化に対応する反事実を生成し、それが健全な領域に変換される。 これはDPMの健全で不健康なデータによるトレーニングを必要とする。 我々は,従来のDPMに対して,分類器を使わずにアテンションコンディショニングとともに,暗黙のガイダンスで生成プロセスを操作することで改善した。 コードはhttps://github.com/vios-s/Diff-SCMで入手できる。

Reducing the requirement for densely annotated masks in medical image segmentation is important due to cost constraints. In this paper, we consider the problem of inferring pixel-level predictions of brain lesions by only using image-level labels for training. By leveraging recent advances in generative diffusion probabilistic models (DPM), we synthesize counterfactuals of "How would a patient appear if X pathology was not present?". The difference image between the observed patient state and the healthy counterfactual can be used for inferring the location of pathology. We generate counterfactuals that correspond to the minimal change of the input such that it is transformed to healthy domain. This requires training with healthy and unhealthy data in DPMs. We improve on previous counterfactual DPMs by manipulating the generation process with implicit guidance along with attention conditioning instead of using classifiers. Code is available at https://github.com/vios-s/Diff-SCM.
翻訳日:2022-07-26 13:29:43 公開日:2022-07-25
# LightX3ECG:3誘導心電図分類のための軽量・eXplainable Deep Learning System

LightX3ECG: A Lightweight and eXplainable Deep Learning System for 3-lead Electrocardiogram Classification ( http://arxiv.org/abs/2207.12381v1 )

ライセンス: Link先を確認
Khiem H. Le, Hieu H. Pham, Thao BT. Nguyen, Tu A. Nguyen, Tien N. Thanh, Cuong D. Do(参考訳) 心臓血管疾患(英: Cardiovascular disease, CVD)は、心臓や血管疾患の集団であり、人間の健康にとって最も深刻な危険の1つである。 早期かつ正確な検出は、治療と介入の成功に重要な役割を果たす。 心電図(Electrocardiogram、ECG)は、様々な心血管異常を識別するための金の規格である。 臨床や現在の研究のほとんどにおいて、標準12誘導性心電図が主に用いられる。 しかし、少ない数のリードを使用することで、ポータブルデバイスやウェアラブルデバイスで便利に記録できるため、ECGはより一般的なものになる。 本研究では,3つの心電図のみを用いて,複数の心血管異常を正確に同定する新しい深層学習システムを開発した。

Cardiovascular diseases (CVDs) are a group of heart and blood vessel disorders that is one of the most serious dangers to human health, and the number of such patients is still growing. Early and accurate detection plays a key role in successful treatment and intervention. Electrocardiogram (ECG) is the gold standard for identifying a variety of cardiovascular abnormalities. In clinical practices and most of the current research, standard 12-lead ECG is mainly used. However, using a lower number of leads can make ECG more prevalent as it can be conveniently recorded by portable or wearable devices. In this research, we develop a novel deep learning system to accurately identify multiple cardiovascular abnormalities by using only three ECG leads.
翻訳日:2022-07-26 13:29:28 公開日:2022-07-25
# wasserstein条件生成型ニューラルネットワークの安定的並列トレーニング

Stable Parallel Training of Wasserstein Conditional Generative Adversarial Neural Networks ( http://arxiv.org/abs/2207.12315v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Junqi Yin(参考訳) 本稿では,W-CGAN(Wasserstein Conditional Generative Adversarial Neural Networks)を固定計算予算の制約下で訓練するための,安定かつ並列なアプローチを提案する。 従来の分散GANのトレーニング手法とは違って,プロセス間通信を回避し,モード崩壊のリスクを低減し,複数のジェネレータを使用してスケーラビリティを向上させる。 ワッサーシュタイン計量を用いることで、各発電機の訓練を安定化することでサイクリングのリスクを低減できる。 我々は、cifar10、cifar100、imagenet1kの3つの標準ベンチマーク画像データセットのアプローチを説明し、各データセットのイメージのオリジナルの解像度を維持する。 性能は、限られた計算時間と計算資源内でのスケーラビリティと最終的な精度の観点から評価される。 精度の測定には,開始スコア,Frechet開始距離,画像品質を用いる。 深部畳み込み条件付き生成対向ニューラルネットワーク(DC-CGAN)に対する並列アプローチと、GANsアプローチによる新しい画像の画質向上を併用した従来の結果と比較して、開始スコアとFrechet開始距離の改善を示す。 olcf supercomputer summitでは、最大2,000のnvidia v100 gpuを使用して、両方のデータセットで弱いスケーリングを実現している。

We propose a stable, parallel approach to train Wasserstein Conditional Generative Adversarial Neural Networks (W-CGANs) under the constraint of a fixed computational budget. Differently from previous distributed GANs training techniques, our approach avoids inter-process communications, reduces the risk of mode collapse and enhances scalability by using multiple generators, each one of them concurrently trained on a single data label. The use of the Wasserstein metric also reduces the risk of cycling by stabilizing the training of each generator. We illustrate the approach on the CIFAR10, CIFAR100, and ImageNet1k datasets, three standard benchmark image datasets, maintaining the original resolution of the images for each dataset. Performance is assessed in terms of scalability and final accuracy within a limited fixed computational time and computational resources. To measure accuracy, we use the inception score, the Frechet inception distance, and image quality. An improvement in inception score and Frechet inception distance is shown in comparison to previous results obtained by performing the parallel approach on deep convolutional conditional generative adversarial neural networks (DC-CGANs) as well as an improvement of image quality of the new images created by the GANs approach. Weak scaling is attained on both datasets using up to 2,000 NVIDIA V100 GPUs on the OLCF supercomputer Summit.
翻訳日:2022-07-26 13:19:29 公開日:2022-07-25
# 発話書き換えによるボット応答矛盾検出の改善

Improving Bot Response Contradiction Detection via Utterance Rewriting ( http://arxiv.org/abs/2207.11862v1 )

ライセンス: Link先を確認
Di Jin, Sijia Liu, Yang Liu, Dilek Hakkani-Tur(参考訳) 大規模なニューラルモデルに基づくチャットボットは、オープンドメインの会話でよく流れる応答を生成するが、一つの顕著なエラータイプは、先行する会話の順番との矛盾や矛盾である。 これまでの研究は、ボット応答における矛盾検出を自然言語の推論に似たタスクとして扱ってきた。 しかし、会話における発話には共参照やエリプシスが含まれており、これらの発話は矛盾を特定するのに必ずしも十分ではない。 本研究の目的は,すべてのボット発話を書き換えて,先行詞やエリプシを復元することで,矛盾検出を改善することである。 発話書き換えのための新しいデータセットをキュレートし、その上に書き換えモデルを構築しました。 我々はこのモデルがボット発話をより完璧にするために十分な書き直しを生成できることを実証的に実証した。 さらに、書き直した発話を用いることで、AUPRとジョイント精度スコア(証拠とともに矛盾を検出する)のそれぞれ6.5%と4.5%(絶対増加)の矛盾検出性能が大幅に向上する。

Though chatbots based on large neural models can often produce fluent responses in open domain conversations, one salient error type is contradiction or inconsistency with the preceding conversation turns. Previous work has treated contradiction detection in bot responses as a task similar to natural language inference, e.g., detect the contradiction between a pair of bot utterances. However, utterances in conversations may contain co-references or ellipsis, and using these utterances as is may not always be sufficient for identifying contradictions. This work aims to improve the contradiction detection via rewriting all bot utterances to restore antecedents and ellipsis. We curated a new dataset for utterance rewriting and built a rewriting model on it. We empirically demonstrate that this model can produce satisfactory rewrites to make bot utterances more complete. Furthermore, using rewritten utterances improves contradiction detection performance significantly, e.g., the AUPR and joint accuracy scores (detecting contradiction along with evidence) increase by 6.5% and 4.5% (absolute increase), respectively.
翻訳日:2022-07-26 13:17:36 公開日:2022-07-25
# ポストプロセッシングネットワーク:強化学習を用いたパイプラインタスク指向対話システムの最適化手法

Post-processing Networks: Method for Optimizing Pipeline Task-oriented Dialogue Systems using Reinforcement Learning ( http://arxiv.org/abs/2207.12185v1 )

ライセンス: Link先を確認
Atsumoto Ohashi, Ryuichiro Higashinaka(参考訳) 多くの研究が強化学習を用いてシステム内のモジュールを協調訓練することにより、パイプラインタスク指向対話システム全体の対話性能を最適化する方法を提案している。 しかしながら、これらの方法は、学習可能なニューラルネットワークメソッドを使用して実装されたモジュールにのみ適用できるという点で制限されている。 そこで本研究では,対話性能のための任意の手法で実装されたモジュールからなるパイプラインシステムを最適化する手法を提案する。 本手法では,各モジュールの出力を後処理するシステム内に,後処理ネットワーク(PPN)と呼ばれるニューラルネットワークコンポーネントを設置する。 全てのPPNは強化学習を用いてシステム全体の対話性能を改善するために更新される。 本研究では,マルチウォズデータセットの対話シミュレーションとヒューマン評価を通じて,様々なモジュールからなるパイプラインシステムの対話性能を向上させることができることを示す。

Many studies have proposed methods for optimizing the dialogue performance of an entire pipeline task-oriented dialogue system by jointly training modules in the system using reinforcement learning. However, these methods are limited in that they can only be applied to modules implemented using trainable neural-based methods. To solve this problem, we propose a method for optimizing a pipeline system composed of modules implemented with arbitrary methods for dialogue performance. With our method, neural-based components called post-processing networks (PPNs) are installed inside such a system to post-process the output of each module. All PPNs are updated to improve the overall dialogue performance of the system by using reinforcement learning, not necessitating each module to be differentiable. Through dialogue simulation and human evaluation on the MultiWOZ dataset, we show that our method can improve the dialogue performance of pipeline systems consisting of various modules.
翻訳日:2022-07-26 13:17:16 公開日:2022-07-25
# LETS-GZSL: 時系列一般化ゼロショット学習のための潜伏埋め込みモデル

LETS-GZSL: A Latent Embedding Model for Time Series Generalized Zero Shot Learning ( http://arxiv.org/abs/2207.12007v1 )

ライセンス: Link先を確認
Sathvik Bhaskarpandit, Priyanka Gupta, Manik Gupta(参考訳) ディープラーニングの最近の発展の1つとして一般化ゼロショット学習(GZSL)がある。これは、目に見えるクラスと目に見えないクラスの両方からオブジェクトを認識することを目的としており、目に見えるクラスのラベル付き例のみを提供する。 ここ数年、GZSLは勢いを増し、この問題を解決するためにいくつかのモデルが提案されている。 コンピュータビジョンや自然言語処理などの分野ではGZSLの研究が盛んに行われているが、時系列データを扱うための研究は行われていない。 GZSLは、ECGやEEGデータから異常を検出し、センサ、分光器、その他のデバイスのデータから見えないクラスを識別するアプリケーションに使用される。 本稿では、時系列分類(TSC)におけるGZSLの問題を解くことができる、時系列-GZSL(LETS-GZSL)モデルを提案する。 組込みベースのアプローチを採用し,属性ベクトルと組み合わせて最終クラスラベルを予測する。 我々は,広く普及しているudrアーカイブデータセットについて報告する。 私たちのフレームワークは、未発見のクラス数が3より多いか、データ量が非常に少ない場合を除き、ほとんどのデータセットで少なくとも55%の調和平均値を達成できます(トレーニング例が100未満です)。

One of the recent developments in deep learning is generalized zero-shot learning (GZSL), which aims to recognize objects from both seen and unseen classes, when only the labeled examples from seen classes are provided. Over the past couple of years, GZSL has picked up traction and several models have been proposed to solve this problem. Whereas an extensive amount of research on GZSL has been carried out in fields such as computer vision and natural language processing, no such research has been carried out to deal with time series data. GZSL is used for applications such as detecting abnormalities from ECG and EEG data and identifying unseen classes from sensor, spectrograph and other devices' data. In this regard, we propose a Latent Embedding for Time Series - GZSL (LETS-GZSL) model that can solve the problem of GZSL for time series classification (TSC). We utilize an embedding-based approach and combine it with attribute vectors to predict the final class labels. We report our results on the widely popular UCR archive datasets. Our framework is able to achieve a harmonic mean value of at least 55% on most of the datasets except when the number of unseen classes is greater than 3 or the amount of data is very low (less than 100 training examples).
翻訳日:2022-07-26 13:17:01 公開日:2022-07-25
# GPT-3 文化遺産における視覚的質問回答に必要なもの

Is GPT-3 all you need for Visual Question Answering in Cultural Heritage? ( http://arxiv.org/abs/2207.12101v1 )

ライセンス: Link先を確認
Pietro Bongini, Federico Becattini, Alberto Del Bimbo(参考訳) 文化遺産ドメインにおけるディープラーニングとコンピュータビジョンの利用は、ここ数年、オーディオスマートガイド、インタラクティブな博物館、拡張現実に関する多くの応用において、非常に重要になっている。 これらの技術はすべて、効果的に動作し、ユーザに役立つために大量のデータを必要とします。 アートワークの文脈では、そのようなデータは高価な時間のかかるプロセスにおいて専門家によって注釈付けされる。 特に、各アートワークには、視覚質問応答のような共通的なタスクを実行するために、アートワークの画像と記述シートを収集する必要がある。 本稿では,映像とアノテーションのプロセスを完全に回避し,アートワークに関する視覚的質問と文脈質問の両方に回答できる記述シートを,実行時に生成できる視覚的質問応答手法を提案する。 そこで本研究では, キャプションメトリクスを用いて生成した記述の質を分析し, GPT-3による記述生成について検討する。 最後に,視覚的質問応答とキャプションタスクの性能評価を行う。

The use of Deep Learning and Computer Vision in the Cultural Heritage domain is becoming highly relevant in the last few years with lots of applications about audio smart guides, interactive museums and augmented reality. All these technologies require lots of data to work effectively and be useful for the user. In the context of artworks, such data is annotated by experts in an expensive and time consuming process. In particular, for each artwork, an image of the artwork and a description sheet have to be collected in order to perform common tasks like Visual Question Answering. In this paper we propose a method for Visual Question Answering that allows to generate at runtime a description sheet that can be used for answering both visual and contextual questions about the artwork, avoiding completely the image and the annotation process. For this purpose, we investigate on the use of GPT-3 for generating descriptions for artworks analyzing the quality of generated descriptions through captioning metrics. Finally we evaluate the performance for Visual Question Answering and captioning tasks.
翻訳日:2022-07-26 13:16:37 公開日:2022-07-25
# ブラックボックス・マイノリティ蒸留

Black-box Few-shot Knowledge Distillation ( http://arxiv.org/abs/2207.12106v1 )

ライセンス: Link先を確認
Dang Nguyen, Sunil Gupta, Kien Do, Svetha Venkatesh(参考訳) 知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。 従来のKD手法では、良き学生を訓練するために多くのラベル付きトレーニングサンプルとホワイトボックスの教師(パラメーターが利用できる)が必要である。 しかし、これらのリソースは現実世界のアプリケーションでは必ずしも利用できない。 蒸留プロセスは、多くのデータにアクセスできない外部の側で行われることが多く、教師はセキュリティやプライバシの懸念からパラメータを公開していない。 これらの課題を克服するために、未ラベルのトレーニングサンプルとブラックボックス教師の少ない学生を訓練するためのブラックボックス数ショットKD手法を提案する。 私たちの主なアイデアは、mixupと条件付き変分オートエンコーダを使用して、多様な分散合成画像を生成することで、トレーニングセットを拡大することです。 これらの合成画像と教師から得られたラベルは、生徒を訓練するために使用される。 画像分類タスクにおいて,最近の sota 数/ゼロショット kd 法を有意に上回っていることを示すために,広範な実験を行った。 コードとモデルは、 https://github.com/nphdang/FS-BBT

Knowledge distillation (KD) is an efficient approach to transfer the knowledge from a large "teacher" network to a smaller "student" network. Traditional KD methods require lots of labeled training samples and a white-box teacher (parameters are accessible) to train a good student. However, these resources are not always available in real-world applications. The distillation process often happens at an external party side where we do not have access to much data, and the teacher does not disclose its parameters due to security and privacy concerns. To overcome these challenges, we propose a black-box few-shot KD method to train the student with few unlabeled training samples and a black-box teacher. Our main idea is to expand the training set by generating a diverse set of out-of-distribution synthetic images using MixUp and a conditional variational auto-encoder. These synthetic images along with their labels obtained from the teacher are used to train the student. We conduct extensive experiments to show that our method significantly outperforms recent SOTA few/zero-shot KD methods on image classification tasks. The code and models are available at: https://github.com/nphdang/FS-BBT
翻訳日:2022-07-26 13:12:55 公開日:2022-07-25
# オブジェクトとシンボルの結合について - 偽物から現実を理解するために物理概念を学ぶ

On Binding Objects to Symbols: Learning Physical Concepts to Understand Real from Fake ( http://arxiv.org/abs/2207.12186v1 )

ライセンス: Link先を確認
Alessandro Achille, Stefano Soatto(参考訳) 我々は、ディープニューラルネットワークがリアルな合成データを生成する驚くべき能力に照らして、古典的な信号と記号の障壁を再考する。 ディープフェイクとスプーフィングは、デジタルコンピュータや生物学的エージェントによって学習されたとしても、物理的な現実とその抽象表現とのリンクの弱さを強調している。 抽象概念の広く適用可能な定義から、非常に効果的な分類器であるにもかかわらず、重みの数やトレーニングデータの量に関係なく、標準フィードフォワードアーキテクチャは、単純な概念をキャプチャできないことを示す。 一方、再帰を組み込んだアーキテクチャは、かなり大きな概念のクラスを表現できるが、有限データセットからそれらを学ぶことはできないかもしれない。 我々は、(自由エネルギー)ラグランジアンを用いて、確率的勾配降下の変種で訓練された現代のアーキテクチャによって「理解」できる概念のクラスを定性的に記述する。 しかし、たとえ概念が理解されたとしても、ネットワークは継続的な相互作用と検証を除いて、その理解を外部のエージェントに伝える手段を持たない。 次に、物理オブジェクトを抽象概念として特徴付け、以前の分析を用いて、物理オブジェクトを有限のアーキテクチャでエンコードできることを示す。 しかし、物理的概念を理解するには、センサーは継続的にエキサイティングな観察を提供しなければならず、データ取得プロセスを制御する能力は(アクティブな知覚)不可欠である。 制御の重要性はモダリティに依存し、音響や化学の知覚よりも視覚的に有利である。 最後に,デジタルアイデンティティに物理的実体を結合することは有限時間内に有限資源で可能であり,原則として信号対シンボル障壁問題を解くが,継続的な検証の必要性を強調する。

We revisit the classic signal-to-symbol barrier in light of the remarkable ability of deep neural networks to generate realistic synthetic data. DeepFakes and spoofing highlight the feebleness of the link between physical reality and its abstract representation, whether learned by a digital computer or a biological agent. Starting from a widely applicable definition of abstract concept, we show that standard feed-forward architectures cannot capture but trivial concepts, regardless of the number of weights and the amount of training data, despite being extremely effective classifiers. On the other hand, architectures that incorporate recursion can represent a significantly larger class of concepts, but may still be unable to learn them from a finite dataset. We qualitatively describe the class of concepts that can be "understood" by modern architectures trained with variants of stochastic gradient descent, using a (free energy) Lagrangian to measure information complexity. Even if a concept has been understood, however, a network has no means of communicating its understanding to an external agent, except through continuous interaction and validation. We then characterize physical objects as abstract concepts and use the previous analysis to show that physical objects can be encoded by finite architectures. However, to understand physical concepts, sensors must provide persistently exciting observations, for which the ability to control the data acquisition process is essential (active perception). The importance of control depends on the modality, benefiting visual more than acoustic or chemical perception. Finally, we conclude that binding physical entities to digital identities is possible in finite time with finite resources, solving in principle the signal-to-symbol barrier problem, but we highlight the need for continuous validation.
翻訳日:2022-07-26 13:12:39 公開日:2022-07-25
# 不十分なデータから学習するための等分散と不変誘導バイアス

Equivariance and Invariance Inductive Bias for Learning from Insufficient Data ( http://arxiv.org/abs/2207.12258v1 )

ライセンス: Link先を確認
Tan Wang, Qianru Sun, Sugiri Pranata, Karlekar Jayashree, Hanwang Zhang(参考訳) 外部のトレーニング済みのチェックポイントを必要とせずに、不十分なデータから堅牢なモデルを学ぶことに興味があります。 まず、十分なデータと比較して、データ不足がモデルをテストとは異なる限られたトレーニング環境に偏りやすくする理由を示す。 例えば、すべてのトレーニングスワンサンプルが「白」である場合、モデルは固有のクラススワンを表現するために「白」環境を誤って使用することができる。 次に, 等分散インダクティブバイアスはクラス特徴を保ち, 不変インダクティブバイアスは環境特徴を取り除き, テストの環境変化に一般化したクラス特徴を残せることを正当化する。 学習に重きを置くためには,既成のコントラストベースの自己教師型特徴学習手法を適用可能であることを実証し,従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。 実世界のベンチマーク(VIPriors, ImageNet100, NICO)における最先端の実験結果から、データ効率の学習における等値性と不変性の大きな可能性を検証した。 コードはhttps://github.com/Wangt-CN/EqInvで入手できる。

We are interested in learning robust models from insufficient data, without the need for any externally pre-trained checkpoints. First, compared to sufficient data, we show why insufficient data renders the model more easily biased to the limited training environments that are usually different from testing. For example, if all the training swan samples are "white", the model may wrongly use the "white" environment to represent the intrinsic class swan. Then, we justify that equivariance inductive bias can retain the class feature while invariance inductive bias can remove the environmental feature, leaving the class feature that generalizes to any environmental changes in testing. To impose them on learning, for equivariance, we demonstrate that any off-the-shelf contrastive-based self-supervised feature learning method can be deployed; for invariance, we propose a class-wise invariant risk minimization (IRM) that efficiently tackles the challenge of missing environmental annotation in conventional IRM. State-of-the-art experimental results on real-world benchmarks (VIPriors, ImageNet100 and NICO) validate the great potential of equivariance and invariance in data-efficient learning. The code is available at https://github.com/Wangt-CN/EqInv
翻訳日:2022-07-26 13:12:08 公開日:2022-07-25
# MemSAC: 大規模ドメイン適応のためのメモリ拡張サンプル一貫性

MemSAC: Memory Augmented Sample Consistency for Large Scale Domain Adaptation ( http://arxiv.org/abs/2207.12389v1 )

ライセンス: Link先を確認
Tarun Kalluri, Astuti Sharma, Manmohan Chandraker(参考訳) 多くのカテゴリを持つ現実的な実世界のデータセットは、小さなクラス間の識別可能性のような教師なしのドメイン適応のための新しい課題を導入します。 本稿では,ソースドメインとターゲットドメイン間のサンプルレベルの類似性を利用して識別的転送を実現するMemSACと,多数のカテゴリにスケールするアーキテクチャを提案する。 そこで我々はまず,ラベル付きソースとラベルなしターゲットドメインインスタンスの相互類似関係を効率的に抽出し,任意の数のクラスを扱うのに適したメモリ拡張手法を提案する。 次に、クラス間の分離を強制しながらクラス内クロスドメインサンプル間の局所的一貫性を促進するために、コントラスト損失の新しい変種を提案し、理論的に正当化する。 345クラスを持つDomainNetや200クラスを持つCaltech-UCSD鳥のデータセットへの微粒化適応など、大規模適応のために設計された複数の挑戦的トランスファータスクに対して、MemSACの利点を実証した。 また,MemSACの有効性に関する詳細な分析と知見も提供する。

Practical real world datasets with plentiful categories introduce new challenges for unsupervised domain adaptation like small inter-class discriminability, that existing approaches relying on domain invariance alone cannot handle sufficiently well. In this work we propose MemSAC, which exploits sample level similarity across source and target domains to achieve discriminative transfer, along with architectures that scale to a large number of categories. For this purpose, we first introduce a memory augmented approach to efficiently extract pairwise similarity relations between labeled source and unlabeled target domain instances, suited to handle an arbitrary number of classes. Next, we propose and theoretically justify a novel variant of the contrastive loss to promote local consistency among within-class cross domain samples while enforcing separation between classes, thus preserving discriminative transfer from source to target. We validate the advantages of MemSAC with significant improvements over previous state-of-the-art on multiple challenging transfer tasks designed for large-scale adaptation, such as DomainNet with 345 classes and fine-grained adaptation on Caltech-UCSD birds dataset with 200 classes. We also provide in-depth analysis and insights into the effectiveness of MemSAC.
翻訳日:2022-07-26 13:11:46 公開日:2022-07-25
# 領域一般化のための自己蒸留型視覚トランス

Self-Distilled Vision Transformer for Domain Generalization ( http://arxiv.org/abs/2207.12392v1 )

ライセンス: Link先を確認
Maryam Sultana, Muzammal Naseer, Muhammad Haris Khan, Salman Khan, Fahad Shahbaz Khan(参考訳) 近年、いくつかのドメイン一般化(DG)手法が提案され、性能向上が図られているが、ほとんど全てが畳み込みニューラルネットワーク(CNN)上に構築されている。 視覚変換器(ViT)のDG性能の研究は、標準ベンチマークにおけるCNNの優位性に挑戦するものであり、しばしばi.i.dの仮定に基づいている。 これにより、ViTの実際の展開は疑わしい。 本稿では,DG問題に対処するためのViTの探索を試みる。 CNNと同様、ViTsは配布外シナリオにも苦労しており、主要な原因はソースドメインへの過度な適合である。 ViTsのモジュラーアーキテクチャに着想を得て,VTsの自己蒸留法として考案されたシンプルなDGアプローチを提案する。 中間変圧器ブロックに対する非ゼロエントロピー監督信号の算出により、入力出力マッピング問題の学習を緩和することにより、ソース領域へのオーバーフィッティングを低減する。 さらに、新しいパラメータを導入せず、異なるViTのモジュール構成にシームレスにプラグインすることができる。 5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。 さらに,最近の最先端DG法に対して良好な性能を示す。 トレーニング済みのモデルとともに、私たちのコードは、https://github.com/maryam089/SDViTで公開されています。

In recent past, several domain generalization (DG) methods have been proposed, showing encouraging performance, however, almost all of them build on convolutional neural networks (CNNs). There is little to no progress on studying the DG performance of vision transformers (ViTs), which are challenging the supremacy of CNNs on standard benchmarks, often built on i.i.d assumption. This renders the real-world deployment of ViTs doubtful. In this paper, we attempt to explore ViTs towards addressing the DG problem. Similar to CNNs, ViTs also struggle in out-of-distribution scenarios and the main culprit is overfitting to source domains. Inspired by the modular architecture of ViTs, we propose a simple DG approach for ViTs, coined as self-distillation for ViTs. It reduces the overfitting to source domains by easing the learning of input-output mapping problem through curating non-zero entropy supervisory signals for intermediate transformer blocks. Further, it does not introduce any new parameters and can be seamlessly plugged into the modular composition of different ViTs. We empirically demonstrate notable performance gains with different DG baselines and various ViT backbones in five challenging datasets. Moreover, we report favorable performance against recent state-of-the-art DG methods. Our code along with pre-trained models are publicly available at: https://github.com/maryam089/SDViT
翻訳日:2022-07-26 13:11:25 公開日:2022-07-25
# FDA薬物ラベル自動ADMEセマンティックラベル作成のための細調整BERT

Fine-Tuning BERT for Automatic ADME Semantic Labeling in FDA Drug Labeling to Enhance Product-Specific Guidance Assessment ( http://arxiv.org/abs/2207.12376v1 )

ライセンス: Link先を確認
Yiwen Shi, Jing Wang, Ping Ren, Taha ValizadehAslani, Yi Zhang, Meng Hu, Hualou Liang(参考訳) 米国食品医薬品局(fda)が推奨する製品特定ガイダンス(psgs)は、ジェネリック医薬品製品開発を促進および指導するための手段である。 PSGを評価するには、FDA査定官は、基準薬物ラベルから吸収、分布、代謝、排他といった支援薬情報(ADME)を手作業で取得するために、広範囲な時間と努力が必要である。 そこで本研究では,最先端の事前学習言語モデルを用いて,fdaが承認する薬物ラベリングから,薬物動態学セクションのadme段落を自動的にラベル付けし,psg評価を容易にする。 トランスフォーマー(BERT)モデルから事前学習した双方向エンコーダ表現を微調整し,手作業ではなくドラッグラベリングからADME段落を自動的に抽出するADMEセマンティックラベリングの新しい応用法を開発した。 トレーニング済みのBERTモデルの微調整は、従来の機械学習技術よりも優れ、最大11.6%の絶対F1の改善が達成できることを示した。 私たちの知る限り、私たちはADMEセマンティックラベリングタスクを解決するためにBERTをうまく適用した最初の人物でした。 さらに,ADMEセマンティックラベリングタスクにおけるBERTモデル全体の性能に対する事前学習と微調整の相対的寄与を,注意類似性やレイヤベースの改善といった分析手法を用いて評価した。 解析の結果、細調整によって得られた情報は、BERTの上位層におけるタスク固有の知識に重点を置いていることがわかった。

Product-specific guidances (PSGs) recommended by the United States Food and Drug Administration (FDA) are instrumental to promote and guide generic drug product development. To assess a PSG, the FDA assessor needs to take extensive time and effort to manually retrieve supportive drug information of absorption, distribution, metabolism, and excretion (ADME) from the reference listed drug labeling. In this work, we leveraged the state-of-the-art pre-trained language models to automatically label the ADME paragraphs in the pharmacokinetics section from the FDA-approved drug labeling to facilitate PSG assessment. We applied a transfer learning approach by fine-tuning the pre-trained Bidirectional Encoder Representations from Transformers (BERT) model to develop a novel application of ADME semantic labeling, which can automatically retrieve ADME paragraphs from drug labeling instead of manual work. We demonstrated that fine-tuning the pre-trained BERT model can outperform the conventional machine learning techniques, achieving up to 11.6% absolute F1 improvement. To our knowledge, we were the first to successfully apply BERT to solve the ADME semantic labeling task. We further assessed the relative contribution of pre-training and fine-tuning to the overall performance of the BERT model in the ADME semantic labeling task using a series of analysis methods such as attention similarity and layer-based ablations. Our analysis revealed that the information learned via fine-tuning is focused on task-specific knowledge in the top layers of the BERT, whereas the benefit from the pre-trained BERT model is from the bottom layers.
翻訳日:2022-07-26 13:06:10 公開日:2022-07-25
# SplitMixer: MLPライクなモデルの脂肪

SplitMixer: Fat Trimmed From MLP-like Models ( http://arxiv.org/abs/2207.10255v2 )

ライセンス: Link先を確認
Ali Borji and Sikun Lin(参考訳) 視覚認識のためのシンプルで軽量なMLPのようなアーキテクチャであるSplitMixerを提案する。 空間的な場所(空間的混合)とチャネル(チャネル混合)の情報を混在させる2種類の畳み込み操作を含む。 最初の1つは、2Dカーネルの代わりに2つの奥行き1Dカーネルを順次適用して空間情報を混合することを含む。 2つめは、共有パラメータの有無にかかわらず、チャネルをオーバーラップまたは非オーバーラップセグメントに分割し、提案するチャネル混合アプローチまたは3d畳み込みを適用してチャネル情報を混合することである。 設計選択によっては、精度、パラメータ数、速度のバランスをとるために、多くのSplitMixer変種を構築することができる。 理論的にも実験的にも,SplitMixerは最先端のMLPライクなモデルと同等に動作し,パラメータやFLOPSは極めて少ない。 例えば、強力なデータ拡張と最適化なしに、SplitMixerはわずか0.28MパラメータでCIFAR-10で約94%の精度を達成し、ConvMixerは0.6Mパラメータで同じ精度を達成する。 MLP-Mixerは85.45%、パラメータは17.1Mである。 CIFAR-100データセットでは、SplitMixerは約73%の精度で、ConvMixerと同等だが、パラメータとFLOPSは52%少ない。 この結果が、より効率的な視覚アーキテクチャの発見と、MDPのようなモデルの開発を促進するためのさらなる研究のきっかけになることを願っている。 コードはhttps://github.com/aliborji/splitmixerで入手できる。

We present SplitMixer, a simple and lightweight isotropic MLP-like architecture, for visual recognition. It contains two types of interleaving convolutional operations to mix information across spatial locations (spatial mixing) and channels (channel mixing). The first one includes sequentially applying two depthwise 1D kernels, instead of a 2D kernel, to mix spatial information. The second one is splitting the channels into overlapping or non-overlapping segments, with or without shared parameters, and applying our proposed channel mixing approaches or 3D convolution to mix channel information. Depending on design choices, a number of SplitMixer variants can be constructed to balance accuracy, the number of parameters, and speed. We show, both theoretically and experimentally, that SplitMixer performs on par with the state-of-the-art MLP-like models while having a significantly lower number of parameters and FLOPS. For example, without strong data augmentation and optimization, SplitMixer achieves around 94% accuracy on CIFAR-10 with only 0.28M parameters, while ConvMixer achieves the same accuracy with about 0.6M parameters. The well-known MLP-Mixer achieves 85.45% with 17.1M parameters. On CIFAR-100 dataset, SplitMixer achieves around 73% accuracy, on par with ConvMixer, but with about 52% fewer parameters and FLOPS. We hope that our results spark further research towards finding more efficient vision architectures and facilitate the development of MLP-like models. Code is available at https://github.com/aliborji/splitmixer.
翻訳日:2022-07-26 11:28:12 公開日:2022-07-25
# 一般化線形バンディットの再訪における遅延フィードバック

Delayed Feedback in Generalised Linear Bandits Revisited ( http://arxiv.org/abs/2207.10786v2 )

ライセンス: Link先を確認
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) 確率的一般化線形帯域は、逐次決定問題に対するよく理解されたモデルであり、多くのアルゴリズムは即時フィードバックの下でほぼ最適の後悔を保証する。 しかし、現実世界の多くの場面では、即座に報奨を受けるという要件は適用されない。 この設定では、標準アルゴリズムはもはや理論的に理解されていない。 本研究は,行動の選択と報酬の受信の遅延を理論的に導入することにより,報酬の遅れ現象を理論的に検討する。 提案手法では,遅延分布の事前知識を排除し,決定セットと遅延に関する仮定を緩和することにより,楽観的な原理に基づくアルゴリズムが既存のアプローチを改善することを示す。 これはまた、$ \widetilde o(\sqrt{dt}\sqrt{d + \mathbb{e}[\tau]})$ to $ \widetilde o(d\sqrt{t} + d^{3/2}\mathbb{e}[\tau])$ ここで$\mathbb{e}[\tau]$は期待の遅延を表し、$d$は時間軸の次元であり、$t$は時間軸である。 シミュレーションデータを用いた実験により理論的結果を検証する。

The stochastic generalised linear bandit is a well-understood model for sequential decision-making problems, with many algorithms achieving near-optimal regret guarantees under immediate feedback. However, in many real world settings, the requirement that the reward is observed immediately is not applicable. In this setting, standard algorithms are no longer theoretically understood. We study the phenomenon of delayed rewards in a theoretical manner by introducing a delay between selecting an action and receiving the reward. Subsequently, we show that an algorithm based on the optimistic principle improves on existing approaches for this setting by eliminating the need for prior knowledge of the delay distribution and relaxing assumptions on the decision set and the delays. This also leads to improving the regret guarantees from $ \widetilde O(\sqrt{dT}\sqrt{d + \mathbb{E}[\tau]})$ to $ \widetilde O(d\sqrt{T} + d^{3/2}\mathbb{E}[\tau])$, where $\mathbb{E}[\tau]$ denotes the expected delay, $d$ is the dimension and $T$ the time horizon and we have suppressed logarithmic terms. We verify our theoretical results through experiments on simulated data.
翻訳日:2022-07-26 11:27:42 公開日:2022-07-25
# MeshLoc: メッシュベースのビジュアルローカライゼーション

MeshLoc: Mesh-Based Visual Localization ( http://arxiv.org/abs/2207.10762v2 )

ライセンス: Link先を確認
Vojtech Panek, Zuzana Kukelova and Torsten Sattler(参考訳) 視覚の定位、すなわちカメラのポーズ推定の問題は、自律ロボットや拡張現実システムといったアプリケーションの中心的なコンポーネントである。 文学における支配的なアプローチは、画像から抽出された局所的な特徴に基づいて、大きなシーンにスケールし、複雑な照明と季節変化を扱うことである。 シーン表現は、特定のローカル機能に結びついているスパースなStructure-from-Motionポイントクラウドである。 別の機能タイプに切り替えるには、ポイントクラウドを構築するために使用されるデータベースイメージ間の、高価な機能マッチングステップが必要になる。 そこで本研究では,シーン表現を構築するためにデータベース画像間の特徴マッチングを必要とせず,より柔軟な3dメッシュを探索する。 このアプローチが最先端の成果を達成できることを示します。 さらに,ニューラルネットワークのレンダリングステージを必要とせずに,メッシュのレンダリング上で特徴を抽出する場合や,色彩やテクスチャを伴わない生のシーンジオメトリをレンダリングする場合においても,驚くほど競争力のある結果が得られることを示した。 以上より,高密度な3dモデルに基づく表現は,既存の表現に代わる有望な選択肢であり,今後の研究に向けた興味深く挑戦的な方向性を示す。

Visual localization, i.e., the problem of camera pose estimation, is a central component of applications such as autonomous robots and augmented reality systems. A dominant approach in the literature, shown to scale to large scenes and to handle complex illumination and seasonal changes, is based on local features extracted from images. The scene representation is a sparse Structure-from-Motion point cloud that is tied to a specific local feature. Switching to another feature type requires an expensive feature matching step between the database images used to construct the point cloud. In this work, we thus explore a more flexible alternative based on dense 3D meshes that does not require features matching between database images to build the scene representation. We show that this approach can achieve state-of-the-art results. We further show that surprisingly competitive results can be obtained when extracting features on renderings of these meshes, without any neural rendering stage, and even when rendering raw scene geometry without color or texture. Our results show that dense 3D model-based representations are a promising alternative to existing representations and point to interesting and challenging directions for future research.
翻訳日:2022-07-26 11:27:09 公開日:2022-07-25
# 深部多カメラペデストリアン局在のための3次元ランダムオクルージョンと多層投影

3D Random Occlusion and Multi-Layer Projection for Deep Multi-Camera Pedestrian Localization ( http://arxiv.org/abs/2207.10895v2 )

ライセンス: Link先を確認
Rui Qiu, Ming Xu, Yuyao Yan, Jeremy S. Smith and Xi Yang(参考訳) 深層学習に基づく単眼歩行検出法は大きな進歩を遂げているが、それでも重度の閉塞に対して脆弱である。 マルチビュー情報融合は潜在的な解決策であるが、既存のマルチビューデータセットに注釈付きトレーニングサンプルがないため、アプリケーションに制限があるため、オーバーフィッティングのリスクが高まる。 この問題を解決するために, 歩行者の平均的な大きさで複数のビューに投影された地上面上の3次元シリンダー閉塞をランダムに生成し, トレーニングにおける過度な適合の影響を緩和するデータ拡張手法を提案する。 さらに、各視点の特徴マップは、各歩行者の高さにまたがる特徴を十分に活用し、地上平面上の歩行者の位置を推定できるホモグラフを用いて、異なる高さの複数の平行平面に投影される。 提案した3DROM法は,多視点歩行者検出のための最先端のディープラーニング手法と比較して,性能が大幅に向上した。

Although deep-learning based methods for monocular pedestrian detection have made great progress, they are still vulnerable to heavy occlusions. Using multi-view information fusion is a potential solution but has limited applications, due to the lack of annotated training samples in existing multi-view datasets, which increases the risk of overfitting. To address this problem, a data augmentation method is proposed to randomly generate 3D cylinder occlusions, on the ground plane, which are of the average size of pedestrians and projected to multiple views, to relieve the impact of overfitting in the training. Moreover, the feature map of each view is projected to multiple parallel planes at different heights, by using homographies, which allows the CNNs to fully utilize the features across the height of each pedestrian to infer the locations of pedestrians on the ground plane. The proposed 3DROM method has a greatly improved performance in comparison with the state-of-the-art deep-learning based methods for multi-view pedestrian detection.
翻訳日:2022-07-26 11:26:49 公開日:2022-07-25
# 自己教師付きディープニューラルネットワークを用いたマルチタイムスペックル低減

Multi-temporal speckle reduction with self-supervised deep neural networks ( http://arxiv.org/abs/2207.11095v2 )

ライセンス: Link先を確認
In\`es Meraoumia, Emanuele Dalsasso, Lo\"ic Denis, R\'emy Abergel, and Florence Tupin(参考訳) スペックルフィルタリングは一般的に合成開口レーダ(sar)画像の解析の前提条件である。 シングルイメージのデスペックリングの領域では、非常に進歩した。 最新の技術は、SAR画像特有の様々な構造やテクスチャを復元するために、ディープニューラルネットワークに依存している。 SAR画像の時系列化により、同一領域における異なるスペックル実現を組み合わせることで、スペックルフィルタリングを改善することができる。 ディープニューラルネットワークの教師付きトレーニングには、接地したスペックルのないイメージが必要である。 このような画像は、空間的あるいは時間的統合によって、平均化によってのみ間接的に取得でき、不完全である。 マルチ時間スペックルフィルタにより高画質の復元が可能となる可能性を考えると、地中画像の限界を回避する必要がある。 本研究では,複合sar画像に対する自己教師あり学習戦略であるmerlinを,複数時空間フィルタリングに拡張した。 これには、複素振幅の実部と虚部の間の空間的および時間的次元における統計的依存性の源をモデル化する必要がある。 シミュレーションスペックルを用いたデータセットの定量的解析は、追加のSAR画像を含む場合のスペックル低減の明確な改善を示している。 この手法はterrasar-x画像のスタックに適用され、競合するマルチテンポラルスペックルフィルタリング手法よりも優れていることを示す。 トレーニングされたモデルのコードは、LTCI LabのImageSチームのGitlab、T\'el\'ecom Paris Institut Polytechnique de Paris(https://gitlab.telecom-paris.fr/ring/multi-temporal-merlin/)で無償公開されている。

Speckle filtering is generally a prerequisite to the analysis of synthetic aperture radar (SAR) images. Tremendous progress has been achieved in the domain of single-image despeckling. Latest techniques rely on deep neural networks to restore the various structures and textures peculiar to SAR images. The availability of time series of SAR images offers the possibility of improving speckle filtering by combining different speckle realizations over the same area. The supervised training of deep neural networks requires ground-truth speckle-free images. Such images can only be obtained indirectly through some form of averaging, by spatial or temporal integration, and are imperfect. Given the potential of very high quality restoration reachable by multi-temporal speckle filtering, the limitations of ground-truth images need to be circumvented. We extend a recent self-supervised training strategy for single-look complex SAR images, called MERLIN, to the case of multi-temporal filtering. This requires modeling the sources of statistical dependencies in the spatial and temporal dimensions as well as between the real and imaginary components of the complex amplitudes. Quantitative analysis on datasets with simulated speckle indicates a clear improvement of speckle reduction when additional SAR images are included. Our method is then applied to stacks of TerraSAR-X images and shown to outperform competing multi-temporal speckle filtering approaches. The code of the trained models is made freely available on the Gitlab of the IMAGES team of the LTCI Lab, T\'el\'ecom Paris Institut Polytechnique de Paris (https://gitlab.telecom-paris.fr/ring/multi-temporal-merlin/).
翻訳日:2022-07-26 11:26:30 公開日:2022-07-25