このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220707となっている論文です。

PDF登録状況(公開日: 20220707)

TitleAuthorsAbstract論文公表日・翻訳日
# ベイズ量子と期待値最適化

Bayesian Quantile and Expectile Optimisation ( http://arxiv.org/abs/2001.04833v2 )

ライセンス: Link先を確認
Victor Picheny, Henry Moss, L\'eonard Torossian and Nicolas Durrande(参考訳) ベイズ最適化(BO)は確率的ブラックボックス関数の最適化に広く用いられている。 ほとんどのBOアプローチは条件付き予測の最適化に重点を置いているが、多くのアプリケーションはリスク回避戦略を必要とし、分布の尾を考慮しなければならない。 本稿では,ヘテロシデスティックノイズ設定に適したベイズ四分位数と期待回帰のための新しい変分モデルを提案する。 本モデルは,条件付き量子量(あるいは期待値)と非対称確率関数のスケールパラメータをそれぞれ考慮した2つの潜在ガウス過程からなる。 さらに,最大値エントロピー探索とトンプソンサンプリングに基づく2つのbo戦略を提案する。 リスク-逆最適化のための既存のBOアプローチとは対照的に、我々の戦略は、観測の複製やノイズのパラメトリック形式を仮定することなく、量子と予測を直接最適化することができる。 実験セクションで示されるように、提案手法は異端性非ガウス的ケースにおいて、明らかに芸術の状態を上回ります。

Bayesian optimisation (BO) is widely used to optimise stochastic black box functions. While most BO approaches focus on optimising conditional expectations, many applications require risk-averse strategies and alternative criteria accounting for the distribution tails need to be considered. In this paper, we propose new variational models for Bayesian quantile and expectile regression that are well-suited for heteroscedastic noise settings. Our models consist of two latent Gaussian processes accounting respectively for the conditional quantile (or expectile) and the scale parameter of an asymmetric likelihood functions. Furthermore, we propose two BO strategies based on max-value entropy search and Thompson sampling, that are tailored to such models and that can accommodate large batches of points. Contrary to existing BO approaches for risk-averse optimisation, our strategies can directly optimise for the quantile and expectile, without requiring replicating observations or assuming a parametric form for the noise. As illustrated in the experimental section, the proposed approach clearly outperforms the state of the art in the heteroscedastic, non-Gaussian case.
翻訳日:2023-01-12 04:30:45 公開日:2022-07-07
# 深い制限されたボルツマンマシンのレプリカ対称自由エネルギーのミニマックス公式

Minimax formula for the replica symmetric free energy of deep restricted Boltzmann machines ( http://arxiv.org/abs/2005.09424v2 )

ライセンス: Link先を確認
Giuseppe Genovese(参考訳) 制限されたボルツマンマシンに対して最もよく使用されるディープアーキテクチャの自由エネルギーについて検討し、層を直列に配置する。 独立なガウス分布ランダムウェイトを仮定すると、いわゆるレプリカ対称和則の誤差項がサドル点として最適化可能であることを示す。 このことから、レプリカ対称近似において、自由エネルギーは二層の場合で達成したものと平行なミンマックス公式によって与えられると推測される。

We study the free energy of a most used deep architecture for restricted Boltzmann machines, where the layers are disposed in series. Assuming independent Gaussian distributed random weights, we show that the error term in the so-called replica symmetric sum rule can be optimised as a saddle point. This leads us to conjecture that in the replica symmetric approximation the free energy is given by a min max formula, which parallels the one achieved for two-layer case.
翻訳日:2022-12-02 23:52:21 公開日:2022-07-07
# 対話型強化学習のための評価的および情報的アドバイスを提供する人間参加

Human Engagement Providing Evaluative and Informative Advice for Interactive Reinforcement Learning ( http://arxiv.org/abs/2009.09575v2 )

ライセンス: Link先を確認
Adam Bignold, Francisco Cruz, Richard Dazeley, Peter Vamplew, Cameron Foale(参考訳) 対話型強化学習では,学習プロセスの高速化のために外部ソース情報の利用を提案する。 学習者エージェントと対話する場合、人間は評価的または情報的アドバイスを与えることができる。 従来の研究では、対話型強化学習プロセスへのリアルタイムフィードバックを含め、エージェントの学習速度の向上を目標とし、人間に対する時間的要求を最小化することで、人間によるアドバイスの効果に焦点を当ててきた。 本研究は,2つのアプローチ(評価的アプローチと情報的アプローチ)のどちらが人間にとって望ましい指導的アプローチかを問うものである。 さらに,本研究は,ヒトのエンゲージメントの観点からアドバイスの提供に使用する方法を比較するために,人間裁判のための実験的なセットアップを提案する。 その結果、学習者エージェントに情報的アドバイスを与えるユーザは、より正確なアドバイスを提供し、学習者エージェントを長期間支援し、エピソードごとにより多くのアドバイスを提供する。 さらに、情報的アプローチを用いた参加者の自己評価は、エージェントがアドバイスに従う能力が高いことを示しており、評価的アドバイスを提供する人に比べて、より正確であると感じている。

Interactive reinforcement learning proposes the use of externally-sourced information in order to speed up the learning process. When interacting with a learner agent, humans may provide either evaluative or informative advice. Prior research has focused on the effect of human-sourced advice by including real-time feedback on the interactive reinforcement learning process, specifically aiming to improve the learning speed of the agent, while minimising the time demands on the human. This work focuses on answering which of two approaches, evaluative or informative, is the preferred instructional approach for humans. Moreover, this work presents an experimental setup for a human-trial designed to compare the methods people use to deliver advice in terms of human engagement. The results obtained show that users giving informative advice to the learner agents provide more accurate advice, are willing to assist the learner agent for a longer time, and provide more advice per episode. Additionally, self-evaluation from participants using the informative approach has indicated that the agent's ability to follow the advice is higher, and therefore, they feel their own advice to be of higher accuracy when compared to people providing evaluative advice.
翻訳日:2022-10-16 05:34:43 公開日:2022-07-07
# インターロッキングバックプロパゲーション:深さ方向モデル並列性の改善

Interlocking Backpropagation: Improving depthwise model-parallelism ( http://arxiv.org/abs/2010.04116v3 )

ライセンス: Link先を確認
Aidan N. Gomez, Oscar Key, Kuba Perlin, Stephen Gou, Nick Frosst, Jeff Dean, Yarin Gal(参考訳) 近年,最先端のニューラルネットワークにおけるパラメータの数は大幅に増加している。 この大規模ニューラルネットワークへの関心の高まりは、そのようなモデルを可能にする新しい分散トレーニング戦略の開発を促した。 そのような戦略の1つはモデル並列分散トレーニングである。 残念ながら、モデル並列性はリソース利用の低さに悩まされ、リソースの浪費につながる。 そこで本研究では,モデル並列最適化を最適化する手法として,局所学習を提案する。 グローバル環境における資源活用率の低さと,ローカル環境におけるタスクパフォーマンスの低さに動機づけられ,インターロッキングバックプロパゲーションと呼ばれるローカル学習とグローバル学習の中間戦略のクラスを導入する。 これらの戦略は局所最適化の計算効率の利点の多くを保ちながら、グローバル最適化によって達成されたタスク性能の多くを回復する。 我々はResNetsとTransformer言語モデルの両方のイメージ分類戦略を評価し、我々の戦略はタスクパフォーマンスの点で局所学習を一貫して上回り、訓練効率においてグローバル学習を上回ります。

The number of parameters in state of the art neural networks has drastically increased in recent years. This surge of interest in large scale neural networks has motivated the development of new distributed training strategies enabling such models. One such strategy is model-parallel distributed training. Unfortunately, model-parallelism can suffer from poor resource utilisation, which leads to wasted resources. In this work, we improve upon recent developments in an idealised model-parallel optimisation setting: local learning. Motivated by poor resource utilisation in the global setting and poor task performance in the local setting, we introduce a class of intermediary strategies between local and global learning referred to as interlocking backpropagation. These strategies preserve many of the compute-efficiency advantages of local optimisation, while recovering much of the task performance achieved by global optimisation. We assess our strategies on both image classification ResNets and Transformer language models, finding that our strategy consistently out-performs local learning in terms of task performance, and out-performs global learning in training efficiency.
翻訳日:2022-10-09 11:21:44 公開日:2022-07-07
# 複素力学系の分散ディジタル双生児

Decentralized digital twins of complex dynamical systems ( http://arxiv.org/abs/2207.12245v1 )

ライセンス: Link先を確認
Omer San, Suraj Pawar, Adil Rasheed(参考訳) 本稿では、動的システムのための分散デジタルツイン(DDT)フレームワークを導入し、計算科学および工学応用におけるDDTモデリングパラダイムの展望について論じる。 ddtのアプローチは、実際のデータを共有せずに知識共有を促進する機械学習の分野である、連合学習の概念に基づいている。 このアプローチにより、クライアントは、各クライアントにすべてのトレーニングデータを保持しながら、協調して集約モデルを学ぶことができる。 時空間拡張システムにおける複雑な輸送現象をモデル化するためのプロトタイプとして,様々な力学系を用いたDDTフレームワークの実現可能性を示す。 以上の結果から,複雑な非線形時空間システムにおいて,高精度な分散ディジタルツインを設計する上で,連合機械学習が鍵となる可能性が示唆された。

In this paper, we introduce a decentralized digital twin (DDT) framework for dynamical systems and discuss the prospects of the DDT modeling paradigm in computational science and engineering applications. The DDT approach is built on a federated learning concept, a branch of machine learning that encourages knowledge sharing without sharing the actual data. This approach enables clients to collaboratively learn an aggregated model while keeping all the training data on each client. We demonstrate the feasibility of the DDT framework with various dynamical systems, which are often considered prototypes for modeling complex transport phenomena in spatiotemporally extended systems. Our results indicate that federated machine learning might be a key enabler for designing highly accurate decentralized digital twins in complex nonlinear spatiotemporal systems.
翻訳日:2022-07-31 14:49:46 公開日:2022-07-07
# 深層強化学習による実世界シナリオへの音声感情認識モーダルの適用

Domain Adapting Speech Emotion Recognition modals to real-world scenario with Deep Reinforcement Learning ( http://arxiv.org/abs/2207.12248v1 )

ライセンス: Link先を確認
Thejan Rajapakshe, Rajib Rana, Sara Khalifa(参考訳) ディープラーニングは機械学習の分野で人気を集めており、深層強化学習は人気のある訓練パラダイムである。 ドメイン適応により、トレーニングのフェーズ後にドメイン間でモデルによって学習された知識を転送することができる。 既存のモデルを現実世界のドメインに適応できないことは、現在のドメイン適応アルゴリズムの欠点の1つです。 環境と対話し、継続的なフィードバックを収集しながら、事前学習したモデルを新しいドメインに適応するための、深い強化学習に基づく戦略を提案する。 この方法は、クロスコーパスとクロス言語ドメイン適応スキーマの両方を含む音声感情認識タスクで使用された。 さらに,本手法は実環境において,クロスコーパスとクロス言語スキーマにおいて,教師あり学習戦略を42%,20%向上させることを示した。

Deep reinforcement learning has been a popular training paradigm as deep learning has gained popularity in the field of machine learning. Domain adaptation allows us to transfer knowledge learnt by a model across domains after a phase of training. The inability to adapt an existing model to a real-world domain is one of the shortcomings of current domain adaptation algorithms. We present a deep reinforcement learning-based strategy for adapting a pre-trained model to a newer domain while interacting with the environment and collecting continual feedback. This method was used on the Speech Emotion Recognition task, which included both cross-corpus and cross-language domain adaption schema. Furthermore, it demonstrates that in a real-world environment, our approach outperforms the supervised learning strategy by 42% and 20% in cross-corpus and cross-language schema, respectively.
翻訳日:2022-07-31 14:49:34 公開日:2022-07-07
# 非線形時空間輸送系の低次閉鎖モデル探索のための変分多スケール強化学習

Variational multiscale reinforcement learning for discovering reduced order closure models of nonlinear spatiotemporal transport systems ( http://arxiv.org/abs/2207.12854v1 )

ライセンス: Link先を確認
Omer San, Suraj Pawar, Adil Rasheed(参考訳) 多数の科学応用の計算モデリングとシミュレーションにおける中心的な課題は、高非線形多スケール相互作用による粗粒表現のロバストで正確な閉包を達成することである。 これらの閉包モデルは多くの非線形時空間系において、流体中の多くの輸送現象を含む減次表現による損失を考慮に入れるために一般的である。 従来のデータ駆動クロージャモデリングの取り組みは、主に高忠実度シミュレーションデータを用いた教師付き学習アプローチに重点を置いてきた。 一方、強化学習(RL)は時空間拡張システムにおいて強力だが比較的非チャートな手法である。 本研究では,2次非線形性を持つ多くの非線形時空間力学系において生じる可能性のあるガレルキン射影に基づく縮小順序モデルを安定化するモジュラー動的閉包モデルと発見フレームワークを提案する。 しかし、ロバストなRLエージェントを作成する上で重要な要素は、RLモデルと高忠実度シミュレーションデータとの差分メトリクスから構成できる、実現可能な報酬関数を導入することである。 まず、マルチモーダルRL(MMRL)を導入し、高忠実度データを利用したモード依存クロージャポリシーを発見し、RLエージェントに報酬を与える。 次に、報酬関数の設計において、高い忠実度データにアクセスすることなく閉包モデルを発見するための変分多スケールrl(vmrl)アプローチを定式化する。 特に、私たちの主なイノベーションは、ガレルキン系における様相相互作用の違いを定量化するために変分多スケール形式を活用することです。 粘性バーガース方程式のシミュレーション結果から,提案したVMRL法はロバストかつ高精度なクロージャパラメータ化を導出し,複雑な力学系に対するスケールアウェア・クロージャモデルの検出に有用である可能性が示唆された。

A central challenge in the computational modeling and simulation of a multitude of science applications is to achieve robust and accurate closures for their coarse-grained representations due to underlying highly nonlinear multiscale interactions. These closure models are common in many nonlinear spatiotemporal systems to account for losses due to reduced order representations, including many transport phenomena in fluids. Previous data-driven closure modeling efforts have mostly focused on supervised learning approaches using high fidelity simulation data. On the other hand, reinforcement learning (RL) is a powerful yet relatively uncharted method in spatiotemporally extended systems. In this study, we put forth a modular dynamic closure modeling and discovery framework to stabilize the Galerkin projection based reduced order models that may arise in many nonlinear spatiotemporal dynamical systems with quadratic nonlinearity. However, a key element in creating a robust RL agent is to introduce a feasible reward function, which can be constituted of any difference metrics between the RL model and high fidelity simulation data. First, we introduce a multi-modal RL (MMRL) to discover mode-dependant closure policies that utilize the high fidelity data in rewarding our RL agent. We then formulate a variational multiscale RL (VMRL) approach to discover closure models without requiring access to the high fidelity data in designing the reward function. Specifically, our chief innovation is to leverage variational multiscale formalism to quantify the difference between modal interactions in Galerkin systems. Our results in simulating the viscous Burgers equation indicate that the proposed VMRL method leads to robust and accurate closure parameterizations, and it may potentially be used to discover scale-aware closure models for complex dynamical systems.
翻訳日:2022-07-31 14:49:20 公開日:2022-07-07
# 平均場型制御と学習アルゴリズムの非線形安定性を用いた深層学習のマルチシンプレクティック定式化

Multisymplectic Formulation of Deep Learning Using Mean--Field Type Control and Nonlinear Stability of Training Algorithm ( http://arxiv.org/abs/2207.12242v1 )

ライセンス: Link先を確認
Nader Ganaba(参考訳) 現状では、ディープラーニングのさまざまなトピックを分析して研究するための、堅牢な数学的フレームワークはまだ先を行っている段階です。 それでも、ディープラーニングを動的システムとして見ることによって、確立された理論を使ってディープニューラルネットワークの振る舞いを調査することができる。 本稿では,多相構造を持つ流体力学系として,深層ニューラルネットワークの学習を定式化する。 そのため、ディープニューラルネットワークは確率微分方程式を用いてモデル化され、平均場型制御を用いて学習する。 平均場型制御の最適性に必要な条件は、圧縮性流体と同様の幾何学的構造を持つオイラー・ポインカレ方程式の系に還元される。 平均場型制御は、基礎となる幾何学を生かしたマルチシンプレクティックな数値スキームを用いて数値的に解く。 さらに,多相構造を持つ流体力学系の厳密解である近似解を導出し,逆誤差解析を用いて解析することができる。 さらに、非線形安定性は、隠蔽層数と1層当たりのノード数を選択する条件をもたらし、この条件により、無限大に近づく複数の隠蔽層を持つ残留ニューラルネットワークの解を近似しながら、トレーニングを安定させる。

As it stands, a robust mathematical framework to analyse and study various topics in deep learning is yet to come to the fore. Nonetheless, viewing deep learning as a dynamical system allows the use of established theories to investigate the behaviour of deep neural networks. In order to study the stability of the training process, in this article, we formulate training of deep neural networks as a hydrodynamics system, which has a multisymplectic structure. For that, the deep neural network is modelled using a stochastic differential equation and, thereby, mean-field type control is used to train it. The necessary conditions for optimality of the mean--field type control reduce to a system of Euler-Poincare equations, which has the a similar geometric structure to that of compressible fluids. The mean-field type control is solved numerically using a multisymplectic numerical scheme that takes advantage of the underlying geometry. Moreover, the numerical scheme, yields an approximated solution which is also an exact solution of a hydrodynamics system with a multisymplectic structure and it can be analysed using backward error analysis. Further, nonlinear stability yields the condition for selecting the number of hidden layers and the number of nodes per layer, that makes the training stable while approximating the solution of a residual neural network with a number of hidden layers approaching infinity.
翻訳日:2022-07-31 14:42:23 公開日:2022-07-07
# コンピュータビジョンシステムの性能から子どもの単語学習を予測する

Predicting Word Learning in Children from the Performance of Computer Vision Systems ( http://arxiv.org/abs/2207.09847v1 )

ライセンス: Link先を確認
Sunayana Rane, Mira L. Nencheva, Zeyu Wang, Casey Lew-Williams, Olga Russakovsky, Thomas L. Griffiths(参考訳) 人間の子供や機械学習システムにとって、単語を学習する上で重要な課題は、単語を記述した視覚現象にリンクすることだ。 本稿では,コンピュータビジョンシステムの性能を,視覚手がかりから単語を学習することの難しさの指標として利用することで,単語学習のこの側面を検討する。 子どもが異なるカテゴリーの単語を習得する年齢は,視覚的分類とキャプションシステムの性能によって予測され,単語頻度の期待以上の結果が得られた。 コンピュータビジョンシステムの性能は、単語の具体性についての人間の判断に関連し、単語と視覚現象の関係を捉えているという考えを支持する。

For human children as well as machine learning systems, a key challenge in learning a word is linking the word to the visual phenomena it describes. We explore this aspect of word learning by using the performance of computer vision systems as a proxy for the difficulty of learning a word from visual cues. We show that the age at which children acquire different categories of words is predicted by the performance of visual classification and captioning systems, over and above the expected effects of word frequency. The performance of the computer vision systems is related to human judgments of the concreteness of words, supporting the idea that we are capturing the relationship between words and visual phenomena.
翻訳日:2022-07-24 11:45:30 公開日:2022-07-07
# ディープニューラルネットワークを用いたネットワーク侵入検出のためのベイズハイパーパラメータ最適化

Bayesian Hyperparameter Optimization for Deep Neural Network-Based Network Intrusion Detection ( http://arxiv.org/abs/2207.09902v1 )

ライセンス: Link先を確認
Mohammad Masum, Hossain Shahriar, Hisham Haddad, Md Jobair Hossain Faruk, Maria Valero, Md Abdullah Khan, Mohammad A. Rahman, Muhaiminul I. Adnan, Alfredo Cuzzocrea(参考訳) 従来のネットワーク侵入検出アプローチは、近代的で洗練された、予測不能なセキュリティ攻撃に対処するために実現可能性と持続可能性の問題に遭遇する。 侵入検出問題に対してディープニューラルネットワーク(DNN)がうまく適用されている。 DNNに基づく分類器の最適利用には、ハイパーパラメータの注意深いチューニングが必要である。 ハイパーパラメータの手動チューニングは退屈で、時間がかかり、計算コストがかかる。 したがって、侵入検知にDNNを最大限活用するために最適なハイパーパラメータを見つけるための自動手法が必要である。 本稿では,ハイパーパラメータの自動最適化のためのベイズ最適化に基づく新しいフレームワークを提案する。 ネットワーク侵入検出のためのベンチマークデータセットであるNSL-KDD上でのフレームワークの性能評価を行った。 実験結果から,dnnアーキテクチャの精度,精度,リコール,f1-scoreの観点から,ランダム探索最適化に基づくアプローチよりも入射検出性能が有意に高いことが判明した。

Traditional network intrusion detection approaches encounter feasibility and sustainability issues to combat modern, sophisticated, and unpredictable security attacks. Deep neural networks (DNN) have been successfully applied for intrusion detection problems. The optimal use of DNN-based classifiers requires careful tuning of the hyper-parameters. Manually tuning the hyperparameters is tedious, time-consuming, and computationally expensive. Hence, there is a need for an automatic technique to find optimal hyperparameters for the best use of DNN in intrusion detection. This paper proposes a novel Bayesian optimization-based framework for the automatic optimization of hyperparameters, ensuring the best DNN architecture. We evaluated the performance of the proposed framework on NSL-KDD, a benchmark dataset for network intrusion detection. The experimental results show the framework's effectiveness as the resultant DNN architecture demonstrates significantly higher intrusion detection performance than the random search optimization-based approach in terms of accuracy, precision, recall, and f1-score.
翻訳日:2022-07-24 11:44:01 公開日:2022-07-07
# (参考訳) 知識に基づくテキストデータからの精神障害パターンのマイニングに向けて

Towards Knowledge-based Mining of Mental Disorder Patterns from Textual Data ( http://arxiv.org/abs/2207.06254v1 )

ライセンス: CC BY 4.0
Maryam Shahabikargar(参考訳) 精神疾患はすべての国の経済や健康に深刻な影響を及ぼす可能性がある。 例えば、隔離や旅行禁止といった新型コロナウイルス(covid-19)のパンデミックの影響は、私たちは落ち込んでいます。 精神疾患の早期徴候の特定は不可欠である。 例えば、うつ病は個人の自殺リスクを高める可能性がある。 テキストデータから精神障害パターンを識別する最先端の研究では、特にドメインの専門家の知識がさまざまな症状を分析する必要がある場合に、手ラベルのトレーニングセットを使用する。 この作業には時間と費用がかかります。 この課題に対処するため,精神疾患の特定に向けた臨床・非臨床的アプローチの検討と分析を行った。 我々は、認知科学におけるドメイン知識と専門知識を活用し、精神疾患の概念とパターンのためのドメイン固有の知識ベース(KB)を構築します。 我々は、ドメイン特化知識ベース(kb)からのトレーニングデータの生成を容易にすることにより、より弱い監督形態を提案する。 我々は、ソーシャルメディアの分析に典型的なシナリオを採用し、ソーシャルユーザによるテキストコンテンツからうつ病の症状を識別する。 このシナリオを使用して、知識に基づくアプローチが結果の質を大幅に向上させるかを評価する。

Mental health disorders may cause severe consequences on all the countries' economies and health. For example, the impacts of the COVID-19 pandemic, such as isolation and travel ban, can make us feel depressed. Identifying early signs of mental health disorders is vital. For example, depression may increase an individual's risk of suicide. The state-of-the-art research in identifying mental disorder patterns from textual data, uses hand-labelled training sets, especially when a domain expert's knowledge is required to analyse various symptoms. This task could be time-consuming and expensive. To address this challenge, in this paper, we study and analyse the various clinical and non-clinical approaches to identifying mental health disorders. We leverage the domain knowledge and expertise in cognitive science to build a domain-specific Knowledge Base (KB) for the mental health disorder concepts and patterns. We present a weaker form of supervision by facilitating the generating of training data from a domain-specific Knowledge Base (KB). We adopt a typical scenario for analysing social media to identify major depressive disorder symptoms from the textual content generated by social users. We use this scenario to evaluate how our knowledge-based approach significantly improves the quality of results.
翻訳日:2022-07-17 17:54:04 公開日:2022-07-07
# (参考訳) 認知トラッキングレーダのためのオンラインベイズメタラーニング

Online Bayesian Meta-Learning for Cognitive Tracking Radar ( http://arxiv.org/abs/2207.06917v1 )

ライセンス: CC0 1.0
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) cognitive radarの重要なコンポーネントは、物理的なシーンの側面が時間とともに変化する可能性があるため、幅広い種類のセンシング環境にわたって一貫したパフォーマンスを一般化し、達成する能力である。 これは、あるシーンで有効な伝達ポリシーが他のシーンでは非常に最適である可能性があるため、学習に基づく波形選択アプローチへの挑戦を示す。 この問題に対処する1つの方法は、メタラーニングと呼ばれるトラッキングインスタンスにまたがる高レベルの構造を利用して、学習アルゴリズムを戦略的にバイアスすることである。 本研究では,ウェーブフォーム・アジャイル・トラッキングのためのオンラインメタ学習手法を開発する。 このアプローチでは、以前のターゲットトラックから得た情報を使用して、新しいトラッキングインスタンスでの学習をスピードアップし、強化する。 これにより、追跡シーン間の固有の類似性を利用して、有限状態ターゲットチャネルのクラスを横断するサンプル効率の高い学習が可能になる。 我々はベイズ学習の枠組みにおけるオンライン波形選択問題を定式化し、PAC-Bayes理論を用いたメタラーニング問題に対する事前依存性能境界を提供する。 本研究では,様々なシーンからなるシミュレーション研究において,計算可能な後続サンプリングアルゴリズムを提案し,その性能について検討する。 最後に、ウェーブフォーム・アジャイル・トラッキングにおけるオンラインメタラーニングに関連する潜在的なパフォーマンス上の利点と実践的課題について検討する。

A key component of cognitive radar is the ability to generalize, or achieve consistent performance across a broad class of sensing environments, since aspects of the physical scene may vary over time. This presents a challenge for learning-based waveform selection approaches, since transmission policies which are effective in one scene may be highly suboptimal in another. One way to address this problem is to bias a learning algorithm strategically by exploiting high-level structure across tracking instances, referred to as meta-learning. In this work, we develop an online meta-learning approach for waveform-agile tracking. This approach uses information gained from previous target tracks to speed up and enhance learning in new tracking instances. This results in sample-efficient learning across a class of finite state target channels by exploiting inherent similarity across tracking scenes, attributed to common physical elements such as target type or clutter. We formulate the online waveform selection problem in the framework of Bayesian learning, and provide prior-dependent performance bounds for the meta-learning problem using PAC-Bayes theory. We present a computationally feasible posterior sampling algorithm and study the performance in a simulation study consisting of diverse scenes. Finally, we examine the potential performance benefits and practical challenges associated with online meta-learning for waveform-agile tracking.
翻訳日:2022-07-17 17:38:01 公開日:2022-07-07
# (参考訳) 言語モデルはアブダプティブ・コモンセンス推論を実行できるか?

Can Language Models perform Abductive Commonsense Reasoning? ( http://arxiv.org/abs/2207.05155v1 )

ライセンス: CC BY 4.0
Seungone Kim(参考訳) 帰納的推論(英: Abductive Reasoning)は、一連の観測から最も妥当な仮説を推測するタスクである。 文献では、過去の観察や将来の観察と矛盾しない可能性のある仮説を分類・生成することで、この課題を解決するためにコミュニティがアプローチしている。 この問題に対処する最もよく知られているベンチマークは、aNLIとaNLG(α-NLIとα-NLGと発音する)である。 この報告では、この課題を解決しようとした方法論のいくつかをレビューし、ベースラインモデルを再実装し、現在のアプローチが抱える弱点を分析します。 コードと再実装された結果はこのリンクで確認できる。

Abductive Reasoning is a task of inferring the most plausible hypothesis given a set of observations. In literature, the community has approached to solve this challenge by classifying/generating a likely hypothesis that does not contradict with a past observation and future observation. Some of the most well-known benchmarks that tackle this problem are aNLI and aNLG (pronounced as alpha-NLI and alpha-NLG). In this report, I review over some of the methodologies that were attempted to solve this challenge, re-implement the baseline models, and analyze some of the weaknesses that current approaches have. The code and the re-implemented results are available at this link.
翻訳日:2022-07-17 16:14:38 公開日:2022-07-07
# (参考訳) hierarchyforecast - 階層予測のためのpythonベンチマークフレームワーク

HierarchicalForecast: A Python Benchmarking Framework for Hierarchical Forecasting ( http://arxiv.org/abs/2207.03517v1 )

ライセンス: CC0 1.0
Kin G. Olivares, Federico Garza, David Luo, Cristian Chall\'u and Max Mergenthaler(参考訳) 時系列データの大規模なコレクションは、一般的に、異なるレベルの集約を持つ断面構造に分類される。 このようなデータセットとコヒーレントな意思決定と計画に必要条件は、分散されたシリーズの予測が、新しい階層的予測アルゴリズムの作成を動機づける集約されたシリーズ予測に正確に付加されることである。 横断的な階層的予測システムにおける機械学習コミュニティの関心の高まりは、科学的な取り組みが音のベースラインに根ざされていることを確実にするために、私たちは提案的な瞬間にいることを述べています。 このため、我々はHierarchicalForecastライブラリを提出した。このライブラリには、公開データセット、評価メトリクス、統計ベースラインモデルのコンパイルされたセットが含まれている。 Pythonベースのフレームワークは、統計、計量モデル、機械学習予測研究のギャップを埋めることを目的としています。 コードとドキュメントはhttps://github.com/nixtla/hierarchicalforecastで入手できる。

Large collections of time series data are commonly organized into cross-sectional structures with different levels of aggregation; examples include product and geographical groupings. A necessary condition for coherent decision-making and planning, with such data sets, is for the dis-aggregated series' forecasts to add up exactly to the aggregated series forecasts, which motivates the creation of novel hierarchical forecasting algorithms. The growing interest of the Machine Learning community in cross-sectional hierarchical forecasting systems states that we are in a propitious moment to ensure that scientific endeavors are grounded on sound baselines. For this reason, we put forward the HierarchicalForecast library, which contains preprocessed publicly available datasets, evaluation metrics, and a compiled set of statistical baseline models. Our Python-based framework aims to bridge the gap between statistical, econometric modeling, and Machine Learning forecasting research. Code and documentation are available in https://github.com/Nixtla/hierarchicalforecast.
翻訳日:2022-07-15 10:24:45 公開日:2022-07-07
# (参考訳) すべての提案は、オブジェクト検出で等しく扱うべきか?

Should All Proposals be Treated Equally in Object Detection? ( http://arxiv.org/abs/2207.03520v1 )

ライセンス: CC BY 4.0
Yunsheng Li, Yinpeng Chen, Xiyang Dai, Dongdong Chen, Mengchen Liu, Pei Yu, Jing Yin, Lu Yuan, Zicheng Liu, Nuno Vasconcelos(参考訳) オブジェクト検出器の複雑性-精度トレードオフは、リソース制約されたビジョンタスクにとって重要な問題である。 以前の研究では、効率的なバックボーンで実装された検出器を強調している。 本研究は,検出ヘッドによる提案処理のトレードオフに対する影響について検討する。 検出効率の改善は、提案の不平等な処理に向けてパラダイムシフトを必要とし、貧弱な提案よりも良い提案により多くの計算を割り当てる、という仮説が立てられている。 これにより、利用可能な計算予算がより有効になり、同じFLOPSの精度が向上する。 我々は,演算子を検出ヘッドに割り当てることが目的である学習問題としてこれを定式化し,演算子の総計算コストを制約し,精度を最大化する。 鍵となる発見は、そのようなマッチングは各提案を演算子上の1つのホットコードにマッピングする関数として学習できるということである。 この関数は複雑な動的ネットワークルーティング機構を誘導するが、単純なMLPで実装でき、既製の物体検出器でエンドツーエンドに学習することができる。 この「動的プロポーザル処理」(DPP)は、与えられた計算複雑性に対して明確なマージンで最先端のオブジェクト検出器(DETR, Sparse R-CNN)より優れていることを示す。

The complexity-precision trade-off of an object detector is a critical problem for resource constrained vision tasks. Previous works have emphasized detectors implemented with efficient backbones. The impact on this trade-off of proposal processing by the detection head is investigated in this work. It is hypothesized that improved detection efficiency requires a paradigm shift, towards the unequal processing of proposals, assigning more computation to good proposals than poor ones. This results in better utilization of available computational budget, enabling higher accuracy for the same FLOPS. We formulate this as a learning problem where the goal is to assign operators to proposals, in the detection head, so that the total computational cost is constrained and the precision is maximized. The key finding is that such matching can be learned as a function that maps each proposal embedding into a one-hot code over operators. While this function induces a complex dynamic network routing mechanism, it can be implemented by a simple MLP and learned end-to-end with off-the-shelf object detectors. This 'dynamic proposal processing' (DPP) is shown to outperform state-of-the-art end-to-end object detectors (DETR, Sparse R-CNN) by a clear margin for a given computational complexity.
翻訳日:2022-07-15 10:14:09 公開日:2022-07-07
# (参考訳) 機械学習技術を用いた非侵襲的人間衛生モニタリングのための新しいiotベースフレームワーク

A Novel IoT-based Framework for Non-Invasive Human Hygiene Monitoring using Machine Learning Techniques ( http://arxiv.org/abs/2207.03529v1 )

ライセンス: CC BY 4.0
Md Jobair Hossain Faruk, Shashank Trivedi, Mohammad Masum, Maria Valero, Hossain Shahriar, Sheikh Iqbal Ahamed(参考訳) 人々の個人的衛生習慣は、日常生活における身体と健康のケアの状況に関するボリュームを語る。 良い衛生的慣行を維持することは、病気に罹患する可能性を減らすだけでなく、コミュニティ内で病気を広めるリスクを下げる可能性がある。 現在のパンデミックを踏まえると、手洗いや定期シャワーを浴びるといった日常的な習慣は、特に高齢者が自宅で一人で暮らしたり、生活支援施設で暮らしたりすることが重要になっている。 本稿では,振動センサを用いたヒト衛生モニタリングのための新しい非侵襲的枠組みを提案する。 このアプローチは、ジオフォンセンサー、デジタイザ、およびコスト効率の良いコンピュータボードを、実用的な囲い込みで組み合わせたものである。 毎日の衛生的なルーチンを監視することは、医療専門家がコミュニティ内のアウトブレイクの可能性を識別し、コントロールするのに役立つ。 実験の結果,サポートベクターマシン (svm) をバイナリ分類に適用すると, 異なる衛生習慣の分類において約95%の精度が期待できることがわかった。 さらに、木に基づく分類器(ランダムフォレストと決定木)は、最も高い精度(100%)を達成することで、他のモデルよりも優れており、振動と非侵襲センサーを用いて衛生事象を分類することで、衛生活動を監視することができる。

People's personal hygiene habits speak volumes about the condition of taking care of their bodies and health in daily lifestyle. Maintaining good hygiene practices not only reduces the chances of contracting a disease but could also reduce the risk of spreading illness within the community. Given the current pandemic, daily habits such as washing hands or taking regular showers have taken primary importance among people, especially for the elderly population living alone at home or in an assisted living facility. This paper presents a novel and non-invasive framework for monitoring human hygiene using vibration sensors where we adopt Machine Learning techniques. The approach is based on a combination of a geophone sensor, a digitizer, and a cost-efficient computer board in a practical enclosure. Monitoring daily hygiene routines may help healthcare professionals be proactive rather than reactive in identifying and controlling the spread of potential outbreaks within the community. The experimental result indicates that applying a Support Vector Machine (SVM) for binary classification exhibits a promising accuracy of ~95% in the classification of different hygiene habits. Furthermore, both tree-based classifier (Random Forrest and Decision Tree) outperforms other models by achieving the highest accuracy (100%), which means that classifying hygiene events using vibration and non-invasive sensors is possible for monitoring hygiene activity.
翻訳日:2022-07-15 09:59:47 公開日:2022-07-07
# (参考訳) BibleTTS:大きく、高忠実で、多言語で、独特なアフリカの音声コーパス

BibleTTS: a large, high-fidelity, multilingual, and uniquely African speech corpus ( http://arxiv.org/abs/2207.03546v1 )

ライセンス: CC BY 4.0
Josh Meyer, David Ifeoluwa Adelani, Edresson Casanova, Alp \"Oktem, Daniel Whitenack Julian Weber, Salomon Kabongo, Elizabeth Salesky, Iroro Orife, Colin Leong, Perez Ogayo, Chris Emezue, Jonathan Mukiibi, Salomey Osei, Apelete Agbolo, Victor Akinode, Bernard Opoku, Samuel Olanrewaju, Jesujoba Alabi, Shamsuddeen Muhammad(参考訳) BibleTTSは、サハラ以南のアフリカで話されている10の言語のための、大規模で高品質でオープンな音声データセットである。 コーパスは、最大86時間、スタジオ品質48kHzの1言語毎のシングルスピーカー記録を含んでおり、高品質なテキスト音声合成モデルの開発を可能にしている。 Akuapem Twi, Asante Twi, Chichewa, Ewe, Hausa, Kikuyu, Lingala, Luganda, Luo, Yorubaの10言語が表現されている。 このコーパスは、ビブリカのOpen.Bibleプロジェクトによって制作・リリースされた聖書録音の派生作品である。 私たちは、オリジナルの録音を整理、フィルタリングし、さらに各言語のアライメントのサブセットを手作業でチェックしました。 本稿では,Coqui TTSを用いた音声合成モデルについて述べる。 データはCC-BY-SAライセンスで公開されている。

BibleTTS is a large, high-quality, open speech dataset for ten languages spoken in Sub-Saharan Africa. The corpus contains up to 86 hours of aligned, studio quality 48kHz single speaker recordings per language, enabling the development of high-quality text-to-speech models. The ten languages represented are: Akuapem Twi, Asante Twi, Chichewa, Ewe, Hausa, Kikuyu, Lingala, Luganda, Luo, and Yoruba. This corpus is a derivative work of Bible recordings made and released by the Open.Bible project from Biblica. We have aligned, cleaned, and filtered the original recordings, and additionally hand-checked a subset of the alignments for each language. We present results for text-to-speech models with Coqui TTS. The data is released under a commercial-friendly CC-BY-SA license.
翻訳日:2022-07-15 09:37:22 公開日:2022-07-07
# (参考訳) G2L:転送学習を改善する擬似ラベル生成のための幾何学的アプローチ

G2L: A Geometric Approach for Generating Pseudo-labels that Improve Transfer Learning ( http://arxiv.org/abs/2207.03554v1 )

ライセンス: CC BY 4.0
John R. Kender, Bishwaranjan Bhattacharjee, Parijat Dube, Brian Belgodere(参考訳) 転送学習は、人間の注釈ラベルが高価で制限された場合に学習の問題を緩和するディープラーニング技術である。 このようなラベルの代わりに、新しいターゲットデータセットのベースモデルをトレーニングするための初期重みとして、 well-chosenソースモデルからトレーニング済みの重みを使用する。 我々は、そのようなソースモデルを自動的に作成するための、斬新だが一般的なテクニックを実証する。 高次元の幾何学、ケイリー・メンガー行列式に基づく古典的結果に基づく、効率的で拡張可能なアルゴリズムに従って擬似ラベルを生成する。 このg2l(``geometry to label'')メソッドは、超ボリュームコンテンツの欲張りな計算を使って擬似ラベルを段階的に構築する。 提案手法は予測精度に対して調整可能であり,ソースとターゲット間のデータセット類似性(ばらつき)の情報理論によって予測できることを示す。 280の実験の結果、この機械的な手法は、広範囲に人間の注釈付きimagenet1kラベルで訓練されたモデルのベースラインと同等または優れた転送性を持つベースモデルを生成し、全体の誤差が 0.43\%減少し、5つの異なるデータセットのうち4つでエラーが減少することを示した。

Transfer learning is a deep-learning technique that ameliorates the problem of learning when human-annotated labels are expensive and limited. In place of such labels, it uses instead the previously trained weights from a well-chosen source model as the initial weights for the training of a base model for a new target dataset. We demonstrate a novel but general technique for automatically creating such source models. We generate pseudo-labels according to an efficient and extensible algorithm that is based on a classical result from the geometry of high dimensions, the Cayley-Menger determinant. This G2L (``geometry to label'') method incrementally builds up pseudo-labels using a greedy computation of hypervolume content. We demonstrate that the method is tunable with respect to expected accuracy, which can be forecast by an information-theoretic measure of dataset similarity (divergence) between source and target. The results of 280 experiments show that this mechanical technique generates base models that have similar or better transferability compared to a baseline of models trained on extensively human-annotated ImageNet1K labels, yielding an overall error decrease of 0.43\%, and an error decrease in 4 out of 5 divergent datasets tested.
翻訳日:2022-07-15 09:23:49 公開日:2022-07-07
# (参考訳) 有限レートスパース量子符号

Finite-rate sparse quantum codes aplenty ( http://arxiv.org/abs/2207.03562v1 )

ライセンス: CC BY 4.0
Maxime Tremblay, Guillaume Duclos-Cianci, Stefanos Kourtis(参考訳) 制約満足度問題(csp)をランダム二部グラフ上で解くことにより、ランダムなマルチ量子ビット安定化符号を生成する手法を提案する。 この枠組みにより, csp において安定化子交換, x/z バランス, 有限レート, スパーシティ, 最大度制約を同時に実施し, 数値的に解くことができる。 現状のCSPソルバを用いて、満足度しきい値の存在を証明できる証拠を得る。 さらに、満足可能な位相の範囲は、キュービット数によって増加する。 このフェーズでは、スパースコードを見つけるのは簡単な問題です。 さらに, 良好な位相にあるスパース符号は, 消去ノイズのチャネル容量を実質的に達成することを示した。 この結果から,中間サイズの有限レートスパース量子符号の発見が容易であり,また,固有特性を持つ優れた符号を生成するための柔軟な方法論を実証した。 したがって、ランダムな量子コード検出のための完全でカスタマイズ可能なパイプラインを構築し、ほぼ中期の量子プロセッサレイアウトを指向できる。

We introduce a methodology for generating random multi-qubit stabilizer codes based on solving a constraint satisfaction problem (CSP) on random bipartite graphs. This framework allows us to enforce stabilizer commutation, X/Z balancing, finite rate, sparsity, and maximum-degree constraints simultaneously in a CSP that we can then solve numerically. Using a state-of-the-art CSP solver, we obtain convincing evidence for the existence of a satisfiability threshold. Furthermore, the extent of the satisfiable phase increases with the number of qubits. In that phase, finding sparse codes becomes an easy problem. Moreover, we observe that the sparse codes found in the satisfiable phase practically achieve the channel capacity for erasure noise. Our results show that intermediate-size finite-rate sparse quantum codes are easy to find, while also demonstrating a flexible methodology for generating good codes with custom properties. We therefore establish a complete and customizable pipeline for random quantum code discovery that can be geared towards near to mid-term quantum processor layouts.
翻訳日:2022-07-15 09:08:28 公開日:2022-07-07
# (参考訳) サンプル学習一貫性の予測可能性に関する研究

A Study on the Predictability of Sample Learning Consistency ( http://arxiv.org/abs/2207.03571v1 )

ライセンス: CC BY 4.0
Alain Raymond-Saez, Julio Hurtado, Alvaro Soto(参考訳) カリキュラム学習は、いくつかの設定でより速くより良いトレーニングを可能にする強力なトレーニング方法である。 しかし、この方法には、どの例が困難で、どれが簡単かという概念が必要である。 C-Scoreと呼ばれる最近のメトリクスは、例えば、一貫性の学習に関連付けることで、プロキシとして機能する。 残念ながら、この方法は計算集約的であり、代替データセットの適用性を制限する。 本研究では,CIFAR-100 と CIFAR-10 の C-Score 予測のための異なる手法を用いてモデルを訓練する。 しかし、これらのモデルは同じ分布内と分布外の両方において、一般化が不十分であることが判明した。 これは、c-scoreが各サンプルの個々の特性によってではなく、他の要因によって定義されることを示唆している。 我々は、サンプルが隣人との関係、特に何人が同じラベルを共有しているかは、Cスコアを説明するのに役立つと仮定する。 今後の作業でこれを探求する予定です。

Curriculum Learning is a powerful training method that allows for faster and better training in some settings. This method, however, requires having a notion of which examples are difficult and which are easy, which is not always trivial to provide. A recent metric called C-Score acts as a proxy for example difficulty by relating it to learning consistency. Unfortunately, this method is quite compute intensive which limits its applicability for alternative datasets. In this work, we train models through different methods to predict C-Score for CIFAR-100 and CIFAR-10. We find, however, that these models generalize poorly both within the same distribution as well as out of distribution. This suggests that C-Score is not defined by the individual characteristics of each sample but rather by other factors. We hypothesize that a sample's relation to its neighbours, in particular, how many of them share the same labels, can help in explaining C-Scores. We plan to explore this in future work.
翻訳日:2022-07-15 08:57:10 公開日:2022-07-07
# (参考訳) Quote Erat Demonstrandum: Quotebank Corpusを探索するWebインターフェース

Quote Erat Demonstrandum: A Web Interface for Exploring the Quotebank Corpus ( http://arxiv.org/abs/2207.03592v1 )

ライセンス: CC BY 4.0
Vuk Vukovi\'c, Akhil Arora, Huan-Cheng Chang, Andreas Spitz, and Robert West(参考訳) 引用語の使用は、ニュースにおける情報伝達の最も直接的かつ最小フィルターされた経路である。 その結果、引用はニュース記事の概念、受信、分析において中心的な役割を果たす。 引用は通常の報告よりも話者の心に直接的な窓を提供するので、ジャーナリストや研究者にとっても貴重な情報源である。 ニュースから引用を自動抽出する手法や話者への帰属に関する研究が盛んに行われているが、現代資料からの引用を包括的にまとめたコーパスはほとんど公開されていない。 ここでは、このニュースからの引用の膨大なコレクションであるquotebankを検索するためのアダプティブwebインターフェースを示し、https://quotebank.dlab.tools.orgで公開します。

The use of attributed quotes is the most direct and least filtered pathway of information propagation in news. Consequently, quotes play a central role in the conception, reception, and analysis of news stories. Since quotes provide a more direct window into a speaker's mind than regular reporting, they are a valuable resource for journalists and researchers alike. While substantial research efforts have been devoted to methods for the automated extraction of quotes from news and their attribution to speakers, few comprehensive corpora of attributed quotes from contemporary sources are available to the public. Here, we present an adaptive web interface for searching Quotebank, a massive collection of quotes from the news, which we make available at https://quotebank.dlab.tools.
翻訳日:2022-07-14 11:31:56 公開日:2022-07-07
# (参考訳) ハイパーユニバーサルポリシー近似:ハイパーネットを用いた単一画像からのアクション生成の学習

Hyper-Universal Policy Approximation: Learning to Generate Actions from a Single Image using Hypernets ( http://arxiv.org/abs/2207.03593v1 )

ライセンス: CC BY 4.0
Dimitrios C. Gklezakos, Rishi Jha, Rajesh P. N. Rao(参考訳) 人間の視覚におけるオブジェクトの余裕というギブソンの概念に触発されて、エージェントはどのようにして新しいオブジェクトや環境に対するアクションポリシー全体を予測することができるのか? この問題に取り組むために,我々は,新しい目標だけでなく,最も重要で目に見えない新しい環境に一般化した,状態対行動マッピングであるユニバーサル・ポリシー・ファンクション(upfs)の概念を紹介する。 具体的には,エッジデバイスで頻繁に発生する制約である計算能力や通信能力の制限のあるエージェントに対して,そのようなポリシーを効率的に学習する問題を考える。 本稿では,単一画像からタスクと環境条件のポリシーネットワークを生成するハイパーネットワークベースのモデルであるHyper-Universal Policy Approximator (HUPA)を提案する。 以上の結果から,HUPAsは,サイズに制約のある生成ポリシに対して,埋め込みベースの代替手段を著しく上回っていることがわかった。 この作業は単純な地図ベースのナビゲーションタスクに限定されるが、将来の作業には、HUPAの背後にある原則を適用して、オブジェクトや環境のより一般的な余裕を学習することが含まれる。

Inspired by Gibson's notion of object affordances in human vision, we ask the question: how can an agent learn to predict an entire action policy for a novel object or environment given only a single glimpse? To tackle this problem, we introduce the concept of Universal Policy Functions (UPFs) which are state-to-action mappings that generalize not only to new goals but most importantly to novel, unseen environments. Specifically, we consider the problem of efficiently learning such policies for agents with limited computational and communication capacity, constraints that are frequently encountered in edge devices. We propose the Hyper-Universal Policy Approximator (HUPA), a hypernetwork-based model to generate small task- and environment-conditional policy networks from a single image, with good generalization properties. Our results show that HUPAs significantly outperform an embedding-based alternative for generated policies that are size-constrained. Although this work is restricted to a simple map-based navigation task, future work includes applying the principles behind HUPAs to learning more general affordances for objects and environments.
翻訳日:2022-07-14 11:24:09 公開日:2022-07-07
# ハイパーグラフに対する因果効果の学習

Learning Causal Effects on Hypergraphs ( http://arxiv.org/abs/2207.04049v1 )

ライセンス: Link先を確認
Jing Ma, Mengting Wan, Longqi Yang, Jundong Li, Brent Hecht, Jaime Teevan(参考訳) ハイパーグラフはノード間のマルチウェイグループインタラクションをモデル化するための効果的な抽象化を提供する。 統計的依存関係を利用する既存の研究と異なり、因果性の観点からハイパーグラフを研究する。 具体的には、ハイパーグラフにおける個別治療効果(ITE)推定の問題に焦点を当て、介入(例えば、顔を覆う)が各ノードの結果(例えば、COVID-19感染)に因果的にどの程度影響するかを推定することを目的とした。 ITE推定に関する既存の研究は、ある個人に対する結果が他の個人に対する治療課題の影響を受けるべきでないと仮定するか(例えば、干渉がない)、あるいは通常のグラフ内の接続された個人のペアの間にのみ干渉が存在すると仮定する。 これらの仮定は、高次干渉がグループ間相互作用の存在による究極的ITT推定に影響を及ぼす現実世界のハイパーグラフ上では非現実的である。 本研究では,高次干渉モデルの検討を行い,ハイパーグラフニューラルネットワークを用いた新しい因果関係学習フレームワークを提案する。 実世界のハイパーグラフに関する広範囲な実験は、既存のベースラインよりもフレームワークが優れていることを検証します。

Hypergraphs provide an effective abstraction for modeling multi-way group interactions among nodes, where each hyperedge can connect any number of nodes. Different from most existing studies which leverage statistical dependencies, we study hypergraphs from the perspective of causality. Specifically, in this paper, we focus on the problem of individual treatment effect (ITE) estimation on hypergraphs, aiming to estimate how much an intervention (e.g., wearing face covering) would causally affect an outcome (e.g., COVID-19 infection) of each individual node. Existing works on ITE estimation either assume that the outcome on one individual should not be influenced by the treatment assignments on other individuals (i.e., no interference), or assume the interference only exists between pairs of connected individuals in an ordinary graph. We argue that these assumptions can be unrealistic on real-world hypergraphs, where higher-order interference can affect the ultimate ITE estimations due to the presence of group interactions. In this work, we investigate high-order interference modeling, and propose a new causality learning framework powered by hypergraph neural networks. Extensive experiments on real-world hypergraphs verify the superiority of our framework over existing baselines.
翻訳日:2022-07-12 12:58:29 公開日:2022-07-07
# VMAS: 集合ロボット学習のためのベクトル型マルチエージェントシミュレータ

VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning ( http://arxiv.org/abs/2207.03530v1 )

ライセンス: Link先を確認
Matteo Bettini, Ryan Kortvelesy, Jan Blumenkamp, Amanda Prorok(参考訳) 多くのマルチロボット調整問題は正確なアルゴリズムで最適に解けるが、解はしばしばロボットの数でスケーラブルではない。 マルチエージェント強化学習(marl)は,このような課題に取り組むための有望なソリューションとして,ロボティクスコミュニティの注目を集めている。 それでもなお,大規模な集団学習タスクのソリューションを迅速かつ効率的に見つけるためのツールが不足しています。 本稿では,VMAS(Vectorized Multi-Agent Simulator)を紹介する。 VMASは、効率的なMARLベンチマークのために設計されたオープンソースのフレームワークである。 PyTorchで書かれたベクトル化された2D物理エンジンと、12の挑戦的なマルチロボットシナリオからなる。 追加のシナリオは、シンプルでモジュール化されたインターフェイスで実装できる。 我々は,ベクトル化が複雑化することなく,高速化ハードウェア上で並列シミュレーションを実現する方法を示した。 VMASとOpenAI MPEを比較すると、VMASは10秒未満で3万の並列シミュレーションを実行でき、100倍以上高速であるのに対して、MPEの実行時間がシミュレーション数で線形に増加することを示す。 VMASのRLlibインタフェースを用いて、PPO(Proximal Policy Optimization)ベースのMARLアルゴリズムを用いて、マルチロボットシナリオをベンチマークする。 VMASのシナリオは、最先端のMARLアルゴリズムの直交的な方法では困難である。 vmasフレームワークはhttps://github.com/proroklab/vectorized multiagentsimulatorで利用可能である。 VMASのシナリオと実験のビデオはhttps://youtu.be/aaDRYfiesAY}{here}\footnote{\url{https://youtu.be/aaDRYfiesAYで公開されている。

While many multi-robot coordination problems can be solved optimally by exact algorithms, solutions are often not scalable in the number of robots. Multi-Agent Reinforcement Learning (MARL) is gaining increasing attention in the robotics community as a promising solution to tackle such problems. Nevertheless, we still lack the tools that allow us to quickly and efficiently find solutions to large-scale collective learning tasks. In this work, we introduce the Vectorized Multi-Agent Simulator (VMAS). VMAS is an open-source framework designed for efficient MARL benchmarking. It is comprised of a vectorized 2D physics engine written in PyTorch and a set of twelve challenging multi-robot scenarios. Additional scenarios can be implemented through a simple and modular interface. We demonstrate how vectorization enables parallel simulation on accelerated hardware without added complexity. When comparing VMAS to OpenAI MPE, we show how MPE's execution time increases linearly in the number of simulations while VMAS is able to execute 30,000 parallel simulations in under 10s, proving more than 100x faster. Using VMAS's RLlib interface, we benchmark our multi-robot scenarios using various Proximal Policy Optimization (PPO)-based MARL algorithms. VMAS's scenarios prove challenging in orthogonal ways for state-of-the-art MARL algorithms. The VMAS framework is available at https://github.com/proroklab/VectorizedMultiAgentSimulator. A video of VMAS scenarios and experiments is available at https://youtu.be/aaDRYfiesAY}{here}\footnote{\url{https://youtu.be/aaDRYfiesAY.
翻訳日:2022-07-11 14:54:17 公開日:2022-07-07
# 隠れた端末の存在下での学習に基づく自律チャネルアクセス

Learning-based Autonomous Channel Access in the Presence of Hidden Terminals ( http://arxiv.org/abs/2207.03605v1 )

ライセンス: Link先を確認
Yulin Shao, Yucheng Cai, Taotao Wang, Ziyang Guo, Peng Liu, Jiajun Luo, Deniz Gunduz(参考訳) 本稿では、端末群が共通の無線回線を介してアクセスポイント(AP)による通信戦略を分散的に発見しようとする自律チャネルアクセス(AutoCA)の問題について考察する。 不規則なトポロジと端末の通信範囲の制限のため、AutoCAの実用上の課題は隠れた端末問題であり、無線ネットワークではスループットと遅延性能を劣化させることが知られている。 そこで本研究では,隠れ端末の存在下でのAutoCAに適したMADRL-HTというマルチエージェント深層強化学習パラダイムを提案する。 MADRL-HTは位相的洞察を利用し、各端末の観測空間を端末数に依存しないスケーラブルな形式に変換する。 部分的な可観測性を補うため,端末はキャリアが検知したチャネル状態から隠れた端末の挙動を推測し,APからのフィードバックを推測できるように,見返り機構を設けた。 ウィンドウベースのグローバル報酬関数を提案し,学習過程における端末の送信機会のバランスを保ちながら,端末にシステムスループットを最大化するように指示する。 衝突回避プロトコル (CSMA/CA) を用いたレガシーキャリアセンス多重アクセスに対して, 提案手法の優れた性能を検証した。

We consider the problem of autonomous channel access (AutoCA), where a group of terminals tries to discover a communication strategy with an access point (AP) via a common wireless channel in a distributed fashion. Due to the irregular topology and the limited communication range of terminals, a practical challenge for AutoCA is the hidden terminal problem, which is notorious in wireless networks for deteriorating the throughput and delay performances. To meet the challenge, this paper presents a new multi-agent deep reinforcement learning paradigm, dubbed MADRL-HT, tailored for AutoCA in the presence of hidden terminals. MADRL-HT exploits topological insights and transforms the observation space of each terminal into a scalable form independent of the number of terminals. To compensate for the partial observability, we put forth a look-back mechanism such that the terminals can infer behaviors of their hidden terminals from the carrier sensed channel states as well as feedback from the AP. A window-based global reward function is proposed, whereby the terminals are instructed to maximize the system throughput while balancing the terminals' transmission opportunities over the course of learning. Extensive numerical experiments verified the superior performance of our solution benchmarked against the legacy carrier-sense multiple access with collision avoidance (CSMA/CA) protocol.
翻訳日:2022-07-11 14:52:52 公開日:2022-07-07
# 偏光手がかりを用いたテンソル低ランク・スパース分解に基づくハイライト鏡面反射分離

Highlight Specular Reflection Separation based on Tensor Low-rank and Sparse Decomposition Using Polarimetric Cues ( http://arxiv.org/abs/2207.03543v1 )

ライセンス: Link先を確認
Moein Shakeri, Hong Zhang(参考訳) 本稿では,偏光情報を用いて,テンソル低ランク分解フレームワークに基づく鏡面反射除去について述べる。 本手法は,画像のスペクトルハイライトが疎分布であるのに対して,残りの拡散反射は低ランク・スパース分解フレームワークを用いて複数の異なる色を線形に組み合わせることでよく近似できることを示す。 現在のソリューションとは異なり、テンソルの低ランク分解は、スペクトルと拡散情報の空間構造を保持し、強い反射や飽和領域における拡散像の復元を可能にする。 さらに、カラーチャネルの制約として、新しい偏光正規化項を定義し、課す。 この正則化は、特に強い鏡面反射の場合において、彩度に基づく方法の一般的な問題である色歪を扱うことにより、正確な拡散像を再現する手法の性能を高める。 本手法は, 合成画像と実像画像の両方を包括的に実験することにより, ハイライト除去の精度を大幅に向上し, 拡散画像, 特に, 強い鏡面反射領域や飽和領域において, 性能を向上できることを示す。

This paper is concerned with specular reflection removal based on tensor low-rank decomposition framework with the help of polarization information. Our method is motivated by the observation that the specular highlight of an image is sparsely distributed while the remaining diffuse reflection can be well approximated by a linear combination of several distinct colors using a low-rank and sparse decomposition framework. Unlike current solutions, our tensor low-rank decomposition keeps the spatial structure of specular and diffuse information which enables us to recover the diffuse image under strong specular reflection or in saturated regions. We further define and impose a new polarization regularization term as constraint on color channels. This regularization boosts the performance of the method to recover an accurate diffuse image by handling the color distortion, a common problem of chromaticity-based methods, especially in case of strong specular reflection. Through comprehensive experiments on both synthetic and real polarization images, we demonstrate that our method is able to significantly improve the accuracy of highlight specular removal, and outperform the competitive methods to recover the diffuse image, especially in regions of strong specular reflection or in saturated areas.
翻訳日:2022-07-11 14:31:00 公開日:2022-07-07
# ACII 2022 Affective Vocal Bursts Workshop & Competition: Understanding a critically underspected modality of emotion expression

The ACII 2022 Affective Vocal Bursts Workshop & Competition: Understanding a critically understudied modality of emotional expression ( http://arxiv.org/abs/2207.03572v1 )

ライセンス: Link先を確認
Alice Baird, Panagiotis Tzirakis, Jeffrey A. Brooks, Christopher B. Gregory, Bj\"orn Schuller, Anton Batliner, Dacher Keltner, Alan Cowen(参考訳) acii affective vocal bursts workshop & competitionは、笑い、ガスプス、泣き声、叫びなど、感情の表現と人間のコミュニケーションのより一般的に中心となる非言語的音声化の複数の感情的側面を理解することに焦点を当てている。 今年のコンペティションは、1,702人の話者による59,299曲の大規模なデータセットを使用した4つのトラックで構成されている。 1つ目は、A-VB-Highタスクで、参加者は、Awe、Fear、Surpriseを含む10種類のリッチな注釈付き感情表現強度のクラスを利用して、新しい感情モデル上で複数のラベルレグレッションを実行する必要がある。 第2のA-VB-Twoタスクは、感情、覚醒、原子価の2次元モデルを利用する。 第3のタスクであるA-VB-Cultureタスクでは、参加者がデータセットの文化的側面を調べ、ネイティブな国依存モデルをトレーニングする必要がある。 最後に、4番目のタスクであるA-VB-Typeでは、参加者は声帯のタイプ(笑い、泣き、笑いなど)を8つのクラスに分類される。 本稿では,最先端機械学習手法を用いた4つのトラックとベースラインシステムについて述べる。 エンド・ツー・エンドのディープラーニングモデルを用いて各トラックのベースライン性能を求め、A-VB-Highでは平均(10次元以上)CCCが0.5687、A-VB-Twoでは平均(2次元以上)CCCが0.5084、A-VB-Cultureでは4つのカルチャーから平均CCCが0.4401、A-VB-Typeでは、ベースラインの非重み付き平均コール(UAR)が0.4172UARとなる。

The ACII Affective Vocal Bursts Workshop & Competition is focused on understanding multiple affective dimensions of vocal bursts: laughs, gasps, cries, screams, and many other non-linguistic vocalizations central to the expression of emotion and to human communication more generally. This year's competition comprises four tracks using a large-scale and in-the-wild dataset of 59,299 vocalizations from 1,702 speakers. The first, the A-VB-High task, requires competition participants to perform a multi-label regression on a novel model for emotion, utilizing ten classes of richly annotated emotional expression intensities, including; Awe, Fear, and Surprise. The second, the A-VB-Two task, utilizes the more conventional 2-dimensional model for emotion, arousal, and valence. The third, the A-VB-Culture task, requires participants to explore the cultural aspects of the dataset, training native-country dependent models. Finally, for the fourth task, A-VB-Type, participants should recognize the type of vocal burst (e.g., laughter, cry, grunt) as an 8-class classification. This paper describes the four tracks and baseline systems, which use state-of-the-art machine learning methods. The baseline performance for each track is obtained by utilizing an end-to-end deep learning model and is as follows: for A-VB-High, a mean (over the 10-dimensions) Concordance Correlation Coefficient (CCC) of 0.5687 CCC is obtained; for A-VB-Two, a mean (over the 2-dimensions) CCC of 0.5084 is obtained; for A-VB-Culture, a mean CCC from the four cultures of 0.4401 is obtained; and for A-VB-Type, the baseline Unweighted Average Recall (UAR) from the 8-classes is 0.4172 UAR.
翻訳日:2022-07-11 14:29:49 公開日:2022-07-07
# 太陽光発電によるエネルギー分散の最近の動向

Recent Results of Energy Disaggregation with Behind-the-Meter Solar Generation ( http://arxiv.org/abs/2207.03490v1 )

ライセンス: Link先を確認
Ming Yi and Meng Wang(参考訳) 太陽光発電(PV)世代のような再生可能世代の急速な展開は、既存の電力システムの弾力性に大きな課題をもたらす。 PV世代は揮発性であり、典型的には電力系統の運用者には見えないため、発生を推定し、不確実性を特徴付けることは、オペレーターが洞察力のある決定を行うために緊急に必要である。 本論文は, 変電所レベルでのエネルギー分散に関する最近の研究成果を概説するものである。 我々は, 変電所におけるエネルギー分散に関するいわゆる「部分的ラベル」問題を定式化し, 集合測定が複数の負荷の総消費を包含し, 負荷の存在が不明であることを示した。 決定論的辞書学習とベイズ辞書学習の2つのモデルフリー分散手法を開発した。 個々の負荷の完全注釈付きトレーニングデータを必要とする従来の手法とは異なり,本手法では部分的にラベル付けされた集計データから負荷パターンを抽出できる。 したがって、我々の部分ラベルの定式化は実世界ではより適切である。 決定論的辞書学習と比較して、ベイジアン辞書学習に基づくアプローチは、計算複雑性の増大を犠牲にして、デアグリゲーション結果の不確実性尺度を提供する。 すべての方法は数値実験によって検証される。

The rapid deployment of renewable generations such as photovoltaic (PV) generations brings great challenges to the resiliency of existing power systems. Because PV generations are volatile and typically invisible to the power system operator, estimating the generation and characterizing the uncertainty are in urgent need for operators to make insightful decisions. This paper summarizes our recent results on energy disaggregation at the substation level with Behind-the-Meter solar generation. We formulate the so-called ``partial label'' problem for energy disaggregation at substations, where the aggregate measurements contain the total consumption of multiple loads, and the existence of some loads is unknown. We develop two model-free disaggregation approaches based on deterministic dictionary learning and Bayesian dictionary learning, respectively. Unlike conventional methods which require fully annotated training data of individual loads, our approaches can extract load patterns given partially labeled aggregate data. Therefore, our partial label formulation is more applicable in the real world. Compared with deterministic dictionary learning, the Bayesian dictionary learning-based approach provides the uncertainty measure for the disaggregation results, at the cost of increased computational complexity. All the methods are validated by numerical experiments.
翻訳日:2022-07-11 14:03:01 公開日:2022-07-07
# グラフトポロジサンプリングを用いたトレーニンググラフ畳み込みネットワークの一般化保証

Generalization Guarantee of Training Graph Convolutional Networks with Graph Topology Sampling ( http://arxiv.org/abs/2207.03584v1 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong(参考訳) グラフ畳み込みネットワーク(GCN)は近年,グラフ構造化データの学習において大きな成功を収めている。 隣り合う機能の再帰的埋め込みによるスケーラビリティの問題に対処するために、gcnのトレーニングのメモリと計算コストを削減するためにグラフトポロジサンプリングが提案されており、多くの実証研究でトポロジーサンプリングのないものと同等のテスト性能を達成している。 本稿では,半教師付きノード分類のための(最大)3層gcnの学習におけるグラフトポロジーサンプリングの理論的正当化について述べる。 グラフトポロジサンプリングにおいて,GCNトレーニングが一般化誤差を減少させるような条件を公式に特徴付ける。 さらに,本手法は,既存のGCNの理論的解析において未探索の層間重みの非凸相互作用に対処する。 本稿では,グラフ構造とトポロジサンプリングが一般化性能および試料の複雑さに与える影響を明示し,数値実験により理論的知見を正当化する。

Graph convolutional networks (GCNs) have recently achieved great empirical success in learning graph-structured data. To address its scalability issue due to the recursive embedding of neighboring features, graph topology sampling has been proposed to reduce the memory and computational cost of training GCNs, and it has achieved comparable test performance to those without topology sampling in many empirical studies. To the best of our knowledge, this paper provides the first theoretical justification of graph topology sampling in training (up to) three-layer GCNs for semi-supervised node classification. We formally characterize some sufficient conditions on graph topology sampling such that GCN training leads to a diminishing generalization error. Moreover, our method tackles the nonconvex interaction of weights across layers, which is under-explored in the existing theoretical analyses of GCNs. This paper characterizes the impact of graph structures and topology sampling on the generalization performance and sample complexity explicitly, and the theoretical findings are also justified through numerical experiments.
翻訳日:2022-07-11 14:02:40 公開日:2022-07-07
# クラスタ化のための個人選好安定性

Individual Preference Stability for Clustering ( http://arxiv.org/abs/2207.03600v1 )

ライセンス: Link先を確認
Saba Ahmadi, Pranjal Awasthi, Samir Khuller, Matth\"aus Kleindessner, Jamie Morgenstern, Pattara Sukprasert, Ali Vakilian(参考訳) 本稿では,クラスタリングにおける個人選好(IP)安定性の自然な概念を提案し,各データポイントが,他のクラスタのポイントよりも,クラスタ内のポイントに近いことを問う。 我々の概念は、ゲーム理論やアルゴリズム的公正性など、いくつかの観点から動機付けられる。 我々は提案する概念に関するいくつかの質問を考察する。 まず、あるデータセットがip-stableクラスタリングを一般に許すかどうかを決定することはnp-hardであることを示す。 その結果,いくつかの制限付き距離空間におけるIP安定クラスタリングの効率的なアルゴリズムの設計について検討した。 本稿では,実線上の正確なIP安定度を満たすクラスタリングを求めるポリ時間アルゴリズムと,木メータに対するIP安定2クラスタリングを求める効率的なアルゴリズムを提案する。 また、安定性の制約を緩和すること、すなわち、すべてのデータポイントが、他のクラスタと比べて、自身のクラスタから遠ざかるべきではない、とも考えています。 この場合、異なる保証を持つポリタイムアルゴリズムを提供する。 実データに対して,アルゴリズムのいくつかと標準的なクラスタリング手法を評価した。

In this paper, we propose a natural notion of individual preference (IP) stability for clustering, which asks that every data point, on average, is closer to the points in its own cluster than to the points in any other cluster. Our notion can be motivated from several perspectives, including game theory and algorithmic fairness. We study several questions related to our proposed notion. We first show that deciding whether a given data set allows for an IP-stable clustering in general is NP-hard. As a result, we explore the design of efficient algorithms for finding IP-stable clusterings in some restricted metric spaces. We present a polytime algorithm to find a clustering satisfying exact IP-stability on the real line, and an efficient algorithm to find an IP-stable 2-clustering for a tree metric. We also consider relaxing the stability constraint, i.e., every data point should not be too far from its own cluster compared to any other cluster. For this case, we provide polytime algorithms with different guarantees. We evaluate some of our algorithms and several standard clustering approaches on real data sets.
翻訳日:2022-07-11 14:02:24 公開日:2022-07-07
# 標準ガウスデータを超えた単層ニューラルネットワークの学習と一般化

Learning and generalization of one-hidden-layer neural networks, going beyond standard Gaussian data ( http://arxiv.org/abs/2207.03615v1 )

ライセンス: Link先を確認
Hongkang Li, Shuai Zhang, Meng Wang(参考訳) 本稿では,入力特徴が有限個のガウス分布からなるガウス混合モデルに従う場合の1階層ニューラルネットワークの学習の収束と一般化について解析する。 ラベルが未知の基底真理重みを持つ教師モデルから生成されると仮定すると、学習問題は、生徒ニューラルネットワーク上の非凸リスク関数を最小化することにより、教師モデルの基礎を推定することである。 サンプル複雑性と呼ばれる有限個のトレーニングサンプルでは、反復は一般化誤差が保証された臨界点に線形収束することが証明される。 また,本論文では,入力分布がサンプルの複雑さと学習率に与える影響を初めて明らかにした。

This paper analyzes the convergence and generalization of training a one-hidden-layer neural network when the input features follow the Gaussian mixture model consisting of a finite number of Gaussian distributions. Assuming the labels are generated from a teacher model with an unknown ground truth weight, the learning problem is to estimate the underlying teacher model by minimizing a non-convex risk function over a student neural network. With a finite number of training samples, referred to the sample complexity, the iterations are proved to converge linearly to a critical point with guaranteed generalization error. In addition, for the first time, this paper characterizes the impact of the input distributions on the sample complexity and the learning rate.
翻訳日:2022-07-11 14:02:07 公開日:2022-07-07
# メタラーニング 違い: 効率的な適応のための大規模言語モデルの作成

Meta-Learning the Difference: Preparing Large Language Models for Efficient Adaptation ( http://arxiv.org/abs/2207.03509v1 )

ライセンス: Link先を確認
Zejiang Hou, Julian Salazar, George Polovets(参考訳) 大規模な事前訓練言語モデル(PLM)は、しばしば細調整やプロンプトによってドメインまたはタスク適応される。 微調整には、すべてのパラメータを変更し、オーバーフィッティングを避けるのに十分なデータを持つ必要がある。 その代わりに、一般と適応のPLMの違いを学習することで、データおよびパラメータ効率の適応のためのPLMを作成する。 この違いは,提案する動的低ランク再パラメータ化と学習型アーキテクチャコントローラを通じて,モデルウェイトとサブレイヤ構造の観点から表現される。 少数シーンの対話補完、低リソースの抽象要約、マルチドメイン言語モデリングの実験は、ドメイン適応プリトレーニングによる直接的微調整や準備よりも適応時間と性能が改善されたことを示している。 アブレーションは我々のタスク適応型再パラメータ化(TARP)とモデル探索(TAMS)コンポーネントを個別に、アダプタのようなパラメータ効率の変換や学習スペーシングのような構造学習手法で改善することを示している。

Large pretrained language models (PLMs) are often domain- or task-adapted via fine-tuning or prompting. Finetuning requires modifying all of the parameters and having enough data to avoid overfitting while prompting requires no training and few examples but limits performance. Instead, we prepare PLMs for data- and parameter-efficient adaptation by learning to learn the difference between general and adapted PLMs. This difference is expressed in terms of model weights and sublayer structure through our proposed dynamic low-rank reparameterization and learned architecture controller. Experiments on few-shot dialogue completion, low-resource abstractive summarization, and multi-domain language modeling show improvements in adaptation time and performance over direct finetuning or preparation via domain-adaptive pretraining. Ablations show our task-adaptive reparameterization (TARP) and model search (TAMS) components individually improve on other parameter-efficient transfer like adapters and structure-learning methods like learned sparsification.
翻訳日:2022-07-11 13:43:49 公開日:2022-07-07
# 深さ推定を用いた領域シフトによる意味セグメンテーションの偽陰性化

False Negative Reduction in Semantic Segmentation under Domain Shift using Depth Estimation ( http://arxiv.org/abs/2207.03513v1 )

ライセンス: Link先を確認
Kira Maag and Matthias Rottmann(参考訳) 最先端のディープニューラルネットワークはセマンティックセグメンテーションにおいて優れた性能を示す。 しかし、それらのパフォーマンスはトレーニングデータで表されるドメインに結びついている。 オープンワールドシナリオは、自動化運転のような安全関連のアプリケーションで危険である不正確な予測を引き起こす。 本研究では,単眼深度推定を用いた意味セグメンテーション予測を拡張し,領域シフトの存在下での非検出物体の発生を減らすことによりセグメンテーションを改善する。 この目的のために,与えられた意味セグメンテーションネットワークと並行して動作し,前景バックグラウンドマスクを生成する修正セグメンテーションネットワークを介して奥行きヒートマップを推定する。 両方のセグメンテーションマスクは、偽陰性を減らすために前景クラス(道路利用者)に焦点を当てて集約される。 また、偽陽性の発生を低減するため、不確実性推定に基づくプルーニングを適用する。 我々のアプローチは、セマンティックセグメンテーションネットワークの出力を後処理するという意味でモジュラーである。 実験では,重要クラスの非検出対象が減少し,基本的なセマンティックセグメンテーション予測と比較して,他の領域への一般化が進んだ。

State-of-the-art deep neural networks demonstrate outstanding performance in semantic segmentation. However, their performance is tied to the domain represented by the training data. Open world scenarios cause inaccurate predictions which is hazardous in safety relevant applications like automated driving. In this work, we enhance semantic segmentation predictions using monocular depth estimation to improve segmentation by reducing the occurrence of non-detected objects in presence of domain shift. To this end, we infer a depth heatmap via a modified segmentation network which generates foreground-background masks, operating in parallel to a given semantic segmentation network. Both segmentation masks are aggregated with a focus on foreground classes (here road users) to reduce false negatives. To also reduce the occurrence of false positives, we apply a pruning based on uncertainty estimates. Our approach is modular in a sense that it post-processes the output of any semantic segmentation network. In our experiments, we observe less non-detected objects of most important classes and an enhanced generalization to other domains compared to the basic semantic segmentation prediction.
翻訳日:2022-07-11 13:41:45 公開日:2022-07-07
# RWT-SLAM: 高弱環境のためのロバストなビジュアルSLAM

RWT-SLAM: Robust Visual SLAM for Highly Weak-textured Environments ( http://arxiv.org/abs/2207.03539v1 )

ライセンス: Link先を確認
Qihao Peng, Zhiyu Xiang, YuanGang Fan, Tengqi Zhao, Xijun Zhao(参考訳) インテリジェントロボットの基本的なタスクとして、ビジュアルスラムは過去数十年で大きな進歩を遂げてきた。 しかし、高度に弱い環境下での堅牢なSLAMは依然として非常に困難である。 本稿では,この問題を解決するためにRWT-SLAMという新しいビジュアルSLAMシステムを提案する。 低テクスチャ環境下で高密度な点マッチングを生成できるLoFTRネットワークを改良し,特徴記述子を生成する。 新機能を人気のあるorb-slamフレームワークに統合するために,信頼性の低い機能をフィルタする機能マスクを開発し,nn戦略を用いて適合性を強化する。 また,効率的なループ閉鎖のための新しいディスクリプタ上での視覚語彙の再訓練を行った。 結果のRWT-SLAMは、TUMやOpenLORISといったさまざまな公開データセットや、当社のデータでテストされます。 その結果, 弱環境下での有望な性能が得られた。

As a fundamental task for intelligent robots, visual SLAM has made great progress over the past decades. However, robust SLAM under highly weak-textured environments still remains very challenging. In this paper, we propose a novel visual SLAM system named RWT-SLAM to tackle this problem. We modify LoFTR network which is able to produce dense point matching under low-textured scenes to generate feature descriptors. To integrate the new features into the popular ORB-SLAM framework, we develop feature masks to filter out the unreliable features and employ KNN strategy to strengthen the matching robustness. We also retrained visual vocabulary upon new descriptors for efficient loop closing. The resulting RWT-SLAM is tested in various public datasets such as TUM and OpenLORIS, as well as our own data. The results shows very promising performance under highly weak-textured environments.
翻訳日:2022-07-11 13:40:25 公開日:2022-07-07
# RGB熱塩性物体検出のためのミラー補間変圧器ネットワーク

Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection ( http://arxiv.org/abs/2207.03558v1 )

ライセンス: Link先を確認
Xiurong Jiang, Lin Zhu, Yifan Hou, Hui Tian(参考訳) RGB-thermal Salient Object Detection (RGB-T SOD) は、配向した可視光と熱赤外画像対の一般的な顕著なオブジェクトを特定し、それらのオブジェクトに属するすべてのピクセルを正確に分割することを目的としている。 熱画像の照明条件に敏感なため、夜間や複雑な背景などの挑戦的な場面では有望である。 したがって、RGB-T SODの鍵となる問題は、極端光条件や熱クロスオーバーといった難題により、RGB-T画像対の任意のモダリティが失敗することは避けられないため、2つのモードの特徴を相補し、互いに柔軟に調整することである。 本稿では,RGB-T SODのためのミラー補完トランスフォーマネットワーク(MCNet)を提案する。 具体的には,RGBと熱画像の階層的特徴を効果的に抽出するTransformerベースの特徴抽出モジュールを提案する。 そして,注目に基づく特徴相互作用とシリアルマルチスケール拡張畳み込み(SDC)に基づく特徴融合モジュールを用いて,低レベル特徴の相補的相互作用と深い特徴のセマンティック融合を実現する。 最後に、ミラー相補構造に基づいて、2つのモダリティの突出領域を1つのモダリティであっても正確に抽出することができる。 実世界の挑戦的な状況下で提案したモデルのロバスト性を実証するため,自律走行領域で使用される大規模公開セマンティックセグメンテーションRGB-Tデータセットに基づいて,新しいRGB-T SODデータセットVT723を構築した。 ベンチマークおよびvt723データセットにおける高価な実験は、提案手法がcnnおよびtransformerベースの手法を含む最先端のアプローチよりも優れていることを示している。 コードとデータセットは後にhttps://github.com/jxr326/SwinMCNetでリリースされる。

RGB-thermal salient object detection (RGB-T SOD) aims to locate the common prominent objects of an aligned visible and thermal infrared image pair and accurately segment all the pixels belonging to those objects. It is promising in challenging scenes such as nighttime and complex backgrounds due to the insensitivity to lighting conditions of thermal images. Thus, the key problem of RGB-T SOD is to make the features from the two modalities complement and adjust each other flexibly, since it is inevitable that any modalities of RGB-T image pairs failure due to challenging scenes such as extreme light conditions and thermal crossover. In this paper, we propose a novel mirror complementary Transformer network (MCNet) for RGB-T SOD. Specifically, we introduce a Transformer-based feature extraction module to effective extract hierarchical features of RGB and thermal images. Then, through the attention-based feature interaction and serial multiscale dilated convolution (SDC) based feature fusion modules, the proposed model achieves the complementary interaction of low-level features and the semantic fusion of deep features. Finally, based on the mirror complementary structure, the salient regions of the two modalities can be accurately extracted even one modality is invalid. To demonstrate the robustness of the proposed model under challenging scenes in real world, we build a novel RGB-T SOD dataset VT723 based on a large public semantic segmentation RGB-T dataset used in the autonomous driving domain. Expensive experiments on benchmark and VT723 datasets show that the proposed method outperforms state-of-the-art approaches, including CNN-based and Transformer-based methods. The code and dataset will be released later at https://github.com/jxr326/SwinMCNet.
翻訳日:2022-07-11 13:40:12 公開日:2022-07-07
# GaitTake: 一時的注意による歩行認識 : キーポイント誘導型埋め込み

GaitTAKE: Gait Recognition by Temporal Attention \\and Keypoint-guided Embedding ( http://arxiv.org/abs/2207.03608v1 )

ライセンス: Link先を確認
Hung-Min Hsu, Yizhou Wang, Cheng-Yen Yang, Jenq-Neng Hwang, Hoang Le Uyen Thuc, Kwang-Ju Kim(参考訳) 遠方から撮影した映像データを基にした体型や歩行スタイルに基づく人物の認識・識別をいう歩行認識は、犯罪防止、法医学的識別、社会保障に広く用いられている。 しかし, 既存の手法では, 大域的, 局所的情報融合のための学習時間的注意機構を考慮せず, 外観, 姿勢, 時間的効果を用いることが多い。 本稿では,時間的意識に基づくグローバル・ローカルな外観特徴と時間的集約された人間のポーズ特徴を効果的に融合させる,時間的意識とキーポイント誘導埋め込み(GaitTAKE)と呼ばれる新しい歩行認識フレームワークを提案する。 提案手法は,casia-b gaitデータセットにおいて98.0% (正規), 97.5% (バッグ), 92.2% (コート), ou-mvlp gaitデータセットでは90.4%の精度で, 歩行認識において新たなsotaを実現する。

Gait recognition, which refers to the recognition or identification of a person based on their body shape and walking styles, derived from video data captured from a distance, is widely used in crime prevention, forensic identification, and social security. However, to the best of our knowledge, most of the existing methods use appearance, posture and temporal feautures without considering a learned temporal attention mechanism for global and local information fusion. In this paper, we propose a novel gait recognition framework, called Temporal Attention and Keypoint-guided Embedding (GaitTAKE), which effectively fuses temporal-attention-based global and local appearance feature and temporal aggregated human pose feature. Experimental results show that our proposed method achieves a new SOTA in gait recognition with rank-1 accuracy of 98.0% (normal), 97.5% (bag) and 92.2% (coat) on the CASIA-B gait dataset; 90.4% accuracy on the OU-MVLP gait dataset.
翻訳日:2022-07-11 13:39:39 公開日:2022-07-07
# 2020年代のもっと多くのConvNet:スポーラリティを使って51x51を超えるカーネルをスケールアップ

More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using Sparsity ( http://arxiv.org/abs/2207.03620v1 )

ライセンス: Link先を確認
Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao Xiao, Boqian Wu, Mykola Pechenizkiy, Decebal Mocanu, Zhangyang Wang(参考訳) トランスフォーマーはビジョントランスフォーマー(vits)の出現以来、コンピュータビジョンの世界で急速に輝いている。 畳み込みニューラルネットワーク(CNN)の主要な役割は、より効果的なトランスフォーマーベースのモデルによって挑戦されているようである。 ごく最近、いくつかの先進的な畳み込みモデルが、局所的だが注目度の高いメカニズムによって動機付けられた大きなカーネルに逆戻りし、魅力的な性能と効率を示している。 RepLKNetは、パフォーマンスが向上してカーネルサイズを31x31に拡大するが、Swin Transformerのような先進的なViTのスケーリングトレンドと比較して、カーネルサイズが拡大するにつれてパフォーマンスが飽和し始める。 本稿では,31x31以上の極端畳み込みを訓練し,戦略的に畳み込みを拡大することで,性能ギャップを解消できるかどうかを検討する。 この研究は、スパルシリティの観点から非常に大きなカーネルを適用するためのレシピを導いており、より優れたパフォーマンスで、スムーズにカーネルを61x61にスケールアップすることができる。 そこで本稿では,sparse large kernel network (slak)を提案する。sparse large kernel network (slak)は51x51カーネルを備える純粋なcnnアーキテクチャで,最先端の階層的トランスフォーマーやconvnextやrelknetといった現代的なconvnetアーキテクチャと同等以上のパフォーマンスを実現する。 我々のコードはhttps://github.com/VITA-Group/SLaK.comで入手できる。

Transformers have quickly shined in the computer vision world since the emergence of Vision Transformers (ViTs). The dominant role of convolutional neural networks (CNNs) seems to be challenged by increasingly effective transformer-based models. Very recently, a couple of advanced convolutional models strike back with large kernels motivated by the local but large attention mechanism, showing appealing performance and efficiency. While one of them, i.e. RepLKNet, impressively manages to scale the kernel size to 31x31 with improved performance, the performance starts to saturate as the kernel size continues growing, compared to the scaling trend of advanced ViTs such as Swin Transformer. In this paper, we explore the possibility of training extreme convolutions larger than 31x31 and test whether the performance gap can be eliminated by strategically enlarging convolutions. This study ends up with a recipe for applying extremely large kernels from the perspective of sparsity, which can smoothly scale up kernels to 61x61 with better performance. Built on this recipe, we propose Sparse Large Kernel Network (SLaK), a pure CNN architecture equipped with 51x51 kernels that can perform on par with or better than state-of-the-art hierarchical Transformers and modern ConvNet architectures like ConvNeXt and RepLKNet, on ImageNet classification as well as typical downstream tasks. Our code is available here https://github.com/VITA-Group/SLaK.
翻訳日:2022-07-11 13:39:13 公開日:2022-07-07
# CausalAgents:因果関係を用いた動き予測のためのロバストネスベンチマーク

CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal Relationships ( http://arxiv.org/abs/2207.03586v1 )

ライセンス: Link先を確認
Rebecca Roelofs, Liting Sun, Ben Caine, Khaled S. Refaat, Ben Sapp, Scott Ettinger, Wei Chai(参考訳) 自律走行車(AV)の運動予測システムにおいて機械学習モデルがますます普及するにつれて、モデル予測が安全かつ信頼性があることを保証することが重要である。 しかし、稀で困難なシナリオの長い尾を徹底的にテストするために必要なデータの収集とラベル付けは困難でコストがかかる。 本研究では,既存のデータに摂動を適用することにより,モデルロバスト性の評価と改善のための新しいベンチマークを構築する。 具体的には、Waymo Open Motion Dataset(WOMD)において、人間の運転行動に影響を与える因果的エージェントやエージェントを識別するための広範囲なラベル付けを行い、これらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動させる。 提案するベンチマークで,最先端のディープラーニングモデルアーキテクチャの多種多様な集合を評価した結果,すべてのモデルが摂動下で大きなシフトを示すことがわかった。 非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-38$%である。 次に、トレーニングデータセットサイズの増加や、トレーニング全体を通してエージェントをドロップするターゲットデータ拡張の使用など、モデルの堅牢性を改善するためのテクニックを調査します。 我々は,womdに対する追加属性として因果エージェントラベルを提供し,ロバストネスベンチマークをリリースして,より信頼性の高い,より安全なモーション予測のためのディープラーニングモデルの構築を支援する予定である。

As machine learning models become increasingly prevalent in motion forecasting systems for autonomous vehicles (AVs), it is critical that we ensure that model predictions are safe and reliable. However, exhaustively collecting and labeling the data necessary to fully test the long tail of rare and challenging scenarios is difficult and expensive. In this work, we construct a new benchmark for evaluating and improving model robustness by applying perturbations to existing data. Specifically, we conduct an extensive labeling effort to identify causal agents, or agents whose presence influences human driver behavior in any way, in the Waymo Open Motion Dataset (WOMD), and we use these labels to perturb the data by deleting non-causal agents from the scene. We then evaluate a diverse set of state-of-the-art deep-learning model architectures on our proposed benchmark and find that all models exhibit large shifts under perturbation. Under non-causal perturbations, we observe a $25$-$38\%$ relative change in minADE as compared to the original. We then investigate techniques to improve model robustness, including increasing the training dataset size and using targeted data augmentations that drop agents throughout training. We plan to provide the causal agent labels as an additional attribute to WOMD and release the robustness benchmarks to aid the community in building more reliable and safe deep-learning models for motion forecasting.
翻訳日:2022-07-11 13:33:17 公開日:2022-07-07
# 社会学的ニューラルネットワークによるオピニオンダイナミクスの予測

Predicting Opinion Dynamics via Sociologically-Informed Neural Networks ( http://arxiv.org/abs/2207.03990v1 )

ライセンス: Link先を確認
Maya Okawa and Tomoharu Iwata(参考訳) 意見形成と伝播は、ソーシャルネットワークにおいて重要な現象であり、いくつかの分野にわたって広く研究されてきた。 伝統的に、個人間の相互作用(すなわち社会的相互作用)とその集団的意見の進化への影響を記述するために、意見力学の理論モデルが提案されている。 これらのモデルは社会学的、心理的な知識を社会的相互作用のメカニズムに組み込むことができるが、彼らは信頼できる予測を行うために実データによる広範な校正を要求し、多くの時間と労力を必要としている。 近年,ソーシャルメディアプラットフォームの普及は,大量のソーシャルメディアデータからディープラーニングモデルを学習するための新たなパラダイムを提供する。 しかし、これらの手法は社会的相互作用のメカニズムに関する科学的知識を無視する。 本研究では,自然科学(物理学)から社会科学(社会学・社会心理学)へ物理情報ニューラルネットワーク(PINN)の概念を伝達することにより,理論モデルとソーシャルメディアデータを統合する,社会学的情報ニューラルネットワーク(SINN)と呼ばれる最初のハイブリッド手法を提案する。 特に、理論モデルを常微分方程式(ODE)として再送する。 そして、データを同時に近似し、社会科学的知識を表すODEに適合するニューラルネットワークを訓練する。 さらに,行列分解と言語モデルを統合し,リッチな側情報(ユーザプロファイルなど)と構造的知識(例えば,ソーシャルインタラクションネットワークのクラスタ構造)を統合することで,PINNを拡張した。 さらに,社会的相互作用の確率的機構を含むGumbel-Softmax近似を含むSINNのエンドツーエンドトレーニング手法を開発した。 現実世界と合成データセットに関する広範囲な実験により、sinnは6つのベースラインメソッドを上回っており、意見のダイナミクスを予測する。

Opinion formation and propagation are crucial phenomena in social networks and have been extensively studied across several disciplines. Traditionally, theoretical models of opinion dynamics have been proposed to describe the interactions between individuals (i.e., social interaction) and their impact on the evolution of collective opinions. Although these models can incorporate sociological and psychological knowledge on the mechanisms of social interaction, they demand extensive calibration with real data to make reliable predictions, requiring much time and effort. Recently, the widespread use of social media platforms provides new paradigms to learn deep learning models from a large volume of social media data. However, these methods ignore any scientific knowledge about the mechanism of social interaction. In this work, we present the first hybrid method called Sociologically-Informed Neural Network (SINN), which integrates theoretical models and social media data by transporting the concepts of physics-informed neural networks (PINNs) from natural science (i.e., physics) into social science (i.e., sociology and social psychology). In particular, we recast theoretical models as ordinary differential equations (ODEs). Then we train a neural network that simultaneously approximates the data and conforms to the ODEs that represent the social scientific knowledge. In addition, we extend PINNs by integrating matrix factorization and a language model to incorporate rich side information (e.g., user profiles) and structural knowledge (e.g., cluster structure of the social interaction network). Moreover, we develop an end-to-end training procedure for SINN, which involves Gumbel-Softmax approximation to include stochastic mechanisms of social interaction. Extensive experiments on real-world and synthetic datasets show SINN outperforms six baseline methods in predicting opinion dynamics.
翻訳日:2022-07-11 13:30:26 公開日:2022-07-07
# 重み付きCTスキャンにおける深層学習による相似的不安定性検出の高精度化

The use of deep learning enables high diagnostic accuracy in detecting syndesmotic instability on weight-bearing CT scanning ( http://arxiv.org/abs/2207.03568v1 )

ライセンス: Link先を確認
Alireza Borjali, Soheil Ashkani-Esfahani, Rohan Bhimani, Daniel Guss, Orhun K. Muratoglu, Christopher W. DiGiovanni, Kartik Mangudi Varadarajan, Bart Lubberts(参考訳) 遅発性滑膜不安定症の診断は, 足関節の著明な致死性と関節突起変化の促進につながる可能性がある。 Weight-bearing Computed Tomography (WBCT) は, 3次元体積測定を用いて, 早期かつ確実な合成不安定性検出の可能性を示した。 これらの測定は、非常に正確であると報告されているが、経験に依存し、時間がかかり、また、臨床医が従来のシナデミック不安定症の診断方法にもっと興味を示すために、特定の3D計測ソフトウェアツールが必要である。 本研究の目的は, wbctスキャンを用いた合成解剖の3次元体積評価を自動化し, 精度の向上, 解析時間の短縮, オブザーバ間バイアスの低減を目的とした。 片側性交感神経不安定症患者のWBCTスキャンを用いて, 振り返り調査を行った。 144例の両側足首WBCT検査(48例,96例)を施行した。 wbctスキャンを分析するための3つの深層学習モデルを開発した。 これら3つのモデルには、2つの最先端モデル(モデル13D畳み込みニューラルネットワーク(CNN)と、長い短期記憶(LSTM)を備えたモデル2 - CNN)と、本研究で導入された新しいモデル(モデル3 - 微分CNN LSTM)が含まれていた。 Model 1はWBCTスキャンの分析に失敗した(F1-score = 0)。 モデル2は2つのケース(f1-score = 0.80)のみを誤分類した。 モデル3はモデル2より優れ、ほぼ完全な性能を達成し、モデル2よりも高速でありながら制御グループ内の1つのケース(F1-score = 0.91)のみを不安定と誤分類した。

Delayed diagnosis of syndesmosis instability can lead to significant morbidity and accelerated arthritic change in the ankle joint. Weight-bearing computed tomography (WBCT) has shown promising potential for early and reliable detection of isolated syndesmotic instability using 3D volumetric measurements. While these measurements have been reported to be highly accurate, they are also experience-dependent, time-consuming, and need a particular 3D measurement software tool that leads the clinicians to still show more interest in the conventional diagnostic methods for syndesmotic instability. The purpose of this study was to increase accuracy, accelerate analysis time, and reduce inter-observer bias by automating 3D volume assessment of syndesmosis anatomy using WBCT scans. We conducted a retrospective study using previously collected WBCT scans of patients with unilateral syndesmotic instability. 144 bilateral ankle WBCT scans were evaluated (48 unstable, 96 control). We developed three deep learning (DL) models for analyzing WBCT scans to recognize syndesmosis instability. These three models included two state-of-the-art models (Model 1 - 3D convolutional neural network [CNN], and Model 2 - CNN with long short-term memory [LSTM]), and a new model (Model 3 - differential CNN LSTM) that we introduced in this study. Model 1 failed to analyze the WBCT scans (F1-score = 0). Model 2 only misclassified two cases (F1-score = 0.80). Model 3 outperformed Model 2 and achieved a nearly perfect performance, misclassifying only one case (F1-score = 0.91) in the control group as unstable while being faster than Model 2.
翻訳日:2022-07-11 13:29:21 公開日:2022-07-07
# 自己教師付き学習への埋め込み動的アプローチ

An Embedding-Dynamic Approach to Self-supervised Learning ( http://arxiv.org/abs/2207.03552v1 )

ライセンス: Link先を確認
Suhong Moon, Domas Buracas, Seunghyun Park, Jinkyu Kim, John Canny(参考訳) 近年,画像分類などのタスクにおいて,自己指導型学習手法が目覚ましい性能を示した。 様々なテクニックが使われており、特に組み合わせて使う場合、必ずしもその利点の理由を明確に理解しているわけではない。 ここでは,画像の埋め込みを点粒子として扱い,モデル最適化を粒子系の動的過程として考える。 我々の動的モデルは、類似した画像に対する魅力的な力、局所的な崩壊を避けるための局所的な分散力、粒子のグローバルな均質分布を達成するための大域的な分散力を組み合わせた。 ダイナミックな視点は、同じ画像の複数のビューとともに遅延パラメータ画像埋め込み(la BYOL)を使用することの利点を強調している。 また、純粋にダイナミックな局所分散力(ブラウン運動)を使い、他の方法よりも優れた性能を示し、他の粒子座標の知識を必要としない。 このメソッドはMSBRegと呼ばれ、 (i)多視点の遠心損失は、異なる画像の埋め込みを遠心に向けて引き出す魅力的な力を与える。 (ii) 粒子系を空間的に均一な密度へ押し上げる特異値損失。 (iii)ブラウン拡散損失。 我々は,imagenetにおけるmsbregの下流分類性能や,細粒度分類,多クラスオブジェクト分類,オブジェクト検出,インスタンス分割といった転送学習タスクを評価する。 また,他の手法に正規化項を適用することで,モード崩壊を防止し,その性能を向上し,トレーニングを安定させることを示す。

A number of recent self-supervised learning methods have shown impressive performance on image classification and other tasks. A somewhat bewildering variety of techniques have been used, not always with a clear understanding of the reasons for their benefits, especially when used in combination. Here we treat the embeddings of images as point particles and consider model optimization as a dynamic process on this system of particles. Our dynamic model combines an attractive force for similar images, a locally dispersive force to avoid local collapse, and a global dispersive force to achieve a globally-homogeneous distribution of particles. The dynamic perspective highlights the advantage of using a delayed-parameter image embedding (a la BYOL) together with multiple views of the same image. It also uses a purely-dynamic local dispersive force (Brownian motion) that shows improved performance over other methods and does not require knowledge of other particle coordinates. The method is called MSBReg which stands for (i) a Multiview centroid loss, which applies an attractive force to pull different image view embeddings toward their centroid, (ii) a Singular value loss, which pushes the particle system toward spatially homogeneous density, (iii) a Brownian diffusive loss. We evaluate downstream classification performance of MSBReg on ImageNet as well as transfer learning tasks including fine-grained classification, multi-class object classification, object detection, and instance segmentation. In addition, we also show that applying our regularization term to other methods further improves their performance and stabilize the training by preventing a mode collapse.
翻訳日:2022-07-11 13:11:40 公開日:2022-07-07
# PoseGU:新しい人文生成器と不偏学習による3次元人文推定

PoseGU: 3D Human Pose Estimation with Novel Human Pose Generator and Unbiased Learning ( http://arxiv.org/abs/2207.03618v1 )

ライセンス: Link先を確認
Shannan Guan, Haiyan Lu, Linchao Zhu, Gengfa Fang(参考訳) 3Dポーズ推定は近年,コンピュータビジョン領域において大きな関心を集めている。 既存の3Dポーズ推定手法は,大規模な3Dポーズデータセットに強く依存しており,トレーニングセットにおける3Dポーズの多様性が限定されているため,目に見えないポーズのモデル一般化に苦慮している。 本研究では,多種多様なポーズを生成する新規な人造ポーズ生成装置PoseGUを提案し,非バイアス評価の目的を追求するために,対人リスク最小化(Counterfactual Risk Minimization)を取り入れた。 大規模な実験により、PoseGUは3つの人気のあるベンチマークデータセットを考慮に入れた最先端の3D人間のポーズ手法のほぼ全てを上回ります。 実証分析により、PoseGUはデータの多様性を改善し、一般化能力を向上した3Dポーズを生成する。

3D pose estimation has recently gained substantial interests in computer vision domain. Existing 3D pose estimation methods have a strong reliance on large size well-annotated 3D pose datasets, and they suffer poor model generalization on unseen poses due to limited diversity of 3D poses in training sets. In this work, we propose PoseGU, a novel human pose generator that generates diverse poses with access only to a small size of seed samples, while equipping the Counterfactual Risk Minimization to pursue an unbiased evaluation objective. Extensive experiments demonstrate PoseGU outforms almost all the state-of-the-art 3D human pose methods under consideration over three popular benchmark datasets. Empirical analysis also proves PoseGU generates 3D poses with improved data diversity and better generalization ability.
翻訳日:2022-07-11 13:11:18 公開日:2022-07-07
# TF-GNN:TensorFlowのグラフニューラルネットワーク

TF-GNN: Graph Neural Networks in TensorFlow ( http://arxiv.org/abs/2207.03522v1 )

ライセンス: Link先を確認
Oleksandr Ferludin, Arno Eigenwillig, Martin Blais, Dustin Zelle, Jan Pfeifer, Alvaro Sanchez-Gonzalez, Sibon Li, Sami Abu-El-Haija, Peter Battaglia, Neslihan Bulut, Jonathan Halcrow, Filipe Miguel Gon\c{c}alves de Almeida, Silvio Lattanzi, Andr\'e Linhares, Brandon Mayer, Vahab Mirrokni, John Palowitch, Mihir Paradkar, Jennifer She, Anton Tsitsulin, Kevin Villela, Lisa Wang, David Wong, Bryan Perozzi(参考訳) TensorFlow GNN(TF-GNN)は、TensorFlowのグラフニューラルネットワークのためのスケーラブルなライブラリである。 これは、今日の情報エコシステムで発生する豊富な異種グラフデータの種類をサポートするために、下から設計されている。 Googleの多くのプロダクションモデルはTF-GNNを使用しており、最近オープンソースプロジェクトとしてリリースされた。 本稿では,tf-gnnデータモデル,kerasモデリングapi,グラフサンプリング,分散トレーニング,アクセラレーションサポートなどの関連機能について述べる。

TensorFlow GNN (TF-GNN) is a scalable library for Graph Neural Networks in TensorFlow. It is designed from the bottom up to support the kinds of rich heterogeneous graph data that occurs in today's information ecosystems. Many production models at Google use TF-GNN and it has been recently released as an open source project. In this paper, we describe the TF-GNN data model, its Keras modeling API, and relevant capabilities such as graph sampling, distributed training, and accelerator support.
翻訳日:2022-07-11 12:46:46 公開日:2022-07-07
# ひとつは、複数のユーザによる同時計測と選好学習

One for All: Simultaneous Metric and Preference Learning over Multiple Users ( http://arxiv.org/abs/2207.03609v1 )

ライセンス: Link先を確認
Gregory Canal, Blake Mason, Ramya Korlakai Vinayak, Robert Nowak(参考訳) 本稿では,参加者の集団による同時選好とメトリクス学習について検討する。 $d$-dimensional 特徴ベクトルで表される項目のセットと ``item $i$' という形式のペア比較は、各ユーザが作成した$j$' よりも好まれる。 本モデルでは,各ユーザの嗜好を反映した潜在理想点とともに,観客の商品類似度に関する一般測度を特徴付ける距離メトリックを共同で学習する。 このモデルは、個々の好みをキャプチャする柔軟性を持ち、群衆に償却されるメトリック学習サンプルコストを享受する。 学習の基本的な限界を理解するために,まず,ノイズのない連続的な応答設定(すなわち,項目距離の差と等しい応答)でこの問題を研究する。 次に, 騒音に対する予測誤差の保証を確立するとともに, 基礎となる指標が低ランクである場合に, サンプルの複雑さがいかに改善するかを示す。 最後に,応答分布の仮定に基づいて回復保証を確立する。 本研究では,シミュレーションデータと色選好判断のデータセットの両方において,多数のユーザを対象としたモデルの性能を示す。

This paper investigates simultaneous preference and metric learning from a crowd of respondents. A set of items represented by $d$-dimensional feature vectors and paired comparisons of the form ``item $i$ is preferable to item $j$'' made by each user is given. Our model jointly learns a distance metric that characterizes the crowd's general measure of item similarities along with a latent ideal point for each user reflecting their individual preferences. This model has the flexibility to capture individual preferences, while enjoying a metric learning sample cost that is amortized over the crowd. We first study this problem in a noiseless, continuous response setting (i.e., responses equal to differences of item distances) to understand the fundamental limits of learning. Next, we establish prediction error guarantees for noisy, binary measurements such as may be collected from human respondents, and show how the sample complexity improves when the underlying metric is low-rank. Finally, we establish recovery guarantees under assumptions on the response distribution. We demonstrate the performance of our model on both simulated data and on a dataset of color preference judgements across a large number of users.
翻訳日:2022-07-11 12:46:38 公開日:2022-07-07
# (参考訳) リーマン拡散シュル=オディンガー橋

Riemannian Diffusion Schr\"odinger Bridge ( http://arxiv.org/abs/2207.03024v1 )

ライセンス: CC BY 4.0
James Thornton, Michael Hutchinson, Emile Mathieu, Valentin De Bortoli, Yee Whye Teh, Arnaud Doucet(参考訳) スコアベース生成モデルは密度推定および生成モデリングタスクにおける技術性能の状態を示す。 これらのモデルは一般にデータ幾何が平坦であると仮定するが、最近の拡張はリーマン多様体上のデータを合成するために開発されている。 拡散モデルのサンプリングを加速する既存の方法はリーマン設定では一般的に適用されず、リーマンスコアベースの手法はデータセットの補間の重要なタスクにまだ適用されていない。 これらの問題を克服するために、我々は 'emph{Riemannian Diffusion Schr\"odinger Bridge} を紹介する。 提案手法は,Diffusion Schr\"odinger Bridgeを非ユークリッド的な設定に一般化し,リーマンの楽譜に基づくモデルを初めて逆転を超えて拡張する。 提案手法は, 合成データと実際の地球・気候データについて検証する。

Score-based generative models exhibit state of the art performance on density estimation and generative modeling tasks. These models typically assume that the data geometry is flat, yet recent extensions have been developed to synthesize data living on Riemannian manifolds. Existing methods to accelerate sampling of diffusion models are typically not applicable in the Riemannian setting and Riemannian score-based methods have not yet been adapted to the important task of interpolation of datasets. To overcome these issues, we introduce \emph{Riemannian Diffusion Schr\"odinger Bridge}. Our proposed method generalizes Diffusion Schr\"odinger Bridge introduced in \cite{debortoli2021neurips} to the non-Euclidean setting and extends Riemannian score-based models beyond the first time reversal. We validate our proposed method on synthetic data and real Earth and climate data.
翻訳日:2022-07-09 04:43:32 公開日:2022-07-07
# (参考訳) fedhen: ヘテロジニアスネットワークにおける連合学習

FedHeN: Federated Learning in Heterogeneous Networks ( http://arxiv.org/abs/2207.03031v1 )

ライセンス: CC BY 4.0
Durmus Alp Emre Acar, Venkatesh Saligrama(参考訳) 本稿では,各デバイスが異なるアーキテクチャを持つヘテロジニアスネットワークによるフェデレーション学習のための新しいトレーニングレシピを提案する。 我々は,高次複雑度デバイスを対象とするトレーニングを導入し,連合環境で異なるアーキテクチャを共同で訓練する。 提案手法は異なるアーキテクチャの性能を向上し、最先端の手法と比較して高い通信節約につながることを実証的に示す。

We propose a novel training recipe for federated learning with heterogeneous networks where each device can have different architectures. We introduce training with a side objective to the devices of higher complexities to jointly train different architectures in a federated setting. We empirically show that our approach improves the performance of different architectures and leads to high communication savings compared to the state-of-the-art methods.
翻訳日:2022-07-09 04:34:13 公開日:2022-07-07
# (参考訳) 金融感情分析のためのbertおよびgpt-2のトランスファーニューラルアーキテクチャの感度解析

Sensitivity Analysis on Transferred Neural Architectures of BERT and GPT-2 for Financial Sentiment Analysis ( http://arxiv.org/abs/2207.03037v1 )

ライセンス: CC BY 4.0
Tracy Qian, Andy Xie, Camille Bruckmann(参考訳) 新たなnlpワード埋め込みとディープラーニング技術の爆発は、潜在的な応用に多大な貢献をもたらした。 これらの方向の1つは金融セクターにある。 GPTやBERTのような最先端のモデルでは多くの作業が行われているが、これらの手法が事前トレーニング後の微調整によってどのように機能するか、パラメータがどれほど敏感であるかに関する情報は比較的少ない。 事前学習したgpt-2およびbertモデルを用いたトランスファーニューラルアーキテクチャの性能と感度について検討した。 冷凍変圧器層,バッチサイズ,学習率に基づいて微調整性能を検証した。 BERTのパラメータは微調整において確率性に過敏であり, GPT-2はより安定である。 また, GPT-2 と BERT の初期レイヤには,維持すべき必須ワードパターン情報が含まれていることも明らかである。

The explosion in novel NLP word embedding and deep learning techniques has induced significant endeavors into potential applications. One of these directions is in the financial sector. Although there is a lot of work done in state-of-the-art models like GPT and BERT, there are relatively few works on how well these methods perform through fine-tuning after being pre-trained, as well as info on how sensitive their parameters are. We investigate the performance and sensitivity of transferred neural architectures from pre-trained GPT-2 and BERT models. We test the fine-tuning performance based on freezing transformer layers, batch size, and learning rate. We find the parameters of BERT are hypersensitive to stochasticity in fine-tuning and that GPT-2 is more stable in such practice. It is also clear that the earlier layers of GPT-2 and BERT contain essential word pattern information that should be maintained.
翻訳日:2022-07-09 04:22:51 公開日:2022-07-07
# (参考訳) 視覚トランスフォーマー:最先端の技術と研究課題

Vision Transformers: State of the Art and Research Challenges ( http://arxiv.org/abs/2207.03041v1 )

ライセンス: CC BY-SA 4.0
Bo-Kai Ruan, Hong-Han Shuai, Wen-Huang Cheng(参考訳) トランスフォーマーは自然言語処理で大きな成功を収めた。 トランスにおける自己認識機構の強力な能力のため、画像認識、オブジェクト検出、画像セグメント化、ポーズ推定、三次元再構成など、様々なコンピュータビジョンタスクのための視覚変換器を開発した。 本稿では,視覚トランスフォーマーの異なるアーキテクチャ設計と訓練(自己教師あり学習を含む)に関する文献を総合的に概観する。 我々の目標は、オープンな研究機会を体系的にレビューすることです。

Transformers have achieved great success in natural language processing. Due to the powerful capability of self-attention mechanism in transformers, researchers develop the vision transformers for a variety of computer vision tasks, such as image recognition, object detection, image segmentation, pose estimation, and 3D reconstruction. This paper presents a comprehensive overview of the literature on different architecture designs and training tricks (including self-supervised learning) for vision transformers. Our goal is to provide a systematic review with the open research opportunities.
翻訳日:2022-07-09 04:18:31 公開日:2022-07-07
# (参考訳) 深層学習を用いたNextG信号分類のための自己教師付きRF信号表現学習

Self-Supervised RF Signal Representation Learning for NextG Signal Classification with Deep Learning ( http://arxiv.org/abs/2207.03046v1 )

ライセンス: CC BY 4.0
Kemal Davaslioglu, Serdar Boztas, Mehmet Can Ertem, Yalin E. Sagduyu, Ender Ayanoglu(参考訳) ディープ・ラーニング(DL)は、スペクトル認識を改善するために無線領域に豊富な応用を見出す。 通常、dlモデルは統計的分布に従ってランダムに初期化されるか、無線信号のユニークな特性を考慮せずにコンピュータビジョン(転送学習の形で)などの他のデータ領域のタスクに事前学習される。 自己教師付き学習は、ラベル付き限られたトレーニングデータサンプルのみが利用可能であっても、無線周波数(RF)信号から有用な表現を学習することができる。 本稿では,第1次自己教師付きrf信号表現学習モデルを提案し,無線信号特性をキャプチャする変換のセットを具体的に定式化し,自動変調認識(amr)タスクに適用する。 自己教師付き学習で信号表現を学習することで,amrのサンプル効率(一定の精度を達成するのに必要なラベル付きサンプル数)を大幅に向上できることを示した。 これは相当な時間とコスト削減を意味する。 さらに、自己教師付き学習は、最先端dl法に比べてモデルの精度を高め、少量のトレーニングデータサンプルを使用しても高い精度を維持する。

Deep learning (DL) finds rich applications in the wireless domain to improve spectrum awareness. Typically, the DL models are either randomly initialized following a statistical distribution or pretrained on tasks from other data domains such as computer vision (in the form of transfer learning) without accounting for the unique characteristics of wireless signals. Self-supervised learning enables the learning of useful representations from Radio Frequency (RF) signals themselves even when only limited training data samples with labels are available. We present the first self-supervised RF signal representation learning model and apply it to the automatic modulation recognition (AMR) task by specifically formulating a set of transformations to capture the wireless signal characteristics. We show that the sample efficiency (the number of labeled samples required to achieve a certain accuracy performance) of AMR can be significantly increased (almost an order of magnitude) by learning signal representations with self-supervised learning. This translates to substantial time and cost savings. Furthermore, self-supervised learning increases the model accuracy compared to the state-of-the-art DL methods and maintains high accuracy even when a small set of training data samples is used.
翻訳日:2022-07-09 04:01:21 公開日:2022-07-07
# (参考訳) 逆問題計算を追跡するデフォーカスマップ予測の統合による単一画像デフォーカスデブラリング

Single-image Defocus Deblurring by Integration of Defocus Map Prediction Tracing the Inverse Problem Computation ( http://arxiv.org/abs/2207.03047v1 )

ライセンス: CC BY 4.0
Qian Ye, Masanori Suganuma, Takayuki Okatani(参考訳) 本稿では,デフォーカス画像の劣化問題について考察する。 従来の古典的手法は、2段階のアプローチ、すなわち、最初のデフォーカス写像推定と非盲点分解に従う。 ディープラーニングの時代、CNNによってこれらの2つの問題に対処しようとする研究者もいる。 しかし、ぼやけレベルを表すデフォーカス写像の単純な連結化は、準最適性能をもたらす。 ここでは,デフォーカスブラーの空間的変動特性とデフォーカスマップに示されるブラーレベルを考慮し,デフォーカスマップを条件付きガイダンスとして使用し,簡単な結合ではなく入力ブラー画像から特徴を調整する。 次に,デフォーカスマップに基づく空間変調を用いた簡易かつ効果的なネットワークを提案する。 これを実現するために,デフォーカスマップ推定ネットワーク,デフォーカスマップをコンディション特徴にエンコードするコンディションネットワーク,条件特徴に基づいて空間的動的変調を行うデフォーカスデブラリングネットワークの3つのサブネットワークからなるネットワークを設計する。 さらに、空間的動的変調はアフィン変換関数に基づいて入力されたぼやけた画像から特徴を調整する。 実験の結果, 一般の公開テストデータセットにおいて, 既存の最先端手法よりも定量的, 質的評価性能が向上することが判明した。

In this paper, we consider the problem in defocus image deblurring. Previous classical methods follow two-steps approaches, i.e., first defocus map estimation and then the non-blind deblurring. In the era of deep learning, some researchers have tried to address these two problems by CNN. However, the simple concatenation of defocus map, which represents the blur level, leads to suboptimal performance. Considering the spatial variant property of the defocus blur and the blur level indicated in the defocus map, we employ the defocus map as conditional guidance to adjust the features from the input blurring images instead of simple concatenation. Then we propose a simple but effective network with spatial modulation based on the defocus map. To achieve this, we design a network consisting of three sub-networks, including the defocus map estimation network, a condition network that encodes the defocus map into condition features, and the defocus deblurring network that performs spatially dynamic modulation based on the condition features. Moreover, the spatially dynamic modulation is based on an affine transform function to adjust the features from the input blurry images. Experimental results show that our method can achieve better quantitative and qualitative evaluation performance than the existing state-of-the-art methods on the commonly used public test datasets.
翻訳日:2022-07-09 03:51:31 公開日:2022-07-07
# (参考訳) ビデオSAR移動目標影強調のための疎低域ガウス特性を用いた影背景雑音3次元空間分解

Shadow-Background-Noise 3D Spatial Decomposition Using Sparse Low-Rank Gaussian Properties for Video-SAR Moving Target Shadow Enhancement ( http://arxiv.org/abs/2207.03064v1 )

ライセンス: CC BY 4.0
Tianwen Zhang, Xiaoling Zhang, Zhenyu Yang, Xu Zhan, and Jinyu Bao(参考訳) ビデオ合成開口レーダ(video-sar)画像中の移動ターゲットシャドウは常に低散乱背景とノイズが干渉し、移動ターゲットシャドウ検出追跡性能が低下する。 この問題を解決するために,sbn-3d-sdと呼ばれるシャドウバックグラウンドノイズ3次元空間デコンポジション法を提案し,シャドウサリエンシーを高め,ビデオサーの移動目標シャドウ検出追跡性能を向上させる。

Moving target shadows among video synthetic aperture radar (Video-SAR) images are always interfered by low scattering backgrounds and cluttered noises, causing poor moving target shadow detection-tracking performance. To solve this problem, this letter proposes a shadow-background-noise 3D spatial de-composition method named SBN-3D-SD to boost shadow saliency for better Video-SAR moving target shadow detection-tracking performance.
翻訳日:2022-07-09 03:38:59 公開日:2022-07-07
# (参考訳) 医学領域における連合学習の実用化に向けて

Towards the Practical Utility of Federated Learning in the Medical Domain ( http://arxiv.org/abs/2207.03075v1 )

ライセンス: CC BY 4.0
Seongjun Yang, Hyeonji Hwang, Daeyoung Kim, Radhika Dua, Jong-Yeup Kim, Eunho Yang, Edward Choi(参考訳) 連合学習 (federated learning, fl) は活発な研究分野である。 FLを採用するのに最も適した分野の1つは、患者のプライバシーを尊重しなければならない医療領域である。 しかし、これまでの研究では、誰が医療分野でFLを使う可能性が高いのか、完全には検討されていない。 flの採用を熱望する病院ではなく、実際の患者記録を持つ機械学習モデルを開発したいit企業のようなサービスプロバイダである。 さらに、サービスプロバイダは、可能な限り低いコストでモデルの性能を最大化することに重点を置いている。 本研究では,電子カルテ,皮膚がん画像,心電図データセットの3つの実世界のデータセットを用いて,パフォーマンスと金銭的コストを考慮したFL手法の実証的ベンチマークを提案する。 また、FedProxとFedBNの単純な組み合わせを用いて、最も電力効率のよい手法よりもわずかに多くの電力を消費しながら、他のFLアルゴリズムよりも優れるフェデレーション学習eXcept局所正規化(FedPxN)を提案する。

Federated learning (FL) is an active area of research. One of the most suitable areas for adopting FL is the medical domain, where patient privacy must be respected. Previous research, however, does not fully consider who will most likely use FL in the medical domain. It is not the hospitals who are eager to adopt FL, but the service providers such as IT companies who want to develop machine learning models with real patient records. Moreover, service providers would prefer to focus on maximizing the performance of the models at the lowest cost possible. In this work, we propose empirical benchmarks of FL methods considering both performance and monetary cost with three real-world datasets: electronic health records, skin cancer images, and electrocardiogram datasets. We also propose Federated learning with Proximal regularization eXcept local Normalization (FedPxN), which, using a simple combination of FedProx and FedBN, outperforms all other FL algorithms while consuming only slightly more power than the most power efficient method.
翻訳日:2022-07-09 03:28:14 公開日:2022-07-07
# (参考訳) 肺切片の自動再建に何をもたらすか

What Makes for Automatic Reconstruction of Pulmonary Segments ( http://arxiv.org/abs/2207.03078v1 )

ライセンス: CC BY 4.0
Kaiming Kuang, Li Zhang, Jingyu Li, Hongwei Li, Jiajun Chen, Bo Du, Jiancheng Yang(参考訳) 肺の3次元再構築は肺癌の外科的治療計画において重要な役割を担っており,肺機能の維持と再発率の低下に寄与する。 しかし, 深層学習期には, 肺部分の自動再建は行われていない。 本稿では,肺セグメントの自動再建に何をもたらすかを検討する。 まず第一に, 臨床的, 幾何学的に肺分節の解剖学的定義を定式化し, これらの定義に固執する評価指標を提案する。 第2に,肺部分再建のための深部暗黙的表面モデルであるimpact (implicit pulmonary segment)を提案する。 ImPulSeによる肺部分の自動再建は、測定値と視覚的にも正確である。 標準セグメンテーション法と比較して、ImPulSeは訓練効率が高くパラメータが少ない任意の解像度の連続予測を出力する。 最後に,肺セグメント再建作業における課題を分析するために,異なるネットワーク入力を用いて実験を行った。 私たちのコードはhttps://github.com/M3DV/ImPulSeで利用可能です。

3D reconstruction of pulmonary segments plays an important role in surgical treatment planning of lung cancer, which facilitates preservation of pulmonary function and helps ensure low recurrence rates. However, automatic reconstruction of pulmonary segments remains unexplored in the era of deep learning. In this paper, we investigate what makes for automatic reconstruction of pulmonary segments. First and foremost, we formulate, clinically and geometrically, the anatomical definitions of pulmonary segments, and propose evaluation metrics adhering to these definitions. Second, we propose ImPulSe (Implicit Pulmonary Segment), a deep implicit surface model designed for pulmonary segment reconstruction. The automatic reconstruction of pulmonary segments by ImPulSe is accurate in metrics and visually appealing. Compared with canonical segmentation methods, ImPulSe outputs continuous predictions of arbitrary resolutions with higher training efficiency and fewer parameters. Lastly, we experiment with different network inputs to analyze what matters in the task of pulmonary segment reconstruction. Our code is available at https://github.com/M3DV/ImPulSe.
翻訳日:2022-07-09 03:11:38 公開日:2022-07-07
# (参考訳) 手術室における手術活動認識モデルの適応

Adaptation of Surgical Activity Recognition Models Across Operating Rooms ( http://arxiv.org/abs/2207.03083v1 )

ライセンス: CC BY 4.0
Ali Mottaghi, Aidean Sharghi, Serena Yeung, Omid Mohareri(参考訳) 自動手術活動認識は、よりインテリジェントな手術装置とより効率的なワークフローを可能にする。 新しい手術室におけるこのような技術の統合は、患者へのケア提供を改善し、コストを削減できる可能性がある。 最近の研究は, 外科的活動認識において有望な成果を上げているが, これらのモデルの一般化性の欠如は, この技術の大規模導入における重要な障壁の1つである。 本研究では手術室における手術活動認識モデルの一般化可能性について検討する。 そこで本稿では,未収録ビデオのみを有する手術室における手術活動認識モデルの性能向上のための新しい領域適応手法を提案する。 提案手法は,ビデオクリップをラベル付けしていない場合の擬似ラベルを生成し,ビデオクリップの強化版上でモデルを訓練する。 提案手法を半教師付き領域適応設定に拡張し,対象領域のごく一部をラベル付けする。 実験では,2つの手術室から収集した480本以上の手術映像のデータセットにおいて,提案手法は一貫してベースラインを上回っている。

Automatic surgical activity recognition enables more intelligent surgical devices and a more efficient workflow. Integration of such technology in new operating rooms has the potential to improve care delivery to patients and decrease costs. Recent works have achieved a promising performance on surgical activity recognition; however, the lack of generalizability of these models is one of the critical barriers to the wide-scale adoption of this technology. In this work, we study the generalizability of surgical activity recognition models across operating rooms. We propose a new domain adaptation method to improve the performance of the surgical activity recognition model in a new operating room for which we only have unlabeled videos. Our approach generates pseudo labels for unlabeled video clips that it is confident about and trains the model on the augmented version of the clips. We extend our method to a semi-supervised domain adaptation setting where a small portion of the target domain is also labeled. In our experiments, our proposed method consistently outperforms the baselines on a dataset of more than 480 long surgical videos collected from two operating rooms.
翻訳日:2022-07-09 02:54:58 公開日:2022-07-07
# (参考訳) ベイジアン最適化のための事前トレーニング

Pre-training helps Bayesian optimization too ( http://arxiv.org/abs/2207.03084v1 )

ライセンス: CC BY 4.0
Zi Wang, George E. Dahl, Kevin Swersky, Chansoo Lee, Zelda Mariet, Zachary Nado, Justin Gilmer, Jasper Snoek, Zoubin Ghahramani(参考訳) ベイズ最適化(BO)は多くの高価な実世界の関数をグローバルに最適化するための一般的な戦略となっている。 BOがブラックボックス関数の最適化に適しているという一般的な信念とは対照的に、BOのデプロイを成功させるためには、実際にはそれらの関数の特徴に関するドメイン知識が必要である。 このようなドメイン知識は、関数に対する初期信念を規定するガウス過程にしばしば現れる。 しかし、専門家の知識があっても、事前に選択するのは簡単ではない。 これは、複雑な機械学習モデルのハイパーパラメータチューニング問題に特に当てはまり、チューニング対象のランドスケープを理解するのが難しい場合が多い。 これらの機能的前提を設定するための代替のプラクティスを模索する。 特に、より厳密な分布を事前訓練できるように、類似した関数のデータを持つシナリオについて検討する。 現実的なモデルトレーニング設定における我々のアプローチを検証するために、人気画像やテキストデータセット、およびタンパク質配列データセットに基づいて、数万の最先端モデルの構成をトレーニングすることで、大規模なマルチタスクハイパーパラメータチューニングデータセットを収集しました。 以上の結果から,提案手法は競合する手法の少なくとも3倍の効率で優れたハイパーパラメータを見つけることができることがわかった。

Bayesian optimization (BO) has become a popular strategy for global optimization of many expensive real-world functions. Contrary to a common belief that BO is suited to optimizing black-box functions, it actually requires domain knowledge on characteristics of those functions to deploy BO successfully. Such domain knowledge often manifests in Gaussian process priors that specify initial beliefs on functions. However, even with expert knowledge, it is not an easy task to select a prior. This is especially true for hyperparameter tuning problems on complex machine learning models, where landscapes of tuning objectives are often difficult to comprehend. We seek an alternative practice for setting these functional priors. In particular, we consider the scenario where we have data from similar functions that allow us to pre-train a tighter distribution a priori. To verify our approach in realistic model training setups, we collected a large multi-task hyperparameter tuning dataset by training tens of thousands of configurations of near-state-of-the-art models on popular image and text datasets, as well as a protein sequence dataset. Our results show that on average, our method is able to locate good hyperparameters at least 3 times more efficiently than the best competing methods.
翻訳日:2022-07-09 02:45:34 公開日:2022-07-07
# (参考訳) 社会科学のための言葉埋め込み : 学際的調査

Word Embedding for Social Sciences: An Interdisciplinary Survey ( http://arxiv.org/abs/2207.03086v1 )

ライセンス: CC BY 4.0
Akira Matsui, Emilio Ferrara(参考訳) 複雑なデータから本質的な情報を抽出するため、コンピュータ科学者は低次元表現モードを学習する機械学習モデルを開発している。 このような機械学習研究の進歩から、コンピュータ科学者だけでなく社会科学者も、人間の行動や社会現象が複雑なデータにあるため、その研究の恩恵を受け、進歩してきた。 この傾向を文書化するために,人間の行動マイニングに単語埋め込み手法を適用した最近の研究や,調査論文で用いられる方法や手順を説明する分類法の構築,非人文行動データに単語埋め込みモデルを適用する最近のトレンドを取り上げた。 この調査は、文献で使用される一般的な類似度測定が、集合レベルで一貫した結果を返すとしても、異なる結果が得られることを警告するための簡単な実験である。

To extract essential information from complex data, computer scientists have been developing machine learning models that learn low-dimensional representation mode. From such advances in machine learning research, not only computer scientists but also social scientists have benefited and advanced their research because human behavior or social phenomena lies in complex data. To document this emerging trend, we survey the recent studies that apply word embedding techniques to human behavior mining, building a taxonomy to illustrate the methods and procedures used in the surveyed papers and highlight the recent emerging trends applying word embedding models to non-textual human behavior data. This survey conducts a simple experiment to warn that common similarity measurements used in the literature could yield different results even if they return consistent results at an aggregate level.
翻訳日:2022-07-09 02:30:44 公開日:2022-07-07
# (参考訳) 動的ネットワークのバックプロパゲーション

Backpropagation on Dynamical Networks ( http://arxiv.org/abs/2207.03093v1 )

ライセンス: CC BY 4.0
Eugene Tan, D\'ebora Corr\^ea, Thomas Stemler, Michael Small(参考訳) 動的ネットワークは、同期やフィードバックといった様々な振る舞いを記述できる汎用モデルである。 しかしながら,ネットワーク状態の時系列観測から推定されるような接続構造や局所ダイナミクスに関する事前情報はしばしば不明であり,現実の文脈でのモデルの適用は困難である。 さらに、ノード間の相互作用の影響は、ローカルノードのダイナミクスの分離をさらに複雑にする。 動的ネットワークとリカレントニューラルネットワーク(RNN)のアーキテクチャ的類似性を考慮し、リカレントニューラルネットワークのトレーニングによく使用されるBPTTアルゴリズムに基づくネットワーク推論手法を提案する。 本手法は,ノード状態の観測から接続構造と局所ノードダイナミクスの両方を同時に推定することを目的とする。 局所ノードダイナミクスの近似はまずニューラルネットワークを用いて構築される。 これにより、予め構築した局所モデルに基づいて動的ネットワークの予測誤差を最小化し、収束を達成するまで対応するネットワーク重みを後退させるbpttアルゴリズムが代替される。 この手法は、lorenz, chua, fitzhugh-nagumo発振器の結合ネットワークの接続構造を同定することに成功した。 生成した局所モデルと重み付きフリーラン予測性能は、ノイズのある初期条件を持つ真のシステムに匹敵することがわかった。 この方法はまた、非対称負結合のような非型ネットワーク結合にも拡張される。

Dynamical networks are versatile models that can describe a variety of behaviours such as synchronisation and feedback. However, applying these models in real world contexts is difficult as prior information pertaining to the connectivity structure or local dynamics is often unknown and must be inferred from time series observations of network states. Additionally, the influence of coupling interactions between nodes further complicates the isolation of local node dynamics. Given the architectural similarities between dynamical networks and recurrent neural networks (RNN), we propose a network inference method based on the backpropagation through time (BPTT) algorithm commonly used to train recurrent neural networks. This method aims to simultaneously infer both the connectivity structure and local node dynamics purely from observation of node states. An approximation of local node dynamics is first constructed using a neural network. This is alternated with an adapted BPTT algorithm to regress corresponding network weights by minimising prediction errors of the dynamical network based on the previously constructed local models until convergence is achieved. This method was found to be succesful in identifying the connectivity structure for coupled networks of Lorenz, Chua and FitzHugh-Nagumo oscillators. Freerun prediction performance with the resulting local models and weights was found to be comparable to the true system with noisy initial conditions. The method is also extended to non-conventional network couplings such as asymmetric negative coupling.
翻訳日:2022-07-09 02:11:22 公開日:2022-07-07
# (参考訳) 条件付き勾配ホモトピー法と半定義型プログラミングへの応用

A conditional gradient homotopy method with applications to Semidefinite Programming ( http://arxiv.org/abs/2207.03101v1 )

ライセンス: CC BY 4.0
Pavel Dvurechensky, Shimrit Shtern, Mathias Staudigl(参考訳) 本稿では,単純円錐制約を多数有する凸最適化問題を解くためのホモトピーに基づく条件勾配法を提案する。 このテンプレートのインスタンスは、組合せ最適化問題の凸緩和に起因する半定値プログラミング問題に自然に現れる。 本手法は,円錐制約を自己協和障壁を介して処理する二重ループアルゴリズムであり,内部ループは解析中心経路を近似するために条件勾配アルゴリズムを用い,外ループは時間解とホモトピーパラメータに課される精度を更新する。 我々の理論的な反復の複雑さは、最先端のSDPソルバに直面すると競合する。 本手法の実用性を示すための予備的な数値実験を行う。

We propose a new homotopy-based conditional gradient method for solving convex optimization problems with a large number of simple conic constraints. Instances of this template naturally appear in semidefinite programming problems arising as convex relaxations of combinatorial optimization problems. Our method is a double-loop algorithm in which the conic constraint is treated via a self-concordant barrier, and the inner loop employs a conditional gradient algorithm to approximate the analytic central path, while the outer loop updates the accuracy imposed on the temporal solution and the homotopy parameter. Our theoretical iteration complexity is competitive when confronted to state-of-the-art SDP solvers, with the decisive advantage of cheap projection-free subroutines. Preliminary numerical experiments are provided for illustrating the practical performance of the method.
翻訳日:2022-07-09 01:54:21 公開日:2022-07-07
# (参考訳) 変分ベイズ推論における量子アドバンテージ

Quantum Advantage in Variational Bayes Inference ( http://arxiv.org/abs/2207.03104v1 )

ライセンス: CC BY 4.0
Hideyuki Miyahara and Vwani Roychowdhury(参考訳) 変分ベイズ(vb)推論アルゴリズムは、生成統計モデルにおけるパラメータと観測されていない隠れ変数の両方を推定するために広く使われている。 計算物理学で用いられる変分法に触発されたこのアルゴリズムは反復的であり、決定論的アニーリング(英語版)(da)のような古典的手法が使用される場合でも、局所的ミニマムに容易に定着する。 我々は,非伝統的な量子アニーリング手法に基づく変分ベイズ (vb) 推定アルゴリズム(量子アニーリング変分ベイズ (qavb) 推論と呼ばれる)について検討し,その古典的手法よりも qavb に量子アドバンテージがあることを証明した。 特に、このような優れた性能は量子力学の鍵となる概念に根ざしていることを示す。 (i) 量子系のハミルトニアンの基底状態(与えられた変分ベイズ(vb)問題から定義される)は、非常に低温における変分自由エネルギーの最小化問題の最適解に対応する。 (ii)そのような基底状態は、量子アニール過程を並列化する技術により達成することができる。 (iii)この基底状態から、熱浴温度を一元化させ、古典物理学に基づくvbアルゴリズムで観察される自発的対称性破壊による局所的極小化を回避することにより、vb問題の最適解を得ることができる。 また,QAVBの更新式は,ステップ毎に$\lceil \log K \rceil$ qubitsおよび$\mathcal{O} (K)$演算を用いて実装可能であることを示す。 したがって、QAVBは既存のVBアルゴリズムの時間的複雑さと高い性能を実現することができる。

Variational Bayes (VB) inference algorithm is used widely to estimate both the parameters and the unobserved hidden variables in generative statistical models. The algorithm -- inspired by variational methods used in computational physics -- is iterative and can get easily stuck in local minima, even when classical techniques, such as deterministic annealing (DA), are used. We study a variational Bayes (VB) inference algorithm based on a non-traditional quantum annealing approach -- referred to as quantum annealing variational Bayes (QAVB) inference -- and show that there is indeed a quantum advantage to QAVB over its classical counterparts. In particular, we show that such better performance is rooted in key concepts from quantum mechanics: (i) the ground state of the Hamiltonian of a quantum system -- defined from the given variational Bayes (VB) problem -- corresponds to an optimal solution for the minimization problem of the variational free energy at very low temperatures; (ii) such a ground state can be achieved by a technique paralleling the quantum annealing process; and (iii) starting from this ground state, the optimal solution to the VB problem can be achieved by increasing the heat bath temperature to unity, and thereby avoiding local minima introduced by spontaneous symmetry breaking observed in classical physics based VB algorithms. We also show that the update equations of QAVB can be potentially implemented using $\lceil \log K \rceil$ qubits and $\mathcal{O} (K)$ operations per step. Thus, QAVB can match the time complexity of existing VB algorithms, while delivering higher performance.
翻訳日:2022-07-09 01:51:31 公開日:2022-07-07
# (参考訳) 不確実性を考慮した肝臓自己教師付きニューラルネットワーク$t_{1\rho}$マッピングと緩和制約

Uncertainty-Aware Self-supervised Neural Network for Liver $T_{1\rho}$ Mapping with Relaxation Constraint ( http://arxiv.org/abs/2207.03105v1 )

ライセンス: CC BY 4.0
Chaoxing Huang, Yurui Qian, Simon Chun Ho Yu, Jian Hou, Baiyan Jiang, Queenie Chan, Vincent Wai-Sun Wong, Winnie Chiu-Wing Chu, Weitian Chen(参考訳) $T_{1\rho}$ mappingは、組織特性の非侵襲的評価のための有望な定量的MRI技術である。 学習ベースのアプローチは、$t_{1\rho}$の減った画像から$t_{1\rho}$をマッピングできるが、大量の高品質なトレーニングデータを必要とする。 さらに、既存のメソッドは$T_{1\rho}$推定の信頼レベルを提供しない。 これらの問題に対処するために,学習過程における緩和制約を用いてT_{1\rho}$マッピングを学習する自己教師型学習ニューラルネットワークを提案した。 エピステマ性不確実性とアレタリック不確実性は、$T_{1\rho}$ マッピングのベイズ的信頼度推定を提供するために$T_{1\rho}$量子化ネットワークのためにモデル化される。 不確実性推定は、モデルが不完全なデータを学習しないように規則化することもできる。 非アルコール性脂肪性肝疾患52例のT_{1\rho}$データについて実験を行った。 以上の結果から, 肝臓の定量化には, わずか2例の$t_{1\rho}$-weighted画像を用い, 既存の方法よりも優れていた。 我々の不確実性推定は、自己教師型学習に基づく$T_{1\rho}$推定の信頼性をモデル化する実現可能な方法を提供し、肝臓の$T_{1\rho}$イメージングの現実と一致した。

$T_{1\rho}$ mapping is a promising quantitative MRI technique for the non-invasive assessment of tissue properties. Learning-based approaches can map $T_{1\rho}$ from a reduced number of $T_{1\rho}$ weighted images, but requires significant amounts of high quality training data. Moreover, existing methods do not provide the confidence level of the $T_{1\rho}$ estimation. To address these problems, we proposed a self-supervised learning neural network that learns a $T_{1\rho}$ mapping using the relaxation constraint in the learning process. Epistemic uncertainty and aleatoric uncertainty are modelled for the $T_{1\rho}$ quantification network to provide a Bayesian confidence estimation of the $T_{1\rho}$ mapping. The uncertainty estimation can also regularize the model to prevent it from learning imperfect data. We conducted experiments on $T_{1\rho}$ data collected from 52 patients with non-alcoholic fatty liver disease. The results showed that our method outperformed the existing methods for $T_{1\rho}$ quantification of the liver using as few as two $T_{1\rho}$-weighted images. Our uncertainty estimation provided a feasible way of modelling the confidence of the self-supervised learning based $T_{1\rho}$ estimation, which is consistent with the reality in liver $T_{1\rho}$ imaging.
翻訳日:2022-07-09 01:01:02 公開日:2022-07-07
# (参考訳) 移動学習を用いた深部CNNに基づく視覚に基づく低コストハンドジェスチャ認識システムによるヒューマンマシンインタフェースの設計

Design of Human Machine Interface through vision-based low-cost Hand Gesture Recognition system based on deep CNN with transfer-learning approach ( http://arxiv.org/abs/2207.03112v1 )

ライセンス: CC BY 4.0
Abir Sen, Tapas Kumar Mishra and Ratnakar Dash(参考訳) 本稿では,リアルタイムなハンドジェスチャ認識システムに基づくヒューマンコンピュータインタフェース(hci)を提案する。 本システムは,(1)手検出,(2)ジェスチャーセグメンテーション,(3)手動学習による6つの事前学習CNNモデルの使用,(4)対話型ヒューマンマシンインタフェースの構築,(5)ジェスチャー制御仮想マウスの開発,(6)手動運動の滑らかさの向上に基づく手動位置推定のためのカルマンフィルタの使用,の6段階からなる。 6つの事前訓練された畳み込みニューラルネットワーク(CNN)モデル(VGG16、VGG19、ResNet50、ResNet101、Inception-V1、MobileNet-V1)が手ジェスチャー画像の分類に使用されている。 モデルパフォーマンスを評価するために、3つのマルチクラスデータセット(2つのパブリックデータセットと1つのカスタムデータセット)が使用されている。 モデルの性能を考慮すると、Inception-V1は他の5つの事前学習モデルと比較して、精度、精度、リコール、Fスコア値の分類性能が著しく向上していることが観察されている。 ジェスチャー認識システムは、マルチメディアアプリケーション(VLCプレーヤー、オーディオプレーヤー、ファイル管理、2D Super-Mario-Brosゲームなど)をリアルタイムでカスタマイズされたジェスチャーコマンドで制御するために拡張され、使用される。 このシステムの平均速度は35fps (秒単位のフレーム)に達し、リアルタイムシナリオの要件を満たす。

In this work, a real-time hand gesture recognition system-based human-computer interface (HCI) is presented. The system consists of six stages: (1) hand detection, (2) gesture segmentation, (3) use of six pre-trained CNN models by using the transfer-learning method, (4) building an interactive human-machine interface, (5) development of a gesture-controlled virtual mouse, (6) use of Kalman filter to estimate the hand position, based on that the smoothness of the motion of pointer is improved. Six pre-trained convolutional neural network (CNN) models (VGG16, VGG19, ResNet50, ResNet101, Inception-V1, and MobileNet-V1) have been used to classify hand gesture images. Three multi-class datasets (two publicly and one custom) have been used to evaluate the model performances. Considering the models' performances, it has been observed that Inception-V1 has significantly shown a better classification performance compared to the other five pre-trained models in terms of accuracy, precision, recall, and F-score values. The gesture recognition system is expanded and used to control multimedia applications (like VLC player, audio player, file management, playing 2D Super-Mario-Bros game, etc.) with different customized gesture commands in real-time scenarios. The average speed of this system has reached 35 fps (frame per seconds), which meets the requirements for the real-time scenario.
翻訳日:2022-07-09 00:48:42 公開日:2022-07-07
# (参考訳) 多クラスモデル解釈への付加的インスタンスワイズアプローチ

An Additive Instance-Wise Approach to Multi-class Model Interpretation ( http://arxiv.org/abs/2207.03113v1 )

ライセンス: CC BY 4.0
Vy Vo, Van Nguyen, Trung Le, Quan Hung Tran, Gholamreza Haffari, Seyit Camtepe and Dinh Phung(参考訳) 解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因と、それを高い意思決定や大規模デプロイメントのために信頼するかどうかに関する洞察を提供する。 既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に焦点を当てている。 加法モデルでは、ヒューリスティックにサンプルされた摂動を用いて、インスタンス固有の説明を逐次学習する。 したがって、このプロセスは非効率であり、悪い条件のサンプルに影響を受けやすい。 一方、インスタンスワイド手法は、局所的なサンプリング分布を直接学習し、他の入力からのグローバル情報を活用することができる。 しかし、事前に定義された多数の機能に依存しているため、単一クラスの予測のみを解釈し、異なる設定で不整合に苦しむことができる。 本研究は両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。 また,特定のインスタンスに対して最適な特徴数を決定するための適応推論手法を提案する。 モデル説明器は,多種多様なデータセットやブラックボックスモデルアーキテクチャにおいて,高レベルの簡潔性を達成しつつ,忠実度に対して加法的およびインスタンス的に優れる。

Interpretable machine learning offers insights into what factors drive a certain prediction of a black-box system and whether to trust it for high-stakes decisions or large-scale deployment. Existing methods mainly focus on selecting explanatory input features, which follow either locally additive or instance-wise approaches. Additive models use heuristically sampled perturbations to learn instance-specific explainers sequentially. The process is thus inefficient and susceptible to poorly-conditioned samples. Meanwhile, instance-wise techniques directly learn local sampling distributions and can leverage global information from other inputs. However, they can only interpret single-class predictions and suffer from inconsistency across different settings, due to a strict reliance on a pre-defined number of features selected. This work exploits the strengths of both methods and proposes a global framework for learning local explanations simultaneously for multiple target classes. We also propose an adaptive inference strategy to determine the optimal number of features for a specific instance. Our model explainer significantly outperforms additive and instance-wise counterparts on faithfulness while achieves high level of brevity on various data sets and black-box model architectures.
翻訳日:2022-07-09 00:29:37 公開日:2022-07-07
# (参考訳) クラスパス分解による等変表現学習

Equivariant Representation Learning via Class-Pose Decomposition ( http://arxiv.org/abs/2207.03116v1 )

ライセンス: CC BY 4.0
Giovanni Luca Marchetti, Gustaf Tegn\'er, Anastasiia Varava, Danica Kragic(参考訳) データの対称性に同値な表現を学習するための一般的な方法を提案する。 中心的な考え方は、不変因子と対称性群自身で潜在空間を分解することである。 コンポーネントは、それぞれ固有のデータクラスとポーズに意味的に対応します。 学習者は自己教師され、相対対称性情報に基づいてこれらの意味を推測する。 このアプローチは群論の理論的結果によって動機付けられ、損失のない、解釈可能で、絡み合った表現を保証する。 我々は,様々な対称性を持つデータセットを含む実験を通じて,そのアプローチを実証的に検討する。 その結果,我々の表現はデータの幾何を捉え,他の等変表現学習フレームワークよりも優れていた。

We introduce a general method for learning representations that are equivariant to symmetries of data. The central idea is to to decompose the latent space in an invariant factor and the symmetry group itself. The components semantically correspond to intrinsic data classes and poses respectively. The learner is self-supervised and infers these semantics based on relative symmetry information. The approach is motivated by theoretical results from group theory and guarantees representations that are lossless, interpretable and disentangled. We empirically investigate the approach via experiments involving datasets with a variety of symmetries. Results show that our representations capture the geometry of data and outperform other equivariant representation learning frameworks.
翻訳日:2022-07-09 00:04:14 公開日:2022-07-07
# (参考訳) コンテンツとスタイルの強化によるアウトオブオフの例

Harnessing Out-Of-Distribution Examples via Augmenting Content and Style ( http://arxiv.org/abs/2207.03162v1 )

ライセンス: CC BY 4.0
Zhuo Huang, Xiaobo Xia, Li Shen, Bo Han, Mingming Gong, Chen Gong, Tongliang Liu(参考訳) 機械学習モデルは、アウト・オブ・ディストリビューション(ood)の例に対して脆弱である。 しかし、現在のOODデータには、学習性能を高めるために適切に適応できる良性OODデータと、他の悪性OODデータが分類結果を著しく劣化させる良性OODデータがある。 本稿では、Harness OODデータに対して、各画像インスタンスのコンテンツとスタイルを利用して良質なOODデータを識別するHOOD法を提案する。 特に,構造的因果モデルを構築し,コンテントとスタイルの特徴を因果的に分離する変分推論フレームワークを設計する。 その後,悪性度と良性度のOODデータをそれぞれ生成するために,介入プロセスを通じて内容とスタイルを増強する。 良質なOODデータは、新しいスタイルを含むが、関心のある内容を保持しており、スタイル不変モデルをトレーニングするのに役立てることができる。 対照的に、悪性なOODデータは未知の内容を継承するが、見慣れたスタイルで検出することにより、異常を抑えるためのモデルロバスト性を向上させることができる。 提案手法により, OOD検出, オープンセット半教師付き学習, オープンセットドメイン適応を含む3つの典型的なOODアプリケーションにおいて, 有効性が実証的に検証された未知およびオープン環境におけるOODサンプルを効果的に処理することができる。

Machine learning models are vulnerable to Out-Of-Distribution (OOD) examples, such a problem has drawn much attention. However, current methods lack a full understanding of different types of OOD data: there are benign OOD data that can be properly adapted to enhance the learning performance, while other malign OOD data would severely degenerate the classification result. To Harness OOD data, this paper proposes HOOD method that can leverage the content and style from each image instance to identify benign and malign OOD data. Particularly, we design a variational inference framework to causally disentangle content and style features by constructing a structural causal model. Subsequently, we augment the content and style through an intervention process to produce malign and benign OOD data, respectively. The benign OOD data contain novel styles but hold our interested contents, and they can be leveraged to help train a style-invariant model. In contrast, the malign OOD data inherit unknown contents but carry familiar styles, by detecting them can improve model robustness against deceiving anomalies. Thanks to the proposed novel disentanglement and data augmentation techniques, HOOD can effectively deal with OOD examples in unknown and open environments, whose effectiveness is empirically validated in three typical OOD applications including OOD detection, open-set semi-supervised learning, and open-set domain adaptation.
翻訳日:2022-07-08 23:46:33 公開日:2022-07-07
# (参考訳) 明示的簡素なリズム同期による音楽-ダンス表現の自己教師付き学習

Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization ( http://arxiv.org/abs/2207.03190v1 )

ライセンス: CC BY 4.0
Jiashuo Yu, Junfu Pu, Ying Cheng, Rui Feng, Ying Shan(参考訳) 視聴覚表現は多くの下流課題に応用できることが証明されているが、より具体的であり、常に複雑な聴覚コンテンツを持つ音楽を伴うダンスビデオの表現は、いまだに困難かつ未調査のままである。 舞踊のリズムとリズムのリズムのリズムの因果関係を考慮し,音楽とダンスのリズムを明示的かつ暗黙的に同期させる新しい音楽・ダンス表現学習フレームワークであるMuDaRを紹介する。 具体的には、音楽リズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出する。 そして、音の強度の振幅によって抽出された音楽のリズムを時間的に調整する。 一方,音声や視覚ストリームに含まれるリズムの暗黙のコヒーレンスを,コントラスト学習によって活用する。 モデルは、音声と視覚のペア間の時間的一貫性を予測することによって、関節埋め込みを学習する。 音楽ダンス表現は、オーディオと視覚のリズムを検出する能力とともに、3つの下流タスクにさらに適用することができる。 (a)舞踊の分類。 (b)音楽ダンスの検索及び c) music-dance retargeting。 広範な実験により,提案フレームワークが他の自己監督型手法を大差で上回ることを示した。

Although audio-visual representation has been proved to be applicable in many downstream tasks, the representation of dancing videos, which is more specific and always accompanied by music with complex auditory contents, remains challenging and uninvestigated. Considering the intrinsic alignment between the cadent movement of dancer and music rhythm, we introduce MuDaR, a novel Music-Dance Representation learning framework to perform the synchronization of music and dance rhythms both in explicit and implicit ways. Specifically, we derive the dance rhythms based on visual appearance and motion cues inspired by the music rhythm analysis. Then the visual rhythms are temporally aligned with the music counterparts, which are extracted by the amplitude of sound intensity. Meanwhile, we exploit the implicit coherence of rhythms implied in audio and visual streams by contrastive learning. The model learns the joint embedding by predicting the temporal consistency between audio-visual pairs. The music-dance representation, together with the capability of detecting audio and visual rhythms, can further be applied to three downstream tasks: (a) dance classification, (b) music-dance retrieval, and (c) music-dance retargeting. Extensive experiments demonstrate that our proposed framework outperforms other self-supervised methods by a large margin.
翻訳日:2022-07-08 23:26:27 公開日:2022-07-07
# (参考訳) ログベース異常検出におけるログインストラクションの活用

Leveraging Log Instructions in Log-based Anomaly Detection ( http://arxiv.org/abs/2207.03206v1 )

ライセンス: CC BY 4.0
Jasmin Bogatinovski, Gjorgji Madjarov, Sasho Nedelkoski, Jorge Cardoso and Odej Kao(参考訳) ai(artificial intelligence for it operations)は、大規模なitシステムを、例えば異常検出や根本原因分析など、さまざまなai対応の手法やツールを使用して維持、運用し、自己安定化itアクティビティの修復、最適化、自動開始をサポートするプロセスを記述する。 AIOpsワークフローの中核的なステップは異常検出であり、ログメッセージ(ログ)やメトリクス(CPU利用など)、分散トレースといった、高ボリュームな異種データ上で実行されるのが一般的である。 本稿では,システムログから信頼性が高く実用的な異常検出手法を提案する。 1000以上のgithubプロジェクトのソースコードからログインストラクションを備えた異常検出モデルを構築することで、関連する作業、すなわち、大量の手動ラベル付きトレーニングデータの必要性を克服している。 多様なシステムからの指示には、多くの異なる正常および異常なITイベントに関するリッチで異種な情報が含まれており、異常検出の基礎となっている。 提案手法であるadlilogは,2相学習による深層ニューラルネットワークモデル学習のために,関心システム(ターゲットシステム)からのログ命令とデータを組み合わせたものである。 実験の結果,ADLILogはF1スコアで60%以上の性能向上を実現し,非教師なし設計,効率的なモデル更新,小型モデルサイズといった産業展開の非機能要件を満たした。

Artificial Intelligence for IT Operations (AIOps) describes the process of maintaining and operating large IT systems using diverse AI-enabled methods and tools for, e.g., anomaly detection and root cause analysis, to support the remediation, optimization, and automatic initiation of self-stabilizing IT activities. The core step of any AIOps workflow is anomaly detection, typically performed on high-volume heterogeneous data such as log messages (logs), metrics (e.g., CPU utilization), and distributed traces. In this paper, we propose a method for reliable and practical anomaly detection from system logs. It overcomes the common disadvantage of related works, i.e., the need for a large amount of manually labeled training data, by building an anomaly detection model with log instructions from the source code of 1000+ GitHub projects. The instructions from diverse systems contain rich and heterogenous information about many different normal and abnormal IT events and serve as a foundation for anomaly detection. The proposed method, named ADLILog, combines the log instructions and the data from the system of interest (target system) to learn a deep neural network model through a two-phase learning procedure. The experimental results show that ADLILog outperforms the related approaches by up to 60% on the F1 score while satisfying core non-functional requirements for industrial deployments such as unsupervised design, efficient model updates, and small model sizes.
翻訳日:2022-07-08 23:10:45 公開日:2022-07-07
# (参考訳) ベイズアン学習の課題と落とし穴

Challenges and Pitfalls of Bayesian Unlearning ( http://arxiv.org/abs/2207.03227v1 )

ライセンス: CC BY 4.0
Ambrish Rawat, James Requeima, Wessel Bruinsma, Richard Turner(参考訳) 機械学習とは、トレーニングデータのサブセットを削除し、トレーニングされたモデルへのコントリビューションを削除するタスクを指す。 近似アンラーニングは、保持したデータからモデルをスクラッチから再トレーニングする必要をなくす、このタスクの方法の1つのクラスである。 ベイズの規則は、削除されたデータの可能性を切り離すことで、更新された後部を取得することを目的とする推論問題として、近似的未学習をキャストするために用いられる。 しかし、モデルパラメータの正確な後方にアクセスできないことが多いため、これは独自の課題を持っています。 本研究では,ラプラス近似と変分推論を用いて更新後部を求める。 回帰タスクを指導する例として、ニューラルネットワークをトレーニングすることで、実践シナリオにおけるベイズアンラーニングの適用性に関する洞察を導き出す。

Machine unlearning refers to the task of removing a subset of training data, thereby removing its contributions to a trained model. Approximate unlearning are one class of methods for this task which avoid the need to retrain the model from scratch on the retained data. Bayes' rule can be used to cast approximate unlearning as an inference problem where the objective is to obtain the updated posterior by dividing out the likelihood of deleted data. However this has its own set of challenges as one often doesn't have access to the exact posterior of the model parameters. In this work we examine the use of the Laplace approximation and Variational Inference to obtain the updated posterior. With a neural network trained for a regression task as the guiding example, we draw insights on the applicability of Bayesian unlearning in practical scenarios.
翻訳日:2022-07-08 22:50:33 公開日:2022-07-07
# (参考訳) 適応型マルチグリッド強化学習フレームワークを用いたロバスト最適ウェル制御

Robust optimal well control using an adaptive multi-grid reinforcement learning framework ( http://arxiv.org/abs/2207.03253v1 )

ライセンス: CC BY 4.0
Atish Dixit, Ahmed H. ElSheikh(参考訳) 強化学習(rl)は、モデルパラメータが極めて不確実であり、システムが部分的に観測可能であるロバストな最適井戸制御問題を解決するための有望なツールである。 しかし、堅牢な制御ポリシーのRLは、しばしば多数のシミュレーションを実行することに依存する。 これは、計算集約的なシミュレーションの場合、容易に計算的に難解になる。 このボトルネックに対処するために、反復数値アルゴリズムで使用される幾何的多重グリッド法の原理に着想を得た適応型多グリッドRLフレームワークが導入された。 rl制御ポリシーは、基礎となる偏微分方程式(pdes)の粗い格子離散化を用いて計算効率のよい低忠実性シミュレーションを用いて最初に学習される。 その後、モデル領域の最も細かい離散化に対応する最高忠実度シミュレーションへ適応的にシミュレーション忠実度を増加させる。 提案手法は,最先端のモデルフリーなポリシーベースrlアルゴリズム,すなわちppo(proximal policy optimization)アルゴリズムを用いて実証された。 SPE-10モデル2ベンチマークのケーススタディから着想を得た、堅牢な最適ウェルコントロール問題の2つのケーススタディを示す。 計算効率の著明な向上は、計算コストの約60-70%を節約する提案フレームワークを用いて観測される。

Reinforcement learning (RL) is a promising tool to solve robust optimal well control problems where the model parameters are highly uncertain, and the system is partially observable in practice. However, RL of robust control policies often relies on performing a large number of simulations. This could easily become computationally intractable for cases with computationally intensive simulations. To address this bottleneck, an adaptive multi-grid RL framework is introduced which is inspired by principles of geometric multi-grid methods used in iterative numerical algorithms. RL control policies are initially learned using computationally efficient low fidelity simulations using coarse grid discretization of the underlying partial differential equations (PDEs). Subsequently, the simulation fidelity is increased in an adaptive manner towards the highest fidelity simulation that correspond to finest discretization of the model domain. The proposed framework is demonstrated using a state-of-the-art, model-free policy-based RL algorithm, namely the Proximal Policy Optimisation (PPO) algorithm. Results are shown for two case studies of robust optimal well control problems which are inspired from SPE-10 model 2 benchmark case studies. Prominent gains in the computational efficiency is observed using the proposed framework saving around 60-70% of computational cost of its single fine-grid counterpart.
翻訳日:2022-07-08 22:39:24 公開日:2022-07-07
# (参考訳) 統計的および深層学習に基づくオディア語の音声タギング

Part-of-Speech Tagging of Odia Language Using statistical and Deep Learning-Based Approaches ( http://arxiv.org/abs/2207.03256v1 )

ライセンス: CC BY 4.0
Tusarkanta Dalai, Tapas Kumar Mishra and Pankaj K Sa(参考訳) 自動パート・オブ・スパイチ(pos)タグ付けは、名前のエンティティ認識(ner)、音声処理、情報抽出、単語認識の曖昧化、機械翻訳など多くの自然言語処理(nlp)タスクの前処理ステップである。 英語やヨーロッパ語ではすでに有望な成果を上げているが、インド語、特にオディア語では、サポートツール、リソース、言語の形態的豊かさが欠如しているため、まだ十分に調査されていない。 残念ながら、私たちはOdia用のオープンソースのPOSタグを見つけることができず、Odia言語用のPOSタグを開発する試みはほんの少ししか行われていません。 本研究の主な貢献は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と双方向長短期記憶) を提供することである。 私たちは公開アクセス可能なコーパスを使用しており、データセットはインド標準局(bis)タグセットにアノテートされています。 しかし、世界中の言語のほとんどは、Universal Dependencies (UD)タグセットで注釈付けされたデータセットを使用している。 したがって、均一性を維持するために、Odiaデータセットは同じタグセットを使用する必要がある。 そこでBISタグセットからUDタグセットへの単純なマッピングを構築した。 CRFモデルに対する様々な特徴集合入力実験を行い、構成された特徴集合の影響を観察した。 ディープラーニングベースのモデルは、Bi-LSTMネットワーク、CNNネットワーク、CRF層、文字シーケンス情報、事前訓練された単語ベクトルを含む。 畳み込みニューラルネットワーク(CNN)とBi-LSTMネットワークを用いて文字シーケンス情報を抽出した。 ニューラルシーケンスラベリングモデルの6つの異なる組み合わせを実装し,その性能測定を行った。 文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。

Automatic Part-of-speech (POS) tagging is a preprocessing step of many natural language processing (NLP) tasks such as name entity recognition (NER), speech processing, information extraction, word sense disambiguation, and machine translation. It has already gained a promising result in English and European languages, but in Indian languages, particularly in Odia language, it is not yet well explored because of the lack of supporting tools, resources, and morphological richness of language. Unfortunately, we were unable to locate an open source POS tagger for Odia, and only a handful of attempts have been made to develop POS taggers for Odia language. The main contribution of this research work is to present a conditional random field (CRF) and deep learning-based approaches (CNN and Bidirectional Long Short-Term Memory) to develop Odia part-of-speech tagger. We used a publicly accessible corpus and the dataset is annotated with the Bureau of Indian Standards (BIS) tagset. However, most of the languages around the globe have used the dataset annotated with Universal Dependencies (UD) tagset. Hence, to maintain uniformity Odia dataset should use the same tagset. So we have constructed a simple mapping from BIS tagset to UD tagset. We experimented with various feature set inputs to the CRF model, observed the impact of constructed feature set. The deep learning-based model includes Bi-LSTM network, CNN network, CRF layer, character sequence information, and pre-trained word vector. Character sequence information was extracted by using convolutional neural network (CNN) and Bi-LSTM network. Six different combinations of neural sequence labelling models are implemented, and their performance measures are investigated. It has been observed that Bi-LSTM model with character sequence feature and pre-trained word vector achieved a significant state-of-the-art result.
翻訳日:2022-07-08 22:16:40 公開日:2022-07-07
# (参考訳) 深層強化学習に基づく内陸水路の船尾追従モデル

Vessel-following model for inland waterways based on deep reinforcement learning ( http://arxiv.org/abs/2207.03257v1 )

ライセンス: CC BY 4.0
Fabian Hart, Ostap Okhrin, Martin Treiber(参考訳) 近年, 自動車追従モデルの設計において, 深部強化学習 (RL) が適用されてきているが, 複雑な車両力学および環境障害に対するRLに基づく車両追従の実現可能性について検討する。 そこで,本研究では,河川の流速や河川形状の変動など環境影響を考慮した,現実的な船舶動力学に基づく内陸水路追従モデルを開発した。 匿名化したaisデータから自然血管の挙動を抽出し,快適で安全なナビゲーションに隣接する現実的な運転スタイルを反映した報酬関数を定式化した。 高汎化能力を目指して,確率過程を用いて先導軌道と河川力学をモデル化するrl訓練環境を提案する。 トレーニングされたモデルを検証するために、ミドルラインでの現実的な容器追跡など、トレーニングで見られなかったさまざまなシナリオを定義しました。 我々のモデルは、あらゆるシナリオにおいて安全で快適な運転を示し、優れた一般化能力を示した。 さらに、後続の船列に訓練されたモデルを配置することで、交通振動を効果的に抑制することができる。

While deep reinforcement learning (RL) has been increasingly applied in designing car-following models in the last years, this study aims at investigating the feasibility of RL-based vehicle-following for complex vehicle dynamics and strong environmental disturbances. As a use case, we developed an inland waterways vessel-following model based on realistic vessel dynamics, which considers environmental influences, such as varying stream velocity and river profile. We extracted natural vessel behavior from anonymized AIS data to formulate a reward function that reflects a realistic driving style next to comfortable and safe navigation. Aiming at high generalization capabilities, we propose an RL training environment that uses stochastic processes to model leading trajectory and river dynamics. To validate the trained model, we defined different scenarios that have not been seen in training, including realistic vessel-following on the Middle Rhine. Our model demonstrated safe and comfortable driving in all scenarios, proving excellent generalization abilities. Furthermore, traffic oscillations could effectively be dampened by deploying the trained model on a sequence of following vessels.
翻訳日:2022-07-08 22:04:14 公開日:2022-07-07
# (参考訳) ディープニューラルネットワークのためのソルバ+勾配降下訓練アルゴリズム

A Solver + Gradient Descent Training Algorithm for Deep Neural Networks ( http://arxiv.org/abs/2207.03264v1 )

ライセンス: CC BY 4.0
Dhananjay Ashok, Vineel Nagisetty, Christopher Srinivasa and Vijay Ganesh(参考訳) 本稿では,最先端勾配降下法 (gd) 法と混合整数線形計画法 (milp) を組み合わせた深層ニューラルネットワークの学習のための新しいハイブリッドアルゴリズムを提案する。 我々のGD+SolverハイブリッドアルゴリズムはGDSolverと呼ばれ、入力としてDNN$D$を与えられたとき、GDSolverはGDを呼び出し、ローカルのミニマに収まるまでD$を部分的に訓練する。 所望の精度に達するまでプロセスを繰り返します。 我々の実験では、GDSolverは追加データや非常に大きなモデルサイズにスケールするだけでなく、収束率やデータ効率の点で競合する他の手法よりも優れています。 回帰タスクでは、GDSolverは平均して48%の時間でMSEが31.5%低下し、MNISTとCIFAR10の分類タスクではGDSolverはGDベースラインに必要なトレーニングデータの50%しか必要とせず、全ての競合する手法よりも高い精度を達成できた。

We present a novel hybrid algorithm for training Deep Neural Networks that combines the state-of-the-art Gradient Descent (GD) method with a Mixed Integer Linear Programming (MILP) solver, outperforming GD and variants in terms of accuracy, as well as resource and data efficiency for both regression and classification tasks. Our GD+Solver hybrid algorithm, called GDSolver, works as follows: given a DNN $D$ as input, GDSolver invokes GD to partially train $D$ until it gets stuck in a local minima, at which point GDSolver invokes an MILP solver to exhaustively search a region of the loss landscape around the weight assignments of $D$'s final layer parameters with the goal of tunnelling through and escaping the local minima. The process is repeated until desired accuracy is achieved. In our experiments, we find that GDSolver not only scales well to additional data and very large model sizes, but also outperforms all other competing methods in terms of rates of convergence and data efficiency. For regression tasks, GDSolver produced models that, on average, had 31.5% lower MSE in 48% less time, and for classification tasks on MNIST and CIFAR10, GDSolver was able to achieve the highest accuracy over all competing methods, using only 50% of the training data that GD baselines required.
翻訳日:2022-07-08 21:51:14 公開日:2022-07-07
# (参考訳) ソフトウェアフェアネスのためのバイアス除去手法に関する総合的研究

A Comprehensive Empirical Study of Bias Mitigation Methods for Software Fairness ( http://arxiv.org/abs/2207.03277v1 )

ライセンス: CC BY 4.0
Zhenpeng Chen, Jie M. Zhang, Federica Sarro, Mark Harman(参考訳) ソフトウェアバイアスは、ソフトウェアエンジニアにとってますます重要な運用上の懸念である。 本研究では,17種類の代表バイアス緩和手法を大規模かつ総合的に評価し,12の機械学習(ml)性能指標,4つの公平性指標,24種類の公平性パフォーマンストレードオフ評価を用いて評価し,広く採用されている8つのベンチマークソフトウェア決定/予測タスクに適用した。 経験的カバレッジは包括的であり、この重要な運用ソフトウェアの特徴に対する以前の作業と比較して、バイアス緩和方法、評価指標、公平性パフォーマンストレードオフの最大数をカバーしている。 We find that (1) the bias mitigation methods significantly decrease the values reported by all ML performance metrics (including those not considered in previous work) in a large proportion of the scenarios studied (42%~75% according to different ML performance metrics); (2) the bias mitigation methods achieve fairness improvement in only approximately 50% over all scenarios and metrics (ranging between 29%~59% according to the metric used to asses bias/fairness); (3) the bias mitigation methods have a poor fairness-performance trade-off or even lead to decreases in both fairness and ML performance in 37% of the scenarios; (4) the effectiveness of the bias mitigation methods depends on tasks, models, and fairness and ML performance metrics, and there is no 'silver bullet' bias mitigation method demonstrated to be effective for all scenarios studied. 最善のバイアス軽減方法は,シナリオの29%で他の手法よりも優れています。 今後のレプリケーションと作業の拡張を可能にするため,本研究で使用されているスクリプトとデータを公開しました。

Software bias is an increasingly important operational concern for software engineers. We present a large-scale, comprehensive empirical evaluation of 17 representative bias mitigation methods, evaluated with 12 Machine Learning (ML) performance metrics, 4 fairness metrics, and 24 types of fairness-performance trade-off assessment, applied to 8 widely-adopted benchmark software decision/prediction tasks. The empirical coverage is comprehensive, covering the largest numbers of bias mitigation methods, evaluation metrics, and fairness-performance trade-off measures compared to previous work on this important operational software characteristic. We find that (1) the bias mitigation methods significantly decrease the values reported by all ML performance metrics (including those not considered in previous work) in a large proportion of the scenarios studied (42%~75% according to different ML performance metrics); (2) the bias mitigation methods achieve fairness improvement in only approximately 50% over all scenarios and metrics (ranging between 29%~59% according to the metric used to asses bias/fairness); (3) the bias mitigation methods have a poor fairness-performance trade-off or even lead to decreases in both fairness and ML performance in 37% of the scenarios; (4) the effectiveness of the bias mitigation methods depends on tasks, models, and fairness and ML performance metrics, and there is no 'silver bullet' bias mitigation method demonstrated to be effective for all scenarios studied. The best bias mitigation method that we find outperforms other methods in only 29% of the scenarios. We have made publicly available the scripts and data used in this study in order to allow for future replication and extension of our work.
翻訳日:2022-07-08 21:39:09 公開日:2022-07-07
# (参考訳) Win-Win協調:名前付きエンティティ認識のためのシーケンスとスパンモデル

Win-Win Cooperation: Bundling Sequence and Span Models for Named Entity Recognition ( http://arxiv.org/abs/2207.03300v1 )

ライセンス: CC BY 4.0
Bin Ji, Shasha Li, Jie Yu, Jun Ma, Huijun Liu(参考訳) 名前付きエンティティ認識(NER)では、シーケンスラベリングとスパンベースのパラダイムは全く異なる。 これまでの研究では、2つのパラダイムは明らかに相補的な利点を持っているが、私たちが知る限り、これらの利点を単一のnerモデルで活用しようとするモデルはほとんどない。 本稿では,上記の問題に対処するため,Bundling Learning(BL)と呼ばれるパラダイムを提案する。 BLパラダイムは2つのNERパラダイムをバンドルし、NERモデルは各パラダイムのトレーニング損失を加重してパラメータを調整できる。 しかし、重要な3つの問題は未解決のままである。 なぜBLは機能するのか? BLは既存の最先端(SOTA)NERモデルを拡張することができるか? 最初の2つの問題に対処するため、シーケンシャルラベルに基づくモデル-SeqNER、スパンベースNERモデル-SpanNER、およびSeqNERとSpanNERをバンドルするBL-NERを含む3つのNERモデルを実装した。 5つの領域の11個のNERデータセットの実験結果に基づいて,2つの課題について2つの結論を導いた。 次に既存の5つのSOTA NERモデルにBLを適用し,3つのシーケンスラベリングモデルと2つのスパンベースモデルからなる第3の課題について検討する。 実験の結果,BLは一貫して性能を向上し,現在のSOTAシステムにBLを組み込んで新たなSOTA NERシステムを構築することが可能であることが示唆された。 さらに,BLはエンティティ境界と型予測誤差の両方を削減する。 さらに,2つのラベルタグ法と3種類のスパン意味表現法を比較した。

For Named Entity Recognition (NER), sequence labeling-based and span-based paradigms are quite different. Previous research has demonstrated that the two paradigms have clear complementary advantages, but few models have attempted to leverage these advantages in a single NER model as far as we know. In our previous work, we proposed a paradigm known as Bundling Learning (BL) to address the above problem. The BL paradigm bundles the two NER paradigms, enabling NER models to jointly tune their parameters by weighted summing each paradigm's training loss. However, three critical issues remain unresolved: When does BL work? Why does BL work? Can BL enhance the existing state-of-the-art (SOTA) NER models? To address the first two issues, we implement three NER models, involving a sequence labeling-based model--SeqNER, a span-based NER model--SpanNER, and BL-NER that bundles SeqNER and SpanNER together. We draw two conclusions regarding the two issues based on the experimental results on eleven NER datasets from five domains. We then apply BL to five existing SOTA NER models to investigate the third issue, consisting of three sequence labeling-based models and two span-based models. Experimental results indicate that BL consistently enhances their performance, suggesting that it is possible to construct a new SOTA NER system by incorporating BL into the current SOTA system. Moreover, we find that BL reduces both entity boundary and type prediction errors. In addition, we compare two commonly used labeling tagging methods as well as three types of span semantic representations.
翻訳日:2022-07-08 21:12:53 公開日:2022-07-07
# (参考訳) 階層的融合を用いたマルチモーダルEコマース製品分類

Multimodal E-Commerce Product Classification Using Hierarchical Fusion ( http://arxiv.org/abs/2207.03305v1 )

ライセンス: CC BY 4.0
Tsegaye Misikir Tashu, Sara Fattouh, Peter Kiss, Tomas Horvath(参考訳) 本稿では,商用製品分類のためのマルチモーダルモデルを提案する。単純な融合技術を用いて,テキスト(camembertおよびflaubert)とビジュアルデータ(se-resnext-50)から抽出した複数のニューラルネットワークモデルから抽出した特徴を組み合わせる。 提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。 我々は,複数のフレージング手法を用いて実験を行い,単一モダルネットワークの個別埋め込みを結合する最善の手法は,結合と特徴ベクトルの平均化を組み合わせたものであることを見出した。 それぞれのモダリティは、他のモダリティの欠点を補い、モダリティの数を増やすことは、マルチラベルおよびマルチモーダル分類問題の性能を改善する効果的な方法であることを示した。

In this work, we present a multi-modal model for commercial product classification, that combines features extracted by multiple neural network models from textual (CamemBERT and FlauBERT) and visual data (SE-ResNeXt-50), using simple fusion techniques. The proposed method significantly outperformed the unimodal models' performance and the reported performance of similar models on our specific task. We did experiments with multiple fusing techniques and found, that the best performing technique to combine the individual embedding of the unimodal network is based on combining concatenation and averaging the feature vectors. Each modality complemented the shortcomings of the other modalities, demonstrating that increasing the number of modalities can be an effective method for improving the performance of multi-label and multimodal classification problems.
翻訳日:2022-07-08 20:22:51 公開日:2022-07-07
# (参考訳) ミーム感情分類のためのマルチモーダル特徴抽出

Multimodal Feature Extraction for Memes Sentiment Classification ( http://arxiv.org/abs/2207.03317v1 )

ライセンス: CC BY 4.0
Sofiane Ouaari, Tsegaye Misikir Tashu, Tomas Horvath(参考訳) 本研究では,Deep Learningアプローチを用いたマルチモーダルミーム分類のための特徴抽出を提案する。 ミーム(英: meme)は、ソーシャルメディア上で若い世代が共有する写真やビデオで、文化的に関係のある考えを表す。 感情や感情を表現する効率的な方法であるため、ミームの背後にある感情を分類できる優れた分類器が重要である。 学習プロセスをより効率的にし、オーバーフィッティングの可能性を低減し、モデルの一般化性を向上させるためには、全てのモダリティから共同特徴抽出のための優れたアプローチが必要である。 本研究では,マルチモーダル特徴抽出に異なるマルチモーダルニューラルネットワークアプローチを用い,抽出した特徴を用いて,ミーム内の感情を識別するための分類器を訓練する。

In this study, we propose feature extraction for multimodal meme classification using Deep Learning approaches. A meme is usually a photo or video with text shared by the young generation on social media platforms that expresses a culturally relevant idea. Since they are an efficient way to express emotions and feelings, a good classifier that can classify the sentiment behind the meme is important. To make the learning process more efficient, reduce the likelihood of overfitting, and improve the generalizability of the model, one needs a good approach for joint feature extraction from all modalities. In this work, we proposed to use different multimodal neural network approaches for multimodal feature extraction and use the extracted features to train a classifier to identify the sentiment in a meme.
翻訳日:2022-07-08 20:13:57 公開日:2022-07-07
# (参考訳) 古典計画のための予備画像からヒューリスティック関数を学習する

Sampling from Pre-Images to Learn Heuristic Functions for Classical Planning ( http://arxiv.org/abs/2207.03336v1 )

ライセンス: CC BY 4.0
Stefan O'Toole, Miquel Ramirez, Nir Lipovetzky, Adrian R. Pearce(参考訳) 従来の計画問題に対して,ニューラルネットワーク(nn)で定義されたヒューリスティック関数を学習するための新しいアルゴリズムである回帰型教師付き学習(rsl)を提案する。 RSLは回帰を用いて、目標から様々な距離で関連する状態の集合を選択する。 RSLは、目標状態への正確な距離または推定距離をラベル付けした選択された状態を用いて、NNヒューリスティックを定義するパラメータを得るために、教師付き学習問題を定式化する。 実験の結果,従来計画のnnヒューリスティックスは2桁のトレーニング時間を必要とするが,rslはカバー範囲において,従来のnnヒューリスティックス関数よりも優れていた。

We introduce a new algorithm, Regression based Supervised Learning (RSL), for learning per instance Neural Network (NN) defined heuristic functions for classical planning problems. RSL uses regression to select relevant sets of states at a range of different distances from the goal. RSL then formulates a Supervised Learning problem to obtain the parameters that define the NN heuristic, using the selected states labeled with exact or estimated distances to goal states. Our experimental study shows that RSL outperforms, in terms of coverage, previous classical planning NN heuristics functions while requiring two orders of magnitude less training time.
翻訳日:2022-07-08 20:05:01 公開日:2022-07-07
# (参考訳) 適応部分モジュラー最大化における群フェアネス

Group Fairness in Adaptive Submodular Maximization ( http://arxiv.org/abs/2207.03364v1 )

ライセンス: CC BY 4.0
Shaojie Tang, Jing Yuan(参考訳) 本稿では,非適応的および適応的設定下でのグループフェアネス制約を受ける古典的な部分モジュラー最大化問題について検討する。 データ要約、ソーシャルネットワークにおける影響最大化、パーソナライズされたレコメンデーションなど、多くの機械学習アプリケーションの有用性が、サブモジュラリティの性質を満足していることが示されている。 したがって、様々な制約を受ける部分モジュラ函数の最大化は多くの応用の中心にある。 高レベルでは、サブモジュラー最大化は、最も代表的な項目(例えばデータポイント)のグループを選択することを目的としている。 しかし、既存のほとんどのアルゴリズムの設計は公正性制約を含まないため、特定の群を下限あるいは過剰に表現する。 このことは、群フェアネス制約を受ける部分モジュライティ関数を最大化するために、アイテム群を選択しようという、公平な部分モジュライティ最大化問題の研究を動機付けている。 そこで我々は,この問題に対する最初の定数近似アルゴリズムを開発した。 本アルゴリズムの設計は,より複雑な適応条件下での極大化問題の解法に拡張できるほど頑健である。 さらに、グローバルな濃度制約を組み込むよう研究を拡大する。

In this paper, we study the classic submodular maximization problem subject to a group fairness constraint under both non-adaptive and adaptive settings. It has been shown that the utility function of many machine learning applications, including data summarization, influence maximization in social networks, and personalized recommendation, satisfies the property of submodularity. Hence, maximizing a submodular function subject to various constraints can be found at the heart of many of those applications. On a high level, submodular maximization aims to select a group of most representative items (e.g., data points). However, the design of most existing algorithms does not incorporate the fairness constraint, leading to under- or over-representation some particular groups. This motivates us to study the fair submodular maximization problem, where we aim to select a group of items to maximize a (possibly non-monotone) submodular utility function subject to a group fairness constraint. To this end, we develop the first constant-factor approximation algorithm for this problem. The design of our algorithm is robust enough to be extended to solving the submodular maximization problem under a more complicated adaptive setting. Moreover, we further extend our study to incorporating a global cardinality constraint.
翻訳日:2022-07-08 19:46:21 公開日:2022-07-07
# (参考訳) グラフ畳み込みニューラルネットワークを用いたパーコレーションモデルの機械学習

Machine learning of percolation models using graph convolutional neural networks ( http://arxiv.org/abs/2207.03368v1 )

ライセンス: CC0 1.0
Hua Tian, Lirong Zhang, Youjin Deng, and Wanzhou Zhang(参考訳) 気候、物理学、材料科学、疫学、金融学などにおいて、パーコレーションは重要なトピックである。 機械学習手法によるパーコレーション閾値の予測は依然として難しい。 本稿では,教師なしと教師なしの両方の方法でパーコレーションを研究するために,強力なグラフ畳み込みニューラルネットワークを構築する。 教師付き学習の観点から、グラフ畳み込みニューラルネットワークは同時に、正方格子や三角形格子のような異なる格子型のデータをトレーニングする。 教師なし視点では、グラフ畳み込みニューラルネットワークと混乱法を組み合わせることで、「W」字型の性能でパーコレーションしきい値を得ることができる。 この研究の発見は、パーコレーションに関連する現象を調査できるより一般的なフレームワークを構築する可能性を開く。

Percolation is an important topic in climate, physics, materials science, epidemiology, finance, and so on. Prediction of percolation thresholds with machine learning methods remains challenging. In this paper, we build a powerful graph convolutional neural network to study the percolation in both supervised and unsupervised ways. From a supervised learning perspective, the graph convolutional neural network simultaneously and correctly trains data of different lattice types, such as the square and triangular lattices. For the unsupervised perspective, combining the graph convolutional neural network and the confusion method, the percolation threshold can be obtained by the "W" shaped performance. The finding of this work opens up the possibility of building a more general framework that can probe the percolation-related phenomenon.
翻訳日:2022-07-08 19:08:15 公開日:2022-07-07
# (参考訳) HE-PEx:Pruning, Permutation, Expansion を用いた同型暗号化下での効率的な機械学習

HE-PEx: Efficient Machine Learning under Homomorphic Encryption using Pruning, Permutation and Expansion ( http://arxiv.org/abs/2207.03384v1 )

ライセンス: CC BY 4.0
Ehud Aharoni, Moran Baruch, Pradip Bose, Alper Buyuktosunoglu, Nir Drucker, Subhankar Pal, Tomer Pelleg, Kanthi Sarpatwar, Hayim Shaul, Omri Soceanu, Roman Vaculin(参考訳) プライバシ保存ニューラルネットワーク(nn)推論ソリューションは最近、さまざまなレイテンシー帯域幅トレードオフを提供するソリューションで大きな注目を集めている。 これらのうちの多くは、暗号化されたデータ上で計算を行う方法である同型暗号化(HE)に依存している。 しかし、最先端のスキームでも操作は平文に比べてかなり遅い。 NNモデルのパラメータを抽出することは、推論遅延を改善するためのよく知られたアプローチである。 しかし、平文文脈で有用な刈り取り法は、最近の研究でも示されているように、HEの場合においてほとんど無視できる改善をもたらす可能性がある。 そこで本研究では,遅延とメモリ要求を低減し,平文刈り手法の有効性を生かした新しい刈り込み手法を提案する。 重要な点として,本提案では,組込みモデルの重み付けと拡張の2つの重要な手法を用いて,より多くの暗号文を抽出し,精度損失の大部分を回復させる。 本稿では,最近提案するtile tensorsと呼ばれるパッキング技術を用いて,重みを満たした完全連結層において,この手法の利点を実証する。 我々は,MNISTにおける平均2乗再構成損失1.5*10^{-5}に対して,HE対応推論のメモリ要求と遅延を60%削減できることを実証した。

Privacy-preserving neural network (NN) inference solutions have recently gained significant traction with several solutions that provide different latency-bandwidth trade-offs. Of these, many rely on homomorphic encryption (HE), a method of performing computations over encrypted data. However, HE operations even with state-of-the-art schemes are still considerably slow compared to their plaintext counterparts. Pruning the parameters of a NN model is a well-known approach to improving inference latency. However, pruning methods that are useful in the plaintext context may lend nearly negligible improvement in the HE case, as has also been demonstrated in recent work. In this work, we propose a novel set of pruning methods that reduce the latency and memory requirement, thus bringing the effectiveness of plaintext pruning methods to HE. Crucially, our proposal employs two key techniques, viz. permutation and expansion of the packed model weights, that enable pruning significantly more ciphertexts and recuperating most of the accuracy loss, respectively. We demonstrate the advantage of our method on fully connected layers where the weights are packed using a recently proposed packing technique called tile tensors, which allows executing deep NN inference in a non-interactive mode. We evaluate our methods on various autoencoder architectures and demonstrate that for a small mean-square reconstruction loss of 1.5*10^{-5} on MNIST, we reduce the memory requirement and latency of HE-enabled inference by 60%.
翻訳日:2022-07-08 18:57:01 公開日:2022-07-07
# (参考訳) 言語間音響・音声の類似性が多言語音声認識に与える影響の検討

Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities on Multilingual Speech Recognition ( http://arxiv.org/abs/2207.03390v1 )

ライセンス: CC BY 4.0
Muhammad Umar Farooq, Thomas Hain(参考訳) 多言語自動音声認識(ASR)システムは主に低リソース言語に恩恵を与えるが、モノリンガル言語と比較して複数の言語のパフォーマンスが低下する。 限定的な研究は、多言語音声認識設定における言語行動の理解に焦点を当てている。 本稿では,言語間音響・音声の類似性を検討するために,新しいデータ駆動手法を提案する。 本手法は,ターゲット音声信号に対する各種単言語音響モデルの後方分布の類似性を測定する。 ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。 分析は、重なり合う音素集合の体積から言語間の近さを真に推定することはできないことを観察する。 提案したマッピングネットワークのエントロピー解析により,重なりが小さい言語の方が言語間移動に適しており,多言語設定においてより有益であることが示された。 最後に、提案する後進変換アプローチを利用して、ターゲット言語に単言語モデルを融合する。 対訳 対訳 対訳 8% の相対的改善が達成される。

Multilingual automatic speech recognition (ASR) systems mostly benefit low resource languages but suffer degradation in performance across several languages relative to their monolingual counterparts. Limited studies have focused on understanding the languages behaviour in the multilingual speech recognition setups. In this paper, a novel data-driven approach is proposed to investigate the cross-lingual acoustic-phonetic similarities. This technique measures the similarities between posterior distributions from various monolingual acoustic models against a target speech signal. Deep neural networks are trained as mapping networks to transform the distributions from different acoustic models into a directly comparable form. The analysis observes that the languages closeness can not be truly estimated by the volume of overlapping phonemes set. Entropy analysis of the proposed mapping networks exhibits that a language with lesser overlap can be more amenable to cross-lingual transfer, and hence more beneficial in the multilingual setup. Finally, the proposed posterior transformation approach is leveraged to fuse monolingual models for a target language. A relative improvement of ~8% over monolingual counterpart is achieved.
翻訳日:2022-07-08 18:32:18 公開日:2022-07-07
# (参考訳) 低リソース多言語音響モデル融合のための非線形ペアワイズ言語マッピング

Non-Linear Pairwise Language Mappings for Low-Resource Multilingual Acoustic Model Fusion ( http://arxiv.org/abs/2207.03391v1 )

ライセンス: CC BY 4.0
Muhammad Umar Farooq, Darshan Adiga Haniya Narayana, Thomas Hain(参考訳) マルチリンガル音声認識は低リソース言語におけるデータ不足を補う効果的な方法として注目されている。 エンド・ツー・エンド(e2e)モデリングは従来のハイブリッドシステムよりも好まれる。 しかし、ハイブリッドdnn-hmmsは限られたデータシナリオでe2eモデルよりも優れている。 さらに、手動辞書作成の問題は、G2P (Grapheme-to-phoneme) の訓練済みモデルや、多くの言語でIPAに翻訳するテキストによって緩和されている。 本稿では,低リソース言語を対象とした多言語セットアップにおいて,ハイブリッドDNN-HMM音響モデル融合の新たなアプローチを提案する。 異なる単言語音響モデルからの後方分布は、対象言語音声信号に対して融合される。 各ソースターゲット言語ペアに対して、分離回帰ニューラルネットワークを訓練し、ソース音響モデルからターゲット言語への後方変換を行う。 これらのネットワークは、ASRトレーニングと比較して非常に限られたデータを必要とする。 後方融合は、それぞれ多言語ベースラインと単言語ベースラインと比較すると、14.65%と6.5%の相対的な利得をもたらす。 言語間モデル融合は、言語依存のASRから後部を使わずに同等の結果が得られることを示している。

Multilingual speech recognition has drawn significant attention as an effective way to compensate data scarcity for low-resource languages. End-to-end (e2e) modelling is preferred over conventional hybrid systems, mainly because of no lexicon requirement. However, hybrid DNN-HMMs still outperform e2e models in limited data scenarios. Furthermore, the problem of manual lexicon creation has been alleviated by publicly available trained models of grapheme-to-phoneme (G2P) and text to IPA transliteration for a lot of languages. In this paper, a novel approach of hybrid DNN-HMM acoustic models fusion is proposed in a multilingual setup for the low-resource languages. Posterior distributions from different monolingual acoustic models, against a target language speech signal, are fused together. A separate regression neural network is trained for each source-target language pair to transform posteriors from source acoustic model to the target language. These networks require very limited data as compared to the ASR training. Posterior fusion yields a relative gain of 14.65% and 6.5% when compared with multilingual and monolingual baselines respectively. Cross-lingual model fusion shows that the comparable results can be achieved without using posteriors from the language dependent ASR.
翻訳日:2022-07-08 18:22:57 公開日:2022-07-07
# (参考訳) 言語誘発事象関連電位のベイズモデル

Bayesian Modeling of Language-Evoked Event-Related Potentials ( http://arxiv.org/abs/2207.03392v1 )

ライセンス: CC BY 4.0
Davide Turco and Conor Houghton(参考訳) ベイズ階層モデルは、認知神経科学における脳波実験からのノイズの多いデータを分析するのによく適しています。 典型的な神経言語学的実験では、事象関連電位は非常に小さな効果しか示さず、データ分析に対する頻繁なアプローチはこれらの効果のいくつかを確立できない。 本稿では, 単語素因とニューラル応答を関連づけた実験の例を用いて, 事象関連電位を解析するためのベイズ的アプローチを提案する。 本モデルでは,単語代入が事象関連ポテンシャルのほとんどの構成要素に与える影響を推定し,よりリッチなデータ記述を提供する。 ベイズフレームワークはまた、異なる言語モデルを用いて計算された推定値に基づく推定値の比較を容易にする。

Bayesian hierarchical models are well-suited to analyzing the often noisy data from electroencephalography experiments in cognitive neuroscience: these models provide an intuitive framework to account for structures and correlations in the data, and they allow a straightforward handling of uncertainty. In a typical neurolinguistic experiment, event-related potentials show only very small effect sizes and frequentist approaches to data analysis fail to establish the significance of some of these effects. Here, we present a Bayesian approach to analyzing event-related potentials using as an example data from an experiment which relates word surprisal and neural response. Our model is able to estimate the effect of word surprisal on most components of the event-related potential and provides a richer description of the data. The Bayesian framework also allows easier comparison between estimates based on surprisal values calculated using different language models.
翻訳日:2022-07-08 18:08:39 公開日:2022-07-07
# (参考訳) Cosine Few-Shot 学習者によるショット感度の診断と治療

Diagnosing and Remedying Shot Sensitivity with Cosine Few-Shot Learners ( http://arxiv.org/abs/2207.03398v1 )

ライセンス: CC BY-SA 4.0
Davis Wertheimer, Luming Tang, and Bharath Hariharan(参考訳) 画像分類器を訓練して、少数の例(ショット)を使って、テスト時に新しい概念を区別する。 既存のアプローチは通常、テスト時のショット番号が事前に知られていると仮定する。 これは現実的ではなく、人気のある基礎的な方法のパフォーマンスは、列車とテストショットが一致しない場合に苦しむことが示されている。 我々はこの現象の体系的な実証的研究を行う。 従来の研究とは対照的に、より大きなニューラルネットワークアーキテクチャは、様々なテストショットに対して、ある程度の堅牢性を提供する。 さらに重要なことは、単純な、以前は知られていたが、常にコサイン距離に基づいて見落とされたアプローチのクラスが、サンプルノイズに対する感度を除去することで、ショット変動に対するロバスト性を大幅に改善する。 私たちは、コサインの代替品を人気と最近のマイナショット分類器から導き出し、現実的な設定への適用範囲を広げる。 これらのコサインモデルは、常にショットロバスト性を改善し、以前のショットロバスト状態よりも優れており、非常に低いショット体制での注目すべき成果を含む、様々なベンチマークやアーキテクチャにおいて競争力のある精度を提供する。

Few-shot recognition involves training an image classifier to distinguish novel concepts at test time using few examples (shot). Existing approaches generally assume that the shot number at test time is known in advance. This is not realistic, and the performance of a popular and foundational method has been shown to suffer when train and test shots do not match. We conduct a systematic empirical study of this phenomenon. In line with prior work, we find that shot sensitivity is broadly present across metric-based few-shot learners, but in contrast to prior work, larger neural architectures provide a degree of built-in robustness to varying test shot. More importantly, a simple, previously known but greatly overlooked class of approaches based on cosine distance consistently and greatly improves robustness to shot variation, by removing sensitivity to sample noise. We derive cosine alternatives to popular and recent few-shot classifiers, broadening their applicability to realistic settings. These cosine models consistently improve shot-robustness, outperform prior shot-robust state of the art, and provide competitive accuracy on a range of benchmarks and architectures, including notable gains in the very-low-shot regime.
翻訳日:2022-07-08 18:02:15 公開日:2022-07-07
# (参考訳) L^2$-regularizationによるニューラルスタイン批判

Neural Stein critics with staged $L^2$-regularization ( http://arxiv.org/abs/2207.03406v1 )

ライセンス: CC BY 4.0
Matthew Repasky, Xiuyuan Cheng, Yao Xie(参考訳) 観測データとモデル分布を区別する学習は統計学と機械学習の基本的な問題であり、高次元データはそのような問題に対して困難な設定のままである。 シュタイン差分のような確率分布の格差を定量化する計量は、高次元における統計的テストにおいて重要な役割を果たす。 本稿では,未知の確率分布からサンプリングされたデータと,名目モデル分布とを区別したい状況について考察する。 最近の研究では、最適な$l^2$-regularized stein criticが2つの確率分布のスコア関数の乗算定数までの違いと等しいことが示されているが、ニューラルネットワークのstein discrepancy critic関数のトレーニングにおける$l^2$ regularizationの役割について検討する。 ニューラルネットワークの学習における神経接核理論に動機づけられ,訓練時間に対する正則化重み付けのための新しいステージング手順を開発した。 これは、初期の高度に規則化されたトレーニングの利点を生かし、オーバーフィッティングを経験的に遅らせる。 理論的には, 初期訓練時間における「遅延トレーニング」のカーネル回帰最適化と, 大正規化重みのトレーニング動的関係を関連づけた。 シミュレーションによる高次元分布ドリフトデータと画像データの生成モデル評価への応用について, 段階的$l^2$正則化の利点を実証した。

Learning to differentiate model distributions from observed data is a fundamental problem in statistics and machine learning, and high-dimensional data remains a challenging setting for such problems. Metrics that quantify the disparity in probability distributions, such as the Stein discrepancy, play an important role in statistical testing in high dimensions. In this paper, we consider the setting where one wishes to distinguish between data sampled from an unknown probability distribution and a nominal model distribution. While recent studies revealed that the optimal $L^2$-regularized Stein critic equals the difference of the score functions of two probability distributions up to a multiplicative constant, we investigate the role of $L^2$ regularization when training a neural network Stein discrepancy critic function. Motivated by the Neural Tangent Kernel theory of training neural networks, we develop a novel staging procedure for the weight of regularization over training time. This leverages the advantages of highly-regularized training at early times while also empirically delaying overfitting. Theoretically, we relate the training dynamic with large regularization weight to the kernel regression optimization of "lazy training" regime in early training times. The benefit of the staged $L^2$ regularization is demonstrated on simulated high dimensional distribution drift data and an application to evaluating generative models of image data.
翻訳日:2022-07-08 17:39:38 公開日:2022-07-07
# (参考訳) 連続時間動的符号ネットワークにおける符号付きリンク表現

Signed Link Representation in Continuous-Time Dynamic Signed Networks ( http://arxiv.org/abs/2207.03408v1 )

ライセンス: CC BY 4.0
Mohit Raghavendra, Kartik Sharma, Anand Kumar M, Srijan Kumar(参考訳) 署名されたネットワークは、友人/敵、サポート/提案など、双方向の関係や相互作用をモデル化することができます。 これらの相互作用は、ノードとエッジが時間とともに現れる実際のデータセットではしばしば一時的なものである。 したがって、符号付きネットワークのダイナミクスを学ぶことは、将来のリンクの符号と強度を効果的に予測するために不可欠である。 既存のワークモデルは、署名されたネットワークまたは動的ネットワークのいずれかをモデル化する。 本研究では,時間とともにリンクが署名され,進化する動的署名ネットワークについて検討する。 我々のモデルは、メモリモジュールとバランスアグリゲーション(SEMBAという名前)を使って符号付きリンクの進化を学習する。 各ノードは、正と負の相互作用のための2つの別々のメモリエンコーディングを保持する。 新たなエッジが到着すると、各ノードはバランス理論を活用しながら、この署名された情報をメモリに集約する。 ノード埋め込みは更新されたメモリを使用して生成され、リンクサイン予測やリンクウェイト予測など、複数の下流タスクのトレーニングに使用される。 以上の結果から,SEMBAはAUCの最大8%,FPRの最大50%の低下を達成し,サイン予測のタスクにおけるベースラインを全て上回る結果となった。 符号付重みの予測は,平均二乗誤差を9%削減し,kl-divergenceを最大69%削減できることを示した。

Signed networks allow us to model bi-faceted relationships and interactions, such as friend/enemy, support/oppose, etc. These interactions are often temporal in real datasets, where nodes and edges appear over time. Learning the dynamics of signed networks is thus crucial to effectively predict the sign and strength of future links. Existing works model either signed networks or dynamic networks but not both together. In this work, we study dynamic signed networks where links are both signed and evolving with time. Our model learns a Signed link's Evolution using Memory modules and Balanced Aggregation (hence, the name SEMBA). Each node maintains two separate memory encodings for positive and negative interactions. On the arrival of a new edge, each interacting node aggregates this signed information with its memories while exploiting balance theory. Node embeddings are generated using updated memories, which are then used to train for multiple downstream tasks, including link sign prediction and link weight prediction. Our results show that SEMBA outperforms all the baselines on the task of sign prediction by achieving up to an 8% increase in the AUC and up to a 50% reduction in FPR. Results on the task of predicting signed weights show that SEMBA reduces the mean squared error by 9% while achieving up to 69% reduction in the KL-divergence on the distribution of predicted signed weights.
翻訳日:2022-07-08 17:13:55 公開日:2022-07-07
# (参考訳) 視認性とロバスト性を改善したビデオ偽造検出のためのロバスト透かし

Robust Watermarking for Video Forgery Detection with Improved Imperceptibility and Robustness ( http://arxiv.org/abs/2207.03409v1 )

ライセンス: CC BY 4.0
Yangming Zhou, Qichao Ying, Xiangyu Zhang, Zhenxing Qian, Sheng Li and Xinpeng Zhang(参考訳) ビデオは、意味を変え、視聴者をだます攻撃を改ざんしがちだ。 以前のビデオ偽造検出スキームは、改ざんされたエリアを見つけるための小さな手がかりを見つける。 しかし、攻撃者はビデオ圧縮やぼやけによってそのような手がかりを破壊することで、監督を回避することができる。 本稿では,ローカライゼーションを改ざんするためのビデオ透かしネットワークを提案する。 3d-unetベースの透かし埋め込みネットワークと、改ざんマスクを予測するデコーダを共同で訓練する。 透かしの埋め込みによる摂動は知覚不可能に近い。 既製の微分可能ビデオコーデックシミュレータが存在しないことを考慮し,JPEG圧縮やぼかしといった他の一般的な攻撃のシミュレーション結果を近似として,映像圧縮を再現することを提案する。 実験結果から,攻撃されたバージョン内の改ざん箇所を頑健かつ高精度に検出できる透かし付きビデオが得られた。

Videos are prone to tampering attacks that alter the meaning and deceive the audience. Previous video forgery detection schemes find tiny clues to locate the tampered areas. However, attackers can successfully evade supervision by destroying such clues using video compression or blurring. This paper proposes a video watermarking network for tampering localization. We jointly train a 3D-UNet-based watermark embedding network and a decoder that predicts the tampering mask. The perturbation made by watermark embedding is close to imperceptible. Considering that there is no off-the-shelf differentiable video codec simulator, we propose to mimic video compression by ensembling simulation results of other typical attacks, e.g., JPEG compression and blurring, as an approximation. Experimental results demonstrate that our method generates watermarked videos with good imperceptibility and robustly and accurately locates tampered areas within the attacked version.
翻訳日:2022-07-08 16:56:21 公開日:2022-07-07
# (参考訳) VecGAN: 解釈可能な潜在方向による画像間変換

VecGAN: Image-to-Image Translation with Interpretable Latent Directions ( http://arxiv.org/abs/2207.03411v1 )

ライセンス: CC BY 4.0
Yusuf Dalva, Said Fahri Altindis, Aysegul Dundar(参考訳) 本稿では,表情属性編集のための画像から画像への翻訳フレームワークvecganを提案する。 顔属性編集タスクは、制御可能な強度と画像の他の属性の保存による正確な属性編集の課題に直面している。 この目的のために,潜在空間分解による属性編集をデザインし,各属性に対して他の属性と直交する線形方向を学習する。 もう1つのコンポーネントは、変更の制御可能な強度、スカラー値である。 我々のフレームワークでは、このスカラーは投影により参照画像からサンプリングまたはエンコードすることができる。 我々の研究は、固定事前訓練されたGANの潜在空間分解の研究にインスパイアされている。 しかし、これらのモデルはエンドツーエンドでは訓練できず、エンコードされた画像の正確な編集に苦労するが、vecganは画像翻訳タスクのためにエンドツーエンドで訓練され、他のモデルを保存しながら属性の編集に成功する。 広範な実験の結果,vecganは,ローカル編集とグローバル編集の両方において,最先端よりも大幅に改善されていることがわかった。

We propose VecGAN, an image-to-image translation framework for facial attribute editing with interpretable latent directions. Facial attribute editing task faces the challenges of precise attribute editing with controllable strength and preservation of the other attributes of an image. For this goal, we design the attribute editing by latent space factorization and for each attribute, we learn a linear direction that is orthogonal to the others. The other component is the controllable strength of the change, a scalar value. In our framework, this scalar can be either sampled or encoded from a reference image by projection. Our work is inspired by the latent space factorization works of fixed pretrained GANs. However, while those models cannot be trained end-to-end and struggle to edit encoded images precisely, VecGAN is end-to-end trained for image translation task and successful at editing an attribute while preserving the others. Our extensive experiments show that VecGAN achieves significant improvements over state-of-the-arts for both local and global edits.
翻訳日:2022-07-08 16:46:02 公開日:2022-07-07
# (参考訳) LASSIE:3Dパーツ発見によるスパース画像アンサンブルからのArticulated Shapesの学習

LASSIE: Learning Articulated Shapes from Sparse Image Ensemble via 3D Part Discovery ( http://arxiv.org/abs/2207.03434v1 )

ライセンス: CC BY 4.0
Chun-Han Yao, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani(参考訳) 動物の高品質な3dモデルを作るには、手作業で作るか、3dスキャンツールを使うかが難しい。 そのため、2D画像から3Dオブジェクトを再構成する技術は重要であり、非常に有用である。 本研究では,特定の動物種(例えば,馬)の眼内画像のごく一部(10~30)しか与えていない動物の3次元ポーズと形状を推定する実践的な問題設定を提案する。 既定のテンプレート形状に依存する既存の作品とは異なり、2dや3dの地中アノテーションのいかなる形式も想定していないし、マルチビューやテンポラリな情報も利用していない。 さらに、各入力画像アンサンブルは、ポーズ、背景、照明、テクスチャの異なる動物インスタンスを含むことができる。 我々の重要な洞察は、3Dの部品は全体の動物に比べてずっと単純な形状であり、それらが頑丈なw.r.t.動物の構図であるということである。 そこで本研究では,ユーザ介入を最小限に抑えた自己教師型3次元部品発見のための新しい最適化フレームワークLASSIEを提案する。 LASSIEの背後にある重要な駆動力は、自己監督的な深部特徴を用いた2D-3D部分の一貫性の強化である。 pascal-partとself-collected in-the-wild動物データセットの実験は、先行技術に比べて2dと3dの両方の発見だけでなく、かなり優れた3d再構成を示している。 プロジェクトページ:chhankyao.github.io/lassie/

Creating high-quality articulated 3D models of animals is challenging either via manual creation or using 3D scanning tools. Therefore, techniques to reconstruct articulated 3D objects from 2D images are crucial and highly useful. In this work, we propose a practical problem setting to estimate 3D pose and shape of animals given only a few (10-30) in-the-wild images of a particular animal species (say, horse). Contrary to existing works that rely on pre-defined template shapes, we do not assume any form of 2D or 3D ground-truth annotations, nor do we leverage any multi-view or temporal information. Moreover, each input image ensemble can contain animal instances with varying poses, backgrounds, illuminations, and textures. Our key insight is that 3D parts have much simpler shape compared to the overall animal and that they are robust w.r.t. animal pose articulations. Following these insights, we propose LASSIE, a novel optimization framework which discovers 3D parts in a self-supervised manner with minimal user intervention. A key driving force behind LASSIE is the enforcing of 2D-3D part consistency using self-supervisory deep features. Experiments on Pascal-Part and self-collected in-the-wild animal datasets demonstrate considerably better 3D reconstructions as well as both 2D and 3D part discovery compared to prior arts. Project page: chhankyao.github.io/lassie/
翻訳日:2022-07-08 16:30:19 公開日:2022-07-07
# (参考訳) 異なる個人的確率線形帯域:(ほとんど)無料

Differentially Private Stochastic Linear Bandits: (Almost) for Free ( http://arxiv.org/abs/2207.03445v1 )

ライセンス: CC BY 4.0
Osama A. Hanna, Antonious M. Girgis, Christina Fragouli, Suhas Diggavi(参考訳) 本稿では,中央モデル,局所モデル,シャッフルモデルにおける確率線形帯域問題に対する微分プライベートアルゴリズムを提案する。 中心的なモデルでは、最適な非プライベートなアルゴリズムとほとんど同じ後悔を実現しています。 特に、既知のプライベート線形包帯の下位境界と一致する$\tilde{O}(\sqrt{T}+\frac{1}{\epsilon})$の後悔を達成する一方、最もよく知られたアルゴリズムは$\tilde{O}(\frac{1}{\epsilon}\sqrt{T})$である。 局所の場合、定数 $\epsilon$ に対して非プライベートな後悔と一致する$\tilde{o}(\frac{1}{\epsilon}{\sqrt{t}}) の後悔が得られるが、$\epsilon$ が小さいと後悔の罰を受ける。 シャッフルモデルでは、中央の場合のように小さな$\epsilon$に対して$\tilde{o}(\sqrt{t}+\frac{1}{\epsilon})$ % の後悔が得られ、最もよく知られたアルゴリズムは$\tilde{o}(\frac{1}{\epsilon}{t^{3/5}})$の後悔を被る。 我々の数値評価は理論的な結果を検証する。

In this paper, we propose differentially private algorithms for the problem of stochastic linear bandits in the central, local and shuffled models. In the central model, we achieve almost the same regret as the optimal non-private algorithms, which means we get privacy for free. In particular, we achieve a regret of $\tilde{O}(\sqrt{T}+\frac{1}{\epsilon})$ matching the known lower bound for private linear bandits, while the best previously known algorithm achieves $\tilde{O}(\frac{1}{\epsilon}\sqrt{T})$. In the local case, we achieve a regret of $\tilde{O}(\frac{1}{\epsilon}{\sqrt{T}})$ which matches the non-private regret for constant $\epsilon$, but suffers a regret penalty when $\epsilon$ is small. In the shuffled model, we also achieve regret of $\tilde{O}(\sqrt{T}+\frac{1}{\epsilon})$ %for small $\epsilon$ as in the central case, while the best previously known algorithm suffers a regret of $\tilde{O}(\frac{1}{\epsilon}{T^{3/5}})$. Our numerical evaluation validates our theoretical results.
翻訳日:2022-07-08 16:14:52 公開日:2022-07-07
# (参考訳) 補強学習を用いた地下貯水池の確率的最適井戸制御

Stochastic optimal well control in subsurface reservoirs using reinforcement learning ( http://arxiv.org/abs/2207.03456v1 )

ライセンス: CC BY 4.0
Atish Dixit, Ahmed H. ElSheikh(参考訳) 本稿では,事前定義されたパラメータ不確実性分布と部分観測可能なシステムの確率的最適制御を解決するためのモデルフリー強化学習(rl)フレームワークのケーススタディについて述べる。 地下貯留層管理分野における集中的研究活動の課題であるロバスト最適ウェルコントロール問題に焦点を当てた。 この問題に対して、データは井戸でのみ利用可能なため、システムは部分的に観測される。 さらに、利用可能なフィールドデータのスパース性のため、モデルパラメータは非常に不確かである。 原則として、RLアルゴリズムは、状態から行動へのマップである最適なアクションポリシーを学習し、数値的な報酬信号を最大化することができる。 deep rlでは、状態から動作へのこのマッピングはディープニューラルネットワークを使用してパラメータ化される。 ロバスト最適井戸制御問題のrl定式化では、状態は飽和度と井戸内の圧力値で表され、作用は井戸を通る流れを制御するバルブ開口を表す。 数値的な報酬は全掃討効率を示し、不確定なモデルパラメータは地下透水性場である。 モデルパラメータの不確実性は、不確実性分布のクラスター分析を利用するドメインランダム化スキームを導入することで処理される。 透水性場の2つの異なる不確かさ分布を表す2つの地下流れ実験事例について,最先端rlアルゴリズムであるppo(proximal policy optimization)とa2c( advantage actor-critic)を用いて数値計算を行った。 その結果,微分進化アルゴリズムを用いて最適化結果と比較した。 さらに,学習中に使用しなかったパラメータの不確かさ分布から得られた未発見サンプルの学習制御ポリシーを評価することにより,提案手法の頑健性を示す。

We present a case study of model-free reinforcement learning (RL) framework to solve stochastic optimal control for a predefined parameter uncertainty distribution and partially observable system. We focus on robust optimal well control problem which is a subject of intensive research activities in the field of subsurface reservoir management. For this problem, the system is partially observed since the data is only available at well locations. Furthermore, the model parameters are highly uncertain due to sparsity of available field data. In principle, RL algorithms are capable of learning optimal action policies -- a map from states to actions -- to maximize a numerical reward signal. In deep RL, this mapping from state to action is parameterized using a deep neural network. In the RL formulation of the robust optimal well control problem, the states are represented by saturation and pressure values at well locations while the actions represent the valve openings controlling the flow through wells. The numerical reward refers to the total sweep efficiency and the uncertain model parameter is the subsurface permeability field. The model parameter uncertainties are handled by introducing a domain randomisation scheme that exploits cluster analysis on its uncertainty distribution. We present numerical results using two state-of-the-art RL algorithms, proximal policy optimization (PPO) and advantage actor-critic (A2C), on two subsurface flow test cases representing two distinct uncertainty distributions of permeability field. The results were benchmarked against optimisation results obtained using differential evolution algorithm. Furthermore, we demonstrate the robustness of the proposed use of RL by evaluating the learned control policy on unseen samples drawn from the parameter uncertainty distribution that were not used during the training process.
翻訳日:2022-07-08 15:44:07 公開日:2022-07-07
# (参考訳) 対称なチームで学ぶために、ローカルオプティマはグローバルナッシュ均衡である

For Learning in Symmetric Teams, Local Optima are Global Nash Equilibria ( http://arxiv.org/abs/2207.03470v1 )

ライセンス: CC BY 4.0
Scott Emmons, Caspar Oesterheld, Andrew Critch, Vincent Conitzer, Stuart Russell(参考訳) 共通のペイオフゲームにおけるグローバル最適戦略プロファイルがナッシュ均衡であることは1970年代から知られているが、グローバル最適性は結果の適用性を制限する厳密な要件である。 本研究では、任意の局所最適対称戦略プロファイルもまた(グローバル)ナッシュ平衡であることを示す。 さらに,この結果は,共通利得と局所的最適性に対する摂動に頑健であることを示す。 機械学習に適用することにより,局所最適不斉戦略空間を求める任意の勾配法に対して,大域的保証を与える。 この結果は一方的な偏差に対する安定性を示すが、しかしながら、混合局所最適が関節下で不安定な非対称偏差の広いクラスを識別する。 対称ゲーム群における学習アルゴリズムの実行による不安定性の有意性の解析を行い、その結果をマルチエージェントRL、協調的逆RL、分散POMDPに適用可能であることを論じる。

Although it has been known since the 1970s that a globally optimal strategy profile in a common-payoff game is a Nash equilibrium, global optimality is a strict requirement that limits the result's applicability. In this work, we show that any locally optimal symmetric strategy profile is also a (global) Nash equilibrium. Furthermore, we show that this result is robust to perturbations to the common payoff and to the local optimum. Applied to machine learning, our result provides a global guarantee for any gradient method that finds a local optimum in symmetric strategy space. While this result indicates stability to unilateral deviation, we nevertheless identify broad classes of games where mixed local optima are unstable under joint, asymmetric deviations. We analyze the prevalence of instability by running learning algorithms in a suite of symmetric games, and we conclude by discussing the applicability of our results to multi-agent RL, cooperative inverse RL, and decentralized POMDPs.
翻訳日:2022-07-08 15:42:28 公開日:2022-07-07
# エンドツーエンド音声認識

End-to-end Speech-to-Punctuated-Text Recognition ( http://arxiv.org/abs/2207.03169v1 )

ライセンス: Link先を確認
Jumon Nozaki, Tatsuya Kawahara, Kenkichi Ishizuka, Taiichi Hashimoto(参考訳) 従来の自動音声認識システムは,音声認識結果の可読性に重要な句読点を生成しない。 また、機械翻訳のようなその後の自然言語処理タスクにも必要である。 句読点を後処理として音声認識結果に挿入する句読点予測モデルには多くの研究がなされている。 しかし,これらの研究は句読点予測に音響情報を使用しず,音声認識誤差の影響を直接受けている。 本研究では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。 このモデルは,音響情報を用いて,音声認識誤りに対する句読解を頑健に予測することが期待される。 また、中間層と不動テキストの出力を用いてモデルを訓練するために補助損失を導入することを提案する。 実験により,提案モデルの性能とカスケードシステムの性能を比較した。 提案モデルは,音声認識誤り率を犠牲にすることなく,カスケードシステムよりも高い句読点予測精度を実現する。 また,未定テキストに対する中間出力を用いたマルチタスク学習が有効であることを示す。 さらに,提案モデルはカスケードシステムと比較してパラメータの約1/7しか持たない。

Conventional automatic speech recognition systems do not produce punctuation marks which are important for the readability of the speech recognition results. They are also needed for subsequent natural language processing tasks such as machine translation. There have been a lot of works on punctuation prediction models that insert punctuation marks into speech recognition results as post-processing. However, these studies do not utilize acoustic information for punctuation prediction and are directly affected by speech recognition errors. In this study, we propose an end-to-end model that takes speech as input and outputs punctuated texts. This model is expected to predict punctuation robustly against speech recognition errors while using acoustic information. We also propose to incorporate an auxiliary loss to train the model using the output of the intermediate layer and unpunctuated texts. Through experiments, we compare the performance of the proposed model to that of a cascaded system. The proposed model achieves higher punctuation prediction accuracy than the cascaded system without sacrificing the speech recognition error rate. It is also demonstrated that the multi-task learning using the intermediate output against the unpunctuated text is effective. Moreover, the proposed model has only about 1/7th of the parameters compared to the cascaded system.
翻訳日:2022-07-08 15:07:14 公開日:2022-07-07
# マルチメトリックハミルトニアンスペクトルのアライメントによる部分形状の類似性

Partial Shape Similarity via Alignment of Multi-Metric Hamiltonian Spectra ( http://arxiv.org/abs/2207.03018v1 )

ライセンス: Link先を確認
David Bensa\"id, Amit Bracha, Ron Kimmel(参考訳) かなりの部分性を持つ非剛体形状の類似性を評価することは、多くのコンピュータビジョンアプリケーションにおいて基本的な課題である。 本稿では,形状の類似領域をマッチングする新しい公理的手法を提案する。 類似した領域のマッチングは、ラプラス・ベルトラミ作用素(LBO)と密接に関連する作用素のスペクトルのアライメントとして定式化される。 提案手法の主な新規性は、複数の計量を持つ多様体上で定義される微分作用素を考えることである。 計量の選択は、異なる計量の下で同じ多様体を考える間、基本的な形状の性質に関連するため、異なる視点から基礎多様体を分析することができる。 具体的には、スケール不変距離と対応するスケール不変ラプラス・ベルトラミ作用素(SI-LBO)を正規計量と正規LBOとともに検討する。 スケール不変な計量は、明瞭な形状における重要な意味的特徴の位置を強調する。 その結果、si-lboの切断スペクトルは、局所的に湾曲した領域をよりよく捉え、正規lboの切断スペクトルにカプセル化されたグローバル情報を補完する。 これらのデュアルスペクトルのマッチングは、標準ベンチマークでテストした場合、競合する公理的フレームワークよりも優れていることを示す。 我々は,新しいデータセットを導入し,提案手法と最先端学習に基づくデータベース構成の比較を行った。 具体的には、あるデータセットでトレーニングを行い、別のデータセットでテストした場合、トレーニングを伴わない公理的アプローチがディープラーニングの代替よりも優れていることを示す。

Evaluating the similarity of non-rigid shapes with significant partiality is a fundamental task in numerous computer vision applications. Here, we propose a novel axiomatic method to match similar regions across shapes. Matching similar regions is formulated as the alignment of the spectra of operators closely related to the Laplace-Beltrami operator (LBO). The main novelty of the proposed approach is the consideration of differential operators defined on a manifold with multiple metrics. The choice of a metric relates to fundamental shape properties while considering the same manifold under different metrics can thus be viewed as analyzing the underlying manifold from different perspectives. Specifically, we examine the scale-invariant metric and the corresponding scale-invariant Laplace-Beltrami operator (SI-LBO) along with the regular metric and the regular LBO. We demonstrate that the scale-invariant metric emphasizes the locations of important semantic features in articulated shapes. A truncated spectrum of the SI-LBO consequently better captures locally curved regions and complements the global information encapsulated in the truncated spectrum of the regular LBO. We show that matching these dual spectra outperforms competing axiomatic frameworks when tested on standard benchmarks. We introduced a new dataset and compare the proposed method with the state-of-the-art learning based approach in a cross-database configuration. Specifically, we show that, when trained on one data set and tested on another, the proposed axiomatic approach which does not involve training, outperforms the deep learning alternative.
翻訳日:2022-07-08 15:06:41 公開日:2022-07-07
# デュアルヘッドネットワークを用いた胸部X線像のマルチタスク肺結節検出

Multi-Task Lung Nodule Detection in Chest Radiographs with a Dual Head Network ( http://arxiv.org/abs/2207.03050v1 )

ライセンス: Link先を確認
Chen-Han Tsai, Yu-Shao Peng(参考訳) 肺結節は潜在的肺癌の前駆体となる可能性がある。 胸部X線撮影における結節検出の欠如は胸部X線検査医の間では多い課題である。 本研究では胸部X線写真解析のためのマルチタスク肺結節検出アルゴリズムを提案する。 過去の手法とは異なり,本アルゴリズムは,2重ヘッドネットワーク (dhn) を用いた粒度分布予測とともに,粒度の存在を示すグローバルレベルラベルを予測している。 従来の手法と比較して,マルチタスクの定式化がもたらす良好な結節検出性能を示す。 さらに,DHNに適した新しいDual Head Augmentation(DHA)戦略を導入し,その意義をグローバルおよびローカルな結節予測のさらなる強化に示している。

Lung nodules can be an alarming precursor to potential lung cancer. Missed nodule detections during chest radiograph analysis remains a common challenge among thoracic radiologists. In this work, we present a multi-task lung nodule detection algorithm for chest radiograph analysis. Unlike past approaches, our algorithm predicts a global-level label indicating nodule presence along with local-level labels predicting nodule locations using a Dual Head Network (DHN). We demonstrate the favorable nodule detection performance that our multi-task formulation yields in comparison to conventional methods. In addition, we introduce a novel Dual Head Augmentation (DHA) strategy tailored for DHN, and we demonstrate its significance in further enhancing global and local nodule predictions.
翻訳日:2022-07-08 15:04:17 公開日:2022-07-07
# deformer: 教師なし医用画像登録のための変位場学習に向けて

Deformer: Towards Displacement Field Learning for Unsupervised Medical Image Registration ( http://arxiv.org/abs/2207.03180v1 )

ライセンス: Link先を確認
Jiashun Chen, Donghuan Lu, Yu Zhang, Dong Wei, Munan Ning, Xinyu Shi, Zhe Xu and Yefeng Zheng(参考訳) 近年,変形可能な画像登録タスクに対して,ディープラーニングに基づくアプローチが広く研究されている。 しかし、ほとんどの努力は畳み込みニューラルネットワークを通して合成画像表現を空間変換に直接マッピングし、空間対応をキャプチャする能力の制限を無視している。 一方、トランスフォーマは注意機構との空間的関係をよりよく特徴付けることができ、その長距離依存は登録作業に有害であり、距離が大きすぎるボクセルは対応するペアではあり得ない。 本研究では,変形可能な画像登録タスクのためのマルチスケールフレームワークとともに,新しい変形モジュールを提案する。 Deformerモジュールは、複数の基底の重み付け和として変位ベクトル予測を定式化することにより、画像表現から空間変換へのマッピングを容易にするように設計されている。 粗大な方法で変位場を予測するマルチスケールフレームワークにより,従来の学習手法と比較して優れた性能が得られる。 2つの公開データセットに関する総合的な実験を行い、提案したDeformerモジュールとマルチスケールフレームワークの有効性を実証した。

Recently, deep-learning-based approaches have been widely studied for deformable image registration task. However, most efforts directly map the composite image representation to spatial transformation through the convolutional neural network, ignoring its limited ability to capture spatial correspondence. On the other hand, Transformer can better characterize the spatial relationship with attention mechanism, its long-range dependency may be harmful to the registration task, where voxels with too large distances are unlikely to be corresponding pairs. In this study, we propose a novel Deformer module along with a multi-scale framework for the deformable image registration task. The Deformer module is designed to facilitate the mapping from image representation to spatial transformation by formulating the displacement vector prediction as the weighted summation of several bases. With the multi-scale framework to predict the displacement fields in a coarse-to-fine manner, superior performance can be achieved compared with traditional and learning-based approaches. Comprehensive experiments on two public datasets are conducted to demonstrate the effectiveness of the proposed Deformer module as well as the multi-scale framework.
翻訳日:2022-07-08 15:04:05 公開日:2022-07-07
# BMD-GAN:X線画像分解法による骨密度推定 : 階層学習を用いた骨分離定量CTの投影

BMD-GAN: Bone mineral density estimation using x-ray image decomposition into projections of bone-segmented quantitative computed tomography using hierarchical learning ( http://arxiv.org/abs/2207.03210v1 )

ライセンス: Link先を確認
Yi Gu, Yoshito Otake, Keisuke Uemura, Mazen Soufi, Masaki Takao, Nobuhiko Sugano, and Yoshinobu Sato(参考訳) そこで本研究では, 原X線画像から骨密度(BMD)を推定する方法を提案する。 DXA (Dual-Energy X-ray absorptiometry) とQCT (Quantical Computed Tomography) は骨粗しょう症の診断に高い精度を提供するが、これらは特別な装置とスキャンプロトコルを必要とする。 x線画像からbmdを測定すると日和見スクリーニングができ、早期診断に有用である。 X線画像とBMDの関係を直接学習する従来の方法は、X線画像の強度変化が大きいため、高精度なトレーニングデータセットを必要とする。 そこで本研究では, GAN(Generative Adversarial Network)のトレーニングにQCTを用い, 骨分離QCTの投影にX線画像を分解する手法を提案する。 提案する階層学習により,小領域のターゲットを定量的に分解するロバスト性と精度が向上した。 BMD-GAN法を用いて200例の変形性膝関節症患者の評価を行ったところ, 予測真偽DXA測定BMDのPearson相関係数は0.888であった。 大規模なトレーニングデータベースを必要としないことに加えて,脊椎や骨など他の解剖学的領域への拡張性も有用である。

We propose a method for estimating the bone mineral density (BMD) from a plain x-ray image. Dual-energy X-ray absorptiometry (DXA) and quantitative computed tomography (QCT) provide high accuracy in diagnosing osteoporosis; however, these modalities require special equipment and scan protocols. Measuring BMD from an x-ray image provides an opportunistic screening, which is potentially useful for early diagnosis. The previous methods that directly learn the relationship between x-ray images and BMD require a large training dataset to achieve high accuracy because of large intensity variations in the x-ray images. Therefore, we propose an approach using the QCT for training a generative adversarial network (GAN) and decomposing an x-ray image into a projection of bone-segmented QCT. The proposed hierarchical learning improved the robustness and accuracy of quantitatively decomposing a small-area target. The evaluation of 200 patients with osteoarthritis using the proposed method, which we named BMD-GAN, demonstrated a Pearson correlation coefficient of 0.888 between the predicted and ground truth DXA-measured BMD. Besides not requiring a large-scale training database, another advantage of our method is its extensibility to other anatomical areas, such as the vertebrae and rib bones.
翻訳日:2022-07-08 15:03:46 公開日:2022-07-07
# D2HNet:ロバスト・ナイト・イメージ復元のための階層型ネットワークとの連携

D2HNet: Joint Denoising and Deblurring with Hierarchical Network for Robust Night Image Restoration ( http://arxiv.org/abs/2207.03294v1 )

ライセンス: Link先を確認
Yuzhi Zhao, Yongzhe Xu, Qiong Yan, Dingdong Yang, Xuehui Wang, Lai-Man Po(参考訳) 現代のスマートフォンカメラによる夜間イメージングは、低光子数と避けられないノイズのため、厄介である。 露光時間やisoレーティングを直接調整しても、低照度環境ではシャープでノイズのない画像を同時に得ることはできない。 ノイズやぼやけた夜のイメージを強化する方法が数多く提案されているが、実際の夜の写真のパフォーマンスは2つの主な理由から未だに不十分である。 1)単一画像における限られた情報及び 2) 合成訓練画像と実世界の写真(例えば、ぼやけた領域と解像度の違い)のドメインギャップ。 連続した長期・短期露光画像からの情報を活用するために,それらを融合する学習型パイプラインを提案する。 D2HNetフレームワークは、短時間露光画像の誘導の下で、長時間露光画像を損なうことによって高品質な画像を復元する。 ドメインギャップを縮小するために、2相のdeblurnet-enhancenetアーキテクチャを利用し、固定された低解像度で正確なぼかし除去を行い、異なる解像度入力で広範囲のぼけを処理できるようにする。 さらに,HDビデオからD2データセットを合成し,その実験を行う。 検証セットと実画像を用いた結果から,視覚的品質と最先端の定量的スコアが得られた。 D2HNetのコード、モデル、D2-Datasetはhttps://github.com/zhaoyuzhi/D2HNetにある。

Night imaging with modern smartphone cameras is troublesome due to low photon count and unavoidable noise in the imaging system. Directly adjusting exposure time and ISO ratings cannot obtain sharp and noise-free images at the same time in low-light conditions. Though many methods have been proposed to enhance noisy or blurry night images, their performances on real-world night photos are still unsatisfactory due to two main reasons: 1) Limited information in a single image and 2) Domain gap between synthetic training images and real-world photos (e.g., differences in blur area and resolution). To exploit the information from successive long- and short-exposure images, we propose a learning-based pipeline to fuse them. A D2HNet framework is developed to recover a high-quality image by deblurring and enhancing a long-exposure image under the guidance of a short-exposure image. To shrink the domain gap, we leverage a two-phase DeblurNet-EnhanceNet architecture, which performs accurate blur removal on a fixed low resolution so that it is able to handle large ranges of blur in different resolution inputs. In addition, we synthesize a D2-Dataset from HD videos and experiment on it. The results on the validation set and real photos demonstrate our methods achieve better visual quality and state-of-the-art quantitative scores. The D2HNet codes, models, and D2-Dataset can be found at https://github.com/zhaoyuzhi/D2HNet.
翻訳日:2022-07-08 15:03:16 公開日:2022-07-07
# マルチモーダル医用画像補完のための新しい統一条件スコアベース生成枠組み

A Novel Unified Conditional Score-based Generative Framework for Multi-modal Medical Image Completion ( http://arxiv.org/abs/2207.03430v1 )

ライセンス: Link先を確認
Xiangxi Meng, Yuning Gu, Yongsheng Pan, Nizhuan Wang, Peng Xue, Mengkang Lu, Xuming He, Yiqiang Zhan and Dinggang Shen(参考訳) マルチモーダルな画像補完は、多モーダルな診断タスクにおいて欠落するモダリティの問題を軽減するために広く応用されている。 しかし、既存のほとんどの合成法において、それらの欠落モダリティの推論は、利用可能なモダリティから決定論的マッピングに崩壊し、交叉モダリティに固有の不確かさを無視することができる。 そこで,本研究では,SGMのモデリングおよび確率分布の確率的サンプリングにおいて,SGMを有効活用するために,UMM-CSGM(Unified Multi-Modal Conditional Score-based Generative Model)を提案する。 特に, UMM-CSGMは, 条件拡散と逆生成により, クロスモーダルな条件分布の包括的集合を学習するために, マルチインマルチアウトコンディショナルスコアネットワーク(mm-CSN)を採用している。 このようにして、生成プロセスは、利用可能なすべての情報によって正確に条件付けすることができ、欠落したモダリティのすべての構成を単一のネットワークに適合させることができる。 BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な拡張と不規則な領域をより確実に合成できることが示された。

Multi-modal medical image completion has been extensively applied to alleviate the missing modality issue in a wealth of multi-modal diagnostic tasks. However, for most existing synthesis methods, their inferences of missing modalities can collapse into a deterministic mapping from the available ones, ignoring the uncertainties inherent in the cross-modal relationships. Here, we propose the Unified Multi-Modal Conditional Score-based Generative Model (UMM-CSGM) to take advantage of Score-based Generative Model (SGM) in modeling and stochastically sampling a target probability distribution, and further extend SGM to cross-modal conditional synthesis for various missing-modality configurations in a unified framework. Specifically, UMM-CSGM employs a novel multi-in multi-out Conditional Score Network (mm-CSN) to learn a comprehensive set of cross-modal conditional distributions via conditional diffusion and reverse generation in the complete modality space. In this way, the generation process can be accurately conditioned by all available information, and can fit all possible configurations of missing modalities in a single network. Experiments on BraTS19 dataset show that the UMM-CSGM can more reliably synthesize the heterogeneous enhancement and irregular area in tumor-induced lesions for any missing modalities.
翻訳日:2022-07-08 15:02:00 公開日:2022-07-07
# 不確実性を利用した大気乱流劣化画像の復元学習

Learning to restore images degraded by atmospheric turbulence using uncertainty ( http://arxiv.org/abs/2207.03447v1 )

ライセンス: Link先を確認
Rajeev Yasarla and Vishal M. Patel(参考訳) 大気乱流は、大気の屈折率の空間的および時間的ランダムな変動を引き起こすことにより、長距離イメージングシステムによって取得される画像の品質を著しく低下させることができる。 屈折率の変化は、撮像された画像が幾何学的に歪んでぼやけてしまう。 したがって、大気乱流による画像の視覚的劣化を補うことが重要である。 本稿では,大気の乱流により劣化した1つの画像の復元のための深層学習に基づくアプローチを提案する。 我々はモンテカルロの落下点に基づくてんかんの不確実性を利用して、ネットワークの回復が困難な画像中の領域を捉えている。 推定の不確かさマップは、復元された画像を得るためにネットワークを誘導するために使用される。 提案手法の意義を示すために,合成画像と実画像を用いた広範な実験を行った。 コードはhttps://github.com/rajeevyasarla/AT-Netで入手できる。

Atmospheric turbulence can significantly degrade the quality of images acquired by long-range imaging systems by causing spatially and temporally random fluctuations in the index of refraction of the atmosphere. Variations in the refractive index causes the captured images to be geometrically distorted and blurry. Hence, it is important to compensate for the visual degradation in images caused by atmospheric turbulence. In this paper, we propose a deep learning-based approach for restring a single image degraded by atmospheric turbulence. We make use of the epistemic uncertainty based on Monte Carlo dropouts to capture regions in the image where the network is having hard time restoring. The estimated uncertainty maps are then used to guide the network to obtain the restored image. Extensive experiments are conducted on synthetic and real images to show the significance of the proposed work. Code is available at : https://github.com/rajeevyasarla/AT-Net
翻訳日:2022-07-08 15:01:36 公開日:2022-07-07
# TFCNs:医療画像分割のためのCNNトランスフォーマーハイブリッドネットワーク

TFCNs: A CNN-Transformer Hybrid Network for Medical Image Segmentation ( http://arxiv.org/abs/2207.03450v1 )

ライセンス: Link先を確認
Zihan Li, Dihan Li, Cangbai Xu, Weice Wang, Qingqi Hong, Qingde Li, Jie Tian(参考訳) 医療画像分割は医療情報分析に関する最も基本的な課題の1つである。 これまでに、U-NetやFC-DenseNetなど、ディープラーニングベースのテクニックを含む、さまざまなソリューションが提案されている。 しかし, 医用画像に内在する拡大や歪みの存在, 正常な組織に類似した病変の存在など, 高精度な医用画像分割は依然として極めて困難な課題である。 本稿では, FC-DenseNet に ResLinear-Transformer (RL-Transformer) と Convolutional Linear Attention Block (CLAB) を導入することで, この問題に対処する TFCN を提案する。 TFCNsはCT画像からより潜伏した情報を特徴抽出に利用できるだけでなく、意味的特徴をキャプチャして拡散し、CLABモジュールを通してより効果的に非意味的特徴をフィルタリングすることができる。 実験の結果,TFCNsはSynapseデータセット上で83.72\%のダイススコアで最先端の性能を達成できることがわかった。 また,tfcnsのロバスト性を評価し,covid-19データセットの病巣領域への影響について検討した。 Pythonコードはhttps://github.com/HUANGLIZI/TFCNsで公開される。

Medical image segmentation is one of the most fundamental tasks concerning medical information analysis. Various solutions have been proposed so far, including many deep learning-based techniques, such as U-Net, FC-DenseNet, etc. However, high-precision medical image segmentation remains a highly challenging task due to the existence of inherent magnification and distortion in medical images as well as the presence of lesions with similar density to normal tissues. In this paper, we propose TFCNs (Transformers for Fully Convolutional denseNets) to tackle the problem by introducing ResLinear-Transformer (RL-Transformer) and Convolutional Linear Attention Block (CLAB) to FC-DenseNet. TFCNs is not only able to utilize more latent information from the CT images for feature extraction, but also can capture and disseminate semantic features and filter non-semantic features more effectively through the CLAB module. Our experimental results show that TFCNs can achieve state-of-the-art performance with dice scores of 83.72\% on the Synapse dataset. In addition, we evaluate the robustness of TFCNs for lesion area effects on the COVID-19 public datasets. The Python code will be made publicly available on https://github.com/HUANGLIZI/TFCNs.
翻訳日:2022-07-08 15:00:39 公開日:2022-07-07
# 多くの弱・無効な楽器による楽器変数推定について

On the instrumental variable estimation with many weak and invalid instruments ( http://arxiv.org/abs/2207.03035v1 )

ライセンス: Link先を確認
Yiqi Lin, Frank Windmeijer, Xinyuan Song, Qingliang Fan(参考訳) 線形インスツルメンタル変数(IV)モデルにおける同定の基本的な問題点について検討する。 人気多数派と複数のルールを再検討し、一般に「ifと only」の識別条件が存在しないことを示す。 計算アルゴリズムでは,複数のルールに匹敵する「スパース・ルール」を仮定して,2段階選択に基づく他のIV推定器に対する非凸ペナル化手法の利点を,選択の整合性および個々に弱いIVの収容性の観点から検討し,証明する。 さらに,oracle のスパース構造を同時に提供するため,識別条件に適合するサロゲートスパルセストペナルティを提案する。 従来より弱いiv強度条件を持つ推定器に対して望ましい理論的性質が導出されている。 有限サンプル特性をシミュレーションを用いて実証し,貿易が経済成長に与える影響に関する実証的研究に選択と評価法を適用した。

We discuss the fundamental issue of identification in linear instrumental variable (IV) models with unknown IV validity. We revisit the popular majority and plurality rules and show that no identification condition can be "if and only if" in general. With the assumption of the "sparsest rule", which is equivalent to the plurality rule but becomes operational in computation algorithms, we investigate and prove the advantages of non-convex penalized approaches over other IV estimators based on two-step selections, in terms of selection consistency and accommodation for individually weak IVs. Furthermore, we propose a surrogate sparsest penalty that aligns with the identification condition and provides oracle sparse structure simultaneously. Desirable theoretical properties are derived for the proposed estimator with weaker IV strength conditions compared to the previous literature. Finite sample properties are demonstrated using simulations and the selection and estimation method is applied to an empirical study concerning the effect of trade on economic growth.
翻訳日:2022-07-08 15:00:15 公開日:2022-07-07
# 単一の$t$-gateは分散学習を困難にする

A single $T$-gate makes distribution learning hard ( http://arxiv.org/abs/2207.03140v1 )

ライセンス: Link先を確認
Marcel Hinsche, Marios Ioannou, Alexander Nietner, Jonas Haferkamp, Yihui Quek, Dominik Hangleiter, Jean-Pierre Seifert, Jens Eisert, Ryan Sweke(参考訳) サンプルから確率分布を学習する作業は、自然科学で広く行われている。 局所量子回路の出力分布は特に興味深い分布のクラスを形成し、量子アドバンテージの提案と様々な量子機械学習アルゴリズムの両方にとって重要な意味を持つ。 本研究では,局所量子回路の出力分布の学習可能性について,広範囲に評価する。 最初の結果は、これらの分布の効率的な学習可能性と効率的なシミュラビリティの関係についての洞察を与える。 具体的には、クリフォード回路に関連する密度モデリング問題を効率的に解くことができることを証明し、深さ$d=n^{\omega(1)}$回路では、1つの$t$-gateを回路に注入することはこの問題を難しくする。 この結果は、効率的なシミュラビリティが効率的学習可能性を意味するものではないことを示している。 第2の成果セットは、量子生成モデリングアルゴリズムの可能性と限界に関する洞察を提供します。 最初に、深度$d=n^{\Omega(1)}=局所量子回路に関連する生成的モデリング問題は、古典的あるいは量子的な学習アルゴリズムでは困難であることを示す。 結果として、このタスクに実用的な利点を得るために量子アルゴリズムを使うことはできない。 次に、多種多様な関連する学習アルゴリズム(例えばハイブリッド量子古典アルゴリズム)に対して、深さ$d=\omega(\log(n))$ Clifford回路に関連する生成的モデリング問題さえも困難であることを示す。 この結果は、短期的ハイブリッド量子古典生成モデリングアルゴリズムの適用性に制限を課す。

The task of learning a probability distribution from samples is ubiquitous across the natural sciences. The output distributions of local quantum circuits form a particularly interesting class of distributions, of key importance both to quantum advantage proposals and a variety of quantum machine learning algorithms. In this work, we provide an extensive characterization of the learnability of the output distributions of local quantum circuits. Our first result yields insight into the relationship between the efficient learnability and the efficient simulatability of these distributions. Specifically, we prove that the density modelling problem associated with Clifford circuits can be efficiently solved, while for depth $d=n^{\Omega(1)}$ circuits the injection of a single $T$-gate into the circuit renders this problem hard. This result shows that efficient simulatability does not imply efficient learnability. Our second set of results provides insight into the potential and limitations of quantum generative modelling algorithms. We first show that the generative modelling problem associated with depth $d=n^{\Omega(1)}$ local quantum circuits is hard for any learning algorithm, classical or quantum. As a consequence, one cannot use a quantum algorithm to gain a practical advantage for this task. We then show that, for a wide variety of the most practically relevant learning algorithms -- including hybrid-quantum classical algorithms -- even the generative modelling problem associated with depth $d=\omega(\log(n))$ Clifford circuits is hard. This result places limitations on the applicability of near-term hybrid quantum-classical generative modelling algorithms.
翻訳日:2022-07-08 14:59:57 公開日:2022-07-07
# 多目的最適化によるランキングのマルチラベル学習

Multi-Label Learning to Rank through Multi-Objective Optimization ( http://arxiv.org/abs/2207.03060v1 )

ライセンス: Link先を確認
Debabrata Mahapatra, Chaosheng Dong, Yetian Chen, Deqiang Meng, Michinari Momma(参考訳) 近年,Learning to Rank(LTR)技術は情報検索システム,特に検索ランキングアプリケーションにおいて普及している。 ランキングモデルのトレーニングに一般的に使用されるクエリ項目関連ラベルは、製品検索の製品評価など、人の行動の騒々しい測定値であることが多い。 粗い測定は、単一の関連性基準に関して、基礎的な真理を不均一にランク付けする。 あいまいさを解決するためには、多くの関連基準を用いてモデルを訓練することが望ましいため、MLLTR(Multi-Label LTR)が生まれる。 さらに、製品検索において、製品の品質と購入可能性に基づいてランキングモデルを訓練し、収益を増加させるなど、同時に最適化する上で、相反するが重要な複数の目標を定式化する。 本研究では,MLLTR問題における多目的最適化(MOO)の側面を活用し,最近開発されたMOOアルゴリズムを用いて解く。 具体的には,ラベルからの情報を様々な方法で組み合わせて,目標間のトレードオフを有意義に特徴付ける,汎用的な枠組みを提案する。 我々のフレームワークは、任意の勾配に基づくMOOアルゴリズムを、MLLTR問題を解決するために使用できる。 提案フレームワークを2つのltrデータセットと1つのeコマースデータセット上でテストし,有効性を示す。

Learning to Rank (LTR) technique is ubiquitous in the Information Retrieval system nowadays, especially in the Search Ranking application. The query-item relevance labels typically used to train the ranking model are often noisy measurements of human behavior, e.g., product rating for product search. The coarse measurements make the ground truth ranking non-unique with respect to a single relevance criterion. To resolve ambiguity, it is desirable to train a model using many relevance criteria, giving rise to Multi-Label LTR (MLLTR). Moreover, it formulates multiple goals that may be conflicting yet important to optimize for simultaneously, e.g., in product search, a ranking model can be trained based on product quality and purchase likelihood to increase revenue. In this research, we leverage the Multi-Objective Optimization (MOO) aspect of the MLLTR problem and employ recently developed MOO algorithms to solve it. Specifically, we propose a general framework where the information from labels can be combined in a variety of ways to meaningfully characterize the trade-off among the goals. Our framework allows for any gradient based MOO algorithm to be used for solving the MLLTR problem. We test the proposed framework on two publicly available LTR datasets and one e-commerce dataset to show its efficacy.
翻訳日:2022-07-08 14:58:58 公開日:2022-07-07
# 機械学習における集合構成バイアスの学習が希少物体の同定に及ぼす影響

An Exploration of How Training Set Composition Bias in Machine Learning Affects Identifying Rare Objects ( http://arxiv.org/abs/2207.03207v1 )

ライセンス: Link先を確認
Sean E. Lake and Chao-Wei Tsai(参考訳) 1つのクラスが本質的にまれなデータで機械学習の分類器をトレーニングする場合、分類器はまれなクラスにあまりに少ないソースを割り当てる。 これに対処するには、レアクラスの例を強調して無視しないようにするのが一般的です。 また、ソースタイプのバランスが同じ理由でほぼ等しくなるような制限されたデータでトレーニングするプラクティスも頻繁に行われます。 ここでは,これらのプラクティスが,レアクラスへの過剰割り当てソースに対してモデルにバイアスを与える可能性があることを示す。 また,データバイアスのトレーニングがトレーニングモデルの予測に統計的に有意な影響を及ぼした場合の検出方法や,バイアスの影響を低減する方法について検討した。 ここで開発されたテクニックの影響の大きさは、アプリケーションの詳細によって異なるが、ほとんどの場合、控えめであるべきである。 しかし、それらは機械学習の分類モデルが使われるたびに普遍的に適用され、標本のばらつきに対するベッセルの補正と類似している。

When training a machine learning classifier on data where one of the classes is intrinsically rare, the classifier will often assign too few sources to the rare class. To address this, it is common to up-weight the examples of the rare class to ensure it isn't ignored. It is also a frequent practice to train on restricted data where the balance of source types is closer to equal for the same reason. Here we show that these practices can bias the model toward over-assigning sources to the rare class. We also explore how to detect when training data bias has had a statistically significant impact on the trained model's predictions, and how to reduce the bias's impact. While the magnitude of the impact of the techniques developed here will vary with the details of the application, for most cases it should be modest. They are, however, universally applicable to every time a machine learning classification model is used, making them analogous to Bessel's correction to the sample variance.
翻訳日:2022-07-08 14:57:20 公開日:2022-07-07
# 空力ストール予測のための機械学習

Machine Learning to Predict Aerodynamic Stall ( http://arxiv.org/abs/2207.03424v1 )

ライセンス: Link先を確認
Ettore Saetta, Renato Tognaccini and Gianluca Iaccarino(参考訳) 翼空力シミュレーションのデータベースを用いて畳み込みオートエンコーダを訓練し、全体的な精度と解釈可能性の観点から評価する。 本研究の目的は, 自動エンコーダが気翼圧力分布の線形応答と非線形応答と, 攻撃角度の変化を区別する能力について検討することである。 学習インフラの感度解析の後,超低次元再構成を対象とするオートエンコーダによって同定された潜時空間について検討した。 また,デコーダを用いて,オートエンコーダが学習した潜在表現の補間と外挿により,新しい合成翼ジオメトリと空力解を生成する方法を提案する。

A convolutional autoencoder is trained using a database of airfoil aerodynamic simulations and assessed in terms of overall accuracy and interpretability. The goal is to predict the stall and to investigate the ability of the autoencoder to distinguish between the linear and non-linear response of the airfoil pressure distribution to changes in the angle of attack. After a sensitivity analysis on the learning infrastructure, we investigate the latent space identified by the autoencoder targeting extreme compression rates, i.e. very low-dimensional reconstructions. We also propose a strategy to use the decoder to generate new synthetic airfoil geometries and aerodynamic solutions by interpolation and extrapolation in the latent representation learned by the autoencoder.
翻訳日:2022-07-08 14:56:48 公開日:2022-07-07
# 変圧器を一緒に訓練する

Training Transformers Together ( http://arxiv.org/abs/2207.03481v1 )

ライセンス: Link先を確認
Alexander Borzunov, Max Ryabinin, Tim Dettmers, Quentin Lhoest, Lucile Saulnier, Michael Diskin, Yacine Jernite, Thomas Wolf(参考訳) 最先端モデルのトレーニングに必要なインフラストラクチャは過大に高くなり、大企業や機関にのみ手頃な価格でトレーニングできるようになっている。 近年の研究では、多くの独立政党からハードウェアをプールし、インターネット上で共有モデルをトレーニングすることで、そのようなモデルを協調的にトレーニングする方法が提案されている。 このデモでは,OpenAI DALL-Eに似たテキスト・画像変換器を共同で訓練した。 私たちは視聴者に、利用可能なハードウェアを使ってコントリビュートする方法を指示して、現在進行中のトレーニングランに参加するように招待しました。 このようなトレーニング実行に関連するエンジニアリング上の課題(通信速度の低下、メモリの制限、デバイス間の不均一なパフォーマンス、セキュリティ上の懸念)に対処する方法について説明し、視聴者がどのようにコラボレーティブなトレーニングを実行するかを論じた。 最後に,結果のモデルが,複数のプロンプトに対して妥当な品質の画像を生成することを示す。

The infrastructure necessary for training state-of-the-art models is becoming overly expensive, which makes training such models affordable only to large corporations and institutions. Recent work proposes several methods for training such models collaboratively, i.e., by pooling together hardware from many independent parties and training a shared model over the Internet. In this demonstration, we collaboratively trained a text-to-image transformer similar to OpenAI DALL-E. We invited the viewers to join the ongoing training run, showing them instructions on how to contribute using the available hardware. We explained how to address the engineering challenges associated with such a training run (slow communication, limited memory, uneven performance between devices, and security concerns) and discussed how the viewers can set up collaborative training runs themselves. Finally, we show that the resulting model generates images of reasonable quality on a number of prompts.
翻訳日:2022-07-08 14:53:43 公開日:2022-07-07
# 1ビット圧縮センシングのための最適測定数付き2成分繰り返しハード閾値収束

Binary Iterative Hard Thresholding Converges with Optimal Number of Measurements for 1-Bit Compressed Sensing ( http://arxiv.org/abs/2207.03427v1 )

ライセンス: Link先を確認
Namiko Matsumoto, Arya Mazumdar(参考訳) 圧縮センシングは線形演算に依存する高次元信号取得・回復技術として非常に成功した。 しかし、実際の信号の測定は保存または処理前に量子化する必要がある。 1(1)ビット圧縮センシングは、圧縮センシングの重定量化バージョンであり、信号の各線形測定は、測定の符号である1ビットに縮小される。 このような測定を十分に集めると、1ビット圧縮センシングにおけるリカバリ問題は、可能な限り精度で元の信号を見つけることを目的としている。 回復問題は、学習理論における伝統的な「半空間学習」問題に関連している。 スパースベクトルの回復のために、1ビットの計測から一般的な再構成手法はbinary iterative hard thresholding (biht) アルゴリズムである。 このアルゴリズムは単純な射影下勾配降下法であり、問題の非凸性にもかかわらず経験的に収束することが知られている。 BIHTの収束性は理論上は正当化されなかったが、非常に多くの測定値(例えば、$\max\{k^{10}, 24^{48}, k^{3.5}/\epsilon\}$、$k$はスパーシティ、$\epsilon$は近似誤差を示し、この式でさえ他の因子を隠蔽する)を除いては、理論上は正当化されなかった。 本稿では,BIHT アルゴリズムが $\tilde{O}(\frac{k}{\epsilon})$ で収束することを示す。 この$k$と$\epsilon$への依存は、1ビット圧縮センシングにおける任意の回復法に最適である。 この結果、我々の知る限りでは、bihtはすべてのパラメータ($k$と$\epsilon$の両方)で最適な測定数を必要とする唯一の実用的で効率的な(多項時間)アルゴリズムである。 これはまた、適切な構造条件下で、非凸問題に対する正しい解に収束する勾配降下アルゴリズムの例である。

Compressed sensing has been a very successful high-dimensional signal acquisition and recovery technique that relies on linear operations. However, the actual measurements of signals have to be quantized before storing or processing. 1(One)-bit compressed sensing is a heavily quantized version of compressed sensing, where each linear measurement of a signal is reduced to just one bit: the sign of the measurement. Once enough of such measurements are collected, the recovery problem in 1-bit compressed sensing aims to find the original signal with as much accuracy as possible. The recovery problem is related to the traditional "halfspace-learning" problem in learning theory. For recovery of sparse vectors, a popular reconstruction method from 1-bit measurements is the binary iterative hard thresholding (BIHT) algorithm. The algorithm is a simple projected sub-gradient descent method, and is known to converge well empirically, despite the nonconvexity of the problem. The convergence property of BIHT was not theoretically justified, except with an exorbitantly large number of measurements (i.e., a number of measurement greater than $\max\{k^{10}, 24^{48}, k^{3.5}/\epsilon\}$, where $k$ is the sparsity, $\epsilon$ denotes the approximation error, and even this expression hides other factors). In this paper we show that the BIHT algorithm converges with only $\tilde{O}(\frac{k}{\epsilon})$ measurements. Note that, this dependence on $k$ and $\epsilon$ is optimal for any recovery method in 1-bit compressed sensing. With this result, to the best of our knowledge, BIHT is the only practical and efficient (polynomial time) algorithm that requires the optimal number of measurements in all parameters (both $k$ and $\epsilon$). This is also an example of a gradient descent algorithm converging to the correct solution for a nonconvex problem, under suitable structural conditions.
翻訳日:2022-07-08 14:53:26 公開日:2022-07-07
# スケーラブルなニューラル音声符号化のためのクロススケールベクトル量子化

Cross-Scale Vector Quantization for Scalable Neural Speech Coding ( http://arxiv.org/abs/2207.03067v1 )

ライセンス: Link先を確認
Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu(参考訳) ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。 既存のニューラルオーディオコーデックは通常、トレーニング中に特定のビットレートを強制するので、ターゲットのビットレートごとに異なるモデルをトレーニングする必要がある。 本稿では,ステップワイズ特徴の融合と精細化により,マルチスケール特徴を段階的に符号化するクロススケールスケーラブルベクトル量子化スキーム(csvq)を提案する。 このようにして、ビットストリームの一部を受信するだけで粗いレベルの信号が再構成され、より多くのビットが利用可能になると徐々に品質が向上する。 提案されたcsvqスキームは、ミラー付きオートエンコーダ構造を持つ任意のニューラルオーディオ符号化ネットワークに柔軟に適用でき、ビットレートスケーラビリティを実現することができる。 提案手法は,古典的残留VQ(RVQ)よりも拡張性が高いことを示す。 さらに、3kbpsのcsvqは9kbpsのopusと3kbpsのlyraを上回り、ビットレートを増加させる優雅な品質向上をもたらすことができた。

Bitrate scalability is a desirable feature for audio coding in real-time communications. Existing neural audio codecs usually enforce a specific bitrate during training, so different models need to be trained for each target bitrate, which increases the memory footprint at the sender and the receiver side and transcoding is often needed to support multiple receivers. In this paper, we introduce a cross-scale scalable vector quantization scheme (CSVQ), in which multi-scale features are encoded progressively with stepwise feature fusion and refinement. In this way, a coarse-level signal is reconstructed if only a portion of the bitstream is received, and progressively improves the quality as more bits are available. The proposed CSVQ scheme can be flexibly applied to any neural audio coding network with a mirrored auto-encoder structure to achieve bitrate scalability. Subjective results show that the proposed scheme outperforms the classical residual VQ (RVQ) with scalability. Moreover, the proposed CSVQ at 3 kbps outperforms Opus at 9 kbps and Lyra at 3kbps and it could provide a graceful quality boost with bitrate increase.
翻訳日:2022-07-08 14:52:03 公開日:2022-07-07
# 階層的三つ星安定性に対する代数的および機械学習アプローチ

Algebraic and machine learning approach to hierarchical triple-star stability ( http://arxiv.org/abs/2207.03151v1 )

ライセンス: Link先を確認
Pavan Vynatheya, Adrian S. Hamers, Rosemary A. Mardling and Earl P. Bellinger(参考訳) 階層型三重星系の力学安定性を決定する2つの手法を提案する。 1つ目は、mardling & aarseth(2001)の半解析的安定性基準の改善であり、ここでは軌道離心率への依存性を導入し、軌道傾斜角への依存性を改善する。 2つ目は機械学習のアプローチで、3重星系を 'stable' と 'unstable' に分類するために多層パーセプトロン(MLP)を使用する。 これを実現するために,N-body code MSTARを用いて,10^6階層の大規模トレーニングデータセットを生成する。 両アプローチは,MLPモデルが最も優れた安定性基準(2001年)よりも優れていた。 改良された安定性公式と機械学習モデルはそれぞれ93%と95%の全体的な分類精度を有する。 パラメータ範囲内での階層的三つ星系の安定性をほぼ必要とせずに正確に予測するMPPモデルは,使い易いPythonスクリプトの形でGithubで公開されている。

We present two approaches to determine the dynamical stability of a hierarchical triple-star system. The first is an improvement on the semi-analytical stability criterion of Mardling & Aarseth (2001), where we introduce a dependence on inner orbital eccentricity and improve the dependence on mutual orbital inclination. The second involves a machine learning approach, where we use a multilayer perceptron (MLP) to classify triple-star systems as `stable' and `unstable'. To achieve this, we generate a large training data set of 10^6 hierarchical triples using the N-body code MSTAR. Both our approaches perform better than the original Mardling & Aarseth (2001) stability criterion, with the MLP model performing the best. The improved stability formula and the machine learning model have overall classification accuracies of 93 % and 95 % respectively. Our MLP model, which accurately predicts the stability of any hierarchical triple-star system within the parameter ranges studied with almost no computation required, is publicly available on Github in the form of an easy-to-use Python script.
翻訳日:2022-07-08 14:51:41 公開日:2022-07-07
# NESC: GANを用いたロバスト・ニューラルエンド-2-エンド音声符号化

NESC: Robust Neural End-2-End Speech Coding with GANs ( http://arxiv.org/abs/2207.03282v1 )

ライセンス: Link先を確認
Nicola Pia and Kishan Gupta and Srikanth Korse and Markus Multrus and Guillaume Fuchs(参考訳) ニューラルネットワークは、非常に低いビットレートで音声符号化の問題に取り組むための強力なツールであることが証明されている。 しかし、現実世界の条件下でロバストに操作できるニューラルコーダの設計は依然として大きな課題である。 そこで我々は,3kbpsの高品位広帯域音声符号化のための,堅牢でスケーラブルなエンドツーエンドニューラル音声コーデックであるNeural End-2-End Speech Codec(NESC)を提案する。 エンコーダは、提案したDual-PathConvRNN(DPCRNN)層に依存する新しいアーキテクチャ構成を使用し、デコーダアーキテクチャは、これまでのStreamwise-StyleMelGANに基づいています。 清潔で騒々しい音声に対する主観的聴力試験の結果,NESCは特に目に見えない条件や信号の摂動に対して頑健であることがわかった。

Neural networks have proven to be a formidable tool to tackle the problem of speech coding at very low bit rates. However, the design of a neural coder that can be operated robustly under real-world conditions remains a major challenge. Therefore, we present Neural End-2-End Speech Codec (NESC) a robust, scalable end-to-end neural speech codec for high-quality wideband speech coding at 3 kbps. The encoder uses a new architecture configuration, which relies on our proposed Dual-PathConvRNN (DPCRNN) layer, while the decoder architecture is based on our previous work Streamwise-StyleMelGAN. Our subjective listening tests on clean and noisy speech show that NESC is particularly robust to unseen conditions and signal perturbations.
翻訳日:2022-07-08 14:51:23 公開日:2022-07-07
# ベイズニューラルネットワークを用いた不確実性定量化を伴う低表面ブライトネスガラキシーの構造パラメータの推定

Inferring Structural Parameters of Low-Surface-Brightness-Galaxies with Uncertainty Quantification using Bayesian Neural Networks ( http://arxiv.org/abs/2207.03471v1 )

ライセンス: Link先を確認
Dimitrios Tanoglidis, Aleksandra \'Ciprijanovi\'c, Alex Drlica-Wagner(参考訳) 銀河の構造パラメータ(大きさ、全輝度、光濃度など)を測定することは、異なる銀河集団を定量的に記述するための重要な第一歩である。 本研究では, ベイズニューラルネットワーク(BNN)を用いて, シミュレーションされた低地表面明度銀河画像から, それらの形態パラメータを不確実な定量化で推測できることを示す。 従来のプロファイルフィッティング法と比較して,bnnを用いて得られる不確かさは等しく,十分に調整されており,パラメータの点推定値は真の値に近い。 また、我々の手法は非常に高速であり、天体物理学における大規模な銀河探査とビッグデータの出現において非常に重要である。

Measuring the structural parameters (size, total brightness, light concentration, etc.) of galaxies is a significant first step towards a quantitative description of different galaxy populations. In this work, we demonstrate that a Bayesian Neural Network (BNN) can be used for the inference, with uncertainty quantification, of such morphological parameters from simulated low-surface-brightness galaxy images. Compared to traditional profile-fitting methods, we show that the uncertainties obtained using BNNs are comparable in magnitude, well-calibrated, and the point estimates of the parameters are closer to the true values. Our method is also significantly faster, which is very important with the advent of the era of large galaxy surveys and big data in astrophysics.
翻訳日:2022-07-08 14:49:56 公開日:2022-07-07
# 背後分布のサンプリングによる大気運動ベクトルの不確かさ

Uncertainty of Atmospheric Motion Vectors by Sampling Tempered Posterior Distributions ( http://arxiv.org/abs/2207.03182v1 )

ライセンス: Link先を確認
Patrick H\'eas and Fr\'ed\'eric C\'erou and Mathias Rousset(参考訳) 衛星画像から抽出した大気移動ベクトル(AMV)は、地球規模の良好な風観測である。 これらは数値気象予報(NWP)モデルに影響を及ぼす重要な特徴である。 AMVを推定するためにいくつかのベイズモデルが提案されている。 NWPモデルへの正しい同化には重要であるが、推定誤差を徹底的に評価する手法はほとんどない。 誤差を推定することの難しさは、非常に高次元かつ特異な可能性のために高度に条件づけられた後部分布の特異性に起因する。 本研究では、勾配に基づくマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを用いて、AMVの予測誤差の評価を行う。 本研究の主な貢献は,AMVの局所的後方分布と画像変数の局所的近似を点推定の近傍でサンプリングするテンパリング戦略を提案することである。 さらに, 先行する族自体(フラクショナル・ブラウン運動)に関連する共分散に対して, 多分異なるハイパーパラメータを持つ効率的なプリコンディショニングを提供する。 理論的な観点から、正則性仮定の下では、温度が減少するにつれて温められた後続分布の族は分布に収束し、最大Aポストエリオリ(MAP)対数密度(英語版)によって与えられる点推定における最適ガウス近似に収束することを示す。 実証的な観点から,いくつかの定量的ベイズ評価基準に基づいて提案手法を評価する。 合成および実気象データを用いて行った数値シミュレーションにより,AMV点推定精度とそれに伴う予測誤差推定量の有意な向上が得られたが,MCMCアルゴリズムの収束速度も著しく向上した。

Atmospheric motion vectors (AMVs) extracted from satellite imagery are the only wind observations with good global coverage. They are important features for feeding numerical weather prediction (NWP) models. Several Bayesian models have been proposed to estimate AMVs. Although critical for correct assimilation into NWP models, very few methods provide a thorough characterization of the estimation errors. The difficulty of estimating errors stems from the specificity of the posterior distribution, which is both very high dimensional, and highly ill-conditioned due to a singular likelihood, which becomes critical in particular in the case of missing data (unobserved pixels). This work studies the evaluation of the expected error of AMVs using gradient-based Markov Chain Monte Carlo (MCMC) algorithms. Our main contribution is to propose a tempering strategy, which amounts to sampling a local approximation of the joint posterior distribution of AMVs and image variables in the neighborhood of a point estimate. In addition, we provide efficient preconditioning with the covariance related to the prior family itself (fractional Brownian motion), with possibly different hyper-parameters. From a theoretical point of view, we show that under regularity assumptions, the family of tempered posterior distributions converges in distribution as temperature decreases to an {optimal} Gaussian approximation at a point estimate given by the Maximum A Posteriori (MAP) log-density. From an empirical perspective, we evaluate the proposed approach based on some quantitative Bayesian evaluation criteria. Our numerical simulations performed on synthetic and real meteorological data reveal a significant gain in terms of accuracy of the AMV point estimates and of their associated expected error estimates, but also a substantial acceleration in the convergence speed of the MCMC algorithms.
翻訳日:2022-07-08 14:49:43 公開日:2022-07-07
# (参考訳) veridark: ダークウェブ上のオーサシップ検証のための大規模ベンチマーク

VeriDark: A Large-Scale Benchmark for Authorship Verification on the Dark Web ( http://arxiv.org/abs/2207.03477v1 )

ライセンス: CC BY 4.0
Andrei Manolache, Florin Brad, Antonio Barbalau, Radu Tudor Ionescu, Marius Popescu(参考訳) darkwebは違法行為の温床であり、ユーザーは商品やサービスを交換するためにさまざまなマーケットフォーラムでコミュニケーションをとる。 法執行機関は、テキストコンテンツに基づいてユーザーを特定し、プロファイルするために、著者の分析を行う法医学的ツールの恩恵を受ける。 しかし、著者分析は伝統的に、小説の断片やファンフィクションなど、サイバー犯罪の文脈には適さない文体を特徴とするコーパスを用いて研究されてきた。 さらに、サイバー犯罪防止のための著者分析ツールを使用する数少ない作品は、通常アドホックな実験的な設定とデータセットを採用している。 この3つの大規模オーサシップ検証データセットと、Dark Web関連Redditコミュニティまたは人気のある不正なDark Webマーケットフォーラムから得られた1つのオーサシップ識別データセットで構成されるベンチマークである。 3つのデータセットにおける競合nlpベースラインを評価し,その限界をよりよく理解するために予測分析を行う。 データセットとベースラインはhttps://github.com/bit-ml/VeriDarkで公開しています。

The DarkWeb represents a hotbed for illicit activity, where users communicate on different market forums in order to exchange goods and services. Law enforcement agencies benefit from forensic tools that perform authorship analysis, in order to identify and profile users based on their textual content. However, authorship analysis has been traditionally studied using corpora featuring literary texts such as fragments from novels or fan fiction, which may not be suitable in a cybercrime context. Moreover, the few works that employ authorship analysis tools for cybercrime prevention usually employ ad-hoc experimental setups and datasets. To address these issues, we release VeriDark: a benchmark comprised of three large scale authorship verification datasets and one authorship identification dataset obtained from user activity from either Dark Web related Reddit communities or popular illicit Dark Web market forums. We evaluate competitive NLP baselines on the three datasets and perform an analysis of the predictions to better understand the limitations of such approaches. We make the datasets and baselines publicly available at https://github.com/bit-ml/VeriDark
翻訳日:2022-07-08 14:48:05 公開日:2022-07-07
# AV-Gaze:非効率な顔に対する音声誘導型視覚注意推定の有効性の検討

AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention Estimation for Non-Profilic Faces ( http://arxiv.org/abs/2207.03048v1 )

ライセンス: Link先を確認
Shreya Ghosh, Abhinav Dhall, Munawar Hayat, Jarrod Knibbe(参考訳) 視覚情報が視覚的注意/視線方向の推定に失敗する超過度なヘッドポジション、オクルージョン、低解像度画像などの実生活環境において、音声信号は重要かつ補完的な情報を提供することができる。 本稿では,非多目的顔の視覚注意推定性能をさらに高めることができるか検討する。 話者の頭部位置を推定するための音声信号のアノテートが難しいため, オフ・ザ・シェルフ・オブ・ザ・アートモデルを用いて, クロスモーダルな弱スーパービジョンを実現する。 トレーニングフェーズでは、フレームワークは同期したオーディオと視覚のモダリティから補完的な情報を学習する。 我々のモデルは、タスク固有の推論に、オーディオ、ビジュアル、オーディオ視覚などの利用可能なモダリティのいずれかを利用することができる。 AV-Gazeがこれらの特定のモダリティを持つベンチマークデータセットでテストされると、複数のデータセット上で競合する結果が得られ、挑戦的なシナリオに対して高い適応性がある点に注意が必要だ。

In challenging real-life conditions such as extreme head-pose, occlusions, and low-resolution images where the visual information fails to estimate visual attention/gaze direction, audio signals could provide important and complementary information. In this paper, we explore if audio-guided coarse head-pose can further enhance visual attention estimation performance for non-prolific faces. Since it is difficult to annotate audio signals for estimating the head-pose of the speaker, we use off-the-shelf state-of-the-art models to facilitate cross-modal weak-supervision. During the training phase, the framework learns complementary information from synchronized audio-visual modality. Our model can utilize any of the available modalities i.e. audio, visual or audio-visual for task-specific inference. It is interesting to note that, when AV-Gaze is tested on benchmark datasets with these specific modalities, it achieves competitive results on multiple datasets, while being highly adaptive towards challenging scenarios.
翻訳日:2022-07-08 14:09:47 公開日:2022-07-07
# 角度を先行しない深い回転補正

Deep Rotation Correction without Angle Prior ( http://arxiv.org/abs/2207.03054v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) プロの撮影スキルと十分な撮影時間が備わっているわけではないし、撮影された画像の傾きも時々ある。 本稿では,回転角が不明な条件下で,高いコンテンツ忠実度で自動的に傾きを補正する,回転補正という新しい実用的課題を提案する。 このタスクは画像編集アプリケーションに簡単に統合でき、ユーザーは手動操作なしで回転した画像を修正できる。 この目的のために、我々はニューラルネットワークを利用して、傾斜した画像を知覚的に水平に歪めることができる光学フローを予測する。 しかし、特に大角傾斜画像の場合、単一の画像からの画素単位の光学フロー推定は極めて不安定である。 その強靭性を高めるために,頑健な弾性ワープを形成するための簡易かつ効果的な予測戦略を提案する。 特に,まずメッシュ変形を推し進めて,より堅牢な初期光学フローに変換する。 次に,残差光学フローを推定し,画素方向の変形の柔軟性をネットワークに与え,傾斜画像の詳細をさらに補正する。 評価ベンチマークを確立し、学習フレームワークを訓練するために、総合的な回転補正データセットをシーンの多様性と回転角度で提示する。 広範囲にわたる実験により,事前の角度がなくても,このアルゴリズムが先行する他の最先端ソリューションよりも優れていることが証明された。 コードとデータセットはhttps://github.com/nie-lang/RotationCorrectionで入手できる。

Not everybody can be equipped with professional photography skills and sufficient shooting time, and there can be some tilts in the captured images occasionally. In this paper, we propose a new and practical task, named Rotation Correction, to automatically correct the tilt with high content fidelity in the condition that the rotated angle is unknown. This task can be easily integrated into image editing applications, allowing users to correct the rotated images without any manual operations. To this end, we leverage a neural network to predict the optical flows that can warp the tilted images to be perceptually horizontal. Nevertheless, the pixel-wise optical flow estimation from a single image is severely unstable, especially in large-angle tilted images. To enhance its robustness, we propose a simple but effective prediction strategy to form a robust elastic warp. Particularly, we first regress the mesh deformation that can be transformed into robust initial optical flows. Then we estimate residual optical flows to facilitate our network the flexibility of pixel-wise deformation, further correcting the details of the tilted images. To establish an evaluation benchmark and train the learning framework, a comprehensive rotation correction dataset is presented with a large diversity in scenes and rotated angles. Extensive experiments demonstrate that even in the absence of the angle prior, our algorithm can outperform other state-of-the-art solutions requiring this prior. The codes and dataset will be available at https://github.com/nie-lang/RotationCorrection.
翻訳日:2022-07-08 14:09:27 公開日:2022-07-07
# 自己監督型骨格行動認識のための時空間混合骨格系列からのコントラスト学習

Contrastive Learning from Spatio-Temporal Mixed Skeleton Sequences for Self-Supervised Skeleton-Based Action Recognition ( http://arxiv.org/abs/2207.03065v1 )

ライセンス: Link先を確認
Zhan Chen, Hong Liu, Tianyu Guo, Zhengyan Chen, Pinhao Song, Hao Tang(参考訳) 対照的な学習を伴う自己教師付き骨格に基づく行動認識は注目されている。 近年の文献では、このような表現を学ぶ上で、データ拡張と大きなコントラストペアセットが重要であることが示されている。 本稿では,正規データ増補から損失へのコントラストペアの寄与がトレーニングが進むにつれて小さくなるため,正規増補に基づくコントラストペアの直接拡張は性能面での回復率の限界をもたらすことを見出した。 したがって,コントラスト学習のためのハードコントラストペアを考案する。 新たなサンプルを合成することで,多くのタスクのパフォーマンス向上を図る混合強化戦略の成功に触発されたSkeleMixCLRを提案する。SkeleMixCLRは,コントラスト学習アプローチを補完する,時空間スケルトン混合強化(SkeleMix)を備えたコントラスト学習フレームワークである。 まず、骨格データのトポロジカル情報を利用して、切り刻んだ骨格断片(トリミングビュー)と残りの骨格配列(切り抜きビュー)をランダムに混合することにより、2つの骨格配列を混合する。 第2に,これらの2つのビューを特徴レベルで分離するために,時空間マスクプーリングを適用する。 第3に、これらの2つのビューでコントラストペアを拡張します。 skelemixclrは、グラフ畳み込み操作のために互いにコンテキスト情報を必要とするため、トリミングされたビューと切断されたビューを利用して、豊富なハードコントラストペアを提供する。 NTU-RGB+D、NTU120-RGB+D、PKU-MMDデータセットに関する大規模な実験は、SkeleMixCLRが最先端のパフォーマンスを達成することを示す。 コードはhttps://github.com/czhaneva/SkeleMixCLRで入手できる。

Self-supervised skeleton-based action recognition with contrastive learning has attracted much attention. Recent literature shows that data augmentation and large sets of contrastive pairs are crucial in learning such representations. In this paper, we found that directly extending contrastive pairs based on normal augmentations brings limited returns in terms of performance, because the contribution of contrastive pairs from the normal data augmentation to the loss get smaller as training progresses. Therefore, we delve into hard contrastive pairs for contrastive learning. Motivated by the success of mixing augmentation strategy which improves the performance of many tasks by synthesizing novel samples, we propose SkeleMixCLR: a contrastive learning framework with a spatio-temporal skeleton mixing augmentation (SkeleMix) to complement current contrastive learning approaches by providing hard contrastive samples. First, SkeleMix utilizes the topological information of skeleton data to mix two skeleton sequences by randomly combing the cropped skeleton fragments (the trimmed view) with the remaining skeleton sequences (the truncated view). Second, a spatio-temporal mask pooling is applied to separate these two views at the feature level. Third, we extend contrastive pairs with these two views. SkeleMixCLR leverages the trimmed and truncated views to provide abundant hard contrastive pairs since they involve some context information from each other due to the graph convolution operations, which allows the model to learn better motion representations for action recognition. Extensive experiments on NTU-RGB+D, NTU120-RGB+D, and PKU-MMD datasets show that SkeleMixCLR achieves state-of-the-art performance. Codes are available at https://github.com/czhaneva/SkeleMixCLR.
翻訳日:2022-07-08 14:09:03 公開日:2022-07-07
# EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2022: Team HNU-FPV Technical Report

EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2022: Team HNU-FPV Technical Report ( http://arxiv.org/abs/2207.03095v1 )

ライセンス: Link先を確認
Nie Lin, Minjie Cai(参考訳) 本稿では,2022年のEPIC-Kitchens Unsupervised Domain Adaptation (UDA) Challengeへの提出の技術的詳細を報告する。 既存のUDA手法は、ソースとターゲットドメイン全体にわたるビデオクリップから抽出されたグローバルな特徴を整列するが、ビデオ認識における特徴マッチングの空間的冗長性に悩まされる。 ビデオフレーム内の小さな画像領域が行動認識タスクに十分な情報が得られる場合が多いという観測に動機づけられ、情報付き画像領域を利用して効率的なドメインアライメントを行うことを提案する。 具体的には、まず軽量CNNを用いて、入力された2ストリームビデオフレームのグローバル情報を抽出し、異なる補間に基づく選択戦略により情報的画像パッチを選択する。 そして、映像フレームからのグローバル情報と画像パッチからのローカル情報とを、ソースドメインとターゲットドメインの特徴アライメントを行うために、既存のビデオ適応方法、すなわちTA3Nで処理する。 本手法は,EPIC-KITCHENS-100のテストセットにおいて,今年のチームの中で第4位である。

In this report, we present the technical details of our submission to the 2022 EPIC-Kitchens Unsupervised Domain Adaptation (UDA) Challenge. Existing UDA methods align the global features extracted from the whole video clips across the source and target domains but suffer from the spatial redundancy of feature matching in video recognition. Motivated by the observation that in most cases a small image region in each video frame can be informative enough for the action recognition task, we propose to exploit informative image regions to perform efficient domain alignment. Specifically, we first use lightweight CNNs to extract the global information of the input two-stream video frames and select the informative image patches by a differentiable interpolation-based selection strategy. Then the global information from videos frames and local information from image patches are processed by an existing video adaptation method, i.e., TA3N, in order to perform feature alignment for the source domain and the target domain. Our method (without model ensemble) ranks 4th among this year's teams on the test set of EPIC-KITCHENS-100.
翻訳日:2022-07-08 14:07:06 公開日:2022-07-07
# 3次元雲形状解析のための多視点ビジョンからジオメトリへの知識伝達

Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud Shape Analysis ( http://arxiv.org/abs/2207.03128v1 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yue Qian(参考訳) 3次元オブジェクトの2つの基本的な表現モダリティとして、2次元多視点画像と3次元点雲は、視覚的外観と幾何学的構造の異なる側面から形状情報を反映する。 ディープラーニングベースの2次元マルチビュー画像モデリングとは異なり、3dポイントクラウドベースの幾何モデリングは依然として学習能力の不足に苦しんでいる。 本稿では,2次元画像の識別的視覚記述子を3次元点雲の幾何学的記述子に蒸留するクロスモーダルな知識伝達フレームワークを革新的に構築する。 技術的には、古典的な教師-学生の学習パラダイムの下で、教師としての深層2次元イメージエンコーダと学生としての深部3次元ポイントクラウドエンコーダからなる多視点視覚-幾何学的蒸留を提案する。 不均一な特徴アライメントを実現するために、多視点幾何学的記述子にポイントごとの埋め込みを集約できる可視性を考慮した特徴プロジェクションを提案する。 3次元形状分類,部分分割,教師なし学習に関する広範な実験により,本手法の有用性が検証された。 コードとデータを公開します。

As two fundamental representation modalities of 3D objects, 2D multi-view images and 3D point clouds reflect shape information from different aspects of visual appearances and geometric structures. Unlike deep learning-based 2D multi-view image modeling, which demonstrates leading performances in various 3D shape analysis tasks, 3D point cloud-based geometric modeling still suffers from insufficient learning capacity. In this paper, we innovatively construct a unified cross-modal knowledge transfer framework, which distills discriminative visual descriptors of 2D images into geometric descriptors of 3D point clouds. Technically, under a classic teacher-student learning paradigm, we propose multi-view vision-to-geometry distillation, consisting of a deep 2D image encoder as teacher and a deep 3D point cloud encoder as student. To achieve heterogeneous feature alignment, we further propose visibility-aware feature projection, through which per-point embeddings can be aggregated into multi-view geometric descriptors. Extensive experiments on 3D shape classification, part segmentation, and unsupervised learning validate the superiority of our method. We will make the code and data publicly available.
翻訳日:2022-07-08 14:06:46 公開日:2022-07-07
# 一般化可能な人物再識別のためのスタイルインターリーブ学習

Style Interleaved Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2207.03132v1 )

ライセンス: Link先を確認
Wentao Tan and Pengfei Wang and Changxing Ding and Mingming Gong and Kui Jia(参考訳) 個人再識別(ReID)のためのドメイン一般化(DG)は、トレーニングプロセス中に許可されたターゲットドメインデータへのアクセスがないため、難しい問題である。 既存のDG ReIDメソッドのほとんどは、特徴抽出器と分類器パラメータの更新に同じ機能を使用している。 この一般的なプラクティスは、モデルがソースドメインの既存の機能スタイルに過度に適合し、メタラーニングを使用したとしても、ターゲットドメインに対する準最適一般化能力をもたらす。 この問題を解決するために,我々は新しいスタイルのインターリーブ学習フレームワークを提案する。 従来の学習戦略とは異なり、インターリーブド・ラーニングには2つの前方伝播と1つの後方伝播が組み込まれている。 我々は、異なる前方伝播を用いた特徴抽出器と分類器を更新するために、インターリーブド・スタイルの特徴を使用し、モデルが特定のドメイン・スタイルに過度に適合することを避けるのに役立つ。 スタイルインターリーブ学習の利点を十分に探求するために,特徴スタイルを多様化する新たな特徴スタイリング手法を提案する。 このアプローチは、複数のトレーニングサンプルの機能スタイルを混ぜるだけでなく、バッチレベルの配布から新しく意味のある機能スタイルをサンプリングする。 我々のモデルはDG ReIDの大規模ベンチマークにおいて常に最先端の手法よりも優れており、計算効率において明らかな優位性をもたらす。 コードはhttps://github.com/wentaotan/interleaved-learningで入手できる。

Domain generalization (DG) for person re-identification (ReID) is a challenging problem, as there is no access to target domain data permitted during the training process. Most existing DG ReID methods employ the same features for the updating of the feature extractor and classifier parameters. This common practice causes the model to overfit to existing feature styles in the source domain, resulting in sub-optimal generalization ability on target domains even if meta-learning is used. To solve this problem, we propose a novel style interleaved learning framework. Unlike conventional learning strategies, interleaved learning incorporates two forward propagations and one backward propagation for each iteration. We employ the features of interleaved styles to update the feature extractor and classifiers using different forward propagations, which helps the model avoid overfitting to certain domain styles. In order to fully explore the advantages of style interleaved learning, we further propose a novel feature stylization approach to diversify feature styles. This approach not only mixes the feature styles of multiple training samples, but also samples new and meaningful feature styles from batch-level style distribution. Extensive experimental results show that our model consistently outperforms state-of-the-art methods on large-scale benchmarks for DG ReID, yielding clear advantages in computational efficiency. Code is available at https://github.com/WentaoTan/Interleaved-Learning.
翻訳日:2022-07-08 14:06:27 公開日:2022-07-07
# FastHebb: ディープニューラルネットワークのイメージネットレベルへのスケーリングヘビアントレーニング

FastHebb: Scaling Hebbian Training of Deep Neural Networks to ImageNet Level ( http://arxiv.org/abs/2207.03172v1 )

ライセンス: Link先を確認
Gabriele Lagani, Claudio Gennaro, Hannes Fassold, Giuseppe Amato(参考訳) Deep Neural Networksの学習アルゴリズムは一般的に、教師付きエンドツーエンドのSGD(Stochastic Gradient Descent)トレーニングとエラーバックプロパゲーション(backprop)に基づいている。 バックプロップアルゴリズムは、高性能を達成するために多数のラベル付きトレーニングサンプルを必要とする。 しかし、現実的な多くのアプリケーションでは、たとえ多くの画像サンプルがあるとしても、ラベル付けされているものはほとんどなく、半教師付きサンプル効率のトレーニング戦略を使う必要がある。 hebbian learningは、サンプル効率的なトレーニングへのアプローチとして考えられるが、現在のソリューションでは、大規模なデータセットではうまくスケールしない。 本稿では,ヘビアン学習のための効率よくスケーラブルなソリューションであるFastHebbについて述べる。 1)一連の入力に対する更新計算と集約の融合、及び 2)gpu上で効率的な行列乗算アルゴリズムを活用する。 我々は,コンピュータビジョンの異なるベンチマークに対するアプローチを,半教師付き学習シナリオで検証する。 FastHebbはトレーニングのスピードでこれまでのソリューションを最大50倍上回り、特に、初めて、HebbianのアルゴリズムをImageNetのスケールに導入しました。

Learning algorithms for Deep Neural Networks are typically based on supervised end-to-end Stochastic Gradient Descent (SGD) training with error backpropagation (backprop). Backprop algorithms require a large number of labelled training samples to achieve high performance. However, in many realistic applications, even if there is plenty of image samples, very few of them are labelled, and semi-supervised sample-efficient training strategies have to be used. Hebbian learning represents a possible approach towards sample efficient training; however, in current solutions, it does not scale well to large datasets. In this paper, we present FastHebb, an efficient and scalable solution for Hebbian learning which achieves higher efficiency by 1) merging together update computation and aggregation over a batch of inputs, and 2) leveraging efficient matrix multiplication algorithms on GPU. We validate our approach on different computer vision benchmarks, in a semi-supervised learning scenario. FastHebb outperforms previous solutions by up to 50 times in terms of training speed, and notably, for the first time, we are able to bring Hebbian algorithms to ImageNet scale.
翻訳日:2022-07-08 14:06:03 公開日:2022-07-07
# チャネルジョイントとソフトプールを用いたデュアルストリームコンピュータ生成画像検出ネットワーク

Dual Stream Computer-Generated Image Detection Network Based On Channel Joint And Softpool ( http://arxiv.org/abs/2207.03205v1 )

ライセンス: Link先を確認
Ziyi Xi, Hao Lin, Weiqi Luo(参考訳) コンピュータグラフィックス技術の発展に伴い、コンピュータソフトウェアによって合成された画像はますます写真に近づきつつある。 コンピュータグラフィックス技術は、ゲームや映画の分野では壮大な視覚的祝宴をもたらすが、大衆の意見を導き、政治的危機や社会不安を引き起こすために悪意を持つ人が利用することもある。 そのため,デジタル画像鑑識の分野では,cgとpgを区別する方法が重要な話題となっている。 本稿では,チャネル継手とソフトプールに基づく二重ストリーム畳み込みニューラルネットワークを提案する。 提案するネットワークアーキテクチャは、画像ノイズ情報を抽出する残留モジュールと、画像の浅い意味情報をキャプチャする結合チャネル情報抽出モジュールとを含む。 また,特徴抽出性を高めるために残差構造を設計し,残差フローにおける情報損失を低減する。 ジョイントチャネル情報抽出モジュールは、残余モジュールの情報補完ブロックとして使用できる入力画像の浅い意味情報を得ることができる。 ネットワーク全体がSoftPoolを使って、画像のダウンサンプリングによる情報損失を減らす。 最後に、2つのフローを融合して分類結果を得る。 SPL2018とDsTokの実験は、提案手法が既存の手法、特にDsTokデータセットよりも優れていることを示している。 例えば、私たちのモデルのパフォーマンスは最先端を3%という大きなマージンで上回っています。

With the development of computer graphics technology, the images synthesized by computer software become more and more closer to the photographs. While computer graphics technology brings us a grand visual feast in the field of games and movies, it may also be utilized by someone with bad intentions to guide public opinions and cause political crisis or social unrest. Therefore, how to distinguish the computer-generated graphics (CG) from the photographs (PG) has become an important topic in the field of digital image forensics. This paper proposes a dual stream convolutional neural network based on channel joint and softpool. The proposed network architecture includes a residual module for extracting image noise information and a joint channel information extraction module for capturing the shallow semantic information of image. In addition, we also design a residual structure to enhance feature extraction and reduce the loss of information in residual flow. The joint channel information extraction module can obtain the shallow semantic information of the input image which can be used as the information supplement block of the residual module. The whole network uses SoftPool to reduce the information loss of down-sampling for image. Finally, we fuse the two flows to get the classification results. Experiments on SPL2018 and DsTok show that the proposed method outperforms existing methods, especially on the DsTok dataset. For example, the performance of our model surpasses the state-of-the-art by a large margin of 3%.
翻訳日:2022-07-08 14:05:47 公開日:2022-07-07
# ExpansionNet: Image Captioning用Transformerにおけるシーケンス長ボトルネックの探索

ExpansionNet: exploring the sequence length bottleneck in the Transformer for Image Captioning ( http://arxiv.org/abs/2207.03327v1 )

ライセンス: Link先を確認
Jia Cheng Hu(参考訳) 最近のアートアーキテクチャの状況は、畳み込み、リカレント、自己注意の3つのアプローチの組み合わせとバリエーションに依存している。 本研究は,シーケンス長の修正という考え方に基づいて,シーケンスモデリングのための新たな研究方向の基礎を構築しようとするものである。 そこで本研究では,入力列を動的または静的に,異なるシーケンス長を持つ新しいものに変換する手法である ``expansion mechanism'' を提案する。 さらに,このような手法を活用し,MS-COCO 2014データセット上での競合性能を実現する新しいアーキテクチャを導入し,Karpathyテストの134.6と131.4のCIDEr-Dをそれぞれアンサンブルとシングルモデル構成に分割し,オンラインテストサーバの130のCIDEr-Dを,再帰性も完全注意力も持たないにもかかわらず実現した。 同時に,我々の設計における効率の面に対処し,標準の手法とは対照的に,ほとんどの計算資源に適した便利なトレーニング戦略を導入する。 ソースコードはhttps://github.com/jchenghu/ExpansionNetで入手できる。

Most recent state of art architectures rely on combinations and variations of three approaches: convolutional, recurrent and self-attentive methods. Our work attempts in laying the basis for a new research direction for sequence modeling based upon the idea of modifying the sequence length. In order to do that, we propose a new method called ``Expansion Mechanism'' which transforms either dynamically or statically the input sequence into a new one featuring a different sequence length. Furthermore, we introduce a novel architecture that exploits such method and achieves competitive performances on the MS-COCO 2014 data set, yielding 134.6 and 131.4 CIDEr-D on the Karpathy test split in the ensemble and single model configuration respectively and 130 CIDEr-D in the official online testing server, despite being neither recurrent nor fully attentive. At the same time we address the efficiency aspect in our design and introduce a convenient training strategy suitable for most computational resources in contrast to the standard one. Source code is available at https://github.com/jchenghu/ExpansionNet
翻訳日:2022-07-08 14:05:26 公開日:2022-07-07
# 医用画像の分布汎化を改善するためのウィンドウ統計を用いた簡易正規化手法

A simple normalization technique using window statistics to improve the out-of-distribution generalization in medical images ( http://arxiv.org/abs/2207.03366v1 )

ライセンス: Link先を確認
Chengfeng Zhou, Songchang Chen, Chenming Xu, Jun Wang, Chun Zhang, Juan Ye, Hefeng Huang, Dahong Qian(参考訳) 医用画像にデータ不足とデータ不均一性が普及しているため、従来の正規化手法を用いたよく訓練された畳み込みニューラルネットワーク(CNN)は、新しいサイトにデプロイすると性能が低下する可能性がある。 しかし、現実のアプリケーションの信頼性の高いモデルは、in-distribution(IND)データとout-of-distriion(OOD)データ(例えば、新しいサイトデータ)の両方でうまく一般化できるべきである。 本研究では,既存の正規化手法に対する単純かつ効果的な代替手段である,ウィンドウ正規化(win)と呼ばれる新しい正規化手法を提案する。 具体的には、WINは特徴のウィンドウ上で計算された局所統計と正規化統計を摂動する。 この機能レベルの拡張技術はモデルを適切に正規化し、OOD一般化を大幅に改善する。 その利点を活かし, 分類におけるオード一般化をさらに改善するために, win-win と呼ばれる新しい自己蒸留法を提案する。 WIN-WINは2倍のフォワードパスと、既存のメソッドの単純な拡張である一貫性制約で容易に実装できる。 緑内障検診,乳癌検診,染色体分類,光ディスクとカップセグメンテーションなど) およびデータセット(26データセット) による広範囲な実験結果から, 本手法の汎用性と有効性が確認された。 コードはhttps://github.com/joe1chief/windownormalizaionで入手できる。

Since data scarcity and data heterogeneity are prevailing for medical images, well-trained Convolutional Neural Networks (CNNs) using previous normalization methods may perform poorly when deployed to a new site. However, a reliable model for real-world applications should be able to generalize well both on in-distribution (IND) and out-of-distribution (OOD) data (e.g., the new site data). In this study, we present a novel normalization technique called window normalization (WIN), which is a simple yet effective alternative to existing normalization methods. Specifically, WIN perturbs the normalizing statistics with the local statistics computed on a window of features. This feature-level augmentation technique regularizes the models well and improves their OOD generalization significantly. Taking its advantage, we propose a novel self-distillation method called WIN-WIN to further improve the OOD generalization in classification. WIN-WIN is easily implemented with twice forward passes and a consistency constraint, which can be a simple extension for existing methods. Extensive experimental results on various tasks (such as glaucoma detection, breast cancer detection, chromosome classification, optic disc and cup segmentation, etc.) and datasets (26 datasets) demonstrate the generality and effectiveness of our methods. The code is available at https://github.com/joe1chief/windowNormalizaion.
翻訳日:2022-07-08 14:05:03 公開日:2022-07-07
# 複合超解像と逆トーン・マッピング:特徴分解集約ネットワークと新しいベンチマーク

Joint Super-Resolution and Inverse Tone-Mapping: A Feature Decomposition Aggregation Network and A New Benchmark ( http://arxiv.org/abs/2207.03367v1 )

ライセンス: Link先を確認
Gang Xu (1), Yuchen Yang (1), Jun Xu (1), Liang Wang (2), Xian-Tong Zhen (3 and 4), Ming-Ming Cheng (1) ((1) Nankai University, (2) Institute of Automation, CAS, (3) University of Amsterdam, (4) Inception Institute of Artificial Intelligence)(参考訳) Joint Super-Resolution and Inverse Tone-Mapping (joint SR-ITM) aims to increase the resolution and dynamic range of low-resolution and standard dynamic range images.Recent methods mainly resort to image decomposition techniques with the multi-branch network architecture.However, the rigid decomposition employed by these methods largely restricts their power on diverse images.To exploit its potential power, in this paper, we generalize the decomposition mechanism from the image domain to the broader feature domain. そこで本稿では,軽量な特徴分解集約ネットワーク(fdan)を提案する。 In particular, we design a Feature Decomposition Block (FDB), which can achieve learnable separation of feature details and contrasts.By cascading FDBs, we can build up a Hierarchical Feature Decomposition Group for powerful multi-level feature decomposition.Moreover, we collect a new benchmark dataset for joint SR-ITM, \ie, SRITM-4K, which is large-scale and provides versatile scenarios for sufficient model training and evaluation.Experimental results on two benchmark datasets demonstrate that our FDAN is efficient and outperforms previous methods on joint SR-ITM.Our code and dataset will be publicly released.

Joint Super-Resolution and Inverse Tone-Mapping (joint SR-ITM) aims to increase the resolution and dynamic range of low-resolution and standard dynamic range images.Recent methods mainly resort to image decomposition techniques with the multi-branch network architecture.However, the rigid decomposition employed by these methods largely restricts their power on diverse images.To exploit its potential power, in this paper, we generalize the decomposition mechanism from the image domain to the broader feature domain. To this end, we propose a lightweight Feature Decomposition Aggregation Network (FDAN). In particular, we design a Feature Decomposition Block (FDB), which can achieve learnable separation of feature details and contrasts.By cascading FDBs, we can build up a Hierarchical Feature Decomposition Group for powerful multi-level feature decomposition.Moreover, we collect a new benchmark dataset for joint SR-ITM, \ie, SRITM-4K, which is large-scale and provides versatile scenarios for sufficient model training and evaluation.Experimental results on two benchmark datasets demonstrate that our FDAN is efficient and outperforms previous methods on joint SR-ITM.Our code and dataset will be publicly released.
翻訳日:2022-07-08 14:04:39 公開日:2022-07-07
# モーメントベース損失関数を用いた領域知識駆動3次元線量予測

Domain Knowledge Driven 3D Dose Prediction Using Moment-Based Loss Function ( http://arxiv.org/abs/2207.03414v1 )

ライセンス: Link先を確認
Gourav Jhanwar, Navdeep Dahiya, Parmida Ghahremani, Masoud Zarepisheh, Saad Nadeem(参考訳) ドーズボリュームヒストグラム(DVH)は,臨床で広く認められた評価基準である。 しかし、これらの指標を深層学習用量予測モデルに組み込むことは、その非凸性と非微分可能性のために困難である。 従来の肺強度変調放射線治療(IMRT)計画における3次元線量分布予測のための新しいモーメントベース損失関数を提案する。 モーメントベースの損失関数は凸かつ微分可能であり、計算オーバーヘッドなしに任意のディープラーニングフレームワークにdvhメトリックを簡単に組み込むことができる。 モーメントは、3d線量予測の臨床的優先順位を反映してカスタマイズすることもできる。 例えば、高次モーメントを用いることで、連続構造の高線量領域でのより良い予測が可能になる。 360 (240 をトレーニング,50 を検証,70 をテストに使用) の大規模データセットを使用して,2gy$\times (30 パーセンテージ) の肺患者を対象に,臨床計画を用いた深層学習モデル(dl)をトレーニングした。 我々は,CT(Computed Tomography),PTV(Planning target volume),OAR(Organ-at-risk contours)を用いて,CNNアーキテクチャのようなUNetをトレーニングし,対応するvoxel-wise 3D線量分布を推定した。 我々は,(1)人気平均絶対誤差(MAE)損失,(2)最近開発されたMAE+DVH損失,(3)提案したMAE+Moments損失の3つの損失関数を評価した。 予測の質は、最近AAPMの知識に基づく計画大挑戦によって導入された線量スコアとDVHスコアと同様に、異なるDVHメトリクスを用いて比較された。 DVHスコア(11%, p$<$0.01) を大幅に改善し, 同様の計算コストを伴い, (MAE + Moment) 損失関数のモデルではMAE損失のモデルよりも優れていた。 また、計算コスト(48%)とDVHスコア(8%、p$<0.01)を大幅に改善することで、トレーニングされたモデル(MAE+DVH)よりも優れていた。

Dose volume histogram (DVH) metrics are widely accepted evaluation criteria in the clinic. However, incorporating these metrics into deep learning dose prediction models is challenging due to their non-convexity and non-differentiability. We propose a novel moment-based loss function for predicting 3D dose distribution for the challenging conventional lung intensity modulated radiation therapy (IMRT) plans. The moment-based loss function is convex and differentiable and can easily incorporate DVH metrics in any deep learning framework without computational overhead. The moments can also be customized to reflect the clinical priorities in 3D dose prediction. For instance, using high-order moments allows better prediction in high-dose areas for serial structures. We used a large dataset of 360 (240 for training, 50 for validation and 70 for testing) conventional lung patients with 2Gy $\times$ 30 fractions to train the deep learning (DL) model using clinically treated plans at our institution. We trained a UNet like CNN architecture using computed tomography (CT), planning target volume (PTV) and organ-at-risk contours (OAR) as input to infer corresponding voxel-wise 3D dose distribution. We evaluated three different loss functions: (1) The popular Mean Absolute Error (MAE) Loss, (2) the recently developed MAE + DVH Loss, and (3) the proposed MAE + Moments Loss. The quality of the predictions was compared using different DVH metrics as well as dose-score and DVH-score, recently introduced by the AAPM knowledge-based planning grand challenge. Model with (MAE + Moment) loss function outperformed the model with MAE loss by significantly improving the DVH-score (11%, p$<$0.01) while having similar computational cost. It also outperformed the model trained with (MAE+DVH) by significantly improving the computational cost (48%) and the DVH-score (8%, p$<$0.01).
翻訳日:2022-07-08 14:04:25 公開日:2022-07-07
# 仮想カテゴリ学習による半教師付き物体検出

Semi-supervised Object Detection via Virtual Category Learning ( http://arxiv.org/abs/2207.03433v1 )

ライセンス: Link先を確認
Changrui Chen, Kurt Debattista, Jungong Han(参考訳) 実世界のアプリケーションにおけるラベル付きデータのコストラインのため、疑似ラベル付けを基盤とする半教師付き物体検出器が魅力的である。 しかし、紛らわしいサンプルの扱いは簡単ではない: 貴重な混乱したサンプルを捨てることによって、モデルの一般化が損なわれ、トレーニングにそれらを使用することで、必然的な誤りによる確認バイアスが悪化する。 そこで本論文では,ラベル補正を行わずに混乱サンプルを積極的に使用することを提案する。 具体的には、仮想カテゴリ(vc)が各混乱したサンプルに割り当てられ、具体的なラベルがなくてもモデル最適化に安全に貢献できる。 これは、トレーニングサンプルと仮想カテゴリの間の埋め込み距離をクラス間距離の下限として指定することに起因する。 さらに、位置回帰のための高品質な境界を許容するローカライゼーション損失も修正する。 大規模な実験では、提案されたVC学習が最先端、特に少量のラベルでかなり上回っていることが示されている。

Due to the costliness of labelled data in real-world applications, semi-supervised object detectors, underpinned by pseudo labelling, are appealing. However, handling confusing samples is nontrivial: discarding valuable confusing samples would compromise the model generalisation while using them for training would exacerbate the confirmation bias issue caused by inevitable mislabelling. To solve this problem, this paper proposes to use confusing samples proactively without label correction. Specifically, a virtual category (VC) is assigned to each confusing sample such that they can safely contribute to the model optimisation even without a concrete label. It is attributed to specifying the embedding distance between the training sample and the virtual category as the lower bound of the inter-class distance. Moreover, we also modify the localisation loss to allow high-quality boundaries for location regression. Extensive experiments demonstrate that the proposed VC learning significantly surpasses the state-of-the-art, especially with small amounts of available labels.
翻訳日:2022-07-08 14:03:32 公開日:2022-07-07
# 関連サンプリングを用いたマルチタスク検索型テキスト生成

Multi-Task Retrieval-Augmented Text Generation with Relevance Sampling ( http://arxiv.org/abs/2207.03030v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Jiecao Chen, Karthik Raman, Hamed Zamani(参考訳) 本稿では,知識集約型タスクに対する検索強化生成モデルのマルチタスク学習について述べる。 本稿では,知識集約型生成の異なる特性である問合せ-回答ペアと知識ベース項目との接続を利用して,学習セットのクリーン化を提案する。 我々は、ペアが知識ベースで答えられるかどうかに関わらず、関連ラベルに対する信頼のしきい値を通じてトレーニング例をフィルタリングする。 KILTベンチマークの7つの組み合わせタスクに対して、単一のFusion-in-Decoder(FiD)ジェネレータをトレーニングする。 実験結果から,単純かつ効果的なアプローチは,2つの強い不均衡タスクの競合ベースラインを大幅に改善することが示唆された。 さらに,モデルのキャパシティ向上にともなう適合ラベルサンプリングスケールを用いたマルチタスクトレーニングを実演し,7項目中5タスクで最新の結果を得た。

This paper studies multi-task training of retrieval-augmented generation models for knowledge-intensive tasks. We propose to clean the training set by utilizing a distinct property of knowledge-intensive generation: The connection of query-answer pairs to items in the knowledge base. We filter training examples via a threshold of confidence on the relevance labels, whether a pair is answerable by the knowledge base or not. We train a single Fusion-in-Decoder (FiD) generator on seven combined tasks of the KILT benchmark. The experimental results suggest that our simple yet effective approach substantially improves competitive baselines on two strongly imbalanced tasks; and shows either smaller improvements or no significant regression on the remaining tasks. Furthermore, we demonstrate our multi-task training with relevance label sampling scales well with increased model capacity and achieves state-of-the-art results in five out of seven KILT tasks.
翻訳日:2022-07-08 14:03:14 公開日:2022-07-07
# interactive combinatorial bandits: 競合性と相補性のバランス

Interactive Combinatorial Bandits: Balancing Competitivity and Complementarity ( http://arxiv.org/abs/2207.03091v1 )

ライセンス: Link先を確認
Adhyyan Narang, Omid Sadeghi, Lillian J Ratliff, Maryam Fazel, Jeff Bilmes(参考訳) オンライン対話型バンディット設定における非モジュラ関数の最大化について検討する。 例えば、映画のレコメンデーションシステムでは、シリーズの第1の映画を見ることは、第2の映画(と第3の映画)を見る体験を補完する。 これは要素間の競合性のみを表現できる部分モジュラ関数だけでは表現できない。 純粋な部分モジュラーアプローチを2つの方法で拡張する。 まず、目的を単調部分モジュラー関数と超モジュラー関数(bp目的関数)の和に分解できると仮定する。 ここで、相補性は自然に超モジュラー成分によってモデル化される。 UCB方式のアルゴリズムを開発し、未知の目的(探索)に関する信念を補充し、有望(探索)な行動を選択するアクションを採った後、各ラウンドでノイズゲインが明らかにされる。 部分モジュラーおよび超モジュラーな曲率の点において、全知識のグリードベースラインに対する後悔を定義すると、このアルゴリズムは少なくとも$O(\sqrt{T})$後悔を$T$ラウンドで達成することを示す。 第二に、BP構造を含まない関数に対しては、その部分モジュラリティ比の点で類似の後悔の保証を与える。 映画レコメンデーションのタスクをMovieLensデータセット上で数値的に研究し、分類のためのトレーニングサブセットを選択する。 これらの例を通して,アルゴリズムの性能と,問題のみを部分モジュラーとして見る際の欠点を実証する。

We study non-modular function maximization in the online interactive bandit setting. We are motivated by applications where there is a natural complementarity between certain elements: e.g., in a movie recommendation system, watching the first movie in a series complements the experience of watching a second (and a third, etc.). This is not expressible using only submodular functions which can represent only competitiveness between elements. We extend the purely submodular approach in two ways. First, we assume that the objective can be decomposed into the sum of monotone suBmodular and suPermodular function, known as a BP objective. Here, complementarity is naturally modeled by the supermodular component. We develop a UCB-style algorithm, where at each round a noisy gain is revealed after an action is taken that balances refining beliefs about the unknown objectives (exploration) and choosing actions that appear promising (exploitation). Defining regret in terms of submodular and supermodular curvature with respect to a full-knowledge greedy baseline, we show that this algorithm achieves at most $O(\sqrt{T})$ regret after $T$ rounds of play. Second, for those functions that do not admit a BP structure, we provide analogous regret guarantees in terms of their submodularity ratio; this is applicable for functions that are almost, but not quite, submodular. We numerically study the tasks of movie recommendation on the MovieLens dataset, and selection of training subsets for classification. Through these examples, we demonstrate the algorithm's performance as well as the shortcomings of viewing these problems as being solely submodular.
翻訳日:2022-07-08 14:02:59 公開日:2022-07-07
# 時系列分類のための半教師なし学習

Semi-unsupervised Learning for Time Series Classification ( http://arxiv.org/abs/2207.03119v1 )

ライセンス: Link先を確認
Padraig Davidson and Michael Steininger and Andr\'e Huhn and Anna Krause and Andreas Hotho(参考訳) 時系列はユビキタスであり、本質的に分析が困難であり、ラベルやクラスタに結びつく。 IoT(Internet of Things, モノのインターネット)とそのスマートデバイスが台頭するにつれ、データは1秒ごとに大量に収集される。 収集されたデータは、リアルタイムで事故(車など)を検知したり、所定の期間(健康装置など)にわたって怪我やシックを評価できるため、情報に富んでいる。 カオス的な性質と膨大なデータポイントのため、タイムシリーズは手動でラベルを付けるのが難しい。 さらに、データ内の新しいクラス(手書きの桁など)が時間とともに出現し、データのリラベル化が必要になる。 本稿では,半教師なし学習のためのガウス混合モデルSuSL4TSについて,時系列データの分類を行う。 sparsely labeled class (semi-supervised) を検出でき、データに隠されている新興クラス(教師なし)を識別できるため、手作業によるラベリングステップを緩和できます。 提案手法の有効性を,異なる領域の時系列分類データセットを用いて実証する。

Time series are ubiquitous and therefore inherently hard to analyze and ultimately to label or cluster. With the rise of the Internet of Things (IoT) and its smart devices, data is collected in large amounts any given second. The collected data is rich in information, as one can detect accidents (e.g. cars) in real time, or assess injury/sickness over a given time span (e.g. health devices). Due to its chaotic nature and massive amounts of datapoints, timeseries are hard to label manually. Furthermore new classes within the data could emerge over time (contrary to e.g. handwritten digits), which would require relabeling the data. In this paper we present SuSL4TS, a deep generative Gaussian mixture model for semi-unsupervised learning, to classify time series data. With our approach we can alleviate manual labeling steps, since we can detect sparsely labeled classes (semi-supervised) and identify emerging classes hidden in the data (unsupervised). We demonstrate the efficacy of our approach with established time series classification datasets from different domains.
翻訳日:2022-07-08 14:02:32 公開日:2022-07-07
# DLME:深部局所平坦化マニフォールドインベディング

DLME: Deep Local-flatness Manifold Embedding ( http://arxiv.org/abs/2207.03160v1 )

ライセンス: Link先を確認
Zelin Zang and Siyuan Li and Di Wu and Ge Wang and Lei Shang and Baigui Sun and Hao Li and Stan Z. Li(参考訳) Manifold Learning~(ML)は、高次元データから低次元の埋め込みを見つけることを目的としている。 これまでの作業では、シンプルで理想的なシナリオを持つ手作業や簡単なデータセットに重点を置いていましたが、アンダーサンプリングデータを使用した現実世界のデータセットでは、パフォーマンスが低かったことが分かりました。 一般的に、ML法はデータ構造をモデル化し、低次元埋め込みを処理し、前ステップでのアンダーサンプリングデータのローカル接続の貧弱さと後ステップにおける不適切な最適化目標が、 \emph{structureural distortion} と \emph{underconstrained embedded} に繋がる。 この問題を解決するため,新しいMLフレームワークであるDep Local-flatness Manifold Embedding (DLME)を提案する。 提案するDLMEはデータ拡張による意味多様体の構築と,そのスムーズなフレームワークの助けを借りて, \emph{structureural distortion} 問題を克服する。 そこで我々は, DLMEの特定の損失を克服し, 提案した局所平坦度推定に基づいて, より適切な埋め込みを実現することを数学的に示す。 実験では,3種類のデータセット (toy, biological, image) を用いた下流分類,クラスタリング,可視化タスクにおけるDLMEの有効性を示すことにより,DLMEがSOTA ML \ & contrastive learning (CL) 法より優れていることを示す。

Manifold learning~(ML) aims to find low-dimensional embedding from high-dimensional data. Previous works focus on handcraft or easy datasets with simple and ideal scenarios; however, we find they perform poorly on real-world datasets with under-sampling data. Generally, ML methods primarily model data structure and subsequently process a low-dimensional embedding, where the poor local connectivity of under-sampling data in the former step and inappropriate optimization objectives in the later step will lead to \emph{structural distortion} and \emph{underconstrained embedding}. To solve this problem, we propose Deep Local-flatness Manifold Embedding (DLME), a novel ML framework to obtain reliable manifold embedding by reducing distortion. Our proposed DLME constructs semantic manifolds by data augmentation and overcomes \emph{structural distortion} problems with the help of its smooth framework. To overcome \emph{underconstrained embedding}, we design a specific loss for DLME and mathematically demonstrate that it leads to a more suitable embedding based on our proposed Local Flatness Assumption. In the experiments, by showing the effectiveness of DLME on downstream classification, clustering, and visualization tasks with three types of datasets (toy, biological, and image), our experimental results show that DLME outperforms SOTA ML \& contrastive learning (CL) methods.
翻訳日:2022-07-08 14:02:12 公開日:2022-07-07
# タブラルディープラーニングのための事前学習対象の再検討

Revisiting Pretraining Objectives for Tabular Deep Learning ( http://arxiv.org/abs/2207.03208v1 )

ライセンス: Link先を確認
Ivan Rubachev, Artem Alekberov, Yury Gorishniy, Artem Babenko(参考訳) 表データの最近のディープラーニングモデルは、決定木(GBDT)に基づいた従来のMLモデルと競合している。 GBDTとは異なり、ディープモデルは、ビジョンとNLPのためのDLのワークホースである事前トレーニングの恩恵を受けることができる。 表付き問題に対しては、いくつかの事前学習手法が提案されているが、事前学習が一貫した改善をもたらすか、どの方法を使うべきかは明らかになっていない。 本研究では,異なるデータセットやアーキテクチャに普遍的に適用可能な表型DLモデルを事前学習するためのベストプラクティスを特定することを目的とする。 以上の結果から,事前学習段階での目標ラベルの使用が下流のパフォーマンスに有益であることを示し,目標認識事前学習目標を提唱した。 実験の結果, 適切な事前学習を行うことで, 表型DLモデルの性能が著しく向上し, GBDTよりも優れることがわかった。

Recent deep learning models for tabular data currently compete with the traditional ML models based on decision trees (GBDT). Unlike GBDT, deep models can additionally benefit from pretraining, which is a workhorse of DL for vision and NLP. For tabular problems, several pretraining methods were proposed, but it is not entirely clear if pretraining provides consistent noticeable improvements and what method should be used, since the methods are often not compared to each other or comparison is limited to the simplest MLP architectures. In this work, we aim to identify the best practices to pretrain tabular DL models that can be universally applied to different datasets and architectures. Among our findings, we show that using the object target labels during the pretraining stage is beneficial for the downstream performance and advocate several target-aware pretraining objectives. Overall, our experiments demonstrate that properly performed pretraining significantly increases the performance of tabular DL models, which often leads to their superiority over GBDTs.
翻訳日:2022-07-08 14:00:05 公開日:2022-07-07
# Calibrate (複数形 Calibrates)

Calibrate to Interpret ( http://arxiv.org/abs/2207.03324v1 )

ライセンス: Link先を確認
Gregory Scafarto, Nicolas Posocco and Antoine Bonnefoy(参考訳) 信頼できる機械学習は、MLの受け入れと採用を改善するために、多くのMLコミュニティの作業を推進している。 信頼できる機械学習の主な側面は、公正性、不確実性、堅牢性、説明可能性、正式な保証である。 それぞれのドメインはMLコミュニティの関心を集め、関連する出版物の数によって見ることができる。 しかし、これらの分野間の相互接続に取り組む作品はほとんどない。 本稿では,キャリブレーションと解釈の関係を考察し,不確実性と説明可能性の関係について述べる。 モデルのキャリブレーションはサンプルのスコアの方法を変え、解釈アプローチはしばしばこれらのスコアに依存するので、モデルの信頼度校正がそのようなモデルを解釈する能力と相互作用すると考えるのは安全である。 本稿では,画像分類タスクで訓練されたネットワークの文脈において,信頼度校正に敏感な解釈の程度について述べる。 これは、解釈結果を改善するための簡単なプラクティスを提案することにつながります: Calibrate to Interpret。

Trustworthy machine learning is driving a large number of ML community works in order to improve ML acceptance and adoption. The main aspect of trustworthy machine learning are the followings: fairness, uncertainty, robustness, explainability and formal guaranties. Each of these individual domains gains the ML community interest, visible by the number of related publications. However few works tackle the interconnection between these fields. In this paper we show a first link between uncertainty and explainability, by studying the relation between calibration and interpretation. As the calibration of a given model changes the way it scores samples, and interpretation approaches often rely on these scores, it seems safe to assume that the confidence-calibration of a model interacts with our ability to interpret such model. In this paper, we show, in the context of networks trained on image classification tasks, to what extent interpretations are sensitive to confidence-calibration. It leads us to suggest a simple practice to improve the interpretation outcomes: Calibrate to Interpret.
翻訳日:2022-07-08 13:59:47 公開日:2022-07-07
# ディープニューラルネットワークにおける対向ロバスト性と決定領域の関係について

On the Relationship Between Adversarial Robustness and Decision Region in Deep Neural Network ( http://arxiv.org/abs/2207.03400v1 )

ライセンス: Link先を確認
Seongjin Park, Haedong Jeong, Giyoung Jeon, Jaesik Choi(参考訳) 一般に、トレーニングフェーズから除外された見えないデータに対して測定された一般化性能により、ディープニューラルネットワーク(DNN)を評価する。 DNNの開発とともに、一般化性能は最先端技術に収束し、DNNを基準として評価することが困難になる。 敵攻撃に対する堅牢性は、その脆弱性を測定することでDNNを評価するための追加指標として使用されている。 しかし、DNNの幾何学的側面から対向的ロバスト性を分析するための研究はほとんど行われていない。 本研究では,対向攻撃時のモデルロバスト性に影響を与えるdnnの内部特性を分析するための実証研究を行う。 特に,実環境においてdnnの内部特性を表現するために,訓練試料をより多く投入する人口領域集合(prs)の新たな概念を提案する。 提案した概念を用いた系統実験から,低PSS比がDNNの対角的堅牢性と強い関係があることを証明する実証的証拠を提供する。 また, PRSの特性を生かしたPRS正則化器を考案し, 対向トレーニングを伴わずに対向ロバスト性を向上させる。

In general, Deep Neural Networks (DNNs) are evaluated by the generalization performance measured on unseen data excluded from the training phase. Along with the development of DNNs, the generalization performance converges to the state-of-the-art and it becomes difficult to evaluate DNNs solely based on this metric. The robustness against adversarial attack has been used as an additional metric to evaluate DNNs by measuring their vulnerability. However, few studies have been performed to analyze the adversarial robustness in terms of the geometry in DNNs. In this work, we perform an empirical study to analyze the internal properties of DNNs that affect model robustness under adversarial attacks. In particular, we propose the novel concept of the Populated Region Set (PRS), where training samples are populated more frequently, to represent the internal properties of DNNs in a practical setting. From systematic experiments with the proposed concept, we provide empirical evidence to validate that a low PRS ratio has a strong relationship with the adversarial robustness of DNNs. We also devise PRS regularizer leveraging the characteristics of PRS to improve the adversarial robustness without adversarial training.
翻訳日:2022-07-08 13:59:32 公開日:2022-07-07
# 非i.i.d.データのフェデレーション学習における適応的人格化

Adaptive Personlization in Federated Learning for Highly Non-i.i.d. Data ( http://arxiv.org/abs/2207.03448v1 )

ライセンス: Link先を確認
Yousef Yeganeh, Azade Farshad, Johann Boschmann, Richard Gaus, Maximilian Frantzen, Nassir Navab(参考訳) フェデレートラーニング(Federated Learning, FL)は、医療機関が患者のプライバシを保ちながら、グローバルモデルにおけるコラボレーションの見通しを提供する分散学習手法である。 ほとんどの医療センターは同様の医療画像処理を行っているが、専門化、患者数、装置などの違いは、異なるデータ分布をもたらす。 データの不均一性は、flとローカルモデルのパーソナライズにとって課題となる。 本研究では、FLの適応的階層的クラスタリング手法を用いて、中間的な半言語モデルを生成することにより、類似したデータ分布を持つクライアントがより専門的なモデルを作成することができることを示す。 提案手法は,最も類似したデータ分布を持つクライアントからなるクラスタを複数構成し,各クラスタが別々にトレーニングを続ける。 クラスタ内ではメタラーニングを用いて参加者のモデルのパーソナライズを改善する。 クラスタリング手法を従来のFedAvgと比較し,ヘテロジニアスなデータ分布を持つ皮膚病変分類のためのHAM10kデータセット上で提案手法の評価を行った。 本実験は, 標準fl法と比較して, 異種分布における有意な性能向上を示す。 さらに,クラスタに適用した場合,モデルがより高速に収束し,データサブセットのみを使用しながら集中型トレーニングより優れることを示す。

Federated learning (FL) is a distributed learning method that offers medical institutes the prospect of collaboration in a global model while preserving the privacy of their patients. Although most medical centers conduct similar medical imaging tasks, their differences, such as specializations, number of patients, and devices, lead to distinctive data distributions. Data heterogeneity poses a challenge for FL and the personalization of the local models. In this work, we investigate an adaptive hierarchical clustering method for FL to produce intermediate semi-global models, so clients with similar data distribution have the chance of forming a more specialized model. Our method forms several clusters consisting of clients with the most similar data distributions; then, each cluster continues to train separately. Inside the cluster, we use meta-learning to improve the personalization of the participants' models. We compare the clustering approach with classical FedAvg and centralized training by evaluating our proposed methods on the HAM10k dataset for skin lesion classification with extreme heterogeneous data distribution. Our experiments demonstrate significant performance gain in heterogeneous distribution compared to standard FL methods in classification accuracy. Moreover, we show that the models converge faster if applied in clusters and outperform centralized training while using only a small subset of data.
翻訳日:2022-07-08 13:59:14 公開日:2022-07-07
# スマート教育のための統合型知的学習診断フレームワーク

A unified interpretable intelligent learning diagnosis framework for smart education ( http://arxiv.org/abs/2207.03122v1 )

ライセンス: Link先を確認
Zhifeng Wang, Wenxing Yan, Chunyan Zeng, Shi Dong(参考訳) 知的学習診断は、学習者の現在の知識熟達状態を推定し、将来の学習性能を予測することを目的とした、スマート教育の重要なエンジンである。 従来の学習診断法における重要な課題は、診断精度と解釈可能性のバランスが取れないことである。 この問題を解決するために,深層学習の強力な表現学習能力と心理計測の解釈能力の恩恵を受ける統一的解釈可能な知的学習診断フレームワークが,学習予測の優れた性能を実現し,認知パラメータ,学習者-リソース応答ネットワーク,自己照査機構の重み付けという3つの側面から解釈可能性を提供する。 本稿では,2チャンネル学習診断機構 LDM-ID と3チャンネル学習診断機構 LDM-HMI を提案する。 2つの実世界のデータセットとシミュレーションデータセットを用いた実験により,本手法は,最先端モデルと比較して学習者の成績を予測する上で高い精度を示し,スマート教育における正確な学習資源推薦やパーソナライズされた学習指導といった応用に有用な教育的解釈を提供することができる。

Intelligent learning diagnosis is a critical engine of smart education, which aims to estimate learners' current knowledge mastery status and predict their future learning performance. The significant challenge with traditional learning diagnosis methods is the inability to balance diagnostic accuracy and interpretability. To settle the above problem, the proposed unified interpretable intelligent learning diagnosis framework, which benefits from the powerful representation learning ability of deep learning and the interpretability of psychometric, achieves good performance of learning prediction and provides interpretability from three aspects: cognitive parameters, learner-resource response network, and weights of self-attention mechanism. Within the proposed framework, this paper proposes a two-channel learning diagnosis mechanism LDM-ID as well as a three-channel learning diagnosis mechanism LDM-HMI. Experiments on two real-world datasets and a simulation dataset show that our method has higher accuracy in predicting learners' performances compared with the state-of-the-art models, and can provide valuable educational interpretabilities for applications such as precise learning resource recommendation and personalized learning tutoring in smart education.
翻訳日:2022-07-08 13:58:15 公開日:2022-07-07
# SPR:リコメンデーションのための事前知識に基づくパーソナライズランキング

SPR:Supervised Personalized Ranking Based on Prior Knowledge for Recommendation ( http://arxiv.org/abs/2207.03197v1 )

ライセンス: Link先を確認
Chun Yang, Shicai Fan(参考訳) 推薦システムの目的は,ユーザと項目間のインタラクション履歴をモデル化し,正のサンプルスコアを最大化し,負のサンプルを最小化することである。 現在、2つの一般的な損失関数は、ポイントワイドとペアワイドという推奨システムの最適化に広く使われている。 これらの損失関数は広く使われているが、2つの問題がある。 1)従来の損失関数は,推薦システムの目標に適切に適合せず,事前知識情報を十分に活用する。 2) 従来の損失関数の緩やかな収束速度は, 様々なレコメンデーションモデルの実用化を困難にしている。 これらの課題に対処するために,先行知識に基づくSPR(Supervised Personalized Ranking)という新しい損失関数を提案する。 提案手法は,生データ中の各ユーザや項目のインタラクション履歴に関する事前知識を活用することにより,BPR損失を改善する。 BPRとは違って,<user, positive item, negative item> triplesを構成する代わりに,提案したSPRは<user, similar user, positive item, negative item> quadruplesを構成する。 SPRは非常に単純だが、非常に効果的である。 実験の結果,提案したSPRは推奨性能の向上だけでなく,収束速度を著しく向上させ,必要なトレーニング時間を大幅に短縮することがわかった。

The goal of a recommendation system is to model the relevance between each user and each item through the user-item interaction history, so that maximize the positive samples score and minimize negative samples. Currently, two popular loss functions are widely used to optimize recommender systems: the pointwise and the pairwise. Although these loss functions are widely used, however, there are two problems. (1) These traditional loss functions do not fit the goals of recommendation systems adequately and utilize prior knowledge information sufficiently. (2) The slow convergence speed of these traditional loss functions makes the practical application of various recommendation models difficult. To address these issues, we propose a novel loss function named Supervised Personalized Ranking (SPR) Based on Prior Knowledge. The proposed method improves the BPR loss by exploiting the prior knowledge on the interaction history of each user or item in the raw data. Unlike BPR, instead of constructing <user, positive item, negative item> triples, the proposed SPR constructs <user, similar user, positive item, negative item> quadruples. Although SPR is very simple, it is very effective. Extensive experiments show that our proposed SPR not only achieves better recommendation performance, but also significantly accelerates the convergence speed, resulting in a significant reduction in the required training time.
翻訳日:2022-07-08 13:57:53 公開日:2022-07-07
# プライバシー保護型総合教育データ生成

Privacy-Preserving Synthetic Educational Data Generation ( http://arxiv.org/abs/2207.03202v1 )

ライセンス: Link先を確認
Jill-J\^enn Vie (SODA), Tomas Rigaux (SODA), Sein Minn (CEDAR)(参考訳) 機関は大量の学習トレースを収集するが、プライバシー問題については公表しない可能性がある。 合成データ生成は、教育研究の新しい機会を開く。 本稿では,参加者のプライバシを保護できる教育データの生成モデルと,合成データジェネレータを比較するための評価フレームワークを提案する。 我々は,ナイーブな偽名化が再特定脅威につながる可能性を示し,プライバシを保証する手法を提案する。 本手法を既存の大規模オープンデータセットで評価する。

Institutions collect massive learning traces but they may not disclose it for privacy issues. Synthetic data generation opens new opportunities for research in education. In this paper we present a generative model for educational data that can preserve the privacy of participants, and an evaluation framework for comparing synthetic data generators. We show how naive pseudonymization can lead to re-identification threats and suggest techniques to guarantee privacy. We evaluate our method on existing massive educational open datasets.
翻訳日:2022-07-08 13:57:30 公開日:2022-07-07
# (参考訳) 非同期オーディオ・ビジュアル統合による秋のオブジェクトの発見

Finding Fallen Objects Via Asynchronous Audio-Visual Integration ( http://arxiv.org/abs/2207.03483v1 )

ライセンス: CC0 1.0
Chuang Gan, Yi Gu, Siyuan Zhou, Jeremy Schwartz, Seth Alter, James Traer, Dan Gutfreund, Joshua B. Tenenbaum, Josh McDermott, Antonio Torralba(参考訳) 物体の見え方や音は、その物理的性質を補完的に反映する。 多くの設定では、視覚とオーディションからのヒントは非同期に届くが、床に落ちてきたオブジェクトがそれを見つけるように統合されなければならない。 本稿では,3次元仮想環境におけるマルチモーダルオブジェクトのローカライゼーションを研究する環境を提案する。 オブジェクトは部屋のどこかに落とします。 カメラとマイクを備えた身体化されたロボットエージェントは、音声と視覚信号と基礎となる物理学の知識を組み合わせることで、どの物体がどこに落下したかを決定する必要がある。 この問題を解決するために、64室で30の物理オブジェクトカテゴリの8000インスタンスを含む大規模なデータセット、Fallen Objectsデータセットを生成しました。 このデータセットは、物理ベースの衝撃音と、フォトリアリスティックな設定でオブジェクト間の複雑な物理的相互作用をシミュレートする3DWorldプラットフォームを使用している。 この課題に対処する第一歩として,模倣学習,強化学習,モジュール計画に基づいて,具体化されたエージェントベースラインを開発し,本課題の課題を深く分析する。

The way an object looks and sounds provide complementary reflections of its physical properties. In many settings cues from vision and audition arrive asynchronously but must be integrated, as when we hear an object dropped on the floor and then must find it. In this paper, we introduce a setting in which to study multi-modal object localization in 3D virtual environments. An object is dropped somewhere in a room. An embodied robot agent, equipped with a camera and microphone, must determine what object has been dropped -- and where -- by combining audio and visual signals with knowledge of the underlying physics. To study this problem, we have generated a large-scale dataset -- the Fallen Objects dataset -- that includes 8000 instances of 30 physical object categories in 64 rooms. The dataset uses the ThreeDWorld platform which can simulate physics-based impact sounds and complex physical interactions between objects in a photorealistic setting. As a first step toward addressing this challenge, we develop a set of embodied agent baselines, based on imitation learning, reinforcement learning, and modular planning, and perform an in-depth analysis of the challenge of this new task.
翻訳日:2022-07-08 13:56:34 公開日:2022-07-07
# 非同期フェデレーションコンテキスト線形バンディットのための単純かつ有理効率なアルゴリズム

A Simple and Provably Efficient Algorithm for Asynchronous Federated Contextual Linear Bandits ( http://arxiv.org/abs/2207.03106v1 )

ライセンス: Link先を確認
Jiafan He and Tianhao Wang and Yifei Min and Quanquan Gu(参考訳) 我々は,M$エージェントが相互に協力し,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するフェデレーション付きコンテキスト線形バンドイットについて検討した。 すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。 楽観主義に基づく単純なアルゴリズムである \texttt{fedlinucb} を提案する。 我々は、 \texttt{FedLinUCB} の後悔は $\tilde{O}(d\sqrt{\sum_{m=1}^M T_m})$ で有界であり、通信複雑性は $\tilde{O}(dM^2)$ であり、$d$ は文脈ベクトルの次元であり、$T_m$ は$m$-th エージェントによる環境との相互作用の総数であることを示す。 我々の知る限り、これはフェデレーションされたコンテキスト線形帯域に対して完全な非同期通信を可能にする最初の証明可能な効率的なアルゴリズムであり、単一エージェント設定と同じ後悔の保証を達成する。

We study federated contextual linear bandits, where $M$ agents cooperate with each other to solve a global contextual linear bandit problem with the help of a central server. We consider the asynchronous setting, where all agents work independently and the communication between one agent and the server will not trigger other agents' communication. We propose a simple algorithm named \texttt{FedLinUCB} based on the principle of optimism. We prove that the regret of \texttt{FedLinUCB} is bounded by $\tilde{O}(d\sqrt{\sum_{m=1}^M T_m})$ and the communication complexity is $\tilde{O}(dM^2)$, where $d$ is the dimension of the contextual vector and $T_m$ is the total number of interactions with the environment by $m$-th agent. To the best of our knowledge, this is the first provably efficient algorithm that allows fully asynchronous communication for federated contextual linear bandits, while achieving the same regret guarantee as in the single-agent setting.
翻訳日:2022-07-08 13:36:39 公開日:2022-07-07
# ソースに戻る:拡散駆動テスト時間適応

Back to the Source: Diffusion-Driven Test-Time Adaptation ( http://arxiv.org/abs/2207.03442v1 )

ライセンス: Link先を確認
Jin Gao, Jialing Zhang, Xihui Liu, Trevor Darrell, Evan Shelhamer, Dequan Wang(参考訳) テスト時間適応はテスト入力を利用し、シフトターゲットデータでテストした場合、ソースデータに基づいてトレーニングされたモデルの精度を向上させる。 既存のメソッドは、各ターゲットドメインで(再)トレーニングによってソースモデルを更新する。 有効ではあるが、再トレーニングは最適化のためのデータとハイパーパラメータの量と順序に敏感である。 生成拡散モデルを用いて、全てのテスト入力をソース領域に向けて投影することで、ターゲットデータを更新する。 拡散駆動適応法であるDDAは、全領域にわたる分類と生成のモデルを共有する。 どちらのモデルもソースドメインでトレーニングされ、テスト中に修正される。 画像指導と自己センシングによって拡散を増強し,適応度を自動的に決定する。 DDAによる入力適応は、ImageNet-Cベンチマークにおける様々な汚職、アーキテクチャ、データレシエーションに対する事前モデル適応アプローチよりも堅牢である。 DDAは入力に関する更新で、モデル適応が小さなバッチ、非一様順序で依存するデータ、あるいは複数の破損を伴う混合データに分解されるのに成功している。

Test-time adaptation harnesses test inputs to improve the accuracy of a model trained on source data when tested on shifted target data. Existing methods update the source model by (re-)training on each target domain. While effective, re-training is sensitive to the amount and order of the data and the hyperparameters for optimization. We instead update the target data, by projecting all test inputs toward the source domain with a generative diffusion model. Our diffusion-driven adaptation method, DDA, shares its models for classification and generation across all domains. Both models are trained on the source domain, then fixed during testing. We augment diffusion with image guidance and self-ensembling to automatically decide how much to adapt. Input adaptation by DDA is more robust than prior model adaptation approaches across a variety of corruptions, architectures, and data regimes on the ImageNet-C benchmark. With its input-wise updates, DDA succeeds where model adaptation degrades on too little data in small batches, dependent data in non-uniform order, or mixed data with multiple corruptions.
翻訳日:2022-07-08 13:35:27 公開日:2022-07-07
# Red PANDA:Nuisance Factorの除去による異常検出の曖昧化

Red PANDA: Disambiguating Anomaly Detection by Removing Nuisance Factors ( http://arxiv.org/abs/2207.03478v1 )

ライセンス: Link先を確認
Niv Cohen, Jonathan Kahana, Yedid Hoshen(参考訳) 異常検出手法は、意味的な方法で標準と異なるパターンを発見する。 このゴールは、例えば年齢、人種、性別といった属性によってノルムと異なるデータポイントが、一部のオペレーターによって異常と見なされる可能性があるため曖昧である。 従来の研究とは違って,オペレーターが属性を異常検出に関連付けることを排除できる新たな異常検出手法を提案する。 提案手法では,ニュアンス属性に関する情報を含まない表現を学習する。 密度に基づくアプローチで異常スコアリングを行う。 重要なことに、このアプローチでは、異常検出に関連する属性を指定する必要はなく、通常異常検出では不可能であるが、無視する属性のみである。 本手法の有効性を検証する実証的研究を行った。

Anomaly detection methods strive to discover patterns that differ from the norm in a semantic way. This goal is ambiguous as a data point differing from the norm by an attribute e.g., age, race or gender, may be considered anomalous by some operators while others may consider this attribute irrelevant. Breaking from previous research, we present a new anomaly detection method that allows operators to exclude an attribute from being considered as relevant for anomaly detection. Our approach then learns representations which do not contain information over the nuisance attributes. Anomaly scoring is performed using a density-based approach. Importantly, our approach does not require specifying the attributes that are relevant for detecting anomalies, which is typically impossible in anomaly detection, but only attributes to ignore. An empirical investigation is presented verifying the effectiveness of our approach.
翻訳日:2022-07-08 13:35:08 公開日:2022-07-07
# シーン理解のための提案ゲームのためのリファインメント付きMCTS

MCTS with Refinement for Proposals Selection Games in Scene Understanding ( http://arxiv.org/abs/2207.03204v1 )

ライセンス: Link先を確認
Sinisa Stekovic, Mahdi Rad, Alireza Moradi, Friedrich Fraundorfer, and Vincent Lepetit(参考訳) 本研究では,モンテカルロ木探索 (mcts) アルゴリズムを応用した多くのシーン理解問題に適用可能な新しい手法を提案する。 提案手法は提案のプールから,目的語を最小化する提案を共同で選択・最適化する。 提案手法は,2次元多角形をモデルとした室内提案を,深層ネットワークが予測する適合度と室内形状の規則化を組み合わせ,目的関数を最適化することにより,フロアプラン再構築のための最初の応用例である。 また,これらの提案の多角形を描画する新たな微分可能手法を提案する。 最近の挑戦的な構造化3dおよびフロアspデータセットの評価は、床計画の構成に厳しい制約や仮定を課すことなく、最先端よりも大幅に改善しています。 第2のアプリケーションでは、カラー画像から一般的な3D部屋レイアウトを再構築し、正確な部屋レイアウトを得るためのアプローチを拡張した。 また,3次元平面多角形や多角形埋め込みのレンダリングにおいて,微分可能なレンダラを容易に拡張できることを示す。 本手法は,部屋配置に厳しい制約を加えることなく,Matterport3D-Layoutデータセット上で高い性能を示す。

We propose a novel method applicable in many scene understanding problems that adapts the Monte Carlo Tree Search (MCTS) algorithm, originally designed to learn to play games of high-state complexity. From a generated pool of proposals, our method jointly selects and optimizes proposals that minimize the objective term. In our first application for floor plan reconstruction from point clouds, our method selects and refines the room proposals, modelled as 2D polygons, by optimizing on an objective function combining the fitness as predicted by a deep network and regularizing terms on the room shapes. We also introduce a novel differentiable method for rendering the polygonal shapes of these proposals. Our evaluations on the recent and challenging Structured3D and Floor-SP datasets show significant improvements over the state-of-the-art, without imposing hard constraints nor assumptions on the floor plan configurations. In our second application, we extend our approach to reconstruct general 3D room layouts from a color image and obtain accurate room layouts. We also show that our differentiable renderer can easily be extended for rendering 3D planar polygons and polygon embeddings. Our method shows high performance on the Matterport3D-Layout dataset, without introducing hard constraints on room layout configurations.
翻訳日:2022-07-08 13:34:53 公開日:2022-07-07
# 人間-ロボットのコミュニケーション:グループにおけるロボット支援給餌のタイミング予測

Human-Robot Commensality: Bite Timing Prediction for Robot-Assisted Feeding in Groups ( http://arxiv.org/abs/2207.03348v1 )

ライセンス: Link先を確認
Jan Ondras, Abrar Anwar, Tong Wu, Fanjun Bu, Malte Jung, Jorge Jose Ortiz, Tapomayukh Bhattacharjee(参考訳) 私たちは、ロボットがソーシャルダイニングのシナリオでいつ餌をやるべきかを予測するデータ駆動モデルを開発した。 友人や家族と独立して食べられることは、移動制限のある人々にとって最も記憶に残る重要な活動の1つである。 ロボットはこの活動に役立てることができるが、ロボットによる摂食は、噛み込み、噛み込みのタイミング、噛み込みの際の困難を伴う多面的な問題である。 特にバイトタイミングは、コミュニケーション中に人間とロボットの相互作用を中断する可能性があるため、ソーシャルダイニングのシナリオで独特に困難になる。 私たちの重要な洞察は、ソーシャルな手がかりの微妙なバランスを考慮に入れた噛み込みタイミング戦略が、ソーシャルなダイニングシナリオにおけるロボット支援給餌におけるシームレスな相互作用につながることだ。 我々は,一緒に食事をする3人のグループを30グループ含むマルチモーダルなHHCD(Human-Human Commensality Dataset)を収集することで,この問題に対処する。 このデータセットを用いて,人間と人間の交感行動を分析し,ソーシャルダイニングシナリオにおける咬合タイミング予測モデルを開発した。 また、これらのモデルを人間ロボットのコミュニケーションシナリオに転送する。 我々のユーザー研究は、アルゴリズムがダイナー間のマルチモーダルなソーシャルシグナリングキューを使用して噛み込みタイミングをモデル化する場合、予測が改善することを示している。 hhcdデータセット、ユーザー研究のビデオ、およびコードは、受理後に公開される予定だ。

We develop data-driven models to predict when a robot should feed during social dining scenarios. Being able to eat independently with friends and family is considered one of the most memorable and important activities for people with mobility limitations. Robots can potentially help with this activity but robot-assisted feeding is a multi-faceted problem with challenges in bite acquisition, bite timing, and bite transfer. Bite timing in particular becomes uniquely challenging in social dining scenarios due to the possibility of interrupting a social human-robot group interaction during commensality. Our key insight is that bite timing strategies that take into account the delicate balance of social cues can lead to seamless interactions during robot-assisted feeding in a social dining scenario. We approach this problem by collecting a multimodal Human-Human Commensality Dataset (HHCD) containing 30 groups of three people eating together. We use this dataset to analyze human-human commensality behaviors and develop bite timing prediction models in social dining scenarios. We also transfer these models to human-robot commensality scenarios. Our user studies show that prediction improves when our algorithm uses multimodal social signaling cues between diners to model bite timing. The HHCD dataset, videos of user studies, and code will be publicly released after acceptance.
翻訳日:2022-07-08 13:31:59 公開日:2022-07-07
# スケールしたベータポリシによる市場形成

Market Making with Scaled Beta Policies ( http://arxiv.org/abs/2207.03352v1 )

ライセンス: Link先を確認
Joseph Jerome, Gregory Palmer, and Rahul Savani(参考訳) 本稿では,注文型市場におけるマーケットメーカの行動の新たな表現を紹介する。 この表現は、スケールされたベータディストリビューションを使用し、市場作りのための人工知能で取られた3つのアプローチを一般化している。 ラダー戦略は連続した価格の間隔で均一なボリュームを配置する。 スケールされたベータ配布ベースのポリシーはこれらを一般化し、ボリュームを価格間隔でスキューすることができる。 この柔軟性は、市場メーカが直面している重要な課題の1つである在庫管理に有用であることを示す。 本稿では、まず、より柔軟なベータベースのアクションとはしご戦略の特殊なケースを比較し、次に、簡単な固定分布の性能を調査し、最後に、マーケットメーカが取得した署名された在庫に応じて、アクションを連続的に調整するシンプルで直感的な動的制御ポリシーを考案し、評価する。 実験的な評価はすべて、各面に50レベルの履歴データに基づく高忠実度リミテッドオーダーブックシミュレータを使用する。

This paper introduces a new representation for the actions of a market maker in an order-driven market. This representation uses scaled beta distributions, and generalises three approaches taken in the artificial intelligence for market making literature: single price-level selection, ladder strategies and "market making at the touch". Ladder strategies place uniform volume across an interval of contiguous prices. Scaled beta distribution based policies generalise these, allowing volume to be skewed across the price interval. We demonstrate that this flexibility is useful for inventory management, one of the key challenges faced by a market maker. In this paper, we conduct three main experiments: first, we compare our more flexible beta-based actions with the special case of ladder strategies; then, we investigate the performance of simple fixed distributions; and finally, we devise and evaluate a simple and intuitive dynamic control policy that adjusts actions in a continuous manner depending on the signed inventory that the market maker has acquired. All empirical evaluations use a high-fidelity limit order book simulator based on historical data with 50 levels on each side.
翻訳日:2022-07-08 13:31:31 公開日:2022-07-07
# 対話型質問応答における楕円・座標検出のためのアクティブラーニングと多ラベル分類

Active Learning and Multi-label Classification for Ellipsis and Coreference Detection in Conversational Question-Answering ( http://arxiv.org/abs/2207.03145v1 )

ライセンス: Link先を確認
Quentin Brabant, Lina Maria Rojas-Barahona and Claire Gardent(参考訳) 人間の会話では、エリプシスとコリファレンスは一般的に言語現象である。 これらの現象は、人間と機械の会話をより流動的で自然なものにする手段であるが、楕円や中核を含む明示的な表現を含む対話コーパスはごくわずかである。 本稿では,対話型質問応答におけるエリプシスとコア参照を自動的に検出するタスクに対処する。 ディチルバートに基づくマルチラベル分類器の使用を提案する。 ラベルデータの制限量を補償するために、マルチラベル分類とアクティブラーニングが用いられる。 これらの手法は,手動ラベル付きデータセット上でこれらの現象を検出するための分類器の性能を大幅に向上させる。

In human conversations, ellipsis and coreference are commonly occurring linguistic phenomena. Although these phenomena are a mean of making human-machine conversations more fluent and natural, only few dialogue corpora contain explicit indications on which turns contain ellipses and/or coreferences. In this paper we address the task of automatically detecting ellipsis and coreferences in conversational question answering. We propose to use a multi-label classifier based on DistilBERT. Multi-label classification and active learning are employed to compensate the limited amount of labeled data. We show that these methods greatly enhance the performance of the classifier for detecting these phenomena on a manually labeled dataset.
翻訳日:2022-07-08 13:27:39 公開日:2022-07-07
# CoQAR: CoQAに関する質問の書き直し

CoQAR: Question Rewriting on CoQA ( http://arxiv.org/abs/2207.03240v1 )

ライセンス: Link先を確認
Quentin Brabant, Gwenole Lecorve, Lina M. Rojas-Barahona(参考訳) 会話中に人間が質問する質問は、しばしば文脈依存、すなわち前回対話への明示的または暗黙的な参照を含む。 これらの依存関係は、コア参照(例えば、代名詞使用による)や楕円の形をとり、自動システムでは理解が困難になる。 質問の理解とその後の扱いを容易にする1つの方法は、それを文脈外形式、すなわち会話的文脈なしで理解できる形式に書き換えることである。 coqarは会話型質問応答データセットcoqaから、合計535ドルのフォローアップ質問応答ペアで450万ドルの会話を含むコーパスである。 それぞれの質問は、少なくとも3つ以上のコンテキスト外書き直しで、手動で注釈付けされた。 CoQARは、質問パラフレーズ、質問書き換え、会話型質問応答の3つのタスクの教師あり学習に利用できる。 coqarの書き直しの質を評価するために,これら3つのタスクのモデルを訓練し,評価する実験を行った。 本研究は,質問書き直しを質問応答モデルの事前処理ステップとして利用し,その性能を向上させることを支援する。

Questions asked by humans during a conversation often contain contextual dependencies, i.e., explicit or implicit references to previous dialogue turns. These dependencies take the form of coreferences (e.g., via pronoun use) or ellipses, and can make the understanding difficult for automated systems. One way to facilitate the understanding and subsequent treatments of a question is to rewrite it into an out-of-context form, i.e., a form that can be understood without the conversational context. We propose CoQAR, a corpus containing $4.5$K conversations from the Conversational Question-Answering dataset CoQA, for a total of $53$K follow-up question-answer pairs. Each original question was manually annotated with at least 2 at most 3 out-of-context rewritings. CoQAR can be used in the supervised learning of three tasks: question paraphrasing, question rewriting and conversational question answering. In order to assess the quality of CoQAR's rewritings, we conduct several experiments consisting in training and evaluating models for these three tasks. Our results support the idea that question rewriting can be used as a preprocessing step for question answering models, thereby increasing their performances.
翻訳日:2022-07-08 13:27:28 公開日:2022-07-07
# 適応的問題解決支援のための学生生産性モデルの構築

Enhancing a Student Productivity Model for Adaptive Problem-Solving Assistance ( http://arxiv.org/abs/2207.03025v1 )

ライセンス: Link先を確認
Mehak Maniktala, Min Chi, and Tiffany Barnes(参考訳) インテリジェントな教育システムに関する研究は、効果的なアダプティブアシスタンスを提供するデータ駆動手法を探求している。 学生が支援を求めるとき、適応支援を提供するために多くの作業が行われているが、最適な支援を求めることはできない。 このことは、教師が苦難や非生産性の予測に対して無分別な援助を提供する、積極的適応支援への関心の高まりにつながった。 パーソナライズされたサポートを提供するかどうかの決定は、援助ジレンマと呼ばれるよく知られた課題である。 このジレンマに対処することは、問題を解くいくつかの方法があるオープンエンドドメインにおいて特に難しい。 研究者は、学生を積極的に支援するタイミングを決定する方法を模索してきたが、これらの方法のほとんどが事前のヒントを考慮に入れていない。 本稿では,学生が支援の必要性を予測するためにヒントを取り入れた新しいデータ駆動型アプローチを提案する。 我々は、オープンで構造化された論理証明のドメインを扱うインテリジェントなチューターにおけるその影響を探求する。 本研究は,学生のヒント利用を取り入れた支援者の予測に基づく適応的ヒント政策の効果を検討するための制御研究である。 我々は,このような政策が学生のトレーニング時間を大幅に節約できることを示す実証的証拠を示し,前向きな介入を伴わないコントロールと比較して,テスト結果の改善につながることを実証した。 また,学生のヒント利用を取り入れることで,学生の援助ニーズ予測における適応的ヒント政策の有効性が大幅に向上し,その結果,非生産的トレーニングの削減,支援回避の可能性の低減,支援の適切性の向上(支援が必要となる可能性が高い)が期待できることを示した。 このアプローチの恩恵を受けることができるドメインと、採用の要件についての提案を締めくくります。

Research on intelligent tutoring systems has been exploring data-driven methods to deliver effective adaptive assistance. While much work has been done to provide adaptive assistance when students seek help, they may not seek help optimally. This had led to the growing interest in proactive adaptive assistance, where the tutor provides unsolicited assistance upon predictions of struggle or unproductivity. Determining when and whether to provide personalized support is a well-known challenge called the assistance dilemma. Addressing this dilemma is particularly challenging in open-ended domains, where there can be several ways to solve problems. Researchers have explored methods to determine when to proactively help students, but few of these methods have taken prior hint usage into account. In this paper, we present a novel data-driven approach to incorporate students' hint usage in predicting their need for help. We explore its impact in an intelligent tutor that deals with the open-ended and well-structured domain of logic proofs. We present a controlled study to investigate the impact of an adaptive hint policy based on predictions of HelpNeed that incorporate students' hint usage. We show empirical evidence to support that such a policy can save students a significant amount of time in training, and lead to improved posttest results, when compared to a control without proactive interventions. We also show that incorporating students' hint usage significantly improves the adaptive hint policy's efficacy in predicting students' HelpNeed, thereby reducing training unproductivity, reducing possible help avoidance, and increasing possible help appropriateness (a higher chance of receiving help when it was likely to be needed). We conclude with suggestions on the domains that can benefit from this approach as well as the requirements for adoption.
翻訳日:2022-07-08 13:24:59 公開日:2022-07-07
# 非偏見学習のランク付けのための大規模検索データセット

A Large Scale Search Dataset for Unbiased Learning to Rank ( http://arxiv.org/abs/2207.03051v1 )

ライセンス: Link先を確認
Lixin Zou, Haitao Mao, Xiaokai Chu, Jiliang Tang, Wenwen Ye, Shuaiqiang Wang, Dawei Yin(参考訳) ultr(unbiased learning to rank)問題は、最近のディープラーニング技術とよく設計されたデビアスアルゴリズムによって大きく進歩した。 However, promising results on the existing benchmark datasets may not be extended to the practical scenario due to the following disadvantages observed from those popular benchmark datasets: (1) outdated semantic feature extraction where state-of-the-art large scale pre-trained language models like BERT cannot be exploited due to the missing of the original text;(2) incomplete display features for in-depth study of ULTR, e.g., missing the displayed abstract of documents for analyzing the click necessary bias; (3) lacking real-world user feedback, leading to the prevalence of synthetic datasets in the empirical study. 上記の欠点を克服するため、Baidu-ULTRデータセットを導入する。 ランダムに1.2億の検索セッションと、7,008のエキスパートによる注釈付きクエリをサンプリングし、これは既存のものよりも桁違いに大きい。 Baidu-ULTR provides:(1) the original semantic feature and a pre-trained language model for easy usage; (2) sufficient display information such as position, displayed height, and displayed abstract, enabling the comprehensive study of different biases with advanced techniques such as causal discovery and meta-learning; and (3) rich user feedback on search result pages (SERPs) like dwelling time, allowing for user engagement optimization and promoting the exploration of multi-task learning in ULTR. 本稿では,baidu-ultrの設計原理と,この新しいデータ資源におけるベンチマークultrアルゴリズムの性能について述べる。 Baidu-ULTRデータセットとそれに対応するベースライン実装はhttps://github.com/ChuXiaokai/baidu_ultr_datasetで公開されている。

The unbiased learning to rank (ULTR) problem has been greatly advanced by recent deep learning techniques and well-designed debias algorithms. However, promising results on the existing benchmark datasets may not be extended to the practical scenario due to the following disadvantages observed from those popular benchmark datasets: (1) outdated semantic feature extraction where state-of-the-art large scale pre-trained language models like BERT cannot be exploited due to the missing of the original text;(2) incomplete display features for in-depth study of ULTR, e.g., missing the displayed abstract of documents for analyzing the click necessary bias; (3) lacking real-world user feedback, leading to the prevalence of synthetic datasets in the empirical study. To overcome the above disadvantages, we introduce the Baidu-ULTR dataset. It involves randomly sampled 1.2 billion searching sessions and 7,008 expert annotated queries, which is orders of magnitude larger than the existing ones. Baidu-ULTR provides:(1) the original semantic feature and a pre-trained language model for easy usage; (2) sufficient display information such as position, displayed height, and displayed abstract, enabling the comprehensive study of different biases with advanced techniques such as causal discovery and meta-learning; and (3) rich user feedback on search result pages (SERPs) like dwelling time, allowing for user engagement optimization and promoting the exploration of multi-task learning in ULTR. In this paper, we present the design principle of Baidu-ULTR and the performance of benchmark ULTR algorithms on this new data resource, favoring the exploration of ranking for long-tail queries and pre-training tasks for ranking. The Baidu-ULTR dataset and corresponding baseline implementation are available at https://github.com/ChuXiaokai/baidu_ultr_dataset.
翻訳日:2022-07-08 13:24:29 公開日:2022-07-07
# メタコントローラによるデバイスクラウド協調勧告

Device-Cloud Collaborative Recommendation via Meta Controller ( http://arxiv.org/abs/2207.03066v1 )

ライセンス: Link先を確認
Jiangchao Yao, Feng Wang, Xichen Ding, Shaohu Chen, Bo Han, Jingren Zhou, Hongxia Yang(参考訳) オンデバイス機械学習は、ローカルクライアントへのレコメンデーションモデルの軽量なデプロイを可能にし、クラウドベースのレコメンデータの負担を軽減すると同時に、よりリアルタイムなユーザ機能を組み込む。 それでも、業界におけるクラウドベースのレコメンデーションは、その強力なモデルキャパシティと、10億規模のアイテムプールからの効率的な候補生成を考えると、依然として非常に重要である。 両パラダイムのメリットを統合する以前の試みは、主に、クラウドベースのレコメンデーションの上にオンデバイスレコメンデータを構築するシーケンシャルなメカニズムに依存している。 オンデバイスモデルは限られたアイテムキャッシュによって立ち往生し、大きなアイテムプールに基づくクラウドベースのレコメンデーションは、新しいリフレッシュフィードバックなしでは応答しない。 そこで本研究では,オンデバイスレコメンデータとクラウドベースのレコメンデータのコラボレーションを動的に管理するメタコントローラを提案する。 反事実サンプルと拡張トレーニングに基づいて、産業推奨シナリオにおける広範囲な実験は、デバイスとクラウドのコラボレーションにおけるメタコントローラの期待を示す。

On-device machine learning enables the lightweight deployment of recommendation models in local clients, which reduces the burden of the cloud-based recommenders and simultaneously incorporates more real-time user features. Nevertheless, the cloud-based recommendation in the industry is still very important considering its powerful model capacity and the efficient candidate generation from the billion-scale item pool. Previous attempts to integrate the merits of both paradigms mainly resort to a sequential mechanism, which builds the on-device recommender on top of the cloud-based recommendation. However, such a design is inflexible when user interests dramatically change: the on-device model is stuck by the limited item cache while the cloud-based recommendation based on the large item pool do not respond without the new re-fresh feedback. To overcome this issue, we propose a meta controller to dynamically manage the collaboration between the on-device recommender and the cloud-based recommender, and introduce a novel efficient sample construction from the causal perspective to solve the dataset absence issue of meta controller. On the basis of the counterfactual samples and the extended training, extensive experiments in the industrial recommendation scenarios show the promise of meta controller in the device-cloud collaboration.
翻訳日:2022-07-08 13:23:59 公開日:2022-07-07
# 強化学習シナリオにおけるロボット行動の人間的説明の評価

Evaluating Human-like Explanations for Robot Actions in Reinforcement Learning Scenarios ( http://arxiv.org/abs/2207.03214v1 )

ライセンス: Link先を確認
Francisco Cruz, Charlotte Young, Richard Dazeley, Peter Vamplew(参考訳) 説明可能な人工知能は、自律的なインテリジェントシステムに対してより透明性を提供する研究分野である。 説明可能性、特に強化学習やロボットシナリオにおいて、ロボットの意思決定プロセスをよりよく理解するために使われてきた。 しかし、これまでの研究は、専門家以外のエンドユーザーよりもAI実践者が理解しやすい技術的な説明を提供することに重点を置いてきた。 本研究では、自律型ロボットが行動を実行した後の目標を達成するために、成功の確率から構築された人間的な説明を利用する。 これらの説明は、人工知能の手法の経験がほとんど、あるいはほとんどない人々によって理解されることを意図している。 本稿では,その目的にアクションが成功する確率に着目した説明が,非熟練のエンドユーザにとって適切な説明となるか検討する。 その結果,Q値から生じる技術的説明よりも成功確率が高く,ばらつきが少ないロボットの説明が評価され,スタンドアローンの説明よりも事実的説明が望ましいことがわかった。

Explainable artificial intelligence is a research field that tries to provide more transparency for autonomous intelligent systems. Explainability has been used, particularly in reinforcement learning and robotic scenarios, to better understand the robot decision-making process. Previous work, however, has been widely focused on providing technical explanations that can be better understood by AI practitioners than non-expert end-users. In this work, we make use of human-like explanations built from the probability of success to complete the goal that an autonomous robot shows after performing an action. These explanations are intended to be understood by people who have no or very little experience with artificial intelligence methods. This paper presents a user trial to study whether these explanations that focus on the probability an action has of succeeding in its goal constitute a suitable explanation for non-expert end-users. The results obtained show that non-expert participants rate robot explanations that focus on the probability of success higher and with less variance than technical explanations generated from Q-values, and also favor counterfactual explanations over standalone explanations.
翻訳日:2022-07-08 13:23:36 公開日:2022-07-07
# ジムDSSAT:強化学習環境に転換した作物モデル

gym-DSSAT: a crop model turned into a Reinforcement Learning environment ( http://arxiv.org/abs/2207.03270v1 )

ライセンス: Link先を確認
Gautron Romain, Padr\'on Emilio J., Preux Philippe, Bigot Julien, Maillard Odalric-Ambrym, Emukpere David(参考訳) 強化学習(rl)による実世界の逐次的決定問題に対処するには、通常、実条件を模倣したシミュレーション環境の使用から始める。 リアルな作物管理タスクのためのオープンソースのRL環境を提案する。 ジムDSSAT(英語: gym-DSSAT)は、農業技術移転のための意思決定支援システム(DSSAT)のジムインタフェースである。 DSSATは過去30年間に開発され、アグロノミストによって広く認知されている。 gym-dssatは実世界のトウモロコシ実験に基づく事前定義されたシミュレーションを備えている。 その環境はあらゆるジム環境と同じくらい簡単に使える。 基本RLアルゴリズムを用いて性能ベースラインを提供する。 また、Fortranで書かれたモノリシックDSSATシミュレータがPython RL環境にどのように変換されたのかを概説する。 我々の手法は汎用的であり、同様のシミュレータに適用できるかもしれない。 本研究は,RLが研究者の肥料の持続可能性向上に役立つことを示唆する非常に予備的な実験結果について報告する。

Addressing a real world sequential decision problem with Reinforcement Learning (RL) usually starts with the use of a simulated environment that mimics real conditions. We present a novel open source RL environment for realistic crop management tasks. gym-DSSAT is a gym interface to the Decision Support System for Agrotechnology Transfer (DSSAT), a high fidelity crop simulator. DSSAT has been developped over the last 30 years and is widely recognized by agronomists. gym-DSSAT comes with predefined simulations based on real world maize experiments. The environment is as easy to use as any gym environment. We provide performance baselines using basic RL algorithms. We also briefly outline how the monolithic DSSAT simulator written in Fortran has been turned into a Python RL environment. Our methodology is generic and may be applied to similar simulators. We report on very preliminary experimental results which suggest that RL can help researchers to improve sustainability of fertilization and irrigation practices.
翻訳日:2022-07-08 13:23:17 公開日:2022-07-07
# (参考訳) 開語彙検出のための物体と画像レベルのギャップを埋める

Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection ( http://arxiv.org/abs/2207.03482v1 )

ライセンス: CC BY 4.0
Hanoona Rasheed, Muhammad Maaz, Muhammad Uzair Khattak, Salman Khan, Fahad Shahbaz Khan(参考訳) 既存のopen-vocabulary object detectorsは通常、異なる形態の弱い監督を利用して語彙のサイズを拡大する。 これは推論において新しいオブジェクトに一般化するのに役立つ。 オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。 CLIPは画像テキストペアで訓練されており、オブジェクトの正確なローカライゼーションを欠いているのに対して、画像レベルのインスペクションは局所的なオブジェクト領域を正確に指定していないヒューリスティックスで使用されている。 本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。 さらに,高品質なオブジェクト提案を提供し,トレーニング中の語彙拡張を支援する擬似ラベルプロセスを用いて,画像レベルの監督のみでオブジェクトを視覚的に接地させる。 上記の2つの対物配向戦略の橋渡しを, 補足的強みを集約する新たな重み伝達関数によって行う。 基本的に、提案モデルはOVD設定におけるオブジェクトと画像中心表現のギャップを最小化する。 提案手法はCOCOベンチマークにおいて,新規クラスにおいて40.3 AP50を達成し,従来の最高性能よりも絶対11.9アップし,レアカテゴリでは5.0マスクAP,全体の3.4マスクAPを超越した。 コード: https://bit.ly/3byzoqp。

Existing open-vocabulary object detectors typically enlarge their vocabulary sizes by leveraging different forms of weak supervision. This helps generalize to novel objects at inference. Two popular forms of weak-supervision used in open-vocabulary detection (OVD) include pretrained CLIP model and image-level supervision. We note that both these modes of supervision are not optimally aligned for the detection task: CLIP is trained with image-text pairs and lacks precise localization of objects while the image-level supervision has been used with heuristics that do not accurately specify local object regions. In this work, we propose to address this problem by performing object-centric alignment of the language embeddings from the CLIP model. Furthermore, we visually ground the objects with only image-level supervision using a pseudo-labeling process that provides high-quality object proposals and helps expand the vocabulary during training. We establish a bridge between the above two object-alignment strategies via a novel weight transfer function that aggregates their complimentary strengths. In essence, the proposed model seeks to minimize the gap between object and image-centric representations in the OVD setting. On the COCO benchmark, our proposed approach achieves 40.3 AP50 on novel classes, an absolute 11.9 gain over the previous best performance.For LVIS, we surpass the state-of-the-art ViLD model by 5.0 mask AP for rare categories and 3.4 overall. Code: https://bit.ly/3byZoQp.
翻訳日:2022-07-08 13:20:44 公開日:2022-07-07
# Back to the Basics: Revisiting Out-of-Distribution Detection Baselines

Back to the Basics: Revisiting Out-of-Distribution Detection Baselines ( http://arxiv.org/abs/2207.03061v1 )

ライセンス: Link先を確認
Johnson Kuan, Jonas Mueller(参考訳) 既に訓練済みの分類器と互換性のあるood(out-of-distribution)画像検出のための簡易な手法を,その予測や学習表現のみに依存して検討した。 ResNet-50 と Swin Transformer モデルを用いて様々な手法の OOD 検出性能を評価することにより,モデルの予測のみを考慮した手法は,学習した表現も考慮し,容易に向上できることを示す。 そこで本研究では,K近傍の平均距離が広いOOD画像(分布内データに基づいて訓練された画像分類器の表現空間)としてフラグを付けることで,他の研究で無視された致命的アプローチを提唱する。

We study simple methods for out-of-distribution (OOD) image detection that are compatible with any already trained classifier, relying on only its predictions or learned representations. Evaluating the OOD detection performance of various methods when utilized with ResNet-50 and Swin Transformer models, we find methods that solely consider the model's predictions can be easily outperformed by also considering the learned representations. Based on our analysis, we advocate for a dead-simple approach that has been neglected in other studies: simply flag as OOD images whose average distance to their K nearest neighbors is large (in the representation space of an image classifier trained on the in-distribution data).
翻訳日:2022-07-08 12:55:13 公開日:2022-07-07
# DRL-ISP: 深層強化学習型多目的カメラISP

DRL-ISP: Multi-Objective Camera ISP with Deep Reinforcement Learning ( http://arxiv.org/abs/2207.03081v1 )

ライセンス: Link先を確認
Ukcheol Shin, Kyunghyun Lee, In So Kweon(参考訳) 本稿では,Deep Reinforcement Learning(DRL)と,ネットワークベースおよび従来型のISPツールからなるカメラISPツールボックスを利用する多目的カメラISPフレームワークを提案する。 提案するdrlベースのカメラispフレームワークは、ツールボックスから適切なツールを反復的に選択し、所定の視覚タスク固有の報酬関数を最大化するために画像に適用する。 この目的のために、露光補正、色と音の補正、ホワイトバランス、シャープニング、デノーミングなどを含む51のISPツールを実装した。 また、画像の様々な側面を抽出し、画像と多数のアクションの厳密なマッピング関係を作ることができる効率的なDRLネットワークアーキテクチャを提案する。 提案するDRLベースのISPフレームワークは,RAW-to-RGB画像復元,2次元物体検出,単眼深度推定などの視覚タスクに応じて,画像品質を効果的に向上する。

In this paper, we propose a multi-objective camera ISP framework that utilizes Deep Reinforcement Learning (DRL) and camera ISP toolbox that consist of network-based and conventional ISP tools. The proposed DRL-based camera ISP framework iteratively selects a proper tool from the toolbox and applies it to the image to maximize a given vision task-specific reward function. For this purpose, we implement total 51 ISP tools that include exposure correction, color-and-tone correction, white balance, sharpening, denoising, and the others. We also propose an efficient DRL network architecture that can extract the various aspects of an image and make a rigid mapping relationship between images and a large number of actions. Our proposed DRL-based ISP framework effectively improves the image quality according to each vision task such as RAW-to-RGB image restoration, 2D object detection, and monocular depth estimation.
翻訳日:2022-07-08 12:55:00 公開日:2022-07-07
# ロボット学習における公平性とバイアス

Fairness and Bias in Robot Learning ( http://arxiv.org/abs/2207.03444v1 )

ライセンス: Link先を確認
Laura Londo\~no, Juana Valeria Hurtado, Nora Hertz, Philipp Kellmeyer, Silja Voeneky, Abhinav Valada(参考訳) 機械学習はロボットの能力を大幅に向上させ、人間の環境で広範囲のタスクを実行し、不確実な現実世界に適応できるようにする。 機械学習のさまざまな分野における最近の研究は、これらのアルゴリズムが人間のバイアスを再現せず、結果として差別的な結果をもたらすことを保証するために公平さを考慮に入れることの重要性を強調している。 ロボット学習システムは日々の生活の中でますます多くのタスクをこなすようになり、そのようなバイアスの影響を理解して、特定の集団に対する意図しない行動を防ぐことが不可欠である。 本研究では,技術的,倫理的,法的課題にまたがる学際的な観点から,ロボット学習における公正性に関する最初の調査を示す。 バイアスの発生源とそれに起因する差別の分類法を提案する。 異なるロボット学習領域の例を用いて、不公平な結果のシナリオとそれらを緩和するための戦略を検討する。 本稿では,公平性の定義,倫理的,法的考察,公平なロボット学習のための方法などについて述べる。 この研究により,公平なロボット学習における画期的な開発への道を開くことを目指している。

Machine learning has significantly enhanced the abilities of robots, enabling them to perform a wide range of tasks in human environments and adapt to our uncertain real world. Recent works in various domains of machine learning have highlighted the importance of accounting for fairness to ensure that these algorithms do not reproduce human biases and consequently lead to discriminatory outcomes. With robot learning systems increasingly performing more and more tasks in our everyday lives, it is crucial to understand the influence of such biases to prevent unintended behavior toward certain groups of people. In this work, we present the first survey on fairness in robot learning from an interdisciplinary perspective spanning technical, ethical, and legal challenges. We propose a taxonomy for sources of bias and the resulting types of discrimination due to them. Using examples from different robot learning domains, we examine scenarios of unfair outcomes and strategies to mitigate them. We present early advances in the field by covering different fairness definitions, ethical and legal considerations, and methods for fair robot learning. With this work, we aim at paving the road for groundbreaking developments in fair robot learning.
翻訳日:2022-07-08 12:54:42 公開日:2022-07-07
# ニューラルネットワークモデルは脳データに適合しないが、トレーニングの助けになる

Neural Language Models are not Born Equal to Fit Brain Data, but Training Helps ( http://arxiv.org/abs/2207.03380v1 )

ライセンス: Link先を確認
Alexandre Pasquiou (PARIETAL, UNICOG-U992), Yair Lakretz (UNICOG-U992), John Hale, Bertrand Thirion (PARIETAL), Christophe Pallier (UNICOG-U992)(参考訳) ニューラル言語モデル(NLM)は、過去数年間で飛躍的な進歩を遂げ、様々な言語タスクにおいて素晴らしいパフォーマンスを発揮した。 これを利用して、神経科学の研究は、言語処理中の人間の脳内の神経活動の研究にNLMを使い始めた。 しかし、どの因子が脳活動(いわゆる「脳スコア」)を捕捉する神経言語モデルの能力を決定するかについて、多くの疑問が残る。 本稿では,この方向への第一歩を踏み出し,テスト損失,トレーニングコーパス,モデルアーキテクチャ(comparing glove,lstm,gpt-2,bert)が,オーディオブックを聴く参加者の機能的磁気共鳴イメージングの時間経過の予測に与える影響について検討する。 We find that (1) untrained versions of each model already explain significant amount of signal in the brain by capturing similarity in brain responses across identical words, with the untrained LSTM outperforming the transformerbased models, being less impacted by the effect of context; (2) that training NLP models improves brain scores in the same brain regions irrespective of the model's architecture; (3) that Perplexity (test loss) is not a good predictor of brain score; (4) that training data have a strong influence on the outcome and, notably, that off-the-shelf models may lack statistical power to detect brain activations. 全体として、モデル学習の選択の影響を概説し、ニューラル言語モデルを用いた人間の言語システムの説明を目的とした将来の研究のための良い実践を提案する。

Neural Language Models (NLMs) have made tremendous advances during the last years, achieving impressive performance on various linguistic tasks. Capitalizing on this, studies in neuroscience have started to use NLMs to study neural activity in the human brain during language processing. However, many questions remain unanswered regarding which factors determine the ability of a neural language model to capture brain activity (aka its 'brain score'). Here, we make first steps in this direction and examine the impact of test loss, training corpus and model architecture (comparing GloVe, LSTM, GPT-2 and BERT), on the prediction of functional Magnetic Resonance Imaging timecourses of participants listening to an audiobook. We find that (1) untrained versions of each model already explain significant amount of signal in the brain by capturing similarity in brain responses across identical words, with the untrained LSTM outperforming the transformerbased models, being less impacted by the effect of context; (2) that training NLP models improves brain scores in the same brain regions irrespective of the model's architecture; (3) that Perplexity (test loss) is not a good predictor of brain score; (4) that training data have a strong influence on the outcome and, notably, that off-the-shelf models may lack statistical power to detect brain activations. Overall, we outline the impact of modeltraining choices, and suggest good practices for future studies aiming at explaining the human language system using neural language models.
翻訳日:2022-07-08 12:53:52 公開日:2022-07-07
# AsNER -- アノテーション付きデータセットとAssamese Named Entity Recognitionのベースライン

AsNER -- Annotated Dataset and Baseline for Assamese Named Entity recognition ( http://arxiv.org/abs/2207.03422v1 )

ライセンス: Link先を確認
Dhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah(参考訳) 我々は,assamese nerモデルに基づく低リソースassamese言語のための名前付きエンティティアノテーションデータセットasnerを提案する。 データセットには、インド首相の演説とアッサム劇のテキストからなる約99kトークンが含まれている。 また、人物名、住所、住所も含む。 提案されたnerデータセットは、ディープニューラルベースのアッサム言語処理の重要なリソースである可能性が高い。 我々は、NERモデルをトレーニングし、Fasttext, BERT, XLM-R, FLAIR, MuRILなどの教師付きエンティティ認識(NER)のための最先端アーキテクチャを用いて、データセットをベンチマークする。 我々は、最先端のシーケンスタギングBi-LSTM-CRFアーキテクチャを用いて、いくつかのベースラインアプローチを実装した。 全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。 注釈付きデータセットとトップパフォーマンスモデルが公開されている。

We present the AsNER, a named entity annotation dataset for low resource Assamese language with a baseline Assamese NER model. The dataset contains about 99k tokens comprised of text from the speech of the Prime Minister of India and Assamese play. It also contains person names, location names and addresses. The proposed NER dataset is likely to be a significant resource for deep neural based Assamese language processing. We benchmark the dataset by training NER models and evaluating using state-of-the-art architectures for supervised named entity recognition (NER) such as Fasttext, BERT, XLM-R, FLAIR, MuRIL etc. We implement several baseline approaches with state-of-the-art sequence tagging Bi-LSTM-CRF architecture. The highest F1-score among all baselines achieves an accuracy of 80.69% when using MuRIL as a word embedding method. The annotated dataset and the top performing model are made publicly available.
翻訳日:2022-07-08 12:53:28 公開日:2022-07-07
# ジェネリックイベント境界キャプション用デュアルストリームトランス

Dual-Stream Transformer for Generic Event Boundary Captioning ( http://arxiv.org/abs/2207.03038v1 )

ライセンス: Link先を確認
Xin Gu, Hanhua Ye, Guang Chen, Yufei Wang, Libo Zhang, Longyin Wen(参考訳) 本稿では,CVPR2022ジェネリックイベント境界キャプタリング(GEBC)コンペティションのチャンピオンソリューションについて述べる。 GEBCは、キャプションモデルに対して、所定のビデオ境界付近の即時的なステータス変更の理解を必要とするため、従来のビデオキャプションタスクよりもはるかに難しい。 本稿では,映像コンテンツエンコーディングとキャプション生成の両面で改善したデュアルストリームトランスを提案する。 さらに,境界の型をヒントとして活用し,モデルによるキャプション生成を支援する。 2) 境界キャプションの識別表現を学習するために,特にDual-Stream Transformerと呼ばれるモデルの設計を行う。 3) 内容関連文や人間ライクなキャプションの作成に向けて, 単語レベルのアンサンブル戦略をデザインし, 記述品質の向上を図る。 GEBCテストスプリットの有望な結果は,提案モデルの有効性を示すものである。

This paper describes our champion solution for the CVPR2022 Generic Event Boundary Captioning (GEBC) competition. GEBC requires the captioning model to have a comprehension of instantaneous status changes around the given video boundary, which makes it much more challenging than conventional video captioning task. In this paper, a Dual-Stream Transformer with improvements on both video content encoding and captions generation is proposed: (1) We utilize three pre-trained models to extract the video features from different granularities. Moreover, we exploit the types of boundary as hints to help the model generate captions. (2) We particularly design an model, termed as Dual-Stream Transformer, to learn discriminative representations for boundary captioning. (3) Towards generating content-relevant and human-like captions, we improve the description quality by designing a word-level ensemble strategy. The promising results on the GEBC test split demonstrate the efficacy of our proposed model.
翻訳日:2022-07-08 12:53:11 公開日:2022-07-07
# 機械およびユーザ生成自然言語記述を用いたマイナショット画像分類の改善

Improving Few-Shot Image Classification Using Machine- and User-Generated Natural Language Descriptions ( http://arxiv.org/abs/2207.03133v1 )

ライセンス: Link先を確認
Kosuke Nishida, Kyosuke Nishida, Shuichi Nishioka(参考訳) 人間は言語記述から斬新な視覚概念の知識を得ることができ、それゆえ、マイノリティ画像分類タスクを用いて、機械学習モデルにこの能力があるかどうかを検証できる。 提案モデルであるlide (learning from image and description) は,記述を生成するためのテキストデコーダと,マシン記述やユーザ記述のテキスト表現を取得するテキストエンコーダを備えている。 機械記述によるLIDEがベースラインモデルより優れていることを確認した。 さらに,高品質なユーザ生成記述により,さらに性能が向上した。 生成した説明はモデル予測の説明と見なすことができ,その説明は予測結果と一致していることがわかった。 また,特徴空間における画像表現とテキスト表現を比較することで,画像分類性能が向上した理由についても検討した。

Humans can obtain the knowledge of novel visual concepts from language descriptions, and we thus use the few-shot image classification task to investigate whether a machine learning model can have this capability. Our proposed model, LIDE (Learning from Image and DEscription), has a text decoder to generate the descriptions and a text encoder to obtain the text representations of machine- or user-generated descriptions. We confirmed that LIDE with machine-generated descriptions outperformed baseline models. Moreover, the performance was improved further with high-quality user-generated descriptions. The generated descriptions can be viewed as the explanations of the model's predictions, and we observed that such explanations were consistent with prediction results. We also investigated why the language description improved the few-shot image classification performance by comparing the image representations and the text representations in the feature spaces.
翻訳日:2022-07-08 12:52:54 公開日:2022-07-07
# ジョブショップスケジューリングにおける機械順応の質の学習

Learning the Quality of Machine Permutations in Job Shop Scheduling ( http://arxiv.org/abs/2207.03244v1 )

ライセンス: Link先を確認
Andrea Corsini, Simone Calderara, and Mauro Dell'Amico(参考訳) 近年、機械学習(ml)によって実証されたパワーは、最適および近似アルゴリズムの設計を拡張および自動化するためにmlを活用している最適化コミュニティの関心を引き付けている。 MLで対処された組合せ最適化問題の1つは、ジョブショップスケジューリング問題(JSP)である。 jspとmlに焦点を当てた最近の研究のほとんどは、ディープ強化学習(drl)に基づいており、教師あり学習技術を活用するものはごくわずかである。 教師付き学習を避けることの繰り返しの理由は、正しい学習タスク、すなわち予測する意味のあるもの、ラベルの取得方法のキャスティングが困難であるように思われる。 そこで本研究では,まず機械置換の質を予測することを目的とした教師あり学習タスクを提案する。 次に,この品質を推定するために,精度の高い逐次的深層学習モデル(2次精度95%以上)を作成できる独自の手法を考案する。 最後に,本論文に触発された単純なタブ探索アルゴリズムの性能を向上させることにより,機械の順列の質を予測することの価値を実証的に示す。

In recent years, the power demonstrated by Machine Learning (ML) has increasingly attracted the interest of the optimization community that is starting to leverage ML for enhancing and automating the design of optimal and approximate algorithms. One combinatorial optimization problem that has been tackled with ML is the Job Shop scheduling Problem (JSP). Most of the recent works focusing on the JSP and ML are based on Deep Reinforcement Learning (DRL), and only a few of them leverage supervised learning techniques. The recurrent reasons for avoiding supervised learning seem to be the difficulty in casting the right learning task, i.e., what is meaningful to predict, and how to obtain labels. Therefore, we first propose a novel supervised learning task that aims at predicting the quality of machine permutations. Then, we design an original methodology to estimate this quality that allows to create an accurate sequential deep learning model (binary accuracy above 95%). Finally, we empirically demonstrate the value of predicting the quality of machine permutations by enhancing the performance of a simple Tabu Search algorithm inspired by the works in the literature.
翻訳日:2022-07-08 12:52:02 公開日:2022-07-07
# 自己監督型ポイントクラウド学習のためのマスクサーフェル予測

Masked Surfel Prediction for Self-Supervised Point Cloud Learning ( http://arxiv.org/abs/2207.03111v1 )

ライセンス: Link先を確認
Yabin Zhang, Jiehong Lin, Chenhang He, Yongwei Chen, Kui Jia, Lei Zhang(参考訳) masked auto-encodingは、ポイントクラウド学習に対する、人気で効果的な自己教師付き学習アプローチである。 しかし,既存の手法の多くはマスキングポイントのみを再構成し,局所幾何情報を見落としているため,ポイントクラウドデータを理解する上でも重要である。 本研究では,まず,マスク付き自動符号化に局所的幾何学的情報を明示的に考慮し,Masked Surfel Prediction (MaskSurf)法を提案する。 具体的には、入力点雲が高い比でマスクされていることを考慮し、トランスフォーマーベースのエンコーダデコーダネットワークを学習し、サーフ位置(すなわち、点)とサーフセルごとの向き(すなわち、正規)を同時に予測することで、基礎となるマスク付きサーフを推定する。 点と正規値の予測は、新たに導入されたシャムハ距離と位置インデックス正規値距離をセットツーセットで監視する。 私たちのMaskSurfは3つの微調整戦略の下で6つの下流タスクで検証されます。 特に、masksurfは、obj-bg設定下のscanobjectnnの実世界のデータセット上で、最も近い競合であるpoint-maeを1.2\%上回っており、マスキングドポイントクラウド再構築よりもマスクドサーフィン予測の利点を正当化している。 コードはhttps://github.com/ybzh/masksurfで入手できる。

Masked auto-encoding is a popular and effective self-supervised learning approach to point cloud learning. However, most of the existing methods reconstruct only the masked points and overlook the local geometry information, which is also important to understand the point cloud data. In this work, we make the first attempt, to the best of our knowledge, to consider the local geometry information explicitly into the masked auto-encoding, and propose a novel Masked Surfel Prediction (MaskSurf) method. Specifically, given the input point cloud masked at a high ratio, we learn a transformer-based encoder-decoder network to estimate the underlying masked surfels by simultaneously predicting the surfel positions (i.e., points) and per-surfel orientations (i.e., normals). The predictions of points and normals are supervised by the Chamfer Distance and a newly introduced Position-Indexed Normal Distance in a set-to-set manner. Our MaskSurf is validated on six downstream tasks under three fine-tuning strategies. In particular, MaskSurf outperforms its closest competitor, Point-MAE, by 1.2\% on the real-world dataset of ScanObjectNN under the OBJ-BG setting, justifying the advantages of masked surfel prediction over masked point cloud reconstruction. Codes will be available at https://github.com/YBZh/MaskSurf.
翻訳日:2022-07-08 12:51:45 公開日:2022-07-07
# リアルタイム意味セグメンテーションのためのエントロピーに基づく特徴抽出

Entropy-Based Feature Extraction For Real-Time Semantic Segmentation ( http://arxiv.org/abs/2207.03233v1 )

ライセンス: Link先を確認
Lusine Abrahamyan and Nikos Deligiannis(参考訳) 本稿では、リソース制約付きセマンティックセグメンテーションのための効率的なパッチベースの計算モジュール、Entropy-based Patch Encoder (EPE) モジュールを提案する。 EPEモジュールは3つの軽量完全畳み込みエンコーダで構成され、それぞれがエントロピーの異なる画像パッチから特徴を抽出する。 高エントロピーのパッチは最も多くのパラメータを持つエンコーダで処理され、中等エントロピーのパッチは適度な数のパラメータを持つエンコーダで処理され、低エントロピーのパッチは最小のエンコーダで処理される。 高いエントロピーを持つパッチにはより多くの情報が含まれているため、小さなエントロピーで処理可能な低エントロピーパッチとは異なり、より多くのパラメータを持つエンコーダが必要である。 これにより、より小さなエンコーダによるパッチ処理は、モジュールの計算コストを大幅に削減することができる。 実験により、EPEは計算コストをわずかに増加させ、既存のリアルタイムセマンティックセグメンテーションモデルの性能を向上させることができることが示された。 具体的には、DFANet AのmIOU性能が0.9%向上し、パラメータ数が1.2%増加し、EDANetのmIOU性能が1%向上し、モデルパラメータが10%増加した。

This paper introduces an efficient patch-based computational module, coined Entropy-based Patch Encoder (EPE) module, for resource-constrained semantic segmentation. The EPE module consists of three lightweight fully-convolutional encoders, each extracting features from image patches with a different amount of entropy. Patches with high entropy are being processed by the encoder with the largest number of parameters, patches with moderate entropy are processed by the encoder with a moderate number of parameters, and patches with low entropy are processed by the smallest encoder. The intuition behind the module is the following: as patches with high entropy contain more information, they need an encoder with more parameters, unlike low entropy patches, which can be processed using a small encoder. Consequently, processing part of the patches via the smaller encoder can significantly reduce the computational cost of the module. Experiments show that EPE can boost the performance of existing real-time semantic segmentation models with a slight increase in the computational cost. Specifically, EPE increases the mIOU performance of DFANet A by 0.9% with only 1.2% increase in the number of parameters and the mIOU performance of EDANet by 1% with 10% increase of the model parameters.
翻訳日:2022-07-08 12:51:16 公開日:2022-07-07
# すべてのモデルが等しくない:自在なフィッシャー空間におけるモデル転送可能性の予測

Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space ( http://arxiv.org/abs/2207.03036v1 )

ライセンス: Link先を確認
Wenqi Shao, Xun Zhao, Yixiao Ge, Zhaoyang Zhang, Lei Yang, Xiaogang Wang, Ying Shan, Ping Luo(参考訳) 本稿では,事前学習したディープニューラルネットワークをランク付けし,下流タスクに対して最も転送可能なニューラルネットワークをスクリーニングするという重要な問題に対処する。 目標データセット上でトレーニング済みのモデルを微調整することで,各タスクの基幹モデルランキングを生成できるため,その処理はブルートフォースで計算コストがかかる。 最近の先進的な手法は、微調整結果を予測するために、いくつかの軽量トランスファービリティ指標を提案した。 しかし、これらのアプローチは静的表現のみをキャプチャするが、微調整ダイナミクスを無視する。 そこで本論文では,既存の著作物が持たない多くの魅力あるメリットを有する,新しい伝達可能性指標である「textbf{S}elf-challenging \textbf{F}isher \textbf{D}iscriminant \textbf{A}nalysis (\textbf{SFDA})」を提案する。 まず、sfdaは静的機能をフィッシャースペースに組み込んで、クラス間の分離性を改善することができる。 第二に、sfdaは、さまざまな事前訓練されたモデルにハードな例を区別するよう促すために、自己チャリングメカニズムを使用している。 第3に、SFDAはモデルのアンサンブルのために複数の事前訓練されたモデルを選択できる。 11ドルのダウンストリームタスクの335ドルの事前トレーニングモデルに関する広範囲な実験は、事前トレーニングされたモデルの転送性を測定する際、sfdaは効率的で効果的で堅牢であることを示している。 例えば、最先端のNLEEPと比較して、SFDAは平均59.1$\%の上昇を示し、ウォールクロック時間に22.5$xのスピードアップをもたらす。 コードは \url{https://github.com/TencentARC/SFDA} で入手できる。

This paper addresses an important problem of ranking the pre-trained deep neural networks and screening the most transferable ones for downstream tasks. It is challenging because the ground-truth model ranking for each task can only be generated by fine-tuning the pre-trained models on the target dataset, which is brute-force and computationally expensive. Recent advanced methods proposed several lightweight transferability metrics to predict the fine-tuning results. However, these approaches only capture static representations but neglect the fine-tuning dynamics. To this end, this paper proposes a new transferability metric, called \textbf{S}elf-challenging \textbf{F}isher \textbf{D}iscriminant \textbf{A}nalysis (\textbf{SFDA}), which has many appealing benefits that existing works do not have. First, SFDA can embed the static features into a Fisher space and refine them for better separability between classes. Second, SFDA uses a self-challenging mechanism to encourage different pre-trained models to differentiate on hard examples. Third, SFDA can easily select multiple pre-trained models for the model ensemble. Extensive experiments on $33$ pre-trained models of $11$ downstream tasks show that SFDA is efficient, effective, and robust when measuring the transferability of pre-trained models. For instance, compared with the state-of-the-art method NLEEP, SFDA demonstrates an average of $59.1$\% gain while bringing $22.5$x speedup in wall-clock time. The code will be available at \url{https://github.com/TencentARC/SFDA}.
翻訳日:2022-07-08 12:48:41 公開日:2022-07-07
# トレーニング後の量子化のための注意ラウンド

Attention Round for Post-Training Quantization ( http://arxiv.org/abs/2207.03088v1 )

ライセンス: Link先を確認
Huabin Diao and Gongyan Li and Shaoyun Xu and Yuexing Hao(参考訳) 現在、ニューラルネットワークモデルの定量化方法は、主にポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)に分けられている。 トレーニング後の量子化は、定量化プロセスを完了するためにデータのごく一部しか必要としないが、その量的モデルの性能は、量子化を意識したトレーニングほど良くない。 本稿では,注意ラウンドと呼ばれる新しい量化手法を提案する。 この方法では、パラメータwに、量子化の過程でwに近い2つの量子化値だけでなく、可能な全ての量子化値にマッピングされる機会を与える。 異なる定量値にマッピングされる確率は、量子化された値とwの間の距離と負に相関し、ガウス関数で崩壊する。 さらに,モデルの異なる層にビット幅を割り当てる手法として,符号長の損失を利用して混合精度量子化の問題を解くことにより,組合せ最適化の問題を効果的に回避する。 また, 異なるモデルを用いた定量的実験を行い, 提案手法の有効性を確認した。 ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は,量子化処理の完了に 1,024 のトレーニングデータと 10 分しか要しない。

At present, the quantification methods of neural network models are mainly divided into post-training quantization (PTQ) and quantization aware training (QAT). Post-training quantization only need a small part of the data to complete the quantification process, but the performance of its quantitative model is not as good as the quantization aware training. This paper presents a novel quantification method called Attention Round. This method gives parameters w the opportunity to be mapped to all possible quantized values, rather than just the two quantized values nearby w in the process of quantization. The probability of being mapped to different quantified values is negatively correlated with the distance between the quantified values and w, and decay with a Gaussian function. In addition, this paper uses the lossy coding length as a measure to assign bit widths to the different layers of the model to solve the problem of mixed precision quantization, which effectively avoids to solve combinatorial optimization problem. This paper also performs quantitative experiments on different models, the results confirm the effectiveness of the proposed method. For ResNet18 and MobileNetV2, the post-training quantization proposed in this paper only require 1,024 training data and 10 minutes to complete the quantization process, which can achieve quantization performance on par with quantization aware training.
翻訳日:2022-07-08 12:48:08 公開日:2022-07-07
# オフライン強化学習による通知の多目的最適化

Multi-objective Optimization of Notifications Using Offline Reinforcement Learning ( http://arxiv.org/abs/2207.03029v1 )

ライセンス: Link先を確認
Prakruthi Prabhakar, Yiping Yuan, Guangyu Yang, Wensheng Sun, Ajith Muralidharan(参考訳) モバイル通知システムは、通信、アラート、リマインダーをユーザーに送信し、ニュース、イベント、メッセージについて通知する様々なアプリケーションにおいて重要な役割を果たす。 本稿では,報奨の目的を複数に対して最適化するマルコフ決定プロセスとして,近時間通知決定問題を定式化する。 逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。 本稿では、分散シフト問題とQ値過大評価を緩和する保守的Q-ラーニングに基づくDouble Deep Q-network法によるオフライン学習の課題に対処する。 我々は,本システムについて,オフライン実験とオンライン実験の両方を通じて,提案手法の性能とメリットを実証する。

Mobile notification systems play a major role in a variety of applications to communicate, send alerts and reminders to the users to inform them about news, events or messages. In this paper, we formulate the near-real-time notification decision problem as a Markov Decision Process where we optimize for multiple objectives in the rewards. We propose an end-to-end offline reinforcement learning framework to optimize sequential notification decisions. We address the challenge of offline learning using a Double Deep Q-network method based on Conservative Q-learning that mitigates the distributional shift problem and Q-value overestimation. We illustrate our fully-deployed system and demonstrate the performance and benefits of the proposed approach through both offline and online experiments.
翻訳日:2022-07-08 12:47:22 公開日:2022-07-07
# 生存分析によるモバイル通知の状態遷移モデル

A State Transition Model for Mobile Notifications via Survival Analysis ( http://arxiv.org/abs/2207.03099v1 )

ライセンス: Link先を確認
Yiping Yuan, Jing Zhang, Shaunak Chatterjee, Shipeng Yu, Romer Rosales(参考訳) モバイル通知は、ユーザーの情報とエンゲージメントを維持するソーシャルネットワーキングサービスにとって、主要なコミュニケーションチャネルとなっている。 より多くのモバイルアプリがユーザに通知をプッシュするようになると、彼らは送信、時期、方法に関する意思決定に常に直面するようになる。 研究と方法論の欠如は、一般的にヒューリスティックな意思決定につながる。 多くの通知が不適切なタイミングに届きすぎるか、割り込みが多すぎるため、ユーザに価値を提供しず、ユーザの不満を喚起する。 本稿では,モバイル通知とユーザエンゲージメントの相互作用の特徴について考察する。 通知の有効性を定量的に評価する状態遷移フレームワークを提案する。 本研究では,ログ線形構造とWeibull分布を仮定して,バッジ通知のサバイバルモデルを構築した。 この結果は,ロジスティック回帰モデルよりもアプリケーションの柔軟性が高く,予測精度が優れていることを示す。 特に、通知配信時間の最適化に関するオンラインのユースケースを提供し、よりよい意思決定方法を示し、ユーザエンゲージメントを高め、ユーザにより多くの価値を提供する。

Mobile notifications have become a major communication channel for social networking services to keep users informed and engaged. As more mobile applications push notifications to users, they constantly face decisions on what to send, when and how. A lack of research and methodology commonly leads to heuristic decision making. Many notifications arrive at an inappropriate moment or introduce too many interruptions, failing to provide value to users and spurring users' complaints. In this paper we explore unique features of interactions between mobile notifications and user engagement. We propose a state transition framework to quantitatively evaluate the effectiveness of notifications. Within this framework, we develop a survival model for badging notifications assuming a log-linear structure and a Weibull distribution. Our results show that this model achieves more flexibility for applications and superior prediction accuracy than a logistic regression model. In particular, we provide an online use case on notification delivery time optimization to show how we make better decisions, drive more user engagement, and provide more value to users.
翻訳日:2022-07-08 12:47:12 公開日:2022-07-07
# (参考訳) SC2EGSet: StarCraft II Esport Replayとゲーム状態データセット

SC2EGSet: StarCraft II Esport Replay and Game-state Dataset ( http://arxiv.org/abs/2207.03428v1 )

ライセンス: CC BY 4.0
Andrzej Bia{\l}ecki, Natalia Jakubowska, Pawe{\l} Dobrowolski, Piotr Bia{\l}ecki, Leszek Krupi\'nski, Andrzej Szczap, Robert Bia{\l}ecki, Jan Gajewski(参考訳) 比較的新しいタイプのスポーツとして、esportsは別途のデータ可用性を提供している。 ゲームエンジンが生成する膨大なデータにもかかわらず、それらを抽出し、実用的および科学的用途のためにその完全性を検証することは困難である。 私たちの研究は、starcraft iiのeスポーツトーナメントの生ファイルと前処理ファイルを提供することで、より広い科学コミュニティにeスポーツを開放することを目的としています。 これらのファイルは統計および機械学習モデリングタスクで使用することができ、様々な実験室に基づく測定(例えば、行動検査、脳イメージング)と関連付けられる。 我々は,トーナメントマッチのゲームエンジン生成した「リプレイ」を収集し,低レベルアプリケーションプログラミングインタフェース(API)パーサライブラリを用いてデータ抽出とクリーンアップを行った。 さらに、データセットを作成する過程で開発されたすべてのカスタムツールをオープンソースとして公開しました。 これらのツールには、データのロードとモデル化のためのPyTorchとPyTorch Lightning API抽象化が含まれている。 われわれのデータセットには、2016年以来のスタークラフトIIトーナメントのリプレイが含まれている。 データセットを作成するために,ゲーム状態情報付き17930ファイルを含む55のトーナメント「リプレイパック」を処理した。 利用可能なstarcraft iiデータセットの初期調査に基づいて、私たちのデータセットがstarcraft iiのesportsデータの最大の公開ソースであることを観察しました。 抽出されたデータの解析は、さらに人工知能(ai)、機械学習(ml)、心理学、人間とコンピュータの相互作用(hci)、スポーツ関連の様々なタスクにおける研究の可能性を秘めている。

As a relatively new form of sport, esports offers unparalleled data availability. Despite the vast amounts of data that are generated by game engines, it can be challenging to extract them and verify their integrity for the purposes of practical and scientific use. Our work aims to open esports to a broader scientific community by supplying raw and pre-processed files from StarCraft II esports tournaments. These files can be used in statistical and machine learning modeling tasks and related to various laboratory-based measurements (e.g., behavioral tests, brain imaging). We have gathered publicly available game-engine generated "replays" of tournament matches and performed data extraction and cleanup using a low-level application programming interface (API) parser library. Additionally, we open-sourced and published all the custom tools that were developed in the process of creating our dataset. These tools include PyTorch and PyTorch Lightning API abstractions to load and model the data. Our dataset contains replays from major and premiere StarCraft II tournaments since 2016. To prepare the dataset, we processed 55 tournament "replaypacks" that contained 17930 files with game-state information. Based on initial investigation of available StarCraft II datasets, we observed that our dataset is the largest publicly available source of StarCraft II esports data upon its publication. Analysis of the extracted data holds promise for further Artificial Intelligence (AI), Machine Learning (ML), psychological, Human-Computer Interaction (HCI), and sports-related studies in a variety of supervised and self-supervised tasks.
翻訳日:2022-07-08 12:45:26 公開日:2022-07-07
# 自動車用レーダ物体検出ネットワークの自励速度推定

Self-Supervised Velocity Estimation for Automotive Radar Object Detection Networks ( http://arxiv.org/abs/2207.03146v1 )

ライセンス: Link先を確認
Daniel Niederl\"ohner, Michael Ulrich, Sascha Braun, Daniel K\"ohler, Florian Faion, Claudius Gl\"aser, Andr\'e Treptow, Holger Blume(参考訳) 本稿では,自動車レーダデータに基づく物体検出ネットワークを用いて物体のカルト速度を学習する手法を提案する。 提案手法は, 速度の訓練信号を生成することで, 自己監視を行う。 ラベルはシングルフレーム指向のバウンディングボックス(obbs)にのみ必要である。 カルテジアン速度や連続配列のラベルは、入手に費用がかかるが必要ではない。 一般的なアイデアは、単一フレームのobbラベルを使用して速度を使わずにオブジェクト検出ネットワークを事前トレーニングし、そのネットワークのobb予測をラベルなしのデータに活用して速度トレーニングを行うことである。 具体的には、予測速度を用いてラベル付きフレームのタイムスタンプにネットワークのラベル付きフレームのobb予測を更新し、ラベル付きフレームの更新obbとラベル付きフレームのobb予測との間の距離を用いて、速度の自己教師付きトレーニング信号を生成する。 検出ネットワークアーキテクチャは、複数のスキャンの時間的関係を考慮したモジュールと、レーダーの放射速度測定を明示的に表現するモジュールによって拡張される。 OBB検出のみを訓練し、OBB検出と速度を訓練する2段階のアプローチが用いられる。 さらに,レーダー放射速度測定から得られた擬似ラベルを用いた事前学習は,自己教師あり方式をブートストラップする。 公開されているnuScenesデータセットの実験から,提案手法は完全教師付きトレーニングの速度推定性能にほぼ達するが,高価な速度ラベルを必要としないことが示された。 さらに,ラジアル速度測定のみをラベルとして使用するベースライン法を上回った。

This paper presents a method to learn the Cartesian velocity of objects using an object detection network on automotive radar data. The proposed method is self-supervised in terms of generating its own training signal for the velocities. Labels are only required for single-frame, oriented bounding boxes (OBBs). Labels for the Cartesian velocities or contiguous sequences, which are expensive to obtain, are not required. The general idea is to pre-train an object detection network without velocities using single-frame OBB labels, and then exploit the network's OBB predictions on unlabelled data for velocity training. In detail, the network's OBB predictions of the unlabelled frames are updated to the timestamp of a labelled frame using the predicted velocities and the distances between the updated OBBs of the unlabelled frame and the OBB predictions of the labelled frame are used to generate a self-supervised training signal for the velocities. The detection network architecture is extended by a module to account for the temporal relation of multiple scans and a module to represent the radars' radial velocity measurements explicitly. A two-step approach of first training only OBB detection, followed by training OBB detection and velocities is used. Further, a pre-training with pseudo-labels generated from radar radial velocity measurements bootstraps the self-supervised method of this paper. Experiments on the publicly available nuScenes dataset show that the proposed method almost reaches the velocity estimation performance of a fully supervised training, but does not require expensive velocity labels. Furthermore, we outperform a baseline method which uses only radial velocity measurements as labels.
翻訳日:2022-07-08 12:16:59 公開日:2022-07-07
# (参考訳) GAN生成試料の多様性を選択的に増大させる

Selectively increasing the diversity of GAN-generated samples ( http://arxiv.org/abs/2207.01561v2 )

ライセンス: CC BY 4.0
Jan Dubi\'nski, Kamil Deja, Sandro Wenzel, Przemys{\l}aw Rokita, Tomasz Trzci\'nski(参考訳) generative adversarial network (gans) は、実データ分布によく似たデータサンプルを合成できる強力なモデルであるが、gansで観測されるモード崩壊現象によって生成されたサンプルの多様性は限られている。 特にモード崩壊の傾向は条件付きGANであり、入力ノイズベクトルを無視して条件情報に集中する傾向がある。 この制限を緩和する最近の手法は、生成したサンプルの多様性を高めるが、サンプルの類似性が必要な場合、モデルの性能を低下させる。 そこで本研究では,GAN生成サンプルの多様性を選択的に向上する手法を提案する。 トレーニング損失関数にシンプルで効果的な正規化を加えることで、生成元は多様な出力に関連する入力の新しいデータモードを発見し、残りのデータに対して一貫性のあるサンプルを生成することを推奨します。 より正確には、与えられた条件付き入力に対するサンプルの多様性に応じて効果をスケールする入力潜在ベクトルと生成画像間の距離の比率を最大化する。 LHC,CERNにおけるALICE実験のZero Degree Calorimeterから得られたデータをシミュレーションする実生活シナリオとともに,本手法の優位性を示す。

Generative Adversarial Networks (GANs) are powerful models able to synthesize data samples closely resembling the distribution of real data, yet the diversity of those generated samples is limited due to the so-called mode collapse phenomenon observed in GANs. Especially prone to mode collapse are conditional GANs, which tend to ignore the input noise vector and focus on the conditional information. Recent methods proposed to mitigate this limitation increase the diversity of generated samples, yet they reduce the performance of the models when similarity of samples is required. To address this shortcoming, we propose a novel method to selectively increase the diversity of GAN-generated samples. By adding a simple, yet effective regularization to the training loss function we encourage the generator to discover new data modes for inputs related to diverse outputs while generating consistent samples for the remaining ones. More precisely, we maximise the ratio of distances between generated images and input latent vectors scaling the effect according to the diversity of samples for a given conditional input. We show the superiority of our method in a synthetic benchmark as well as a real-life scenario of simulating data from the Zero Degree Calorimeter of ALICE experiment in LHC, CERN.
翻訳日:2022-07-08 12:14:13 公開日:2022-07-07
# (参考訳) RLとエピソードメモリの行動前処理による計画

Planning with RL and episodic-memory behavioral priors ( http://arxiv.org/abs/2207.01845v2 )

ライセンス: CC BY 4.0
Shivansh Beohar and Andrew Melnik(参考訳) 学習エージェントの実践的応用には、サンプル効率と解釈可能なアルゴリズムが必要である。 行動優先から学ぶことは、ランダムな探索方針や早期学習の落とし穴に対するセーフガードを持つエージェントをブートストラップする有望な方法である。 既存の模倣学習のソリューションは、多数の専門家によるデモンストレーションを必要とし、深いQ学習のような難解な学習方法に依存している。 そこで本研究では,強化学習環境における効果的な探索と学習にこれらの行動優先法を活用できる計画に基づくアプローチを提案し,行動優先の形での探索政策がエージェントの学習を早めることを実証する。

The practical application of learning agents requires sample efficient and interpretable algorithms. Learning from behavioral priors is a promising way to bootstrap agents with a better-than-random exploration policy or a safe-guard against the pitfalls of early learning. Existing solutions for imitation learning require a large number of expert demonstrations and rely on hard-to-interpret learning methods like Deep Q-learning. In this work we present a planning-based approach that can use these behavioral priors for effective exploration and learning in a reinforcement learning environment, and we demonstrate that curated exploration policies in the form of behavioral priors can help an agent learn faster.
翻訳日:2022-07-08 12:05:16 公開日:2022-07-07
# (参考訳) 深部オフラインRLにおける入射規則化の実証的研究

An Empirical Study of Implicit Regularization in Deep Offline RL ( http://arxiv.org/abs/2207.02099v2 )

ライセンス: CC BY 4.0
Caglar Gulcehre, Srivatsan Srinivasan, Jakub Sygnowski, Georg Ostrovski, Mehrdad Farajtabar, Matt Hoffman, Razvan Pascanu, Arnaud Doucet(参考訳) ディープニューラルネットワークは、オフライン強化学習において最もよく使われる関数近似器である。 先行研究では、td学習と勾配降下で訓練されたニューラルネットワークは、これらのネットワークの過小パラメータ化によって特徴づけられる暗黙の正規化を示すことが示されている。 特に、ペナルティメート特徴層のランクは \textit{effective rank} とも呼ばれ、トレーニング中に劇的に崩壊することが観測されている。 逆に、この崩壊は学習の後半段階にさらに適応するモデルの能力を減らすために議論され、最終的なパフォーマンスが低下した。 このような効果的なランクとパフォーマンスの関係は、オフラインのrl、主にオフラインのポリシー評価に有効なランクをもたらす。 本研究では,bsuite,Atari,DeepMindの3つのオフラインRLデータセットにおいて,有効ランクと性能の関係について検討した。 直接関連性は制限された設定でのみ存在し、より広範なハイパーパラメータスイープで消失する。 また,暗黙の規則化が学習のダイナミクスに与える影響を説明する3段階の学習を経験的に同定し,ブートストラップだけでは効果的なランクの崩壊を説明することができないことを発見した。 さらに,実効的なランクとパフォーマンスの関係を明らかにする他の要因がいくつかあり得ることを示し,単純化された仮定の下でこの関係を研究することは極めて誤解を招く可能性があると結論づけた。

Deep neural networks are the most commonly used function approximators in offline reinforcement learning. Prior works have shown that neural nets trained with TD-learning and gradient descent can exhibit implicit regularization that can be characterized by under-parameterization of these networks. Specifically, the rank of the penultimate feature layer, also called \textit{effective rank}, has been observed to drastically collapse during the training. In turn, this collapse has been argued to reduce the model's ability to further adapt in later stages of learning, leading to the diminished final performance. Such an association between the effective rank and performance makes effective rank compelling for offline RL, primarily for offline policy evaluation. In this work, we conduct a careful empirical study on the relation between effective rank and performance on three offline RL datasets : bsuite, Atari, and DeepMind lab. We observe that a direct association exists only in restricted settings and disappears in the more extensive hyperparameter sweeps. Also, we empirically identify three phases of learning that explain the impact of implicit regularization on the learning dynamics and found that bootstrapping alone is insufficient to explain the collapse of the effective rank. Further, we show that several other factors could confound the relationship between effective rank and performance and conclude that studying this association under simplistic assumptions could be highly misleading.
翻訳日:2022-07-08 11:55:53 公開日:2022-07-07
# (参考訳) トランスフォーマーを用いた多層網膜疾患分類

Multi-Label Retinal Disease Classification using Transformers ( http://arxiv.org/abs/2207.02335v2 )

ライセンス: CC BY 4.0
M. A. Rodriguez, H. AlMarzouqi and P. Liatsis (Department of Electrical Engineering and Computer Science, Khalifa University)(参考訳) 網膜疾患の早期発見は、患者の部分的または永久的盲点を防ぐ最も重要な手段の1つである。 本研究では,様々なソースから収集した眼底画像を用いて,複数の網膜疾患を検出するための新しい多ラベル分類システムを提案する。 まず, 眼底疾患分類に利用可能なデータセットを多数使用し, 網膜多層疾患データセットであるmured datasetを構築した。 次に、データセットに存在する画像データの品質と疾患の範囲を確保するために、一連の後処理ステップを適用する。 ファンダス・マルチラベル病の分類では、画像解析と意思決定に広範囲な実験により最適化されたトランスフォーマーモデルが初めて用いられる。 提案システムの構成を最適化するために,多数の実験を行った。 この手法は, 疾患検出のためのAUCスコア, 疾患分類におけるAUCスコアの7.9%と8.1%と, 同じ課題における最先端の作業よりも優れていた。 得られた結果は、医療画像分野におけるトランスベースアーキテクチャの潜在的な応用をさらに支援する。

Early detection of retinal diseases is one of the most important means of preventing partial or permanent blindness in patients. In this research, a novel multi-label classification system is proposed for the detection of multiple retinal diseases, using fundus images collected from a variety of sources. First, a new multi-label retinal disease dataset, the MuReD dataset, is constructed, using a number of publicly available datasets for fundus disease classification. Next, a sequence of post-processing steps is applied to ensure the quality of the image data and the range of diseases, present in the dataset. For the first time in fundus multi-label disease classification, a transformer-based model optimized through extensive experimentation is used for image analysis and decision making. Numerous experiments are performed to optimize the configuration of the proposed system. It is shown that the approach performs better than state-of-the-art works on the same task by 7.9% and 8.1% in terms of AUC score for disease detection and disease classification, respectively. The obtained results further support the potential applications of transformer-based architectures in the medical imaging field.
翻訳日:2022-07-08 11:54:40 公開日:2022-07-07
# (参考訳) テキストエンリッチな疎双曲グラフ畳み込みネットワーク

Text Enriched Sparse Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2207.02368v2 )

ライセンス: CC BY-SA 4.0
Nurendra Choudhary, Nikhil Rao, Karthik Subbian, Chandan K. Reddy(参考訳) エッジタイプが異なるテキストを含む情報ノードを接続する異種ネットワークは、様々な現実世界のアプリケーションに情報を保存するために日常的に使用される。 グラフニューラルネットワーク(GNN)とその双曲的変種は、それぞれ近傍の集約と階層的特徴抽出を通じて、低次元の潜在空間でそのようなネットワークを符号化する有望なアプローチを提供する。 しかし、これらのアプローチは一般的にメタパス構造や利用可能な意味情報を無視する。 さらに、これらの手法はトレーニングデータに存在するノイズに敏感である。 本稿では,これらの制約に対処するために,意味的信号を用いてグラフのメタパス構造を捕捉し,さらに大きな異種グラフの予測を改善するために,テキスト強化スパースハイパーボリックグラフ畳み込みネットワーク(TESH-GCN)を提案する。 TESH-GCNでは,関係ノードの局所的近傍およびグラフレベルのメタパス特徴を,高次グラフ畳み込み層におけるスパース隣接テンソルから抽出する接続信号として機能する意味ノード情報を抽出する。 これらの抽出された特徴と言語モデルからのセマンティックな特徴(堅牢性のために)が最終ダウンストリームタスクに使用される。 様々な不均一グラフデータセットにおける実験により,本モデルはリンク予測のタスクにおいて,現在の最先端のアプローチよりも大きなマージンを持つことが示された。 また,修正双曲グラフ畳み込みによる既存の双曲的アプローチと比較して,トレーニング時間とモデルパラメータの両方の削減を報告した。 さらに,本モデルのロバスト性について,グラフ構造とテキストの両方において異なるレベルのシミュレーションノイズを実験し,抽出されたメタパスを解析し,tesh-gcnの予測を説明するメカニズムを提案する。

Heterogeneous networks, which connect informative nodes containing text with different edge types, are routinely used to store and process information in various real-world applications. Graph Neural Networks (GNNs) and their hyperbolic variants provide a promising approach to encode such networks in a low-dimensional latent space through neighborhood aggregation and hierarchical feature extraction, respectively. However, these approaches typically ignore metapath structures and the available semantic information. Furthermore, these approaches are sensitive to the noise present in the training data. To tackle these limitations, in this paper, we propose Text Enriched Sparse Hyperbolic Graph Convolution Network (TESH-GCN) to capture the graph's metapath structures using semantic signals and further improve prediction in large heterogeneous graphs. In TESH-GCN, we extract semantic node information, which successively acts as a connection signal to extract relevant nodes' local neighborhood and graph-level metapath features from the sparse adjacency tensor in a reformulated hyperbolic graph convolution layer. These extracted features in conjunction with semantic features from the language model (for robustness) are used for the final downstream task. Experiments on various heterogeneous graph datasets show that our model outperforms the current state-of-the-art approaches by a large margin on the task of link prediction. We also report a reduction in both the training time and model parameters compared to the existing hyperbolic approaches through a reformulated hyperbolic graph convolution. Furthermore, we illustrate the robustness of our model by experimenting with different levels of simulated noise in both the graph structure and text, and also, present a mechanism to explain TESH-GCN's prediction by analyzing the extracted metapaths.
翻訳日:2022-07-08 11:28:08 公開日:2022-07-07
# starcraft multi-agent challenge+ : 報酬機能のない多段階課題と環境因子の学習

The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks and Environmental Factors without Precise Reward Functions ( http://arxiv.org/abs/2207.02007v2 )

ライセンス: Link先を確認
Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song Chong and Se-Young Yun(参考訳) 本稿では,スタークラフト・マルチエージェント・チャレンジ(starcraft multi-agent challenge+)と呼ばれる新しいベンチマークを提案する。 従来のマルチエージェント強化学習の標準ベンチマークとして認識されていた課題(SMAC)は、すべてのエージェントが、明らかな報酬関数による微細な操作によってのみ、接近する敵を協調的に排除することを目的としている。 一方,この課題は,マイクロコントロールだけでなく,暗黙的なマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。 本研究は攻撃的シナリオと防御的シナリオの両方をカバーする。 攻撃的なシナリオでは、エージェントは最初に相手を見つけ、それを取り除かなければならない。 防御シナリオは、エージェントが地形的特徴を使用する必要がある。 例えば、エージェントは敵の攻撃を困難にするため、防御構造の後ろに自分自身を置く必要がある。 SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。 さらに,改良された探索手法は性能に肯定的な影響を与えるが,すべてのシナリオを完全に解決することはできない。 本研究は今後の研究に向けた新しい方向性を提案する。

In this paper, we propose a novel benchmark called the StarCraft Multi-Agent Challenges+, where agents learn to perform multi-stage tasks and to use environmental factors without precise reward functions. The previous challenges (SMAC) recognized as a standard benchmark of Multi-Agent Reinforcement Learning are mainly concerned with ensuring that all agents cooperatively eliminate approaching adversaries only through fine manipulation with obvious reward functions. This challenge, on the other hand, is interested in the exploration capability of MARL algorithms to efficiently learn implicit multi-stage tasks and environmental factors as well as micro-control. This study covers both offensive and defensive scenarios. In the offensive scenarios, agents must learn to first find opponents and then eliminate them. The defensive scenarios require agents to use topographic features. For example, agents need to position themselves behind protective structures to make it harder for enemies to attack. We investigate MARL algorithms under SMAC+ and observe that recent approaches work well in similar settings to the previous challenges, but misbehave in offensive scenarios. Additionally, we observe that an enhanced exploration approach has a positive effect on performance but is not able to completely solve all scenarios. This study proposes new directions for future research.
翻訳日:2022-07-08 10:57:50 公開日:2022-07-07
# 特異値分解を用いたtic-tac-toe評価関数の情報圧縮と性能評価

Information Compression and Performance Evaluation of Tic-Tac-Toe's Evaluation Function Using Singular Value Decomposition ( http://arxiv.org/abs/2207.02449v2 )

ライセンス: Link先を確認
Naoya Fujita and Hiroshi Watanabe(参考訳) ゲームTic-Tac-Toeの評価関数を特異値分解(SVD)により近似し,近似精度が勝利率に及ぼす影響を検討した。 まず,tic-tac-toeの完全評価関数を作成し,評価関数を9次テンソルとして低ランク近似を行った。 その結果,性能を著しく低下させることなく,評価関数の情報量を70%削減できることがわかった。 近似精度と勝利率の相関は強かったが,完全な比例は得られなかった。 また,評価関数の分解方法が性能に与える影響についても検討した。 評価関数を行列とする単純なSVDと,高次SVD(HOSVD)によるタッカー分解の2つの方法を検討した。 同じ圧縮比で,HOSVDで得られた近似評価関数を用いた戦略は,SVDで得られた戦略よりも有意に高い勝利率を示した。 これらの結果から,svdはボードゲーム戦略を効果的に圧縮でき,ゲームに依存する最適な圧縮方法が存在することが示唆された。

We approximated the evaluation function for the game Tic-Tac-Toe by singular value decomposition (SVD) and investigated the effect of approximation accuracy on winning rate. We first prepared the perfect evaluation function of Tic-Tac-Toe and performed low-rank approximation by considering the evaluation function as a ninth-order tensor. We found that we can reduce the amount of information of the evaluation function by 70% without significantly degrading the performance. Approximation accuracy and winning rate were strongly correlated but not perfectly proportional. We also investigated how the decomposition method of the evaluation function affects the performance. We considered two decomposition methods: simple SVD regarding the evaluation function as a matrix and the Tucker decomposition by higher-order SVD (HOSVD). At the same compression ratio, the strategy with the approximated evaluation function obtained by HOSVD exhibited a significantly higher winning rate than that obtained by SVD. These results suggest that SVD can effectively compress board game strategies and an optimal compression method that depends on the game exists.
翻訳日:2022-07-08 10:57:28 公開日:2022-07-07
# 収縮性呼吸器疾患の患者別モデル、シミュレーションおよびリアルタイム処理

Patient-specific modelling, simulation and real time processing for constrictive respiratory diseases ( http://arxiv.org/abs/2207.01082v2 )

ライセンス: Link先を確認
Stavros Nousias(参考訳) 喘息は呼吸系の一般的な慢性疾患であり、大きな障害と社会的負担を引き起こす。 世界の人口は5億人を超え、2011年の米国における費用は5600億ドルを超えている。 喘息の管理には、症状のコントロール、悪化の防止、肺機能の維持が含まれる。 喘息コントロールの改善は患者の日常生活に影響を与え、増悪や肺機能障害のリスクが減少し、喘息治療のコストと生産性の低下に伴う間接的なコストが削減される。 気管支喘息治療の進展には, 肺系の複雑な動態と, 疾患, 外傷, 治療に対する肺の反応の理解が不可欠である。 呼吸系の計算モデルは、構造と機能の間の相互作用を理解するための理論的枠組みを提供する。 患者固有の方法により、患者固有のアプローチで、薬物のデリバリーを最大化する患者固有の技術を導入しながら、パーソナライズされた幾何学的およびパーソナライズされた換気パターンからデリバリーを最適化することができる。 この論文の3倍の目的がこの時点で顕著になる。 第1部は、肺の病態の理解と喘息のメカニズム、およびそれに続く収縮性肺疾患全般を指す。 第2部では、デリバリーと効率を改善するためにパーソナライズされた医療を促進するツールの設計と実装について述べる。 最後に、第3部は、状態の自己管理のことであり、医療従事者や患者は、第1部が状態の経過を容易に追跡できるツールや方法、第2部、すなわち、患者が健康システムから重大な負担を軽減して、状態の自己管理を容易に行えるようにする。

Asthma is a common chronic disease of the respiratory system causing significant disability and societal burden. It affects over 500 million people worldwide and generates costs exceeding $USD 56 billion in 2011 in the United States. Managing asthma involves controlling symptoms, preventing exacerbations, and maintaining lung function. Improving asthma control affects the daily life of patients and is associated with a reduced risk of exacerbations and lung function impairment, reduces the cost of asthma care and indirect costs associated with reduced productivity. Understanding the complex dynamics of the pulmonary system and the lung's response to disease, injury, and treatment is fundamental to the advancement of Asthma treatment. Computational models of the respiratory system seek to provide a theoretical framework to understand the interaction between structure and function. Their application can improve pulmonary medicine by a patient-specific approach to medicinal methodologies optimizing the delivery given the personalized geometry and personalized ventilation patterns while introducing a patient-specific technique that maximizes drug delivery. A three-fold objective addressed within this dissertation becomes prominent at this point. The first part refers to the comprehension of pulmonary pathophysiology and the mechanics of Asthma and subsequently of constrictive pulmonary conditions in general. The second part refers to the design and implementation of tools that facilitate personalized medicine to improve delivery and effectiveness. Finally, the third part refers to the self-management of the condition, meaning that medical personnel and patients have access to tools and methods that allow the first party to easily track the course of the condition and the second party, i.e. the patient to easily self-manage it alleviating the significant burden from the health system.
翻訳日:2022-07-08 10:57:00 公開日:2022-07-07
# 科学文書におけるキーワード抽出

Keyword Extraction in Scientific Documents ( http://arxiv.org/abs/2207.01888v2 )

ライセンス: Link先を確認
Susie Xi Rao, Piriyakorn Piriyatamwong, Parijat Ghoshal, Sara Nasirian, Emmanuel de Salis, Sandra Mitrovi\'c, Michael Wechner, Vanya Brucker, Peter Egger and Ce Zhang(参考訳) 科学出版物の出力は指数関数的に増加する。 そのため、傾向や変化を追跡することはますます困難になっている。 科学的文書を理解することは、知識グラフの構築、テキストマイニング、規律分類といった下流タスクの重要なステップである。 本ワークショップでは,学術論文の要約からキーワードとキーフレーズの抽出をよりよく理解する。

The scientific publication output grows exponentially. Therefore, it is increasingly challenging to keep track of trends and changes. Understanding scientific documents is an important step in downstream tasks such as knowledge graph building, text mining, and discipline classification. In this workshop, we provide a better understanding of keyword and keyphrase extraction from the abstract of scientific publications.
翻訳日:2022-07-08 10:56:31 公開日:2022-07-07
# 全能特徴学習マシンのための画像符号化

Image Coding for Machines with Omnipotent Feature Learning ( http://arxiv.org/abs/2207.01932v2 )

ライセンス: Link先を確認
Ruoyu Feng, Xin Jin, Zongyu Guo, Runsen Feng, Yixin Gao, Tianyu He, Zhizheng Zhang, Simeng Sun, Zhibo Chen(参考訳) Image Coding for Machines (ICM)は、人間の知覚を満たすのではなく、AIタスク分析のための画像を圧縮することを目的としている。 一般的な(AIタスクのための)機能とコンパクトな(圧縮のための)機能を学ぶことが、その成功の鍵となる。 本稿では,圧縮を考慮しながら普遍的な特徴を学習し,icmフレームワークの開発を試みる。 我々は、全能的な機能やそれに対応するフレームワークをOmni-ICMと呼ぶ。 自己教師付き学習(SSL)が機能一般化を改善することを考慮し、Omni-ICMフレームワークに圧縮タスクと統合して全能的特徴を学習する。 しかし、SSLにおけるセマンティクスモデリングと圧縮における冗長性除去を協調することは容易ではないため、インスタンスの区別とエントロピーの最小化を併用して、新しい情報フィルタリング(IF)モジュールを設計し、AIタスク(テクスチャ冗長性など)に弱い関係を持つ情報を適応的にドロップする。 これまでのタスク固有のソリューションとは異なり、omni-icmは共同トレーニングや余分なトランスフォーメーションなしで学習された全能機能に基づいたaiタスク分析を直接サポートすることができる。 シンプルで直感的なOmni-ICMは、複数の基本的なビジョンタスクにおいて、既存の伝統および学習ベースのコーデックよりも大幅に優れています。

Image Coding for Machines (ICM) aims to compress images for AI tasks analysis rather than meeting human perception. Learning a kind of feature that is both general (for AI tasks) and compact (for compression) is pivotal for its success. In this paper, we attempt to develop an ICM framework by learning universal features while also considering compression. We name such features as omnipotent features and the corresponding framework as Omni-ICM. Considering self-supervised learning (SSL) improves feature generalization, we integrate it with the compression task into the Omni-ICM framework to learn omnipotent features. However, it is non-trivial to coordinate semantics modeling in SSL and redundancy removing in compression, so we design a novel information filtering (IF) module between them by co-optimization of instance distinguishment and entropy minimization to adaptively drop information that is weakly related to AI tasks (e.g., some texture redundancy). Different from previous task-specific solutions, Omni-ICM could directly support AI tasks analysis based on the learned omnipotent features without joint training or extra transformation. Albeit simple and intuitive, Omni-ICM significantly outperforms existing traditional and learning-based codecs on multiple fundamental vision tasks.
翻訳日:2022-07-08 10:56:26 公開日:2022-07-07
# CLIPによる対物画像操作に向けて

Towards Counterfactual Image Manipulation via CLIP ( http://arxiv.org/abs/2207.02812v2 )

ライセンス: Link先を確認
Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jiahui Zhang, Shijian Lu, Miaomiao Cui, Xuansong Xie, Xian-Sheng Hua, Chunyan Miao(参考訳) StyleGANの表現力と非絡み合った潜在コードを活用することで、既存の方法では、顔画像の年齢や性別などの異なる視覚特性をリアルに編集することができる。 生成モデルは、学習前の学習に対して反実的な編集を達成できるのか? 自然データセットにおける反事実サンプルの欠如により、様々な反事実概念に対しても豊富な意味知識を提供するコントラスト言語イメージプリトレーニング(clip)を用いて、テキスト駆動方式でこの問題を調査した。 ドメイン内操作と異なり、反ファクト操作では、CLIPにカプセル化されたセマンティック知識のより包括的な利用と、ローカルな最小限の編集や望ましくない編集で立ち往生することを避けるための編集方向のより繊細な処理が必要である。 そこで本研究では,前定義したクリップ空間方向を利用して,異なる視点から所望の方向へ編集を誘導する新しいコントラスト損失をデザインする。 さらに,CLIP埋め込み(ターゲットテキストの)を潜在空間に明示的にマッピングし,有効な潜時コード最適化と正確な編集のために潜時コードと融合する簡易かつ効果的なスキームを設計する。 広範な実験により,様々な反事実概念を持つ対象テキストを駆使しながら,正確かつ現実的な編集を実現することができた。

Leveraging StyleGAN's expressivity and its disentangled latent codes, existing methods can achieve realistic editing of different visual attributes such as age and gender of facial images. An intriguing yet challenging problem arises: Can generative models achieve counterfactual editing against their learnt priors? Due to the lack of counterfactual samples in natural datasets, we investigate this problem in a text-driven manner with Contrastive-Language-Image-Pretraining (CLIP), which can offer rich semantic knowledge even for various counterfactual concepts. Different from in-domain manipulation, counterfactual manipulation requires more comprehensive exploitation of semantic knowledge encapsulated in CLIP as well as more delicate handling of editing directions for avoiding being stuck in local minimum or undesired editing. To this end, we design a novel contrastive loss that exploits predefined CLIP-space directions to guide the editing toward desired directions from different perspectives. In addition, we design a simple yet effective scheme that explicitly maps CLIP embeddings (of target text) to the latent space and fuses them with latent codes for effective latent code optimization and accurate editing. Extensive experiments show that our design achieves accurate and realistic editing while driving by target texts with various counterfactual concepts.
翻訳日:2022-07-08 10:56:01 公開日:2022-07-07
# DeBERTaを用いた局所文脈焦点機構を用いたアスペクトベース知覚分析

Aspect-Based Sentiment Analysis using Local Context Focus Mechanism with DeBERTa ( http://arxiv.org/abs/2207.02424v2 )

ライセンス: Link先を確認
Tianyu Zhao, Junping Du, Zhe Xue, Ang Li, Zeli Guan(参考訳) テキスト感情分析(英: Text sentiment analysis)または意見マイニング(英: opinion mining)は、個人が表現する人々の見解、評価、態度、感情の計算に関する研究である。 テキスト感情分析は、テキストレベルの感情分析、センセンスレベルの感情分析、アスペクトレベルの感情分析に分けられる。 Aspect-Based Sentiment Analysis (ABSA)は、感情分析の分野における細かいタスクであり、アスペクトの極性を予測することを目的としている。 事前学習ニューラルモデルの研究は、多くの自然言語処理タスクの性能を大幅に向上させた。 近年、ABSAではプレトレーニングモデル(PTM)が適用されている。 したがって、PTMがABSAに十分な構文情報を含むかどうかという疑問がある。 本稿では,直近のDeBERTaモデルについて検討し,アスペクトベース感性分析問題の解法を提案する。 DeBERTaは、トランスフォーマーをベースとしたニューラルネットワークモデルの一種で、教師付き学習を使用して、多数のオリジナルテキストコーパスを事前トレーニングする。 局所的コンテキストフォーカス(lcf)機構に基づき、debertaモデルを統合することで、アスペクトベース感情分析のためのマルチタスク学習モデルを実現する。 この実験は、SemEval-2014のラップトップとレストランのデータセットで最もよく使われているもので、ACL twitterデータセットは、DeBERTaによるLCFメカニズムが大幅に改善されていることを示している。

Text sentiment analysis, also known as opinion mining, is research on the calculation of people's views, evaluations, attitude and emotions expressed by entities. Text sentiment analysis can be divided into text-level sentiment analysis, sen-tence-level sentiment analysis and aspect-level sentiment analysis. Aspect-Based Sentiment Analysis (ABSA) is a fine-grained task in the field of sentiment analysis, which aims to predict the polarity of aspects. The research of pre-training neural model has significantly improved the performance of many natural language processing tasks. In recent years, pre training model (PTM) has been applied in ABSA. Therefore, there has been a question, which is whether PTMs contain sufficient syntactic information for ABSA. In this paper, we explored the recent DeBERTa model (Decoding-enhanced BERT with disentangled attention) to solve Aspect-Based Sentiment Analysis problem. DeBERTa is a kind of neural language model based on transformer, which uses self-supervised learning to pre-train on a large number of original text corpora. Based on the Local Context Focus (LCF) mechanism, by integrating DeBERTa model, we purpose a multi-task learning model for aspect-based sentiment analysis. The experiments result on the most commonly used the laptop and restaurant datasets of SemEval-2014 and the ACL twitter dataset show that LCF mechanism with DeBERTa has significant improvement.
翻訳日:2022-07-08 10:54:45 公開日:2022-07-07
# 不均衡データのバイナリ分類のためのハイブリッドアプローチ

A Hybrid Approach for Binary Classification of Imbalanced Data ( http://arxiv.org/abs/2207.02738v2 )

ライセンス: Link先を確認
Hsin-Han Tsai, Ta-Wei Yang, Wai-Man Wong, and Cheng-Fu Chou(参考訳) 不均衡データセットによるバイナリ分類は難しい。 モデルはすべてのサンプルをマジョリティクラスに属すると見なす傾向がある。 サンプリング法やコスト感受性法,アンサンブル学習法といった既存のソリューションはマイノリティクラスの精度を向上するが,これらの手法は決定が難しい問題やコストパラメータを過度に適合させることによって制限される。 本稿では,データブロック構築,次元性低減,深層ニューラルネットワーク分類器を用いたアンサンブル学習からなる次元減少を伴うハイブリッド手法HADRを提案する。 我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。 その結果,本モデルは最先端手法よりも優れていた。

Binary classification with an imbalanced dataset is challenging. Models tend to consider all samples as belonging to the majority class. Although existing solutions such as sampling methods, cost-sensitive methods, and ensemble learning methods improve the poor accuracy of the minority class, these methods are limited by overfitting problems or cost parameters that are difficult to decide. We propose HADR, a hybrid approach with dimension reduction that consists of data block construction, dimentionality reduction, and ensemble learning with deep neural network classifiers. We evaluate the performance on eight imbalanced public datasets in terms of recall, G-mean, and AUC. The results show that our model outperforms state-of-the-art methods.
翻訳日:2022-07-08 10:54:00 公開日:2022-07-07