このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220629)

# 不完全・崩壊データによる空域のフェデレーション追跡

Federated Over-Air Subspace Tracking from Incomplete and Corrupted Data ( http://arxiv.org/abs/2002.12873v4 )

ライセンス: Link先を確認
Praneeth Narayanamurthy, Namrata Vaswani, Aditya Ramamoorthy(参考訳) 本研究では,不足データ(ST-miss)と外れ値(Robust ST-miss)による部分空間追跡の問題について検討する。 我々は,新しいアルゴリズムを提案し,これらの問題に対する保証を提供する。 このトピックに関する過去の作業とは異なり、現在の作業では、断片的に定数な部分空間変化の仮定を課すことはない。 さらに、提案アルゴリズムは、これまでの研究よりもはるかに単純(パラメータが少ない)である。 第2に、データフェデレーションや、$k$のピアノードとセンター間の情報交換に over-air data communication modality が使用される場合に、これらの問題を解決するために、我々のアプローチと分析を拡張します。 理論的な主張を広範な数値実験で検証する。

In this work we study the problem of Subspace Tracking with missing data (ST-miss) and outliers (Robust ST-miss). We propose a novel algorithm, and provide a guarantee for both these problems. Unlike past work on this topic, the current work does not impose the piecewise constant subspace change assumption. Additionally, the proposed algorithm is much simpler (uses fewer parameters) than our previous work. Secondly, we extend our approach and its analysis to provably solving these problems when the data is federated and when the over-air data communication modality is used for information exchange between the $K$ peer nodes and the center. We validate our theoretical claims with extensive numerical experiments.
翻訳日:2022-12-28 02:14:21 公開日:2022-06-29
# 奥行き2 データポゾン攻撃によるニューラルネットワーク

Depth-2 Neural Networks Under a Data-Poisoning Attack ( http://arxiv.org/abs/2005.01699v3 )

ライセンス: Link先を確認
Sayar Karmakar, Anirbit Mukherjee and Theodore Papamarkou(参考訳) 本研究では,浅層ニューラルネットワークをレグレッション・セットアップでトレーニングしながら,データ消去攻撃に対する防御の可能性を検討する。 本研究では,単一フィルタ畳み込みネットワークを含む深さ2有限幅ニューラルネットワークの教師あり学習を行う。 この種のネットワークでは、トレーニング中の真の出力に対する確率的・有界・加法的逆歪を行う悪意あるオラクルの存在下で、ネットワーク重みを学習しようとする。 構築した非段階確率的アルゴリズムでは, 対向攻撃の大きさ, 重み近似精度, 提案アルゴリズムが達成した信頼度のうち, 最悪の場合, ほぼ最適トレードオフを証明できる。 提案手法では,ミニバッチサイズが収束に与える影響を解析する。 また,攻撃の確率に応じて,外層重みのスケーリングを利用して,出力汚染攻撃に対処する方法も示す。 最後に,重み付き分布を含む異なる入力データ分布下での確率的勾配降下にアルゴリズムが勝ることを示す実験的な証拠を与える。

In this work, we study the possibility of defending against data-poisoning attacks while training a shallow neural network in a regression setup. We focus on doing supervised learning for a class of depth-2 finite-width neural networks, which includes single-filter convolutional networks. In this class of networks, we attempt to learn the network weights in the presence of a malicious oracle doing stochastic, bounded and additive adversarial distortions on the true output during training. For the non-gradient stochastic algorithm that we construct, we prove worst-case near-optimal trade-offs among the magnitude of the adversarial attack, the weight approximation accuracy, and the confidence achieved by the proposed algorithm. As our algorithm uses mini-batching, we analyze how the mini-batch size affects convergence. We also show how to utilize the scaling of the outer layer weights to counter output-poisoning attacks depending on the probability of attack. Lastly, we give experimental evidence demonstrating how our algorithm outperforms stochastic gradient descent under different input data distributions, including instances of heavy-tailed distributions.
翻訳日:2022-12-07 00:28:36 公開日:2022-06-29
# 公正な政策目標

Fair Policy Targeting ( http://arxiv.org/abs/2005.12395v3 )

ライセンス: Link先を確認
Davide Viviano, Jelena Bradic(参考訳) 社会福祉プログラムにおける個人に対する介入を標的とする主な関心事の1つは差別である: 個人化された治療は、年齢、性別、人種などのセンシティブな属性の相違を引き起こす可能性がある。 本稿では,公平かつ効率的な処理割り当て規則の設計について述べる。 我々は、まずは無益な視点を採用し、害を及ぼさない: 我々は、パレートフロンティア内で最も公平な割当を選択する。 この最適化を混合整数線形プログラムの定式化に実装し,既成のアルゴリズムを用いて解く。 我々は、推定政策関数の不公平性に関する後悔の限界と、フェアネスの一般的な概念の下でパレートフロンティアにおける小さなサンプル保証を導出する。 最後に,教育経済学からの応用法について述べる。

One of the major concerns of targeting interventions on individuals in social welfare programs is discrimination: individualized treatments may induce disparities across sensitive attributes such as age, gender, or race. This paper addresses the question of the design of fair and efficient treatment allocation rules. We adopt the non-maleficence perspective of first do no harm: we select the fairest allocation within the Pareto frontier. We cast the optimization into a mixed-integer linear program formulation, which can be solved using off-the-shelf algorithms. We derive regret bounds on the unfairness of the estimated policy function and small sample guarantees on the Pareto frontier under general notions of fairness. Finally, we illustrate our method using an application from education economics.
翻訳日:2022-11-29 06:32:27 公開日:2022-06-29
# 文変換型ランチャーモデルの極端な圧縮:高速な推論、バッテリー寿命の延長、エッジデバイス上のストレージの削減

Extreme compression of sentence-transformer ranker models: faster inference, longer battery life, and less storage on edge devices ( http://arxiv.org/abs/2207.12852v1 )

ライセンス: Link先を確認
Amit Chaulwar, Lukas Malik, Maciej Krajewski, Felix Reichel, Leif-Nissen Lundb{\ae}k, Michael Huth and Bartlomiej Matejczyk(参考訳) 現代の検索システムは、トランスフォーマーアーキテクチャを持ついくつかの大きなランチャーモデルを使用している。 これらのモデルは大きな計算資源を必要とし、限られた計算資源を持つデバイスでの使用には適さない。 知識蒸留は、そのようなモデルの資源需要を削減できる一般的な圧縮技術であり、大きな教師モデルが知識を小さな学生モデルに伝達する。 記憶要求量とエネルギー消費を大幅に削減するために, 最適なサイズ語彙の生成と, 蒸留前の教師の埋め込み次元の次元低減という, 一般的な文変換蒸留手順の2つの拡張を提案する。 これらの拡張を2種類のランサーモデルで評価する。 その結果,テストデータセットの解析により,提案した拡張の意義と有用性を示す,非常に圧縮された学生モデルが得られた。

Modern search systems use several large ranker models with transformer architectures. These models require large computational resources and are not suitable for usage on devices with limited computational resources. Knowledge distillation is a popular compression technique that can reduce the resource needs of such models, where a large teacher model transfers knowledge to a small student model. To drastically reduce memory requirements and energy consumption, we propose two extensions for a popular sentence-transformer distillation procedure: generation of an optimal size vocabulary and dimensionality reduction of the embedding dimension of teachers prior to distillation. We evaluate these extensions on two different types of ranker models. This results in extremely compressed student models whose analysis on a test dataset shows the significance and utility of our proposed extensions.
翻訳日:2022-07-31 14:48:23 公開日:2022-06-29
# OASYS:非構造化テキストから知識ベースを構築するドメイン非依存自動システム

OASYS: Domain-Agnostic Automated System for Constructing Knowledge Base from Unstructured Text ( http://arxiv.org/abs/2207.07597v1 )

ライセンス: Link先を確認
Minsang Kim, Sang-hyun Je, Eunjoo Park(参考訳) 近年では、リテール製品や企業ドメインにおいて、知識ベースの作成と管理が重要になっている。 文書からデータをマイニングする知識ベース自動構築システムを提案する。 このシステムは、人間の介入なしにトレーニングプロセス中にトレーニングデータを生成することができる。 したがって、対象ドメインテキストコーパスと予め定義された知識ベースのみを使用して、ドメインに依存しないトレーニングが可能である。 このシステムはOASYSと呼ばれ、韓国語を念頭に構築された最初のシステムである。 また,システム評価を支援するために,韓国版ウィキペディアコーパスと韓国版dbpediaをペアにした,人間アノテーションによるベンチマークデータセットも構築した。 人手によるベンチマークテストデータセットのシステム性能は有意義であり,自動生成データのみに基づいてトレーニングされたOASYSから生成された知識ベースが有用であることを示す。 人間のアノテーションによるテストデータセットと自動生成データセットの両方を提供する。

In recent years, creating and managing knowledge bases have become crucial to the retail product and enterprise domains. We present an automatic knowledge base construction system that mines data from documents. This system can generate training data during the training process without human intervention. Therefore, it is domain-agnostic trainable using only the target domain text corpus and a pre-defined knowledge base. This system is called OASYS and is the first system built with the Korean language in mind. In addition, we also have constructed a new human-annotated benchmark dataset of the Korean Wikipedia corpus paired with a Korean DBpedia to aid system evaluation. The system performance results on human-annotated benchmark test dataset are meaningful and show that the generated knowledge base from OASYS trained on only auto-generated data is useful. We provide both a human-annotated test dataset and an auto-generated dataset.
翻訳日:2022-07-24 11:50:09 公開日:2022-06-29
# STOP: タスク指向セマンティックパースのためのデータセット

STOP: A dataset for Spoken Task Oriented Semantic Parsing ( http://arxiv.org/abs/2207.10643v1 )

ライセンス: Link先を確認
Paden Tomasello, Po-Chun Hsu, Akshat Shrivastava, Daniel Lazar, Duc Le, Adithya Sagar, Ali Elkahky, Jade Copet, Wei-Ning Hsu, Yossef Mordechay, Robin Algayres, Tu Ahn Nguyen, Emmanuel Dupoux, Luke Zettlemoyer, Abdelrahman Mohamed(参考訳) エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。 中間テキスト表現で失われた音響情報を活用し、自動音声認識(ASR)によるカスケードエラーを防止することにより、アシスタントシステムの性能向上を約束する。 さらに、1つの統一モデルを持つことは、デバイスにアシスタントシステムをデプロイする場合の効率上の利点がある。 しかし、セマンティックパースラベルを持つ公開オーディオデータセットの数が限られているため、この分野の研究の進展は妨げられる。 本稿では,最大かつ最も複雑なSLUデータセットであるSpoken Task-Oriented semantic Parsing(STOP)データセットを公開する。 さらに,ラベル付きデータに制限がある場合に,SLUを改善するためのベンチマークを確立するために,低リソース分割を定義する。 さらに、人間録音音声に加えて、エンド・ツー・エンドSLUシステムの低リソース領域適応性能をベンチマークするTS生成バージョンもリリースしている。 最初の実験では、エンド・ツー・エンドのSLUモデルはカスケードモデルよりも若干悪い性能を示しており、今後この方向に進むことを願っている。

End-to-end spoken language understanding (SLU) predicts intent directly from audio using a single model. It promises to improve the performance of assistant systems by leveraging acoustic information lost in the intermediate textual representation and preventing cascading errors from Automatic Speech Recognition (ASR). Further, having one unified model has efficiency advantages when deploying assistant systems on-device. However, the limited number of public audio datasets with semantic parse labels hinders the research progress in this area. In this paper, we release the Spoken Task-Oriented semantic Parsing (STOP) dataset, the largest and most complex SLU dataset to be publicly available. Additionally, we define low-resource splits to establish a benchmark for improving SLU when limited labeled data is available. Furthermore, in addition to the human-recorded audio, we are releasing a TTS-generated version to benchmark the performance for low-resource domain adaptation of end-to-end SLU systems. Initial experimentation show end-to-end SLU models performing slightly worse than their cascaded counterparts, which we hope encourages future work in this direction.
翻訳日:2022-07-24 11:49:56 公開日:2022-06-29
# (参考訳) 株リターンのレプト分散

The Lepto-Variance of Stock Returns ( http://arxiv.org/abs/2207.04867v1 )

ライセンス: CC BY 4.0
Vassilis Polimenis(参考訳) Regression Tree(RT)は、特定の特徴を使ってサンプルをソートし、ノードから子供への最大分散還元を生成する分割点を見つける。 私たちのキーとなる観察は、MSEドロップの観点で使う最善の要素は常にターゲット自身であり、これがターゲットを最も明確に分離していることです。 したがって、ターゲットを分割因子として使用すると、MSEドロップの上界(または残りの子供MSEの下限)が得られる。 この観測に基づいて、対象変数の k ビットレプト分散 ${\lambda}k^2$ を、k と等しい深さの回帰木によって取り除けない分散として定義する。 任意の特徴に対する上限性能として、${\lambda}k^2$はサンプルに対するRTの解能を定量化するため、サンプルの基盤構造に関連する興味深い統計的概念であると信じている。 k までの深さの RT を用いて説明できる最大分散は、サンプル k ビットのマクロ分散と呼ばれる。 いずれの深さにおいても、全サンプル分散はレプト分散${\lambda}^2$とマクロ分散${\mu}^2$に分解される。 我々は1ビットと2ビットのRTに基づくレプト構造解析を行い、IBM株の日次リターンを実証する。

The Regression Tree (RT) sorts the samples using a specific feature and finds the split point that produces the maximum variance reduction from a node to its children. Our key observation is that the best factor to use (in terms of MSE drop) is always the target itself, as this most clearly separates the target. Thus using the target as the splitting factor provides an upper bound on MSE drop (or lower bound on the residual children MSE). Based on this observation, we define the k-bit lepto-variance ${\lambda}k^2$ of a target variable (or equivalently the lepto-variance at a specific depth k) as the variance that cannot be removed by any regression tree of a depth equal to k. As the upper bound performance for any feature, we believe ${\lambda}k^2$ to be an interesting statistical concept related to the underlying structure of the sample as it quantifies the resolving power of the RT for the sample. The max variance that may be explained using RTs of depth up to k is called the sample k-bit macro-variance. At any depth, total sample variance is thus decomposed into lepto-variance ${\lambda}^2$ and macro-variance ${\mu}^2$. We demonstrate the concept, by performing 1- and 2-bit RT based lepto-structure analysis for daily IBM stock returns.
翻訳日:2022-07-17 19:14:07 公開日:2022-06-29
# (参考訳) FinQA上の数値推論のための数学モデルに対するロバストに最適化された長文

A Robustly Optimized Long Text to Math Models for Numerical Reasoning On FinQA ( http://arxiv.org/abs/2207.06490v1 )

ライセンス: CC BY 4.0
Renhui Zhang, Youwei Zhang, Yao Yu(参考訳) 人生のほとんどの問題を解決するには数値推論が必要であるが、これまでの人工知能研究では無視されてきた。 FinQAチャレンジは、参加者が金銭的問題を解決するための数値推論プログラムの予測を依頼する数値推論の研究を強化するために編成されている。 FinQAの結果は、実行精度とプログラム精度の両方で評価される。 本稿では,異なる特殊能力を持つモデルを開発し,その強みを損なうことによってタスク目標に取り組む手法を提案する。 全体として、FinQAでは71.93%の実行精度と67.03%のプログラム精度で1位となる。

Numerical reasoning is required when solving most problems in our life, but it has been neglected in previous artificial intelligence researches. FinQA challenge has been organized to strengthen the study on numerical reasoning where the participants are asked to predict the numerical reasoning program to solve financial question. The result of FinQA will be evaluated by both execution accuracy and program accuracy. In this paper, we present our approach to tackle the task objective by developing models with different specialized capabilities and fusing their strength. Overall, our approach achieves the 1st place in FinQA challenge, with 71.93% execution accuracy and 67.03% program accuracy.
翻訳日:2022-07-17 19:05:42 公開日:2022-06-29
# 時空間グラフ表現学習による動的コミュニティ検出

Dynamic Community Detection via Adversarial Temporal Graph Representation Learning ( http://arxiv.org/abs/2207.03580v1 )

ライセンス: Link先を確認
Changwei Gong, Changhong Jing, Yanyan Shen, Shuqiang Wang(参考訳) 動的コミュニティ検出は、強結合されたノードの集合を同定することで、動的脳ネットワーク接続パターンの変化を定量化する強力なツールとして栄えている。 しかし、処理対象のネットワーク科学問題やネットワークデータがより高度化するにつれて、動的ネットワークデータから低次元表現を効率よく学習し、脳ネットワークの時間とともに変化する潜時関数を明らかにする方法が期待できる。 本研究では,脳ネットワークデータの少数のサンプルから動的コミュニティを検出するために,対向時間グラフ表現学習(ATGRL)フレームワークを提案する。 新たな時間グラフアテンションネットワークをエンコーダとして採用し,空間的および時間的次元のアテンション機構により,より効率的な時空間的特徴を捉える。 さらに、このフレームワークは、時間的グラフ表現の学習を指導し、コミュニティのモジュラリティを最大化するために測定可能なモジュラリティ損失を最適化するために、敵対的なトレーニングを採用している。 本手法の有効性を示すために,実世界の脳ネットワークデータセットの実験を行った。

Dynamic community detection has been prospered as a powerful tool for quantifying changes in dynamic brain network connectivity patterns by identifying strongly connected sets of nodes. However, as the network science problems and network data to be processed become gradually more sophisticated, it awaits a better method to efficiently learn low dimensional representation from dynamic network data and reveal its latent function that changes over time in the brain network. In this work, an adversarial temporal graph representation learning (ATGRL) framework is proposed to detect dynamic communities from a small sample of brain network data. It adopts a novel temporal graph attention network as an encoder to capture more efficient spatio-temporal features by attention mechanism in both spatial and temporal dimensions. In addition, the framework employs adversarial training to guide the learning of temporal graph representation and optimize the measurable modularity loss to maximize the modularity of community. Experiments on the real-world brain networks datasets are demonstrated to show the effectiveness of this new method.
翻訳日:2022-07-17 17:12:42 公開日:2022-06-29
# リカレントニューラルネットワークのためのニューロンの自動合成

Automatic Synthesis of Neurons for Recurrent Neural Nets ( http://arxiv.org/abs/2207.03577v1 )

ライセンス: Link先を確認
Roland Olsson, Chau Tran and Lars Magnusson(参考訳) 我々は、LSTMニューロンを慎重に最適化して達成したニューロンよりも最大3倍低いテストデータに対して、クロスエントロピーを与える新しい種類のARNを提示する。 しばしば達成される大きな改善の説明は、時間を通しての巧妙なスキップ接続、ニューロン毎の4つの内部記憶状態、および小さな二次形式を含む多くの新しい活性化機能である。 新しいニューロンは自動プログラミングを使用して生成され、簡単に変換できる純粋機能プログラムとして定式化される。 8つのデータセットに対して実験結果を示し、7つのデータセットに対して優れた改善が得られた。 結果は、新しいニューロンを生成するための自動プログラミングが、センサー信号などの時系列データを扱う機械学習実践者にとって、標準的な操作手順の一部となることを約束している。

We present a new class of neurons, ARNs, which give a cross entropy on test data that is up to three times lower than the one achieved by carefully optimized LSTM neurons. The explanations for the huge improvements that often are achieved are elaborate skip connections through time, up to four internal memory states per neuron and a number of novel activation functions including small quadratic forms. The new neurons were generated using automatic programming and are formulated as pure functional programs that easily can be transformed. We present experimental results for eight datasets and found excellent improvements for seven of them, but LSTM remained the best for one dataset. The results are so promising that automatic programming to generate new neurons should become part of the standard operating procedure for any machine learning practitioner who works on time series data such as sensor signals.
翻訳日:2022-07-17 16:17:04 公開日:2022-06-29
# Turbo: エッジビデオ分析の機会的拡張

Turbo: Opportunistic Enhancement for Edge Video Analytics ( http://arxiv.org/abs/2207.00172v1 )

ライセンス: Link先を確認
Yan Lu, Shiqi Jiang, Ting Cao, Yuanchao Shu(参考訳) エッジコンピューティングはビデオ分析に広く使われている。 精度とコストの本質的にの緊張を軽減するため、エッジノードでのGPUの使用を最適化するために、さまざまなビデオ分析パイプラインが提案されている。 それでも、エッジノードにプロビジョニングされたGPU計算リソースは、ビデオコンテンツの変化、サブサンプリング、パイプラインの異なる場所でのフィルタリングなどにより、一般的には利用されていない。 モデルとパイプラインの最適化とは対照的に,非決定論的および断片的アイドルGPU資源を用いた機会論的データ拡張の問題について検討する。 具体的には,映像パイプラインに特有な低品質画像を高精度かつ効率的な方法で識別・変換する手段を提供する,タスク固有の識別・強調モジュールと,モデル対応の対向学習機構を提案する。 さらにマルチエクイットモデル構造とリソース対応スケジューラが開発され,レイテンシとgpuリソース制約下でのオンライン拡張決定と詳細な推論実行が実現されている。 複数のビデオ分析パイプラインとデータセットをまたいだ実験によると、フレーム上に少量のアイドルリソースを割り当てることで、拡張によってより限界的なメリットをもたらす傾向があるため、我々のシステムは遅延コストを発生させることなく、DNNオブジェクトの検出精度を7.3-11.3\%$に向上させる。

Edge computing is being widely used for video analytics. To alleviate the inherent tension between accuracy and cost, various video analytics pipelines have been proposed to optimize the usage of GPU on edge nodes. Nonetheless, we find that GPU compute resources provisioned for edge nodes are commonly under-utilized due to video content variations, subsampling and filtering at different places of a pipeline. As opposed to model and pipeline optimization, in this work, we study the problem of opportunistic data enhancement using the non-deterministic and fragmented idle GPU resources. In specific, we propose a task-specific discrimination and enhancement module and a model-aware adversarial training mechanism, providing a way to identify and transform low-quality images that are specific to a video pipeline in an accurate and efficient manner. A multi-exit model structure and a resource-aware scheduler is further developed to make online enhancement decisions and fine-grained inference execution under latency and GPU resource constraints. Experiments across multiple video analytics pipelines and datasets reveal that by judiciously allocating a small amount of idle resources on frames that tend to yield greater marginal benefits from enhancement, our system boosts DNN object detection accuracy by $7.3-11.3\%$ without incurring any latency costs.
翻訳日:2022-07-04 14:52:58 公開日:2022-06-29
# 連続辞書からのスパース混合物のオフザグリッド学習

Off-the-grid learning of sparse mixtures from a continuous dictionary ( http://arxiv.org/abs/2207.00171v1 )

ライセンス: Link先を確認
Cristina Butucea (CREST), Jean-Fran\c{c}ois Delmas (CERMICS), Anne Dutfoy (EDF R&D), Cl\'ement Hardy (CERMICS, EDF R&D)(参考訳) 信号が未知の、おそらく増加する可能性のある、真の非線形パラメータによってパラメータ化された連続辞書から発行される特徴の有限混合である一般非線形モデルを考える。 信号は連続的または離散的なセットアップにおいてガウス雑音(おそらく相関)で観測される。 本稿では,パラメータ空間における離散化スキームを用いないオフ・ザ・グリッド最適化法を提案し,特徴の非線形パラメータと混合の線形パラメータの両方を推定する。 本稿では,オフ・ザ・グリッド法の幾何構造に関する最近の結果を用いて,証明関数を補間できるような真の非線形パラメータを最小に分離する。 ガウス過程の上限にも尾境界を用いて予測誤差を高い確率で有界化する。 証明関数が構築可能であると仮定すると、我々の予測誤差は、線形回帰モデルにおいてlasso予測器が達成したレートと同等のlog --factorsに制限される。 また、線形パラメータと非線形パラメータの両方に対する推定の質を高い確率で定量化する収束率を確立する。

We consider a general non-linear model where the signal is a finite mixture of an unknown, possibly increasing, number of features issued from a continuous dictionary parameterized by a real nonlinear parameter. The signal is observed with Gaussian (possibly correlated) noise in either a continuous or a discrete setup. We propose an off-the-grid optimization method, that is, a method which does not use any discretization scheme on the parameter space, to estimate both the non-linear parameters of the features and the linear parameters of the mixture. We use recent results on the geometry of off-the-grid methods to give minimal separation on the true underlying non-linear parameters such that interpolating certificate functions can be constructed. Using also tail bounds for suprema of Gaussian processes we bound the prediction error with high probability. Assuming that the certificate functions can be constructed, our prediction error bound is up to log --factors similar to the rates attained by the Lasso predictor in the linear regression model. We also establish convergence rates that quantify with high probability the quality of estimation for both the linear and the non-linear parameters.
翻訳日:2022-07-04 13:14:03 公開日:2022-06-29
# 人間状態モニタリングのための連続学習

Continual Learning for Human State Monitoring ( http://arxiv.org/abs/2207.00010v1 )

ライセンス: Link先を確認
Federico Matteoni, Andrea Cossu, Claudio Gallicchio, Vincenzo Lomonaco, Davide Bacciu(参考訳) 時系列データの連続学習(CL)は、現実のアプリケーションにとって有望だが未研究の道である。 ヒト状態モニタリングのための2つの新しいCLベンチマークを提案する。 新しい被験者が継続的に追加される現実の環境を反映するベンチマークを慎重に設計しました。 ベンチマークの結果から,一般的なCL戦略の有効性を評価するための実証評価を行った。 以上より,ベンチマークのドメイン・インクリメンタルな性質により,単純な微調整であっても忘れられることや,固定された保持されたテスト対象に対する知識の蓄積に既存の戦略が苦労していることが判明した。

Continual Learning (CL) on time series data represents a promising but under-studied avenue for real-world applications. We propose two new CL benchmarks for Human State Monitoring. We carefully designed the benchmarks to mirror real-world environments in which new subjects are continuously added. We conducted an empirical evaluation to assess the ability of popular CL strategies to mitigate forgetting in our benchmarks. Our results show that, possibly due to the domain-incremental properties of our benchmarks, forgetting can be easily tackled even with a simple finetuning and that existing strategies struggle in accumulating knowledge over a fixed, held-out, test subject.
翻訳日:2022-07-04 13:04:13 公開日:2022-06-29
# 加法主および乗法相互作用効果モデルの変分推論

Variational Inference for Additive Main and Multiplicative Interaction Effects Models ( http://arxiv.org/abs/2207.00011v1 )

ライセンス: Link先を確認
Ant\^Onia A. L. Dos Santos, Rafael A. Moral, Danilo A. Sarti, Andrew C. Parnell(参考訳) 植物育種において、環境による遺伝子型(GxE)相互作用の存在は、栽培決定と新しい作物品種の導入に強い影響を与える。 線形項と双線型項の組み合わせは、この種のデータをモデル化するのに非常に有用であることが示されている。 GxEを同定するために広く使われているアプローチは、加算主効果と乗法的相互作用効果(AMMI)モデルである。 しかし、データが高次元であることも多いため、マルコフ連鎖モンテカルロ(MCMC)アプローチは計算不可能である。 本稿では,そのようなモデルに対する変分推論手法について考察する。 パラメータを推定するための変分近似を導出し、シミュレーションデータと実データの両方を用いてMCMCと比較する。 私たちが提案する新しい推論フレームワークは、MCMCと同じ予測性能を維持しながら、平均2倍高速である。

In plant breeding the presence of a genotype by environment (GxE) interaction has a strong impact on cultivation decision making and the introduction of new crop cultivars. The combination of linear and bilinear terms has been shown to be very useful in modelling this type of data. A widely-used approach to identify GxE is the Additive Main Effects and Multiplicative Interaction Effects (AMMI) model. However, as data frequently can be high-dimensional, Markov chain Monte Carlo (MCMC) approaches can be computationally infeasible. In this article, we consider a variational inference approach for such a model. We derive variational approximations for estimating the parameters and we compare the approximations to MCMC using both simulated and real data. The new inferential framework we propose is on average two times faster whilst maintaining the same predictive performance as MCMC.
翻訳日:2022-07-04 13:01:34 公開日:2022-06-29
# (参考訳) 一般化近似メッセージパッシングに基づくペナルティ化回帰の予測誤差

Prediction Errors for Penalized Regressions based on Generalized Approximate Message Passing ( http://arxiv.org/abs/2206.12832v2 )

ライセンス: CC BY 4.0
Ayaka Sakata(参考訳) 一般化線形モデルとペナラライズド最大度法における予測誤差の観点から, 推定統計モデルの予測精度について検討した。 我々は、一般化近似メッセージパッシング(gamp)アルゴリズムとレプリカ法を用いて、予測誤差に対する推定器の形式を導出する。 これらの推定器は、モデルパラメータの数が十分に小さいときに互いに一致するが、特にモデルパラメータの数がデータ次元よりも大きい過度な領域では、それらの間には相違がある。 本稿では,予測誤差と対応する推定器について検討し,その差について考察する。 GAMPの枠組みでは,推定値の分散を利用して情報基準を表現できることが示されている。 さらに,GAMPによる表現を利用して,情報基準からLOOCV誤差にアプローチする方法を示す。

We discuss the prediction accuracy of assumed statistical models in terms of prediction errors for the generalized linear model and penalized maximum likelihood methods. We derive the forms of estimators for the prediction errors: $C_p$ criterion, information criteria, and leave-one-out cross validation (LOOCV) error, using the generalized approximate message passing (GAMP) algorithm and replica method. These estimators coincide with each other when the number of model parameters is sufficiently small; however, there is a discrepancy between them in particular in the overparametrized region where the number of model parameters is larger than the data dimension. In this paper, we review the prediction errors and corresponding estimators, and discuss their differences. In the framework of GAMP, we show that the information criteria can be expressed by using the variance of the estimates. Further, we demonstrate how to approach LOOCV error from the information criteria by utilizing the expression provided by GAMP.
翻訳日:2022-07-03 02:04:21 公開日:2022-06-29
# (参考訳) EMVLight:緊急車両分散型ルーティング・交通信号制御システムのためのマルチエージェント強化学習フレームワーク

EMVLight: a Multi-agent Reinforcement Learning Framework for an Emergency Vehicle Decentralized Routing and Traffic Signal Control System ( http://arxiv.org/abs/2206.13441v3 )

ライセンス: CC BY 4.0
Haoran Su, Yaofeng D. Zhong, Joseph Y.J. Chow, Biswadip Dey and Li Jin(参考訳) 救急車(EMV)は、都市部における救急医療や火災発生などの時間的危機対応に重要な役割を果たしている。 既存のemvディスパッチ手法では,過去のトラヒックフローデータに基づいて経路を最適化し,それに従ってトラヒック信号のプリエンプションを設計するが,emvルーティングとトラヒック信号制御の結合に対処する体系的な手法に欠ける。 本稿では,共同動的EMVルーティングと交通信号プリエンプションのための分散強化学習(RL)フレームワークであるEMVLightを提案する。 ポリシー共有と空間割引係数を備えたマルチエージェント・アドバンテージ・アクター・クリティカルな手法を採用する。 本フレームワークは,マルチクラスRLエージェントの革新的な設計と新しい圧力に基づく報酬関数により,EMVナビゲーションと交通信号制御の結合に対処する。 提案手法により,emvの移動時間を短縮するだけでなく,非emvの移動時間を短縮するネットワークレベルの協調交通信号フェース戦略を学習できる。 シミュレーションに基づく実験により、emvlightは、既存のアプローチと比較して平均走行時間を23.5セント短縮するだけでなく、emvの走行時間を最大42.6セント削減できることが示された。

Emergency vehicles (EMVs) play a crucial role in responding to time-critical calls such as medical emergencies and fire outbreaks in urban areas. Existing methods for EMV dispatch typically optimize routes based on historical traffic-flow data and design traffic signal pre-emption accordingly; however, we still lack a systematic methodology to address the coupling between EMV routing and traffic signal control. In this paper, we propose EMVLight, a decentralized reinforcement learning (RL) framework for joint dynamic EMV routing and traffic signal pre-emption. We adopt the multi-agent advantage actor-critic method with policy sharing and spatial discounted factor. This framework addresses the coupling between EMV navigation and traffic signal control via an innovative design of multi-class RL agents and a novel pressure-based reward function. The proposed methodology enables EMVLight to learn network-level cooperative traffic signal phasing strategies that not only reduce EMV travel time but also shortens the travel time of non-EMVs. Simulation-based experiments indicate that EMVLight enables up to a $42.6\%$ reduction in EMV travel time as well as an $23.5\%$ shorter average travel time compared with existing approaches.
翻訳日:2022-07-02 23:46:45 公開日:2022-06-29
# (参考訳) 高精細化による高精細化

Feature Refinement to Improve High Resolution Image Inpainting ( http://arxiv.org/abs/2206.13644v2 )

ライセンス: CC BY 4.0
Prakhar Kulshreshtha, Brian Pugh and Salma Jiddi(参考訳) 本稿では,高分解能で動作するニューラルネットワークの塗装品質の劣化問題に対処する。 塗装ネットワークは、トレーニングセットよりも高い解像度でグローバルコヒーレントな構造を生成できないことが多い。 これは画像解像度が増大しているにもかかわらず、受容野が静止しているためである。 塗装前の画像の縮小はコヒーレントな構造を生み出すが、高解像度で現れる詳細は本質的に欠落している。 両世界を最大限に活用するために、推論におけるマルチスケールの一貫性損失を最小限に抑えて、ネットワークの中間機能マップを最適化する。 このランタイム最適化は、塗装結果を改善し、高解像度塗装のための新しい最先端技術を確立する。 コードは、https://github.com/geomagical/lama-with-refiner/tree/refinementで入手できる。

In this paper, we address the problem of degradation in inpainting quality of neural networks operating at high resolutions. Inpainting networks are often unable to generate globally coherent structures at resolutions higher than their training set. This is partially attributed to the receptive field remaining static, despite an increase in image resolution. Although downscaling the image prior to inpainting produces coherent structure, it inherently lacks detail present at higher resolutions. To get the best of both worlds, we optimize the intermediate featuremaps of a network by minimizing a multiscale consistency loss at inference. This runtime optimization improves the inpainting results and establishes a new state-of-the-art for high resolution inpainting. Code is available at: https://github.com/geomagical/lama-with-refiner/tree/refinement.
翻訳日:2022-07-02 18:00:04 公開日:2022-06-29
# (参考訳) 医用画像セグメンテーションにおける単一領域一般化のための逆整合性

Adversarial Consistency for Single Domain Generalization in Medical Image Segmentation ( http://arxiv.org/abs/2206.13737v2 )

ライセンス: CC BY 4.0
Yanwu Xu, Shaoan Xie, Maxwell Reynolds, Matthew Ragoza, Mingming Gong, and Kayhan Batmanghelich(参考訳) 未認識のコントラストやスキャナの設定に一般化できるオルガンセグメンテーションは、ディープラーニングモデルの再トレーニングの必要性を大幅に減らすことができる。 ドメイン一般化(DG)はこの目標を達成することを目指している。 しかし、ほとんどのDGメソッドは、トレーニング中に複数のドメインからのトレーニングデータを必要とする。 そこで本稿では,emph{single} ドメインのデータに基づいて訓練された臓器分節に対する新しい対向領域一般化手法を提案する。 新しいドメインをads(adversarial domain synthesizer)を学習することで合成し、合成ドメインが十分な面積の可算分布をカバーできると仮定し、未発見のドメインを合成ドメインから補間できると仮定する。 パッチレベルのコントラスト学習によって推定できる合成領域の画像間のセマンティック一貫性を強制する相互情報正規化器を提案する。 本手法は,未認識のモダリティ,走査プロトコル,スキャナサイトに対する各種臓器セグメンテーションの評価を行う。

An organ segmentation method that can generalize to unseen contrasts and scanner settings can significantly reduce the need for retraining of deep learning models. Domain Generalization (DG) aims to achieve this goal. However, most DG methods for segmentation require training data from multiple domains during training. We propose a novel adversarial domain generalization method for organ segmentation trained on data from a \emph{single} domain. We synthesize the new domains via learning an adversarial domain synthesizer (ADS) and presume that the synthetic domains cover a large enough area of plausible distributions so that unseen domains can be interpolated from synthetic domains. We propose a mutual information regularizer to enforce the semantic consistency between images from the synthetic domains, which can be estimated by patch-level contrastive learning. We evaluate our method for various organ segmentation for unseen modalities, scanning protocols, and scanner sites.
翻訳日:2022-07-02 15:29:16 公開日:2022-06-29
# (参考訳) 連続説明可能な変圧器の因果性: CAT-XPLAIN

Causality for Inherently Explainable Transformers: CAT-XPLAIN ( http://arxiv.org/abs/2206.14841v1 )

ライセンス: CC BY 4.0
Subash Khanal, Benjamin Brodie, Xin Xing, Ai-Ling Lin, Nathan Jacobs(参考訳) トレーニング済みのブラックボックスニューラルネットワークを説明するために、いくつかのポストホックな説明手法が開発されている。 しかしながら、本質的に説明可能なニューラルネットワークの設計への研究努力には、依然としてギャップがある。 本稿では,最近提案されたケースワイズ後因果説明手法を用いて,既存のトランスフォーマーアーキテクチャを本質的に説明可能にする。 トレーニングが完了すると、モデルはその決定に寄与するインスタンスの入力空間の上位$k$領域の形式で説明を提供する。 MNIST,FMNIST,CIFARの3つの画像データセットを用いて2値分類タスクの評価を行った。 その結果, 因果性に基づくポストホック説明モデルと比較して, 本モデルが説明可能性の向上を実現し, 個別説明モデルのトレーニングを不要とした。 私たちのコードはhttps://github.com/mvrl/cat-xplainで利用可能です。

There have been several post-hoc explanation approaches developed to explain pre-trained black-box neural networks. However, there is still a gap in research efforts toward designing neural networks that are inherently explainable. In this paper, we utilize a recently proposed instance-wise post-hoc causal explanation method to make an existing transformer architecture inherently explainable. Once trained, our model provides an explanation in the form of top-$k$ regions in the input space of the given instance contributing to its decision. We evaluate our method on binary classification tasks using three image datasets: MNIST, FMNIST, and CIFAR. Our results demonstrate that compared to the causality-based post-hoc explainer model, our inherently explainable model achieves better explainability results while eliminating the need of training a separate explainer model. Our code is available at https://github.com/mvrl/CAT-XPLAIN.
翻訳日:2022-07-02 09:42:05 公開日:2022-06-29
# (参考訳) 過剰パラメータ化体制におけるインプロセッシングによる公平性--注意物語

Fairness via In-Processing in the Over-parameterized Regime: A Cautionary Tale ( http://arxiv.org/abs/2206.14853v1 )

ライセンス: CC BY 4.0
Akshaj Kumar Veldanda, Ivan Brugere, Jiahao Chen, Sanghamitra Dutta, Alan Mishler, Siddharth Garg(参考訳) DNNの成功は、トレーニングデータに完全に適合した場合でも、過パラメータネットワークが一般化する反直感的な能力によって引き起こされる。 実際には、二重降下と呼ばれる過剰パラメータ化の増加に伴い、テストエラーは減少し続ける。 これにより、オーバーフィッティングを心配することなく、大規模なモデルをインスタンス化することができる。 しかし、その利点にもかかわらず、以前の研究は、過度パラメータ化は少数サブグループに対するバイアスを悪化させる可能性があることを示した。 公平に制約されたDNNトレーニング手法が提案されている。 本稿では、TensorFlowのResponsible AI Toolkit内に実装された公正に制約されたトレーニング手順であるMinDiffについて批判的に検討する。 我々は、MinDiffが過度パラメータ化モデルの公平性を向上するが、過度パラメータ化方式では効果がないことを示した。 これは、トレーニング損失がゼロのオーバーフィットモデルが、トレーニングデータに対して自明にグループ的に公平であることから、"公平さのイリュージョン"を生み出し、MinDiff最適化をオフにする(これは、エラーや正確性に気を配る格差ベースの指標に当てはまる)。 特定の公平性制約の中では、過度パラメータ化されたMinDiffモデルは、過度パラメータ化されたモデルよりも誤差が低い。 さらに、MinDiff最適化は、パラメータ下状態におけるバッチサイズの選択に非常に敏感であることを示す。 したがって、MinDiffを用いた公正モデルトレーニングには、時間を要するハイパーパラメーター検索が必要である。 最後に,従来提案されていた正規化手法であるvizを提案する。 l2 初期の停止と洪水 ミンディフと共に、公正な過パラメータモデルの訓練を行う。

The success of DNNs is driven by the counter-intuitive ability of over-parameterized networks to generalize, even when they perfectly fit the training data. In practice, test error often continues to decrease with increasing over-parameterization, referred to as double descent. This allows practitioners to instantiate large models without having to worry about over-fitting. Despite its benefits, however, prior work has shown that over-parameterization can exacerbate bias against minority subgroups. Several fairness-constrained DNN training methods have been proposed to address this concern. Here, we critically examine MinDiff, a fairness-constrained training procedure implemented within TensorFlow's Responsible AI Toolkit, that aims to achieve Equality of Opportunity. We show that although MinDiff improves fairness for under-parameterized models, it is likely to be ineffective in the over-parameterized regime. This is because an overfit model with zero training loss is trivially group-wise fair on training data, creating an "illusion of fairness," thus turning off the MinDiff optimization (this will apply to any disparity-based measures which care about errors or accuracy. It won't apply to demographic parity). Within specified fairness constraints, under-parameterized MinDiff models can even have lower error compared to their over-parameterized counterparts (despite baseline over-parameterized models having lower error). We further show that MinDiff optimization is very sensitive to choice of batch size in the under-parameterized regime. Thus, fair model training using MinDiff requires time-consuming hyper-parameter searches. Finally, we suggest using previously proposed regularization techniques, viz. L2, early stopping and flooding in conjunction with MinDiff to train fair over-parameterized models.
翻訳日:2022-07-02 09:38:23 公開日:2022-06-29
# (参考訳) 言語モデルによる量的推論問題の解法

Solving Quantitative Reasoning Problems with Language Models ( http://arxiv.org/abs/2206.14858v1 )

ライセンス: CC BY 4.0
Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, Vedant Misra(参考訳) 言語モデルは、自然言語理解を必要とする幅広いタスクで驚くべきパフォーマンスを達成しています。 それにもかかわらず、最先端のモデルは一般に、数学、科学、工学の問題を大学レベルで解くなど、定量的な推論を必要とするタスクに苦しめられている。 このギャップを埋めるために、我々は一般的な自然言語データに基づいて事前訓練された大規模言語モデルMinervaを紹介し、さらに技術的な内容について訓練する。 このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。 また, 物理学, 生物学, 化学, 経済学, その他の科学において, 定量的推論を必要とする200以上の大学レベルの問題に対して, モデルの評価を行い, その3分の1近くを正しく解くことができることを確認した。

Language models have achieved remarkable performance on a wide range of tasks that require natural language understanding. Nevertheless, state-of-the-art models have generally struggled with tasks that require quantitative reasoning, such as solving mathematics, science, and engineering problems at the college level. To help close this gap, we introduce Minerva, a large language model pretrained on general natural language data and further trained on technical content. The model achieves state-of-the-art performance on technical benchmarks without the use of external tools. We also evaluate our model on over two hundred undergraduate-level problems in physics, biology, chemistry, economics, and other sciences that require quantitative reasoning, and find that the model can correctly answer nearly a third of them.
翻訳日:2022-07-02 09:19:27 公開日:2022-06-29
# (参考訳) BERT特徴を用いた2段階COVID19分類

Two-Stage COVID19 Classification Using BERT Features ( http://arxiv.org/abs/2206.14861v1 )

ライセンス: CC BY 4.0
Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) 二重BERT特徴抽出を用いた肺CTスキャンスライス画像からのCOVID1-19自動診断フレームワークを提案する。 最初のBERT特徴抽出において、3D-CNNはCNNの内部特徴マップの抽出に使用される。 グローバル平均プーリングを使用する代わりに、後期berttempory pooingを使用して、これらの特徴マップの時間情報を集約し、次に分類層を割り当てる。 この3D-CNN-BERT分類ネットワークは、まず、元のCTスキャンボリューム毎に、サンプル化された固定数のスライス画像をトレーニングする。 第2段階では、CTスキャンボリュームごとのスライス画像に3D-CNN-BERT埋め込み機能を抽出し、これらの特徴を一定数のセグメントに平均化する。 次に、別のBERTネットワークを使用して、これらの複数の機能をひとつの機能に集約し、次に別の分類層が続く。 両段階の分類結果を組み合わせて最終的な出力を生成する。 検証データセットでは,マクロF1スコアが0.9164である。

We propose an automatic COVID1-19 diagnosis framework from lung CT-scan slice images using double BERT feature extraction. In the first BERT feature extraction, A 3D-CNN is first used to extract CNN internal feature maps. Instead of using the global average pooling, a late BERT temporal pooing is used to aggregate the temporal information in these feature maps, followed by a classification layer. This 3D-CNN-BERT classification network is first trained on sampled fixed number of slice images from every original CT scan volume. In the second stage, the 3D-CNN-BERT embedding features are extracted on all slice images of every CT scan volume, and these features are averaged into a fixed number of segments. Then another BERT network is used to aggregate these multiple features into a single feature followed by another classification layer. The classification results of both stages are combined to generate final outputs. On the validation dataset, we achieve macro F1 score of 0.9164.
翻訳日:2022-07-02 09:18:27 公開日:2022-06-29
# (参考訳) 物理インフォームドニューラルネットワークにおけるスペクトルバイアスの影響について

Momentum Diminishes the Effect of Spectral Bias in Physics-Informed Neural Networks ( http://arxiv.org/abs/2206.14862v1 )

ライセンス: CC0 1.0
Ghazal Farhani, Alexander Kazachek, Boyu Wang(参考訳) 物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。 しかし、スペクトルバイアスと呼ばれる現象のため、ターゲット関数が高周波の特徴を含む場合、望ましい解に収束しないことが多い。 本研究は,運動量を伴う確率勾配降下下で進化するPINNのトレーニングダイナミクスを調べるために,ニューラルタンジェントカーネル(NTK)を利用する。 これにより、SGDMはスペクトルバイアスの影響を著しく減少させる。 また,Adamオプティマイザを用いたモデルトレーニングが,スペクトルバイアスを低減しつつ収束を加速できる理由についても検討した。 さらに,sgdmを用いた広帯域ネットワークは,高周波特性が存在する場合でも望ましい解に収束することを確認した。 実際、ネットワークの幅が収束において重要な役割を担っていることを示す。

Physics-informed neural network (PINN) algorithms have shown promising results in solving a wide range of problems involving partial differential equations (PDEs). However, they often fail to converge to desirable solutions when the target function contains high-frequency features, due to a phenomenon known as spectral bias. In the present work, we exploit neural tangent kernels (NTKs) to investigate the training dynamics of PINNs evolving under stochastic gradient descent with momentum (SGDM). This demonstrates SGDM significantly reduces the effect of spectral bias. We have also examined why training a model via the Adam optimizer can accelerate the convergence while reducing the spectral bias. Moreover, our numerical experiments have confirmed that wide-enough networks using SGDM still converge to desirable solutions, even in the presence of high-frequency features. In fact, we show that the width of a network plays a critical role in convergence.
翻訳日:2022-07-02 09:11:37 公開日:2022-06-29
# (参考訳) 沢山の埋め込みを補間する方法を教えてください

Teach me how to Interpolate a Myriad of Embeddings ( http://arxiv.org/abs/2206.14868v1 )

ライセンス: CC BY 4.0
Shashanka Venkataramanan, Ewa Kijak, Laurent Amsaleg, Yannis Avrithis(参考訳) Mixupは補間に基づくデータ拡張を指し、元々は経験的リスク最小化(ERM)を超える方法として動機付けられた。 しかし、その拡張は補間の定義とそれが起こる空間に焦点をあてる一方で、拡張自体の研究は少ない: サイズ$m$のミニバッチの場合、ほとんどのメソッドは、単一のスカラー補間係数$\lambda$を持つ$m$ペアの間で補間する。 タプルの任意の数 $n$ を補間し、長さ $m$ とタプルあたり 1 つのベクトル $\lambda$ を補間する multimix を導入することで、この方向を前進させる。 シーケンスデータでは、全ての空間位置における密補間と損失計算にさらに拡張する。 全体として、ミニバッチあたりのタプル数は桁違いに増加し、追加コストはほとんどありません。 これは分類器の前の最後の層で補間することで可能となる。 最後に, 線形対象補間による不整合に対処するため, 合成対象を生成および補間するための自己蒸留法を提案する。 4つのベンチマークにおいて,我々のコントリビューションが最先端の混合手法よりも大幅に改善されることを実証的に示す。 組込み空間を解析することにより,クラスがより密集し,組込み空間に均一に広がることを観察し,改良された振る舞いを説明する。

Mixup refers to interpolation-based data augmentation, originally motivated as a way to go beyond empirical risk minimization (ERM). Yet, its extensions focus on the definition of interpolation and the space where it takes place, while the augmentation itself is less studied: For a mini-batch of size $m$, most methods interpolate between $m$ pairs with a single scalar interpolation factor $\lambda$. In this work, we make progress in this direction by introducing MultiMix, which interpolates an arbitrary number $n$ of tuples, each of length $m$, with one vector $\lambda$ per tuple. On sequence data, we further extend to dense interpolation and loss computation over all spatial positions. Overall, we increase the number of tuples per mini-batch by orders of magnitude at little additional cost. This is possible by interpolating at the very last layer before the classifier. Finally, to address inconsistencies due to linear target interpolation, we introduce a self-distillation approach to generate and interpolate synthetic targets. We empirically show that our contributions result in significant improvement over state-of-the-art mixup methods on four benchmarks. By analyzing the embedding space, we observe that the classes are more tightly clustered and uniformly spread over the embedding space, thereby explaining the improved behavior.
翻訳日:2022-07-02 08:56:56 公開日:2022-06-29
# (参考訳) LIDL:近似類似度を用いた局所固有次元推定

LIDL: Local Intrinsic Dimension Estimation Using Approximate Likelihood ( http://arxiv.org/abs/2206.14882v1 )

ライセンス: CC BY 4.0
Piotr Tempczyk, Rafa{\l} Michaluk,{\L}ukasz Garncarek, Przemys{\l}aw Spurek, Jacek Tabor, Adam Goli\'nski(参考訳) データ分布の局所固有次元を推定する既存の手法のほとんどは、高次元データに対してうまくスケールしない。 それらの多くは、次元の呪いに苦しむ非パラメトリックな隣人アプローチに依存している。 そこで我々は,この課題に対して,局所固有次元推定を近似的類似度(LIDL)を用いて提案する手法を提案する。 提案手法は, 任意の密度推定法をサブルーチンとして用い, 近年のパラメトリック・ニューラル・メソッドの進歩を応用して, 次元的課題を回避しようとするものである。 提案手法の実証的特性を慎重に検討し,提案手法と理論的予測との比較を行い,LIDLが標準ベンチマークで競合する結果を得ることを示すとともに,数千次元まで拡張可能であることを示す。 さらに, この手法は, 密度推定文献の継続的な進歩とともに, さらなる発展を期待する。

Most of the existing methods for estimating the local intrinsic dimension of a data distribution do not scale well to high-dimensional data. Many of them rely on a non-parametric nearest neighbors approach which suffers from the curse of dimensionality. We attempt to address that challenge by proposing a novel approach to the problem: Local Intrinsic Dimension estimation using approximate Likelihood (LIDL). Our method relies on an arbitrary density estimation method as its subroutine and hence tries to sidestep the dimensionality challenge by making use of the recent progress in parametric neural methods for likelihood estimation. We carefully investigate the empirical properties of the proposed method, compare them with our theoretical predictions, and show that LIDL yields competitive results on the standard benchmarks for this problem and that it scales to thousands of dimensions. What is more, we anticipate this approach to improve further with the continuing advances in the density estimation literature.
翻訳日:2022-07-02 08:31:39 公開日:2022-06-29
# (参考訳) GPTs at Factify 2022: Prompt Aided Fact-Verification

GPTs at Factify 2022: Prompt Aided Fact-Verification ( http://arxiv.org/abs/2206.14913v1 )

ライセンス: CC BY 4.0
Pawan Kumar Sahu, Saksham Aggarwal, Taneesh Gupta, Gyanendra Das(参考訳) 最も差し迫った社会問題の一つは偽ニュースとの戦いである。 虚偽の主張は、暴露するのと同じくらい難しく、多くの損害をもたらします。 この問題に取り組むために、事実検証が重要となり、様々な研究コミュニティの間で関心を集めている。 テキスト形式のデータのみを使用することで,この問題に対する解決策を提案し,他の手法と競合する結果を得る。 本稿では,plm (pre-trained language model) に基づく手法とプロンプトに基づく手法の2つのアプローチに基づくソリューションを提案する。 plmベースのアプローチでは、従来の教師付き学習を用いて、モデルが入力として'x'を、p(y|x)として出力予測'y'を訓練する。 一方、Promptベースの学習は、入力をモデルに適合させるために設計するアイデアを反映しており、元の目的を言語モデリングの(偽)問題として再編成することができる。 PLMの豊富な知識をさらに刺激し、PLMの微調整に余分なプロンプトを利用することで、下流のタスクに役立てることができる。 提案手法は,plmを微調整するよりも優れた性能を示す。 FACTIFYデータセットのF1スコアは0.6946で、競技リーダーボードでは7位でした。

One of the most pressing societal issues is the fight against false news. The false claims, as difficult as they are to expose, create a lot of damage. To tackle the problem, fact verification becomes crucial and thus has been a topic of interest among diverse research communities. Using only the textual form of data we propose our solution to the problem and achieve competitive results with other approaches. We present our solution based on two approaches - PLM (pre-trained language model) based method and Prompt based method. The PLM-based approach uses the traditional supervised learning, where the model is trained to take 'x' as input and output prediction 'y' as P(y|x). Whereas, Prompt-based learning reflects the idea to design input to fit the model such that the original objective may be re-framed as a problem of (masked) language modeling. We may further stimulate the rich knowledge provided by PLMs to better serve downstream tasks by employing extra prompts to fine-tune PLMs. Our experiments showed that the proposed method performs better than just fine-tuning PLMs. We achieved an F1 score of 0.6946 on the FACTIFY dataset and a 7th position on the competition leader-board.
翻訳日:2022-07-02 08:06:03 公開日:2022-06-29
# (参考訳) 力学における問題に対する分布一般化に向けて

Towards out of distribution generalization for problems in mechanics ( http://arxiv.org/abs/2206.14917v1 )

ライセンス: CC BY-SA 4.0
Lingxiao Yuan, Harold S. Park, Emma Lejeune(参考訳) メカニクスにおける問題に対するデータ駆動手法の適用に対する研究の関心が高まっている。 従来の機械学習(ML)法は多くのブレークスルーを可能にしてきたが、トレーニング(観測された)データとテスト(見えない)データが独立して同じ分散(すなわちd)であるという仮定に依存している。 したがって、未知のテスト環境とデータ分散シフトによる実世界のメカニクス問題に適用した場合、従来のMLアプローチは故障することが多い。 対照的に、out-of-distribution (ood) 一般化は、テストデータのシフト(すなわち、i.i.d.仮定に違反する)を仮定する。 これまで,ML手法のOOD一般化を改善するために,複数の手法が提案されてきた。 しかし、OOD回帰問題のベンチマークデータセットが欠如しているため、これらのOOD法が力学分野を支配している回帰問題に対する効率が不明である。 そこで本研究では,機械力学における回帰問題に対するOOD一般化手法の性能について検討する。 具体的には、共変量シフト、メカニズムシフト、サンプリングバイアスの3つのOOD問題を同定する。 各問題に対して、メカニカルMNISTデータセットコレクションを拡張する2つのベンチマーク例を作成し、これらの力学固有の回帰問題に対する一般的なOOD一般化手法の性能について検討する。 数値実験の結果,OODの一般化アルゴリズムは従来のML法に比べ性能がよいが,複数のOODシナリオで有効なOODの一般化手法を開発する必要があることが示唆された。 全体として、本研究は、関連するオープンアクセスベンチマークデータセットと同様に、メカニクス固有の回帰問題に対するOOD一般化手法をさらに発展させることを期待する。

There has been a massive increase in research interest towards applying data driven methods to problems in mechanics. While traditional machine learning (ML) methods have enabled many breakthroughs, they rely on the assumption that the training (observed) data and testing (unseen) data are independent and identically distributed (i.i.d). Thus, traditional ML approaches often break down when applied to real world mechanics problems with unknown test environments and data distribution shifts. In contrast, out-of-distribution (OOD) generalization assumes that the test data may shift (i.e., violate the i.i.d. assumption). To date, multiple methods have been proposed to improve the OOD generalization of ML methods. However, because of the lack of benchmark datasets for OOD regression problems, the efficiency of these OOD methods on regression problems, which dominate the mechanics field, remains unknown. To address this, we investigate the performance of OOD generalization methods for regression problems in mechanics. Specifically, we identify three OOD problems: covariate shift, mechanism shift, and sampling bias. For each problem, we create two benchmark examples that extend the Mechanical MNIST dataset collection, and we investigate the performance of popular OOD generalization methods on these mechanics-specific regression problems. Our numerical experiments show that in most cases, while the OOD generalization algorithms perform better compared to traditional ML methods on these OOD problems, there is a compelling need to develop more robust OOD generalization methods that are effective across multiple OOD scenarios. Overall, we expect that this study, as well as the associated open access benchmark datasets, will enable further development of OOD generalization methods for mechanics specific regression problems.
翻訳日:2022-07-02 07:56:20 公開日:2022-06-29
# (参考訳) 複数の解像度を利用したセグメンテーションネットワークにおけるバイアスの同定と対処

Identifying and Combating Bias in Segmentation Networks by leveraging multiple resolutions ( http://arxiv.org/abs/2206.14919v1 )

ライセンス: CC BY 4.0
Leonie Henschel and David K\"ugler and Derek S Andrews and Christine W Nordahl and Martin Reuter(参考訳) 偏見の探索は、医学的設定におけるディープラーニングパイプラインの透明性と適用性に大きな影響を及ぼすが、これまでは十分に検討されていない。 本稿では,異なる画像解像度でのみトレーニングデータを利用できる2つのグループについて考察する。 グループHでは、利用可能な画像とラベルが好ましい高解像度であり、グループLでは非推奨の低解像度データが存在する。 データ分布におけるこの分解バイアスが,高分解能群lに対して系統的に偏りのある予測にどのように伝播するかを分析した。 以上の結果から,低分解能群における単分解能トレーニング設定は,DSCによる誤ったセグメンテーションと,それに続く低分解能群での分類失敗に相当な差が認められた。 我々はさらに,この系統的バイアスに対処するために,解像度をまたいだトレーニングデータを活用する方法について検討する。 具体的には,画像再サンプリング,スケール拡張,解像度独立性の効果を調査し,マルチレゾリューションアプローチによりバイアスを効果的に低減できることを示す。

Exploration of bias has significant impact on the transparency and applicability of deep learning pipelines in medical settings, yet is so far woefully understudied. In this paper, we consider two separate groups for which training data is only available at differing image resolutions. For group H, available images and labels are at the preferred high resolution while for group L only deprecated lower resolution data exist. We analyse how this resolution-bias in the data distribution propagates to systematically biased predictions for group L at higher resolutions. Our results demonstrate that single-resolution training settings result in significant loss of volumetric group differences that translate to erroneous segmentations as measured by DSC and subsequent classification failures on the low resolution group. We further explore how training data across resolutions can be used to combat this systematic bias. Specifically, we investigate the effect of image resampling, scale augmentation and resolution independence and demonstrate that biases can effectively be reduced with multi-resolution approaches.
翻訳日:2022-07-02 07:53:16 公開日:2022-06-29
# (参考訳) ComDensE : 知識グラフ補完のための関係認識と共通特徴を組み合わせた高密度埋め込み

ComDensE : Combined Dense Embedding of Relation-aware and Common Features for Knowledge Graph Completion ( http://arxiv.org/abs/2206.14925v1 )

ライセンス: CC BY 4.0
Minsang Kim, Seungjun Baek(参考訳) 実世界の知識グラフ(KG)はほとんど不完全である。 kg補完と呼ばれる欠落関係の回復問題は、近年、活発な研究分野となっている。 知識グラフ(kg)埋め込みは、実体と関係の低次元表現であり、kg補完の重要な技法である。 conve, sacn, interacte, rgcnなどのモデルの畳み込みニューラルネットワークは、最近の成功を達成している。 本稿では,ニューラルネットワークを用いた関係認識と共通特徴を組み合わせたComDensEを提案する。 関係認識特徴抽出では,各関係に特有の符号化関数を適用することにより,関係帰納的バイアスを発生させようとする。 共通特徴抽出では、全ての入力埋め込みに共通符号化関数を適用する。 これらの符号化機能はComDensEの高密度層を用いて実装される。 ComDensEは、MRR、FB15k-237のHIT@1、WN18RRのHIT@1といったリンク予測における最先端のパフォーマンスを、以前のベースラインアプローチと比較して達成する。 我々はComDensEの一般層と関係認識層の効果について広範囲にわたるアブレーション研究を行った。 実験結果から,ComDensEで実装された複合密集型アーキテクチャが最高の性能を発揮することが示された。

Real-world knowledge graphs (KG) are mostly incomplete. The problem of recovering missing relations, called KG completion, has recently become an active research area. Knowledge graph (KG) embedding, a low-dimensional representation of entities and relations, is the crucial technique for KG completion. Convolutional neural networks in models such as ConvE, SACN, InteractE, and RGCN achieve recent successes. This paper takes a different architectural view and proposes ComDensE which combines relation-aware and common features using dense neural networks. In the relation-aware feature extraction, we attempt to create relational inductive bias by applying an encoding function specific to each relation. In the common feature extraction, we apply the common encoding function to all input embeddings. These encoding functions are implemented using dense layers in ComDensE. ComDensE achieves the state-of-the-art performance in the link prediction in terms of MRR, HIT@1 on FB15k-237 and HIT@1 on WN18RR compared to the previous baseline approaches. We conduct an extensive ablation study to examine the effects of the relation-aware layer and the common layer of the ComDensE. Experimental results illustrate that the combined dense architecture as implemented in ComDensE achieves the best performance.
翻訳日:2022-07-02 07:41:40 公開日:2022-06-29
# (参考訳) AFAFed -- プロトコル分析

AFAFed -- Protocol analysis ( http://arxiv.org/abs/2206.14927v1 )

ライセンス: CC BY 4.0
Enzo Baccarelli, Michele Scarpiniti, Alireza Momenzadeh and Sima Sarv Ahrabi(参考訳) 本稿では,収束特性を設計,解析し,AFAFedの実装面に対処する。 これは、ストリーム指向のIoTアプリケーション環境のための新しい非同期公正適応型学習フレームワークで、時間的な操作条件、異質なリソース制限デバイス(同僚など)、非i.d.ローカルトレーニングデータ、信頼できない通信リンクが特徴である。 AFAFedのキーとなる新機能は、synergic co-design of:である。 (i)順応的に調整された許容しきい値の組と、同僚及び中央サーバの公正係数の組 (二)分散適応機構により、各同僚が自身の通信速度を適応的に調整することができる。 afafedの(おそらく)非凸損失関数の収束特性は、新しい解析境界のセットによって保証され、モデル集約に使用される(適応的に調整された)混合係数の最大/最小値(例えば、連続したモデル更新の同僚数ごとの第1および第2モーメント)のような多くのフェデレーション学習(fl)パラメータのフェデレーション収束率への影響を正式に明らかにする。

In this paper, we design, analyze the convergence properties and address the implementation aspects of AFAFed. This is a novel Asynchronous Fair Adaptive Federated learning framework for stream-oriented IoT application environments, which are featured by time-varying operating conditions, heterogeneous resource-limited devices (i.e., coworkers), non-i.i.d. local training data and unreliable communication links. The key new of AFAFed is the synergic co-design of: (i) two sets of adaptively tuned tolerance thresholds and fairness coefficients at the coworkers and central server, respectively; and, (ii) a distributed adaptive mechanism, which allows each coworker to adaptively tune own communication rate. The convergence properties of AFAFed under (possibly) non-convex loss functions is guaranteed by a set of new analytical bounds, which formally unveil the impact on the resulting AFAFed convergence rate of a number of Federated Learning (FL) parameters, like, first and second moments of the per-coworker number of consecutive model updates, data skewness, communication packet-loss probability, and maximum/minimum values of the (adaptively tuned) mixing coefficient used for model aggregation.
翻訳日:2022-07-02 07:27:55 公開日:2022-06-29
# (参考訳) ランダム変動ガウス雑音による低体積データセットを用いた決定フォレストに基づくEMG信号分類

Decision Forest Based EMG Signal Classification with Low Volume Dataset Augmented with Random Variance Gaussian Noise ( http://arxiv.org/abs/2206.14947v1 )

ライセンス: CC BY 4.0
Tekin Gunasar, Alexandra Rekesh, Atul Nair, Penelope King, Anastasiya Markova, Jiaqi Zhang, and Isabel Tate(参考訳) 筋電図信号は、機械学習モデルが様々なジェスチャーを分類するためのトレーニングデータとして使用できる。 そこで本研究では,6つの異なる手振りを限られた数のサンプルで分類し,その特徴抽出結果がモデル精度に与える影響を,信号のチャネルを横切るスライディングウインドウにおけるarパラメータの使用など従来の手法と比較しながら,より広いオーディエンスに広めるモデルを提案する。 我々は,信号に対するランダム境界の使用など,より基本的な手法のセットにアピールするが,Fourier変換などの複雑な手法とは対照的に,EMG分類が行われるオンライン環境において,これらの手法が持つ力を示すことを望む。 限られたトレーニングデータを増やすために、ジッタと呼ばれる標準手法を使用し、各観測にランダムノイズをチャンネルワイズに付加した。 すべてのデータセットが上記の方法で生成されると、ランダムフォレストとxgboostでグリッド検索を行い、最終的に高精度モデルを作成しました。 人間のコンピュータインタフェースの目的において、EMG信号の高精度な分類は、その機能にとって特に重要であり、あらゆるバイオメディカルデータを高量に蓄積することの難しさとコストを考えると、オンラインアプリケーションで確実に行うことのできる、安価な特徴抽出手法を用いて、低品質のサンプルで作業できる技術を持つことが重要である。

Electromyography signals can be used as training data by machine learning models to classify various gestures. We seek to produce a model that can classify six different hand gestures with a limited number of samples that generalizes well to a wider audience while comparing the effect of our feature extraction results on model accuracy to other more conventional methods such as the use of AR parameters on a sliding window across the channels of a signal. We appeal to a set of more elementary methods such as the use of random bounds on a signal, but desire to show the power these methods can carry in an online setting where EMG classification is being conducted, as opposed to more complicated methods such as the use of the Fourier Transform. To augment our limited training data, we used a standard technique, known as jitter, where random noise is added to each observation in a channel wise manner. Once all datasets were produced using the above methods, we performed a grid search with Random Forest and XGBoost to ultimately create a high accuracy model. For human computer interface purposes, high accuracy classification of EMG signals is of particular importance to their functioning and given the difficulty and cost of amassing any sort of biomedical data in a high volume, it is valuable to have techniques that can work with a low amount of high-quality samples with less expensive feature extraction methods that can reliably be carried out in an online application.
翻訳日:2022-07-02 05:21:44 公開日:2022-06-29
# 異なる種類のアノテーションを用いた小声道追跡のための深層強化学習

Deep Reinforcement Learning for Small Bowel Path Tracking using Different Types of Annotations ( http://arxiv.org/abs/2206.14847v1 )

ライセンス: Link先を確認
Seung Yeon Shin and Ronald M. Summers(参考訳) 小腸の経路追跡は、多くの折りたたみやコースに沿った接触を考えると難しい問題である。 同じ理由から、3dで小便の地中道(gt)を達成するのは非常に費用がかかる。 本研究では,異なる種類のアノテーションを用いたデータセットを用いた深層強化学習トラッカのトレーニングを提案する。 具体的には,gt小腸分節のみを有するctスキャンとgtパスを有するctスキャンを用いた。 GTパスなしでも定義可能な報酬を含む、両方の互換性のあるユニークな環境を設計することで実現されている。 実験により提案手法の有効性が示された。 提案手法は,弱いアノテーションでスキャンを利用可能にすることで,必要となるアノテーションコストを低減し,高いユーザビリティを有する。

Small bowel path tracking is a challenging problem considering its many folds and contact along its course. For the same reason, it is very costly to achieve the ground-truth (GT) path of the small bowel in 3D. In this work, we propose to train a deep reinforcement learning tracker using datasets with different types of annotations. Specifically, we utilize CT scans that have only GT small bowel segmentation as well as ones with the GT path. It is enabled by designing a unique environment that is compatible for both, including a reward definable even without the GT path. The performed experiments proved the validity of the proposed method. The proposed method holds a high degree of usability in this problem by being able to utilize the scans with weak annotations, and thus by possibly reducing the required annotation cost.
翻訳日:2022-07-01 15:24:01 公開日:2022-06-29
# 神経運動場:暗黙的値関数としての把持軌跡の符号化

Neural Motion Fields: Encoding Grasp Trajectories as Implicit Value Functions ( http://arxiv.org/abs/2206.14854v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Adithyavairavan Murali, Balakumar Sundaralingam, Wei Yang, Animesh Garg, Dieter Fox(参考訳) 現在のロボットピック・アンド・プレース方式のパイプラインは一般的にいくつかの段階で構成されている: ポーズの把握、検出されたポーズに対する逆運動解の発見、衝突のない軌道の計画、そして低レベルのトラッキングコントローラでグリップポーズに対するオープンループ軌道の実行。 これらの把持手法はテーブル上における静的オブジェクトの把持において優れた性能を示すが,制約環境における動的オブジェクトの把持問題は未解決の問題である。 ニューラルネットワークによってパラメータ化された暗黙の値関数として,対象点の雲と相対タスクの軌跡の両方をエンコードする新しいオブジェクト表現であるneural motion fieldsを提案する。 このオブジェクト中心表現はse(3)空間上の連続分布をモデル化し、サンプリングベースのmpcを利用してこの値関数を最適化することで、反応的に把握することができる。

The pipeline of current robotic pick-and-place methods typically consists of several stages: grasp pose detection, finding inverse kinematic solutions for the detected poses, planning a collision-free trajectory, and then executing the open-loop trajectory to the grasp pose with a low-level tracking controller. While these grasping methods have shown good performance on grasping static objects on a table-top, the problem of grasping dynamic objects in constrained environments remains an open problem. We present Neural Motion Fields, a novel object representation which encodes both object point clouds and the relative task trajectories as an implicit value function parameterized by a neural network. This object-centric representation models a continuous distribution over the SE(3) space and allows us to perform grasping reactively by leveraging sampling-based MPC to optimize this value function.
翻訳日:2022-07-01 15:23:38 公開日:2022-06-29
# CIRDataset: 臨床的に解釈可能な肺結節放射能と悪性度予測のための大規模データセット

CIRDataset: A large-scale Dataset for Clinically-Interpretable lung nodule Radiomics and malignancy prediction ( http://arxiv.org/abs/2206.14903v1 )

ライセンス: Link先を確認
Wookjin Choi, Navdeep Dahiya, Saad Nadeem(参考訳) 肺結節表面の急激で曲がりくねったスパイクは肺がんの悪性度の予測に優れており、標準化されたLung-RADS臨床評価基準の一部として、放射線技師によって定期的に評価され報告される。 放射線技師による結節の3次元形状と2次元スライス・バイ・スライス評価を考えると、手動によるスライス・ロブレーションアノテーションは面倒な作業であり、SOTA悪性度予測アルゴリズムにおけるこれらの臨床的に報告された特徴の重要性を検証するための公開データセットは今のところ存在しない。 本論文では, LIDC-IDRI (N=883) と LUNGx (N=73) の2つのパブリックデータセットから, 956 個のラジオロジスト QA/QC'ed piculation/lobulation アノテーションを含むCIRDataset を作成した。 また,マルチクラスvoxel2mesh拡張に基づくエンドツーエンドディープラーニングモデル(スパイクを保存しながら)を提案し,スパイクの分類(シャープ/スピレーションとカーブ/ロブレーション)を行い,悪性度予測を行う。 LIDCおよびLUNGxデータセットの悪性度予測を行ったが、臨床報告・作用可能な特徴(一般的な属性スキームによる既知のハイパーパラメータ感度の問題により)に頑健な寄与は得られなかった。 この包括的アノテーション付きCIRDatasetとエンドツーエンドのディープラーニングベースラインのリリースにより、悪性度予測手法が彼らの説明を検証し、ベースラインに対してベンチマークを行い、臨床的に作用可能な洞察を提供できることを期待する。 データセット、コード、事前訓練されたモデル、およびdockerコンテナはhttps://github.com/nadeemlab/CIR.orgで入手できる。

Spiculations/lobulations, sharp/curved spikes on the surface of lung nodules, are good predictors of lung cancer malignancy and hence, are routinely assessed and reported by radiologists as part of the standardized Lung-RADS clinical scoring criteria. Given the 3D geometry of the nodule and 2D slice-by-slice assessment by radiologists, manual spiculation/lobulation annotation is a tedious task and thus no public datasets exist to date for probing the importance of these clinically-reported features in the SOTA malignancy prediction algorithms. As part of this paper, we release a large-scale Clinically-Interpretable Radiomics Dataset, CIRDataset, containing 956 radiologist QA/QC'ed spiculation/lobulation annotations on segmented lung nodules from two public datasets, LIDC-IDRI (N=883) and LUNGx (N=73). We also present an end-to-end deep learning model based on multi-class Voxel2Mesh extension to segment nodules (while preserving spikes), classify spikes (sharp/spiculation and curved/lobulation), and perform malignancy prediction. Previous methods have performed malignancy prediction for LIDC and LUNGx datasets but without robust attribution to any clinically reported/actionable features (due to known hyperparameter sensitivity issues with general attribution schemes). With the release of this comprehensively-annotated CIRDataset and end-to-end deep learning baseline, we hope that malignancy prediction methods can validate their explanations, benchmark against our baseline, and provide clinically-actionable insights. Dataset, code, pretrained models, and docker containers are available at https://github.com/nadeemlab/CIR.
翻訳日:2022-07-01 15:22:07 公開日:2022-06-29
# CLTS-GAN : 大腸内視鏡におけるカラーライト-テクスチュア-特異反射増強法

CLTS-GAN: Color-Lighting-Texture-Specular Reflection Augmentation for Colonoscopy ( http://arxiv.org/abs/2206.14951v1 )

ライセンス: Link先を確認
Shawn Mathew, Saad Nadeem, Arie Kaufman(参考訳) 光大腸内視鏡(oc)ビデオフレーム(oc)の自動分析は、色、照明、テクスチャ、鏡面反射のバリエーションにより困難である。 以前の方法では、事前処理(パイプラインの面倒な処理)や、アノテーションによるさまざまなトレーニングデータの追加(高価で時間がかかる)によって、これらのバリエーションを取り除いたりした。 ocビデオフレームの色,照明,テクスチャ,鏡面反射合成を詳細に制御する,新しいディープラーニングモデルであるclts-ganを提案する。 これらの大腸内視鏡特異的増強をトレーニングデータに加えることで,最先端のポリープ検出/セグメンテーション法を改善し,医学生の教育のための次世代のocシミュレータを推進できることが示されている。 CLTS-GANのコードと事前トレーニングされたモデルは、Computational Endoscopy Platform GitHub(https://github.com/nadeemlab/CEP)で入手できる。

Automated analysis of optical colonoscopy (OC) video frames (to assist endoscopists during OC) is challenging due to variations in color, lighting, texture, and specular reflections. Previous methods either remove some of these variations via preprocessing (making pipelines cumbersome) or add diverse training data with annotations (but expensive and time-consuming). We present CLTS-GAN, a new deep learning model that gives fine control over color, lighting, texture, and specular reflection synthesis for OC video frames. We show that adding these colonoscopy-specific augmentations to the training data can improve state-of-the-art polyp detection/segmentation methods as well as drive next generation of OC simulators for training medical students. The code and pre-trained models for CLTS-GAN are available on Computational Endoscopy Platform GitHub (https://github.com/nadeemlab/CEP).
翻訳日:2022-07-01 15:21:30 公開日:2022-06-29
# 生物と機械の進化 : 混合微生物群とロボット群との対比

The Hiatus Between Organism and Machine Evolution: Contrasting Mixed Microbial Communities with Robots ( http://arxiv.org/abs/2206.14916v1 )

ライセンス: Link先を確認
Andrea Roli and Stuart A. Kauffman(参考訳) 様々な細菌と真菌からなる混合微生物群集は、土壌から人間の腸、皮膚に至るまで、様々な環境において基本的なものである。 彼らの進化は、種間の関係が役割を担うだけでなく、それぞれの種が他の種に与える機会(と潜在的危害)も果たす、相互に絡み合う力学のパラダイム的な例である。 これらの機会は実際には \textit{affordances} であり、遺伝可能な変異と選択によって奪うことができる。 本稿では,混在する微生物群集の体系的視点から,進化におけるアベイランスの役割に焦点をあて,プログラムやロボットの人工進化と対比する。 自然進化は、その可能性の空間を完全に開かれた方法で拡張することで進行するが、後者は本質的に定義されているアルゴリズムの枠組みによって制限される。 この違いは、物理的な世界でロボットが進化する、想定された環境を特徴付ける。 我々は,我々の主張を支持する議論を行い,提案文を評価するための実験的な設定を提案する。 機械の人工進化の限界を議論するのではなく、この貢献の目的は微生物のコミュニティの進化によって美しく表現された生物圏の進化の驚くべき可能性を強調しることである。

Mixed microbial communities, usually composed of various bacterial and fungal species, are fundamental in a plethora of environments, from soil to human gut and skin. Their evolution is a paradigmatic example of intertwined dynamics, where not just the relations among species plays a role, but also the opportunities -- and possible harms -- that each species presents to the others. These opportunities are in fact \textit{affordances}, which can be seized by heritable variation and selection. In this paper, starting from a systemic viewpoint of mixed microbial communities, we focus on the pivotal role of affordances in evolution and we contrast it to the artificial evolution of programs and robots. We maintain that the two realms are neatly separated, in that natural evolution proceeds by extending the space of its possibilities in a completely open way, while the latter is inherently limited by the algorithmic framework it is defined. This discrepancy characterises also an envisioned setting in which robots evolve in the physical world. We present arguments supporting our claim and we propose an experimental setting for assessing our statements. Rather than just discussing the limitations of the artificial evolution of machines, the aim of this contribution is to emphasize the tremendous potential of the evolution of the biosphere, beautifully represented by the evolution of communities of microbes.
翻訳日:2022-07-01 15:17:48 公開日:2022-06-29
# ネルフ 微分幾何に会え!

NeRF, meet differential geometry! ( http://arxiv.org/abs/2206.14938v1 )

ライセンス: Link先を確認
Thibaud Ehret, Roger Mar\'i, Gabriele Facciolo(参考訳) ニューラル・ラディアンス・フィールド(NeRF)は、多視点画像コレクションからの複雑なシーンの3次元モデリングと新しいビュー合成の分野におけるブレークスルーを表している。 最近の多くの研究は、モデルが一貫性のないデータや、非常に疎いデータでトレーニングできるように、正規化によってより堅牢にすることに注力している。 本研究では,連続かつ無限に微分可能な関数を表現するために修正されたnrf様モデルを頑健にトレーニングするための正規化ツールとして微分幾何学をどのように提供するかという面をスクラッチする。 特に,これらのツールが,挑戦条件(RegNeRF)の性能向上を目的とした,従来提案されていたNeRF変種を直接数学的定式化する方法を示す。 これに基づいて、同じ形式主義が(ガウス曲率と平均曲率によって)曲面の正則性をネイティブに奨励するためにどのように用いられるかを示し、例えば、非常に限られた数の視点から曲面を学ぶことができることを示した。

Neural radiance fields, or NeRF, represent a breakthrough in the field of novel view synthesis and 3D modeling of complex scenes from multi-view image collections. Numerous recent works have been focusing on making the models more robust, by means of regularization, so as to be able to train with possibly inconsistent and/or very sparse data. In this work, we scratch the surface of how differential geometry can provide regularization tools for robustly training NeRF-like models, which are modified so as to represent continuous and infinitely differentiable functions. In particular, we show how these tools yield a direct mathematical formalism of previously proposed NeRF variants aimed at improving the performance in challenging conditions (i.e. RegNeRF). Based on this, we show how the same formalism can be used to natively encourage the regularity of surfaces (by means of Gaussian and Mean Curvatures) making it possible, for example, to learn surfaces from a very limited number of views.
翻訳日:2022-07-01 14:49:45 公開日:2022-06-29
# ワッサーシュタイン勾配流による離散ランゲヴィンサンプリング器

Discrete Langevin Sampler via Wasserstein Gradient Flow ( http://arxiv.org/abs/2206.14897v1 )

ライセンス: Link先を確認
Haoran Sun, Hanjun Dai, Bo Dai, Haomin Zhou, Dale Schuurmans(参考訳) 近年, 局所平衡型(LB)サンプリング器群は, 離散空間におけるエネルギーベースモデル(EBM)のサンプリングおよび学習において優れた性能を示した。 しかし、この成功の理論的理解は限られている。 本研究では、離散空間におけるワッサーシュタイン勾配流に対応するLB関数がどのようにしてLBダイナミクスをもたらすかを示す。 最初の原理から、以前のLBサンプリングはハミング距離に関してLB力学の離散化と見なすことができる。 この観察に基づいて,シミュレーション時間に関してlbダイナミクスを離散化することにより,局所バランスジャンプ(lbj)という新しいアルゴリズムを提案する。 その結果、LBJは位置に依存した「速度」を持ち、より広い距離で提案を行うことができる。 さらに、LBJは各次元を独立したサブプロセスに分離し、便利な並列実装を可能にする。 種々の二分分布および分類分布のサンプリングと学習におけるLBJの利点を示す。

Recently, a family of locally balanced (LB) samplers has demonstrated excellent performance at sampling and learning energy-based models (EBMs) in discrete spaces. However, the theoretical understanding of this success is limited. In this work, we show how LB functions give rise to LB dynamics corresponding to Wasserstein gradient flow in a discrete space. From first principles, previous LB samplers can then be seen as discretizations of the LB dynamics with respect to Hamming distance. Based on this observation, we propose a new algorithm, the Locally Balanced Jump (LBJ), by discretizing the LB dynamics with respect to simulation time. As a result, LBJ has a location-dependent "velocity" that allows it to make proposals with larger distances. Additionally, LBJ decouples each dimension into independent sub-processes, enabling convenient parallel implementation. We demonstrate the advantages of LBJ for sampling and learning in various binary and categorical distributions.
翻訳日:2022-07-01 14:41:57 公開日:2022-06-29
# 軌道推論のためのマニフォールド補間最適輸送流

Manifold Interpolating Optimal-Transport Flows for Trajectory Inference ( http://arxiv.org/abs/2206.14928v1 )

ライセンス: Link先を確認
Guillaume Huguet, D.S. Magruder, Oluwadamilola Fasina, Alexander Tong, Manik Kuchroo, Guy Wolf, Smita Krishnaswamy(参考訳) 本稿では,スポラジカル・タイムポイントで採取した静的スナップショットから,確率的,連続的な個体群動態を学習するManifold Interpolating Optimal-Transport Flow (MIOFlow)を提案する。 MIOFlowは、動的モデル、多様体学習、およびニューラルネットワーク常微分方程式(ニューラルODE)を訓練することで最適輸送を組み合わせ、静的集団スナップショット間の補間を行う。 さらに,ジオデシックオートエンコーダ (GAE) と呼ぶオートエンコーダの潜時空間を動作させることにより,フローが幾何に従っていることを保証する。 GAE において、点間の遅延空間距離は、我々が定義するデータ多様体上の新しいマルチスケール測地距離と一致するように正規化される。 本手法は, 個体群間の補間において, ノイズからデータへの流れを考慮に入れた, 流れの正規化, シュリンガーブリッジ, その他の生成モデルよりも優れていることを示す。 理論的には、これらの軌道を動的最適輸送と結びつける。 本手法は, 胚体分化および急性骨髄性白血病の治療から得られたscRNA-seqデータとともに, 分岐とマージによるシミュレーションデータについて検討した。

Here, we present a method called Manifold Interpolating Optimal-Transport Flow (MIOFlow) that learns stochastic, continuous population dynamics from static snapshot samples taken at sporadic timepoints. MIOFlow combines dynamic models, manifold learning, and optimal transport by training neural ordinary differential equations (Neural ODE) to interpolate between static population snapshots as penalized by optimal transport with manifold ground distance. Further, we ensure that the flow follows the geometry by operating in the latent space of an autoencoder that we call a geodesic autoencoder (GAE). In GAE the latent space distance between points is regularized to match a novel multiscale geodesic distance on the data manifold that we define. We show that this method is superior to normalizing flows, Schr\"odinger bridges and other generative models that are designed to flow from noise to data in terms of interpolating between populations. Theoretically, we link these trajectories with dynamic optimal transport. We evaluate our method on simulated data with bifurcations and merges, as well as scRNA-seq data from embryoid body differentiation, and acute myeloid leukemia treatment.
翻訳日:2022-07-01 14:41:42 公開日:2022-06-29
# オンライン適応的影響最大化のための効果的な強化学習

Provably Efficient Reinforcement Learning for Online Adaptive Influence Maximization ( http://arxiv.org/abs/2206.14846v1 )

ライセンス: Link先を確認
Kaixuan Huang, Yu Wu, Xuezhou Zhang, Shenyinying Tu, Qingyun Wu, Mengdi Wang, Huazheng Wang(参考訳) オンラインインフルエンス最大化は、数個のシードノードを選択することで、未知のネットワークモデルによるソーシャルネットワーク内のコンテンツへの影響を最大化することを目的としている。 近年,拡散開始前に種子ノードが選択され,拡散停止時にネットワークパラメータが更新される非適応設定が研究されている。 実時間フィードバックに基づいてシードノードを逐次活性化するコンテンツ依存型オンライン影響最大化問題の適応版を考える。 本稿では,線形拡散過程において無限水平割引MDPとして問題を定式化し,モデルに基づく強化学習ソリューションを提案する。 提案アルゴリズムは, ネットワークモデルの推定値を維持し, 適応的にシードユーザを選択し, ソーシャルネットワークを探索し, 最適政策を楽観的に改善する。 我々はアルゴリズムに対して$\widetilde o(\sqrt{t})$ regret boundを確立する。 合成ネットワークにおける経験的評価は,アルゴリズムの効率を実証する。

Online influence maximization aims to maximize the influence spread of a content in a social network with unknown network model by selecting a few seed nodes. Recent studies followed a non-adaptive setting, where the seed nodes are selected before the start of the diffusion process and network parameters are updated when the diffusion stops. We consider an adaptive version of content-dependent online influence maximization problem where the seed nodes are sequentially activated based on real-time feedback. In this paper, we formulate the problem as an infinite-horizon discounted MDP under a linear diffusion process and present a model-based reinforcement learning solution. Our algorithm maintains a network model estimate and selects seed users adaptively, exploring the social network while improving the optimal policy optimistically. We establish $\widetilde O(\sqrt{T})$ regret bound for our algorithm. Empirical evaluations on synthetic network demonstrate the efficiency of our algorithm.
翻訳日:2022-07-01 14:08:15 公開日:2022-06-29
# 連続神経場を用いた強いレンズソース再構成

Strong Lensing Source Reconstruction Using Continuous Neural Fields ( http://arxiv.org/abs/2206.14820v1 )

ライセンス: Link先を確認
Siddharth Mishra-Sharma, Ge Yang(参考訳) ダークマターの性質から宇宙の膨張率まで、強い重力レンズを通して歪んだ遠方の銀河の観測は、天体物理学における主要な疑問に答える可能性がある。 銀河ギャラクシーの強いレンズ観測のモデル化は、背景と前景のレンズ銀河の正確な構成が不明であるため、多くの課題を呈している。 タイムリーな電話は、高解像度のレンズ画像が予想される多くの調査によって引き起こされ、レンズの完全な複雑さを効率的にモデル化する手法が求められている。 本研究では, 連続神経場を用いて, 光源銀河の複雑な形態を非パラメトリックに再構成し, 同時に前景レンズ銀河の分布を推定する手法を提案する。 近未来の天体物理探査で期待されるような高解像度レンズ画像を対象としたシミュレーションデータを用いて,本手法の有効性を実証する。

From the nature of dark matter to the rate of expansion of our Universe, observations of distant galaxies distorted through strong gravitational lensing have the potential to answer some of the major open questions in astrophysics. Modeling galaxy-galaxy strong lensing observations presents a number of challenges as the exact configuration of both the background source and foreground lens galaxy is unknown. A timely call, prompted by a number of upcoming surveys anticipating high-resolution lensing images, demands methods that can efficiently model lenses at their full complexity. In this work, we introduce a method that uses continuous neural fields to non-parametrically reconstruct the complex morphology of a source galaxy while simultaneously inferring a distribution over foreground lens galaxy configurations. We demonstrate the efficacy of our method through experiments on simulated data targeting high-resolution lensing images similar to those anticipated in near-future astrophysical surveys.
翻訳日:2022-07-01 14:04:16 公開日:2022-06-29
# 3次元CTスキャンによるCNNモデルによるCovid-19認識と重症度推定

Ensemble CNN models for Covid-19 Recognition and Severity Perdition From 3D CT-scan ( http://arxiv.org/abs/2206.15431v1 )

ライセンス: Link先を確認
Fares Bougourzi, Cosimo Distante, Fadi Dornaika, Abdelmalik Taleb-Ahmed(参考訳) 2019年後半にCovid-19が登場して以来、Covid-19は人工知能(AI)コミュニティの活発な研究トピックとなっている。 最も興味深いAIトピックの1つは、医療画像のCovid-19分析である。 CT-Scan Imagingは、この病気の最も有益なツールである。 この研究は、Covid-19 DetectionとCovid-19 Severity Detection from the CT-Scansという2つ目のCOV19Dコンペティションの一部である。 CTスキャンからCovid-19を検出するために,Densenet-161モデルを用いた2次元畳み込みブロックのアンサンブルを提案した。 ここで、各2次元畳み込みブロックと密度ネット-161アーキテクチャを別々に訓練し、試験段階において、アンサンブルモデルはそれらの確率の平均に基づいている。 一方,我々はCovid-19重度検出のためのインセプションモデルを用いた畳み込み層群を提案する。 畳み込み層に加えて、Inception-v3、Inception-v4、Inception-Resnetの3種類が使用された。 提案手法は,第2回COV19Dコンペティションのバリデーションデータにおいて,Covid-19検出では11%,Covid-19重症度検出では16%,Covid-19重症度検出では16%,ベースラインアプローチでは2。

Since the appearance of Covid-19 in late 2019, Covid-19 has become an active research topic for the artificial intelligence (AI) community. One of the most interesting AI topics is Covid-19 analysis of medical imaging. CT-scan imaging is the most informative tool about this disease. This work is part of the 2nd COV19D competition, where two challenges are set: Covid-19 Detection and Covid-19 Severity Detection from the CT-scans. For Covid-19 detection from CT-scans, we proposed an ensemble of 2D Convolution blocks with Densenet-161 models. Here, each 2D convolutional block with Densenet-161 architecture is trained separately and in testing phase, the ensemble model is based on the average of their probabilities. On the other hand, we proposed an ensemble of Convolutional Layers with Inception models for Covid-19 severity detection. In addition to the Convolutional Layers, three Inception variants were used, namely Inception-v3, Inception-v4 and Inception-Resnet. Our proposed approaches outperformed the baseline approach in the validation data of the 2nd COV19D competition by 11% and 16% for Covid-19 detection and Covid-19 severity detection, respectively.
翻訳日:2022-07-01 14:03:48 公開日:2022-06-29
# エンティティ中心の問合せ言語モデルの空間効率表現

Space-Efficient Representation of Entity-centric Query Language Models ( http://arxiv.org/abs/2206.14885v1 )

ライセンス: Link先を確認
Christophe Van Gysel, Mirko Hannemann, Ernest Pusateri, Youssef Oualil, Ilya Oparin(参考訳) 仮想アシスタントは自動音声認識(asr)を使用して、ユーザーがエンティティ中心のクエリに答えるのを助ける。 しかし、しばしば変化する名前付きエンティティが多いため、音声によるエンティティ認識は難しい問題である。 さらに、ASRがオンデバイスで実行されると、認識可能なリソースが制約される。 本研究では,有限状態トランスデューサ(FST)フレームワークにおける言語モデルとしての確率文法の利用について検討する。 モデル生成時に非終端の明示的な拡張を回避し、FSTフレームワークと直接統合し、n-gramモデルに補完する確率文法に決定論的近似を導入する。 提案手法を使わずにn-gramモデルを用いた場合と比較して,長テールエンティティクエリの単語誤り率を10%改善する。

Virtual assistants make use of automatic speech recognition (ASR) to help users answer entity-centric queries. However, spoken entity recognition is a difficult problem, due to the large number of frequently-changing named entities. In addition, resources available for recognition are constrained when ASR is performed on-device. In this work, we investigate the use of probabilistic grammars as language models within the finite-state transducer (FST) framework. We introduce a deterministic approximation to probabilistic grammars that avoids the explicit expansion of non-terminals at model creation time, integrates directly with the FST framework, and is complementary to n-gram models. We obtain a 10% relative word error rate improvement on long tail entity queries compared to when a similarly-sized n-gram model is used without our method.
翻訳日:2022-07-01 13:38:12 公開日:2022-06-29
# 遅延フィードバックをもつ帯域に対するBest-of-Both-Worldsアルゴリズム

A Best-of-Both-Worlds Algorithm for Bandits with Delayed Feedback ( http://arxiv.org/abs/2206.14906v1 )

ライセンス: Link先を確認
Saeed Masoudian, Julian Zimmert, Yevgeny Seldin(参考訳) 本稿では,zimmert と seldin が提示するminimax の最適逆後悔保証に加えて,遅延が固定された確率的設定において近似的後悔保証を同時に達成する,逆多腕バンディットに対する zimmert と seldin [2020] のアルゴリズムの修正チューニングを提案する。 具体的には、逆後悔保証は$\mathcal{O}(\sqrt{TK} + \sqrt{dT\log K})$, where $T$ is the time horizon, $K$ is the number of arms, $d$ is the fixed delay, $d$ is the stochastic regret guarantee is $\mathcal{O}\left(\sum_{i \neq i^*}(\frac{1}{\Delta_i} \log(T) + \frac{d}{\Delta_{i}\log K}) + dK^{1/3}\log K\right)$である。 We also present an extension of the algorithm to the case of arbitrary delays, which is based on an oracle knowledge of the maximal delay $d_{max}$ and achieves $\mathcal{O}(\sqrt{TK} + \sqrt{D\log K} + d_{max}K^{1/3} \log K)$ regret in the adversarial regime, where $D$ is the total delay, and $\mathcal{O}\left(\sum_{i \neq i^*}(\frac{1}{\Delta_i} \log(T) + \frac{\sigma_{max}}{\Delta_{i}\log K}) + d_{max}K^{1/3}\log K\right)$ regret in the stochastic regime, where $\sigma_{max}$ is the maximal number of outstanding observations. 最後に, ジマートとセルディン [2020] のスキッピング技術によって達成された, 敵意設定における上界の後悔と一致する下界を示す。

We present a modified tuning of the algorithm of Zimmert and Seldin [2020] for adversarial multiarmed bandits with delayed feedback, which in addition to the minimax optimal adversarial regret guarantee shown by Zimmert and Seldin simultaneously achieves a near-optimal regret guarantee in the stochastic setting with fixed delays. Specifically, the adversarial regret guarantee is $\mathcal{O}(\sqrt{TK} + \sqrt{dT\log K})$, where $T$ is the time horizon, $K$ is the number of arms, and $d$ is the fixed delay, whereas the stochastic regret guarantee is $\mathcal{O}\left(\sum_{i \neq i^*}(\frac{1}{\Delta_i} \log(T) + \frac{d}{\Delta_{i}\log K}) + d K^{1/3}\log K\right)$, where $\Delta_i$ are the suboptimality gaps. We also present an extension of the algorithm to the case of arbitrary delays, which is based on an oracle knowledge of the maximal delay $d_{max}$ and achieves $\mathcal{O}(\sqrt{TK} + \sqrt{D\log K} + d_{max}K^{1/3} \log K)$ regret in the adversarial regime, where $D$ is the total delay, and $\mathcal{O}\left(\sum_{i \neq i^*}(\frac{1}{\Delta_i} \log(T) + \frac{\sigma_{max}}{\Delta_{i}\log K}) + d_{max}K^{1/3}\log K\right)$ regret in the stochastic regime, where $\sigma_{max}$ is the maximal number of outstanding observations. Finally, we present a lower bound that matches regret upper bound achieved by the skipping technique of Zimmert and Seldin [2020] in the adversarial setting.
翻訳日:2022-07-01 13:34:33 公開日:2022-06-29
# スタイルGANラテント空間のセマンティック展開

Semantic Unfolding of StyleGAN Latent Space ( http://arxiv.org/abs/2206.14892v1 )

ライセンス: Link先を確認
Mustafa Shukor, Xu Yao, Bharath Bushan Damodaran, Pierre Hellier(参考訳) generative adversarial networks (gans) は、入力された実画像に対応する潜在コードを反転および操作することにより、画像編集に驚くほど効率的であることが証明されている。 この編集性は、潜在空間の非絡み合いの性質から生じる。 本稿では,顔属性のばらつきが最適ではないことを明らかにし,線形属性分離による顔編集に欠陥があることを示す。 そこで我々は,統括による意味のゆがみを改善することを提案する。 本手法は,正規化フローを用いてプロキシ潜在表現を学習することで,より効率的な顔画像編集を行うことができることを示す。

Generative adversarial networks (GANs) have proven to be surprisingly efficient for image editing by inverting and manipulating the latent code corresponding to an input real image. This editing property emerges from the disentangled nature of the latent space. In this paper, we identify that the facial attribute disentanglement is not optimal, thus facial editing relying on linear attribute separation is flawed. We thus propose to improve semantic disentanglement with supervision. Our method consists in learning a proxy latent representation using normalizing flows, and we show that this leads to a more efficient space for face image editing.
翻訳日:2022-07-01 13:31:44 公開日:2022-06-29
# 半教師付き学習における非ランダム欠落ラベルについて

On Non-Random Missing Labels in Semi-Supervised Learning ( http://arxiv.org/abs/2206.14923v1 )

ライセンス: Link先を確認
Xinting Hu, Yulei Niu, Chunyan Miao, Xian-Sheng Hua, Hanwang Zhang(参考訳) Semi-Supervised Learning (SSL) は基本的に、ラベル付きデータとラベルなしデータの両方が同じクラス分布を共有するという、広く認識されているが単純でないミス・アット・ランダム(Missing Completely At Random, MNAR)よりも現実的で難しいラベル問題である。 非ランダム性の原因となる"クラス"の役割を見落としている既存のSSLソリューションとは異なり、例えば、ユーザは人気のあるクラスをラベル付けする傾向があり、"クラス"をSSLに明示的に組み込む。 私たちの方法は3倍です。 1) ラベルなしデータを活用し, バイアス付きラベル付きデータを用いて改良された分類器を訓練するクラスアウェア・プロペンサリティ(cap)を提案する。 2) 疑似ラベルデータを捨てる精度の高い低リコールモデルであるレアクラストレーニングを奨励するために,レアクラスにおける疑似ラベル割り当て閾値を動的に低下させる(または増加させる)クラスアウェアインプテーション(cai)を提案する。 3) 総じてCAPとCAIをCADR(Class-Aware Doubly Robust)推定器に統合し,非バイアスSSLモデルのトレーニングを行う。 様々なMNAR設定や短縮の下では、既存のベースラインを著しく上回るだけでなく、他のラベルバイアス除去SSLメソッドよりも優れている。 コードについては、https://github.com/JoyHuY1412/CADR-FixMatchを参照してください。

Semi-Supervised Learning (SSL) is fundamentally a missing label problem, in which the label Missing Not At Random (MNAR) problem is more realistic and challenging, compared to the widely-adopted yet naive Missing Completely At Random assumption where both labeled and unlabeled data share the same class distribution. Different from existing SSL solutions that overlook the role of "class" in causing the non-randomness, e.g., users are more likely to label popular classes, we explicitly incorporate "class" into SSL. Our method is three-fold: 1) We propose Class-Aware Propensity (CAP) that exploits the unlabeled data to train an improved classifier using the biased labeled data. 2) To encourage rare class training, whose model is low-recall but high-precision that discards too many pseudo-labeled data, we propose Class-Aware Imputation (CAI) that dynamically decreases (or increases) the pseudo-label assignment threshold for rare (or frequent) classes. 3) Overall, we integrate CAP and CAI into a Class-Aware Doubly Robust (CADR) estimator for training an unbiased SSL model. Under various MNAR settings and ablations, our method not only significantly outperforms existing baselines but also surpasses other label bias removal SSL methods. Please check our code at: https://github.com/JoyHuYY1412/CADR-FixMatch.
翻訳日:2022-07-01 13:31:34 公開日:2022-06-29
# 両世界のモデル選択のベスト

Best of Both Worlds Model Selection ( http://arxiv.org/abs/2206.14912v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Christoph Dann, Claudio Gentile(参考訳) ネストされた政策クラスの存在下でのバンディットシナリオにおけるモデル選択の問題について,高い確率的後悔保証を同時に得ることを目的として検討した。 提案手法では,各基本学習者に対して,保持可能あるいは保持しない可能性のある候補後悔バウンドが付与され,一方,メタアルゴリズムでは,基本学習者の候補後悔バウンドが保証に違反することが検出されるまでバランスを保ち続けるスケジュールに従って各ベース学習者を決定する。 上記のモデル選択基準と環境の(潜在的に良質な)性質を併用する能力とを特に用いた、慎重なミス特定テストを開発する。 我々は,CORRALアルゴリズムのモデル選択保証を逆向き環境に適用するが,特にネストした逆向き線形帯域の場合において,高い確率の後悔境界を達成するという付加的な利点がある。 さらに重要なことに、モデル選択の結果はギャップ仮定の下で確率環境でも同時に保持される。 これらは、(線形)バンディットのシナリオでモデル選択を行いながら、(確率的および敵対的)双方の保証を最大限に達成する最初の理論的結果である。

We study the problem of model selection in bandit scenarios in the presence of nested policy classes, with the goal of obtaining simultaneous adversarial and stochastic ("best of both worlds") high-probability regret guarantees. Our approach requires that each base learner comes with a candidate regret bound that may or may not hold, while our meta algorithm plays each base learner according to a schedule that keeps the base learner's candidate regret bounds balanced until they are detected to violate their guarantees. We develop careful mis-specification tests specifically designed to blend the above model selection criterion with the ability to leverage the (potentially benign) nature of the environment. We recover the model selection guarantees of the CORRAL algorithm for adversarial environments, but with the additional benefit of achieving high probability regret bounds, specifically in the case of nested adversarial linear bandits. More importantly, our model selection results also hold simultaneously in stochastic environments under gap assumptions. These are the first theoretical results that achieve best of both world (stochastic and adversarial) guarantees while performing model selection in (linear) bandit scenarios.
翻訳日:2022-07-01 13:11:13 公開日:2022-06-29
# ゲーテッド状態空間による長距離言語モデリング

Long Range Language Modeling via Gated State Spaces ( http://arxiv.org/abs/2206.13947v2 )

ライセンス: Link先を確認
Harsh Mehta, Ankit Gupta, Ashok Cutkosky, Behnam Neyshabur(参考訳) 状態空間モデルは、特にシーケンス分類タスクにおいて、長距離依存のモデリングに有効であることが示されている。 本研究は,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点を当てる。 ゲートアクティベーション関数の有効性に関する最近の進歩に基づき、Gated State Space (GSS) と呼ばれる新しいレイヤを提案し、TPU上のS4の対角線(すなわちDSS)よりもはるかに高速で、よく調整されたTransformerベースのベースラインとかなり競合し、実装が容易で、より長い入力に対してゼロショットの一般化を示すことを示す。 最後に,局所的な依存関係をモデル化するための自己意識の活用により,GASの性能をさらに向上させることを示す。

State space models have shown to be effective at modeling long range dependencies, specially on sequence classification tasks. In this work we focus on autoregressive sequence modeling over English books, Github source code and ArXiv mathematics articles. Based on recent developments around the effectiveness of gated activation functions, we propose a new layer named Gated State Space (GSS) and show that it trains significantly faster than the diagonal version of S4 (i.e. DSS) on TPUs, is fairly competitive with several well-tuned Transformer-based baselines and exhibits zero-shot generalization to longer inputs while being straightforward to implement. Finally, we show that leveraging self-attention to model local dependencies improves the performance of GSS even further.
翻訳日:2022-07-01 11:37:05 公開日:2022-06-29
# (参考訳) 自動音声認識のためのベンガル音声データセット

Bengali Common Voice Speech Dataset for Automatic Speech Recognition ( http://arxiv.org/abs/2206.14053v2 )

ライセンス: CC BY-SA 4.0
Samiul Alam, Asif Sushmit, Zaowad Abdullah, Shahrin Nakkhatra, MD. Nazmuddoha Ansary, Syed Mobassir Hossen, Sazia Morshed Mehnaz, Tahsin Reasat, Ahmed Imtiaz Humayun(参考訳) ベンガル語は世界でも有数の言語であり、3億人を超える話者がいる。 その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットの欠如のために妨げられている。 そこで我々は,文レベル自動音声認識コーパスであるBengali Common Voice Speech Datasetをクラウドソーシングした。 Mozilla Common Voiceプラットフォームで収集されたデータセットは、現在進行中のキャンペーンの一部であり、2ヶ月で400時間を超えるデータの収集につながっており、急速に成長している。 分析の結果,既存のオープンソースベンガル音声データセットであるOpenSLR Bengali ASRデータセットと比較して,話者,音素,環境の多様性が高いことがわかった。 我々は、データセットから得られた知見を示し、将来のバージョンで対処すべき重要な言語的課題について論じる。 さらに、いくつかの自動音声認識(ASR)アルゴリズムの現在の性能を報告し、将来の研究のためのベンチマークを設定した。

Bengali is one of the most spoken languages in the world with over 300 million speakers globally. Despite its popularity, research into the development of Bengali speech recognition systems is hindered due to the lack of diverse open-source datasets. As a way forward, we have crowdsourced the Bengali Common Voice Speech Dataset, which is a sentence-level automatic speech recognition corpus. Collected on the Mozilla Common Voice platform, the dataset is part of an ongoing campaign that has led to the collection of over 400 hours of data in 2 months and is growing rapidly. Our analysis shows that this dataset has more speaker, phoneme, and environmental diversity compared to the OpenSLR Bengali ASR dataset, the largest existing open-source Bengali speech dataset. We present insights obtained from the dataset and discuss key linguistic challenges that need to be addressed in future versions. Additionally, we report the current performance of a few Automatic Speech Recognition (ASR) algorithms and set a benchmark for future research.
翻訳日:2022-07-01 09:59:17 公開日:2022-06-29
# (参考訳) 多変量時系列の固有異常検出

Intrinsic Anomaly Detection for Multi-Variate Time Series ( http://arxiv.org/abs/2206.14342v1 )

ライセンス: CC BY 4.0
Stephan Rabanser, Tim Januschowski, Kashif Rasul, Oliver Borchert, Richard Kurle, Jan Gasthaus, Michael Bohlke-Schneider, Nicolas Papernot, Valentin Flunkert(参考訳) 本稿では,多変量時系列における異常検出問題として,本質的異常検出法を提案する。 devopsからiotまで、さまざまな実用的なシナリオで見られるので、周囲の環境の影響下で動作するシステムの障害を認識したいのです。 内在的な異常とは、環境を表す時系列と、その環境に置かれたシステムの内部状態を表す時系列との間の機能依存構造の変化である。 我々は,この問題を定式化し,未熟な公開データセットと新たな目的構築データセットを提供し,本質的異常検出を行う手法を提案する。 これらは、システム状態の期待される変化と予期しない変化、すなわち環境の影響から逸脱したシステムの変化を区別できない既存の異常検出手法の欠点に対処する。 私たちの最も有望なアプローチは完全に教師なしで、敵対的学習と時系列表現学習を組み合わせることで、ラベルスパーシティや主観性といった問題に対処し、悪名高い問題のある異常検出データセットのナビゲートと改善を可能にします。

We introduce a novel, practically relevant variation of the anomaly detection problem in multi-variate time series: intrinsic anomaly detection. It appears in diverse practical scenarios ranging from DevOps to IoT, where we want to recognize failures of a system that operates under the influence of a surrounding environment. Intrinsic anomalies are changes in the functional dependency structure between time series that represent an environment and time series that represent the internal state of a system that is placed in said environment. We formalize this problem, provide under-studied public and new purpose-built data sets for it, and present methods that handle intrinsic anomaly detection. These address the short-coming of existing anomaly detection methods that cannot differentiate between expected changes in the system's state and unexpected ones, i.e., changes in the system that deviate from the environment's influence. Our most promising approach is fully unsupervised and combines adversarial learning and time series representation learning, thereby addressing problems such as label sparsity and subjectivity, while allowing to navigate and improve notoriously problematic anomaly detection data sets.
翻訳日:2022-07-01 05:33:40 公開日:2022-06-29
# (参考訳) 二次予測とは何か? SQuAD-v2.0による質問応答の探索

What Can Secondary Predictions Tell Us? An Exploration on Question-Answering with SQuAD-v2.0 ( http://arxiv.org/abs/2206.14348v1 )

ライセンス: CC BY 4.0
Michael Kamfonas and Gabriel Alon(参考訳) 自然言語処理、特に質問応答タスクのパフォーマンスは、モデル\の最も自信のある(第一級)予測と黄金の答え(基礎的真実)を比較することで測定される。 私たちは、失敗した例であっても、モデルがどれくらい近いのかを定量化し、正しい答えを予測するのに役立ちます。 我々は、例の黄金のランク(gr)を、基礎的真理と正確に一致する最も自信のある予測のランクと定義し、なぜそのような一致が常に存在するかを示す。 私たちが分析した16のトランスフォーマーモデルでは、二次予測空間のゴールデン回答の大部分は、トップランクに非常に近い位置をホバリングします。 二次予測は、信頼確率の下位順で0より上位に位置するものを指す。 我々は、GRがいかにして質問を分類し、その難易度の範囲を可視化するのに使えるかを実証する。 実験セット全体に対する新しい集計統計値(golden rank interpolated median (grim) と呼ばれる)を導出し、モデルによってなされる最上位の選択に失敗した予測の近さを定量化する。 直感を発達させ、これらのメトリクスの適用性を探るため、SQuAD-2(Stanford Question Answering Dataset)とHugging Faceハブからの人気のトランスフォーマーモデルを使用します。 まず,GRIMがF1とEMスコアと直接相関していないことを示す。 次に、様々なトランスフォーマーアーキテクチャのスコアを計算・可視化し、失敗予測のクラスタリングによるエラー解析への適用性を調査し、emやf1スコアなどの他のトレーニング診断とどのように関係しているかを比較した。 最後に、これらのメトリクスのデータ収集の拡大や、敵のトレーニングでの利用の可能性など、さまざまな研究目標を提案します。

Performance in natural language processing, and specifically for the question-answer task, is typically measured by comparing a model\'s most confident (primary) prediction to golden answers (the ground truth). We are making the case that it is also useful to quantify how close a model came to predicting a correct answer even for examples that failed. We define the Golden Rank (GR) of an example as the rank of its most confident prediction that exactly matches a ground truth, and show why such a match always exists. For the 16 transformer models we analyzed, the majority of exactly matched golden answers in secondary prediction space hover very close to the top rank. We refer to secondary predictions as those ranking above 0 in descending confidence probability order. We demonstrate how the GR can be used to classify questions and visualize their spectrum of difficulty, from persistent near successes to persistent extreme failures. We derive a new aggregate statistic over entire test sets, named the Golden Rank Interpolated Median (GRIM) that quantifies the proximity of failed predictions to the top choice made by the model. To develop some intuition and explore the applicability of these metrics we use the Stanford Question Answering Dataset (SQuAD-2) and a few popular transformer models from the Hugging Face hub. We first demonstrate that the GRIM is not directly correlated with the F1 and exact match (EM) scores. We then calculate and visualize these scores for various transformer architectures, probe their applicability in error analysis by clustering failed predictions, and compare how they relate to other training diagnostics such as the EM and F1 scores. We finally suggest various research goals, such as broadening data collection for these metrics and their possible use in adversarial training.
翻訳日:2022-07-01 05:12:11 公開日:2022-06-29
# (参考訳) ロバストおよびスパース最適化のためのハードネスとアルゴリズム

Hardness and Algorithms for Robust and Sparse Optimization ( http://arxiv.org/abs/2206.14354v1 )

ライセンス: CC BY 4.0
Eric Price, Sandeep Silwal, Samson Zhou(参考訳) スパース線形回帰やロバスト線形回帰といったスパース最適化問題のアルゴリズムと限界について検討する。 スパース線形回帰問題の目標は、少数の重要な特徴を特定することであるが、ロバストな線形回帰問題の目標は、少数の誤った測定値を特定することである。 特に、スパース線形回帰問題は、入力行列 $a\in\mathbb{r}^{n\times d}$ と対象ベクトル $b\in\mathbb{r}^n$ に対して、$k$-スパースベクトル $x\in\mathbb{r}^d$ を求める一方、ロバスト線形回帰問題は、最大 $k$ 行を無視するセット $s$ と $\|(ax-b)_s\|_2$ を最小化するベクトル $x$ を求める。 まず, [owz15] の作用に基づくロバスト回帰構築のための近似値のnp-hardnessであるbicriteria を示す。 さらに、最小重量$k$-clique予想からの還元により、頑健な回帰のきめ細かい硬さを示す。 正の面では、任意の精度の加算誤差を達成するロバスト回帰アルゴリズムを与え、細粒度ハードネス結果から下限と密接に一致するランタイムと、類似したランタイムでスパース回帰を行うアルゴリズムを使用する。 上界と下界の両方が、ロバストな線形回帰からスパース回帰への一般的な還元に依存している。 我々のアルゴリズムは3SUM問題にインスパイアされたもので、近傍のデータ構造に近く、スパース最適化問題の解法には独立した関心を持つ可能性がある。 例えば、我々の技術は、十分に研究されたスパースPCA問題にも利用できることを示した。

We explore algorithms and limitations for sparse optimization problems such as sparse linear regression and robust linear regression. The goal of the sparse linear regression problem is to identify a small number of key features, while the goal of the robust linear regression problem is to identify a small number of erroneous measurements. Specifically, the sparse linear regression problem seeks a $k$-sparse vector $x\in\mathbb{R}^d$ to minimize $\|Ax-b\|_2$, given an input matrix $A\in\mathbb{R}^{n\times d}$ and a target vector $b\in\mathbb{R}^n$, while the robust linear regression problem seeks a set $S$ that ignores at most $k$ rows and a vector $x$ to minimize $\|(Ax-b)_S\|_2$. We first show bicriteria, NP-hardness of approximation for robust regression building on the work of [OWZ15] which implies a similar result for sparse regression. We further show fine-grained hardness of robust regression through a reduction from the minimum-weight $k$-clique conjecture. On the positive side, we give an algorithm for robust regression that achieves arbitrarily accurate additive error and uses runtime that closely matches the lower bound from the fine-grained hardness result, as well as an algorithm for sparse regression with similar runtime. Both our upper and lower bounds rely on a general reduction from robust linear regression to sparse regression that we introduce. Our algorithms, inspired by the 3SUM problem, use approximate nearest neighbor data structures and may be of independent interest for solving sparse optimization problems. For instance, we demonstrate that our techniques can also be used for the well-studied sparse PCA problem.
翻訳日:2022-07-01 04:50:39 公開日:2022-06-29
# (参考訳) Twitterのデータによる新型コロナウイルス関連治療薬の承認とオフラベル使用の認識の理解

Using Twitter Data to Understand Public Perceptions of Approved versus Off-label Use for COVID-19-related Medications ( http://arxiv.org/abs/2206.14358v1 )

ライセンス: CC BY 4.0
Yining Hua, Hang Jiang, Shixu Lin, Jie Yang, Joseph M. Plasek, David W. Bates, Li Zhou(参考訳) 安全使用の監視や誤報の対処には,未確認治療の緊急使用に関する公衆の言論を理解することが不可欠である。 私たちは自然言語処理(nlp)ベースのパイプラインを開発し、twitter上でcovid-19関連薬物に対する一般の認識とスタンスを理解しました。 この振り返り調査では、2020年1月29日から2021年11月30日までの米国在住のツイートが609,189件あった。 1)ヒドロキシクロロキンとイベルメクチン、逸話的証拠のある薬物療法 2) molnupiravir と remdesivir はfdaが承認した患者に対する治療オプションである。 time-trend分析は、人気と関連するイベントを理解するのに使われた。 内容と人口統計分析を行い、各薬物に対する人々の姿勢の潜在的根拠を探究した。 時間軸分析の結果、ヒドロキシクロロキンとイヴェルメクチンはモルヌピラビルやレムデシビルよりも多くの議論を受けた。 ヒドロキシクロロキンとイヴェルメクチンは、陰謀論、聞き取り、有名人の影響など、非常に政治的であった。 共和党は民主党よりもヒドロキシクロロキン(+55%)とイヴェルメクチン(+30%)を支持する傾向が高かった。 医療歴のある人は一般住民よりもヒドロキシクロロキン (+7%) に反対する傾向があり、対照的に一般人口はイヴェルメクチン (+14%) を支持する傾向にあった。 すべてのデータ、コード、モデルをhttps://github.com/ningkko/COVID-drug.comで公開しています。

Understanding public discourse on emergency use of unproven therapeutics is essential to monitor safe use and combat misinformation. We developed a natural language processing (NLP)-based pipeline to understand public perceptions of and stances on COVID-19-related drugs on Twitter across time. This retrospective study included 609,189 US-based tweets between January 29th, 2020 and November 30th, 2021 on four drugs that gained wide public attention during the COVID-19 pandemic: 1) Hydroxychloroquine and Ivermectin, drug therapies with anecdotal evidence; and 2) Molnupiravir and Remdesivir, FDA-approved treatment options for eligible patients. Time-trend analysis was used to understand the popularity and related events. Content and demographic analyses were conducted to explore potential rationales of people's stances on each drug. Time-trend analysis revealed that Hydroxychloroquine and Ivermectin received much more discussion than Molnupiravir and Remdesivir, particularly during COVID-19 surges. Hydroxychloroquine and Ivermectin were highly politicized, related to conspiracy theories, hearsay, celebrity effects, etc. The distribution of stance between the two major US political parties was significantly different (p<0.001); Republicans were much more likely to support Hydroxychloroquine (+55%) and Ivermectin (+30%) than Democrats. People with healthcare backgrounds tended to oppose Hydroxychloroquine (+7%) more than the general population; in contrast, the general population was more likely to support Ivermectin (+14%). We make all the data, code, and models available at https://github.com/ningkko/COVID-drug.
翻訳日:2022-07-01 04:16:00 公開日:2022-06-29
# (参考訳) マルチインスタンステキスト検索用EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022 ( http://arxiv.org/abs/2206.14381v1 )

ライセンス: CC BY 4.0
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim(参考訳) 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。 まず、文を動詞と名詞に対応する意味的役割にパースし、その後、意味的役割の文脈化されたビデオ特徴と、複数の埋め込み空間における三重項損失によるテキスト特徴を利用する。 本手法は, 意味的類似性が高い正規化分散累積ゲイン(nDCG)において, 強基底線を超越する。 私たちの応募はndcgで3位、mapで4位です。

In this report, we present our approach for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022. We first parse sentences into semantic roles corresponding to verbs and nouns; then utilize self-attentions to exploit semantic role contextualized video features along with textual features via triplet losses in multiple embedding spaces. Our method overpasses the strong baseline in normalized Discounted Cumulative Gain (nDCG), which is more valuable for semantic similarity. Our submission is ranked 3rd for nDCG and ranked 4th for mAP.
翻訳日:2022-07-01 03:58:31 公開日:2022-06-29
# (参考訳) 異常検出のためのフレーミングアルゴリズムリコース

Framing Algorithmic Recourse for Anomaly Detection ( http://arxiv.org/abs/2206.14384v1 )

ライセンス: CC BY 4.0
Debanjan Datta, Feng Chen, Naren Ramakrishnan(参考訳) アルゴリズムリコースの問題は、意思決定支援システムからより解釈可能で、透明で、堅牢な結果をもたらすために、教師付き機械学習モデルで研究されている。 未探索領域は、異常検出のためのアルゴリズムリコース、特に離散的な特徴値のみを持つ表データである。 ここで問題となるのは、基礎となる異常検出モデルによって正常と見なされる反事実の集合を示し、アプリケーションがこの情報を説明目的に利用したり、対策を推奨したりすることである。 表データ(carat)の異常に対するアルゴリズム的リコースをコンテキスト保存するアプローチを提案する。これは効果的でスケーラブルで,基盤となる異常検出モデルとは無関係である。 CARATはトランスフォーマーベースのエンコーダデコーダモデルを用いて、低い確率で特徴を見つけることで異常を説明する。 その後、異常なインスタンスの特徴の全体的なコンテキストを使用して、強調された特徴を変更して意味的に一貫性のある反事実を生成する。 大規模な実験はCARATの有効性を示すのに役立つ。

The problem of algorithmic recourse has been explored for supervised machine learning models, to provide more interpretable, transparent and robust outcomes from decision support systems. An unexplored area is that of algorithmic recourse for anomaly detection, specifically for tabular data with only discrete feature values. Here the problem is to present a set of counterfactuals that are deemed normal by the underlying anomaly detection model so that applications can utilize this information for explanation purposes or to recommend countermeasures. We present an approach -- Context preserving Algorithmic Recourse for Anomalies in Tabular data (CARAT), that is effective, scalable, and agnostic to the underlying anomaly detection model. CARAT uses a transformer based encoder-decoder model to explain an anomaly by finding features with low likelihood. Subsequently semantically coherent counterfactuals are generated by modifying the highlighted features, using the overall context of features in the anomalous instance(s). Extensive experiments help demonstrate the efficacy of CARAT.
翻訳日:2022-07-01 03:54:02 公開日:2022-06-29
# (参考訳) 医療における公正な機械学習:レビュー

Fair Machine Learning in Healthcare: A Review ( http://arxiv.org/abs/2206.14397v1 )

ライセンス: CC BY 4.0
Qizhang Feng, Mengnan Du, Na Zou, Xia Hu(参考訳) 医療データのデジタル化とコンピューティングパワーの発達により、機械学習の手法は医療分野でますます使われるようになっている。 医療のための機械学習において公平性の問題が特定されており、特定のグループの限られた医療資源や過剰な健康リスクが不公平に割り当てられている。 そのため, 健康問題への対処は近年, 医療コミュニティから注目が集まっている。 しかし、医療のための機械学習と機械学習における公平性の交点はまだ未検討のままである。 本稿では,公平性問題を明らかにし,バイアスを要約し,緩和手法を整理し,今後の課題を指摘することで橋梁を構築する。

Benefiting from the digitization of healthcare data and the development of computing power, machine learning methods are increasingly used in the healthcare domain. Fairness problems have been identified in machine learning for healthcare, resulting in an unfair allocation of limited healthcare resources or excessive health risks for certain groups. Therefore, addressing the fairness problems has recently attracted increasing attention from the healthcare community. However, the intersection of machine learning for healthcare and fairness in machine learning remains understudied. In this review, we build the bridge by exposing fairness problems, summarizing possible biases, sorting out mitigation methods and pointing out challenges along with opportunities for the future.
翻訳日:2022-07-01 03:33:40 公開日:2022-06-29
# (参考訳) C2FTrans:医療画像分割用粗大変換器

C2FTrans: Coarse-to-Fine Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2206.14409v1 )

ライセンス: CC BY 4.0
Xian Lin, Zengqiang Yan, Li Yu, and Kwang-Ting Cheng(参考訳) 深層学習に基づく医用画像解析の最も一般的なアーキテクチャである畳み込みニューラルネットワーク(cnn)は、内在的な帰納バイアスと不適切な受容領域によって機能的に制限されている。 この問題に対処するために生まれたtransformerは、自然言語処理とコンピュータビジョンに爆発的な注目を集めている。 しかし,近年の医用画像分割手法では,バニラトランスをcnn方式の補助モジュールとして直接適用しており,トランスの剛性パッチ分割方式により細部構造が著しく損なわれた。 この問題に対処するために,医療画像分割を粗大な手順として定式化する新しいマルチスケールアーキテクチャであるC2FTransを提案する。 C2FTransは主に、CNNにおける局所的文脈類似性に対処する大規模グローバルトランス (CGT) と、トランスにおける厳密なパッチ分割による境界不確かさを克服する境界対応ローカルトランス (BLT) で構成される。 具体的には、cgtは3つの異なる小規模機能マップにまたがるグローバル依存性を構築し、許容可能な計算コストでリッチなグローバルセマンティクス機能を得る一方で、bltはエントロピーの指導の下で境界付近の窓を適応的に生成し、計算複雑性を低減し、大規模機能マップに基づく詳細損失を最小化する。 3つの公開データセットの大規模な実験結果から、パラメータが少なく、FLOPが低い最先端CNNおよびトランスフォーマーベースの手法に対して、C2FTransの優れた性能を示す。 我々は、C2FTransの設計により、医療画像セグメンテーションのための効率的で軽量なトランスフォーマーの開発がさらに促進されると考えている。 本論文のソースコードはhttps://github.com/xianlin7/C2FTransで公開されている。

Convolutional neural networks (CNN), the most prevailing architecture for deep-learning based medical image analysis, are still functionally limited by their intrinsic inductive biases and inadequate receptive fields. Transformer, born to address this issue, has drawn explosive attention in natural language processing and computer vision due to its remarkable ability in capturing long-range dependency. However, most recent transformer-based methods for medical image segmentation directly apply vanilla transformers as an auxiliary module in CNN-based methods, resulting in severe detail loss due to the rigid patch partitioning scheme in transformers. To address this problem, we propose C2FTrans, a novel multi-scale architecture that formulates medical image segmentation as a coarse-to-fine procedure. C2FTrans mainly consists of a cross-scale global transformer (CGT) which addresses local contextual similarity in CNN and a boundary-aware local transformer (BLT) which overcomes boundary uncertainty brought by rigid patch partitioning in transformers. Specifically, CGT builds global dependency across three different small-scale feature maps to obtain rich global semantic features with an acceptable computational cost, while BLT captures mid-range dependency by adaptively generating windows around boundaries under the guidance of entropy to reduce computational complexity and minimize detail loss based on large-scale feature maps. Extensive experimental results on three public datasets demonstrate the superior performance of C2FTrans against state-of-the-art CNN-based and transformer-based methods with fewer parameters and lower FLOPs. We believe the design of C2FTrans would further inspire future work on developing efficient and lightweight transformers for medical image segmentation. The source code of this paper is publicly available at https://github.com/xianlin7/C2FTrans.
翻訳日:2022-07-01 03:06:12 公開日:2022-06-29
# (参考訳) light the better:adaptive pruningによる医用画像セグメンテーションにおけるトランスフォーマーの再考

The Lighter The Better: Rethinking Transformers in Medical Image Segmentation Through Adaptive Pruning ( http://arxiv.org/abs/2206.14413v1 )

ライセンス: CC BY 4.0
Xian Lin, Li Yu, Kwang-Ting Cheng, and Zengqiang Yan(参考訳) ビジョントランスフォーマーは最近、様々なコンピュータビジョンタスクにおける顕著なパフォーマンスのために、医療画像解析の分野で新しい波を打った。 しかし、最近のハイブリッド/トランスフォーマーベースのアプローチは、おそろしい計算複雑性、高いトレーニングコスト、冗長な依存関係の問題を無視しながら、長距離依存性をキャプチャするトランスフォーマーの利点に重点を置いている。 本稿では,医療画像セグメンテーションのための変換器に適応型プルーニングを適用し,軽量で効果的なハイブリッドネットワークAPFormerを提案する。 我々の知る限り、医療画像解析タスクのためのトランスフォーマープルーニングに関する最初の研究である。 APFormerの主な特徴は、依存性の収束を改善するための自己教師型自己注意(SSA)、位置情報の学習を促進するためのガウシアン・プライオリティな位置埋め込み(GRPE)、冗長な計算や知覚情報を排除するための適応プルーニングである。 具体的には、SSAとGRPEは、よく収束した依存性分布とガウス熱マップ分布を自己アテンションと位置埋め込みの事前知識として別々に考慮し、変圧器の訓練を楽にし、次の刈り取り作業のためのしっかりとした基礎を築いた。 次に、複雑化と性能改善の両面においてゲート制御パラメータを調整することにより、クエリワイドおよび依存性ワイドの両方の適応トランスフォーマープルーニングを行う。 広く使われている2つのデータセットに関する広範囲な実験は、より少ないパラメータと低いgflopsの最先端メソッドに対するapformerの顕著なセグメンテーション性能を示している。 さらに,アダプティブプルーニングがプラグnプレイモジュールとして機能し,他のハイブリッド/トランスフォーマー方式の性能向上が期待できることを示す。 コードはhttps://github.com/xianlin7/apformerで入手できる。

Vision transformers have recently set off a new wave in the field of medical image analysis due to their remarkable performance on various computer vision tasks. However, recent hybrid-/transformer-based approaches mainly focus on the benefits of transformers in capturing long-range dependency while ignoring the issues of their daunting computational complexity, high training costs, and redundant dependency. In this paper, we propose to employ adaptive pruning to transformers for medical image segmentation and propose a lightweight and effective hybrid network APFormer. To our best knowledge, this is the first work on transformer pruning for medical image analysis tasks. The key features of APFormer mainly are self-supervised self-attention (SSA) to improve the convergence of dependency establishment, Gaussian-prior relative position embedding (GRPE) to foster the learning of position information, and adaptive pruning to eliminate redundant computations and perception information. Specifically, SSA and GRPE consider the well-converged dependency distribution and the Gaussian heatmap distribution separately as the prior knowledge of self-attention and position embedding to ease the training of transformers and lay a solid foundation for the following pruning operation. Then, adaptive transformer pruning, both query-wise and dependency-wise, is performed by adjusting the gate control parameters for both complexity reduction and performance improvement. Extensive experiments on two widely-used datasets demonstrate the prominent segmentation performance of APFormer against the state-of-the-art methods with much fewer parameters and lower GFLOPs. More importantly, we prove, through ablation studies, that adaptive pruning can work as a plug-n-play module for performance improvement on other hybrid-/transformer-based methods. Code is available at https://github.com/xianlin7/APFormer.
翻訳日:2022-07-01 02:47:45 公開日:2022-06-29
# (参考訳) 周期的カーネル適応型メトロポリス

Cyclical Kernel Adaptive Metropolis ( http://arxiv.org/abs/2206.14421v1 )

ライセンス: CC BY 4.0
Jianan Canal Li, Yimeng Zeng, Wentao Guo(参考訳) 本稿では,cKAM,cKAM,Cernel Adaptive Metropolisを提案する。 人工双モード分布では,既存の適応型メトロポリス型アルゴリズムは真の後方分布に収束しないことを示す。 これはアダプティブ・サンプラーがチェーンの過去の履歴を用いて局所的/グローバル的共分散構造を推定し、適応的アルゴリズムが局所的モードに捕捉されるためである。 我々は,cKAMが後部分布の探索を奨励し,サンプルが適応手法の高性能を維持しつつ,局所モードから脱出できることを実証した。

We propose cKAM, cyclical Kernel Adaptive Metropolis, which incorporates a cyclical stepsize scheme to allow control for exploration and sampling. We show that on a crafted bimodal distribution, existing Adaptive Metropolis type algorithms would fail to converge to the true posterior distribution. We point out that this is because adaptive samplers estimates the local/global covariance structure using past history of the chain, which will lead to adaptive algorithms be trapped in a local mode. We demonstrate that cKAM encourages exploration of the posterior distribution and allows the sampler to escape from a local mode, while maintaining the high performance of adaptive methods.
翻訳日:2022-07-01 02:28:53 公開日:2022-06-29
# (参考訳) MaNi: Nuclei Cross-Domain Unsupervised Segmentation のための相互情報の最大化

MaNi: Maximizing Mutual Information for Nuclei Cross-Domain Unsupervised Segmentation ( http://arxiv.org/abs/2206.14437v1 )

ライセンス: CC BY 4.0
Yash Sharma, Sana Syed, Donald E. Brown(参考訳) 本研究では,クロスドメイン核セグメンテーションのための相互情報(mi)に基づく非教師なし領域適応(uda)手法を提案する。 核は、様々な種類のがんの構造と外観に大きく異なり、あるがんタイプで訓練し、別のがんタイプでテストすると、ディープラーニングモデルの性能が低下する。 このドメインシフトは、正確なセグメンテーションと核の定量化が、患者の診断と予後、および新しいがんのピクセルレベルでのアノテート核に対する重要な組織学的タスクであるため、さらに重要になる。 この問題に対処するために,ラベル付きソース癌型データと未ラベルのターゲット癌型データとのMIを最大化し,ドメイン間で核分割知識を伝達する。 我々はJensen-Shanon分散境界を使い、MI最大化のために正のペア当たりの負のペアを1つだけ必要とします。 複数のモデリングフレームワークと20以上のがん型ドメインシフトからなるデータセットのセットアップを評価し、競合性能を実証する。 最近提案されたアプローチはすべてドメイン適応を改善するための複数のコンポーネントで構成されていますが、提案したモジュールは軽量で、他のメソッドに簡単に組み込むことができます(実装: https://github.com/YashSharma/MaNi )。

In this work, we propose a mutual information (MI) based unsupervised domain adaptation (UDA) method for the cross-domain nuclei segmentation. Nuclei vary substantially in structure and appearances across different cancer types, leading to a drop in performance of deep learning models when trained on one cancer type and tested on another. This domain shift becomes even more critical as accurate segmentation and quantification of nuclei is an essential histopathology task for the diagnosis/ prognosis of patients and annotating nuclei at the pixel level for new cancer types demands extensive effort by medical experts. To address this problem, we maximize the MI between labeled source cancer type data and unlabeled target cancer type data for transferring nuclei segmentation knowledge across domains. We use the Jensen-Shanon divergence bound, requiring only one negative pair per positive pair for MI maximization. We evaluate our set-up for multiple modeling frameworks and on different datasets comprising of over 20 cancer-type domain shifts and demonstrate competitive performance. All the recently proposed approaches consist of multiple components for improving the domain adaptation, whereas our proposed module is light and can be easily incorporated into other methods (Implementation: https://github.com/YashSharma/MaNi ).
翻訳日:2022-07-01 02:14:39 公開日:2022-06-29
# (参考訳) イテレーティブアテンションブロックを用いた条件付き人軌道予測

Conditioned Human Trajectory Prediction using Iterative Attention Blocks ( http://arxiv.org/abs/2206.14442v1 )

ライセンス: CC BY 4.0
Aleksey Postnikov, Aleksander Gamayunov, Gonzalo Ferrer(参考訳) 人間の動きの予測は、ロボット工学や監視など、社会環境を理解するための鍵である。 本研究では, 歩行者の位置予測を目的とした, 簡易かつ効果的な歩行者軌道予測モデルを提案する。 我々のモデルは、複数のアテンションブロックとトランスフォーマーのレイヤーを反復的に実行し、予測を改善する環境における重要な特徴をキャプチャできるニューラルネットワークアーキテクチャである。 本稿では,ソーシャルマスク,動的モデル,ソーシャルプール層,複雑なグラフ構造を明示的に導入しなければ,somaモデルと同等の結果が得られることを示す。 我々は,somaモデルと同様に,ユニモーダル予測メトリクス ade と fde を用いた公開および拡張可能なデータセット上で実施する結果を報告する。

Human motion prediction is key to understand social environments, with direct applications in robotics, surveillance, etc. We present a simple yet effective pedestrian trajectory prediction model aimed at pedestrians positions prediction in urban-like environments conditioned by the environment: map and surround agents. Our model is a neural-based architecture that can run several layers of attention blocks and transformers in an iterative sequential fashion, allowing to capture the important features in the environment that improve prediction. We show that without explicit introduction of social masks, dynamical models, social pooling layers, or complicated graph-like structures, it is possible to produce on par results with SoTA models, which makes our approach easily extendable and configurable, depending on the data available. We report results performing similarly with SoTA models on publicly available and extensible-used datasets with unimodal prediction metrics ADE and FDE.
翻訳日:2022-07-01 02:04:01 公開日:2022-06-29
# (参考訳) 形状辞書からのテスト時間適応による医用画像分割における単一領域一般化

Single-domain Generalization in Medical Image Segmentation via Test-time Adaptation from Shape Dictionary ( http://arxiv.org/abs/2206.14467v1 )

ライセンス: CC BY 4.0
Quande Liu, Cheng Chen, Qi Dou, Pheng-Ann Heng(参考訳) ドメインの一般化は通常、モデル学習のために複数のソースドメインのデータを必要とする。 しかし、そのような強い仮定は、特にデータ共有が重要であり、プライバシーの問題により時々禁止される医療分野において、常に成り立つわけではない。 本稿では,1つのソースドメインのみで最悪のシナリオ下でモデルを学習し,異なる未確認対象ドメインに直接一般化する,重要な単一ドメイン一般化問題について考察する。 本稿では,この課題に対処するための新しい手法として,領域をまたがって不変なセグメンテーションの意味的形状先行情報を抽出・統合し,分散シフト下でのセグメンテーションを容易にする手法を提案する。 さらに, モデル一般化性を向上させるために, 両立正則化を伴うテスト時間適応戦略を考案し, これらの形状の動的組込みを促進する。 2つの医用画像セグメンテーションタスクに対する広範囲な実験は、最悪のシナリオ下でのドメインの一般化に対処する最先端のアプローチよりも、さまざまな未確認領域にまたがる手法の一貫性のある改善を実証している。

Domain generalization typically requires data from multiple source domains for model learning. However, such strong assumption may not always hold in practice, especially in medical field where the data sharing is highly concerned and sometimes prohibitive due to privacy issue. This paper studies the important yet challenging single domain generalization problem, in which a model is learned under the worst-case scenario with only one source domain to directly generalize to different unseen target domains. We present a novel approach to address this problem in medical image segmentation, which extracts and integrates the semantic shape prior information of segmentation that are invariant across domains and can be well-captured even from single domain data to facilitate segmentation under distribution shifts. Besides, a test-time adaptation strategy with dual-consistency regularization is further devised to promote dynamic incorporation of these shape priors under each unseen domain to improve model generalizability. Extensive experiments on two medical image segmentation tasks demonstrate the consistent improvements of our method across various unseen domains, as well as its superiority over state-of-the-art approaches in addressing domain generalization under the worst-case scenario.
翻訳日:2022-07-01 01:53:32 公開日:2022-06-29
# (参考訳) プッシュフォワード生成モデルはマルチモーダル分布に適合するか?

Can Push-forward Generative Models Fit Multimodal Distributions? ( http://arxiv.org/abs/2206.14476v1 )

ライセンス: CC BY 4.0
Antoine Salmona, Valentin de Bortoli, Julie Delon, Agn\`es Desolneux(参考訳) 多くの生成モデルは、決定論的ニューラルネットワークを用いて標準ガウス確率変数を変換してデータを合成する。 これらのモデルには変分オートエンコーダと生成逆ネットワークがある。 本研究では,これらを「プッシュフォワード」モデルと呼び,その表現性について検討する。 これらの生成ネットワークのリプシッツ定数はマルチモーダル分布に適合するために大きくなければならないことを示す。 より正確には、モード分離とリプシッツ定数に応じて、生成したデータとデータ分布との間の全変動距離とクルバック・リーブラーのばらつきが下から有界であることを示す。 ニューラルネットワークのリプシッツ定数の制約は生成モデルの安定化に共通の方法であるため、多様分布を近似するプッシュフォワードモデルの能力とトレーニングの安定性との間には、明らかなトレードオフがある。 本研究では,1次元および画像データセット上での知見を検証し,拡散モデルのような確率的入力を伴うスタックネットワークからなる生成モデルにそのような制限が与えられていないことを実証的に示す。

Many generative models synthesize data by transforming a standard Gaussian random variable using a deterministic neural network. Among these models are the Variational Autoencoders and the Generative Adversarial Networks. In this work, we call them "push-forward" models and study their expressivity. We show that the Lipschitz constant of these generative networks has to be large in order to fit multimodal distributions. More precisely, we show that the total variation distance and the Kullback-Leibler divergence between the generated and the data distribution are bounded from below by a constant depending on the mode separation and the Lipschitz constant. Since constraining the Lipschitz constants of neural networks is a common way to stabilize generative models, there is a provable trade-off between the ability of push-forward models to approximate multimodal distributions and the stability of their training. We validate our findings on one-dimensional and image datasets and empirically show that generative models consisting of stacked networks with stochastic input at each step, such as diffusion models do not suffer of such limitations.
翻訳日:2022-07-01 01:38:26 公開日:2022-06-29
# (参考訳) Epileptic Seizures Risk Analysisのための単一参照脳波電極の時系列イメージング

Imaging the time series of one single referenced EEG electrode for Epileptic Seizures Risk Analysis ( http://arxiv.org/abs/2206.14520v1 )

ライセンス: CC BY 4.0
Tiago Leal, Antonio Dourado, Fabio Lopes, Cesar Teixeira(参考訳) 難治性てんかん患者の単一の頭皮電極(および基準電極)によって捕獲された時系列を用いて、発作の感受性を予測する。 時系列は前処理され、セグメント化され、各セグメントがイメージに変換され、Recurrence Plot、Gramian Angular Field、Markov Transition Fieldの3つの既知のメソッドが使用される。 CNNのソフトマックス層の出力を、分類層の出力の通常の考慮と異なる平均化することにより、将来の予め定義された時間窓における発作の発生確率を算出する。 この可能性のしきい値化により、発作予測の性能が向上する。 興味深いことに、ほとんどの患者にとって、最高の閾値は50%と異なる。 以上の結果から,この手法は一部の発作や患者に対して良好な結果が得られることが示唆された。 しかし、このテクニックの真の可能性をよりよく理解するためには、より多くの検査、すなわち患者や発作が必要とされる。

The time series captured by a single scalp electrode (plus the reference electrode) of refractory epileptic patients is used to forecast seizures susceptibility. The time series is preprocessed, segmented, and each segment transformed into an image, using three different known methods: Recurrence Plot, Gramian Angular Field, Markov Transition Field. The likelihood of the occurrence of a seizure in a future predefined time window is computed by averaging the output of the softmax layer of a CNN, differently from the usual consideration of the output of the classification layer. By thresholding this likelihood, seizure forecasting has better performance. Interestingly, for almost every patient, the best threshold was different from 50%. The results show that this technique can predict with good results for some seizures and patients. However, more tests, namely more patients and more seizures, are needed to better understand the real potential of this technique.
翻訳日:2022-07-01 01:05:31 公開日:2022-06-29
# (参考訳) vMFNet: 構成性はドメイン一般化セグメンテーションと出会う

vMFNet: Compositionality Meets Domain-generalised Segmentation ( http://arxiv.org/abs/2206.14538v1 )

ライセンス: CC BY 4.0
Xiao Liu, Spyridon Thermos, Pedro Sanchez, Alison Q. O'Neil and Sotirios A. Tsaftaris(参考訳) 医療画像セグメンテーションモデルのトレーニングは通常、大量のラベル付きデータを必要とする。 対照的に、ヒトは医学的(MRIやCTのような)画像から興味ある解剖学をある程度のガイダンスで正確に認識することができる。 このような認識能力は、異なる臨床センターの新しい画像に容易に一般化することができる。 この迅速で一般化可能な学習能力は、主にヒト脳における画像パターンの構成構造によるもので、医用画像セグメンテーションには組み込まれていない。 本稿では,異なる領域(臨床センターなど)から収集された画像に対して頑健なvon-mises-fisher(vmf)カーネルとして,ヒト解剖学の構成成分(パターン)をモデル化する。 画像の特徴は、構成操作を伴うコンポーネント、すなわちvmfの可能性によって分解(または構成)することができる。 vMFは、各解剖学的部分が画像の各位置にある確率を推定する。 したがって、セグメント化マスクはvMF確率に基づいて予測できる。 さらに、リコンストラクションモジュールでは、ラベルのないデータを使用して、入力イメージをリコンストラクションするために再結合することで、vMFカーネルや可能性を学ぶこともできる。 拡張実験の結果,提案した vMFNet は2つのベンチマーク,特にアノテーションが限定された場合の一般化性能の向上を実現している。 コードはhttps://github.com/vios-s/vMFNet.comで公開されている。

Training medical image segmentation models usually requires a large amount of labeled data. By contrast, humans can quickly learn to accurately recognise anatomy of interest from medical (e.g. MRI and CT) images with some limited guidance. Such recognition ability can easily generalise to new images from different clinical centres. This rapid and generalisable learning ability is mostly due to the compositional structure of image patterns in the human brain, which is less incorporated in medical image segmentation. In this paper, we model the compositional components (i.e. patterns) of human anatomy as learnable von-Mises-Fisher (vMF) kernels, which are robust to images collected from different domains (e.g. clinical centres). The image features can be decomposed to (or composed by) the components with the composing operations, i.e. the vMF likelihoods. The vMF likelihoods tell how likely each anatomical part is at each position of the image. Hence, the segmentation mask can be predicted based on the vMF likelihoods. Moreover, with a reconstruction module, unlabeled data can also be used to learn the vMF kernels and likelihoods by recombining them to reconstruct the input image. Extensive experiments show that the proposed vMFNet achieves improved generalisation performance on two benchmarks, especially when annotations are limited. Code is publicly available at: https://github.com/vios-s/vMFNet.
翻訳日:2022-07-01 00:57:21 公開日:2022-06-29
# (参考訳) なぜ患者データは忘れられないのか?

Why patient data cannot be easily forgotten? ( http://arxiv.org/abs/2206.14541v1 )

ライセンス: CC BY 4.0
Ruolin Su, Xiao Liu and Sotirios A. Tsaftaris(参考訳) データ保護規則に規定された権利は、患者がデータ保有者によって情報に関する知識を排除するよう要求することを許す。 データ上で学んだAIの出現により、そのような権利は、AIモデル内の患者のデータの知識を忘れる要求にまで及ぶことが想像できる。 しかし、AIモデルから患者の画像データを忘れることは、まだ未解決の問題である。 本稿では,患者データがモデル性能に及ぼす影響について検討し,患者データに対する2つの仮説を定式化した。 患者のデータを簡単に忘れることは不可能である。 そこで我々は,患者を意識した「忘れる」アプローチを提案する。 ベンチマーク自動心臓診断チャレンジデータセットに関する広範囲な実験は、最先端の方法ではなく、提案法の性能向上を示している。

Rights provisioned within data protection regulations, permit patients to request that knowledge about their information be eliminated by data holders. With the advent of AI learned on data, one can imagine that such rights can extent to requests for forgetting knowledge of patient's data within AI models. However, forgetting patients' imaging data from AI models, is still an under-explored problem. In this paper, we study the influence of patient data on model performance and formulate two hypotheses for a patient's data: either they are common and similar to other patients or form edge cases, i.e. unique and rare cases. We show that it is not possible to easily forget patient data. We propose a targeted forgetting approach to perform patient-wise forgetting. Extensive experiments on the benchmark Automated Cardiac Diagnosis Challenge dataset showcase the improved performance of the proposed targeted forgetting approach as opposed to a state-of-the-art method.
翻訳日:2022-07-01 00:44:55 公開日:2022-06-29
# (参考訳) 補間分解における推論法の比較検討

Comparative Study of Inference Methods for Interpolative Decomposition ( http://arxiv.org/abs/2206.14542v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) 本稿では,低位近似や特徴選択,データ内の隠れパターンの同定によく用いられる補間分解(interpolative decomposition:id)を学習するための,行列因子が各データ次元に関連づけられた潜在変数である確率的モデルを提案する。 指定された部分空間に対する支持を持つ事前密度は、観測行列の因子成分の大きさの制約に対処するために用いられる。 ギブスサンプリングに基づくベイズ推定手法を用いる。 ccle $ec50$, ccle $ic50$, gene body methylation, promoter methylation datasets with different sizes and dimensionなど,様々な実世界のデータセット上でモデルを評価した結果, 提案手法が自動的適合性判定によるベイジアンidアルゴリズムを行列ランクに固定されたバニラベイジアンidアルゴリズムと比較しても, 再構成誤差が小さいことがわかった。

In this paper, we propose a probabilistic model with automatic relevance determination (ARD) for learning interpolative decomposition (ID), which is commonly used for low-rank approximation, feature selection, and identifying hidden patterns in data, where the matrix factors are latent variables associated with each data dimension. Prior densities with support on the specified subspace are used to address the constraint for the magnitude of the factored component of the observed matrix. Bayesian inference procedure based on Gibbs sampling is employed. We evaluate the model on a variety of real-world datasets including CCLE $EC50$, CCLE $IC50$, Gene Body Methylation, and Promoter Methylation datasets with different sizes, and dimensions, and show that the proposed Bayesian ID algorithms with automatic relevance determination lead to smaller reconstructive errors even compared to vanilla Bayesian ID algorithms with fixed latent dimension set to matrix rank.
翻訳日:2022-07-01 00:35:32 公開日:2022-06-29
# (参考訳) SALO:長いシーケンスに対するハイブリッドスパースアテンション機構の効率的な空間加速器

SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences ( http://arxiv.org/abs/2206.14550v1 )

ライセンス: CC BY 4.0
Guan Shen, Jieru Zhao, Quan Chen, Jingwen Leng, Chao Li, Minyi Guo(参考訳) 変換器の注意機構は、入力シーケンスから関連する情報を効果的に抽出する。 しかし、シーケンシャル長の2次複雑性は、特に長いシーケンシャルなタスクにおいて、計算とメモリの重荷を負う。 既存のアクセラレータはこれらのタスクのパフォーマンス低下に直面します。 この目的のために,長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。 SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、効率的な注意計算を行うための空間加速器が含まれている。 典型的なワークロード,すなわちLongformerとViLでは,それぞれGPUとCPUの実装と比較して平均17.66倍,89.33倍のスピードアップを実現している。

The attention mechanisms of transformers effectively extract pertinent information from the input sequence. However, the quadratic complexity of self-attention w.r.t the sequence length incurs heavy computational and memory burdens, especially for tasks with long sequences. Existing accelerators face performance degradation in these tasks. To this end, we propose SALO to enable hybrid sparse attention mechanisms for long sequences. SALO contains a data scheduler to map hybrid sparse attention patterns onto hardware and a spatial accelerator to perform the efficient attention computation. We show that SALO achieves 17.66x and 89.33x speedup on average compared to GPU and CPU implementations, respectively, on typical workloads, i.e., Longformer and ViL.
翻訳日:2022-07-01 00:14:30 公開日:2022-06-29
# (参考訳) CVPR 2022 LOVEU AQTC Challenge 参加報告

Technical Report for CVPR 2022 LOVEU AQTC Challenge ( http://arxiv.org/abs/2206.14555v1 )

ライセンス: CC BY 4.0
Hyeonyu Kim, Jongeun Kim, Jeonghun Kang, Sanguk Park, Dongchan Park and Taehwan Kim(参考訳) 本技術報告では,CVPR 2022 LOVEU(Long-form VidEo Understanding)課題に新たに導入されたタスクであるAQTCの2つ目の勝利モデルを示す。 この課題は、マルチステップ回答、マルチモーダル、ビデオにおける多様で変化するボタン表現の難しさに直面している。 より効率的な特徴マッピングのための新しいコンテキスト基底モジュールアテンション機構を提案することでこの問題に対処する。 また,ボタン数を解析し,異なるステップネットワークとビデオ特徴のアブレーション実験を行った。 その結果、loveu competition track 3の総合2位、特に4つの評価指標のうち2位となった。 私たちのコードはhttps://github.com/jaykim9870/cvpr-22_loveu_unipylerで利用可能です。

This technical report presents the 2nd winning model for AQTC, a task newly introduced in CVPR 2022 LOng-form VidEo Understanding (LOVEU) challenges. This challenge faces difficulties with multi-step answers, multi-modal, and diverse and changing button representations in video. We address this problem by proposing a new context ground module attention mechanism for more effective feature mapping. In addition, we also perform the analysis over the number of buttons and ablation study of different step networks and video features. As a result, we achieved the overall 2nd place in LOVEU competition track 3, specifically the 1st place in two out of four evaluation metrics. Our code is available at https://github.com/jaykim9870/ CVPR-22_LOVEU_unipyler.
翻訳日:2022-07-01 00:01:49 公開日:2022-06-29
# (参考訳) Finstreder:現代音声テキストモデルを用いた有限状態変換器によるシンプルで高速な音声言語理解

Finstreder: Simple and fast Spoken Language Understanding with Finite State Transducers using modern Speech-to-Text models ( http://arxiv.org/abs/2206.14589v1 )

ライセンス: CC BY-SA 4.0
Daniel Bermuth, Alexander Poeppel, Wolfgang Reif(参考訳) 音声言語理解(slu)では、ユーザが何をしたいのか、場所や番号などの特別なエンティティの意図など、音声コマンドから重要な情報を抽出することがタスクである。 本稿では、有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案するとともに、事前訓練された汎用音声テキストモデルと組み合わせることで、追加の訓練をせずにSLUモデルを構築することができる。 これらのモデルの構築は非常に高速で、数秒しかかからない。 完全に独立した言語でもある。 異なるベンチマークを比較すると、この手法は他の複数のリソース要求のSLU手法よりも優れていることが示される。

In Spoken Language Understanding (SLU) the task is to extract important information from audio commands, like the intent of what a user wants the system to do and special entities like locations or numbers. This paper presents a simple method for embedding intents and entities into Finite State Transducers, and, in combination with a pretrained general-purpose Speech-to-Text model, allows building SLU-models without any additional training. Building those models is very fast and only takes a few seconds. It is also completely language independent. With a comparison on different benchmarks it is shown that this method can outperform multiple other, more resource demanding SLU approaches.
翻訳日:2022-06-30 23:57:05 公開日:2022-06-29
# (参考訳) カーネル法からニューラルネットワークへ:統一的な変分定式化

From Kernel Methods to Neural Networks: A Unifying Variational Formulation ( http://arxiv.org/abs/2206.14625v1 )

ライセンス: CC BY 4.0
Michael Unser(参考訳) データ忠実性項と付加正規化関数の最小化は、教師付き学習のための強力な枠組みをもたらす。 本稿では、演算子と一般ラドンドメインノルムに依存する統一正規化汎関数を提案する。 我々は最小化器の存在を確立し、非常に穏やかな仮定の下で解のパラメトリック形式を与える。 ノルムがヒルベルト的であるとき、提案された定式化は放射基底関数を含む解となり、古典的な機械学習手法と互換性がある。 対照的に、全変量ノルムの場合、解は正規化演算子によって決定される活性化関数を持つ2層ニューラルネットワークの形を取る。 特に、演算子をラプラシアンにすることで、人気のあるReLUネットワークを検索する。 また、中間正規化ノルム $\|\cdot\|=\|\cdot\|_{L_p}$ の解を $p\in(1,2]$ で特徴づける。 我々のフレームワークは、多種多様な正規化演算子や、活性化関数が多項式的に増大しているケース(ReLUなど)を含む様々な浅層ニューラルネットワークに対して、普遍的な近似の保証を提供する。 また、ニューラルネットワークにおけるバイアスとスキップ接続の役割についても説明している。

The minimization of a data-fidelity term and an additive regularization functional gives rise to a powerful framework for supervised learning. In this paper, we present a unifying regularization functional that depends on an operator and on a generic Radon-domain norm. We establish the existence of a minimizer and give the parametric form of the solution(s) under very mild assumptions. When the norm is Hilbertian, the proposed formulation yields a solution that involves radial-basis functions and is compatible with the classical methods of machine learning. By contrast, for the total-variation norm, the solution takes the form of a two-layer neural network with an activation function that is determined by the regularization operator. In particular, we retrieve the popular ReLU networks by letting the operator be the Laplacian. We also characterize the solution for the intermediate regularization norms $\|\cdot\|=\|\cdot\|_{L_p}$ with $p\in(1,2]$. Our framework offers guarantees of universal approximation for a broad family of regularization operators or, equivalently, for a wide variety of shallow neural networks, including the cases (such as ReLU) where the activation function is increasing polynomially. It also explains the favorable role of bias and skip connections in neural architectures.
翻訳日:2022-06-30 23:40:09 公開日:2022-06-29
# (参考訳) ddktor: ダイアドコネクティクス自動音声解析

DDKtor: Automatic Diadochokinetic Speech Analysis ( http://arxiv.org/abs/2206.14639v1 )

ライセンス: CC BY 4.0
Yael Segal, Kasia Hitczenko, Matthew Goldrick, Adam Buchwald, Angela Roberts and Joseph Keshet(参考訳) ダイアドコキネティック・スピーチ・タスク(DDK)は、被験者が繰り返し音節を生成し、音声運動障害の評価の一部として一般的に用いられる。 これらの研究は、時間集約的で主観的であり、粗い音声の全体像のみを提供する手動分析に依存している。 本稿では,無音・無音の音声から子音と母音を自動的に分割する2つの深層ニューラルネットワークモデルを提案する。 どちらのモデルも生の波形で動作し、特徴抽出に畳み込み層を使用する。 第1モデルはLSTM分類器をベースとし、第2モデルはより畳み込み層を追加し、第2モデルは完全な連結層を付加する。 モデルによって予測されるこれらのセグメンテーションは、発話速度と音持続時間を測定するために使用される。 若い健康な個人のデータセットから、LSTMモデルは現在の最先端のシステムより優れており、訓練されたヒトのアノテータと互換性があることを示した。 さらに、LSTMモデルでは、パーキンソン病データセットの未確認高齢者を対象に、トレーニングされたヒトアノテータと同等の結果を示す。

Diadochokinetic speech tasks (DDK), in which participants repeatedly produce syllables, are commonly used as part of the assessment of speech motor impairments. These studies rely on manual analyses that are time-intensive, subjective, and provide only a coarse-grained picture of speech. This paper presents two deep neural network models that automatically segment consonants and vowels from unannotated, untranscribed speech. Both models work on the raw waveform and use convolutional layers for feature extraction. The first model is based on an LSTM classifier followed by fully connected layers, while the second model adds more convolutional layers followed by fully connected layers. These segmentations predicted by the models are used to obtain measures of speech rate and sound duration. Results on a young healthy individuals dataset show that our LSTM model outperforms the current state-of-the-art systems and performs comparably to trained human annotators. Moreover, the LSTM model also presents comparable results to trained human annotators when evaluated on unseen older individuals with Parkinson's Disease dataset.
翻訳日:2022-06-30 23:39:08 公開日:2022-06-29
# (参考訳) 収束する階層層とコントラスト損失を持つ言語に基づく音声検索

Language-Based Audio Retrieval with Converging Tied Layers and Contrastive Loss ( http://arxiv.org/abs/2206.14659v1 )

ライセンス: CC BY 4.0
Andrew Koh, Eng Siong Chng(参考訳) 本稿では,dcase 2022で提案されている新しい言語に基づく音声検索課題に取り組む。 まず,音声エンコーダとテキストエンコーダを結合した,シンプルでスケーラブルなアーキテクチャを提案する。 第2に,コントラスト損失とともにこのアーキテクチャを用いることで,モデルがベースラインモデルの性能を大幅に上回ることができることを示す。 最後に、トレーニングメモリの要件が極めて低いことに加えて、トレーニング済みのモデルを微調整することなく使用することができます。 提案手法をテストした結果,本手法の組み合わせがベースラインスコアを大幅に上回ることを確認した。

In this paper, we tackle the new Language-Based Audio Retrieval task proposed in DCASE 2022. Firstly, we introduce a simple, scalable architecture which ties both the audio and text encoder together. Secondly, we show that using this architecture along with contrastive loss allows the model to significantly beat the performance of the baseline model. Finally, in addition to having an extremely low training memory requirement, we are able to use pretrained models as it is without needing to finetune them. We test our methods and show that using a combination of our methods beats the baseline scores significantly.
翻訳日:2022-06-30 23:28:21 公開日:2022-06-29
# (参考訳) IARPA OpenASR21チャレンジにおけるTHUEEシステム記述

The THUEE System Description for the IARPA OpenASR21 Challenge ( http://arxiv.org/abs/2206.14660v1 )

ライセンス: CC BY 4.0
Jing Zhao, Haoyu Wang, Jinpeng Li, Shuzhou Chai, Guan-Bo Wang, Guoguo Chen, Wei-Qiang Zhang(参考訳) 本稿では,IARPA Open Automatic Speech Recognition Challenge (OpenASR21) のためのTHUEEチームの音声認識システムについて述べる。 制約条件と制約条件の双方で優れた結果が得られた。 制約のあるトレーニング条件のために,標準ハイブリッドアーキテクチャに基づく基本asrシステムを構築した。 oov(out-of-vocabulary)問題を緩和するために、g2p(grapheme-to-phoneme)技術を用いて発音レキシコンを拡張する。 CNN-TDNN-FやCNN-TDNN-F-Aのような標準音響モデル構造を採用する。 さらに、複数のデータ拡張技術を適用する。 Constrained-plusトレーニング条件では、自己教師付き学習フレームワークwav2vec2.0を使用します。 我々は,コネクショニスト時間分類(CTC)基準を用いた様々な微調整手法を,一般公開された事前学習モデルXLSR-53上で実験した。 エンコーダデコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,フロントエンド特徴抽出器が重要な役割を果たすことがわかった。 対象言語で微調整されたCTCモデルをフロントエンド特徴抽出器として用いることで、さらなる改善が達成できる。

This paper describes the THUEE team's speech recognition system for the IARPA Open Automatic Speech Recognition Challenge (OpenASR21), with further experiment explorations. We achieve outstanding results under both the Constrained and Constrained-plus training conditions. For the Constrained training condition, we construct our basic ASR system based on the standard hybrid architecture. To alleviate the Out-Of-Vocabulary (OOV) problem, we extend the pronunciation lexicon using Grapheme-to-Phoneme (G2P) techniques for both OOV and potential new words. Standard acoustic model structures such as CNN-TDNN-F and CNN-TDNN-F-A are adopted. In addition, multiple data augmentation techniques are applied. For the Constrained-plus training condition, we use the self-supervised learning framework wav2vec2.0. We experiment with various fine-tuning techniques with the Connectionist Temporal Classification (CTC) criterion on top of the publicly available pre-trained model XLSR-53. We find that the frontend feature extractor plays an important role when applying the wav2vec2.0 pre-trained model to the encoder-decoder based CTC/Attention ASR architecture. Extra improvements can be achieved by using the CTC model finetuned in the target language as the frontend feature extractor.
翻訳日:2022-06-30 23:20:35 公開日:2022-06-29
# (参考訳) 深層強化学習のための条件付き動的リスク対策

Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning ( http://arxiv.org/abs/2206.14666v1 )

ライセンス: CC BY-SA 4.0
Anthony Coache, Sebastian Jaimungal, \'Alvaro Cartea(参考訳) 本稿では,エージェントが時間一貫性のある動的スペクトルリスク対策を最適化する,リスク感応強化学習(rl)問題を解決するための新しい枠組みを提案する。 条件付きエリシタビリティの概念に基づき,評価手順においてペナライザとして使用される(厳密に一貫性のある)スコアリング関数を構築する。 私たちの貢献は3倍です (i)ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラス推定のための効率的な手法の開発 (ii)深層ニューラルネットワークを用いて、これらの動的スペクトルリスク測度が任意の精度に近似可能であることを証明し、 (iii)完全エピソードを使用し、さらにネストした遷移を必要としないリスクに敏感なアクタ-クリティックアルゴリズムを開発する。 我々は,概念的に改良された強化学習アルゴリズムをネストしたシミュレーション手法と比較し,その性能を2つの設定で示す。

We propose a novel framework to solve risk-sensitive reinforcement learning (RL) problems where the agent optimises time-consistent dynamic spectral risk measures. Based on the notion of conditional elicitability, our methodology constructs (strictly consistent) scoring functions that are used as penalizers in the estimation procedure. Our contribution is threefold: we (i) devise an efficient approach to estimate a class of dynamic spectral risk measures with deep neural networks, (ii) prove that these dynamic spectral risk measures may be approximated to any arbitrary accuracy using deep neural networks, and (iii) develop a risk-sensitive actor-critic algorithm that uses full episodes and does not require any additional nested transitions. We compare our conceptually improved reinforcement learning algorithm with the nested simulation approach and illustrate its performance in two settings: statistical arbitrage and portfolio allocation on both simulated and real data.
翻訳日:2022-06-30 23:06:59 公開日:2022-06-29
# (参考訳) データ駆動要求エンジニアリングアプローチに向けて:ユーザレビューの自動分析

Towards a Data-Driven Requirements Engineering Approach: Automatic Analysis of User Reviews ( http://arxiv.org/abs/2206.14669v1 )

ライセンス: CC BY 4.0
Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, G\'erard Dray(参考訳) 私たちはデータ駆動要件エンジニアリング、特にユーザのレビューの考慮に関心を持っています。 これらのオンラインレビューは、新しいニーズや改善要求を抽出するための豊富な情報源です。 本研究では,フランス語の最先端言語モデルであるCamemBERTを用いて,自動解析を行う。 健康とフィットネス分野の3つのアプリケーションから、6000ユーザレビューのマルチラベル分類データセットを作成しました。 結果は推奨され、新機能の要求に関するレビューを自動的に識別することができることを示唆している。 Datasetは、https://github.com/Jl-wei/APIA2022- French-user-reviews-classification-datasetで利用可能である。

We are concerned by Data Driven Requirements Engineering, and in particular the consideration of user's reviews. These online reviews are a rich source of information for extracting new needs and improvement requests. In this work, we provide an automated analysis using CamemBERT, which is a state-of-the-art language model in French. We created a multi-label classification dataset of 6000 user reviews from three applications in the Health & Fitness field. The results are encouraging and suggest that it's possible to identify automatically the reviews concerning requests for new features. Dataset is available at: https://github.com/Jl-wei/APIA2022-French-user-reviews-classification-dataset.
翻訳日:2022-06-30 23:05:45 公開日:2022-06-29
# (参考訳) チューリングテストで不正は不可能か:コンピュータによる真の自然言語の「理解」の可能性と課題を探る

Is it possible not to cheat on the Turing Test: Exploring the potential and challenges for true natural language 'understanding' by computers ( http://arxiv.org/abs/2206.14672v1 )

ライセンス: CC BY 4.0
Lize Alberts(参考訳) 言語処理モデルの高度化に伴う近年の誇大広告は、自然言語の人間的なコマンドを達成する機械に対する楽観主義を再燃させた。 人工知能における自然言語理解の領域は、この分野において大きな進歩を遂げたと主張しているが、この分野での「理解」がどのように使われているかという概念的明確さの欠如は、我々が実際にどれほど近いかを理解するのを困難にしている。 現在のアプローチと残る課題に関する包括的で学際的な概要はまだ実行されていない。 言語知識以外にも、私たちの(十分に類似した)具体化され、位置付けられた経験を分類し、記憶し、ラベル付けし、伝達する種特有の能力を考える必要があります。 さらに、現実的な制約を解くには、現在のモデルの技術的能力と、理論的可能性と限界に関する深い哲学的考察を批判的に分析する必要がある。 本稿では,これらすべての視点 - 哲学的,認知言語主義的,技術的 - をまとめて,真の(人間に似た)言語理解を達成する上での課題を解き明かす。 現在のアプローチに固有の理論的な仮定を解き放つことで、この目標が本当に目標であるならば、実際にこの目標を達成するのがどれくらい遠いのかを説明したいと思っています。

Recent hype surrounding the increasing sophistication of language processing models has renewed optimism regarding machines achieving a human-like command of natural language. The area of natural language understanding in artificial intelligence claims to have been making great strides in this area, however, the lack of conceptual clarity in how 'understanding' is used in this and other disciplines have made it difficult to discern how close we actually are. A comprehensive, interdisciplinary overview of current approaches and remaining challenges is yet to be carried out. Beyond linguistic knowledge, this requires considering our species-specific capabilities to categorize, memorize, label and communicate our (sufficiently similar) embodied and situated experiences. Moreover, gauging the practical constraints requires critically analyzing the technical capabilities of current models, as well as deeper philosophical reflection on theoretical possibilities and limitations. In this paper, I unite all of these perspectives -- the philosophical, cognitive-linguistic, and technical -- to unpack the challenges involved in reaching true (human-like) language understanding. By unpacking the theoretical assumptions inherent in current approaches, I hope to illustrate how far we actually are from achieving this goal, if indeed it is the goal.
翻訳日:2022-06-30 22:54:32 公開日:2022-06-29
# (参考訳) 機械学習における署名手法

Signature Methods in Machine Learning ( http://arxiv.org/abs/2206.14674v1 )

ライセンス: CC BY 4.0
Terry Lyons and Andrew D. McLeod(参考訳) 署名に基づく技術は、進化するデータの複雑なストリーム間の相互作用に関する数学的洞察を与える。 これらの知見は、ストリームデータを理解するための数値的なアプローチに自然に変換することができ、おそらくその数学的精度のために、データが不規則で定常ではない状況において、ストリームデータを分析するのに有用であることが証明された。 ストリームされたマルチモーダルデータの理解は指数関数的である:$d$のアルファベットの$n$文字の単語は、$d^n$メッセージのどれでも構わない。 シグネチャはサンプリングの不規則性から生じる指数関数的なノイズを取り除くが、指数関数的な情報の量は残る。 この調査は、指数関数的スケーリングを直接管理できる領域にとどまることを目的としている。 スケーラビリティの問題は多くの問題において重要な課題ですが、別の調査記事とさらなるアイデアが必要です。 本調査では,大規模機械学習の可能性を排除するのに十分なデータセットが小さく,文脈自由かつ原則化された少数の特徴セットの存在を効果的に活用できる状況について述べる。 ツールの数学的性質は、非数学者に脅威を与える可能性がある。 この記事では、このコミュニケーションギャップを埋め、機械学習のコンテキストから引き出された、扱いやすい作業例を提供する。 ノートブックはいくつかの例でオンラインで入手できる。 この調査は、Ilya Chevryev氏とAndrey Kormilitzin氏による以前の論文に基づいており、この機械の開発の初期段階において、広く類似した目的を持っていた。 この記事では、シグネチャによって提供される理論的洞察が、データ型にほとんど依存しない方法で、アプリケーションデータ分析において単純に実現される方法を説明します。

Signature-based techniques give mathematical insight into the interactions between complex streams of evolving data. These insights can be quite naturally translated into numerical approaches to understanding streamed data, and perhaps because of their mathematical precision, have proved useful in analysing streamed data in situations where the data is irregular, and not stationary, and the dimension of the data and the sample sizes are both moderate. Understanding streamed multi-modal data is exponential: a word in $n$ letters from an alphabet of size $d$ can be any one of $d^n$ messages. Signatures remove the exponential amount of noise that arises from sampling irregularity, but an exponential amount of information still remain. This survey aims to stay in the domain where that exponential scaling can be managed directly. Scalability issues are an important challenge in many problems but would require another survey article and further ideas. This survey describes a range of contexts where the data sets are small enough to remove the possibility of massive machine learning, and the existence of small sets of context free and principled features can be used effectively. The mathematical nature of the tools can make their use intimidating to non-mathematicians. The examples presented in this article are intended to bridge this communication gap and provide tractable working examples drawn from the machine learning context. Notebooks are available online for several of these examples. This survey builds on the earlier paper of Ilya Chevryev and Andrey Kormilitzin which had broadly similar aims at an earlier point in the development of this machinery. This article illustrates how the theoretical insights offered by signatures are simply realised in the analysis of application data in a way that is largely agnostic to the data type.
翻訳日:2022-06-30 22:53:29 公開日:2022-06-29
# (参考訳) 脳疾患のコンピュータ診断と予測

Computer-aided diagnosis and prediction in brain disorders ( http://arxiv.org/abs/2206.14683v1 )

ライセンス: CC BY 4.0
Vikram Venkatraghavan, Sebastian R. van der Voort, Daniel Bos, Marion Smits, Frederik Barkhof, Wiro J. Niessen, Stefan Klein, Esther E. Bron(参考訳) コンピュータ支援手法は脳疾患の診断と予測に付加価値を示しており、臨床医療や治療計画における意思決定を支援することができる。 この章は、メソッドの種類、動作、入力データ(認知テスト、イメージング、遺伝的データなど)、それらが提供するアウトプットの種類についての洞察を提供する。 我々は,認知症早期発見・診断,脳腫瘍の鑑別診断,脳卒中意思決定など,患者の現在の「状態」を推定する特定の症例に焦点を当てる。 予測,すなわち患者の将来の「条件」の推定については,多発性硬化症における疾患経過の予測や脳がん治療後の患者の予後の予測といったユースケースを詳細に検討する。 さらに,これらのユースケースに基づいて,現在の最先端の方法論を評価し,これらの手法のベンチマークとオープンサイエンスの重要性を強調する。 最後に,コンピュータ支援手法の現在の臨床効果を評価し,臨床効果を高めるために必要な次のステップについて議論する。

Computer-aided methods have shown added value for diagnosing and predicting brain disorders and can thus support decision making in clinical care and treatment planning. This chapter will provide insight into the type of methods, their working, their input data - such as cognitive tests, imaging and genetic data - and the types of output they provide. We will focus on specific use cases for diagnosis, i.e. estimating the current 'condition' of the patient, such as early detection and diagnosis of dementia, differential diagnosis of brain tumours, and decision making in stroke. Regarding prediction, i.e. estimation of the future 'condition' of the patient, we will zoom in on use cases such as predicting the disease course in multiple sclerosis and predicting patient outcomes after treatment in brain cancer. Furthermore, based on these use cases, we will assess the current state-of-the-art methodology and highlight current efforts on benchmarking of these methods and the importance of open science therein. Finally, we assess the current clinical impact of computer-aided methods and discuss the required next steps to increase clinical impact.
翻訳日:2022-06-30 22:52:17 公開日:2022-06-29
# (参考訳) 動的シナリオ変更のための隠れパラメータリカレント状態空間モデル

Hidden Parameter Recurrent State Space Models For Changing Dynamics Scenarios ( http://arxiv.org/abs/2206.14697v1 )

ライセンス: CC BY-SA 4.0
Vaisakh Shaj, Dieter Buchler, Rohit Sonker, Philipp Becker, Gerhard Neumann(参考訳) リカレントステートスペースモデル(Recurrent State-space Model, RSSMs)は、時系列データとシステム識別におけるパターンの学習モデルである。 しかし、これらのモデルは力学が固定され、変化しないと仮定し、現実のシナリオではまれである。 多くの制御アプリケーションはよく類似しているが、潜在変数としてモデル化できる同一の動的タスクを示す。 隠れパラメータ再帰状態空間モデル(hip-rssms, hidden parameter recurrent state space model)を導入する。 本稿では,このガウス図形モデルに対して,変分推論のような近似を避けるための,単純かつ効果的な学習方法を提案する。 ヒップrssmは実世界のシステムとシミュレーションの両方でいくつかの挑戦的なロボットベンチマークでrssmと競合するマルチタスクモデルよりも優れています。

Recurrent State-space models (RSSMs) are highly expressive models for learning patterns in time series data and system identification. However, these models assume that the dynamics are fixed and unchanging, which is rarely the case in real-world scenarios. Many control applications often exhibit tasks with similar but not identical dynamics which can be modeled as a latent variable. We introduce the Hidden Parameter Recurrent State Space Models (HiP-RSSMs), a framework that parametrizes a family of related dynamical systems with a low-dimensional set of latent factors. We present a simple and effective way of learning and performing inference over this Gaussian graphical model that avoids approximations like variational inference. We show that HiP-RSSMs outperforms RSSMs and competing multi-task models on several challenging robotic benchmarks both on real-world systems and simulations.
翻訳日:2022-06-30 22:51:18 公開日:2022-06-29
# (参考訳) 整合多面体サロゲートの設計と解析のための埋め込みフレームワーク

An Embedding Framework for the Design and Analysis of Consistent Polyhedral Surrogates ( http://arxiv.org/abs/2206.14707v1 )

ライセンス: CC BY 4.0
Jessie Finocchiaro, Rafael M. Frongillo, Bo Waggoner(参考訳) 分類,ランク付け,構造化予測といった問題に対して,埋め込みによる損失関数のサーロゲートを設計する自然なアプローチを定式化し,検討する。 このアプローチでは、各有限個の予測(例えばランク)を$R^d$の点として埋め込み、元の損失値をこれらの点に割り当て、何らかの方法で損失を「凸化」して代理値を得る。 このアプローチと多面体(一方向線形凸)の損失との間には強いつながりがあり、各離散損失は多面体損失によって埋め込まれ、各多面体損失はいくつかの離散損失を埋め込む。 さらに、埋め込みは、線形サロゲートの後悔境界と同様に一貫したリンク関数をもたらす。 私たちの結果は、いくつかの例で示すように、建設的です。 特に,本研究の枠組みは,文献における多面体サロゲートの整合性や不整合性を簡潔に証明し,不整合サロゲートに対しては,これらのサロゲートが一貫した離散的損失を明らかにする。 我々は、埋め込みの等価性やベイズリスクの一致、非冗長性の様々な概念の等価性など、埋め込みのさらなる構造を示す。 これらの結果から,多面体サロゲートを用いた場合, 間接的収縮は, 整合性に必要な条件であることがわかった。

We formalize and study the natural approach of designing convex surrogate loss functions via embeddings, for problems such as classification, ranking, or structured prediction. In this approach, one embeds each of the finitely many predictions (e.g. rankings) as a point in $R^d$, assigns the original loss values to these points, and "convexifies" the loss in some way to obtain a surrogate. We establish a strong connection between this approach and polyhedral (piecewise-linear convex) surrogate losses: every discrete loss is embedded by some polyhedral loss, and every polyhedral loss embeds some discrete loss. Moreover, an embedding gives rise to a consistent link function as well as linear surrogate regret bounds. Our results are constructive, as we illustrate with several examples. In particular, our framework gives succinct proofs of consistency or inconsistency for various polyhedral surrogates in the literature, and for inconsistent surrogates, it further reveals the discrete losses for which these surrogates are consistent. We go on to show additional structure of embeddings, such as the equivalence of embedding and matching Bayes risks, and the equivalence of various notions of non-redudancy. Using these results, we establish that indirect elicitation, a necessary condition for consistency, is also sufficient when working with polyhedral surrogates.
翻訳日:2022-06-30 22:26:09 公開日:2022-06-29
# (参考訳) drumgan vst: 自動エンコード生成広告ネットワークを用いたドラム音声分析/合成用プラグイン

DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With Autoencoding Generative Adversarial Networks ( http://arxiv.org/abs/2206.14723v1 )

ライセンス: CC BY 4.0
Javier Nistal, Cyran Aouameur, Ithan Velarde, and Stefan Lattner(参考訳) 現代のポピュラー音楽制作において、ドラムサウンドデザインは、サウンドライブラリーで予め録音されたサンプルのブラウジングと処理が面倒なことで一般的に行われている。 また、通常低レベルで音楽的な意味のないパラメータで制御される特殊な合成ハードウェアを使うこともできる。 今日、Deep Learningの分野は、学習されたハイレベルな特徴によって合成プロセスを制御する方法を提供し、様々な音を生成することができる。 本稿では,生成型逆ネットワークを用いたドラム音合成用プラグインであるdrumgan vstを提案する。 DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜在空間に音をマッピングし、既存のドラム音の再生と操作を可能にする符号化ニューラルネットワークを備えている。 多数のサウンドサンプルと提案したVSTプラグインのデモを提供する。

In contemporary popular music production, drum sound design is commonly performed by cumbersome browsing and processing of pre-recorded samples in sound libraries. One can also use specialized synthesis hardware, typically controlled through low-level, musically meaningless parameters. Today, the field of Deep Learning offers methods to control the synthesis process via learned high-level features and allows generating a wide variety of sounds. In this paper, we present DrumGAN VST, a plugin for synthesizing drum sounds using a Generative Adversarial Network. DrumGAN VST operates on 44.1 kHz sample-rate audio, offers independent and continuous instrument class controls, and features an encoding neural network that maps sounds into the GAN's latent space, enabling resynthesis and manipulation of pre-existing drum sounds. We provide numerous sound examples and a demo of the proposed VST plugin.
翻訳日:2022-06-30 22:24:59 公開日:2022-06-29
# (参考訳) 特徴説明によるプライベートグラフ抽出

Private Graph Extraction via Feature Explanations ( http://arxiv.org/abs/2206.14724v1 )

ライセンス: CC BY 4.0
Iyiola E. Olatunji, Mandeep Rathee, Thorben Funke, Megha Khosla(参考訳) プライバシと解釈性は、信頼できる機械学習を実現する上で重要な要素の2つだ。 グラフ再構成攻撃によるグラフ機械学習におけるこれら2つの側面の相互作用について検討する。 ここでの敵の目標は、モデル説明にアクセス可能なトレーニングデータのグラフ構造を再構築することである。 敵が利用可能な様々な補助情報に基づいて,いくつかのグラフ再構成攻撃を提案する。 ポストホックな特徴説明のさらなる知識がこれらの攻撃の成功率を大幅に向上させることを示す。 さらに,グラフニューラルネットワークの3種類の説明手法(勾配ベース,摂動ベース,代理モデルベース)に対して,攻撃性能の違いを詳細に検討した。 グラデーションに基づく説明はグラフ構造の観点からは最も多いが、これらの説明が必ずしも有用性が高いとは限らない。 他の2つの説明クラスでは、説明ユーティリティの増加とともにプライバシー漏洩が増加する。 最後に,攻撃成功率を大幅に低下させる説明を解放するランダム化応答機構に基づく防御手法を提案する。 匿名コードも利用可能です。

Privacy and interpretability are two of the important ingredients for achieving trustworthy machine learning. We study the interplay of these two aspects in graph machine learning through graph reconstruction attacks. The goal of the adversary here is to reconstruct the graph structure of the training data given access to model explanations. Based on the different kinds of auxiliary information available to the adversary, we propose several graph reconstruction attacks. We show that additional knowledge of post-hoc feature explanations substantially increases the success rate of these attacks. Further, we investigate in detail the differences between attack performance with respect to three different classes of explanation methods for graph neural networks: gradient-based, perturbation-based, and surrogate model-based methods. While gradient-based explanations reveal the most in terms of the graph structure, we find that these explanations do not always score high in utility. For the other two classes of explanations, privacy leakage increases with an increase in explanation utility. Finally, we propose a defense based on a randomized response mechanism for releasing the explanations which substantially reduces the attack success rate. Our anonymized code is available.
翻訳日:2022-06-30 22:13:22 公開日:2022-06-29
# (参考訳) 一般化置換基とグラフ属

Generalized Permutants and Graph GENEOs ( http://arxiv.org/abs/2206.14798v1 )

ライセンス: CC BY 4.0
Faraz Ahmad, Massimo Ferri, Patrizio Frosini(参考訳) 本稿では,位相データ解析と幾何学的深層学習の橋渡しを定め,群同変非拡大作用素(geneos)の位相理論を頂点や辺に重み付けられたすべてのグラフの空間に応用する。 これは、GenEOの一般的な概念がグラフを変換し、それらの構造に関する情報を与えるためにどのように使用できるかを示す。 これは一般化置換測度と一般化置換測度の新しい概念の導入と、これらの概念がグラフ間で GENEO を構築することを可能にする数学的証明を必要とする。 実験的なセクションが論文を締めくくり、グラフから情報を取り出すための演算子の使用の可能性を示します。 本論文は,幾何学的深層学習のための系譜の構成的・幾何学的理論を開発するための一連の研究の一環である。

In this paper we establish a bridge between Topological Data Analysis and Geometric Deep Learning, adapting the topological theory of group equivariant non-expansive operators (GENEOs) to act on the space of all graphs weighted on vertices or edges. This is done by showing how the general concept of GENEO can be used to transform graphs and to give information about their structure. This requires the introduction of the new concepts of generalized permutant and generalized permutant measure and the mathematical proof that these concepts allow us to build GENEOs between graphs. An experimental section concludes the paper, illustrating the possible use of our operators to extract information from graphs. This paper is part of a line of research devoted to developing a compositional and geometric theory of GENEOs for Geometric Deep Learning.
翻訳日:2022-06-30 21:55:34 公開日:2022-06-29
# 時空間知覚論理を用いた自動走行車の知覚システムの定式化と評価

Formalizing and Evaluating Requirements of Perception Systems for Automated Vehicles using Spatio-Temporal Perception Logic ( http://arxiv.org/abs/2206.14372v1 )

ライセンス: Link先を確認
Mohammad Hekmatnejad, Bardh Hoxha, Jyotirmoy V. Deshmukh, Yezhou Yang, and Georgios Fainekos(参考訳) 自動車両(AV)は、堅牢な認識システムに大きく依存する。 ビジョンシステム評価の現在の手法は、主にフレーム単位の性能に焦点を当てている。 このような評価方法は、AV内で使用される知覚サブシステムの性能を評価するのに不十分である。 本稿では,時空間知覚論理(stpl)と呼ばれる,空間的・時間的モダリティを利用した論理について述べる。 STPLは空間的および時間的関係を用いた知覚データに対する推論を可能にする。 stplの大きな利点の1つは、地上データなしでも、知覚システムのリアルタイムパフォーマンスの基本的な健全性チェックを容易にすることである。 多項式時間でオフラインで効率的に監視できるSTPLの断片を同定する。 最後に,stlによるオフライン監視によって表現・分析可能な要件の種類を強調するために,av知覚システムの仕様を提案する。

Automated vehicles (AV) heavily depend on robust perception systems. Current methods for evaluating vision systems focus mainly on frame-by-frame performance. Such evaluation methods appear to be inadequate in assessing the performance of a perception subsystem when used within an AV. In this paper, we present a logic -- referred to as Spatio-Temporal Perception Logic (STPL) -- which utilizes both spatial and temporal modalities. STPL enables reasoning over perception data using spatial and temporal relations. One major advantage of STPL is that it facilitates basic sanity checks on the real-time performance of the perception system, even without ground-truth data in some cases. We identify a fragment of STPL which is efficiently monitorable offline in polynomial time. Finally, we present a range of specifications for AV perception systems to highlight the types of requirements that can be expressed and analyzed through offline monitoring with STPL.
翻訳日:2022-06-30 21:33:33 公開日:2022-06-29
# 変形を伴う散逸解析:固有値分解による閉形式解

Procrustes Analysis with Deformations: A Closed-Form Solution by Eigenvalue Decomposition ( http://arxiv.org/abs/2206.14528v1 )

ライセンス: Link先を確認
Fang Bai and Adrien Bartoli(参考訳) 一般化 Procrustes Analysis (GPA) は、変換を推定することによって複数の形状を共通参照にする問題である。 GPAはユークリッド変換やアフィン変換のために広く研究されている。 変形可能な変換を伴うGPAを導入し、より広く困難な問題を形成します。 本稿では,アフィン変換を含む線形基底ワープ (LBW) と呼ばれる変換のクラスと,薄膜スプライン (TPS) などの通常の変形モデルについて検討する。 変形を伴うGPAは非凸下制約問題である。 形状共分散の固有値を必要とする2つの形状制約を用いて変形可能なgpaの基本あいまいさを解消する。 これらの固有値は、前値または後値として独立に計算できる。 固有値分解に基づく変形可能なgpaに対する閉形式と最適解を与える。 この解は規則化を扱い、滑らかな変形場を好む。 自由翻訳の基本的な性質を満たすためには変換モデルが必要であり、モデルがどんな変換も実装できると主張する。 この性質は、アフィンモデルやtpsモデルなど、ほとんどの一般的な変換モデルに対して幸運にも当てはまる。 他のモデルに対しては、自由翻訳モデルの最初の解と全く一致するgpaの別の閉形式解を与える。 提案するDefGPA法は,高速で,グローバルに最適で,広く適用可能な手法である。 提案手法を検証し,6つの異なる2dおよび3dデータセットに関する従来の研究と比較し,クロスバリデーションからハイパーパラメータを選択するように注意した。

Generalized Procrustes Analysis (GPA) is the problem of bringing multiple shapes into a common reference by estimating transformations. GPA has been extensively studied for the Euclidean and affine transformations. We introduce GPA with deformable transformations, which forms a much wider and difficult problem. We specifically study a class of transformations called the Linear Basis Warps (LBWs), which contains the affine transformation and most of the usual deformation models, such as the Thin-Plate Spline (TPS). GPA with deformations is a nonconvex underconstrained problem. We resolve the fundamental ambiguities of deformable GPA using two shape constraints requiring the eigenvalues of the shape covariance. These eigenvalues can be computed independently as a prior or posterior. We give a closed-form and optimal solution to deformable GPA based on an eigenvalue decomposition. This solution handles regularization, favoring smooth deformation fields. It requires the transformation model to satisfy a fundamental property of free-translations, which asserts that the model can implement any translation. We show that this property fortunately holds true for most common transformation models, including the affine and TPS models. For the other models, we give another closed-form solution to GPA, which agrees exactly with the first solution for models with free-translation. We give pseudo-code for computing our solution, leading to the proposed DefGPA method, which is fast, globally optimal and widely applicable. We validate our method and compare it to previous work on six diverse 2D and 3D datasets, with special care taken to choose the hyperparameters from cross-validation.
翻訳日:2022-06-30 21:33:20 公開日:2022-06-29
# CONVIQT:コントラストビデオ品質推定器

CONVIQT: Contrastive Video Quality Estimator ( http://arxiv.org/abs/2206.14713v1 )

ライセンス: Link先を確認
Pavan C. Madhusudana and Neil Birkbeck and Yilin Wang and Balu Adsumilli and Alan C. Bovik(参考訳) perceptual video quality assessment (vqa)は多くのストリーミングおよびビデオ共有プラットフォームの不可欠なコンポーネントである。 本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。 歪型同定と劣化レベル判定を補助タスクとして、空間的特徴を抽出する深層畳み込みニューラルネットワーク(cnn)を含むディープラーニングモデルと、時間的情報をキャプチャするリカレントユニットを訓練する。 このモデルは対照的な損失を用いて訓練されており、このトレーニングフレームワークと結果のモデルをcontrastive VIdeo Quality EstimaTor (CONVIQT) と呼ぶ。 テスト中、トレーニングされたモデルの重みは凍結され、線形回帰器は学習した特徴を非参照(NR)設定で品質スコアにマップする。 提案手法を複数vqaデータベース上で包括的に評価し, モデル予測と地上品質評価の相関を解析し, それらのデータベース上ではトレーニングされていないが, 最先端のnr-vqaモデルと比較した場合の競合性能を達成する。 アブレーション実験により,学習した表現は高いロバスト性を示し,合成的・現実的な歪みに対して十分に一般化できることを示した。 本研究は,自己指導型学習を用いて,知覚力による説得力のある表現が得られることを示す。 この作業で使用される実装はhttps://github.com/pavancm/CONVIQTで公開されている。

Perceptual video quality assessment (VQA) is an integral component of many streaming and video sharing platforms. Here we consider the problem of learning perceptually relevant video quality representations in a self-supervised manner. Distortion type identification and degradation level determination is employed as an auxiliary task to train a deep learning model containing a deep Convolutional Neural Network (CNN) that extracts spatial features, as well as a recurrent unit that captures temporal information. The model is trained using a contrastive loss and we therefore refer to this training framework and resulting model as CONtrastive VIdeo Quality EstimaTor (CONVIQT). During testing, the weights of the trained model are frozen, and a linear regressor maps the learned features to quality scores in a no-reference (NR) setting. We conduct comprehensive evaluations of the proposed model on multiple VQA databases by analyzing the correlations between model predictions and ground-truth quality ratings, and achieve competitive performance when compared to state-of-the-art NR-VQA models, even though it is not trained on those databases. Our ablation experiments demonstrate that the learned representations are highly robust and generalize well across synthetic and realistic distortions. Our results indicate that compelling representations with perceptual bearing can be obtained using self-supervised learning. The implementations used in this work have been made available at https://github.com/pavancm/CONVIQT.
翻訳日:2022-06-30 21:32:57 公開日:2022-06-29
# 原子間相互作用モデリングのための球形チャネル

Spherical Channels for Modeling Atomic Interactions ( http://arxiv.org/abs/2206.14331v1 )

ライセンス: Link先を確認
C. Lawrence Zitnick, Abhishek Das, Adeesh Kolluru, Janice Lan, Muhammed Shuaibi, Anuroop Sriram, Zachary Ulissi, Brandon Wood(参考訳) 原子システムのエネルギーと力のモデル化は、エネルギー不足や気候変動など、世界で最も差し迫った問題の多くに対処する可能性を持つ計算化学における根本的な問題である。 これらの計算は伝統的に計算が非常に高価である密度汎関数理論を用いて行われる。 機械学習は、これらの計算の効率を数日から数時間から数秒に劇的に改善する可能性がある。 本稿では,原子エネルギーと力をモデル化する球状チャネルネットワーク(scn)を提案する。 scnはグラフニューラルネットワークであり、ノードが原子を表し、隣り合う原子をエッジする。 原子埋め込みは球面高調波を用いて表現される球状チャネルと呼ばれる球状関数の集合である。 3次元エッジ方向に基づいて埋め込みを回転させることで、メッセージの回転同分散を維持しながらより多くの情報を活用できることを実証する。 等分散は望ましい性質であるが、メッセージパッシングとアグリゲーションの両方においてこの制約を緩和することにより、精度を向上させることができる。 我々は、多数のタスクとメトリクスのエネルギーと力の予測において、大規模Open Catalyst 2020データセットの最先端結果を示す。

Modeling the energy and forces of atomic systems is a fundamental problem in computational chemistry with the potential to help address many of the world's most pressing problems, including those related to energy scarcity and climate change. These calculations are traditionally performed using Density Functional Theory, which is computationally very expensive. Machine learning has the potential to dramatically improve the efficiency of these calculations from days or hours to seconds. We propose the Spherical Channel Network (SCN) to model atomic energies and forces. The SCN is a graph neural network where nodes represent atoms and edges their neighboring atoms. The atom embeddings are a set of spherical functions, called spherical channels, represented using spherical harmonics. We demonstrate, that by rotating the embeddings based on the 3D edge orientation, more information may be utilized while maintaining the rotational equivariance of the messages. While equivariance is a desirable property, we find that by relaxing this constraint in both message passing and aggregation, improved accuracy may be achieved. We demonstrate state-of-the-art results on the large-scale Open Catalyst 2020 dataset in both energy and force prediction for numerous tasks and metrics.
翻訳日:2022-06-30 21:31:59 公開日:2022-06-29
# 大規模MIMOシステムにおける深層学習型CSIフィードバックの概要

Overview of Deep Learning-based CSI Feedback in Massive MIMO Systems ( http://arxiv.org/abs/2206.14383v1 )

ライセンス: Link先を確認
Jiajia Guo, Chao-Kai Wen, Shi Jin, Geoffrey Ye Li(参考訳) 大量の多重入力と多重出力によって達成される多くの性能は、送信機(基地局)におけるダウンリンクチャネル状態情報(csi)の精度に依存する。 csiフィードバックのオーバーヘッドは、特に送信アンテナの数が大きい場合に、かなりのアップリンク帯域幅リソースを占有する。 ディープラーニング(DL)ベースのCSIフィードバックは、DLベースのオートエンコーダによるCSI圧縮と再構築を指し、フィードバックオーバーヘッドを大幅に削減することができる。 本稿では,CSIフィードバックに広く用いられている基本的なDL概念から始まり,既存のDLベースのフィードバック作業の分類と記述から,このトピックに関する最新の研究の概要を概観する。 その焦点は、新しいニューラルネットワークアーキテクチャと、csiフィードバックの精度を改善するためのコミュニケーションエキスパート知識の利用である。 ビットレベルのCSIフィードバックと他の通信モジュールとの協調設計についても検討し、トレーニングデータセット収集、オンライントレーニング、複雑化、一般化、標準化効果などの実践的な課題について論じる。 本稿の最後には、将来の無線通信システムにおけるDLベースのCSIフィードバックに関連する課題と研究の方向性について述べる。

Many performance gains achieved by massive multiple-input and multiple-output depend on the accuracy of the downlink channel state information (CSI) at the transmitter (base station), which is usually obtained by estimating at the receiver (user terminal) and feeding back to the transmitter. The overhead of CSI feedback occupies substantial uplink bandwidth resources, especially when the number of the transmit antennas is large. Deep learning (DL)-based CSI feedback refers to CSI compression and reconstruction by a DL-based autoencoder and can greatly reduce feedback overhead. In this paper, a comprehensive overview of state-of-the-art research on this topic is provided, beginning with basic DL concepts widely used in CSI feedback and then categorizing and describing some existing DL-based feedback works. The focus is on novel neural network architectures and utilization of communication expert knowledge to improve CSI feedback accuracy. Works on bit-level CSI feedback and joint design of CSI feedback with other communication modules are also introduced, and some practical issues, including training dataset collection, online training, complexity, generalization, and standardization effect, are discussed. At the end of the paper, some challenges and potential research directions associated with DL-based CSI feedback in future wireless communication systems are identified.
翻訳日:2022-06-30 21:31:43 公開日:2022-06-29
# ボイラーnox濃度予測のためのオートエンコーダ・極値学習機械モデル

Auto-Encoder-Extreme Learning Machine Model for Boiler NOx Emission Concentration Prediction ( http://arxiv.org/abs/2206.14496v1 )

ライセンス: Link先を確認
Zhenhao Tang, Shikui Wang, Xiangying Chai, Shengxian Cao, Tinghui Ouyang, Yang Li(参考訳) 相互情報アルゴリズム(MI)、AE、EMMの組み合わせに基づき、NOx排出濃度を予測するために、自動エンコーダ(AE)極端学習機(ELM)-AE-ELMモデルを提案する。 まず,miアルゴリズムによって実用変数の重要性を計算し,その機構を分析し,nox排出濃度に関連する変数を決定する。 そして、選択した変数とnox放射濃度との時間遅延相関をさらに分析してモデル化データを再構成する。 その後、AEを適用して入力変数内の隠れた特徴を抽出する。 最後に、ELMアルゴリズムはNOx放出濃度と深い特徴の関係を確立する。 実験結果から,提案モデルが最先端モデルと比較して有望な性能を示すことが示された。

An automatic encoder (AE) extreme learning machine (ELM)-AE-ELM model is proposed to predict the NOx emission concentration based on the combination of mutual information algorithm (MI), AE, and ELM. First, the importance of practical variables is computed by the MI algorithm, and the mechanism is analyzed to determine the variables related to the NOx emission concentration. Then, the time delay correlations between the selected variables and NOx emission concentration are further analyzed to reconstruct the modeling data. Subsequently, the AE is applied to extract hidden features within the input variables. Finally, an ELM algorithm establishes the relationship between the NOx emission concentration and deep features. The experimental results on practical data indicate that the proposed model shows promising performance compared to state-of-art models.
翻訳日:2022-06-30 21:31:22 公開日:2022-06-29
# (参考訳) Trial2Vec: セルフスーパービジョンを用いたゼロショット臨床試験文書類似検索

Trial2Vec: Zero-Shot Clinical Trial Document Similarity Search using Self-Supervision ( http://arxiv.org/abs/2206.14719v1 )

ライセンス: CC BY 4.0
Zifeng Wang and Jimeng Sun(参考訳) 臨床試験は薬物開発に不可欠であるが、非常に高価で、実行に時間がかかる。 臨床試験を設計する際にも同様の歴史的裁判を研究することは有益である。 しかし、長いトライアル文書とラベル付きデータの欠如は、トライアルの類似性検索を困難にする。 同様の臨床試験に注釈を付けずに自己監督を通じて学習するゼロショット臨床試験検索手法Trial2Vecを提案する。 具体的には、臨床知識(例えば、umls知識ベースhttps://www.nlm.nih.gov/research/umls/index.html)とともに試験文書(タイトル、適格性基準、対象疾患など)のメタ構造を利用して、コントラストサンプルを自動的に生成する。 加えて、trial2vecは、メタ構造を考慮した試行文書をエンコードし、文書全体からマルチスペクトル情報を集約するコンパクト埋め込みを生成する。 本手法は, 医用的に解釈可能な埋め込みを可視化することで得られることを示し, 1600組の試用ペアで評価した, 精度/リコールにおける最良ベースラインに対して平均15%の改善が得られた。 さらに, 事前学習した埋め込みは, 240k以上の試験結果予測タスクに有効であることを示す。

Clinical trials are essential for drug development but are extremely expensive and time-consuming to conduct. It is beneficial to study similar historical trials when designing a clinical trial. However, lengthy trial documents and lack of labeled data make trial similarity search difficult. We propose a zero-shot clinical trial retrieval method, Trial2Vec, which learns through self-supervision without annotating similar clinical trials. Specifically, the meta-structure of trial documents (e.g., title, eligibility criteria, target disease) along with clinical knowledge (e.g., UMLS knowledge base https://www.nlm.nih.gov/research/umls/index.html) are leveraged to automatically generate contrastive samples. Besides, Trial2Vec encodes trial documents considering meta-structure thus producing compact embeddings aggregating multi-aspect information from the whole document. We show that our method yields medically interpretable embeddings by visualization and it gets a 15% average improvement over the best baselines on precision/recall for trial retrieval, which is evaluated on our labeled 1600 trial pairs. In addition, we prove the pre-trained embeddings benefit the downstream trial outcome prediction task over 240k trials.
翻訳日:2022-06-30 21:28:02 公開日:2022-06-29
# 潜在空間における蒸留モデル障害の方向

Distilling Model Failures as Directions in Latent Space ( http://arxiv.org/abs/2206.14754v1 )

ライセンス: Link先を確認
Saachi Jain, Hannah Lawrence, Ankur Moitra, Aleksander Madry(参考訳) データセットにおけるハードサブポピュレーションとスプリアス相関を分離する既存の方法は、しばしば人間の介入を必要とする。 これにより、これらのメソッドは、労働集約的かつデータセットに特化することができる。 そこで本研究では,モデルの故障モードを自動的に蒸留するスケーラブルな手法を提案する。 具体的には、線形分類器を用いて一貫したエラーパターンを識別し、特徴空間内の方向としてこれらの障害モードの自然な表現を誘導する。 このフレームワークにより、トレーニングデータセット内の課題のあるサブポピュレーションを発見し、自動的にキャプションし、これらのサブポピュレーションにおけるモデルのパフォーマンスを改善することができることを示す。 https://github.com/MadryLab/failure-directionsで利用可能なコード

Existing methods for isolating hard subpopulations and spurious correlations in datasets often require human intervention. This can make these methods labor-intensive and dataset-specific. To address these shortcomings, we present a scalable method for automatically distilling a model's failure modes. Specifically, we harness linear classifiers to identify consistent error patterns, and, in turn, induce a natural representation of these failure modes as directions within the feature space. We demonstrate that this framework allows us to discover and automatically caption challenging subpopulations within the training dataset, and intervene to improve the model's performance on these subpopulations. Code available at https://github.com/MadryLab/failure-directions
翻訳日:2022-06-30 21:09:28 公開日:2022-06-29
# 条件付き相互情報による一般化の理解

Understanding Generalization via Leave-One-Out Conditional Mutual Information ( http://arxiv.org/abs/2206.14800v1 )

ライセンス: Link先を確認
Mahdi Haghifam, Shay Moran, Daniel M. Roy, Gintare Karolina Dziugaite(参考訳) 学習アルゴリズムの出力(特定の要約)とその$n$の訓練データとの相互情報、すなわち、訓練データが置換せずにランダムに選択される、$n+1$i.d.のデータについて検討する。 これらの条件付き相互情報(CMI)の退行変種(Steinke and Zakynthinou, 2020)も、有界損失関数を持つ学習アルゴリズムの平均一般化誤差を制御する。 0-1の損失でゼロ経験的リスクを達成するアルゴリズム(補間アルゴリズム)を学習するために、我々は、残余CMIと古典的残余誤差推定との明確な接続を提供する。 この接続を用いて、(評価された)残高CMIの観点から、リスクの上下境界を得る。 制限リスクが定数であるか多項式的に崩壊した場合、境界は2の定数係数内に収束する。 そこで本研究では,VC クラスを対象とした汎用的トランスダクティブ学習アルゴリズムである 1-inclusion graph アルゴリズムの集団リスクを,実現可能な環境で解析する。 残欠型cmiを用いて, steinke と zakynthinou (2020) が提起したオープンチャレンジに答えながら, 実現可能な設定で vc クラスを学習するための最適境界を一致させる。 最後に, 一般化研究における残余CMIの役割を理解するために, 残余CMIを指標の階層に配置し, 根元に新たな無条件相互情報を置く。 0-1損失と補間学習アルゴリズムでは、この相互情報は正確にリスクである。

We study the mutual information between (certain summaries of) the output of a learning algorithm and its $n$ training data, conditional on a supersample of $n+1$ i.i.d. data from which the training data is chosen at random without replacement. These leave-one-out variants of the conditional mutual information (CMI) of an algorithm (Steinke and Zakynthinou, 2020) are also seen to control the mean generalization error of learning algorithms with bounded loss functions. For learning algorithms achieving zero empirical risk under 0-1 loss (i.e., interpolating algorithms), we provide an explicit connection between leave-one-out CMI and the classical leave-one-out error estimate of the risk. Using this connection, we obtain upper and lower bounds on risk in terms of the (evaluated) leave-one-out CMI. When the limiting risk is constant or decays polynomially, the bounds converge to within a constant factor of two. As an application, we analyze the population risk of the one-inclusion graph algorithm, a general-purpose transductive learning algorithm for VC classes in the realizable setting. Using leave-one-out CMI, we match the optimal bound for learning VC classes in the realizable setting, answering an open challenge raised by Steinke and Zakynthinou (2020). Finally, in order to understand the role of leave-one-out CMI in studying generalization, we place leave-one-out CMI in a hierarchy of measures, with a novel unconditional mutual information at the root. For 0-1 loss and interpolating learning algorithms, this mutual information is observed to be precisely the risk.
翻訳日:2022-06-30 21:09:18 公開日:2022-06-29
# 終末予測課題のためのメタラーニング

Meta-Learning over Time for Destination Prediction Tasks ( http://arxiv.org/abs/2206.14801v1 )

ライセンス: Link先を確認
Mark Tenzer, Zeeshan Rasheed, Khurram Shafique, Nuno Vasconcelos(参考訳) 車両の行動を理解し予測する必要性は、都市計画と管理、ライドシェアリングサービス、インテリジェントな交通システムなど、交通分野における公共と民間の両方の目標を基礎としている。 個人の好みや目的の目的地は日、週、年によって異なり、例えばバーは夜で最も人気があり、ビーチは夏に最も人気がある。 この原則にもかかわらず、ポルトガルのポルトで人気のベンチマークデータセットに関する最近の研究では、時間情報の導入による予測性能の限界的な改善しか見出されていない。 本稿では、ニューラルネットワークが入力に応じて自身の重み付けを変更することを学習するメタラーニング("learning to learn")の変種であるハイパーネットワークに基づくアプローチを提案する。 私たちの場合、目的地予測の責任の重みは、特に入力軌道のメタデータ、時間によって異なります。 時間条件重みは,アブレーション研究と同等の先行研究に比較してモデルの誤差を著しく改善し,時間知識が車両の意図する目的地の予測を改善するという仮説を確認した。

A need to understand and predict vehicles' behavior underlies both public and private goals in the transportation domain, including urban planning and management, ride-sharing services, and intelligent transportation systems. Individuals' preferences and intended destinations vary throughout the day, week, and year: for example, bars are most popular in the evenings, and beaches are most popular in the summer. Despite this principle, we note that recent studies on a popular benchmark dataset from Porto, Portugal have found, at best, only marginal improvements in predictive performance from incorporating temporal information. We propose an approach based on hypernetworks, a variant of meta-learning ("learning to learn") in which a neural network learns to change its own weights in response to an input. In our case, the weights responsible for destination prediction vary with the metadata, in particular the time, of the input trajectory. The time-conditioned weights notably improve the model's error relative to ablation studies and comparable prior work, and we confirm our hypothesis that knowledge of time should improve prediction of a vehicle's intended destination.
翻訳日:2022-06-30 21:08:47 公開日:2022-06-29
# fleet-dagger: スケーラブルな人間の監督によるインタラクティブなロボットフリート学習

Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human Supervision ( http://arxiv.org/abs/2206.14349v1 )

ライセンス: Link先を確認
Ryan Hoque, Lawrence Yunliang Chen, Satvik Sharma, Karthik Dharmarajan, Brijen Thananjeyan, Pieter Abbeel, Ken Goldberg(参考訳) ロボットの商業的および産業的展開は、ロボットが作業の進捗を危険にさらす場合、実行中に遠隔の人間テレオペレーターに回帰することが多い。 継続的学習によって、人間の遠隔プールからの介入は、時間とともにロボット艦隊の制御ポリシーを改善するためにも使用できる。 中心となる問題は、人間の注意を個々のロボットに効果的に割り当てる方法だ。 以前の作業では、これをシングルロボット、シングルヒューマン設定で処理していた。 複数のロボットが対話的に複数のヒューマンスーパーバイザからクエリと学習を行う、interactive fleet learning(ifl)の設定を定式化する。 本稿では、iflアルゴリズムの評価のために、gpuアクセラレーションされたアイザックジム環境のiflベンチマークスイートを完全実装した。 IFLアルゴリズムのファミリーであるFleet-DAggerを提案し、新しいFleet-DAggerアルゴリズムをシミュレーションで4つのベースラインと比較する。 4本のabb yumiロボットアームを用いた物理ブロックプッシュ実験も1000回実施した。 実験の結果,ロボットへの人体の配置はロボットの艦隊性能に大きく影響し,我々のアルゴリズムはベースラインよりも最大8.8倍高いリターンを達成できることがわかった。 コード、ビデオ、補足資料についてはhttps://tinyurl.com/fleet-daggerを参照。

Commercial and industrial deployments of robot fleets often fall back on remote human teleoperators during execution when robots are at risk or unable to make task progress. With continual learning, interventions from the remote pool of humans can also be used to improve the robot fleet control policy over time. A central question is how to effectively allocate limited human attention to individual robots. Prior work addresses this in the single-robot, single-human setting. We formalize the Interactive Fleet Learning (IFL) setting, in which multiple robots interactively query and learn from multiple human supervisors. We present a fully implemented open-source IFL benchmark suite of GPU-accelerated Isaac Gym environments for the evaluation of IFL algorithms. We propose Fleet-DAgger, a family of IFL algorithms, and compare a novel Fleet-DAgger algorithm to 4 baselines in simulation. We also perform 1000 trials of a physical block-pushing experiment with 4 ABB YuMi robot arms. Experiments suggest that the allocation of humans to robots significantly affects robot fleet performance, and that our algorithm achieves up to 8.8x higher return on human effort than baselines. See https://tinyurl.com/fleet-dagger for code, videos, and supplemental material.
翻訳日:2022-06-30 21:08:27 公開日:2022-06-29
# リアルタイムロボット運動生成のための深部能動的視覚注意:ツールボディ同化と適応ツール利用の創出

Deep Active Visual Attention for Real-time Robot Motion Generation: Emergence of Tool-body Assimilation and Adaptive Tool-use ( http://arxiv.org/abs/2206.14530v1 )

ライセンス: Link先を確認
Hyogo Hiruma, Hiroshi Ito, Hiroki Mori, and Tetsuya Ogata(参考訳) 環境を十分に知覚することはロボットの動き生成において重要な要素である。 深層視覚処理モデルの導入は、この機能の拡張に寄与しているが、既存の手法では、知覚するものを積極的に修正する能力が欠如している。 本稿では,人間の認知構造に触発された新しいロボット運動生成モデルを提案する。 このモデルには状態駆動のアクティブなトップダウン視覚的注意モジュールが組み込まれており、タスクの状態に基づいてターゲットを積極的に変更することができる。 このような注意をロールベースの注意と呼ぶのは、動きを通じて一貫した役割を共有するターゲットに向けられた注意の獲得からである。 このモデルは、ロボットツール使用タスクに基づいて訓練され、ロボットグリップとツールがそれぞれ、オブジェクトのピックとオブジェクトのドラッグング動作において、同一のエンドエフェクターとして認識される。 これは道具体同化と呼ばれる生物学的現象に類似しており、道具を自分の身体の拡張とみなすものである。 その結果、訓練されていない道具や実験者の気遣いに晒されても、安定した注意と動きを維持できるモデル視覚の柔軟性の向上が示唆された。

Sufficiently perceiving the environment is a critical factor in robot motion generation. Although the introduction of deep visual processing models have contributed in extending this ability, existing methods lack in the ability to actively modify what to perceive; humans perform internally during visual cognitive processes. This paper addresses the issue by proposing a novel robot motion generation model, inspired by a human cognitive structure. The model incorporates a state-driven active top-down visual attention module, which acquires attentions that can actively change targets based on task states. We term such attentions as role-based attentions, since the acquired attention directed to targets that shared a coherent role throughout the motion. The model was trained on a robot tool-use task, in which the role-based attentions perceived the robot grippers and tool as identical end-effectors, during object picking and object dragging motions respectively. This is analogous to a biological phenomenon called tool-body assimilation, in which one regards a handled tool as an extension of one's body. The results suggested an improvement of flexibility in model's visual perception, which sustained stable attention and motion even if it was provided with untrained tools or exposed to experimenter's distractions.
翻訳日:2022-06-30 21:08:04 公開日:2022-06-29
# ASRのためのRNN-Tにおける予測ネットワークアーキテクチャについて

On the Prediction Network Architecture in RNN-T for ASR ( http://arxiv.org/abs/2206.14618v1 )

ライセンス: Link先を確認
Dario Albesano and Jes\'us Andr\'es-Ferrer and Nicola Ferri and Puming Zhan(参考訳) RNN-Tモデルは、オンラインストリーミングモードでの競争力と操作能力のために、文学や商業システムで人気を博している。 本研究では,単調モデルとオリジナルのrnn-tモデルの両方に対する予測ネットワークアーキテクチャの比較を行った。 本稿では,共通状態のコンフォーメータエンコーダに基づく4種類の予測ネットワークと,librispeechおよび内部医療会話データセットを用いた報告結果を比較した。 本研究はオフラインバッチモードとオンラインストリーミングシナリオの両方をカバーする。 従来の研究とは対照的に,Transformer は Conformer encoder とともに予測ネットワークとして使用する場合,LSTM を常に上回っている訳ではない。 スコアボードに触発されて、オンラインストリーミングベンチマークで他よりも優れる、新しいシンプルな予測ネットワークアーキテクチャであるn-concatを提案しました。 トランスフォーマーとn-gramの縮小アーキテクチャは、以前のコンテキストにおいていくつかの重要な異なる振る舞いで、非常によく似ている。 総じて、LSTMベースラインに比べて最大4.1%の相対的なWER改善を実現し、予測ネットワークパラメータをほぼ1桁(8.4倍)削減した。

RNN-T models have gained popularity in the literature and in commercial systems because of their competitiveness and capability of operating in online streaming mode. In this work, we conduct an extensive study comparing several prediction network architectures for both monotonic and original RNN-T models. We compare 4 types of prediction networks based on a common state-of-the-art Conformer encoder and report results obtained on Librispeech and an internal medical conversation data set. Our study covers both offline batch-mode and online streaming scenarios. In contrast to some previous works, our results show that Transformer does not always outperform LSTM when used as prediction network along with Conformer encoder. Inspired by our scoreboard, we propose a new simple prediction network architecture, N-Concat, that outperforms the others in our on-line streaming benchmark. Transformer and n-gram reduced architectures perform very similarly yet with some important distinct behaviour in terms of previous context. Overall we obtained up to 4.1 % relative WER improvement compared to our LSTM baseline, while reducing prediction network parameters by nearly an order of magnitude (8.4 times).
翻訳日:2022-06-30 21:07:40 公開日:2022-06-29
# 逐次ASRシステムへの系列に基づく言語モデルの文脈密度比

Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems ( http://arxiv.org/abs/2206.14623v1 )

ライセンス: Link先を確認
Jes\'us Andr\'es-Ferrer and Dario Albesano and Puming Zhan and Paul Vozila(参考訳) エンド-2エンド(E2E)モデルは、性能とアドバンテージのため、一部のASRタスクで人気が高まっている。 これらのE2Eモデルは、音響入力が与えられたトークンの後方分布を直接近似する。 その結果、E2Eシステムは出力トークン上の言語モデル(LM)を暗黙的に定義し、独立的に訓練された言語モデルの活用は従来のASRシステムよりも容易でない。 これにより、E2E ASRシステムをコンテキストプロファイルに動的に適応させることが難しくなり、名前付きエンティティのような特別な単語の認識がより良くなる。 本研究では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。 以上の手法を医師や患者との会話の書き起こしを行うE2E ASRシステムに適用し、会話の名前にE2Eシステムを適用する。 提案手法は,e2eベースライン上の最大46.5%の相対的改善を,テストセット全体の認識精度を低下させることなく達成する。 さらに、コンテキストの浅い核融合のベースラインを22.1%上回っている。

End-2-end (E2E) models have become increasingly popular in some ASR tasks because of their performance and advantages. These E2E models directly approximate the posterior distribution of tokens given the acoustic inputs. Consequently, the E2E systems implicitly define a language model (LM) over the output tokens, which makes the exploitation of independently trained language models less straightforward than in conventional ASR systems. This makes it difficult to dynamically adapt E2E ASR system to contextual profiles for better recognizing special words such as named entities. In this work, we propose a contextual density ratio approach for both training a contextual aware E2E model and adapting the language model to named entities. We apply the aforementioned technique to an E2E ASR system, which transcribes doctor and patient conversations, for better adapting the E2E system to the names in the conversations. Our proposed technique achieves a relative improvement of up to 46.5% on the names over an E2E baseline without degrading the overall recognition accuracy of the whole test set. Moreover, it also surpasses a contextual shallow fusion baseline by 22.1 % relative.
翻訳日:2022-06-30 21:07:22 公開日:2022-06-29
# マニフォールド上の縮小密度推定のためのスコアマッチング

Score Matching for Truncated Density Estimation on a Manifold ( http://arxiv.org/abs/2206.14668v1 )

ライセンス: Link先を確認
Daniel J. Williams and Song Liu(参考訳) 観測が終了すると、データセットの不完全な画像に制限されます。 近年の手法では, 抽出可能な正規化定数へのアクセスが不要なスコアマッチングに切り替えることで, トラッピング密度推定問題に対処している。 ここでは、リーマン多様体に対するtruncated score matchingに対する新しい拡張を示す。 von Mises-Fisher と Kent の 2 次元球面上の分布を$\R^3$ で表し、アメリカ合衆国における極端な嵐観測の現実の応用を提示する。 シミュレーションデータ実験では、スコアマッチング推定器は、推定誤差の低い真のパラメータ値を近似することができ、最大確率推定器よりも改善を示す。

When observations are truncated, we are limited to an incomplete picture of our dataset. Recent methods deal with truncated density estimation problems by turning to score matching, where the access to the intractable normalising constant is not required. We present a novel extension to truncated score matching for a Riemannian manifold. Applications are presented for the von Mises-Fisher and Kent distributions on a two dimensional sphere in $\R^3$, as well as a real-world application of extreme storm observations in the USA. In simulated data experiments, our score matching estimator is able to approximate the true parameter values with a low estimation error and shows improvements over a maximum likelihood estimator.
翻訳日:2022-06-30 21:06:16 公開日:2022-06-29
# 地理的プロキシ設定における低リソースアクセント分類--法科学と社会音学の立場から

Low-resource Accent Classification in Geographically-proximate Settings: A Forensic and Sociophonetics Perspective ( http://arxiv.org/abs/2206.12759v2 )

ライセンス: Link先を確認
Qingcheng Zeng, Dading Chong, Peilin Zhou, Jie Yang(参考訳) アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。 近年,Deep Learning-based methodとTransformer-based pretrained modelは両領域で最高性能を達成している。 しかし,ほとんどのアクセント分類タスクは,様々な英語アクセントの分類に重点を置いており,地理的に近似的なアクセント分類にはほとんど注意が払われなかった。 そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせを検討した。 事前訓練されたモデルから生成された音声表現は、一般的に下流の分類においてより良い性能を持つが、Mel Frequency Cepstral Coefficients (MFCC) やホルマント測定のような伝統的な手法は特定の強度を備えている。 以上の結果から,データ量が比較的少ない法医学的音声学のシナリオでは,簡単なモデリング手法と分類器が特徴抽出器として最先端の事前訓練音声モデルと競合する可能性が示唆された。 また,社会音素の変化を定量化するための新たな手法についても検証した。

Accented speech recognition and accent classification are relatively under-explored research areas in speech technology. Recently, deep learning-based methods and Transformer-based pretrained models have achieved superb performances in both areas. However, most accent classification tasks focused on classifying different kinds of English accents and little attention was paid to geographically-proximate accent classification, especially under a low-resource setting where forensic speech science tasks usually encounter. In this paper, we explored three main accent modelling methods combined with two different classifiers based on 105 speaker recordings retrieved from five urban varieties in Northern England. Although speech representations generated from pretrained models generally have better performances in downstream classification, traditional methods like Mel Frequency Cepstral Coefficients (MFCCs) and formant measurements are equipped with specific strengths. These results suggest that in forensic phonetics scenario where data are relatively scarce, a simple modelling method and classifier could be competitive with state-of-the-art pretrained speech models as feature extractors, which could enhance a sooner estimation for the accent information in practices. Besides, our findings also cross-validated a new methodology in quantifying sociophonetic changes.
翻訳日:2022-06-30 21:06:03 公開日:2022-06-29
# テキストオンリーとセミスーパーバイザードトレーニングによる熟考の改善

Improving Deliberation by Text-Only and Semi-Supervised Training ( http://arxiv.org/abs/2206.14716v1 )

ライセンス: Link先を確認
Ke Hu, Tara N. Sainath, Yanzhang He, Rohit Prabhavalkar, Trevor Strohman, Sepand Mavandadi, Weiran Wang(参考訳) 音声のみのデータに基づくテキストのみの半教師付きトレーニングが最近,未ラベルテキストや音声データの普及により人気が高まっている。 本研究では,テキストのみと半教師付きトレーニングを注意に基づく検討モデルに組み込むことを提案する。 テキストのみのデータをトレーニングに組み込むことで,テキストエンコーダから変換器(BERT)への双方向エンコーダ表現と,ジョイント音響・テキストデコーダ(JATD)と半教師付きトレーニングを用いた大規模音声と音声のみの発話を,ベースラインディリベレーションと比較して4%~12%のWER削減を実現した。 state-of-the-art language model (lm) のリコーリング法と比較して、熟考モデルはgoogle voice search werを11%削減する。 検討モデルは,適切なエンドポイントレイテンシを持つ最先端lmリコーナと比較して,人間同士の肯定的な評価も達成できることを示す。

Text-only and semi-supervised training based on audio-only data has gained popularity recently due to the wide availability of unlabeled text and speech data. In this work, we propose incorporating text-only and semi-supervised training into an attention-based deliberation model. By incorporating text-only data in training a bidirectional encoder representation from transformer (BERT) for the deliberation text encoder, and large-scale text-to-speech and audio-only utterances using joint acoustic and text decoder (JATD) and semi-supervised training, we achieved 4%-12% WER reduction for various tasks compared to the baseline deliberation. Compared to a state-of-the-art language model (LM) rescoring method, the deliberation model reduces the Google Voice Search WER by 11% relative. We show that the deliberation model also achieves a positive human side-by-side evaluation compared to the state-of-the-art LM rescorer with reasonable endpointer latencies.
翻訳日:2022-06-30 21:05:42 公開日:2022-06-29
# 不確かさを意識したPanoptic Segmentation

Uncertainty-aware Panoptic Segmentation ( http://arxiv.org/abs/2206.14554v1 )

ライセンス: Link先を確認
Kshitij Sirohi, Sajad Marvi, Daniel B\"uscher, Wolfram Burgard(参考訳) 現代の自律システムでは、信頼できるシーン理解が不可欠である。 現在の学習ベースのメソッドは通常、セグメンテーションの品質のみを考慮したセグメンテーションメトリクスに基づいてパフォーマンスを最大化しようとする。 しかし,実世界のシステムの安全な運用には,予測の不確実性も考慮する必要がある。 本研究では,画素単位のセグメンテーションとインスタンス単位のセグメンテーションを予測し,画素単位のセグメンテーションを推定することを目的とした,不確実性認識型パンオプティクスセグメンテーションの新たなタスクを提案する。 そこで我々は,その定量分析を容易にするための2つの新しい指標,不確実性を認識したパノプティクス品質(uPQ)とパノプティクス予測校正誤差(pECE)を定義した。 我々はさらに,この課題を解決するために,新しいtop-down obviousal panoptic segmentation network (evpsnet)を提案する。 我々のアーキテクチャは、予測された不確実性を利用する単純だが効果的な確率的融合モジュールを採用している。 さらに, 深層学習による確率を利用したセグメンテーションのために, IoU を最適化する Lov\'asz の顕在的損失関数を提案する。 さらに,最先端のパノプティックセグメンテーションネットワークとサンプリング不要な不確実性推定手法を組み合わせた,いくつかの強力なベースラインを提供する。 広範な評価から、evpsnet は標準 panoptic quality (pq) と不確実性を認識したpanoptic metrics の新たな最先端技術を実現しています。

Reliable scene understanding is indispensable for modern autonomous systems. Current learning-based methods typically try to maximize their performance based on segmentation metrics that only consider the quality of the segmentation. However, for the safe operation of a system in the real world it is crucial to consider the uncertainty in the prediction as well. In this work, we introduce the novel task of uncertainty-aware panoptic segmentation, which aims to predict per-pixel semantic and instance segmentations, together with per-pixel uncertainty estimates. We define two novel metrics to facilitate its quantitative analysis, the uncertainty-aware Panoptic Quality (uPQ) and the panoptic Expected Calibration Error (pECE). We further propose the novel top-down Evidential Panoptic Segmentation Network (EvPSNet) to solve this task. Our architecture employs a simple yet effective probabilistic fusion module that leverages the predicted uncertainties. Additionally, we propose a new Lov\'asz evidential loss function to optimize the IoU for the segmentation utilizing the probabilities provided by deep evidential learning. Furthermore, we provide several strong baselines combining state-of-the-art panoptic segmentation networks with sampling-free uncertainty estimation techniques. Extensive evaluations show that our EvPSNet achieves the new state-of-the-art for the standard Panoptic Quality (PQ), as well as for our uncertainty-aware panoptic metrics.
翻訳日:2022-06-30 21:05:05 公開日:2022-06-29
# 超音波画像における胎盤分割:不確かさの源と限られた視野への対処

Placenta Segmentation in Ultrasound Imaging: Addressing Sources of Uncertainty and Limited Field-of-View ( http://arxiv.org/abs/2206.14746v1 )

ライセンス: Link先を確認
Veronika A. Zimmer, Alberto Gomez, Emily Skelton, Robert Wright, Gavin Wheeler, Shujie Deng, Nooshin Ghavami, Karen Lloyd, Jacqueline Matthew, Bernhard Kainz, Daniel Rueckert, Joseph V. Hajnal, Julia A. Schnabel(参考訳) 胎児超音波(US)における胎盤の自動分節化が課題である (i)胎盤外観の多様性が高いこと。 (ii)高度に可変な参照アノテーションをもたらす米国の制限された品質 (三)後期妊娠時の全胎盤評価を禁止する米国の限られた視野 本研究では,畳み込みニューラルネットワークにおける胎盤位置(前方,後方)の分類と意味的胎盤セグメンテーションを組み合わせたマルチタスク学習手法を用いて,これら3つの課題を解決する。 分類タスクを通じて、モデルはより大きく多様なデータセットから学習し、特に限られたトレーニングセット条件下でのセグメンテーションタスクの精度を向上させる。 このアプローチにより,複数カウンサーからのアノテーションの可変性を調査し,自動セグメンテーション(前部0.86,後側胎盤0.83)が,サーバ内およびオブザーバ間変動と比較して人間レベルの性能を実現することを示した。 最後に,マルチプローブ画像取得,イメージ融合,イメージセグメンテーションの3段階からなるマルチビューus取得パイプラインを用いて,プレーゼンタセグメンテーション全体を配信する手法を提案する。 これにより、単一プローブの視野を超える画像アーティファクトを削減した米国の胎盤のような大きな構造の高品質なセグメンテーションが実現される。

Automatic segmentation of the placenta in fetal ultrasound (US) is challenging due to the (i) high diversity of placenta appearance, (ii) the restricted quality in US resulting in highly variable reference annotations, and (iii) the limited field-of-view of US prohibiting whole placenta assessment at late gestation. In this work, we address these three challenges with a multi-task learning approach that combines the classification of placental location (e.g., anterior, posterior) and semantic placenta segmentation in a single convolutional neural network. Through the classification task the model can learn from larger and more diverse datasets while improving the accuracy of the segmentation task in particular in limited training set conditions. With this approach we investigate the variability in annotations from multiple raters and show that our automatic segmentations (Dice of 0.86 for anterior and 0.83 for posterior placentas) achieve human-level performance as compared to intra- and inter-observer variability. Lastly, our approach can deliver whole placenta segmentation using a multi-view US acquisition pipeline consisting of three stages: multi-probe image acquisition, image fusion and image segmentation. This results in high quality segmentation of larger structures such as the placenta in US with reduced image artifacts which are beyond the field-of-view of single probes.
翻訳日:2022-06-30 21:03:06 公開日:2022-06-29
# invaastcluster: 初期プログラミング課題への不変ベースのプログラムクラスタリングの適用について

InvAASTCluster: On Applying Invariant-Based Program Clustering to Introductory Programming Assignments ( http://arxiv.org/abs/2206.14175v2 )

ライセンス: Link先を確認
Pedro Orvalho and Mikol\'a\v{s} Janota and Vasco Manquinho(参考訳) 大規模なオープン・オンライン・コース(moocs)に参加する学生の数が膨大であるため、導入型プログラミング課題(ipas)に焦点を当てた自動プログラム修復技術が増えている。 このような最先端技術は、プログラムクラスタリングを使用して、以前の正しい学生実装を利用して、与えられた新しい不正な提出を修復する。 通常、これらの修復手法はクラスタリング手法を用いるが、これはプログラムを修復するために利用可能な全ての正しい学生の応募を解析することは不可能である。 クラスタリング手法は、抽象構文木(ast)、構文、制御フロー、データフローなど、いくつかの特徴に基づくプログラム表現を使用する。 しかし、これらの特徴は、意味的に類似したプログラムを表現する際には壊れることがある。 本稿では,複数のプログラム実行で観測される動的生成プログラム不変量を利用して,意味的に等価なipaをクラスタ化する,プログラムクラスタリングのための新しい手法であるinvaastclusterを提案する。 我々の主な目的は、プログラムのセマンティクス、不変量、構造、および匿名化された抽象構文木を組み合わせることで、プログラムのより適切な表現を見つけることである。 InvAASTClusterの評価は、異なる正しいIPAの集合をクラスタリングする際に、提案プログラム表現が構文ベースの表現より優れていることを示している。 さらに、InvAASTClusterを最先端のクラスタリングベースのプログラム修復ツールに統合し、一連のIPAで評価する。 以上の結果から,InvAASTClusterは,多数の学生プログラムを短時間で修復し,クラスタリングベースのプログラム修復ツールで使用する場合の最先端化を図っている。

Due to the vast number of students enrolled in Massive Open Online Courses (MOOCs), there has been an increasing number of automated program repair techniques focused on introductory programming assignments (IPAs). Such state-of-the-art techniques use program clustering to take advantage of previous correct student implementations to repair a given new incorrect submission. Usually, these repair techniques use clustering methods since analyzing all available correct student submissions to repair a program is not feasible. The clustering methods use program representations based on several features such as abstract syntax tree (AST), syntax, control flow, and data flow. However, these features are sometimes brittle when representing semantically similar programs. This paper proposes InvAASTCluster, a novel approach for program clustering that takes advantage of dynamically generated program invariants observed over several program executions to cluster semantically equivalent IPAs. Our main objective is to find a more suitable representation of programs using a combination of the program's semantics, through its invariants, and its structure, through its anonymized abstract syntax tree. The evaluation of InvAASTCluster shows that the proposed program representation outperforms syntax-based representations when clustering a set of different correct IPAs. Furthermore, we integrate InvAASTCluster into a state-of-the-art clustering-based program repair tool and evaluate it on a set of IPAs. Our results show that InvAASTCluster advances the current state-of-the-art when used by clustering-based program repair tools by repairing a larger number of students' programs in a shorter amount of time.
翻訳日:2022-06-30 21:02:36 公開日:2022-06-29
# CoAP-DoS: IoTネットワーク侵入データセット

CoAP-DoS: An IoT Network Intrusion Dataset ( http://arxiv.org/abs/2206.14341v1 )

ライセンス: Link先を確認
Jared Mathews, Prosenjit Chatterjee, Shankar Banik(参考訳) IoTデバイスがより重要なネットワークに統合されるにつれて、セキュアなIoT(Internet of Things)デバイスの必要性が高まっている。 多くのシステムはこれらのデバイスを引き続き利用し、信頼性の高いサービスを提供している。 iotデバイスに対するサービス拒否は、これらの低電力デバイスがサービス拒否攻撃の影響を受けやすいため、真の脅威である。 機械学習を有効にしたネットワーク侵入検知システムは、新しい脅威を特定するのに有効であるが、うまく機能するには大量のデータを必要とする。 多くのネットワークトラフィックデータセットがあるが、IoTネットワークトラフィックに焦点を当てているものはほとんどない。 IoTネットワークデータセットには、サービスデータのCoAP否定が欠如している。 このギャップをカバーする新しいデータセットを提案する。 我々は、実際のCoAP攻撃からネットワークトラフィックを収集し、複数の異なる機械学習分類器のデータを比較して、新しいデータセットを開発する。 データセットは多くの分類器で有効であることを示す。

The need for secure Internet of Things (IoT) devices is growing as IoT devices are becoming more integrated into vital networks. Many systems rely on these devices to remain available and provide reliable service. Denial of service attacks against IoT devices are a real threat due to the fact these low power devices are very susceptible to denial-of-service attacks. Machine learning enabled network intrusion detection systems are effective at identifying new threats, but they require a large amount of data to work well. There are many network traffic data sets but very few that focus on IoT network traffic. Within the IoT network data sets there is a lack of CoAP denial of service data. We propose a novel data set covering this gap. We develop a new data set by collecting network traffic from real CoAP denial of service attacks and compare the data on multiple different machine learning classifiers. We show that the data set is effective on many classifiers.
翻訳日:2022-06-30 21:02:06 公開日:2022-06-29
# 複数の四足歩行ロボットによるケーブル牽引荷重の協調航法と操作

Collaborative Navigation and Manipulation of a Cable-towed Load by Multiple Quadrupedal Robots ( http://arxiv.org/abs/2206.14424v1 )

ライセンス: Link先を確認
Chenyu Yang, Guo Ning Sue, Zhongyu Li, Lizhi Yang, Haotian Shen, Yufeng Chi, Akshara Rai, Jun Zeng, Koushil Sreenath(参考訳) 本稿では,ロボットが目標地点にケーブルで荷を引っ張り込み,衝突をリアルタイムに回避するという課題に対処する。 ケーブルの導入(硬いリンクとは対照的に)により、ロボットチームはケーブルのスラック/タウトスイッチを通じて固有の寸法を変更することで狭い空間を移動できる。 しかし、ハイブリッドモードスイッチと複数のロボット間の動的結合と負荷のため、これは難しい問題である。 このような問題に対処する以前の試みはオフラインで行われ、オンライン上の障害を避けることを考慮していない。 本稿では,ハイブリッドモードスイッチを扱う並列化された集中軌道最適化を用いたケースケード計画手法を提案する。 さらに,ロボット毎の分散プランナーのセットを開発し,協調負荷操作の課題をオンライン上で解決する手法を提案する。 我々は,1台のロボットで移動するには重すぎるケーブル牽引荷重を,実時間フィードバックとリアクティブ計画を備えた狭い空間に移動させることのできる,最初の協調型自律型フレームワークの開発と実証を行った。

This paper tackles the problem of robots collaboratively towing a load with cables to a specified goal location while avoiding collisions in real time. The introduction of cables (as opposed to rigid links) enables the robotic team to travel through narrow spaces by changing its intrinsic dimensions through slack/taut switches of the cable. However, this is a challenging problem because of the hybrid mode switches and the dynamical coupling among multiple robots and the load. Previous attempts at addressing such a problem were performed offline and do not consider avoiding obstacles online. In this paper, we introduce a cascaded planning scheme with a parallelized centralized trajectory optimization that deals with hybrid mode switches. We additionally develop a set of decentralized planners per robot, which enables our approach to solve the problem of collaborative load manipulation online. We develop and demonstrate one of the first collaborative autonomy framework that is able to move a cable-towed load, which is too heavy to move by a single robot, through narrow spaces with real-time feedback and reactive planning in experiments.
翻訳日:2022-06-30 21:01:52 公開日:2022-06-29
# 拡張逆確率重み付けと機械学習を用いた観測ネットワークデータからの処理効果推定

Treatment Effect Estimation from Observational Network Data using Augmented Inverse Probability Weighting and Machine Learning ( http://arxiv.org/abs/2206.14591v1 )

ライセンス: Link先を確認
Corinne Emmenegger and Meta-Lina Spohn and Peter B\"uhlmann(参考訳) 治療効果推定のための因果推論法は、通常独立した実験単位を仮定する。 しかし、実験単位が相互作用する可能性があるため、この仮定はしばしば疑わしい。 従属観測データに対する因果的治療効果の推定と推定のために拡張逆確率重み付け(aipw)を開発した。 ネットワーク上で相互作用するユニットによって引き起こされる余剰効果のごく一般的な事例を網羅する。 プラグイン機械学習を用いて無限次元のニュアンス成分を推定し,パラメトリック速度で収束し,漸近的にガウス分布に従う一貫した処理効果推定を行う。

Causal inference methods for treatment effect estimation usually assume independent experimental units. However, this assumption is often questionable because experimental units may interact. We develop augmented inverse probability weighting (AIPW) for estimation and inference of causal treatment effects on dependent observational data. Our framework covers very general cases of spillover effects induced by units interacting in networks. We use plugin machine learning to estimate infinite-dimensional nuisance components leading to a consistent treatment effect estimator that converges at the parametric rate and asymptotically follows a Gaussian distribution.
翻訳日:2022-06-30 21:01:35 公開日:2022-06-29
# 金融ニュースによる株価トレンド予測のためのディープマルチインスタンス学習

Deep Multiple Instance Learning For Forecasting Stock Trends Using Financial News ( http://arxiv.org/abs/2206.14452v1 )

ライセンス: Link先を確認
Yiqi Deng and Siu Ming Yiu(参考訳) 主要な情報ソースは、株価の変動についていくつかの相関関係を持つ金融ニュース記事から取ることができる。 本稿では,金融ニュースが株価動向に与える影響について,マルチインテンスの観点から検討する。 この背景にある直観は、様々なニュース発生間隔のニュースの不確実性と、金融ニュース毎の注釈の欠如に基づいている。 トレーニングインスタンスがバッグに配置され、インスタンスの代わりにラベルが割り当てられるマルチインスタンス学習(mil)のシナリオでは、柔軟で適応的なマルチインスタンス学習モデルを開発し、金融ニュースデータセットにおけるstandard & poors 500 indexの方向移動予測におけるその能力を評価する。 具体的には、各トレーディング日を1つのバッグとして扱い、各トレーディング日に一定の量のニュースを各バッグのインスタンスとして処理する。 実験の結果,提案したマルチインスタンスベースのフレームワークは,他の最先端手法やベースラインと比較して,トレンド予測の精度において優れた結果が得られることが示された。

A major source of information can be taken from financial news articles, which have some correlations about the fluctuation of stock trends. In this paper, we investigate the influences of financial news on the stock trends, from a multi-instance view. The intuition behind this is based on the news uncertainty of varying intervals of news occurrences and the lack of annotation in every single financial news. Under the scenario of Multiple Instance Learning (MIL) where training instances are arranged in bags, and a label is assigned for the entire bag instead of instances, we develop a flexible and adaptive multi-instance learning model and evaluate its ability in directional movement forecast of Standard & Poors 500 index on financial news dataset. Specifically, we treat each trading day as one bag, with certain amounts of news happening on each trading day as instances in each bag. Experiment results demonstrate that our proposed multi-instance-based framework gains outstanding results in terms of the accuracy of trend prediction, compared with other state-of-art approaches and baselines.
翻訳日:2022-06-30 20:59:27 公開日:2022-06-29
# ラベル依存とメンバーモデルの共同学習による対人アンサンブルトレーニング

Adversarial Ensemble Training by Jointly Learning Label Dependencies and Member Models ( http://arxiv.org/abs/2206.14477v1 )

ライセンス: Link先を確認
Lele Wang, Bin Liu(参考訳) 異なるサブモデルのアンサンブルを訓練することは、ディープニューラルネットワークの対角性を改善する効果的な戦略として実証的に証明されている。 画像認識のための現在のアンサンブル訓練方法は、通常、ラベル間の依存性関係を無視するワンホットベクターによって画像ラベルを符号化する。 本稿では,ラベルとモデルアンサンブルの条件依存性を協調的に学習する,新しい敵対的学習手法を提案する。 MNIST, FasionMNIST, CIFAR-10 で広く使われているデータセットに対して,本手法を検証した。 その結果,本手法は最先端手法に比べてブラックボックス攻撃に対して堅牢であることがわかった。 私たちのコードはhttps://github.com/ZJLAB-AMMI/LSD.comで公開されています。

Training an ensemble of different sub-models has empirically proven to be an effective strategy to improve deep neural networks' adversarial robustness. Current ensemble training methods for image recognition usually encode the image labels by one-hot vectors, which neglect dependency relationships between the labels. Here we propose a novel adversarial training approach that learns the conditional dependencies between labels and the model ensemble jointly. We test our approach on widely used datasets MNIST, FasionMNIST and CIFAR-10. Results show that our approach is more robust against black-box attacks compared with state-of-the-art methods. Our code is available at https://github.com/ZJLAB-AMMI/LSD.
翻訳日:2022-06-30 20:59:08 公開日:2022-06-29
# 推論伝達を有する変分量子近似支持ベクトルマシン

Variational Quantum Approximate Support Vector Machine With Inference Transfer ( http://arxiv.org/abs/2206.14507v1 )

ライセンス: Link先を確認
Siheon Park, Daniel K. Park, June-Koo Kevin Rhee(参考訳) カーネルベースの量子分類器は、複雑なデータの超線形分類のための最も興味深く強力な量子機械学習技術であり、SWAPテスト分類器のような浅い深さの量子回路で容易に実現できる。 驚くべきことに、これらの回路上では、svm理論の二次最適化問題を量子古典的変分最適化問題にマッピングする変分スキームを導入することで、サポートベクトルマシンを本質的に明示的に実現することができる。 この方式は、パラメータ化量子回路(PQC)を用いて実現され、線形時間でトレーニング損失と分類スコアを評価できるインデックス量子ビットの非一様重みベクトルを生成する。 本稿では、この変分量子近似支援ベクトルマシン(VQASVM)の古典的パラメータをトレーニングし、新しいクエリデータの分類のために、他のVQASVM決定推論回路の多くのコピーに転送することができる。 vqasvmアルゴリズムは、クラウドベースの量子マシン上でのトイサンプルデータセットを用いて実現可能性評価を行い、標準irisフラワーデータセット上での性能評価を数値的に検討した。 irisのデータ分類の精度は98.8%に達した。

A kernel-based quantum classifier is the most interesting and powerful quantum machine learning technique for hyperlinear classification of complex data, which can be easily realized in shallow-depth quantum circuits such as a SWAP test classifier. Surprisingly, a support vector machine can be realized inherently and explicitly on these circuits by introduction of a variational scheme to map the quadratic optimization problem of the SVM theory to a quantum-classical variational optimization problem. This scheme is realized with parameterized quantum circuits (PQC) to create a nonuniform weight vector to index qubits that can evaluate training loss and classification score in a linear time. We train the classical parameters of this Variational Quantum Approximate Support Vector Machine (VQASVM), which can be transferred to many copies of other VQASVM decision inference circuits for classification of new query data. Our VQASVM algorithm is experimented with toy example data sets on cloud-based quantum machines for feasibility evaluation, and numerically investigated to evaluate its performance on a standard iris flower data set. The accuracy of iris data classification reached 98.8%.
翻訳日:2022-06-30 20:58:56 公開日:2022-06-29
# オンライン対オフライン適応ドメインランダム化ベンチマーク

Online vs. Offline Adaptive Domain Randomization Benchmark ( http://arxiv.org/abs/2206.14661v1 )

ライセンス: Link先を確認
Gabriele Tiboni, Karol Arndt, Giuseppe Averta, Ville Kyrki, Tatiana Tommasi(参考訳) 物理シミュレーターは、安全で制約のない環境で強化学習ポリシーを便利に学習する大きな可能性を示してきた。 しかし、現実のギャップのため、取得した知識を現実の世界に移すことは困難である。 この目的のために、訓練時にドメインのランダム化を行うために、実データに対して後方分布を持つシミュレータパラメータを自動的にチューニングする手法が提案されている。 これらのアプローチは、異なる設定と仮定の下で様々なロボットタスクに有効であることが示されている。 それでも、既存の文献は、転送性能と実データ効率に関して、既存の適応的ドメインランダム化手法の徹底的な比較を欠いている。 本稿では,オフラインメソッドとオンラインメソッド(simopt, bayrn, droid, dropo)の両方に対して,それぞれの設定や作業に最も適した光を流すためのオープンベンチマークを提案する。 オンライン手法は次のイテレーションで学習したポリシーの品質によって制限されているのに対し,オフライン手法はオープンループコマンドによるシミュレーションでトラジェクトリを再生する際に失敗することがある。 使用されるコードはhttps://github.com/gabrieletiboni/adr-benchmarkでリリースされる。

Physics simulators have shown great promise for conveniently learning reinforcement learning policies in safe, unconstrained environments. However, transferring the acquired knowledge to the real world can be challenging due to the reality gap. To this end, several methods have been recently proposed to automatically tune simulator parameters with posterior distributions given real data, for use with domain randomization at training time. These approaches have been shown to work for various robotic tasks under different settings and assumptions. Nevertheless, existing literature lacks a thorough comparison of existing adaptive domain randomization methods with respect to transfer performance and real-data efficiency. In this work, we present an open benchmark for both offline and online methods (SimOpt, BayRn, DROID, DROPO), to shed light on which are most suitable for each setting and task at hand. We found that online methods are limited by the quality of the currently learned policy for the next iteration, while offline methods may sometimes fail when replaying trajectories in simulation with open-loop commands. The code used will be released at https://github.com/gabrieletiboni/adr-benchmark.
翻訳日:2022-06-30 20:57:44 公開日:2022-06-29
# ENS-10: イベント後の天気予報のためのデータセット

ENS-10: A Dataset For Post-Processing Ensemble Weather Forecast ( http://arxiv.org/abs/2206.14786v1 )

ライセンス: Link先を確認
Saleh Ashkboos, Langwen Huang, Nikoli Dryden, Tal Ben-Nun, Peter Dueben, Lukas Gianinazzi, Luca Kummer, Torsten Hoefler(参考訳) 後処理アンサンブル予測システムは、特に極端な事象予測のために天気予報を改善することができる。 近年,処理後のステップの品質向上のために,さまざまな機械学習モデルが開発されている。 しかし、これらのモデルはデータに大きく依存し、そのようなアンサンブル要素を生成するには、計算コストの高い数値天気予報モデルが複数必要である。 本稿では,20年以上にわたるアンサンブル構成員10名(1998-2017年)からなるens-10データセットを紹介する。 アンサンブル部材は、地球のカオス的な挙動を捉えるために、数値的な気象シミュレーションによって生成される。 大気の3次元状態を表すために、ENS-10は11の異なる圧力レベルと0.5度解像度の表面の最も関連する大気変数を提供する。 データセットは48時間のリードタイムで予測補正タスクを目標とし、アンサンブルメンバーのバイアスを取り除くことで予測品質を本質的に改善する。 この目的のために、ens-10は予測リードタイムt=0、24、48時間(週2データポイント)の天気変数を提供する。 我々は,このタスクのベースラインセットを ens-10 で提供し,異なる気象変数の予測を補正する上での性能を比較する。 データセットを使用して極端なイベントを予測するためのベースラインも評価しています。 ENS-10データセットはCreative Commons Attribution 4.0 International (CC BY 4.0)ライセンスで利用可能である。

Post-processing ensemble prediction systems can improve weather forecasting, especially for extreme event prediction. In recent years, different machine learning models have been developed to improve the quality of the post-processing step. However, these models heavily rely on the data and generating such ensemble members requires multiple runs of numerical weather prediction models, at high computational cost. This paper introduces the ENS-10 dataset, consisting of ten ensemble members spread over 20 years (1998-2017). The ensemble members are generated by perturbing numerical weather simulations to capture the chaotic behavior of the Earth. To represent the three-dimensional state of the atmosphere, ENS-10 provides the most relevant atmospheric variables in 11 distinct pressure levels as well as the surface at 0.5-degree resolution. The dataset targets the prediction correction task at 48-hour lead time, which is essentially improving the forecast quality by removing the biases of the ensemble members. To this end, ENS-10 provides the weather variables for forecast lead times T=0, 24, and 48 hours (two data points per week). We provide a set of baselines for this task on ENS-10 and compare their performance in correcting the prediction of different weather variables. We also assess our baselines for predicting extreme events using our dataset. The ENS-10 dataset is available under the Creative Commons Attribution 4.0 International (CC BY 4.0) licence.
翻訳日:2022-06-30 20:57:22 公開日:2022-06-29
# (参考訳) 大規模濃度制約ポートフォリオ最適化問題を解くためのミュータント演算子を用いたハイブリッドレベル学習スワムアルゴリズム

A hybrid level-based learning swarm algorithm with mutation operator for solving large-scale cardinality-constrained portfolio optimization problems ( http://arxiv.org/abs/2206.14760v1 )

ライセンス: CC BY 4.0
Massimiliano Kaucic, Filippo Piccotto, Gabriele Sbaiz, Giorgio Valentinuz(参考訳) 本研究では,大規模ポートフォリオ最適化問題の解法として,LLSO(Level-based Learning Swarm Optimizationr)のハイブリッド版を提案する。 我々のゴールは、基数、ボックス、予算の制約を受けるシャープ比の修正式を最大化することです。 このアルゴリズムでは、プロジェクション演算子がこれら3つの制約を同時に処理し、再バランス制約によりトランザクションコストを暗黙的に制御する。 また,ターンオーバー制約を管理するための適切な厳格なペナルティ関数も導入する。 さらに,Swarmの上位レベルにおいて,候補例を修正するためのアドホック突然変異演算子を開発した。 3つの大規模データセットを用いた実験の結果,本手法の導入により解の精度が向上した。 そして、llsoアルゴリズムの他の変種と2つの最先端のスウォームオプティマイザとの比較により、探索能力と解の質に関して提案する解法の優れた性能が示されている。 最後に、MSCI世界指数の1119項目の検証可能なプールを用いて、過去5年間のポートフォリオ配分戦略の収益性を評価する。

In this work, we propose a hybrid variant of the level-based learning swarm optimizer (LLSO) for solving large-scale portfolio optimization problems. Our goal is to maximize a modified formulation of the Sharpe ratio subject to cardinality, box and budget constraints. The algorithm involves a projection operator to deal with these three constraints simultaneously and we implicitly control transaction costs thanks to a rebalancing constraint. We also introduce a suitable exact penalty function to manage the turnover constraint. In addition, we develop an ad hoc mutation operator to modify candidate exemplars in the highest level of the swarm. The experimental results, using three large-scale data sets, show that the inclusion of this procedure improves the accuracy of the solutions. Then, a comparison with other variants of the LLSO algorithm and two state-of-the-art swarm optimizers points out the outstanding performance of the proposed solver in terms of exploration capabilities and solution quality. Finally, we assess the profitability of the portfolio allocation strategy in the last five years using an investible pool of 1119 constituents from the MSCI World Index.
翻訳日:2022-06-30 20:56:19 公開日:2022-06-29
# 汎用計画のためのc++プログラムの表現と合成

Representation and Synthesis of C++ Programs for Generalized Planning ( http://arxiv.org/abs/2206.14480v1 )

ライセンス: Link先を確認
Javier Segovia-Aguas, Yolanda E-Mart\'in, Sergio Jim\'enez(参考訳) 本稿では,GP(Generalized Planning)問題とその解決策をC++プログラムとして紹介する。 我々のC++表現は、一般化された計画の終了を正式に証明し、その漸近的な複雑さを世界オブジェクトの数で指定することができる。 C++一般化計画の複雑さを特徴づけることで、複雑性の順に可能なGPソリューションの空間を列挙する組合せ探索の応用が可能になる。 実験の結果,我々がbfgp++と呼ぶこの手法の実装は,コンパイラ型プログラムとして表される一般化計画の計算に対するヒューリスティック探索手法として従来のgpよりも優れていることがわかった。 最後に重要なこととして、古典的なプランニングインスタンス上でc++プログラムを実行することは決定論的グラウンドフリーかつ検索フリーなプロセスであるので、我々のc++表現は、何千ものオブジェクトの大規模なテストインスタンスで計算されたソリューションを自動的に検証することができます。

The paper introduces a novel representation for Generalized Planning (GP) problems, and their solutions, as C++ programs. Our C++ representation allows to formally proving the termination of generalized plans, and to specifying their asymptotic complexity w.r.t. the number of world objects. Characterizing the complexity of C++ generalized plans enables the application of a combinatorial search that enumerates the space of possible GP solutions in order of complexity. Experimental results show that our implementation of this approach, which we call BFGP++, outperforms the previous GP as heuristic search approach for the computation of generalized plans represented as compiler-styled programs. Last but not least, the execution of a C++ program on a classical planning instance is a deterministic grounding-free and search-free process, so our C++ representation allows us to automatically validate the computed solutions on large test instances of thousands of objects, where off-the-shelf classical planners get stuck either in the pre-processing or in the search.
翻訳日:2022-06-30 20:31:46 公開日:2022-06-29
# てんかん相互作用の計算法

A calculus for epistemic interactions ( http://arxiv.org/abs/2206.14506v1 )

ライセンス: Link先を確認
Huili Xing, Zhaohui Zhu, Jinjin Zhang(参考訳) インテリジェントエージェントシステムにおいて、エージェントの認識状態とその変化をモデル化する中心的な役割を果たす。 この目的のために、いくつかの形式体系が提示されている。 その中でも、認識論理は、異なる認識的属性(知識、信念、共通の知識など)と認識的行動(公開発表、プライベート発表、非同期発表など)の論理則に焦点を当てている。 これらのシステムはすべて、エージェントとその環境間の対話的な動作を含まない。 本稿では、よく知られた$\pi$-calculusを豊かにすることで、てんかん状態を持つエージェント間のエピステミック相互作用をモデル化するための概念的枠組みを提供するe-calculusを提案する。 通常のプロセス計算とは異なり、電子計算の全ての系は常にてんかん状態で走るように配置される。 認識状態を抽象的に形式化するために、それらの上の仮定群が提示される。 さらに、これらの仮定に基づいて、e-計算の挙動理論を2つの異なる視点で展開する。

It plays a central role in intelligent agent systems to model agent's epistemic state and its change. To this end, some formal systems have been presented. Among them, epistemic logics focus on logic laws of different epistemic attributes (e.g., knowledge, belief, common knowledge, etc) and epistemic actions (e.g., public announcement, private announcement, asynchronous announcement, etc). All these systems do not involve the interactive behaviours between an agent and its environment. Through enriching the well-known $\pi$-calculus, this paper presents the e-calculus, which provides a concept framework to model epistemic interactions between agents with epistemic states. Unlike usual process calculus, all systems in the e-calculus are always arranged to run at an epistemic state. To formalize epistemic states abstractly, a group of postulates on them are presented. Moreover, based on these postulates, the behaviour theory of the e-calculus is developed in two different viewpoints.
翻訳日:2022-06-30 20:31:29 公開日:2022-06-29
# 骨格に基づく行動認識のためのGCNモデルにおける新しい隣接行列構成

A New Adjacency Matrix Configuration in GCN-based Models for Skeleton-based Action Recognition ( http://arxiv.org/abs/2206.14344v1 )

ライセンス: Link先を確認
Zheng Fang, Xiongwei Zhang, Tieyong Cao, Yunfei Zheng, Meng Sun(参考訳) ヒトの骨格データはその背景のロバスト性と高い効率性から、行動認識において注目を集めている。 骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)が主流となっている。 本稿では,GCNモデルの基本因子である隣接行列を解析する。 ほとんどのGCN法は,ヒトの骨格構造に基づいて隣接行列を動作させる。 これまでの研究と分析から,人間の自然骨格構造随伴行列は,骨格に基づく行動認識には適さないことを示唆する。 本稿では, 隣り合うすべての剛体接続を放棄するが, モデルが関節の関係を適応的に学習できる新しい隣接行列を提案する。 2つのスケルトンベースの行動認識データセット(nturgbd60と finegym)上で検証モデルを用いて広範な実験と分析を行う。 総合的な実験結果と分析の結果 1)最も広く使用されている天然骨格構造隣接マトリックスは、骨格に基づく行動認識に適さない。 2) 提案する隣接行列は, モデル性能, 雑音ロバスト性, 伝達性に優れる。

Human skeleton data has received increasing attention in action recognition due to its background robustness and high efficiency. In skeleton-based action recognition, graph convolutional network (GCN) has become the mainstream method. This paper analyzes the fundamental factor for GCN-based models -- the adjacency matrix. We notice that most GCN-based methods conduct their adjacency matrix based on the human natural skeleton structure. Based on our former work and analysis, we propose that the human natural skeleton structure adjacency matrix is not proper for skeleton-based action recognition. We propose a new adjacency matrix that abandons all rigid neighbor connections but lets the model adaptively learn the relationships of joints. We conduct extensive experiments and analysis with a validation model on two skeleton-based action recognition datasets (NTURGBD60 and FineGYM). Comprehensive experimental results and analysis reveals that 1) the most widely used human natural skeleton structure adjacency matrix is unsuitable in skeleton-based action recognition; 2) The proposed adjacency matrix is superior in model performance, noise robustness and transferability.
翻訳日:2022-06-30 20:31:15 公開日:2022-06-29
# srcn3d:sparse r-cnn 3dサラウンドビューカメラの物体検出と自律走行追跡

SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and Tracking for Autonomous Driving ( http://arxiv.org/abs/2206.14451v1 )

ライセンス: Link先を確認
Yining Shi, Jingyan Shen, Yifan Sun, Yunlong Wang, Jiaxin Li, Shiqi Sun, Kun Jiang, Diange Yang(参考訳) 移動物体の検出・追跡(DATMO)は、自律運転における環境認識に欠かせない要素である。 サラウンドビューカメラを使用する3d検出器は、単に繁栄しているに過ぎないが、異なるトランスフォーマーベースの手法を使用して、2d特徴マップから3d空間でクエリを学習する傾向が増えている。 本稿では、サラウンドビューカメラ検出と追跡のための2段階完全畳み込みマッピングパイプラインであるスパースR-CNN 3D(SRCN3D)を提案する。 SRCN3Dは、固定数の提案ボックスと遅延機能の両方をツイントラックで更新するカスケード構造を採用している。 提案ボックスは、関心領域(RoI)の局所的特徴を集約するために、ビュービューに投影される。 それに基づいて、提案機能は動的インスタンスインタラクティブヘッドによって洗練され、分類と元のバウンディングボックスに適用されるオフセットを生成する。 従来の技術と比較して,スパース特徴サンプリングモジュールは,各3次元提案ボックスの調整にローカルな2次元特徴のみを利用するため,完全なスパースパラダイムが導かれる。 提案する特徴と外観特徴は, マルチハイブリッド3Dマルチオブジェクトトラッキングアプローチにおいて, データアソシエーションプロセスにおいて両立される。 提案したSRCN3D検出器とトラッカーの有効性を示す。 コードはhttps://github.com/synsin0/SRCN3Dで入手できる。

Detection And Tracking of Moving Objects (DATMO) is an essential component in environmental perception for autonomous driving. While 3D detectors using surround-view cameras are just flourishing, there is a growing tendency of using different transformer-based methods to learn queries in 3D space from 2D feature maps of perspective view. This paper proposes Sparse R-CNN 3D (SRCN3D), a novel two-stage fully-convolutional mapping pipeline for surround-view camera detection and tracking. SRCN3D adopts a cascade structure with twin-track update of both fixed number of proposal boxes and proposal latent features. Proposal boxes are projected to perspective view so as to aggregate Region of Interest (RoI) local features. Based on that, proposal features are refined via a dynamic instance interactive head, which then generates classification and the offsets applied to original bounding boxes. Compared to prior arts, our sparse feature sampling module only utilizes local 2D features for adjustment of each corresponding 3D proposal box, leading to a complete sparse paradigm. The proposal features and appearance features are both taken in data association process in a multi-hypotheses 3D multi-object tracking approach. Extensive experiments on nuScenes dataset demonstrate the effectiveness of our proposed SRCN3D detector and tracker. Code is available at https://github.com/synsin0/SRCN3D.
翻訳日:2022-06-30 20:31:02 公開日:2022-06-29
# 合成ゼロショット学習のためのシームズコントラスト埋め込みネットワーク

Siamese Contrastive Embedding Network for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2206.14475v1 )

ライセンス: Link先を確認
Xiangyu Li, Xu Yang, Kun Wei, Cheng Deng, Muli Yang(参考訳) 合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。 同じ状態は、異なるオブジェクトに絡み合ったまま視覚的に異なるため、CZSLは依然として困難なタスクである。 いくつかのメソッドは、2つのトレーニングされた分類器で状態とオブジェクトを認識し、オブジェクトと状態の相互作用の影響を無視する。 本稿では,合成認識のための新しいsiamese contrastive embedded network (scen) (コード: https://github.com/xduxyli/scen-master)を提案する。 状態とオブジェクトの絡み合いを考慮すると、視覚的な特徴をシャムのコントラスト空間に埋め込んでプロトタイプを別々に捉え、状態とオブジェクトの相互作用を緩和します。 さらに、トレーニング構成の多様性を高め、認識モデルの堅牢性を向上させるための状態遷移モジュール(STM)を設計する。 この手法は,最近提案されたC-QGAデータセットを含む3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回ることを示す。

Compositional Zero-Shot Learning (CZSL) aims to recognize unseen compositions formed from seen state and object during training. Since the same state may be various in the visual appearance while entangled with different objects, CZSL is still a challenging task. Some methods recognize state and object with two trained classifiers, ignoring the impact of the interaction between object and state; the other methods try to learn the joint representation of the state-object compositions, leading to the domain gap between seen and unseen composition sets. In this paper, we propose a novel Siamese Contrastive Embedding Network (SCEN) (Code: https://github.com/XDUxyLi/SCEN-master) for unseen composition recognition. Considering the entanglement between state and object, we embed the visual feature into a Siamese Contrastive Space to capture prototypes of them separately, alleviating the interaction between state and object. In addition, we design a State Transition Module (STM) to increase the diversity of training compositions, improving the robustness of the recognition model. Extensive experiments indicate that our method significantly outperforms the state-of-the-art approaches on three challenging benchmark datasets, including the recent proposed C-QGA dataset.
翻訳日:2022-06-30 20:30:35 公開日:2022-06-29
# BoT-SORT:Robust Associations Multi-Pedestrian Tracking

BoT-SORT: Robust Associations Multi-Pedestrian Tracking ( http://arxiv.org/abs/2206.14651v1 )

ライセンス: Link先を確認
Nir Aharon, Roy Orfaig, Ben-Zion Bobrovsky(参考訳) マルチオブジェクト追跡(MOT)の目標は、各オブジェクトに固有の識別子を保持しながら、シーン内のすべてのオブジェクトを検出し、追跡することである。 本稿では,動き情報と外観情報の利点とカメラモーション補正と,より正確なカルマンフィルタ状態ベクトルを組み合わせた,新しいロバストな最先端トラッカーを提案する。 新しいトラッカーであるBoT-SORTとBoT-SORT-ReIDは、まずMOT17とMOT20テストセットのMOTChallenge [29, 11]のデータセットで、MOTA、IDF1、HOTAのすべての主要なMOTメトリクスでランク付けします。 MOT17では80.5 MOTA、80.2 IDF1、65.0 HOTAが達成される。 ソースコードと事前トレーニングされたモデルはhttps://github.com/NirAharon/BOT-SORTで公開されている。

The goal of multi-object tracking (MOT) is detecting and tracking all the objects in a scene, while keeping a unique identifier for each object. In this paper, we present a new robust state-of-the-art tracker, which can combine the advantages of motion and appearance information, along with camera-motion compensation, and a more accurate Kalman filter state vector. Our new trackers BoT-SORT, and BoT-SORT-ReID rank first in the datasets of MOTChallenge [29, 11] on both MOT17 and MOT20 test sets, in terms of all the main MOT metrics: MOTA, IDF1, and HOTA. For MOT17: 80.5 MOTA, 80.2 IDF1, and 65.0 HOTA are achieved. The source code and the pre-trained models are available at https://github.com/NirAharon/BOT-SORT
翻訳日:2022-06-30 20:28:41 公開日:2022-06-29
# メタセマンティック正規化器を用いたインターベンショナルコントラスト学習

Interventional Contrastive Learning with Meta Semantic Regularizer ( http://arxiv.org/abs/2206.14702v1 )

ライセンス: Link先を確認
Wenwen Qiang, Jiangmeng Li, Changwen Zheng, Bing Su, Hui Xiong(参考訳) コントラスト学習(CL)に基づく自己教師型学習モデルでは、視覚表現を相互に学習する。 本稿では,clモデルがフルイメージでトレーニングされた場合,フルイメージでテストされた性能が前景領域よりも優れている場合,clモデルが前景領域でトレーニングされた場合,全画像でテストされたパフォーマンスが前景領域よりも悪い場合,より見過ごされている現象を明らかにする。 この観察により,画像の背景がモデル学習の意味情報に干渉し,その影響を完全に排除していないことが明らかになった。 この問題に取り組むため、私たちは共起者としての背景をモデル化する構造的因果モデル(scm)を構築します。 提案するSCMに対して因果的介入を行うために,バックドア調整に基づく規則化手法であるICL-MSR(Interventional Contrastive Learning with Meta Semantic Regularizer)を提案する。 ICL-MSRは、既存のCLメソッドに組み込んで、表現学習からのバックグラウンドの障害を軽減することができる。 理論的には、ICL-MSRはより厳密な誤差境界を達成する。 実験により,ICL-MSRは各種の最先端CL法の性能を向上させることができることを示した。

Contrastive learning (CL)-based self-supervised learning models learn visual representations in a pairwise manner. Although the prevailing CL model has achieved great progress, in this paper, we uncover an ever-overlooked phenomenon: When the CL model is trained with full images, the performance tested in full images is better than that in foreground areas; when the CL model is trained with foreground areas, the performance tested in full images is worse than that in foreground areas. This observation reveals that backgrounds in images may interfere with the model learning semantic information and their influence has not been fully eliminated. To tackle this issue, we build a Structural Causal Model (SCM) to model the background as a confounder. We propose a backdoor adjustment-based regularization method, namely Interventional Contrastive Learning with Meta Semantic Regularizer (ICL-MSR), to perform causal intervention towards the proposed SCM. ICL-MSR can be incorporated into any existing CL methods to alleviate background distractions from representation learning. Theoretically, we prove that ICL-MSR achieves a tighter error bound. Empirically, our experiments on multiple benchmark datasets demonstrate that ICL-MSR is able to improve the performances of different state-of-the-art CL methods.
翻訳日:2022-06-30 20:28:23 公開日:2022-06-29
# LViT:医療画像セグメンテーションにおける視覚変換器

LViT: Language meets Vision Transformer in Medical Image Segmentation ( http://arxiv.org/abs/2206.14718v1 )

ライセンス: Link先を確認
Zihan Li, Yunxiang Li, Qingde Li, You Zhang, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, Qingqi Hong(参考訳) 深層学習は医用画像のセグメンテーションやその他の側面で広く用いられている。 しかし,既存の医用画像分割モデルの性能は,高いデータアノテーションコストで十分な数の高品質データを得るという課題により制限されている。 この限界を克服するために,新しい視覚言語医用画像分割モデルLViT(Language meets Vision Transformer)を提案する。 本モデルでは,画像データの品質低下を補うために,医用テキストアノテーションを導入する。 さらに、テキスト情報は、擬似ラベルの生成をある程度ガイドし、半教師付き学習における擬似ラベルの品質をさらに保証することができる。 また,LViT と Pixel-Level Attention Module (PLAM) の半教師付きバージョンの拡張を支援するために,EPI (Exponential Pseudo label Iteration mechanism) を提案する。 我々のモデルでは、LV損失はテキスト情報を直接利用してラベルなし画像のトレーニングを監督するように設計されている。 LViTの性能を検証するため,病理画像,X線,etcを含むマルチモーダル医用セグメンテーションデータセット(画像+テキスト)を構築した。 実験結果から,LViTは完全および半教師付き条件下でのセグメンテーション性能が良好であることがわかった。 コードとデータセットはhttps://github.com/HUANGLIZI/LViT.comで入手できる。

Deep learning has been widely used in medical image segmentation and other aspects. However, the performance of existing medical image segmentation models has been limited by the challenge of obtaining sufficient number of high-quality data with the high cost of data annotation. To overcome the limitation, we propose a new vision-language medical image segmentation model LViT (Language meets Vision Transformer). In our model, medical text annotation is introduced to compensate for the quality deficiency in image data. In addition, the text information can guide the generation of pseudo labels to a certain extent and further guarantee the quality of pseudo labels in semi-supervised learning. We also propose the Exponential Pseudo label Iteration mechanism (EPI) to help extend the semi-supervised version of LViT and the Pixel-Level Attention Module (PLAM) to preserve local features of images. In our model, LV (Language-Vision) loss is designed to supervise the training of unlabeled images using text information directly. To validate the performance of LViT, we construct multimodal medical segmentation datasets (image + text) containing pathological images, X-rays,etc. Experimental results show that our proposed LViT has better segmentation performance in both fully and semi-supervised conditions. Code and datasets are available at https://github.com/HUANGLIZI/LViT.
翻訳日:2022-06-30 20:27:58 公開日:2022-06-29
# GO-Surf:高速かつ高忠実なRGB-D表面再構成のためのニューラル特徴格子最適化

GO-Surf: Neural Feature Grid Optimization for Fast, High-Fidelity RGB-D Surface Reconstruction ( http://arxiv.org/abs/2206.14735v1 )

ライセンス: Link先を確認
Jingwen Wang, Tymoteusz Bleja and Lourdes Agapito(参考訳) GO-Surfは,RGB-D系列からの高速表面再構成のための直接特徴グリッド最適化手法である。 我々は,多段階の幾何学的および外観的局所情報をカプセル化した階層的特徴ボクセルグリッドを用いて,基礎となるシーンをモデル化する。 特徴ベクトルを直接最適化することにより、2つの浅いMLPによって符号付き距離と放射率値に分解され、表面体積レンダリングにより合成されたRGB/深さ値の差を最小限に抑える。 我々の監視信号(RGB、深さ、近似SDF)は、融合や後処理を必要とせずに、入力画像から直接得ることができる。 我々は、高周波の詳細を維持しながら表面の滑らかさと穴埋めを促進する新しいSDF勾配正規化項を定式化する。 GO-Surfは、MLP表現に基づく最も関連するアプローチであるNeuralRGB-D上での$\times60$のスピードアップで、15ドルから2ドルKフレームのシーケンスを15ドルから45ドル分で最適化できる。 プロジェクトページ: https://jingwenwang95.github.io/go_surf/

We present GO-Surf, a direct feature grid optimization method for accurate and fast surface reconstruction from RGB-D sequences. We model the underlying scene with a learned hierarchical feature voxel grid that encapsulates multi-level geometric and appearance local information. Feature vectors are directly optimized such that after being tri-linearly interpolated, decoded by two shallow MLPs into signed distance and radiance values, and rendered via surface volume rendering, the discrepancy between synthesized and observed RGB/depth values is minimized. Our supervision signals -- RGB, depth and approximate SDF -- can be obtained directly from input images without any need for fusion or post-processing. We formulate a novel SDF gradient regularization term that encourages surface smoothness and hole filling while maintaining high frequency details. GO-Surf can optimize sequences of $1$-$2$K frames in $15$-$45$ minutes, a speedup of $\times60$ over NeuralRGB-D, the most related approach based on an MLP representation, while maintaining on par performance on standard benchmarks. Project page: https://jingwenwang95.github.io/go_surf/
翻訳日:2022-06-30 20:27:32 公開日:2022-06-29
# コードスイッチング音声認識のための言語特化支援

Language-specific Characteristic Assistance for Code-switching Speech Recognition ( http://arxiv.org/abs/2206.14580v1 )

ライセンス: Link先を確認
Tongtong Song, Qiang Xu, Meng Ge, Longbiao Wang, Hao Shi, Yongjie Lv, Yuqin Lin, Jianwu Dang(参考訳) デュアルエンコーダ構造は、2つの言語固有エンコーダ(lses)をコードスイッチング音声認識にうまく利用する。 LSEは2つの事前訓練言語固有モデル(LSM)によって初期化されるため、デュアルエンコーダ構造は十分なモノリンガルデータを利用して個々の言語属性をキャプチャすることができる。 しかし、既存のメソッドはLSEに言語制約を持たず、LSMの言語固有の知識を未利用にしている。 本稿では,上記の問題を解決するためのlsca(language-specific characteristic assistance)手法を提案する。 具体的には,言語制約として2つの言語固有の損失を導入し,それに対応する言語固有の目標を生成する。 復号を行う際,2つのlsmの出力確率と混合モデルを組み合わせて最終的な予測を行うことにより,lsmの復号能力を考慮した。 実験により, LSCAの訓練法と復号法がモデルの性能を向上させることが示された。 さらに、LSCAのトレーニングと復号法を組み合わせることで、コードスイッチングテストセットの誤差を最大15.4%削減することができる。 さらに,本手法を用いることで,余分な共有パラメータや,事前学習した2つのLSMに基づく再学習を行なわずに,コードスイッチング音声認識タスクを適切に処理することができる。

Dual-encoder structure successfully utilizes two language-specific encoders (LSEs) for code-switching speech recognition. Because LSEs are initialized by two pre-trained language-specific models (LSMs), the dual-encoder structure can exploit sufficient monolingual data and capture the individual language attributes. However, existing methods have no language constraints on LSEs and underutilize language-specific knowledge of LSMs. In this paper, we propose a language-specific characteristic assistance (LSCA) method to mitigate the above problems. Specifically, during training, we introduce two language-specific losses as language constraints and generate corresponding language-specific targets for them. During decoding, we take the decoding abilities of LSMs into account by combining the output probabilities of two LSMs and the mixture model to obtain the final predictions. Experiments show that either the training or decoding method of LSCA can improve the model's performance. Furthermore, the best result can obtain up to 15.4% relative error reduction on the code-switching test set by combining the training and decoding methods of LSCA. Moreover, the system can process code-switching speech recognition tasks well without extra shared parameters or even retraining based on two pre-trained LSMs by using our method.
翻訳日:2022-06-30 20:27:09 公開日:2022-06-29
# 表現的・コヒーレントな韻律を用いた簡易かつ効果的な多文TS

Simple and Effective Multi-sentence TTS with Expressive and Coherent Prosody ( http://arxiv.org/abs/2206.14643v1 )

ライセンス: Link先を確認
Peter Makarov, Ammar Abbas, Mateusz {\L}ajszczak, Arnaud Joly, Sri Karlapati, Alexis Moinet, Thomas Drugman, Penny Karanasou(参考訳) 表現的かつ文脈的に適切な韻律を生成することは、現代音声合成システム(TTS)の課題である。 これは長い多文入力に対して特に顕著である。 本稿では,マルチsentence ttsの韻律改善を目標とし,トランスフォーマーベースのfastspeechライクシステムの簡易拡張について検討する。 長いコンテキスト、強力なテキスト機能、マルチスピーカーデータのトレーニングはすべて韻律を改善している。 さらに興味深いことに、それらは相乗効果をもたらす。 ロングコンテクストはプロソディを曖昧にし、コヒーレンスを改善し、トランスフォーマーの強さに寄与する。 BERTのような強力な言語モデルからの微調整されたワードレベル機能は、より多くのトレーニングデータから利益を得ているように見える。 ペーシングとペーシングの客観的指標を検討し,音声自然性に対する主観評価を徹底的に行う。 全ての拡張を組み込んだ本システムは,すべての競合相手に対して統計的に有意な音声自然性の改善を含む,一貫して強力な結果をもたらす。

Generating expressive and contextually appropriate prosody remains a challenge for modern text-to-speech (TTS) systems. This is particularly evident for long, multi-sentence inputs. In this paper, we examine simple extensions to a Transformer-based FastSpeech-like system, with the goal of improving prosody for multi-sentence TTS. We find that long context, powerful text features, and training on multi-speaker data all improve prosody. More interestingly, they result in synergies. Long context disambiguates prosody, improves coherence, and plays to the strengths of Transformers. Fine-tuning word-level features from a powerful language model, such as BERT, appears to profit from more training data, readily available in a multi-speaker setting. We look into objective metrics on pausing and pacing and perform thorough subjective evaluations for speech naturalness. Our main system, which incorporates all the extensions, achieves consistently strong results, including statistically significant improvements in speech naturalness over all its competitors.
翻訳日:2022-06-30 20:26:37 公開日:2022-06-29
# 変形可能なグラフトランス

Deformable Graph Transformer ( http://arxiv.org/abs/2206.14337v1 )

ライセンス: Link先を確認
Jinyoung Park, Seongjun Yun, Hyeonjin Park, Jaewoo Kang, Jisu Jeong, Kyung-Min Kim, Jung-woo Ha, Hyunwoo J. Kim(参考訳) トランスフォーマーベースのモデルは、自然言語処理やコンピュータビジョンといった様々な領域で広く使われ、最先端のパフォーマンスを実現している。 最近の研究によると、Transformerはグラフ構造化データにも一般化可能である。 しかしながら、ノード数や非局所集約に関する2次複雑性などの技術的課題により、従来のグラフニューラルネットワークの一般化性能に劣ることが多いため、成功は小規模グラフに限られている。 本稿では、これらの問題に対処するために、動的にサンプリングされたキーと値のペアでスパースアテンションを行うDeformable Graph Transformer (DGT)を提案する。 具体的には、まず、構造的および意味的近接性を検討するために、様々な基準を持つ複数のノードシーケンスを構築する。 次に、計算コストを低減したノード表現を学習するためのノードシーケンスにスパースアテンションを適用する。 また,ノード間の構造的類似性と距離を捉えるために,単純かつ効果的な位置符号化も設計する。 新しいグラフトランスフォーマは,既存のトランスフォーマモデルよりも一貫して優れており,大規模グラフを含む8つのグラフベンチマークデータセットの最先端モデルと比較して,競争力を示す。

Transformer-based models have been widely used and achieved state-of-the-art performance in various domains such as natural language processing and computer vision. Recent works show that Transformers can also be generalized to graph-structured data. However, the success is limited to small-scale graphs due to technical challenges such as the quadratic complexity in regards to the number of nodes and non-local aggregation that often leads to inferior generalization performance to conventional graph neural networks. In this paper, to address these issues, we propose Deformable Graph Transformer (DGT) that performs sparse attention with dynamically sampled key and value pairs. Specifically, our framework first constructs multiple node sequences with various criteria to consider both structural and semantic proximity. Then, the sparse attention is applied to the node sequences for learning node representations with a reduced computational cost. We also design simple and effective positional encodings to capture structural similarity and distance between nodes. Experiments demonstrate that our novel graph Transformer consistently outperforms existing Transformer-based models and shows competitive performance compared to state-of-the-art models on 8 graph benchmark datasets including large-scale graphs.
翻訳日:2022-06-30 20:23:25 公開日:2022-06-29
# 最適化によるグラフ誘導非線形拡散

Optimization-Induced Graph Implicit Nonlinear Diffusion ( http://arxiv.org/abs/2206.14418v1 )

ライセンス: Link先を確認
Qi Chen, Yifei Wang, Yisen Wang, Jiansheng Yang, Zhouchen Lin(参考訳) 過剰にスムースな問題のため、既存のグラフニューラルネットワークのほとんどは、本質的に有限の集約層でのみ限定的な依存関係をキャプチャできる。 この制限を克服するために,グラフ暗黙的非線形拡散(gind)と呼ばれる新しいグラフ畳み込みを提案する。 特に,学習表現は明示的な凸最適化目的の最小化として定式化できることを示す。 この性質により、最適化の観点からGINDの平衡を理論的に特徴づけることができる。 さらに興味深いことに、対応する最適化目標を変更することで、新しい構造変異を誘導できる。 具体的には、事前特性を平衡に埋め込むとともに、トレーニング安定性を促進するためにスキップ接続を導入することができる。 広範な実験により、ギンドは長距離依存性を捉えるのに優れており、非線形拡散を持つホモ親和グラフとヘテロ親和グラフの両方でよく機能することが示された。 さらに,モデルの最適化による変形により,性能が向上し,トレーニングの安定性や効率も向上することを示す。 その結果、GINDはノードレベルのタスクとグラフレベルのタスクの両方において大幅に改善されている。

Due to the over-smoothing issue, most existing graph neural networks can only capture limited dependencies with their inherently finite aggregation layers. To overcome this limitation, we propose a new kind of graph convolution, called Graph Implicit Nonlinear Diffusion (GIND), which implicitly has access to infinite hops of neighbors while adaptively aggregating features with nonlinear diffusion to prevent over-smoothing. Notably, we show that the learned representation can be formalized as the minimizer of an explicit convex optimization objective. With this property, we can theoretically characterize the equilibrium of our GIND from an optimization perspective. More interestingly, we can induce new structural variants by modifying the corresponding optimization objective. To be specific, we can embed prior properties to the equilibrium, as well as introducing skip connections to promote training stability. Extensive experiments show that GIND is good at capturing long-range dependencies, and performs well on both homophilic and heterophilic graphs with nonlinear diffusion. Moreover, we show that the optimization-induced variants of our models can boost the performance and improve training stability and efficiency as well. As a result, our GIND obtains significant improvements on both node-level and graph-level tasks.
翻訳日:2022-06-30 20:23:07 公開日:2022-06-29
# ラベルの平滑化と知識蒸留の互換性: 何が欠けているのか?

Revisiting Label Smoothing and Knowledge Distillation Compatibility: What was Missing? ( http://arxiv.org/abs/2206.14532v1 )

ライセンス: Link先を確認
Keshigeyan Chandrasegaran, Ngoc-Trung Tran, Yunqing Zhao, Ngai-Man Cheung(参考訳) 本研究はラベル平滑化(ls)と知識蒸留(kd)の相溶性を検討する。 この論文に関する現代の知見は、dichotomous perspectives: muller et al. (2019) と shen et al. (2021b) を取り上げている。 批判的に、これらの矛盾した発見を理解し解決する努力はなく、教師ネットワークをスムーズにするか、あるいはスムーズにしないかという基本的な疑問は解決されていない。 本研究の主な貢献は,これらの矛盾する発見の理解と解決に欠く概念として,体系的拡散の発見,解析,検証である。 この系統的な拡散は、基本的にLS訓練された教師からの蒸留の利点を減らし、KDを非効率に上昇させる。 今回の発見は,画像分類,ニューラルマシン翻訳,複数のデータセットにまたがるコンパクトな学生蒸留タスクを含む大規模実験,解析,ケーススタディによって包括的に支持されている。 そこで本研究では,LS学習者を対象に,高温トランスファーによる高成績学生の学習を支援することを提案する。 コードとモデルはhttps://keshik6.github.io/revisiting-ls-kd-compatibility/で利用可能である。

This work investigates the compatibility between label smoothing (LS) and knowledge distillation (KD). Contemporary findings addressing this thesis statement take dichotomous standpoints: Muller et al. (2019) and Shen et al. (2021b). Critically, there is no effort to understand and resolve these contradictory findings, leaving the primal question -- to smooth or not to smooth a teacher network? -- unanswered. The main contributions of our work are the discovery, analysis and validation of systematic diffusion as the missing concept which is instrumental in understanding and resolving these contradictory findings. This systematic diffusion essentially curtails the benefits of distilling from an LS-trained teacher, thereby rendering KD at increased temperatures ineffective. Our discovery is comprehensively supported by large-scale experiments, analyses and case studies including image classification, neural machine translation and compact student distillation tasks spanning across multiple datasets and teacher-student architectures. Based on our analysis, we suggest practitioners to use an LS-trained teacher with a low-temperature transfer to achieve high performance students. Code and models are available at https://keshik6.github.io/revisiting-ls-kd-compatibility/
翻訳日:2022-06-30 20:22:48 公開日:2022-06-29
# (参考訳) 局所ダイナミクスモデルによる視覚的展望

Visual Foresight With a Local Dynamics Model ( http://arxiv.org/abs/2206.14802v1 )

ライセンス: CC BY 4.0
Colin Kohler, Robert Platt(参考訳) モデルフリーなポリシー学習は、単一ステップの操作プリミティブを使用して長時間の水平タスクを解くことができる操作ポリシーを学習できることが示されている。 しかし、これらのポリシーのトレーニングは大量のデータを必要とする時間を要するプロセスである。 これらの操作プリミティブの状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。 LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。 LDMはサンプル効率が高く、他のモデルアーキテクチャよりも優れています。 計画と組み合わせることで、シミュレーションにおけるいくつかの困難な操作タスクにおいて、モデルベースおよびモデルフリーのポリシーを上回ることができる。

Model-free policy learning has been shown to be capable of learning manipulation policies which can solve long-time horizon tasks using single-step manipulation primitives. However, training these policies is a time-consuming process requiring large amounts of data. We propose the Local Dynamics Model (LDM) which efficiently learns the state-transition function for these manipulation primitives. By combining the LDM with model-free policy learning, we can learn policies which can solve complex manipulation tasks using one-step lookahead planning. We show that the LDM is both more sample-efficient and outperforms other model architectures. When combined with planning, we can outperform other model-based and model-free policies on several challenging manipulation tasks in simulation.
翻訳日:2022-06-30 20:21:21 公開日:2022-06-29
# 脳波の予測モデル学習のためのデータ拡張:系統的比較

Data augmentation for learning predictive models on EEG: a systematic comparison ( http://arxiv.org/abs/2206.14483v1 )

ライセンス: Link先を確認
C\'edric Rommel, Joseph Paillard, Thomas Moreau, Alexandre Gramfort(参考訳) 深層学習による脳波分類タスク(EEG)の利用は近年急速に増加しているが、その応用は脳波データセットの比較的小さなサイズによって制限されている。 トレーニング中のデータセットのサイズを人工的に増加させるデータ拡張は、コンピュータビジョンや音声などのアプリケーションにまたがる最先端のパフォーマンスを得るために重要な要素である。 脳波データに対するいくつかの拡張変換が文献で提案されているが、タスク間のパフォーマンスに対する肯定的な影響は明らかではない。 本研究では,既存の脳波の増幅を統一的かつ徹底的に分析し,共通実験環境で比較する手法を提案する。 以上の結果から,睡眠ステージ分類と運動画像脳インタフェースに考慮すべき最善のデータ拡張が浮き彫りになり,予測力が10%以上向上するケースもみられた。

The use of deep learning for electroencephalography (EEG) classification tasks has been rapidly growing in the last years, yet its application has been limited by the relatively small size of EEG datasets. Data augmentation, which consists in artificially increasing the size of the dataset during training, has been a key ingredient to obtain state-of-the-art performances across applications such as computer vision or speech. While a few augmentation transformations for EEG data have been proposed in the literature, their positive impact on performance across tasks remains elusive. In this work, we propose a unified and exhaustive analysis of the main existing EEG augmentations, which are compared in a common experimental setting. Our results highlight the best data augmentations to consider for sleep stage classification and motor imagery brain computer interfaces, showing predictive power improvements greater than 10% in some cases.
翻訳日:2022-06-30 20:08:23 公開日:2022-06-29
# グラフ上での深層表現学習によるチームパフォーマンスのモデル化

Modeling Teams Performance Using Deep Representational Learning on Graphs ( http://arxiv.org/abs/2206.14741v1 )

ライセンス: Link先を確認
Francesco Carli, Pietro Foini, Nicol\`o Gozzi, Nicola Perra, Rossano Schifanella(参考訳) 人間の活動の大部分は、正式なチームや非公式チーム内でのコラボレーションを必要とします。 チームによる協力的な取り組みがパフォーマンスにどう関係しているかについては、まだ議論の余地があります。 チームワークは、チームメンバーや他のチーム間でのインタラクションでタスクが実行される、潜在的に重複するコンポーネントの極めて相互に結びついたエコシステムをもたらす。 この問題に対処するために、そのような結果を決定するドライバを特定しながら、チームのパフォーマンスを予測するために設計されたグラフニューラルネットワークモデルを提案する。 特にこのモデルは3つのアーキテクチャチャネル – トポロジカル、中央性、コンテキスト – に基づいており、チームの成功を形作る可能性のあるさまざまな要因を捉えている。 モデルの性能向上と解釈可能性向上のための2つの注意機構をモデルに組み込んだ。 第1のメカニズムは、チーム内のキーメンバーをピンポイントできる。 第2のメカニズムにより、結果のパフォーマンスを決定する上での3つのドライバ効果の貢献を定量化できます。 我々は、考慮される古典的および神経的ベースラインのほとんどに匹敵する幅広いドメインでモデル性能をテストする。 さらに,モデルがベースラインを圧倒的に上回る意図するプロパティを,モデルがどのように分離するかを検証するために特別に設計された合成データセットも含む。

The large majority of human activities require collaborations within and across formal or informal teams. Our understanding of how the collaborative efforts spent by teams relate to their performance is still a matter of debate. Teamwork results in a highly interconnected ecosystem of potentially overlapping components where tasks are performed in interaction with team members and across other teams. To tackle this problem, we propose a graph neural network model designed to predict a team's performance while identifying the drivers that determine such an outcome. In particular, the model is based on three architectural channels: topological, centrality, and contextual which capture different factors potentially shaping teams' success. We endow the model with two attention mechanisms to boost model performance and allow interpretability. A first mechanism allows pinpointing key members inside the team. A second mechanism allows us to quantify the contributions of the three driver effects in determining the outcome performance. We test model performance on a wide range of domains outperforming most of the classical and neural baselines considered. Moreover, we include synthetic datasets specifically designed to validate how the model disentangles the intended properties on which our model vastly outperforms baselines.
翻訳日:2022-06-30 20:07:46 公開日:2022-06-29
# マルコフ鎖の実験設計による能動的探索

Active Exploration via Experiment Design in Markov Chains ( http://arxiv.org/abs/2206.14332v1 )

ライセンス: Link先を確認
Mojm\'ir Mutn\'y and Tadeusz Janik and Andreas Krause(参考訳) 科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。 古典的な実験設計は、実用性の概念を最大化するために実験予算を最適に割り当てる(例えば、未知量の不確実性の低減)。 我々は、実験が {\em Markov chain} の状態と関連付けられているリッチな設定を考え、状態遷移を制御する {\em Policy} を選択することでのみそれらを選択することができる。 この問題は、強化学習から空間モニタリングタスクまで、重要な応用を捉えている。 我々は,測定割当が最適に収束するポリシーを効率的に選択するアルゴリズム --textsc{markov-design} -- を提案する。 アルゴリズムは本質的にシーケンシャルであり、過去の測定から得られるポリシー(実験)の選択に適応する。 理論分析に加えて,環境監視と薬理学への応用に関する枠組みを提示する。

A key challenge in science and engineering is to design experiments to learn about some unknown quantity of interest. Classical experimental design optimally allocates the experimental budget to maximize a notion of utility (e.g., reduction in uncertainty about the unknown quantity). We consider a rich setting, where the experiments are associated with states in a {\em Markov chain}, and we can only choose them by selecting a {\em policy} controlling the state transitions. This problem captures important applications, from exploration in reinforcement learning to spatial monitoring tasks. We propose an algorithm -- \textsc{markov-design} -- that efficiently selects policies whose measurement allocation \emph{provably converges to the optimal one}. The algorithm is sequential in nature, adapting its choice of policies (experiments) informed by past measurements. In addition to our theoretical analysis, we showcase our framework on applications in ecological surveillance and pharmacology.
翻訳日:2022-06-30 20:05:21 公開日:2022-06-29
# オープン問題:多項式時間で決定木を適切に学習する?

Open Problem: Properly learning decision trees in polynomial time? ( http://arxiv.org/abs/2206.14431v1 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Mingda Qiao, Li-Yang Tan(参考訳) 著者らは最近、一様分布の下で決定木を適切に学習するための$n^{O(\log\log n)}$タイムメンバシップクエリアルゴリズムを作成した(Blanc et al., 2021)。 この問題の以前の最速アルゴリズムは$n^{o(\log n)} で実行され、ehrenfeucht と haussler (1989) による分散フリー設定の古典的なアルゴリズムの結果である。 本稿では、多項式時間アルゴリズムの自然開問題、それを得るための可能な道のり、そして我々が興味を持っていると信じている中間的マイルストーンを述べる。

The authors recently gave an $n^{O(\log\log n)}$ time membership query algorithm for properly learning decision trees under the uniform distribution (Blanc et al., 2021). The previous fastest algorithm for this problem ran in $n^{O(\log n)}$ time, a consequence of Ehrenfeucht and Haussler (1989)'s classic algorithm for the distribution-free setting. In this article we highlight the natural open problem of obtaining a polynomial-time algorithm, discuss possible avenues towards obtaining it, and state intermediate milestones that we believe are of independent interest.
翻訳日:2022-06-30 20:05:06 公開日:2022-06-29
# 生成モデルにおける近似データ削除

Approximate Data Deletion in Generative Models ( http://arxiv.org/abs/2206.14439v1 )

ライセンス: Link先を確認
Zhifeng Kong and Scott Alfeld(参考訳) ユーザは、General Data Protection Regulation(GDPR)やCalifornia Consumer Privacy Act(CCPA)といった最近の法律で定式化された、サードパーティの学習システムによってデータを削除する権利を持つ。 このようなデータ削除は、完全な再トレーニングによって達成できるが、現代の機械学習モデルには高い計算コストがかかる。 このコストを回避するため、教師付き学習のための近似データ削除法が数多く開発されている。 対照的に教師なし学習は、(ほぼまたは正確に)効率的なデータ削除に関して、ほとんどオープンな問題である。 本稿では,生成モデルのための密度比に基づくフレームワークを提案する。 このフレームワークを用いて,データ削除を近似する高速な手法と,トレーニングポイントが削除されたかどうかを推定するための統計的テストを導入する。 様々な学習者の仮定の下で理論的な保証を提供し、様々な生成手法を実証的に示す。

Users have the right to have their data deleted by third-party learned systems, as codified by recent legislation such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA). Such data deletion can be accomplished by full re-training, but this incurs a high computational cost for modern machine learning models. To avoid this cost, many approximate data deletion methods have been developed for supervised learning. Unsupervised learning, in contrast, remains largely an open problem when it comes to (approximate or exact) efficient data deletion. In this paper, we propose a density-ratio-based framework for generative models. Using this framework, we introduce a fast method for approximate data deletion and a statistical test for estimating whether or not training points have been deleted. We provide theoretical guarantees under various learner assumptions and empirically demonstrate our methods across a variety of generative methods.
翻訳日:2022-06-30 20:04:53 公開日:2022-06-29
# 特色のあるウィンドウを用いた平滑移動平均の自動回帰定式化

An Auto-Regressive Formulation for Smoothing and Moving Mean with Exponentially Tapered Windows ( http://arxiv.org/abs/2206.14749v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 従来の移動平均平滑化器の固有目的関数を操作し,時系列平滑化問題に対する自己回帰的定式化について検討した。 オートリグレッシブ・スムーサは、スムース化の度合いを高めるだけでなく、従来の移動手段と同じくらい効率的であり、入力データセットに対してそれに応じて最適化することができる。 興味深いことに、自動回帰モデルは指数関数的にテーパーされた窓で移動手段をもたらす。

We investigate an auto-regressive formulation for the problem of smoothing time-series by manipulating the inherent objective function of the traditional moving mean smoothers. Not only the auto-regressive smoothers enforce a higher degree of smoothing, they are just as efficient as the traditional moving means and can be optimized accordingly with respect to the input dataset. Interestingly, the auto-regressive models result in moving means with exponentially tapered windows.
翻訳日:2022-06-30 20:04:38 公開日:2022-06-29
# 分岐境界による正逆ロバスト性検証のためのIPB正規化

IBP Regularization for Verified Adversarial Robustness via Branch-and-Bound ( http://arxiv.org/abs/2206.14772v1 )

ライセンス: Link先を確認
Alessandro De Palma, Rudy Bunel, Krishnamurthy Dvijotham, M. Pawan Kumar, Robert Stanforth(参考訳) 最近の研究は、元の摂動よりも大きいドメインに対する攻撃を実行し、目的に様々な正規化条件を加えることで、敵の訓練されたネットワークの検証可能性を高めようとしている。 しかし、これらのアルゴリズムは性能が劣るか、複雑で高価な段階的な訓練手順を必要とするかのいずれかであり、実際の適用性を妨げている。 IBP-Rは、単純かつ効果的に検証された新しいトレーニングアルゴリズムである。 IBP-Rは、非凸検証問題と近似とのギャップを最小限に抑えるために、低間隔境界伝播に基づく正規化項で拡張されたドメインに対する敵攻撃を結合することにより、ネットワークの妥当性を誘導する。 近年のブランチ・アンド・バウンド・フレームワークを活用することで,ICP-RはCIFAR-10上での小さな摂動に対して,従来よりもはるかに高速なトレーニングを行いながら,最先端のロバスト性-精度トレードオフが得られることを示す。 さらに、$\beta$-crownに基づく単純なヒューリスティックに依存する、新しい分岐戦略であるupbを提案する。

Recent works have tried to increase the verifiability of adversarially trained networks by running the attacks over domains larger than the original perturbations and adding various regularization terms to the objective. However, these algorithms either underperform or require complex and expensive stage-wise training procedures, hindering their practical applicability. We present IBP-R, a novel verified training algorithm that is both simple and effective. IBP-R induces network verifiability by coupling adversarial attacks on enlarged domains with a regularization term, based on inexpensive interval bound propagation, that minimizes the gap between the non-convex verification problem and its approximations. By leveraging recent branch-and-bound frameworks, we show that IBP-R obtains state-of-the-art verified robustness-accuracy trade-offs for small perturbations on CIFAR-10 while training significantly faster than relevant previous work. Additionally, we present UPB, a novel branching strategy that, relying on a simple heuristic based on $\beta$-CROWN, reduces the cost of state-of-the-art branching algorithms while yielding splits of comparable quality.
翻訳日:2022-06-30 20:04:30 公開日:2022-06-29
# BiometryNet:標準超音波によるランドマークに基づく胎児の生体計測

BiometryNet: Landmark-based Fetal Biometry Estimation from Standard Ultrasound Planes ( http://arxiv.org/abs/2206.14678v1 )

ライセンス: Link先を確認
Netanell Avisdris, Leo Joskowicz, Brian Dromey, Anna L. David, Donald M. Peebles, Danail Stoyanov, Dafna Ben Bashat, Sophia Bano(参考訳) 超音波による胎児の成長評価は、妊娠年齢に対して手動で実施され、評価されるいくつかの生体計測値に基づいて行われる。 信頼性の高いバイオメトリ推定は、標準超音波平面におけるランドマークの正確な検出に依存する。 手動アノテーションは、時間消費とオペレータ依存のタスクであり、高い測定値の変動をもたらす可能性がある。 既存の胎児自動バイオメトリの方法は、初期自動胎児構造セグメンテーションと幾何学的ランドマーク検出に依存する。 しかし、セグメンテーションアノテーションは時間を要するため不正確であり、ランドマーク検出には測定固有の幾何学的手法の開発が必要である。 本稿では, 胎児のバイオメトリ推定のためのエンドツーエンドのランドマーク回帰フレームワークであるbiometrynetについて述べる。 ネットワークトレーニング中に測定固有の方向整合性を強制する新しい動的方向決定法(dod)を含む。 DODはネットワークトレーニングのばらつきを低減し、ランドマークのローカライゼーション精度を高め、正確でロバストな生体計測を行う。 本手法の有効性を検証するため, 臨床3施設で取得した1,829名の超音波画像3,398枚を収集した。 2つの独立したデータセットにおける3つの異なる生体計測値の比較と相互検証により、バイオメトリネットは堅牢であり、臨床的に許容される誤差よりも誤差が低い正確な測定値が得られることが示された。 コードはhttps://github.com/netanellavisdris/fetalbiometryで入手できる。

Fetal growth assessment from ultrasound is based on a few biometric measurements that are performed manually and assessed relative to the expected gestational age. Reliable biometry estimation depends on the precise detection of landmarks in standard ultrasound planes. Manual annotation can be time-consuming and operator dependent task, and may results in high measurements variability. Existing methods for automatic fetal biometry rely on initial automatic fetal structure segmentation followed by geometric landmark detection. However, segmentation annotations are time-consuming and may be inaccurate, and landmark detection requires developing measurement-specific geometric methods. This paper describes BiometryNet, an end-to-end landmark regression framework for fetal biometry estimation that overcomes these limitations. It includes a novel Dynamic Orientation Determination (DOD) method for enforcing measurement-specific orientation consistency during network training. DOD reduces variabilities in network training, increases landmark localization accuracy, thus yields accurate and robust biometric measurements. To validate our method, we assembled a dataset of 3,398 ultrasound images from 1,829 subjects acquired in three clinical sites with seven different ultrasound devices. Comparison and cross-validation of three different biometric measurements on two independent datasets shows that BiometryNet is robust and yields accurate measurements whose errors are lower than the clinically permissible errors, outperforming other existing automated biometry estimation methods. Code is available at https://github.com/netanellavisdris/fetalbiometry.
翻訳日:2022-06-30 20:03:04 公開日:2022-06-29
# 定常非圧縮性ナビエ-ストークス方程式を解析するための拡張性ベンチマークグラフメッシュデータセット

An extensible Benchmarking Graph-Mesh dataset for studying Steady-State Incompressible Navier-Stokes Equations ( http://arxiv.org/abs/2206.14709v1 )

ライセンス: Link先を確認
Florent Bonnet, Jocelyn Ahmed Mazari, Thibaut Munzer, Pierre Yser, Patrick Gallinari(参考訳) 近年のemph{Geometric Deep Learning} (GDL) の進歩は、強力なデータ駆動モデルを提供する可能性を示している。 これにより、グラフ-メシュデータから \emph{Partial Differential Equations} (PDEs) が支配する物理システムを学ぶための新しい手法を探求する動機を与える。 しかし、近年の成果や努力にもかかわらず、いくつかの研究の方向性は未解明のままであり、実際の現象の物理的要求を満たすには程遠い。 主な障害の1つは、ベンチマークデータセットと一般的な物理評価プロトコルがないことである。 本稿では,高レイノルズ状態(10^6$以上)における翼上の気流を研究するための2次元グラフメッシュデータセットを提案する。 また、重要な物理量でGDLモデルを評価するために、翼上の応力力の指標も導入する。 さらに,広範なGDLベースラインを提供する。

Recent progress in \emph{Geometric Deep Learning} (GDL) has shown its potential to provide powerful data-driven models. This gives momentum to explore new methods for learning physical systems governed by \emph{Partial Differential Equations} (PDEs) from Graph-Mesh data. However, despite the efforts and recent achievements, several research directions remain unexplored and progress is still far from satisfying the physical requirements of real-world phenomena. One of the major impediments is the absence of benchmarking datasets and common physics evaluation protocols. In this paper, we propose a 2-D graph-mesh dataset to study the airflow over airfoils at high Reynolds regime (from $10^6$ and beyond). We also introduce metrics on the stress forces over the airfoil in order to evaluate GDL models on important physical quantities. Moreover, we provide extensive GDL baselines.
翻訳日:2022-06-30 20:02:39 公開日:2022-06-29
# 逆問題における深層学習法の理論的展望

Theoretical Perspectives on Deep Learning Methods in Inverse Problems ( http://arxiv.org/abs/2206.14373v1 )

ライセンス: Link先を確認
Jonathan Scarlett, Reinhard Heckel, Miguel R. D. Rodrigues, Paul Hand, and Yonina C. Eldar(参考訳) 近年,Denoising, compressive Sensing, inpainting, super- resolution といった逆問題におけるディープラーニング手法の利用が著しく進歩している。 この一連の研究は主に実用的なアルゴリズムと実験によって進められてきたが、様々な興味深い理論上の問題も持ち上がった。 本稿では,特に生成前処理,未学習ニューラルネットワーク前処理,展開アルゴリズムに焦点をあてた,本研究における著名な理論的展開について検討する。 これらのトピックにおける既存の結果の要約に加えて、現在進行中の課題やオープンな問題も強調する。

In recent years, there have been significant advances in the use of deep learning methods in inverse problems such as denoising, compressive sensing, inpainting, and super-resolution. While this line of works has predominantly been driven by practical algorithms and experiments, it has also given rise to a variety of intriguing theoretical problems. In this paper, we survey some of the prominent theoretical developments in this line of works, focusing in particular on generative priors, untrained neural network priors, and unfolding algorithms. In addition to summarizing existing results in these topics, we highlight several ongoing challenges and open problems.
翻訳日:2022-06-30 20:02:11 公開日:2022-06-29
# SememeWSDとSynonym Setを組み込んだ中国語の単語センス

Chinese Word Sense Embedding with SememeWSD and Synonym Set ( http://arxiv.org/abs/2206.14388v1 )

ライセンス: Link先を確認
Yangxi Zhou, Junping Du, Zhe Xue, Ang Li, Zeli Guan(参考訳) 単語の埋め込みは、単語の特徴を学習できる基本自然言語処理タスクである。 しかし、ほとんどの単語埋め込み手法は、多文語がマルチセンスであっても、1つのベクトルのみを単語に割り当てる。 この制限に対処するために, 単語感覚の曖昧さ (WSD) と OpenHowNet の同義語セットの助けを借りて, 多文単語のすべての感覚に異なるベクトルを割り当てるためのSememeWSD Synonym (SWSDS) モデルを提案する。 我々は,openhownetに基づく教師なしの単語センス曖昧化モデルであるsememewsdモデルを用いて,単語センス曖昧化を行い,その多義語をセンスidでアノテートする。 そして、OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。 実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。 精度の向上を実現している。 また、異なるbertモデル上のsememewsdモデルを調べ、より効果的なモデルを見つける。

Word embedding is a fundamental natural language processing task which can learn feature of words. However, most word embedding methods assign only one vector to a word, even if polysemous words have multi-senses. To address this limitation, we propose SememeWSD Synonym (SWSDS) model to assign a different vector to every sense of polysemous words with the help of word sense disambiguation (WSD) and synonym set in OpenHowNet. We use the SememeWSD model, an unsupervised word sense disambiguation model based on OpenHowNet, to do word sense disambiguation and annotate the polysemous word with sense id. Then, we obtain top 10 synonyms of the word sense from OpenHowNet and calculate the average vector of synonyms as the vector of the word sense. In experiments, We evaluate the SWSDS model on semantic similarity calculation with Gensim's wmdistance method. It achieves improvement of accuracy. We also examine the SememeWSD model on different BERT models to find the more effective model.
翻訳日:2022-06-30 20:01:27 公開日:2022-06-29
# TweetNLP:ソーシャルメディアのためのカットエッジ自然言語処理

TweetNLP: Cutting-Edge Natural Language Processing for Social Media ( http://arxiv.org/abs/2206.14774v1 )

ライセンス: Link先を確認
Jose Camacho-Collados and Kiamehr Rezaee and Talayeh Riahi and Asahi Ushio and Daniel Loureiro and Dimosthenis Antypas and Joanne Boisson and Luis Espinosa-Anke and Fangyu Liu and Eugenio Mart\'inez-C\'amara and Gonzalo Medina and Thomas Buhrmann and Leonardo Neves and Francesco Barbieri(参考訳) 本稿では,ソーシャルメディアにおける自然言語処理(NLP)の統合プラットフォームであるTweetNLPについて述べる。 TweetNLPは感情分析や名前付きエンティティ認識といった汎用的な焦点領域や、絵文字予測や攻撃的な言語識別といったソーシャルメディア固有のタスクなど、さまざまなNLPタスクをサポートする。 タスク固有のシステムは、ソーシャルメディアテキスト(特にTwitter)に特化した合理的なサイズのTransformerベースの言語モデルで、専用のハードウェアやクラウドサービスを必要とせずに実行できる。 tweetnlpの主な貢献は、(1)ソーシャルドメインに適合した様々なタスク特化モデルを用いたソーシャルメディア分析をサポートするモダンなツールキットのための統合pythonライブラリ、(2)モデルを用いたコードレス実験のためのインタラクティブなオンラインデモ、(3)様々な典型的なソーシャルメディアアプリケーションをカバーするチュートリアル、である。

In this paper we present TweetNLP, an integrated platform for Natural Language Processing (NLP) in social media. TweetNLP supports a diverse set of NLP tasks, including generic focus areas such as sentiment analysis and named entity recognition, as well as social media-specific tasks such as emoji prediction and offensive language identification. Task-specific systems are powered by reasonably-sized Transformer-based language models specialized on social media text (in particular, Twitter) which can be run without the need for dedicated hardware or cloud services. The main contributions of TweetNLP are: (1) an integrated Python library for a modern toolkit supporting social media analysis using our various task-specific models adapted to the social domain; (2) an interactive online demo for codeless experimentation using our models; and (3) a tutorial covering a wide variety of typical social media applications.
翻訳日:2022-06-30 20:01:04 公開日:2022-06-29
# (参考訳) longhorns at dadc 2022: 質問応答モデルを騙すのに、言語学者は何人必要か? 敵攻撃に対する体系的アプローチ

longhorns at DADC 2022: How many linguists does it take to fool a Question Answering model? A systematic approach to adversarial attacks ( http://arxiv.org/abs/2206.14729v1 )

ライセンス: CC BY 4.0
Venelin Kovatchev, Trina Chatterjee, Venkata S Govindarajan, Jifan Chen, Eunsol Choi, Gabriella Chronis, Anubrata Das, Katrin Erk, Matthew Lease, Junyi Jessy Li, Yating Wu, Kyle Mahowald(参考訳) NLPシステムに逆らう手法の開発は、モデル性能と解釈可能性の両方を改善する上で有望な方法である。 The First Workshop on Dynamic Adversarial Data Collection (DADC) の第1タスクでは,抽出質問回答タスクのモデルを手動で騙すという,チームの“ロングホーン(longhorns)”のアプローチについて解説する。 私たちのチームはまず、モデルエラー率62%で終えました。 我々は,敵対的質問を定式化するための体系的,言語的インフォームドアプローチを提唱し,パイロット実験の結果と公式な提案について述べる。

Developing methods to adversarially challenge NLP systems is a promising avenue for improving both model performance and interpretability. Here, we describe the approach of the team "longhorns" on Task 1 of the The First Workshop on Dynamic Adversarial Data Collection (DADC), which asked teams to manually fool a model on an Extractive Question Answering task. Our team finished first, with a model error rate of 62%. We advocate for a systematic, linguistically informed approach to formulating adversarial questions, and we describe the results of our pilot experiments, as well as our official submission.
翻訳日:2022-06-30 19:59:00 公開日:2022-06-29
# 変圧器型言語モデルの再検討

Knowledge Distillation of Transformer-based Language Models Revisited ( http://arxiv.org/abs/2206.14366v1 )

ライセンス: Link先を確認
Chengqiang Lu, Jianwei Zhang, Yunfei Chu, Zhengyu Chen, Jingren Zhou, Fei Wu, Haiqing Chen, Hongxia Yang(参考訳) ここ数年、トランスフォーマーベースの事前学習言語モデルは、産業とアカデミックの両方で驚くべき成功を収めてきた。 しかし、大規模なモデルサイズと高ランタイムレイテンシは、特に携帯電話やIoT(Internet of Things)デバイスにおいて、実際にそれを適用する上で深刻な障害となる。 このモデルを圧縮するために、知識蒸留(KD)のテーマを中心に、近年かなりの文献が成長している。 しかしながら、KDがトランスフォーマーベースのモデルでどのように機能するかはまだ不明である。 我々はKDのコンポーネントを分解し、統一KDフレームワークを提案する。 このフレームワークを通じて、23,000GPU時間を超える体系的かつ広範な実験は、知識タイプ、マッチング戦略、幅と深さのトレードオフ、初期化、モデルサイズなどの観点から包括的な分析をレンダリングする。 実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)と比較して相対的に改善した。 最後に、変換器モデルにおけるKDのベストプラクティスガイドラインを提供する。

In the past few years, transformer-based pre-trained language models have achieved astounding success in both industry and academia. However, the large model size and high run-time latency are serious impediments to applying them in practice, especially on mobile phones and Internet of Things (IoT) devices. To compress the model, considerable literature has grown up around the theme of knowledge distillation (KD) recently. Nevertheless, how KD works in transformer-based models is still unclear. We tease apart the components of KD and propose a unified KD framework. Through the framework, systematic and extensive experiments that spent over 23,000 GPU hours render a comprehensive analysis from the perspectives of knowledge types, matching strategies, width-depth trade-off, initialization, model size, etc. Our empirical results shed light on the distillation in the pre-train language model and with relative significant improvement over previous state-of-the-arts(SOTA). Finally, we provide a best-practice guideline for the KD in transformer-based models.
翻訳日:2022-06-30 19:44:20 公開日:2022-06-29
# TE2Rules: ツリーアンサンブルからルールリストを抽出する

TE2Rules: Extracting Rule Lists from Tree Ensembles ( http://arxiv.org/abs/2206.14359v1 )

ライセンス: Link先を確認
G Roshan Lal and Xiaotong (Elaine) Chen and Varun Mithal(参考訳) トリーアンサンブル(te)モデル(例えば勾配強化木やランダム森林)は、単一の決定木よりも高い予測性能を提供することが多い。 しかしながら、TEモデルは一般に透明性と解釈可能性に欠けており、人間は意思決定ロジックを理解するのが困難である。 本稿では、二項分類タスクのために訓練されたTEを、TEとグローバルに等価で人間にとって理解しやすいルールリスト(RL)に変換するための新しいアプローチを提案する。 このRLはTEによる意思決定に必要な全ての条件を捕捉する。 ベンチマークデータセットの実験では、最先端の手法と比較された。 i) TE2Rulesが生成したRLからの予測は、元のTEに対して高い忠実度を有する。 (II)TE2RulesのRLは、決定規則の数と長さによって測定される高い解釈性を有する。 (iii)te2rulesアルゴリズムの実行時間は、少し低い忠実度で大幅に削減することができ、 (iv)rlは、最先端のルールベースのインスタンスレベルの結果説明手法の高速代替品である。

Tree Ensemble (TE) models (e.g. Gradient Boosted Trees and Random Forests) often provide higher prediction performance compared to single decision trees. However, TE models generally lack transparency and interpretability, as humans have difficulty understanding their decision logic. This paper presents a novel approach to convert a TE trained for a binary classification task, to a rule list (RL) that is a global equivalent to the TE and is comprehensible for a human. This RL captures all necessary and sufficient conditions for decision making by the TE. Experiments on benchmark datasets demonstrate that, compared to state-of-the-art methods, (i) predictions from the RL generated by TE2Rules have high fidelity with respect to the original TE, (ii) the RL from TE2Rules has high interpretability measured by the number and the length of the decision rules, (iii) the run-time of TE2Rules algorithm can be reduced significantly at the cost of a slightly lower fidelity, and (iv) the RL is a fast alternative to the state-of-the-art rule-based instance-level outcome explanation techniques.
翻訳日:2022-06-30 19:40:42 公開日:2022-06-29
# SPI-GAN:ストレートパス補間によるスコアベース生成モデルの蒸留

SPI-GAN: Distilling Score-based Generative Models with Straight-Path Interpolations ( http://arxiv.org/abs/2206.14464v1 )

ライセンス: Link先を確認
Jinsung Jeon, Noseong Park(参考訳) スコアベース生成モデル(SGM)は、最近提案された深層生成タスクのパラダイムであり、現在最先端のサンプリング性能を示している。 もともとのSGM設計は、生成トリレンマの2つの問題を解くことが知られている。 一 品質の採取、及び ii) 多様性のサンプリング。 しかし、トリレンマの最後の問題は解決されなかった、すなわち、トレーニング/サンプリングの複雑さは明らかに高い。 この目的のために、sgmをより単純なモデル、例えばgans(generative adversarial networks)に蒸留することは、現在多くの注目を集めている。 本稿では, ストレートパス補間GAN (SPI-GAN) と呼ばれる拡張蒸留法について, DD-GAN (Denoising diffusion GAN) と呼ばれる最先端のショートカット方式の蒸留法と比較する。 しかし,本手法は逆SDE経路の中間的ショートカット情報を使用しない極端な手法に対応しており,DD-GANは良好な結果を得ることができない。 それでも我々の直線パス補間法は総合的な訓練過程を大幅に安定化させる。 その結果、SPI-GANはCIFAR-10、CelebA-HQ-256、LSUN-Church-256のサンプリング品質/多様性/時間において最高のモデルの一つである。

Score-based generative models (SGMs) are a recently proposed paradigm for deep generative tasks and now show the state-of-the-art sampling performance. It is known that the original SGM design solves the two problems of the generative trilemma: i) sampling quality, and ii) sampling diversity. However, the last problem of the trilemma was not solved, i.e., their training/sampling complexity is notoriously high. To this end, distilling SGMs into simpler models, e.g., generative adversarial networks (GANs), is gathering much attention currently. We present an enhanced distillation method, called straight-path interpolation GAN (SPI-GAN), which can be compared to the state-of-the-art shortcut-based distillation method, called denoising diffusion GAN (DD-GAN). However, our method corresponds to an extreme method that does not use any intermediate shortcut information of the reverse SDE path, in which case DD-GAN fails to obtain good results. Nevertheless, our straight-path interpolation method greatly stabilizes the overall training process. As a result, SPI-GAN is one of the best models in terms of the sampling quality/diversity/time for CIFAR-10, CelebA-HQ-256, and LSUN-Church-256.
翻訳日:2022-06-30 19:40:28 公開日:2022-06-29
# 事前訓練されたGANからのデータの収集

Forgetting Data from Pre-trained GANs ( http://arxiv.org/abs/2206.14389v1 )

ライセンス: Link先を確認
Zhifeng Kong and Kamalika Chaudhuri(参考訳) 大規模な事前訓練された生成モデルは、様々な理由で望ましくないサンプルを提供することが知られている。 これを緩和する標準的な方法は、モデルを異なる方法で再トレーニングすることです。 本研究では、より計算に優しいアプローチを採用し、トレーニング後にモデルを後編集する方法を調べ、特定の種類のサンプルを忘れるようにする。 我々は,GANに対して,忘れるべきサンプルの表現方法が異なる3つの異なるアルゴリズムを提供する。 実世界の画像データセットの大規模な評価は、我々のアルゴリズムがデータを再トレーニングするコストのごく一部で高画質を維持しながら、データを忘れることができることを示している。

Large pre-trained generative models are known to occasionally provide samples that may be undesirable for various reasons. The standard way to mitigate this is to re-train the models differently. In this work, we take a different, more compute-friendly approach and investigate how to post-edit a model after training so that it forgets certain kinds of samples. We provide three different algorithms for GANs that differ on how the samples to be forgotten are described. Extensive evaluations on real-world image datasets show that our algorithms are capable of forgetting data while retaining high generation quality at a fraction of the cost of full re-training.
翻訳日:2022-06-30 19:38:59 公開日:2022-06-29
# 集団不変学習はいつ純粋相関を救えるか?

When Does Group Invariant Learning Survive Spurious Correlations? ( http://arxiv.org/abs/2206.14534v1 )

ライセンス: Link先を確認
Yimeng Chen, Ruibin Xiong, Zhiming Ma, Yanyan Lan(参考訳) 学習データの潜在群を推定することにより、環境アノテーションが利用できない場合に不変学習を導入する。 通常、多数派/少数派分割の下での学習グループ不変性は、多くのデータセットにおける分散の一般化を改善するのに効果的であることが実証的に示されている。 しかし、これらの方法の不変機構の学習に関する理論的保証は欠如している。 本稿では,既存のグループ不変学習法では,学習セットにおけるスプリアス相関に依存する分類器を防止できないことを明らかにする。 具体的には,その妥当性を判断するための2つの基準を提案する。 理論的および実証的に、既存の手法は両方の基準に違反する可能性があり、従って散発的な相関シフトの一般化に失敗することを示した。 そこで我々は,統計的独立性テストを持つグループを構成するグループ不変学習手法を考案し,その基準を満たすためにグループラベル比でサンプルを再重み付けする。 合成データと実データの両方の実験により、この新手法は既存のグループ不変学習法を著しく上回り、相関の急激なシフトを一般化することを示した。

By inferring latent groups in the training data, recent works introduce invariant learning to the case where environment annotations are unavailable. Typically, learning group invariance under a majority/minority split is empirically shown to be effective in improving out-of-distribution generalization on many datasets. However, theoretical guarantee for these methods on learning invariant mechanisms is lacking. In this paper, we reveal the insufficiency of existing group invariant learning methods in preventing classifiers from depending on spurious correlations in the training set. Specifically, we propose two criteria on judging such sufficiency. Theoretically and empirically, we show that existing methods can violate both criteria and thus fail in generalizing to spurious correlation shifts. Motivated by this, we design a new group invariant learning method, which constructs groups with statistical independence tests, and reweights samples by group label proportion to meet the criteria. Experiments on both synthetic and real data demonstrate that the new method significantly outperforms existing group invariant learning methods in generalizing to spurious correlation shifts.
翻訳日:2022-06-30 19:37:32 公開日:2022-06-29
# 畳み込みニューラルネットワークによる部分顔検出

Convolutional Neural Network Based Partial Face Detection ( http://arxiv.org/abs/2206.14350v1 )

ライセンス: Link先を確認
Md. Towfiqul Islam, Tanzim Ahmed, A.B.M. Raihanur Rashid, Taminul Islam, Md. Sadekur Rahman, and Md. Tarek Habib(参考訳) 人工知能の膨大な説明のために、機械学習技術は日々の生活のさまざまな領域で使われている。 世界では、単純な犯罪が起こらないか、あるいはその責任を負う人を見つける前に防止できるシナリオがたくさんあります。 顔は我々が持つ特徴の一つであり、他の多くの種と容易に区別できる。 しかし、異なる種だけでなく、人間と同じ種から誰かを決定する上でも重要な役割を担っています。 この重要な特徴については、現在では最も頻繁に1つの問題が発生する。 カメラが向けられたとき、人の顔は検出できず、画像が貧弱になる。 一方、強盗と防犯カメラが装備されていた場合、その身元は低品質カメラのためほとんど区別がつかない。 しかし、優れたアルゴリズムを作って顔を検出するだけで、ハードウェアのコストが削減され、その領域に注力するほどコストがかかりません。 顔認識、ウィジェット制御等は、正しく顔を検出することで行うことができる。 本研究の目的は、顔を正しく認識する機械学習モデルの作成と強化である。 バングラデシュの4つの天使の顔から合計627のデータが収集された。 この作業では、CNN、Harr Cascade、Cascaded CNN、Deep CNN & MTCNNが、データセットの最高の精度を得るために実装された5つの機械学習アプローチである。 モデルの作成と実行の後、マルチタスク畳み込みニューラルネットワーク(mtcnn)は他の機械学習モデルよりもトレーニングデータで96.2%の精度を達成した。

Due to the massive explanation of artificial intelligence, machine learning technology is being used in various areas of our day-to-day life. In the world, there are a lot of scenarios where a simple crime can be prevented before it may even happen or find the person responsible for it. A face is one distinctive feature that we have and can differentiate easily among many other species. But not just different species, it also plays a significant role in determining someone from the same species as us, humans. Regarding this critical feature, a single problem occurs most often nowadays. When the camera is pointed, it cannot detect a person's face, and it becomes a poor image. On the other hand, where there was a robbery and a security camera installed, the robber's identity is almost indistinguishable due to the low-quality camera. But just making an excellent algorithm to work and detecting a face reduces the cost of hardware, and it doesn't cost that much to focus on that area. Facial recognition, widget control, and such can be done by detecting the face correctly. This study aims to create and enhance a machine learning model that correctly recognizes faces. Total 627 Data have been collected from different Bangladeshi people's faces on four angels. In this work, CNN, Harr Cascade, Cascaded CNN, Deep CNN & MTCNN are these five machine learning approaches implemented to get the best accuracy of our dataset. After creating and running the model, Multi-Task Convolutional Neural Network (MTCNN) achieved 96.2% best model accuracy with training data rather than other machine learning models.
翻訳日:2022-06-30 19:36:47 公開日:2022-06-29
# RegMixup: 正規化ツールとしての混在は、驚くほど正確さと配布のロバストさを改善する

RegMixup: Mixup as a Regularizer Can Surprisingly Improve Accuracy and Out Distribution Robustness ( http://arxiv.org/abs/2206.14502v1 )

ライセンス: Link先を確認
Francesco Pinto, Harry Yang, Ser-Nam Lim, Philip H.S. Torr, Puneet K. Dokania(参考訳) 学習目的としてのみ使うのではなく、標準のクロスエントロピー損失に対する追加のレギュレータとして利用すれば、良好なミックスアップ(Zhang et al., 2018)の有効性をさらに向上できることを示す。 この単純な変化は、精度を大幅に改善するだけでなく、様々な形態の共変量シフトや分布外検出実験において、Mixupの予測不確実性推定の品質を著しく向上させる。 実のところ、Mixupは、分布外サンプルの検出において、高エントロピーを示すモデルを学習する傾向があり、分布外サンプルと分布外サンプルとを区別することが困難であるため、おそらく経験的に示すように、分解性能が低下している。 提案手法の有効性を示すために,画像NetとCIFAR-10/100のビジョンデータセットに関する詳細な分析と実験を行い,信頼性の高い不確実性推定のための一連のアプローチと比較した。

We show that the effectiveness of the well celebrated Mixup [Zhang et al., 2018] can be further improved if instead of using it as the sole learning objective, it is utilized as an additional regularizer to the standard cross-entropy loss. This simple change not only provides much improved accuracy but also significantly improves the quality of the predictive uncertainty estimation of Mixup in most cases under various forms of covariate shifts and out-of-distribution detection experiments. In fact, we observe that Mixup yields much degraded performance on detecting out-of-distribution samples possibly, as we show empirically, because of its tendency to learn models that exhibit high-entropy throughout; making it difficult to differentiate in-distribution samples from out-distribution ones. To show the efficacy of our approach (RegMixup), we provide thorough analyses and experiments on vision datasets (ImageNet & CIFAR-10/100) and compare it with a suite of recent approaches for reliable uncertainty estimation.
翻訳日:2022-06-30 19:36:24 公開日:2022-06-29
# Cut inner Layers: 効率的なU-Net GANのための構造化プルーニング戦略

Cut Inner Layers: A Structured Pruning Strategy for Efficient U-Net GANs ( http://arxiv.org/abs/2206.14658v1 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Shinkook Choi, Hancheol Park(参考訳) プルーニングは、過パラメータモデルを効果的に圧縮する。 判別モデルの刈り取り手法の成功にもかかわらず、生成モデルに適用することは比較的まれである。 本研究は, 条件付きGANのU-Net発生器における構造化プルーニングを行う。 層ごとの感度分析により、ボトルネック付近の最も内側の層に多くの不要なフィルタが存在し、実質的に刈り取ることができる。 この観測に基づいて、これらのフィルタを複数の内部層から創り出すか、レイヤを完全に排除して代替アーキテクチャを提案する。 pix2pixによる画像から画像への変換とwav2lipによる発話表情生成のアプローチを評価した。 本手法はグローバルプルーニングベースラインよりも優れており, u-net ジェネレータのプルーニング位置を適切に検討することが重要である。

Pruning effectively compresses overparameterized models. Despite the success of pruning methods for discriminative models, applying them for generative models has been relatively rarely approached. This study conducts structured pruning on U-Net generators of conditional GANs. A per-layer sensitivity analysis confirms that many unnecessary filters exist in the innermost layers near the bottleneck and can be substantially pruned. Based on this observation, we prune these filters from multiple inner layers or suggest alternative architectures by completely eliminating the layers. We evaluate our approach with Pix2Pix for image-to-image translation and Wav2Lip for speech-driven talking face generation. Our method outperforms global pruning baselines, demonstrating the importance of properly considering where to prune for U-Net generators.
翻訳日:2022-06-30 19:36:02 公開日:2022-06-29
# グラフニューラル演算子を用いたPDE解のマルチスケール物理表現

Multi-scale Physical Representations for Approximating PDE Solutions with Graph Neural Operators ( http://arxiv.org/abs/2206.14687v1 )

ライセンス: Link先を確認
L\'eon Migus, Yuan Yin, Jocelyn Ahmed Mazari, Patrick Gallinari(参考訳) 異なるスケールで物理信号を表現することは、エンジニアリングにおいて最も難しい問題のひとつです。 いくつかのマルチスケールモデリングツールが開発され、emph{Partial Differential Equations} (PDE) によって制御される物理系を記述する。 これらのツールは、原理化された物理モデルと数値スキーマの横断にある。 近年、数値解法と比較してPDE解の近似を高速化するためにデータ駆動モデルが導入されている。 最近のデータ駆動手法では、神経積分演算子は関数空間間のマッピングを学ぶクラスである。 これらの関数は、物理現象の相互作用のモデリングに適したグラフ (meshes) 上で離散化される。 本研究では,積分カーネル演算子を用いた3つのマルチレゾリューションスキーマを,MPGNN(emph{Message Passing Graph Neural Networks})を用いて近似する。 本研究では, 定常かつ非定常なPDEを考慮したMPGNN実験を行った。

Representing physical signals at different scales is among the most challenging problems in engineering. Several multi-scale modeling tools have been developed to describe physical systems governed by \emph{Partial Differential Equations} (PDEs). These tools are at the crossroad of principled physical models and numerical schema. Recently, data-driven models have been introduced to speed-up the approximation of PDE solutions compared to numerical solvers. Among these recent data-driven methods, neural integral operators are a class that learn a mapping between function spaces. These functions are discretized on graphs (meshes) which are appropriate for modeling interactions in physical phenomena. In this work, we study three multi-resolution schema with integral kernel operators that can be approximated with \emph{Message Passing Graph Neural Networks} (MPGNNs). To validate our study, we make extensive MPGNNs experiments with well-chosen metrics considering steady and unsteady PDEs.
翻訳日:2022-06-30 19:35:48 公開日:2022-06-29
# 3次元映像生成

3D-Aware Video Generation ( http://arxiv.org/abs/2206.14797v1 )

ライセンス: Link先を確認
Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Hao Tang, Gordon Wetzstein, Leonidas Guibas, Luc Van Gool, Radu Timofte(参考訳) 生成モデルは、多くの画像合成および編集タスクに不可欠なビルディングブロックとして登場した。 この分野での最近の進歩は、マルチビューまたは時間的一貫性を示す高品質な3Dまたはビデオコンテンツの生成を可能にしている。 本研究では,無条件で3D対応ビデオを生成する4D生成敵ネットワーク(GAN)について検討する。 ニューラル暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。 提案手法は,既存の3DやビデオGANに匹敵する画質の画像を生成しながら,時空間レンダリングの新しい視覚効果を実現するために,分解可能な3D構造とモーションのリッチな埋め込みを学習する。

Generative models have emerged as an essential building block for many image synthesis and editing tasks. Recent advances in this field have also enabled high-quality 3D or video content to be generated that exhibits either multi-view or temporal consistency. With our work, we explore 4D generative adversarial networks (GANs) that learn unconditional generation of 3D-aware videos. By combining neural implicit representations with time-aware discriminator, we develop a GAN framework that synthesizes 3D video supervised only with monocular videos. We show that our method learns a rich embedding of decomposable 3D structures and motions that enables new visual effects of spatio-temporal renderings while producing imagery with quality comparable to that of existing 3D or video GANs.
翻訳日:2022-06-30 19:35:33 公開日:2022-06-29
# (参考訳) 対話型質問応答における対話履歴表現のロバスト性について:包括的考察と新しいプロンプト法

On the Robustness of Dialogue History Representation in Conversational Question Answering: A Comprehensive Study and a New Prompt-based Method ( http://arxiv.org/abs/2206.14796v1 )

ライセンス: CC BY 4.0
Zorik Gekhman, Nadav Oved, Orgad Keller, Idan Szpektor, Roi Reichart(参考訳) Conversational Question Answering (CQA) の会話履歴をモデル化する作業の多くは、共通のCQAベンチマークで1つの主要な結果を報告している。 既存のモデルはCQAのリーダーボード上で印象的な結果を示しているが、設定(時にはより現実的なものへ)、データサイズ(例えば、大きなものから小さなものへ)、ドメインのトレーニングにおいて堅牢かどうかは不明だ。 本研究では,CQAにおける歴史モデリング手法の大規模ロバストネス研究を設計し,実施する。 高いベンチマークスコアが強靭性に必ずしも変換されないことや、様々な手法が異なる設定で非常に異なる性能を発揮することを発見した。 本研究から得られた知見を活かし,新しいプロンプトベースの歴史モデリング手法を考案し,その強固さを様々な場面で実証する。 当社のアプローチは,過去の回答を要約する既存の手法に着想を得たものです。 しかし、エントリトークンの埋め込みを変更することでハイライトを行う代わりに、パステキストに直接テキストプロンプトを追加する。 私たちのアプローチはシンプルで、事実上どんなモデルにも簡単に接続でき、非常に効果的なので、将来のモデル開発者にとって出発点として推奨します。 また、我々の研究と洞察が、高いリーダーボードスコアの獲得に加えて、ロバストネスを重視した評価の重要性への認識を高め、より良いCQAシステムを実現することを期待しています。

Most works on modeling the conversation history in Conversational Question Answering (CQA) report a single main result on a common CQA benchmark. While existing models show impressive results on CQA leaderboards, it remains unclear whether they are robust to shifts in setting (sometimes to more realistic ones), training data size (e.g. from large to small sets) and domain. In this work, we design and conduct the first large-scale robustness study of history modeling approaches for CQA. We find that high benchmark scores do not necessarily translate to strong robustness, and that various methods can perform extremely differently under different settings. Equipped with the insights from our study, we design a novel prompt-based history modeling approach, and demonstrate its strong robustness across various settings. Our approach is inspired by existing methods that highlight historic answers in the passage. However, instead of highlighting by modifying the passage token embeddings, we add textual prompts directly in the passage text. Our approach is simple, easy-to-plug into practically any model, and highly effective, thus we recommend it as a starting point for future model developers. We also hope that our study and insights will raise awareness to the importance of robustness-focused evaluation, in addition to obtaining high leaderboard scores, leading to better CQA systems.
翻訳日:2022-06-30 19:34:03 公開日:2022-06-29
# ニューラルスケーリングの法則を超えた:データプルーニングによるパワーローのスケーリング

Beyond neural scaling laws: beating power law scaling via data pruning ( http://arxiv.org/abs/2206.14486v1 )

ライセンス: Link先を確認
Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S. Morcos(参考訳) 広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズ、あるいはその両方がエラーを発生させるため、ディープラーニングのパフォーマンスが大幅に向上している。 しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、データセットサイズによるエラーのスケーリングに注目し、理論上も実践上も、パワーロースケーリングを越えて、トレーニング例を破棄して、任意のプランニングされたデータセットサイズを達成する順序をランク付けする、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。 CIFAR-10、SVHN、ImageNetでトレーニングされたResNet上で、この指数関数スケーリング予測を経験的に検証し、電力法スケーリング性能よりも優れていることを示す。 高品質なpruningメトリックを見つけることの重要性を踏まえて、imagenet上で10の異なるデータpruningメトリックに関する最初の大規模ベンチマーク調査を行う。 既存のハイパフォーマンスなメトリクスのほとんどはImageNetに匹敵するものですが、ベストは計算集約的で、すべてのイメージにラベルが必要です。 そこで我々は,優れた教師付きメトリクスに匹敵するパフォーマンスを示す,シンプルで安価でスケーラブルな自己教師付きプルーニングメトリックを開発した。 全体として、我々の研究は、優れたデータ処理メトリクスの発見が、ニューラルネットワークのスケーリング法則を大幅に改善し、現代のディープラーニングのリソースコストを削減するための、実行可能な道筋を提供する可能性を示唆している。

Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how both in theory and practice we can break beyond power law scaling and reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this new exponential scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling performance on ResNets trained on CIFAR-10, SVHN, and ImageNet. Given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.
翻訳日:2022-06-30 19:11:18 公開日:2022-06-29
# gernermed++: ドイツ医学nlpにおけるトランスファー学習

GERNERMED++: Transfer Learning in German Medical NLP ( http://arxiv.org/abs/2206.14504v1 )

ライセンス: Link先を確認
Johann Frei, Ludwig Frei-Stuber, Frank Kramer(参考訳) 本稿では,ドイツの医学自然言語処理のための統計モデルとして,名前付きエンティティ認識(NER)をオープンかつ一般公開したモデルとして提案する。 この作品は、私たちの最初のGERNERMEDモデルの洗練された後継として機能します。 本研究では,事前学習した深層言語モデル(LM)や単語アライメント,ニューラルマシン翻訳を用いて,エンティティ認識性能を向上するために,複数の手法を組み合わせることの有効性を示す。 ドイツ語テキストのオープンな公開医療エンティティ認識モデルに関する状況が緩いため、この研究はドイツの医学NLP研究コミュニティにベースラインモデルとして利益をもたらす。 本モデルは公的な英語データに基づいており,その重み付けは使用と流通に関する法的制約を伴わない。 サンプルコードと統計モデルは、https://github.com/frankkramer-lab/GERNERMED-ppで公開されている。

We present a statistical model for German medical natural language processing trained for named entity recognition (NER) as an open, publicly available model. The work serves as a refined successor to our first GERNERMED model which is substantially outperformed by our work. We demonstrate the effectiveness of combining multiple techniques in order to achieve strong results in entity recognition performance by the means of transfer-learning on pretrained deep language models (LM), word-alignment and neural machine translation. Due to the sparse situation on open, public medical entity recognition models for German texts, this work offers benefits to the German research community on medical NLP as a baseline model. Since our model is based on public English data, its weights are provided without legal restrictions on usage and distribution. The sample code and the statistical model is available at: https://github.com/frankkramer-lab/GERNERMED-pp
翻訳日:2022-06-30 19:10:52 公開日:2022-06-29
# matryoshka: モデルにモデルを隠すことでプライベートmlデータの機能を盗む

Matryoshka: Stealing Functionality of Private ML Data by Hiding Models in Model ( http://arxiv.org/abs/2206.14371v1 )

ライセンス: Link先を確認
Xudong Pan, Yifan Yan, Shengyao Zhang, Mi Zhang, Min Yang(参考訳) 本稿では,ローカルデータセンタに格納されたプライベートMLデータの機能を記憶する複数のシークレットモデルを隠蔽するキャリアモデルとして,無関係にスケジュールされたDNNモデルを用いる,Matryoshkaと呼ばれるインサイダー攻撃を提案する。 本研究では,キャリアモデルのパラメータをビット文字列として扱い,従来のステガノグラフィーを適用する代わりに,キャリアモデルの学習能力を利用した新しいパラメータ共有手法を提案する。 matryoshka が同時に達成する。 (i) 高容量 -- キャリアモデルのユーティリティ損失がほとんどなく、matryoshkaは26倍の大きなシークレットモデルや、キャリアモデルの異なるアプリケーションドメインにまたがる多様なアーキテクチャの8つのシークレットモデルを隠蔽することができる。 (ii)デコーディング効率 -- 公開されたキャリアモデルをダウンロードすると、外部のコルーダーは、いくつかの整数秘密と隠れたモデルアーキテクチャに関する知識だけで、隠れたモデルをキャリアモデルから排他的にデコードすることができる。 (iii)有効性 --さらに、ほぼすべての回収されたモデルは、個人データに基づいて独立に訓練されたかのように、同様の性能を有する。 (iv)ロバスト性 -- 情報冗長性は,公開前のキャリア上の一般的な後処理技術に対するレジリエンスを達成するために,自然に実装される。 (v)カバーネス -- 事前知識のレベルが異なるモデルインスペクタは、キャリアモデルを通常のモデルとほとんど区別できませんでした。

In this paper, we present a novel insider attack called Matryoshka, which employs an irrelevant scheduled-to-publish DNN model as a carrier model for covert transmission of multiple secret models which memorize the functionality of private ML data stored in local data centers. Instead of treating the parameters of the carrier model as bit strings and applying conventional steganography, we devise a novel parameter sharing approach which exploits the learning capacity of the carrier model for information hiding. Matryoshka simultaneously achieves: (i) High Capacity -- With almost no utility loss of the carrier model, Matryoshka can hide a 26x larger secret model or 8 secret models of diverse architectures spanning different application domains in the carrier model, neither of which can be done with existing steganography techniques; (ii) Decoding Efficiency -- once downloading the published carrier model, an outside colluder can exclusively decode the hidden models from the carrier model with only several integer secrets and the knowledge of the hidden model architecture; (iii) Effectiveness -- Moreover, almost all the recovered models have similar performance as if it were trained independently on the private data; (iv) Robustness -- Information redundancy is naturally implemented to achieve resilience against common post-processing techniques on the carrier before its publishing; (v) Covertness -- A model inspector with different levels of prior knowledge could hardly differentiate a carrier model from a normal model.
翻訳日:2022-06-30 19:10:37 公開日:2022-06-29
# EBM vs. CL:ビジュアル質問応答のための自己監督型ビジュアル事前学習

EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering ( http://arxiv.org/abs/2206.14355v1 )

ライセンス: Link先を確認
Violetta Shevchenko, Ehsan Abbasnejad, Anthony Dick, Anton van den Hengel, Damien Teney(参考訳) クリーンで多様なラベル付きデータの可用性は、視覚的質問応答(VQA)のような複雑なタスクでモデルをトレーニングするための主要な障害である。 大規模視覚・言語モデルに関する広範な研究により、自己教師付き学習がマルチモーダル相互作用の事前訓練に有効であることが示されている。 本報告では,視覚的表現に注目した。 我々は,ラベルなし画像を利用した自己教師あり手法をレビュー・評価し,モデルの事前学習を行い,評価と診断を制御可能なカスタムvqaタスクに微調整を行った。 エネルギーベースモデル(EBM)と対照的学習(CL)を比較した。 EBMの人気は高まっているが、下流タスクの評価には欠けている。 EBMもCLもラベルのない画像から表現を学習でき、非常に少ない注釈付きデータでVQAモデルをトレーニングできることがわかった。 CLEVRに類似した単純な設定では、CL表現は体系的な一般化も改善し、より大きな教師付き ImageNet-Pretrained モデルからの表現のパフォーマンスにマッチする。 しかし,ebmは不安定性と高い変動性のため,訓練が困難であることがわかった。 ebmsはood検出に有用であるが、教師付きエネルギーベースのトレーニングと不確実性校正の他の結果は概ね負である。 全体として、現在clはebmsよりも望ましい選択肢に思える。

The availability of clean and diverse labeled data is a major roadblock for training models on complex tasks such as visual question answering (VQA). The extensive work on large vision-and-language models has shown that self-supervised learning is effective for pretraining multimodal interactions. In this technical report, we focus on visual representations. We review and evaluate self-supervised methods to leverage unlabeled images and pretrain a model, which we then fine-tune on a custom VQA task that allows controlled evaluation and diagnosis. We compare energy-based models (EBMs) with contrastive learning (CL). While EBMs are growing in popularity, they lack an evaluation on downstream tasks. We find that both EBMs and CL can learn representations from unlabeled images that enable training a VQA model on very little annotated data. In a simple setting similar to CLEVR, we find that CL representations also improve systematic generalization, and even match the performance of representations from a larger, supervised, ImageNet-pretrained model. However, we find EBMs to be difficult to train because of instabilities and high variability in their results. Although EBMs prove useful for OOD detection, other results on supervised energy-based training and uncertainty calibration are largely negative. Overall, CL currently seems a preferable option over EBMs.
翻訳日:2022-06-30 19:10:10 公開日:2022-06-29