このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220621となっている論文です。

PDF登録状況(公開日: 20220621)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチタイプ平均場強化学習

Multi Type Mean Field Reinforcement Learning ( http://arxiv.org/abs/2002.02513v7 )

ライセンス: Link先を確認
Sriram Ganapathi Subramanian and Pascal Poupart and Matthew E. Taylor and Nidhi Hegde(参考訳) 平均場理論は、仮想平均エージェントによって抽象化できる多くのエージェントを持つ環境に、マルチエージェント強化学習アルゴリズムをスケールする効果的な方法を提供する。 本稿では,平均場マルチエージェントアルゴリズムを複数の型に拡張する。 これらのタイプは、平均場強化学習における中核的な仮定の緩和を可能にし、環境中のすべてのエージェントがほぼ同様の戦略をとっており、同じ目標を持っている。 標準マゼンツフレームワークに基づき,多数のエージェント強化学習の分野における3つの異なるテストベッドについて実験を行った。 我々は2種類の平均場環境を考える。 a) エージェントが事前定義された型に属しており、かつ b) 各エージェントの種類が不明で,従って観察に基づいて学習しなければならないゲーム 我々は,各種類のゲームに対して新しいアルゴリズムを導入し,すべてのエージェントがMAgentフレームワーク内の同じタイプおよび他のベースラインアルゴリズムに属すると仮定する技術アルゴリズムの状況よりも優れた性能を示す。

Mean field theory provides an effective way of scaling multiagent reinforcement learning algorithms to environments with many agents that can be abstracted by a virtual mean agent. In this paper, we extend mean field multiagent algorithms to multiple types. The types enable the relaxation of a core assumption in mean field reinforcement learning, which is that all agents in the environment are playing almost similar strategies and have the same goal. We conduct experiments on three different testbeds for the field of many agent reinforcement learning, based on the standard MAgents framework. We consider two different kinds of mean field environments: a) Games where agents belong to predefined types that are known a priori and b) Games where the type of each agent is unknown and therefore must be learned based on observations. We introduce new algorithms for each type of game and demonstrate their superior performance over state of the art algorithms that assume that all agents belong to the same type and other baseline algorithms in the MAgent framework.
翻訳日:2023-01-03 10:01:40 公開日:2022-06-21
# SS-IL: インクリメンタルラーニングのための分離ソフトマックス

SS-IL: Separated Softmax for Incremental Learning ( http://arxiv.org/abs/2003.13947v3 )

ライセンス: Link先を確認
Hongjoon Ahn, Jihwan Kwak, Subin Lim, Hyeonsu Bang, Hyojun Kim and Taesup Moon(参考訳) 我々は,学習エージェントが段階的な学習データバッチから新しいクラスを継続的に学習し,これまでに学習したすべてのクラスをうまく予測することを目的とした,クラスインクリメンタル学習(cil)問題を考える。 問題の主な課題は破滅的な忘れ方であり、exemplar-memoryベースのcilメソッドでは、新しいクラスと古いクラス(exemplar-memory)の間のデータの不均衡によって注入される分類スコアバイアスが一般的に引き起こされる。 スコアの再スケーリングやバランスのとれた微調整など、追加の処理によってスコアバイアスを修正するためのいくつかの方法が提案されているが、そのようなバイアスの根本原因に関する体系的な分析は行われていない。 そこで本研究では,すべての旧クラスと新クラスの出力スコアを組み合わせることで,ソフトマックス確率の計算がバイアスの主な原因となる可能性を分析した。 そこで本研究では,タスクワイド知識蒸留(TKD)と分離したソフトマックス(SS)出力層と組み合わせて,そのバイアスを解消する分離ソフトマックス(SS-IL)と呼ばれる新しい手法を提案する。 大規模cilベンチマークデータセットの広範な実験結果を通じて,ss-ilは,追加処理を行わずに,旧クラスと新クラス間でよりバランスの取れた予測スコアを得られることにより,最先端の精度を実現していることを示した。

We consider class incremental learning (CIL) problem, in which a learning agent continuously learns new classes from incrementally arriving training data batches and aims to predict well on all the classes learned so far. The main challenge of the problem is the catastrophic forgetting, and for the exemplar-memory based CIL methods, it is generally known that the forgetting is commonly caused by the classification score bias that is injected due to the data imbalance between the new classes and the old classes (in the exemplar-memory). While several methods have been proposed to correct such score bias by some additional post-processing, e.g., score re-scaling or balanced fine-tuning, no systematic analysis on the root cause of such bias has been done. To that end, we analyze that computing the softmax probabilities by combining the output scores for all old and new classes could be the main cause of the bias. Then, we propose a new method, dubbed as Separated Softmax for Incremental Learning (SS-IL), that consists of separated softmax (SS) output layer combined with task-wise knowledge distillation (TKD) to resolve such bias. Throughout our extensive experimental results on several large-scale CIL benchmark datasets, we show our SS-IL achieves strong state-of-the-art accuracy through attaining much more balanced prediction scores across old and new classes, without any additional post-processing.
翻訳日:2022-12-18 01:05:53 公開日:2022-06-21
# 機械学習とカラーベースデータセットクラスタリングを用いた対話型画像セグメンテーション

Guided interactive image segmentation using machine learning and color based data set clustering ( http://arxiv.org/abs/2005.07662v5 )

ライセンス: Link先を確認
Adrian Friebel, Tim Johann, Dirk Drasdo, Stefan Hoehme(参考訳) 本稿では,スーパーボクセルを用いた機械学習に基づくインタラクティブ画像分割とクラスタリング手法を組み合わせた,大規模データセットにおける類似色画像の自動識別手法を提案する。 提案手法は,生体画像や医用画像に有意な色変化が生じ,しばしば避けられなくなる問題を解消し,通常はセグメンテーションの劣化と定量化の精度を低下させ,必要なトレーニング作業を大幅に削減する。 この効率の向上により、多数の画像の定量化が促進され、近年の高スループットイメージングにおける新しい技術進歩に対するインタラクティブな画像分析が可能になる。 提案手法はほとんどのイメージタイプに適用可能であり,画像解析タスク全般において有用なツールである。

We present a novel approach that combines machine learning based interactive image segmentation using supervoxels with a clustering method for the automated identification of similarly colored images in large data sets which enables a guided reuse of classifiers. Our approach solves the problem of significant color variability prevalent and often unavoidable in biological and medical images which typically leads to deteriorated segmentation and quantification accuracy thereby greatly reducing the necessary training effort. This increase in efficiency facilitates the quantification of much larger numbers of images thereby enabling interactive image analysis for recent new technological advances in high-throughput imaging. The presented methods are applicable for almost any image type and represent a useful tool for image analysis tasks in general.
翻訳日:2022-12-02 23:37:30 公開日:2022-06-21
# 勾配変動を用いたサンプル難易度の推定

Estimating Example Difficulty Using Variance of Gradients ( http://arxiv.org/abs/2008.11600v4 )

ライセンス: Link先を確認
Chirag Agarwal, Daniel D'souza, Sara Hooker(参考訳) 機械学習では、モデルを分類する上でどのような例が難しいのかを理解することが大きな関心事である。 非定型的な例の特定は、モデルの安全な配置を保証し、さらなる人間の検査を必要とするサンプルを分離し、モデルの振る舞いに解釈可能性を提供する。 本研究では,人間のループ監査における最も困難な事例の抽出可能なサブセットを提示するために,データのランク付けに難易度で効率的な指標として,VoG(Variance of Gradients)を提案する。 我々は,VoGスコアの高いデータポイントは,モデルが劣化あるいは記憶された例について学習し,過剰にインデクシングすることがはるかに困難であることを示す。 さらに、最も低いvogでテストセットインスタンスに評価を限定することで、モデルの一般化性能が向上する。 最後に,VoGは分布外検出に有用で効率的なランキングであることを示す。

In machine learning, a question of great interest is understanding what examples are challenging for a model to classify. Identifying atypical examples ensures the safe deployment of models, isolates samples that require further human inspection and provides interpretability into model behavior. In this work, we propose Variance of Gradients (VoG) as a valuable and efficient metric to rank data by difficulty and to surface a tractable subset of the most challenging examples for human-in-the-loop auditing. We show that data points with high VoG scores are far more difficult for the model to learn and over-index on corrupted or memorized examples. Further, restricting the evaluation to the test set instances with the lowest VoG improves the model's generalization performance. Finally, we show that VoG is a valuable and efficient ranking for out-of-distribution detection.
翻訳日:2022-10-24 21:11:38 公開日:2022-06-21
# 混合整数プログラミングを用いた整数値ニューラルネットワークの最適学習

Optimal training of integer-valued neural networks with mixed integer programming ( http://arxiv.org/abs/2009.03825v4 )

ライセンス: Link先を確認
T\'omas Thorbjarnarson and Neil Yorke-Smith(参考訳) 最近の研究は、ニューラルネットワーク(NN)の特定の側面を最適化するためにMIP(Mixed Integer Programming)ソルバを使用することの可能性を示している。 しかし、MIPソルバを用いたNNのトレーニングの興味深いアプローチは、未調査である。 NNをトレーニングするための最先端の手法は、通常勾配ベースであり、重要なデータ、GPU上の計算、広範囲なハイパーパラメータチューニングを必要とする。 対照的に、mipソルバによるトレーニングはgpuや重いハイパーパラメータチューニングを必要としないが、現時点では少量のデータしか扱えない。 本稿は、MIPソルバを用いて二項化NNを訓練する最近の進歩に基づく。 我々は、トレーニング効率を改善し、整数値ニューラルネットワーク(INN)の重要なクラスをトレーニングできる新しいMIPモデルを定式化することで、現在の作業を超えています。 NNのトレーニングにMIPを用いることの意義を高めるために,2つの新しい手法を提案する。 最初の方法は、トレーニング中にNN内のニューロン数を最適化する。 これにより、トレーニング前にネットワークアーキテクチャを決定する必要がなくなる。 第2の方法は、MIPが処理可能なトレーニングデータの量に対処し、MIPソルバがトレーニングに使用できるデータ量を劇的に増加させるバッチトレーニング方法を提供する。 MIPモデルを用いたNNのトレーニングでは,これまでよりもはるかに多くのデータの利用が期待できる。 2つの実世界のデータ制限データセットの実験結果は、精度、トレーニング時間、データ量の観点から、我々のアプローチがnnをmipでトレーニングする前の技術を大きく上回っていることを示している。 私たちの方法論は、最小限のトレーニングデータが利用可能である場合のNNのトレーニングや、最小限のメモリ要件によるトレーニングに長けています。

Recent work has shown potential in using Mixed Integer Programming (MIP) solvers to optimize certain aspects of neural networks (NNs). However the intriguing approach of training NNs with MIP solvers is under-explored. State-of-the-art-methods to train NNs are typically gradient-based and require significant data, computation on GPUs, and extensive hyper-parameter tuning. In contrast, training with MIP solvers does not require GPUs or heavy hyper-parameter tuning, but currently cannot handle anything but small amounts of data. This article builds on recent advances that train binarized NNs using MIP solvers. We go beyond current work by formulating new MIP models which improve training efficiency and which can train the important class of integer-valued neural networks (INNs). We provide two novel methods to further the potential significance of using MIP to train NNs. The first method optimizes the number of neurons in the NN while training. This reduces the need for deciding on network architecture before training. The second method addresses the amount of training data which MIP can feasibly handle: we provide a batch training method that dramatically increases the amount of data that MIP solvers can use to train. We thus provide a promising step towards using much more data than before when training NNs using MIP models. Experimental results on two real-world data-limited datasets demonstrate that our approach strongly outperforms the previous state of the art in training NN with MIP, in terms of accuracy, training time and amount of data. Our methodology is proficient at training NNs when minimal training data is available, and at training with minimal memory requirements -- which is potentially valuable for deploying to low-memory devices.
翻訳日:2022-10-20 21:05:19 公開日:2022-06-21
# MedFilter:談話構造とオントロジー知識の統合による博士論文からのタスク関連発話の抽出の改善

MedFilter: Improving Extraction of Task-relevant Utterances from Doctor-Patient Conversations through Integration of Discourse Structure and Ontological Knowledge ( http://arxiv.org/abs/2010.02246v3 )

ライセンス: Link先を確認
Sopan Khosla, Shikhar Vashishth, Jill Fain Lehman, Carolyn Rose(参考訳) 会話のタスク中心の性質は、人間による暗黙的な情報の効果的なコミュニケーションを可能にするが、機械にとって難しいため、会話データからの情報抽出は特に困難である。 課題は、会話における話者の役割、特に役割間で関連する専門知識が非対称に分配される場合によって異なる可能性がある。 さらに、より共有されたコンテキストが対話の早い段階で暗黙的にコミュニケーションされる情報によって構築されるため、これらの課題は会話を越えて増加する可能性がある。 本稿では,これらの知見に対処し,タスク関連発話を識別・分類し,下流情報抽出タスクの性能に正の影響を与える新しいモデリング手法 medfilter を提案する。 本手法は,MedFilter が医療関連貢献者を特定するために用いられる 7000 人近い医師と患者との会話コーパスを用いて評価した(PR曲線下におけるSOTA ベースラインよりも10% 向上した)。 課題関連発話の特定は下流の医療処理に効果があり、症状、薬物、苦情の抽出にそれぞれ15%、105%、23%の改善が達成される。

Information extraction from conversational data is particularly challenging because the task-centric nature of conversation allows for effective communication of implicit information by humans, but is challenging for machines. The challenges may differ between utterances depending on the role of the speaker within the conversation, especially when relevant expertise is distributed asymmetrically across roles. Further, the challenges may also increase over the conversation as more shared context is built up through information communicated implicitly earlier in the dialogue. In this paper, we propose the novel modeling approach MedFilter, which addresses these insights in order to increase performance at identifying and categorizing task-relevant utterances, and in so doing, positively impacts performance at a downstream information extraction task. We evaluate this approach on a corpus of nearly 7,000 doctor-patient conversations where MedFilter is used to identify medically relevant contributions to the discussion (achieving a 10% improvement over SOTA baselines in terms of area under the PR curve). Identifying task-relevant utterances benefits downstream medical processing, achieving improvements of 15%, 105%, and 23% respectively for the extraction of symptoms, medications, and complaints.
翻訳日:2022-10-10 20:21:39 公開日:2022-06-21
# テキストスタイル転送: レビューと実験的評価

Text Style Transfer: A Review and Experimental Evaluation ( http://arxiv.org/abs/2010.12742v3 )

ライセンス: Link先を確認
Zhiqiang Hu, Roy Ka-Wei Lee, Charu C. Aggarwal, Aston Zhang(参考訳) テキストのスタイリスティックな性質は近年,計算言語学研究者の興味を引いている。 特に、テキストスタイル転送(tst)タスクは、スタイル独立したコンテンツを維持しながら、テキストのスタイル的特性を変更することを目的としている。 ここ数年、多くの新しいTSTアルゴリズムが開発され、業界はこれらのアルゴリズムを活用してエキサイティングなTSTアプリケーションを実現してきた。 TST研究の分野は、この共生のために急成長している。 本稿は,テキストスタイル転送に関する最近の研究成果を総合的に概観することを目的とする。 より具体的には、TSTモデルを整理し、技術の現状を包括的に要約する分類法を作成する。 我々は既存のTSTタスクの評価手法をレビューし、大規模な再現性調査を行い、2つの公開データセット上で19の最先端TSTアルゴリズムを実験的にベンチマークした。 最後に、現在のトレンドを拡張し、tst分野における新しくてエキサイティングな開発に関する新しい視点を提供します。

The stylistic properties of text have intrigued computational linguistics researchers in recent years. Specifically, researchers have investigated the Text Style Transfer (TST) task, which aims to change the stylistic properties of the text while retaining its style independent content. Over the last few years, many novel TST algorithms have been developed, while the industry has leveraged these algorithms to enable exciting TST applications. The field of TST research has burgeoned because of this symbiosis. This article aims to provide a comprehensive review of recent research efforts on text style transfer. More concretely, we create a taxonomy to organize the TST models and provide a comprehensive summary of the state of the art. We review the existing evaluation methodologies for TST tasks and conduct a large-scale reproducibility study where we experimentally benchmark 19 state-of-the-art TST algorithms on two publicly available datasets. Finally, we expand on current trends and provide new perspectives on the new and exciting developments in the TST field.
翻訳日:2022-10-03 12:44:09 公開日:2022-06-21
# Convex Nested Stochastic Composite Optimizationのための最適アルゴリズム

Optimal Algorithms for Convex Nested Stochastic Composite Optimization ( http://arxiv.org/abs/2011.10076v5 )

ライセンス: Link先を確認
Zhe Zhang, Guanghui Lan(参考訳) 近年,convex nested stochastic composite optimization (nsco) が強化学習とリスク回避最適化への応用で注目を集めている。 現在の NSCO アルゴリズムは、入れ子構造を持たない単純な確率的複合最適化問題(例えば、滑らかな関数と非滑らかな関数の和)よりも、桁違いに確率的オラクルの複雑さが劣る。 さらに、それらはすべての外層関数を滑らかにする必要があるが、重要なアプリケーションでは満足できない。 ネストされたコンポジションは、oracleの複雑さの順序の点で、確率的最適化をより難しくしますか? 本稿では,滑らかで構造化された非滑らかで一般の非滑らかな層関数からなる任意の構成から構築した凸 NSCO 問題に対する順序最適化アルゴリズムを開発することにより,この問題に答える。 すべての外層関数が滑らかなとき、問題が(強に)凸であるときに、$\mathcal{O}(1/\epsilon^2)$$$$\mathcal{O}(1/\epsilon)$のオラクル複雑性を達成する確率的シーケンシャル双対(SSD)法を提案する。 構造化された非滑らかあるいは一般の非滑らかな外層関数が存在する場合、$\mathcal{O}(1/\epsilon^2)$のオラクル複雑性を達成するために、非滑らかな確率的シーケンシャル双対(nSSD)法を提案する。 強い凸条件の下でも、後者の$\mathcal{O}(1/\epsilon^2)$複雑性が改善不可能であることを示すために、より低い複雑性を提供する。 これらの複雑さのすべては文献に新しいもので、convex nscoの問題は、強い凸と外側のスムース問題を除いて、入れ子のない構成でoracleの複雑さの順序が同じであることを示している。

Recently, convex nested stochastic composite optimization (NSCO) has received considerable attention for its applications in reinforcement learning and risk-averse optimization. The current NSCO algorithms have worse stochastic oracle complexities, by orders of magnitude, than those for simpler stochastic composite optimization problems (e.g., sum of smooth and nonsmooth functions) without the nested structure. Moreover, they require all outer-layer functions to be smooth, which is not satisfied by some important applications. These discrepancies prompt us to ask: ``does the nested composition make stochastic optimization more difficult in terms of the order of oracle complexity?" In this paper, we answer the question by developing order-optimal algorithms for the convex NSCO problem constructed from an arbitrary composition of smooth, structured non-smooth and general non-smooth layer functions. When all outer-layer functions are smooth, we propose a stochastic sequential dual (SSD) method to achieve an oracle complexity of $\mathcal{O}(1/\epsilon^2)$ ($\mathcal{O}(1/\epsilon)$) when the problem is non-strongly (strongly) convex. When there exists some structured non-smooth or general non-smooth outer-layer function, we propose a nonsmooth stochastic sequential dual (nSSD) method to achieve an oracle complexity of $\mathcal{O}(1/\epsilon^2)$. We provide a lower complexity bound to show the latter $\mathcal{O}(1/\epsilon^2)$ complexity to be unimprovable even under a strongly convex setting. All these complexity results seem to be new in the literature and they indicate that the convex NSCO problem has the same order of oracle complexity as those without the nested composition in all but the strongly convex and outer-non-smooth problem.
翻訳日:2022-09-23 20:41:21 公開日:2022-06-21
# (参考訳) 証拠を教えてください。 応答基底化のための視覚言語相互作用

Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding ( http://arxiv.org/abs/2207.05703v1 )

ライセンス: CC BY 4.0
Junwen Pan, Guanlin Chen, Yi Liu, Jiexiang Wang, Cheng Bian, Pengfei Zhu, Zhicheng Zhang(参考訳) アンサーグラウンド(Answer grounding)は、視覚的質問応答(VQA)の視覚的証拠を明らかにすることを目的としている。 以前の試みは、通常、事前訓練されたオブジェクト検出器を使用してこの問題に対処するが、事前に定義された語彙にはないオブジェクトに対する柔軟性がない。 しかし、これらのブラックボックス法は言語生成のみに集中し、視覚的解釈可能性を無視している。 本稿では,言語応答と視覚的接地機能を備えた新しいエンドツーエンドフレームワークであるDual Visual-Linguistic Interaction (DaVI)を提案する。 daviは2つの視覚言語相互作用機構を革新的に導入している。 1)視覚特徴を組み込んだ質問を理解し,さらなる回答復号のための言語指向の証拠を提示する視覚に基づく言語エンコーダ 2) 根拠関連領域の視覚的特徴に着目した言語ベースビジュアルデコーダ。 このようにして、私たちのアプローチは2022年のVizWiz Grand Challengeで1位にランクインしました。

Answer grounding aims to reveal the visual evidence for visual question answering (VQA), which entails highlighting relevant positions in the image when answering questions about images. Previous attempts typically tackle this problem using pretrained object detectors, but without the flexibility for objects not in the predefined vocabulary. However, these black-box methods solely concentrate on the linguistic generation, ignoring the visual interpretability. In this paper, we propose Dual Visual-Linguistic Interaction (DaVI), a novel unified end-to-end framework with the capability for both linguistic answering and visual grounding. DaVI innovatively introduces two visual-linguistic interaction mechanisms: 1) visual-based linguistic encoder that understands questions incorporated with visual features and produces linguistic-oriented evidence for further answer decoding, and 2) linguistic-based visual decoder that focuses visual features on the evidence-related regions for answer grounding. This way, our approach ranked the 1st place in the answer grounding track of 2022 VizWiz Grand Challenge.
翻訳日:2022-07-17 20:52:07 公開日:2022-06-21
# スパイクニューラルネットワークの構造安定性

Structural Stability of Spiking Neural Networks ( http://arxiv.org/abs/2207.04876v1 )

ライセンス: Link先を確認
G. Zhang and S.-Q. Zhang(参考訳) 過去数十年間、時間に依存したデータをモデル化する大きな可能性から、スパイクニューラルネットワーク(SNN)への関心が高まっている。 多くのアルゴリズムや技術が開発されているが、スパイクニューラルネットワークの多くの側面に関する理論的理解はまだ曇っている。 最近の研究[Zhang et al. 2021]では、通常のSNNは分岐のダイナミクスによって内部および外部の摂動にほとんど耐えられず、自己接続を追加する必要があることを示唆している。 本稿では,自己結合を持つsnsの理論的性質を調査し,分岐解の最大数の下限と上限を指定することにより,構造安定性に関する深い解析を行う。 シミュレーションおよび実践的な課題に関する数値実験により,提案手法の有効性が示された。

The past decades have witnessed an increasing interest in spiking neural networks (SNNs) due to their great potential of modeling time-dependent data. Many algorithms and techniques have been developed; however, theoretical understandings of many aspects of spiking neural networks are still cloudy. A recent work [Zhang et al. 2021] disclosed that typical SNNs could hardly withstand both internal and external perturbations due to their bifurcation dynamics and suggested that self-connection has to be added. In this paper, we investigate the theoretical properties of SNNs with self-connection, and develop an in-depth analysis on structural stability by specifying the lower and upper bounds of the maximum number of bifurcation solutions. Numerical experiments conducted on simulation and practical tasks demonstrate the effectiveness of the proposed results.
翻訳日:2022-07-17 17:09:10 公開日:2022-06-21
# 大都市圏デジタル双生児のオンライン軌道予測

Online Trajectory Prediction for Metropolitan Scale Mobility Digital Twin ( http://arxiv.org/abs/2207.03575v1 )

ライセンス: Link先を確認
Zipei Fan, Xiaojie Yang, Wei Yuan, Renhe Jiang, Quanjun Chen, Xuan Song and Ryosuke Shibasaki(参考訳) 都市におけるモビリティの"何が起きているか"と"何が起こるか"を知ることは、データ駆動型スマートシティシステムの構築ブロックである。 近年,人間の移動性を仮想的に再現し,仮想空間における被写体の微粒な動きをほぼリアルタイムで予測・シミュレーションするモビリティ・デジタルツインが,現代の都市知能システムにおいて大きな可能性を示している。 しかし、実際的な解決策を提供する研究はほとんどない。 主な問題は4つある。 1) 人体移動の日次変動をモデル化し予測することは困難である。 2) 交通網は,人間の移動に関する複雑な制約を強制する。 3) 合理的なきめ細かな人間の軌道生成は、既存の機械学習モデルにとって困難である。 4) 詳細な予測を行うことで計算コストが高くなり, オンラインシステムでは困難である。 本稿では,この難しさを念頭に置いて,粗くきめ細かなレベルの予測を行う2段階の人体移動予測器を提案する。 第1段階では,都心レベルでの人間の移動の日々の変動をエンコードするために,都市全体の移動傾向を群衆のコンテキストとして自動的に抽出し,粗いレベルでの長期的・長期的移動を予測する。 第2段階では、重計算の大部分をオフラインフェーズにオフロードする確率的軌道探索法により、粗い予測をきめ細かなレベルに解決する。 関東地方における実世界の携帯電話GPSデータを用いて本手法を検証し,移動予測の高レベル分析を支援するため,1台のマシン上で約220万台の携帯電話利用者の1h移動を予測し,予測精度と時間効率約2分を実現した。

Knowing "what is happening" and "what will happen" of the mobility in a city is the building block of a data-driven smart city system. In recent years, mobility digital twin that makes a virtual replication of human mobility and predicting or simulating the fine-grained movements of the subjects in a virtual space at a metropolitan scale in near real-time has shown its great potential in modern urban intelligent systems. However, few studies have provided practical solutions. The main difficulties are four-folds. 1) The daily variation of human mobility is hard to model and predict; 2) the transportation network enforces a complex constraints on human mobility; 3) generating a rational fine-grained human trajectory is challenging for existing machine learning models; and 4) making a fine-grained prediction incurs high computational costs, which is challenging for an online system. Bearing these difficulties in mind, in this paper we propose a two-stage human mobility predictor that stratifies the coarse and fine-grained level predictions. In the first stage, to encode the daily variation of human mobility at a metropolitan level, we automatically extract citywide mobility trends as crowd contexts and predict long-term and long-distance movements at a coarse level. In the second stage, the coarse predictions are resolved to a fine-grained level via a probabilistic trajectory retrieval method, which offloads most of the heavy computations to the offline phase. We tested our method using a real-world mobile phone GPS dataset in the Kanto area in Japan, and achieved good prediction accuracy and a time efficiency of about 2 min in predicting future 1h movements of about 220K mobile phone users on a single machine to support more higher-level analysis of mobility prediction.
翻訳日:2022-07-17 17:05:36 公開日:2022-06-21
# (参考訳) 逆熱散逸を伴う生成モデル

Generative Modelling With Inverse Heat Dissipation ( http://arxiv.org/abs/2206.13397v1 )

ライセンス: CC BY 4.0
Severi Rissanen, Markus Heinonen, Arno Solin(参考訳) 拡散モデルは画像生成において大きな成功を収めているが、ノイズ反転生成過程は画像の構造を明示的に考慮していない。 拡散モデルに着想を得て, 熱方程式を反復反転させて画像を生成するモデルを提案し, 画像の2次元平面上を走行すると, 局所的に微細な情報を消去するPDEを提案する。 提案手法では,フォワード熱方程式の解を有向グラフィカルモデルにおける変分近似として解釈する。 画像の全体色と形状のアンタングル化やニューラルネットワークの解釈可能性の面など,拡散モデルでは見られない有望な画像品質と創発的定性的特性を示す。 自然画像のスペクトル解析は、我々のモデルを拡散モデルと双対のタイプとして位置づけ、それらに暗黙の帰納バイアスが現れる。

While diffusion models have shown great success in image generation, their noise-inverting generative process does not explicitly consider the structure of images, such as their inherent multi-scale nature. Inspired by diffusion models and the desirability of coarse-to-fine modelling, we propose a new model that generates images through iteratively inverting the heat equation, a PDE that locally erases fine-scale information when run over the 2D plane of the image. In our novel methodology, the solution of the forward heat equation is interpreted as a variational approximation in a directed graphical model. We demonstrate promising image quality and point out emergent qualitative properties not seen in diffusion models, such as disentanglement of overall colour and shape in images and aspects of neural network interpretability. Spectral analysis on natural images positions our model as a type of dual to diffusion models and reveals implicit inductive biases in them.
翻訳日:2022-07-04 02:10:12 公開日:2022-06-21
# (参考訳) GPT-3を理解するための認知心理学

Using cognitive psychology to understand GPT-3 ( http://arxiv.org/abs/2206.14576v1 )

ライセンス: CC BY 4.0
Marcel Binz and Eric Schulz(参考訳) 我々は認知心理学のツールを用いて,近年の大規模言語モデルであるGPT-3を研究した。 具体的には, GPT-3の意思決定, 情報探索, 検討, 因果推論能力について, 文献からの正準実験の電池上で評価する。 GPT-3の動作の多くは印象的であり、人間の被験者と同等かそれ以上にウィグネットベースのタスクを解決し、説明からまともな決定を下し、マルチアームのバンディットタスクで人間より優れ、モデルに基づく強化学習の署名を示す。 しかし、vignetteベースのタスクに対する小さな摂動は、gpt-3を大いに混乱させ、有向探索のサインが示されず、因果推論タスクで惨めに失敗することもわかりました。 これらの結果は、現在の大きな言語モデルに対する理解を深め、認知心理学のツールを使って、ますます有能で不透明な人工エージェントを研究する将来の研究の道を開く。

We study GPT-3, a recent large language model, using tools from cognitive psychology. More specifically, we assess GPT-3's decision-making, information search, deliberation, and causal reasoning abilities on a battery of canonical experiments from the literature. We find that much of GPT-3's behavior is impressive: it solves vignette-based tasks similarly or better than human subjects, is able to make decent decisions from descriptions, outperforms humans in a multi-armed bandit task, and shows signatures of model-based reinforcement learning. Yet we also find that small perturbations to vignette-based tasks can lead GPT-3 vastly astray, that it shows no signatures of directed exploration, and that it fails miserably in a causal reasoning task. These results enrich our understanding of current large language models and pave the way for future investigations using tools from cognitive psychology to study increasingly capable and opaque artificial agents.
翻訳日:2022-07-04 02:09:11 公開日:2022-06-21
# Eloの限界について:実世界ゲームは過渡的であり、加法的ではない

On the Limitations of Elo: Real-World Games, are Transitive, not Additive ( http://arxiv.org/abs/2206.12301v1 )

ライセンス: Link先を確認
Quentin Bertrand, Wojciech Marian Czarnecki, Gauthier Gidel(参考訳) チェス、go、starcraft iiといった現実世界の競争ゲームは、プレイヤーの強さを測定するためにeloモデルに依存している。 これらのゲームは完全推移的ではないので、エロは暗黙的にそれらが正しく識別され抽出できる強い推移成分を持っていると仮定する。 本研究では,ゲームにおける推移成分の強度を同定する課題について検討する。 まず,初等推移ゲームにおいても,エロモデルがこの推移成分を抽出できないことを示す。 次に、この観察に基づいてeloスコアの拡張を提案する。 最終的には、各プレイヤーに2つのスコアを割り当てるディスクランキングシステムを作成し、それをスキルと一貫性と呼ぶ。 最後に,ロボットと人間による実世界のゲームから得られるペイオフ行列の実証的検証を提案する。

Real-world competitive games, such as chess, go, or StarCraft II, rely on Elo models to measure the strength of their players. Since these games are not fully transitive, using Elo implicitly assumes they have a strong transitive component that can correctly be identified and extracted. In this study, we investigate the challenge of identifying the strength of the transitive component in games. First, we show that Elo models can fail to extract this transitive component, even in elementary transitive games. Then, based on this observation, we propose an extension of the Elo score: we end up with a disc ranking system that assigns each player two scores, which we refer to as skill and consistency. Finally, we propose an empirical validation on payoff matrices coming from real-world games played by bots and humans.
翻訳日:2022-07-04 01:22:52 公開日:2022-06-21
# 言語モデルファインチューニングのための知識グラフ融合

Knowledge Graph Fusion for Language Model Fine-tuning ( http://arxiv.org/abs/2206.14574v1 )

ライセンス: Link先を確認
Nimesh Bhana and Terence L. van Zyl(参考訳) BERTのような言語モデルは、様々な自然言語処理タスクで事前訓練され、堅牢に機能する能力によって人気が高まっている。 しばしば伝統的な単語埋め込み技術に対する進化と見なされ、意味的類似性のようなタスクに有用なテキストの意味表現を生成することができる。 しかし、最先端モデルは、しばしば高い計算要求を持ち、完全な言語理解に必要なグローバルコンテキストやドメイン知識が欠如している。 これらの制約に対処するため,BERTの微調整段階における知識導入のメリットについて検討する。 既存のK-BERTモデルは、知識グラフから三つ子で文章を豊かにするものであり、英語に適応し、文脈に関連のある情報を文に注入するように拡張されている。 副次的な効果として、K-BERTに変更された英語は、他の単語ベースの言語にも拡張されている。 実験は、知識の注入がノイズをもたらすことを示している。 このノイズを最小限に抑えると、知識駆動タスクの統計的に有意な改善が見られます。 適切なタスクを考えると、関連する高品質の知識による控えめなインジェクションが最もパフォーマンスが高いという証拠を示します。

Language Models such as BERT have grown in popularity due to their ability to be pre-trained and perform robustly on a wide range of Natural Language Processing tasks. Often seen as an evolution over traditional word embedding techniques, they can produce semantic representations of text, useful for tasks such as semantic similarity. However, state-of-the-art models often have high computational requirements and lack global context or domain knowledge which is required for complete language understanding. To address these limitations, we investigate the benefits of knowledge incorporation into the fine-tuning stages of BERT. An existing K-BERT model, which enriches sentences with triplets from a Knowledge Graph, is adapted for the English language and extended to inject contextually relevant information into sentences. As a side-effect, changes made to K-BERT for accommodating the English language also extend to other word-based languages. Experiments conducted indicate that injected knowledge introduces noise. We see statistically significant improvements for knowledge-driven tasks when this noise is minimised. We show evidence that, given the appropriate task, modest injection with relevant, high-quality knowledge is most performant.
翻訳日:2022-07-04 00:51:10 公開日:2022-06-21
# 視覚再構成のための簡便なアプローチ:3次元マッピングと意味検索

A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic Search ( http://arxiv.org/abs/2206.13396v1 )

ライセンス: Link先を確認
Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Gaurav S. Sukhatme, Ruslan Salakhutdinov(参考訳) 物理的に再配置された物体は、エンボディード・エージェントにとって重要な能力である。 視覚室再構成は、視覚入力のみに基づいて、部屋内の物体を所望の目標に並べ替えるエージェントの能力を評価する。 この問題に対して,(1)どのオブジェクトを再配置する必要があるかを探索し,マップし,(2)タスクが完了するまで各オブジェクトを並べ替える手法を提案する。 提案手法は,市販のセマンティクスセグメンテーションモデル,voxelに基づくセマンティクスマップ,セマンティクス検索ポリシからなり,再配置が必要なオブジェクトを効率的に検索する。 ai2thor再配置課題において,本手法は,環境からのサンプル2.7%のみを用いて,0.53%の正確な再配置から16.56%までの視覚的再配置方針を学習する,最先端のエンドツーエンド強化学習ベース手法を改善した。

Physically rearranging objects is an important capability for embodied agents. Visual room rearrangement evaluates an agent's ability to rearrange objects in a room to a desired goal based solely on visual input. We propose a simple yet effective method for this problem: (1) search for and map which objects need to be rearranged, and (2) rearrange each object until the task is complete. Our approach consists of an off-the-shelf semantic segmentation model, voxel-based semantic map, and semantic search policy to efficiently find objects that need to be rearranged. On the AI2-THOR Rearrangement Challenge, our method improves on current state-of-the-art end-to-end reinforcement learning-based methods that learn visual rearrangement policies from 0.53% correct rearrangement to 16.56%, using only 2.7% as many samples from the environment.
翻訳日:2022-07-04 00:50:14 公開日:2022-06-21
# 強固な自然言語理解はなぜ難しいのか

Why Robust Natural Language Understanding is a Challenge ( http://arxiv.org/abs/2206.14575v1 )

ライセンス: Link先を確認
Marco Casadio, Ekaterina Komendantskaya, Verena Rieser, Matthew L. Daggitt, Daniel Kienitz, Luca Arnaboldi, Wen Kokke(参考訳) ディープラーニングが現実のアプリケーションへと拡大するにつれて、この技術の特定の特性が注目されるようになった。ニューラルネットワークは低ロバスト性を示し、小さな入力摂動に対して高い感度を持つ。 近年,ネットワークのロバスト性に関する一般性を検証する手法が多数提案されているが,その多くがコンピュータビジョンに応用されている。 本稿では,より広い関心領域に基づく自然言語理解分類の検証手法を提案し,その課題について考察する。 データをほぼ線形に分離できるが、検証者は正の結果を出力せず、問題や影響を説明する。

With the proliferation of Deep Machine Learning into real-life applications, a particular property of this technology has been brought to attention: Neural Networks notoriously present low robustness and can be highly sensitive to small input perturbations. Recently, many methods for verifying networks' general properties of robustness have been proposed, but they are mostly applied in Computer Vision. In this paper we propose a Verification method for Natural Language Understanding classification based on larger regions of interest, and we discuss the challenges of such task. We observe that, although the data is almost linearly separable, the verifier does not output positive results and we explain the problems and implications.
翻訳日:2022-07-04 00:49:55 公開日:2022-06-21
# (参考訳) スパイクニューラルネットワークトレーニングのためのゆらぎ駆動初期化

Fluctuation-driven initialization for spiking neural network training ( http://arxiv.org/abs/2206.10226v1 )

ライセンス: CC BY 4.0
Julian Rossbroich, Julia Gygax, and Friedemann Zenke(参考訳) スパイキングニューラルネットワーク(SNN)は、脳内の低消費電力でフォールトトレラントな情報処理を基盤とし、適切なニューロモルフィックハードウェアアクセラレーターを実装する際には、従来のディープニューラルネットワークに代わる電力効率の高い代替品となる可能性がある。 しかし、複雑な計算タスクをシリコで解くSNNのインスタンス化は依然として大きな課題である。 SNNをエンドツーエンドにトレーニングするための標準ソリューションとして、サロゲート勾配(SG)技術が登場した。 それでも、その成功はシナプス重みの初期化に依存しており、従来のニューラルネットワーク(anns)と同様である。 しかし、ANNの場合とは異なり、SNNのよい初期状態を構成するものは、いまだ解明されていない。 そこで我々は,脳内でよく見られるゆらぎ駆動型体制にインスパイアされたSNNの一般初期化戦略を開発する。 具体的には,ゆらぎ駆動による発火を確保するためのデータ依存量初期化の実践的解法を提案する。 実験により,SNNはSGを用いた学習において優れた学習性能を示した。 これらの発見は、Daleの法則に従う完全連結、深層畳み込み、再帰、より生物学的に妥当なSNNを含む、いくつかのデータセットとSNNアーキテクチャにまたがって一般化される。 このように、変動駆動初期化は、神経形工学や計算神経科学における様々なタスクにおけるSNN訓練性能を改善するための実用的で、多目的で、実装が容易な戦略を提供する。

Spiking neural networks (SNNs) underlie low-power, fault-tolerant information processing in the brain and could constitute a power-efficient alternative to conventional deep neural networks when implemented on suitable neuromorphic hardware accelerators. However, instantiating SNNs that solve complex computational tasks in-silico remains a significant challenge. Surrogate gradient (SG) techniques have emerged as a standard solution for training SNNs end-to-end. Still, their success depends on synaptic weight initialization, similar to conventional artificial neural networks (ANNs). Yet, unlike in the case of ANNs, it remains elusive what constitutes a good initial state for an SNN. Here, we develop a general initialization strategy for SNNs inspired by the fluctuation-driven regime commonly observed in the brain. Specifically, we derive practical solutions for data-dependent weight initialization that ensure fluctuation-driven firing in the widely used leaky integrate-and-fire (LIF) neurons. We empirically show that SNNs initialized following our strategy exhibit superior learning performance when trained with SGs. These findings generalize across several datasets and SNN architectures, including fully connected, deep convolutional, recurrent, and more biologically plausible SNNs obeying Dale's law. Thus fluctuation-driven initialization provides a practical, versatile, and easy-to-implement strategy for improving SNN training performance on diverse tasks in neuromorphic engineering and computational neuroscience.
翻訳日:2022-06-26 12:55:32 公開日:2022-06-21
# 多目的オリエンテーリング最適化のための進化アルゴリズムと深層強化学習のハイブリッド化

Hybridization of evolutionary algorithm and deep reinforcement learning for multi-objective orienteering optimization ( http://arxiv.org/abs/2206.10464v1 )

ライセンス: Link先を確認
Wei Liu, Rui Wang, Tao Zhang, Kaiwen Li, Wenhua Li and Hisao Ishibuchi(参考訳) 多目的オリエンテーリング問題(MO-OP)は古典的な多目的ルーティング問題であり、過去数十年で多くの注目を集めてきた。 本研究は,MO-OPを多目的knapsack問題(MOKP)と旅行セールスマン問題(TSP)に分解する問題分解フレームワークを用いて,MO-OPを解くことを目的とする。 MOKP と TSP はそれぞれ多目的進化アルゴリズム (MOEA) と深部強化学習 (DRL) によって解かれる。 MOEAモジュールは都市を選ぶためのものだが、DRLモジュールはこれらの都市のためのハミルトンの道を計画している。 これら2つのモジュールの反復的使用は、MO-OPのパレートフロントに人口を誘導する。 提案手法の有効性を,様々なMO-OPインスタンス上でNSGA-IIおよびNSGA-IIIと比較した。 実験結果から,本手法はほぼすべてのテストインスタンスにおいて最高の性能を示し,高い一般化能力を示した。

Multi-objective orienteering problems (MO-OPs) are classical multi-objective routing problems and have received a lot of attention in the past decades. This study seeks to solve MO-OPs through a problem-decomposition framework, that is, a MO-OP is decomposed into a multi-objective knapsack problem (MOKP) and a travelling salesman problem (TSP). The MOKP and TSP are then solved by a multi-objective evolutionary algorithm (MOEA) and a deep reinforcement learning (DRL) method, respectively. While the MOEA module is for selecting cities, the DRL module is for planning a Hamiltonian path for these cities. An iterative use of these two modules drives the population towards the Pareto front of MO-OPs. The effectiveness of the proposed method is compared against NSGA-II and NSGA-III on various types of MO-OP instances. Experimental results show that our method exhibits the best performance on almost all the test instances, and has shown strong generalization ability.
翻訳日:2022-06-26 12:39:06 公開日:2022-06-21
# DNNを用いたマルチスピーカTSのためのHuman-in-the-loop Speaker Adaptation

Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS ( http://arxiv.org/abs/2206.10256v1 )

ライセンス: Link先を確認
Kenta Udagawa, Yuki Saito, Hiroshi Saruwatari(参考訳) 本稿では,マルチスピーカー音声合成のための話者適応方式を提案する。 従来の話者適応法では、話者識別タスクで訓練された話者エンコーダを用いて、対象話者の埋め込みベクトルを基準音声から抽出する。 しかし、参照音声が利用できない場合には、対象話者に対する埋め込みベクトルを得ることができない。 提案手法は,ユーザが話者埋め込み空間を探索し,対象話者の埋め込みを見つけるための,ループ内最適化フレームワークに基づいている。 提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。 また,複数の音声刺激から最適な音声サンプルを効率よく選択するために,発話をループしながら各音素毎に複数の話者の声を切り替えるシステムを開発した。 実験結果から,提案手法は話者エンコーダの入力として参照音声を使用しなくても,従来の手法と客観的,主観的評価で同等の性能が得られることが示された。

This paper proposes a human-in-the-loop speaker-adaptation method for multi-speaker text-to-speech. With a conventional speaker-adaptation method, a target speaker's embedding vector is extracted from his/her reference speech using a speaker encoder trained on a speaker-discriminative task. However, this method cannot obtain an embedding vector for the target speaker when the reference speech is unavailable. Our method is based on a human-in-the-loop optimization framework, which incorporates a user to explore the speaker-embedding space to find the target speaker's embedding. The proposed method uses a sequential line search algorithm that repeatedly asks a user to select a point on a line segment in the embedding space. To efficiently choose the best speech sample from multiple stimuli, we also developed a system in which a user can switch between multiple speakers' voices for each phoneme while looping an utterance. Experimental results indicate that the proposed method can achieve comparable performance to the conventional one in objective and subjective evaluations even if reference speech is not used as the input of a speaker encoder directly.
翻訳日:2022-06-26 12:38:07 公開日:2022-06-21
# (参考訳) World of Bugs: 3Dビデオゲームにおけるバグ検出の自動化プラットフォーム

World of Bugs: A Platform for Automated Bug Detection in 3D Video Games ( http://arxiv.org/abs/2206.11037v1 )

ライセンス: CC BY-SA 4.0
Benedict Wilkins, Kostas Stathis(参考訳) 本稿では,ゲームにおける自動バグ検出(ABD)研究を支援するオープンプラットフォームであるWorld of Bugs(WOB)を紹介する。 ABDにおけるオープンな問題と、それがプラットフォームの設計とどのように関係しているかについて議論し、さらなる進歩が必要ならば学習ベースのソリューションが必要であると論じる。 プラットフォームの重要な機能は、abdアプローチのトレーニングと評価に使用される一般的なビデオゲームバグのコレクションの増加である。

We present World of Bugs (WOB), an open platform that aims to support Automated Bug Detection (ABD) research in video games. We discuss some open problems in ABD and how they relate to the platform's design, arguing that learning-based solutions are required if further progress is to be made. The platform's key feature is a growing collection of common video game bugs that may be used for training and evaluating ABD approaches.
翻訳日:2022-06-25 06:58:38 公開日:2022-06-21
# (参考訳) CoCoPIE XGen: フルスタックのAI指向最適化フレームワーク

CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework ( http://arxiv.org/abs/2206.10620v1 )

ライセンス: CC BY 4.0
Xiaofeng Li, Bin Ren, Xipeng Shen, Yanzhi Wang(参考訳) スマートフォン、AR/VRデバイス、自動運転車、およびさまざまなIoTデバイス上で動作する、急成長中のリアルタイムAIベースのアプリによって実証されている。 しかし、このシフトは、dnnのコンピューティング要求とエッジまたはエンドデバイスでのコンピューティングパワーの間の大きなギャップによって深刻な障害となっている。 本稿では、このギャップを埋めるために設計されたDNNの最適化フレームワークであるXGenの設計について述べる。 XGenは、クロスカット共同設計を第一級の考慮事項としている。 フルスタックのAI指向の最適化は、DNNソフトウェアスタックのすべてのレイヤにおいて、多くの革新的な最適化で構成されている。 このユニークな技術により、XGenは極度の深さ(BERT、GPT、その他のトランスフォーマーなど)を含む様々なDNNを最適化でき、既存のDNNフレームワークの何倍も高速に動作するコードを生成することができる。

There is a growing demand for shifting the delivery of AI capability from data centers on the cloud to edge or end devices, exemplified by the fast emerging real-time AI-based apps running on smartphones, AR/VR devices, autonomous vehicles, and various IoT devices. The shift has however been seriously hampered by the large growing gap between DNN computing demands and the computing power on edge or end devices. This article presents the design of XGen, an optimizing framework for DNN designed to bridge the gap. XGen takes cross-cutting co-design as its first-order consideration. Its full-stack AI-oriented optimizations consist of a number of innovative optimizations at every layer of the DNN software stack, all designed in a cooperative manner. The unique technology makes XGen able to optimize various DNNs, including those with an extreme depth (e.g., BERT, GPT, other transformers), and generate code that runs several times faster than those from existing DNN frameworks, while delivering the same level of accuracy.
翻訳日:2022-06-25 06:53:31 公開日:2022-06-21
# (参考訳) BenchCLAMP:セマンティックパースにおける言語モデル評価ベンチマーク

BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic Parsing ( http://arxiv.org/abs/2206.10668v1 )

ライセンス: CC BY 4.0
Subhro Roy, Sam Thomson, Tongfei Chen, Richard Shin, Adam Pauls, Jason Eisner, Benjamin Van Durme(参考訳) 本稿では,制約付き言語モデル解析のベンチマークであるbenchmarkclampについて紹介する。このベンチマークでは,入力テキストの分析に基づく意味的出力を,入力または微調整された言語モデルの制約付き復号によって生成する。 事前訓練された言語モデルの開発者は、現在、分類、スパン抽出、自由テキスト生成タスクをベンチマークしている。 セマンティック解析は、タスク固有のアーキテクチャや表現を扱う複雑さのため、言語モデル評価において無視される。 最近の研究によると、出力が有効な意味表現であるように制約された場合、インジェクションまたは微調整された言語モデルの生成はセマンティック解析においてうまく機能する。 BenchCLAMPには、6つの意味解析データセットのための文脈自由文法と、様々な出力の意味表現、およびこれらの文法でカバーされた出力を生成する制約付き復号インタフェースが含まれている。 各データセットに対して低、中、高リソースの分割を提供し、異なるデータ構造下で様々な言語モデルの正確な比較を可能にする。 提案するベンチマークでは,インプロンプトベース学習と微調整の両方をサポートし,言語モデル開発者がセマンティック解析で評価できる使いやすいツールキットを提供する。

We introduce BenchCLAMP, a Benchmark to evaluate Constrained LAnguage Model Parsing, which produces semantic outputs based on the analysis of input text through constrained decoding of a prompted or fine-tuned language model. Developers of pretrained language models currently benchmark on classification, span extraction and free-text generation tasks. Semantic parsing is neglected in language model evaluation because of the complexity of handling task-specific architectures and representations. Recent work has shown that generation from a prompted or fine-tuned language model can perform well at semantic parsing when the output is constrained to be a valid semantic representation. BenchCLAMP includes context-free grammars for six semantic parsing datasets with varied output meaning representations, as well as a constrained decoding interface to generate outputs covered by these grammars. We provide low, medium, and high resource splits for each dataset, allowing accurate comparison of various language models under different data regimes. Our benchmark supports both prompt-based learning as well as fine-tuning, and provides an easy-to-use toolkit for language model developers to evaluate on semantic parsing.
翻訳日:2022-06-25 06:12:27 公開日:2022-06-21
# (参考訳) 自然バックドアデータセット

Natural Backdoor Datasets ( http://arxiv.org/abs/2206.10673v1 )

ライセンス: CC BY 4.0
Emily Wenger, Roma Bhattacharjee, Arjun Nitin Bhagoji, Josephine Passananti, Emilio Andere, Haitao Zheng, Ben Y. Zhao(参考訳) バックドア毒攻撃に関する広範な文献は、「デジタルトリガーパターン」を用いてバックドアに対する攻撃と防御を研究している。 とは対照的に、物理バックドアは物理的物体をトリガーとして使用しており、最近になって特定され、デジタルトリガーバックドアをターゲットとする全ての防御に対して質的に異なる。 物理バックドアの研究は、分類の対象と同一位置にある物理物体の実像を含む大きなデータセットへのアクセスによって制限される。 これらのデータセットの構築には時間と労力がかかる。 この研究は、物理的バックドア攻撃の研究におけるアクセシビリティの課題に対処することを目的としている。 我々は、imagenetのような一般的なデータセットにすでに存在する物理的に同じ位置にあるオブジェクトが存在するかもしれないと仮定する。 ひとたび特定されると、これらのデータの注意深くリラベル化することで、物理的なバックドア攻撃のトレーニングサンプルに変換することができる。 既存のデータセットにある潜在的なトリガのサブセットを、毒を盛ることのできる特定のクラスとともにスライス的に識別する手法を提案する。 自然発生するトリガークラスサブセットを自然バックドアデータセットと呼んでいる。 我々の技術は、広く利用可能なデータセットで自然のバックドアを識別し、手動で訓練されたデータセットでトレーニングされたものと同等の行動モデルを生成する。 私たちは、研究コミュニティが物理的なバックドア攻撃を研究するために独自のデータセットを作成できるようにコードをリリースします。

Extensive literature on backdoor poison attacks has studied attacks and defenses for backdoors using "digital trigger patterns." In contrast, "physical backdoors" use physical objects as triggers, have only recently been identified, and are qualitatively different enough to resist all defenses targeting digital trigger backdoors. Research on physical backdoors is limited by access to large datasets containing real images of physical objects co-located with targets of classification. Building these datasets is time- and labor-intensive. This works seeks to address the challenge of accessibility for research on physical backdoor attacks. We hypothesize that there may be naturally occurring physically co-located objects already present in popular datasets such as ImageNet. Once identified, a careful relabeling of these data can transform them into training samples for physical backdoor attacks. We propose a method to scalably identify these subsets of potential triggers in existing datasets, along with the specific classes they can poison. We call these naturally occurring trigger-class subsets natural backdoor datasets. Our techniques successfully identify natural backdoors in widely-available datasets, and produce models behaviorally equivalent to those trained on manually curated datasets. We release our code to allow the research community to create their own datasets for research on physical backdoor attacks.
翻訳日:2022-06-25 06:01:04 公開日:2022-06-21
# (参考訳) 双方向計画のためのニューロシンボリックスキルの学習

Learning Neuro-Symbolic Skills for Bilevel Planning ( http://arxiv.org/abs/2206.10680v1 )

ライセンス: CC BY 4.0
Tom Silver, Ashay Athalye, Joshua B. Tenenbaum, Tomas Lozano-Perez, Leslie Pack Kaelbling(参考訳) 意思決定は、連続的なオブジェクト中心の状態、継続的なアクション、長い地平線、スパースフィードバックを持つロボット環境では難しい。 task and motion planning(tamp)のような階層的アプローチは、意思決定を2つ以上の抽象レベルに分解することで、これらの課題に対処している。 実証と記号述語が与えられる設定において、先行研究は、手動で設計されたパラメータ化されたポリシーで、TAMPの記号演算子とニューラルサンプリングを学習する方法を示している。 我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。 これらのコンポーネントはモジュール型ニューロシンボリックスキルにパッケージ化され、新しいタスクを解決するために検索テーマサンプルTAMPと共にシーケンスされる。 4つのロボティクス領域の実験において、我々のアプローチ、すなわちニューロシンボリックスキルを用いたバイレベルプランニングは、様々な初期状態、目標、オブジェクトで幅広いタスクを解決し、6つのベースラインと改善を達成できることを示した。 ビデオ: https://youtu.be/PbFZP8rPuGgコード: https://tinyurl.com/skill-learning

Decision-making is challenging in robotics environments with continuous object-centric states, continuous actions, long horizons, and sparse feedback. Hierarchical approaches, such as task and motion planning (TAMP), address these challenges by decomposing decision-making into two or more levels of abstraction. In a setting where demonstrations and symbolic predicates are given, prior work has shown how to learn symbolic operators and neural samplers for TAMP with manually designed parameterized policies. Our main contribution is a method for learning parameterized polices in combination with operators and samplers. These components are packaged into modular neuro-symbolic skills and sequenced together with search-then-sample TAMP to solve new tasks. In experiments in four robotics domains, we show that our approach -- bilevel planning with neuro-symbolic skills -- can solve a wide range of tasks with varying initial states, goals, and objects, outperforming six baselines and ablations. Video: https://youtu.be/PbFZP8rPuGg Code: https://tinyurl.com/skill-learning
翻訳日:2022-06-25 05:41:06 公開日:2022-06-21
# (参考訳) ラジアルビームサンプリングによる連続回転正準化の学習

Learning Continuous Rotation Canonicalization with Radial Beam Sampling ( http://arxiv.org/abs/2206.10690v1 )

ライセンス: CC BY 4.0
Johann Schmidt and Sebastian Stober(参考訳) 視覚モデルのほぼ全ての状態は、画像の回転に敏感である。 既存の方法は、擬似不変性を学ぶために強化トレーニングデータを使用することで、欠落した帰納バイアスを補うことが多い。 資源要求データインフレーションプロセスと並行して、予測はしばしばあまり一般化しない。 畳み込みニューラルネットワークに固有の帰納バイアスは、ピクセルグリッドの水平軸と垂直軸に平行に作用するカーネルを通しての変換等価性を可能にする。 しかし、この帰納的バイアスは回転同分散を許さない。 中心回転共分散を本質的に組み込むために,これらのビーム上で動作する放射状核と共に放射状ビームサンプリング戦略を提案する。 角度距離損失とともに、放射状ビームによる画像標準化モデルである short bic を提案する。 我々のモデルは最大連続角度回帰を可能にし、任意の中心回転入力画像の正準化を可能にする。 事前処理モデルとして、モデルに依存しない回転に敏感な下流予測を備えた回転不変ビジョンパイプラインを実現する。 本研究では,FashionMNIST,CIFAR10,COIL100,LFWなど,複数の視覚データセット上での連続的な回転角の予測が可能であることを示す。

Nearly all state of the art vision models are sensitive to image rotations. Existing methods often compensate for missing inductive biases by using augmented training data to learn pseudo-invariances. Alongside the resource demanding data inflation process, predictions often poorly generalize. The inductive biases inherent to convolutional neural networks allow for translation equivariance through kernels acting parallely to the horizontal and vertical axes of the pixel grid. This inductive bias, however, does not allow for rotation equivariance. We propose a radial beam sampling strategy along with radial kernels operating on these beams to inherently incorporate center-rotation covariance. Together with an angle distance loss, we present a radial beam-based image canonicalization model, short BIC. Our model allows for maximal continuous angle regression and canonicalizes arbitrary center-rotated input images. As a pre-processing model, this enables rotation-invariant vision pipelines with model-agnostic rotation-sensitive downstream predictions. We show that our end-to-end trained angle regressor is able to predict continuous rotation angles on several vision datasets, i.e. FashionMNIST, CIFAR10, COIL100, and LFW.
翻訳日:2022-06-25 05:17:00 公開日:2022-06-21
# (参考訳) 不確実性推定の観点からのグラフ分類におけるOOD検出に向けて

Towards OOD Detection in Graph Classification from Uncertainty Estimation Perspective ( http://arxiv.org/abs/2206.10691v1 )

ライセンス: CC BY 4.0
Gleb Bazhenov, Sergei Ivanov, Maxim Panov, Alexey Zaytsev, Evgeny Burnaev(参考訳) グラフ分類における分布外検出の問題はまだ解決されていない。 既存のモデルはOODの例を過度に信頼するか、検出タスクを完全に無視する傾向があります。 本研究では,不確実性推定の観点からこの問題を考察し,最近提案された手法との比較を行う。 実験の結果,OOD検出には普遍的なアプローチはなく,グラフ表現と予測カテゴリー分布の両方を考慮することが重要であることがわかった。

The problem of out-of-distribution detection for graph classification is far from being solved. The existing models tend to be overconfident about OOD examples or completely ignore the detection task. In this work, we consider this problem from the uncertainty estimation perspective and perform the comparison of several recently proposed methods. In our experiment, we find that there is no universal approach for OOD detection, and it is important to consider both graph representations and predictive categorical distribution.
翻訳日:2022-06-24 10:46:26 公開日:2022-06-21
# (参考訳) 会話型AIにおけるオーディエンスデザインの活用--タスク指向チャットボットにおけるRapport期待と言語イデオロギー

Making the case for audience design in conversational AI: Rapport expectations and language ideologies in a task-oriented chatbot ( http://arxiv.org/abs/2206.10694v1 )

ライセンス: CC BY 4.0
Doris Dippold(参考訳) チャットボットは、商業や科学の文脈でますます普及している。 顧客が製品やサービスに不平を言うのを手助けしたり、最良の旅行契約を見つけるのを支援する。 他のボットはメンタルヘルスサポートや医療アポイントメントの予約を支援する。 本稿では,ユーザの言語イデオロギーとラポート期待に対する洞察を,ボットの言語とインタラクションパターンのオーディエンス設計に利用し,ボットが提供するサービスへの公平なアクセスを確保するために活用する。 この議論は、3種類のデータによって裏付けられている: 健康アポイントメント予約を容易にするチャットボットとのユーザインタラクションのシミュレーション、ユーザーのインタラクションに関する内省的なコメント、予約ボットとのエンゲージメント後のユーザの質的調査のコメント。 本稿では,会話型AIのオーディエンス設計を定義し,チャットボットのインタラクションやラプポート管理などの社会言語学的手法をユーザ中心で分析することで,オーディエンス設計を支援する方法について論じる。

Chatbots are more and more prevalent in commercial and science contexts. They help customers complain about a product or service or support them to find the best travel deals. Other bots provide mental health support or help book medical appointments. This paper argues that insights into users' language ideologies and their rapport expectations can be used to inform the audience design of the bot's language and interaction patterns and ensure equitable access to the services provided by bots. The argument is underpinned by three kinds of data: simulated user interactions with a chatbot facilitating health appointment bookings, users' introspective comments on their interactions and users' qualitative survey comments post engagement with the booking bot. In closing, I will define audience design for conversational AI and discuss how user-centred analyses of chatbot interactions and sociolinguistically informed theoretical approaches, such as rapport management, can be used to support audience design.
翻訳日:2022-06-24 10:36:38 公開日:2022-06-21
# (参考訳) epicasting: 流行予測のためのアンサンブルウェーブレットニューラルネットワーク(ewnet)

Epicasting: An Ensemble Wavelet Neural Network (EWNet) for Forecasting Epidemics ( http://arxiv.org/abs/2206.10696v1 )

ライセンス: CC BY 4.0
Madhurima Panja, Tanujit Chakraborty, Uttam Kumar, Nan Liu(参考訳) 感染性疾患は、世界中でヒトの病気や死亡に最も寄与している疾患のひとつであり、多くの病気が感染の波を発生させている。 特定の薬物や予防接種のためのワクチンが利用できないため、状況は悪化する。 これらにより、公衆衛生当局、医療提供者、政策立案者は、疫病の信頼性と正確な予測によって生じる早期警戒システムに頼らざるを得なくなる。 感染の正確な予測は、予防接種キャンペーン、スタッフのスケジューリング、資源配分などの対策を、病気の影響の低減に繋がる手前の状況に合わせて、利害関係者に支援することができる。 残念なことに、これらの過去の流行(例えば、デング、マラリア、肝炎、インフルエンザ、そして最近のコビッド19)のほとんどは、季節依存性の変動とこれらの流行の性質に基づく変動が広がるため、非線形で非定常的な特徴を示す。 我々は,最大重複離散ウェーブレット変換(MODWT)に基づく自己回帰ニューラルネットワークを用いて,さまざまな流行時系列データセットを分析し,それをEWNetと呼ぶ。 MODWT技術は, 流行時系列における非定常行動と季節依存性を効果的に特徴づけ, 提案したアンサンブルウェーブレットネットワークフレームワークにおける自己回帰ニューラルネットワークの予測スキームを改善する。 非線形時系列の観点から,提案したEWNetモデルの漸近定常性を探索し,関連するマルコフ連鎖の漸近挙動を示す。 また,提案するewnetモデルにおいて,学習の安定性と隠れたニューロンの選択の影響を理論的に検討した。 実用的観点から,提案するewnetフレームワークと,これまでに流行予測に用いられてきた統計モデル,機械学習モデル,深層学習モデルを比較した。

Infectious diseases remain among the top contributors to human illness and death worldwide, among which many diseases produce epidemic waves of infection. The unavailability of specific drugs and ready-to-use vaccines to prevent most of these epidemics makes the situation worse. These force public health officials, health care providers, and policymakers to rely on early warning systems generated by reliable and accurate forecasts of epidemics. Accurate forecasts of epidemics can assist stakeholders in tailoring countermeasures, such as vaccination campaigns, staff scheduling, and resource allocation, to the situation at hand, which could translate to reductions in the impact of a disease. Unfortunately, most of these past epidemics (e.g., dengue, malaria, hepatitis, influenza, and most recent, Covid-19) exhibit nonlinear and non-stationary characteristics due to their spreading fluctuations based on seasonal-dependent variability and the nature of these epidemics. We analyze a wide variety of epidemic time series datasets using a maximal overlap discrete wavelet transform (MODWT) based autoregressive neural network and call it EWNet. MODWT techniques effectively characterize non-stationary behavior and seasonal dependencies in the epidemic time series and improve the forecasting scheme of the autoregressive neural network in the proposed ensemble wavelet network framework. From a nonlinear time series viewpoint, we explore the asymptotic stationarity of the proposed EWNet model to show the asymptotic behavior of the associated Markov Chain. We also theoretically investigate the effect of learning stability and the choice of hidden neurons in the proposed EWNet model. From a practical perspective, we compare our proposed EWNet framework with several statistical, machine learning, and deep learning models that have been previously used for epidemic forecasting.
翻訳日:2022-06-24 10:23:40 公開日:2022-06-21
# (参考訳) TiCo:自己監督型視覚表現学習のための変換不変性と共分散コントラスト

TiCo: Transformation Invariance and Covariance Contrast for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2206.10698v1 )

ライセンス: CC0 1.0
Jiachen Zhu, Rafael M. Moraes, Serkan Karakulak, Vlad Sobol, Alfredo Canziani, Yann LeCun(参考訳) 自己教師型視覚表現学習のための変換不変性と共分散コントラスト(TiCo)を提案する。 近年の自己教師あり学習法と同様に,同じ画像の歪曲された異なるバージョンの埋め込み間の一致を最大化することで,エンコーダを変換不変表現へと押し上げる。 エンコーダが定数ベクトルを生成する自明な解を避けるために、異なる画像からの埋め込みの共分散行列を低ランク解をペナライズすることで正則化する。 変換不変損失と共分散コントラスト損失を共同で最小化することにより、下流タスクに有用な表現を生成できるエンコーダを得る。 提案手法を解析し,メモリ容量無制限の暗黙的なメモリバンクを持つmocoの変種として,余分なメモリコストを要しないことを示す。 これにより、バッチサイズが小さい場合、代替メソッドよりも優れた性能が得られる。 TiCoはバーロウ・ツインズの改造とも見ることができる。 コントラストメソッドと冗長リダクションメソッドを結合することで、tico氏はジョイント埋め込みメソッドの動作に関する新たな洞察を与えてくれる。

We present Transformation Invariance and Covariance Contrast (TiCo) for self-supervised visual representation learning. Similar to other recent self-supervised learning methods, our method is based on maximizing the agreement among embeddings of different distorted versions of the same image, which pushes the encoder to produce transformation invariant representations. To avoid the trivial solution where the encoder generates constant vectors, we regularize the covariance matrix of the embeddings from different images by penalizing low rank solutions. By jointly minimizing the transformation invariance loss and covariance contrast loss, we get an encoder that is able to produce useful representations for downstream tasks. We analyze our method and show that it can be viewed as a variant of MoCo with an implicit memory bank of unlimited size at no extra memory cost. This makes our method perform better than alternative methods when using small batch sizes. TiCo can also be seen as a modification of Barlow Twins. By connecting the contrastive and redundancy-reduction methods together, TiCo gives us new insights into how joint embedding methods work.
翻訳日:2022-06-24 09:42:31 公開日:2022-06-21
# (参考訳) TraSE:認知科学の観点からの権威的スタイルへの取り組み

TraSE: Towards Tackling Authorial Style from a Cognitive Science Perspective ( http://arxiv.org/abs/2206.10706v1 )

ライセンス: CC BY 4.0
Ronald Wilson, Avanti Bhandarkar and Damon Woodard(参考訳) テキストのスティリスティック分析は、著者の属性から法医学的分析、パーソナリティ・プロファイリングまで、研究領域における重要な課題である。 既存のスタイル分析のアプローチは、トピックの影響、多数の著者の識別可能性の欠如、多種多様なデータに対する要求といった問題に苦しめられている。 本稿では,これらの課題の源泉を,著者のスタイルに対する認知的視点の必要性とともに同定する。 Trajectory-based Style Estimation (TraSE)と呼ばれる新しい特徴表現が、この目的をサポートするために導入された。 クロスドメインシナリオにおける27,000人以上の著者と1.4万のサンプルによる著者帰属実験の結果、90%の属性精度が、その特徴表現がそのようなネガティブな影響に免疫的であり、スタイリスティックな分析の優れた候補であることを示唆した。 最後に、年齢などの身体的特徴を用いてトラス上で定性解析を行い、認知的特徴の獲得に関する主張を検証する。

Stylistic analysis of text is a key task in research areas ranging from authorship attribution to forensic analysis and personality profiling. The existing approaches for stylistic analysis are plagued by issues like topic influence, lack of discriminability for large number of authors and the requirement for large amounts of diverse data. In this paper, the source of these issues are identified along with the necessity for a cognitive perspective on authorial style in addressing them. A novel feature representation, called Trajectory-based Style Estimation (TraSE), is introduced to support this purpose. Authorship attribution experiments with over 27,000 authors and 1.4 million samples in a cross-domain scenario resulted in 90% attribution accuracy suggesting that the feature representation is immune to such negative influences and an excellent candidate for stylistic analysis. Finally, a qualitative analysis is performed on TraSE using physical human characteristics, like age, to validate its claim on capturing cognitive traits.
翻訳日:2022-06-24 09:25:58 公開日:2022-06-21
# (参考訳) 微分プライベート最適化における一様リプシッツ条件を超える

Beyond Uniform Lipschitz Condition in Differentially Private Optimization ( http://arxiv.org/abs/2206.10713v1 )

ライセンス: CC BY 4.0
Rudrajit Das, Satyen Kale, Zheng Xu, Tong Zhang, Sujay Sanghavi(参考訳) 微分的にプライベートな確率勾配降下(dp-sgd)に関するほとんどの事前収束結果は、一様リプシッツネスの単純仮定、すなわち、サンプルごとの勾配は一様有界である。 この仮定は多くの問題、例えばガウスデータの線形回帰において非現実的である。 我々は代わりに、サンプルごとの勾配が \textit{sample-dependent} 上界、すなわち、サンプルごとのリプシッツ定数を持つと仮定して、一様リプシッツを緩和する。 リプシッツ定数が有界なモーメントを持つとき、凸関数と非凸関数の両方でdp-sgdの新しい収束結果を得る。 さらに,リプシッツ定数の分布的仮定をすることなく,リプシッツネスの緩和版を満たす凸設定に対してdp-sgdのクリップノルムを選択するための原則的ガイダンスを提供する。 ベンチマークデータセットの実験を通じて,提案手法の有効性を検証する。

Most prior convergence results on differentially private stochastic gradient descent (DP-SGD) are derived under the simplistic assumption of uniform Lipschitzness, i.e., the per-sample gradients are uniformly bounded. This assumption is unrealistic in many problems, e.g., linear regression with Gaussian data. We relax uniform Lipschitzness by instead assuming that the per-sample gradients have \textit{sample-dependent} upper bounds, i.e., per-sample Lipschitz constants, which themselves may be unbounded. We derive new convergence results for DP-SGD on both convex and nonconvex functions when the per-sample Lipschitz constants have bounded moments. Furthermore, we provide principled guidance on choosing the clip norm in DP-SGD for convex settings satisfying our relaxed version of Lipschitzness, without making distributional assumptions on the Lipschitz constants. We verify the effectiveness of our recommendation via experiments on benchmarking datasets.
翻訳日:2022-06-24 09:11:34 公開日:2022-06-21
# (参考訳) 不均質地下貯水池圧力管理のための微分プログラムを用いた物理インフォーム機械学習

Physics-informed machine learning with differentiable programming for heterogeneous underground reservoir pressure management ( http://arxiv.org/abs/2206.10718v1 )

ライセンス: CC BY 4.0
Aleksandra Pachalieva and Daniel O'Malley and Dylan Robert Harp and Hari Viswanathan(参考訳) 地下貯水池の過圧化を避けることは、CO2の沈殿や排水の注入といった用途に欠かせない。 地下の複雑な不均一性のため, 射出制御による圧力管理は困難である。 不均一性は通常、CO$2$運命を予測するために高忠実度物理モデルを必要とする。 さらに、不均一性を正確に特徴付けるにはパラメトリック不確かさが伴う。 不均一性と不確実性の両方を考慮すると、現在の貯水池シミュレータでは計算集約的な問題となる。 これに対処するために,完全物理モデルを用いた微分可能プログラミングと機械学習を用いて,臨界貯留層での過圧を防止する流体抽出率を決定する。 DPFEHMフレームワークは標準の2点束有限体積離散化に基づく信頼性の高い物理を持ち、機械学習モデルのように自動的に微分可能である。 我々の物理インフォームド機械学習フレームワークは、畳み込みニューラルネットワークを用いて、透過性フィールドに基づいて適切な抽出率を学習する。 また,モデル精度を向上させるためにハイパーパラメータ探索を行う。 物理インフォームド機械学習を用いて貯水池圧を管理する可能性を評価するために、トレーニングとテストのシナリオが実行される。 基礎となる物理ベースのシミュレータよりも40万倍高速で,ほぼリアルタイムな解析とロバストな不確かさの定量化が可能なシミュレータを構築し,実験を行った。

Avoiding over-pressurization in subsurface reservoirs is critical for applications like CO2 sequestration and wastewater injection. Managing the pressures by controlling injection/extraction are challenging because of complex heterogeneity in the subsurface. The heterogeneity typically requires high-fidelity physics-based models to make predictions on CO$_2$ fate. Furthermore, characterizing the heterogeneity accurately is fraught with parametric uncertainty. Accounting for both, heterogeneity and uncertainty, makes this a computationally-intensive problem challenging for current reservoir simulators. To tackle this, we use differentiable programming with a full-physics model and machine learning to determine the fluid extraction rates that prevent over-pressurization at critical reservoir locations. We use DPFEHM framework, which has trustworthy physics based on the standard two-point flux finite volume discretization and is also automatically differentiable like machine learning models. Our physics-informed machine learning framework uses convolutional neural networks to learn an appropriate extraction rate based on the permeability field. We also perform a hyperparameter search to improve the model's accuracy. Training and testing scenarios are executed to evaluate the feasibility of using physics-informed machine learning to manage reservoir pressures. We constructed and tested a sufficiently accurate simulator that is 400000 times faster than the underlying physics-based simulator, allowing for near real-time analysis and robust uncertainty quantification.
翻訳日:2022-06-24 09:10:19 公開日:2022-06-21
# (参考訳) Huber Statisticによる一様性テストのシャープ定数

Sharp Constants in Uniformity Testing via the Huber Statistic ( http://arxiv.org/abs/2206.10722v1 )

ライセンス: CC BY 4.0
Shivam Gupta, Eric Price(参考訳) 均一性テストはプロパティテストにおいて最もよく研究されている問題の1つであり、数え上げ衝突、シングルトン、経験的テレビ距離に基づくものなど、多くの既知のテスト統計がある。 1-\delta$確率の任意の$\epsilon$-far分布と$m$要素の均一分布を区別する最適なサンプル複雑性は、経験的テレビテスタによって達成される$n = \theta\left(\frac{\sqrt{m \log (1/\delta)}}{\epsilon^2} + \frac{\log (1/\delta)}{\epsilon^2}\right)$であることが知られている。 多くの場合、それらは、0$または$\infty$である傾向のあるパラメータの漸近的なシステムでさえも、既存のテスターのパフォーマンスを正しくランク付けしていない。 この不一致を,アルゴリズムが要求する非定常因子の研究によって説明する。 衝突試験機は, 均一入力と非一様入力の分離の標準偏差数において, 急激な最大定数を達成することを示す。 次に、Huberの損失に基づく新しいテスタを導入し、この分離と一致するだけでなく、この分離とガウスに対応する尾を持つことを示す。 これは、他の既存のテスターとは異なり、この用語が支配的な体制において、サンプルの複雑さは$(1 + o(1))\frac{\sqrt{m \log (1/\delta)}}{\epsilon^2}$となる。

Uniformity testing is one of the most well-studied problems in property testing, with many known test statistics, including ones based on counting collisions, singletons, and the empirical TV distance. It is known that the optimal sample complexity to distinguish the uniform distribution on $m$ elements from any $\epsilon$-far distribution with $1-\delta$ probability is $n = \Theta\left(\frac{\sqrt{m \log (1/\delta)}}{\epsilon^2} + \frac{\log (1/\delta)}{\epsilon^2}\right)$, which is achieved by the empirical TV tester. Yet in simulation, these theoretical analyses are misleading: in many cases, they do not correctly rank order the performance of existing testers, even in an asymptotic regime of all parameters tending to $0$ or $\infty$. We explain this discrepancy by studying the \emph{constant factors} required by the algorithms. We show that the collisions tester achieves a sharp maximal constant in the number of standard deviations of separation between uniform and non-uniform inputs. We then introduce a new tester based on the Huber loss, and show that it not only matches this separation, but also has tails corresponding to a Gaussian with this separation. This leads to a sample complexity of $(1 + o(1))\frac{\sqrt{m \log (1/\delta)}}{\epsilon^2}$ in the regime where this term is dominant, unlike all other existing testers.
翻訳日:2022-06-24 08:55:40 公開日:2022-06-21
# (参考訳) imitate then transcend: dual-window denoise ppoによるマルチエージェント最適実行

Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window Denoise PPO ( http://arxiv.org/abs/2206.10736v1 )

ライセンス: CC BY 4.0
Jin Fang, Jiacheng Weng, Yi Xiang, Xinwen Zhang(参考訳) 再現性のある強化学習(RL)を用いた最適実行と配置問題の解法を提案する。 提案したフレームワークからトレーニングしたRLエージェントは、実行コストにおいて業界ベンチマークの時間重み付き平均価格(TWAP)戦略を一貫して上回り、サンプル外取引日時とティッカーをまたいで非常に一般化した。 印象的なパフォーマンスは3つの側面から達成された。 まず、Dual-window Denoise PPOと呼ばれるRLネットワークアーキテクチャにより、ノイズの多い市場環境で効率的な学習が可能になった。 第2に、模倣学習による報酬スキームをデザインし、市場特性の包括的集合を考察した。 第3に、当社のフレキシブルアクション定式化により、RLエージェントが最適な実行と配置に取り組み、個々の問題を個別に解くよりも性能が向上した。 RLエージェントの性能を,価格の影響を正確に評価したマルチエージェントの現実的歴史制限順序帳シミュレータで評価した。 さらにアブレーション試験も実施し,本フレームワークの優位性を確認した。

A novel framework for solving the optimal execution and placement problems using reinforcement learning (RL) with imitation was proposed. The RL agents trained from the proposed framework consistently outperformed the industry benchmark time-weighted average price (TWAP) strategy in execution cost and showed great generalization across out-of-sample trading dates and tickers. The impressive performance was achieved from three aspects. First, our RL network architecture called Dual-window Denoise PPO enabled efficient learning in a noisy market environment. Second, a reward scheme with imitation learning was designed, and a comprehensive set of market features was studied. Third, our flexible action formulation allowed the RL agent to tackle optimal execution and placement collectively resulting in better performance than solving individual problems separately. The RL agent's performance was evaluated in our multi-agent realistic historical limit order book simulator in which price impact was accurately assessed. In addition, ablation studies were also performed, confirming the superiority of our framework.
翻訳日:2022-06-24 08:53:47 公開日:2022-06-21
# (参考訳) 重度劣化画像の局所化のためのディープメトリカラー埋め込み

Deep Metric Color Embeddings for Splicing Localization in Severely Degraded Images ( http://arxiv.org/abs/2206.10737v1 )

ライセンス: CC BY 4.0
Benjamin Hadwiger, Christian Riess(参考訳) 画像鑑定における一般的な課題は、複数のソース画像が1つの出力画像に合成されるスプライシング画像を検出することである。 現在最も優れたスプライシング検出器のほとんどは高周波のアーティファクトを利用している。 しかし、画像が強い圧縮を受けた後、ほとんどの高周波アーティファクトはもはや利用できない。 本研究では,強い圧縮とダウンサンプリングの条件下で,画像の撮影に適したスプライシング検出法を提案する。 我々の提案は、画像の色形成をモデル化することである。 色形成は、主にシーンオブジェクトのスケールのバリエーションに依存するため、高周波アーティファクトに依存しない。 我々は、照明色やカメラの白点推定に敏感な深度距離空間を学習するが、一方、対象色の変化には敏感である。 埋め込み空間の広い距離は、2つの画像領域が異なるシーンまたは異なるカメラに由来することを示している。 本評価では,強い圧縮とダウンサンプリングの対象となる画像に対して,提案手法の組込み空間が技量を上回ることを示す。 さらに2つの実験において、距離空間の双対性、すなわち、取得カメラとシーンの照度色の両方を特徴付けることを確認した。 このように、この研究は物理学に基づく統計法医学の交差点に存在し、双方の利益がある。

One common task in image forensics is to detect spliced images, where multiple source images are composed to one output image. Most of the currently best performing splicing detectors leverage high-frequency artifacts. However, after an image underwent strong compression, most of the high frequency artifacts are not available anymore. In this work, we explore an alternative approach to splicing detection, which is potentially better suited for images in-the-wild, subject to strong compression and downsampling. Our proposal is to model the color formation of an image. The color formation largely depends on variations at the scale of scene objects, and is hence much less dependent on high-frequency artifacts. We learn a deep metric space that is on one hand sensitive to illumination color and camera white-point estimation, but on the other hand insensitive to variations in object color. Large distances in the embedding space indicate that two image regions either stem from different scenes or different cameras. In our evaluation, we show that the proposed embedding space outperforms the state of the art on images that have been subject to strong compression and downsampling. We confirm in two further experiments the dual nature of the metric space, namely to both characterize the acquisition camera and the scene illuminant color. As such, this work resides at the intersection of physics-based and statistical forensics with benefits from both sides.
翻訳日:2022-06-24 08:41:32 公開日:2022-06-21
# (参考訳) 進化アルゴリズムのための量子エンハンス選択演算子

Quantum-Enhanced Selection Operators for Evolutionary Algorithms ( http://arxiv.org/abs/2206.10743v1 )

ライセンス: CC BY 4.0
David Von Dollen, Sheir Yarkoni, Daniel Weimer, Florian Neukart, Thomas B\"ack(参考訳) 遺伝的アルゴリズムはブラックボックス最適化に適用する際に役立つユニークな特性を持つ。 選択、クロスオーバー、突然変異演算子を用いて、勾配を計算することなく候補解を得ることができる。 本研究では,遺伝的アルゴリズムの選択機構における量子エンハンス演算子を用いた結果について検討する。 提案手法では,選択過程を,集団の構成員間の適合性と距離を符号化する二元二次モデルの最小化として構成し,選択機構の低エネルギー解をサンプリングするために量子アニーリングシステムを活用する。 ブラックボックス最適化のために、OneMax関数やIOHProfilerライブラリの関数を含む様々なブラックボックス目的関数に対して、これらの量子強化アルゴリズムをベンチマークする。 我々は,量子化エリート主義選択演算子に対する収束を,OneMax関数の古典関数と比較して平均世代における性能向上を観察する。 また、IOHProfilerライブラリの適合摂動関数の非楕円選択による量子化選択演算子の性能が優れていることも見いだした。 さらに、エリート選択の場合、量子エンハンス演算子はダミー変数と中立性の程度が異なる関数の古典的なベンチマークよりも優れていることが分かる。

Genetic algorithms have unique properties which are useful when applied to black box optimization. Using selection, crossover, and mutation operators, candidate solutions may be obtained without the need to calculate a gradient. In this work, we study results obtained from using quantum-enhanced operators within the selection mechanism of a genetic algorithm. Our approach frames the selection process as a minimization of a binary quadratic model with which we encode fitness and distance between members of a population, and we leverage a quantum annealing system to sample low energy solutions for the selection mechanism. We benchmark these quantum-enhanced algorithms against classical algorithms over various black-box objective functions, including the OneMax function, and functions from the IOHProfiler library for black-box optimization. We observe a performance gain in average number of generations to convergence for the quantum-enhanced elitist selection operator in comparison to classical on the OneMax function. We also find that the quantum-enhanced selection operator with non-elitist selection outperform benchmarks on functions with fitness perturbation from the IOHProfiler library. Additionally, we find that in the case of elitist selection, the quantum-enhanced operators outperform classical benchmarks on functions with varying degrees of dummy variables and neutrality.
翻訳日:2022-06-24 08:12:29 公開日:2022-06-21
# (参考訳) 代名詞を忘れるな - 実性情報を失うことなく言語モデルで性バイアスを除去する

Don't Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information ( http://arxiv.org/abs/2206.10744v1 )

ライセンス: CC BY 4.0
Tomasz Limisiewicz and David Mare\v{c}ek(参考訳) 大規模言語モデルの表現は、複数の種類の性別情報を含んでいる。 英語のテキストでは、文法的または意味的な特性である事実性情報と、単語と特定の性別の相関である性別バイアスの2つのタイプに注目する。 モデルの埋め込みを分解し、両方の種類の情報をプロービングでエンコードするコンポーネントを識別できる。 ジェンダーシグナルを保存しながら表現のステレオタイプバイアスを小さくすることを目的としている。 本手法は,言語モデリング能力の大幅な低下を伴わずに,性別中立の職業名のバイアスを低減できることを示す。 本研究は, 言語生成に応用し, ステレオタイプへの依存を軽減し, コア推論における性別合意を維持した。

The representations in large language models contain multiple types of gender information. We focus on two types of such signals in English texts: factual gender information, which is a grammatical or semantic property, and gender bias, which is the correlation between a word and specific gender. We can disentangle the model's embeddings and identify components encoding both types of information with probing. We aim to diminish the stereotypical bias in the representations while preserving the factual gender signal. Our filtering method shows that it is possible to decrease the bias of gender-neutral profession names without significant deterioration of language modeling capabilities. The findings can be applied to language generation to mitigate reliance on stereotypes while preserving gender agreement in coreferences.
翻訳日:2022-06-24 07:59:08 公開日:2022-06-21
# (参考訳) 微分インフォームドニューラル演算子:高次元パラメトリック学習のための効率的なフレームワーク

Derivate Informed Neural Operator: An Efficient Framework for High-Dimensional Parametric Derivative Learning ( http://arxiv.org/abs/2206.10745v1 )

ライセンス: CC BY 4.0
Thomas O'Leary-Roseberry, Peng Chen, Umberto Villa, and Omar Ghattas(参考訳) ニューラル演算子は最近、関数空間間の高次元パラメトリックマップを近似する能力により、大きな注目を集めている。 現在、神経オペレーターの文献ではパラメトリック関数近似のみが扱われている。 本研究では,ニューラル演算子訓練におけるパラメトリック微分情報の導入について検討する。この情報は関数近似を改善できるだけでなく,高次元外ループ問題(ベイズ逆問題など)のスケーラブルな解の鍵となるパラメータに対する微分の近似を改善するためにも利用できる。 パラメトリックジャコビアン情報は,その高次元性から組み込むことができ,SVDの削減,スケッチのランダム化,ベースサロゲートの削減に基づく戦略を提案する。 これらの戦略は、ジャコビアンデータのサンプルを構成するためにのみ$O(r)$のジャコビアン作用を必要とし、ジャコビアントレーニングに関連する線形代数とメモリコストを入力と出力の次元の積から$O(r^2)$に下げることができる。 パラメトリックPDE問題に対する数値計算の結果、特に少ないデータの場合、トレーニング問題への微分情報の追加はパラメトリックマップ近似を大幅に改善することを示した。 ヤコビアン行動がパラメトリックマップに比べて安価であれば、この情報はパラメトリックマップデータに経済的に置き換えることができる。 さらに,jacob型トレーニングデータの導入により,jacob型エラー近似が大幅に改善することを示す。 この結果は、外部ループアルゴリズムにおける微分インフォームドニューラルオペレータ(dinos)の使用への扉を開き、繰り返し評価することで追加のトレーニングデータコストを償却することができる。

Neural operators have gained significant attention recently due to their ability to approximate high-dimensional parametric maps between function spaces. At present, only parametric function approximation has been addressed in the neural operator literature. In this work we investigate incorporating parametric derivative information in neural operator training; this information can improve function approximations, additionally it can be used to improve the approximation of the derivative with respect to the parameter, which is often the key to scalable solution of high-dimensional outer-loop problems (e.g. Bayesian inverse problems). Parametric Jacobian information is formally intractable to incorporate due to its high-dimensionality, to address this concern we propose strategies based on reduced SVD, randomized sketching and the use of reduced basis surrogates. All of these strategies only require only $O(r)$ Jacobian actions to construct sample Jacobian data, and allow us to reduce the linear algebra and memory costs associated with the Jacobian training from the product of the input and output dimensions down to $O(r^2)$, where $r$ is the dimensionality associated with the dimension reduction technique. Numerical results for parametric PDE problems demonstrate that the addition of derivative information to the training problem can significantly improve the parametric map approximation, particularly given few data. When Jacobian actions are inexpensive compared to the parametric map, this information can be economically substituted for parametric map data. Additionally we show that Jacobian error approximations improve significantly with the introduction of Jacobian training data. This result opens the door to the use of derivative informed neural operators (DINOs) in outer-loop algorithms where they can amortize the additional training data cost via repeated evaluations.
翻訳日:2022-06-24 07:40:40 公開日:2022-06-21
# (参考訳) バイオメトリックブレンダー:生体特徴空間を模倣する超高次元多クラス合成データジェネレータ

BiometricBlender: Ultra-high dimensional, multi-class synthetic data generator to imitate biometric feature space ( http://arxiv.org/abs/2206.10747v1 )

ライセンス: CC BY 4.0
Marcell Stippinger, D\'avid Han\'ak, Marcell T. Kurbucz, Gergely Hancz\'ar, Oliv\'er M. T\"orteli, Zolt\'an Somogyv\'ari(参考訳) 自由に利用可能な(実物または合成物)高次元または超高次元のマルチクラスデータセットの欠如は、特徴スクリーニングの研究、特にバイオメトリックスの分野では、このようなデータセットの使用が一般的である。 本稿では,超高次元多クラス合成データ生成器であるbiometricblenderと呼ばれるpythonパッケージについて報告する。 データ生成プロセスにおいて、ブレンドされた特徴の全体的な有用性と相互関係をユーザによって制御することができ、合成特徴空間は実際のバイオメトリックデータセットの重要な特性を模倣することができる。

The lack of freely available (real-life or synthetic) high or ultra-high dimensional, multi-class datasets may hamper the rapidly growing research on feature screening, especially in the field of biometrics, where the usage of such datasets is common. This paper reports a Python package called BiometricBlender, which is an ultra-high dimensional, multi-class synthetic data generator to benchmark a wide range of feature screening methods. During the data generation process, the overall usefulness and the intercorrelations of blended features can be controlled by the user, thus the synthetic feature space is able to imitate the key properties of a real biometric dataset.
翻訳日:2022-06-24 07:11:15 公開日:2022-06-21
# (参考訳) 防衛における倫理的AIの手法:信頼に足る自律システム開発を事例として

A method for ethical AI in Defence: A case study on developing trustworthy autonomous systems ( http://arxiv.org/abs/2206.10769v1 )

ライセンス: CC BY 4.0
Tara Roberson, Stephen Bornstein, Rain Liivoja, Simon Ng, Jason Scholz, S. Kate Devitt(参考訳) 信頼できる自律システムの開発とデプロイにおいて、その責任と応答性はどのようなものか? 本稿では、さまざまな協力者や利害関係者による業界主導の政府支援プロジェクトの中で、信頼できる自律システムを構築するためのケーススタディについて説明する。 このケーススタディを用いて,高い翻訳準備レベルにおける技術開発を通じて,責任ある研究とイノベーションに整合した倫理的アプローチと原則を組み込むことによる価値と影響について考察する。

What does it mean to be responsible and responsive when developing and deploying trusted autonomous systems in Defence? In this short reflective article, we describe a case study of building a trusted autonomous system - Athena AI - within an industry-led, government-funded project with diverse collaborators and stakeholders. Using this case study, we draw out lessons on the value and impact of embedding responsible research and innovation-aligned, ethics-by-design approaches and principles throughout the development of technology at high translation readiness levels.
翻訳日:2022-06-24 07:02:07 公開日:2022-06-21
# 個人別最大情報係数

Differentially Private Maximal Information Coefficients ( http://arxiv.org/abs/2206.10685v1 )

ライセンス: Link先を確認
John Lazarsfeld, Aaron Johnson, and Emmanuel Adeniran(参考訳) 最大情報係数(MIC)は変数間の依存関係を特定する強力な統計量である。 しかし、機密データに適用され、公開することで個人情報が漏洩する可能性がある。 解決策として、異なるプライバシーを提供する方法でMICを近似するアルゴリズムを提案する。 古典ラプラス機構の自然な適用は精度が不十分であることを示す。 そこで我々は、微分プライバシーとより互換性のある新しいMIC近似であるMICr統計を導入した。 我々はMICrがMIICの一貫した推定器であることを証明し、2つの微分プライベートバージョンを提供する。 我々は様々な実データと合成データセットで実験を行う。 その結果、プライベートMICr統計はLaplaceメカニズムの直接適用よりも著しく優れていた。 さらに、実世界のデータセットの実験では、サンプルサイズが少なくとも適度に大きい場合、使用可能な精度を示す。

The Maximal Information Coefficient (MIC) is a powerful statistic to identify dependencies between variables. However, it may be applied to sensitive data, and publishing it could leak private information. As a solution, we present algorithms to approximate MIC in a way that provides differential privacy. We show that the natural application of the classic Laplace mechanism yields insufficient accuracy. We therefore introduce the MICr statistic, which is a new MIC approximation that is more compatible with differential privacy. We prove MICr is a consistent estimator for MIC, and we provide two differentially private versions of it. We perform experiments on a variety of real and synthetic datasets. The results show that the private MICr statistics significantly outperform direct application of the Laplace mechanism. Moreover, experiments on real-world datasets show accuracy that is usable when the sample size is at least moderately large.
翻訳日:2022-06-23 16:33:17 公開日:2022-06-21
# SCIM: オープンワールドセマンティックシーン理解のための同時クラスタリング,推論,マッピング

SCIM: Simultaneous Clustering, Inference, and Mapping for Open-World Semantic Scene Understanding ( http://arxiv.org/abs/2206.10670v1 )

ライセンス: Link先を確認
Hermann Blum, Marcus G. M\"uller, Abel Gawel, Roland Siegwart, Cesar Cadena(参考訳) 人間の環境で動作するためには、ロボットの意味認識は、新しいオブジェクトやドメイン間隙といったオープンワールドの課題を克服しなければならない。 そのため、そのような環境への自律的なデプロイメントでは、ロボットは知識を更新し、監督なしに学習する必要がある。 ロボットが新しい意味クラスを自律的に発見し、未知の環境を探索する際の既知のクラスの精度を向上させる方法について検討する。 そこで我々は,意味的セグメンテーションモデルを更新するための自己教師付き学習信号を生成するために,マッピングとクラスタリングのための汎用フレームワークを開発した。 特に,デプロイ中にクラスタリングパラメータを最適化する方法を示し,複数の観測モードを融合することで,これまでの作業と比較して新たなオブジェクト発見が向上することを示す。

In order to operate in human environments, a robot's semantic perception has to overcome open-world challenges such as novel objects and domain gaps. Autonomous deployment to such environments therefore requires robots to update their knowledge and learn without supervision. We investigate how a robot can autonomously discover novel semantic classes and improve accuracy on known classes when exploring an unknown environment. To this end, we develop a general framework for mapping and clustering that we then use to generate a self-supervised learning signal to update a semantic segmentation model. In particular, we show how clustering parameters can be optimized during deployment and that fusion of multiple observation modalities improves novel object discovery compared to prior work.
翻訳日:2022-06-23 16:23:01 公開日:2022-06-21
# 大規模インテリジェント表面による無線センシングと学習による床地図復元

Floor Map Reconstruction Through Radio Sensing and Learning By a Large Intelligent Surface ( http://arxiv.org/abs/2206.10750v1 )

ライセンス: Link先を確認
Cristian J. Vaca-Rubio, Roberto Pereira, Xavier Mestre, David Gregoratti, Zheng-Hua Tan, Elisabeth de Carvalho, and Petar Popovski(参考訳) ロボットとの安全な相互作用を確保するためには,環境の正確な表現が必要である。 同様に、ロボットとそのコントローラ間の信頼性の高い通信を確保することも重要である。 大型インテリジェントサーフェス(Large Intelligent Surface, LIS)は、通信能力によって広く研究されている技術である。 さらに、アンテナ素子の数が多いため、これらの表面は電波センシングの強力な解決策となる。 本稿では,LISで得られた無線環境マップを,その周辺に散在する散在する屋内環境のフロアプランに変換する方法を提案する。 また,Last Squares (LS) をベースとした U-Net (UN) と条件付き生成適応ネットワーク (cGAN) を用いた。 本研究では,局所的およびグローバルな測定値を用いて,フロアプランを正しく再構築可能であることを示す。

Environmental scene reconstruction is of great interest for autonomous robotic applications, since an accurate representation of the environment is necessary to ensure safe interaction with robots. Equally important, it is also vital to ensure reliable communication between the robot and its controller. Large Intelligent Surface (LIS) is a technology that has been extensively studied due to its communication capabilities. Moreover, due to the number of antenna elements, these surfaces arise as a powerful solution to radio sensing. This paper presents a novel method to translate radio environmental maps obtained at the LIS to floor plans of the indoor environment built of scatterers spread along its area. The usage of a Least Squares (LS) based method, U-Net (UN) and conditional Generative Adversarial Networks (cGANs) were leveraged to perform this task. We show that the floor plan can be correctly reconstructed using both local and global measurements.
翻訳日:2022-06-23 16:21:28 公開日:2022-06-21
# panoramic panoptic segmentation:unsupervised contrastive learningによるモバイルエージェントの周辺解析に関する研究

Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for Mobile Agents via Unsupervised Contrastive Learning ( http://arxiv.org/abs/2206.10711v1 )

ライセンス: Link先を確認
Alexander Jaus, Kailun Yang, Rainer Stiefelhagen(参考訳) 本研究では,パノラマパオプティカルセグメンテーション(パノラマパオプティカルセグメンテーション)を,fov(field of view)と標準カメラベース入力のための画像レベルの理解の両面から,最も総合的なシーン理解として紹介する。 周囲の完全な理解は、現実の交通のような安全クリティカルな動的環境において情報的決定を行うために、あらゆるインテリジェントな車両に不可欠な、移動エージェントに最大限の情報を提供する。 注釈付きパノラマ画像の欠如を克服するために,標準ピンホール画像のモデルトレーニングを可能にし,学習した機能をコスト最小の方法で異なるドメインに転送するフレームワークを提案する。 提案手法は, 厳密なコントラスト学習を用いて, 非適応的アプローチによる大幅な改善を実現している。 効率的なパノラマセグメンテーションアーキテクチャによっては、確立された野生パノラマパノラマセグメンテーション(wildpps)データセット上の非適応モデルよりも3.5-6.5%のpqを測定することができる。 さらに,本フレームワークでは,対象領域の画像へのアクセスを必要としないため,限られたハードウェア設定に適したドメイン一般化アプローチが実現可能である。 追加の貢献としてwildpps: the first panoramic panoptic image datasetを出版し、周囲の知覚の進歩を促進し、教師付きとコントラスト型のトレーニングを組み合わせた新しいトレーニング手順を探求した。

In this work, we introduce panoramic panoptic segmentation, as the most holistic scene understanding, both in terms of Field of View (FoV) and image-level understanding for standard camera-based input. A complete surrounding understanding provides a maximum of information to a mobile agent, which is essential for any intelligent vehicle in order to make informed decisions in a safety-critical dynamic environment such as real-world traffic. In order to overcome the lack of annotated panoramic images, we propose a framework which allows model training on standard pinhole images and transfers the learned features to a different domain in a cost-minimizing way. Using our proposed method with dense contrastive learning, we manage to achieve significant improvements over a non-adapted approach. Depending on the efficient panoptic segmentation architecture, we can improve 3.5-6.5% measured in Panoptic Quality (PQ) over non-adapted models on our established Wild Panoramic Panoptic Segmentation (WildPPS) dataset. Furthermore, our efficient framework does not need access to the images of the target domain, making it a feasible domain generalization approach suitable for a limited hardware setting. As additional contributions, we publish WildPPS: The first panoramic panoptic image dataset to foster progress in surrounding perception and explore a novel training procedure combining supervised and contrastive training.
翻訳日:2022-06-23 16:15:10 公開日:2022-06-21
# マルチスケール残差ブロック, 重要度マップ, ポスト量子化フィルタを用いた非対称学習画像圧縮

Asymmetric Learned Image Compression with Multi-Scale Residual Block, Importance Map, and Post-Quantization Filtering ( http://arxiv.org/abs/2206.10618v1 )

ライセンス: Link先を確認
Haisheng Fu, Feng Liang, Jie Liang, Binglin Li, Guohe Zhang, Jingning Han(参考訳) 近年,深層学習に基づく画像圧縮が進歩し,従来の手法であるH.266/VVCよりも高いレート歪み(R-D)性能を実現している。 しかし、主要な問題は、多くの主要な学習スキームが、パフォーマンスと複雑さの間の良いトレードオフを維持することができないことである。 本稿では,より複雑なR-D性能を実現するための,効率的かつ効果的な画像符号化フレームワークを提案する。 まず, マルチスケール残差ブロック(MSRB)を改良し, 受容差を拡大し, グローバルな情報を得るのが容易になった。 潜在表現の空間的相関をさらに捉え、低減することができる。 第2に、画像の異なる領域に適応的にビットを割り当てるために、より高度な重要度マップネットワークが導入される。 第3に、ビデオ符号化におけるサンプル適応オフセット(SAO)フラッターによる量子化誤差を低減するために、PQF (2D post-quantization flter) を適用する。 さらに,エンコーダとデコーダの複雑さは画像圧縮性能に異なる影響を与えることがわかった。 この観測に基づいて、符号化者は学習能力を向上させるためにMSRBの3段階を使用する非対称なパラダイムを設計し、一方デコーダは良好な再構成を得るためにMSRBの1段階のみを必要とするため、性能を損なうことなく復号の複雑さを低減できる。 実験結果から,提案手法の符号化と復号処理は最先端の手法と比較して約17倍高速であり,H.266/VVC(4:4:4)および他の最近の学習ベース手法よりもまだ優れているKodakおよびTecnickデータセットにおいて,R-D性能は1%以下に低下することがわかった。 ソースコードはhttps://github.com/fengyurenpingsheng.comで公開されている。

Recently, deep learning-based image compression has made signifcant progresses, and has achieved better ratedistortion (R-D) performance than the latest traditional method, H.266/VVC, in both subjective metric and the more challenging objective metric. However, a major problem is that many leading learned schemes cannot maintain a good trade-off between performance and complexity. In this paper, we propose an effcient and effective image coding framework, which achieves similar R-D performance with lower complexity than the state of the art. First, we develop an improved multi-scale residual block (MSRB) that can expand the receptive feld and is easier to obtain global information. It can further capture and reduce the spatial correlation of the latent representations. Second, a more advanced importance map network is introduced to adaptively allocate bits to different regions of the image. Third, we apply a 2D post-quantization flter (PQF) to reduce the quantization error, motivated by the Sample Adaptive Offset (SAO) flter in video coding. Moreover, We fnd that the complexity of encoder and decoder have different effects on image compression performance. Based on this observation, we design an asymmetric paradigm, in which the encoder employs three stages of MSRBs to improve the learning capacity, whereas the decoder only needs one stage of MSRB to yield satisfactory reconstruction, thereby reducing the decoding complexity without sacrifcing performance. Experimental results show that compared to the state-of-the-art method, the encoding and decoding time of the proposed method are about 17 times faster, and the R-D performance is only reduced by less than 1% on both Kodak and Tecnick datasets, which is still better than H.266/VVC(4:4:4) and other recent learning-based methods. Our source code is publicly available at https://github.com/fengyurenpingsheng.
翻訳日:2022-06-23 16:13:47 公開日:2022-06-21
# ConTraNet:EEGとEMGベースのヒューマンマシンインタフェースのための単一エンドツーエンドハイブリッドネットワーク

ConTraNet: A single end-to-end hybrid network for EEG-based and EMG-based human machine interfaces ( http://arxiv.org/abs/2206.10677v1 )

ライセンス: Link先を確認
Omair Ali, Muhammad Saif-ur-Rehman, Tobias Glasmachers, Ioannis Iossifidis and Christian Klaes(参考訳) 目的:脳波(EEG)と筋電図(EMG)は、身体障害者のリハビリテーションにヒト機械インタフェース(HMI)技術(EEG-HMIおよびEMG-HMIパラダイム)で広く用いられている2つの非侵襲的生体信号である。 脳波とEMG信号のそれぞれの制御コマンドへの復号に成功したことは、リハビリテーションプロセスにおける重要なステップである。 近年、生の時系列信号を決定空間に直接マッピングし、意味のある特徴抽出と分類のプロセスを同時に行う畳み込みニューラルネットワーク(CNN)に基づくアーキテクチャが提案されている。 しかし、これらのネットワークは、与えられた生体信号の特性を学習するために調整されており、単一のパラダイムに限定されている。 本研究では、異なるHMIパラダイムから異なる特徴を学習し、それでもうまく分類できる単一のアーキテクチャを構築することができるという問題に対処する。 アプローチ: 本研究では,CNN と Transformer アーキテクチャをベースとした ConTraNet という単一ハイブリッドモデルを導入し,EEG-HMI と EMG-HMI のパラダイムに等しく有用である。 contranetはcnnブロックを使用してモデルに帰納的バイアスを導入し、局所的な依存関係を学習するのに対し、トランスフォーマーブロックは信号の長距離依存性を学習するために自己アテンション機構を使用する。 主な結果:我々は、EEG-HMIおよびEMG-HMIパラダイムに属する3つの公開データセットに対して、ConTraNetを最先端の手法と比較した。 ConTraNetは、すべてのカテゴリタスク(2クラス、3クラス、4クラス、10クラスデコードタスク)において、それよりも優れています。 意義: 結果は、ConTraNetが、異なるHMIパラダイムから異なる特徴を学習し、技術アルゴリズムの現在の状態と同等に一般化することを示唆している。

Objective: Electroencephalography (EEG) and electromyography (EMG) are two non-invasive bio-signals, which are widely used in human machine interface (HMI) technologies (EEG-HMI and EMG-HMI paradigm) for the rehabilitation of physically disabled people. Successful decoding of EEG and EMG signals into respective control command is a pivotal step in the rehabilitation process. Recently, several Convolutional neural networks (CNNs) based architectures are proposed that directly map the raw time-series signal into decision space and the process of meaningful features extraction and classification are performed simultaneously. However, these networks are tailored to the learn the expected characteristics of the given bio-signal and are limited to single paradigm. In this work, we addressed the question that can we build a single architecture which is able to learn distinct features from different HMI paradigms and still successfully classify them. Approach: In this work, we introduce a single hybrid model called ConTraNet, which is based on CNN and Transformer architectures that is equally useful for EEG-HMI and EMG-HMI paradigms. ConTraNet uses CNN block to introduce inductive bias in the model and learn local dependencies, whereas the Transformer block uses the self-attention mechanism to learn the long-range dependencies in the signal, which are crucial for the classification of EEG and EMG signals. Main results: We evaluated and compared the ConTraNet with state-of-the-art methods on three publicly available datasets which belong to EEG-HMI and EMG-HMI paradigms. ConTraNet outperformed its counterparts in all the different category tasks (2-class, 3-class, 4-class, and 10-class decoding tasks). Significance: The results suggest that ConTraNet is robust to learn distinct features from different HMI paradigms and generalizes well as compared to the current state of the art algorithms.
翻訳日:2022-06-23 16:13:09 公開日:2022-06-21
# 超モジュラー$\mf$-divergencesと相互$\mf$-informationによる損失圧縮と一般化誤差の境界

Supermodular $\mf$-divergences and bounds on lossy compression and generalization error with mutual $\mf$-information ( http://arxiv.org/abs/2206.11042v1 )

ライセンス: Link先を確認
Saeed Masiha, Amin Gohari, Mohammad Hossein Yassaee(参考訳) 本稿では,超モジュラー$\mf$-divergencesを導入し,その3つの応用について述べる。 (i)超モジュラー$\mf$-ディバージェンスに基づく独立確率変数の和のテール確率上のサノフの上界を導入し、一般化したサノフの境界が通常のものよりも厳密に改善されることを示す。 (2) 与えられた歪みと符号長に対する達成可能な速度のセットを研究する圧縮の損失問題を考える。 超モジュラー$\mf$-divergences を用いた有限ブロック長レジームにおいて、相互$\mf$-information を用いてレートゆがみ関数を拡張し、達成可能なレートの新たな、厳密な境界を与える。 (iii)有界な入出力相互$\mf$情報を持つアルゴリズムの一般化誤差と一般化されたレート分散問題との関係を提供する。 この接続により、レート歪関数の下限を用いて学習アルゴリズムの一般化誤差を限定することができる。 我々の境界は、(いくつかの例では)以前最もよく知られた境界を厳密に改善するレート・ディストリビューション関数の新たな下限に基づいている。 さらに、超モジュラ $\mf$-divergences を用いて問題の次元を小さくし、シングルレター境界を得る。

In this paper, we introduce super-modular $\mf$-divergences and provide three applications for them: (i) we introduce Sanov's upper bound on the tail probability of sum of independent random variables based on super-modular $\mf$-divergence and show that our generalized Sanov's bound strictly improves over ordinary one, (ii) we consider the lossy compression problem which studies the set of achievable rates for a given distortion and code length. We extend the rate-distortion function using mutual $\mf$-information and provide new and strictly better bounds on achievable rates in the finite blocklength regime using super-modular $\mf$-divergences, and (iii) we provide a connection between the generalization error of algorithms with bounded input/output mutual $\mf$-information and a generalized rate-distortion problem. This connection allows us to bound the generalization error of learning algorithms using lower bounds on the rate-distortion function. Our bound is based on a new lower bound on the rate-distortion function that (for some examples) strictly improves over previously best-known bounds. Moreover, super-modular $\mf$-divergences are utilized to reduce the dimension of the problem and obtain single-letter bounds.
翻訳日:2022-06-23 16:10:05 公開日:2022-06-21
# BOSS: オブジェクトコンテキストシナリオにおける人間の信念予測のベンチマーク

BOSS: A Benchmark for Human Belief Prediction in Object-context Scenarios ( http://arxiv.org/abs/2206.10665v1 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu, Nicholas Tan, Li Yi, Cheston Tan(参考訳) 平均的な社会的認知レベルを持つ人間は、社会的相互作用の間に提示された非言語コミュニケーション信号(例えば、視線、ジェスチャー、ポーズ、文脈情報)のみに基づいて他人の信念を推測することができる。 人間の信念や意図を予測するこの社会的認知能力は、人間とロボットの安全な相互作用とコラボレーションを保証するために、これまで以上に重要である。 本稿では,言語コミュニケーションが禁止されている環境において,人間と自律システム間の協調性を高める手法を検討するために,心の理論の知識(tom)と対物文脈関係(object-context relations)を組み合わせて用いる。 本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新規で挑戦的なマルチモーダルビデオデータセットを提案する。 提案したデータセットは、人間の認識によって捉えたすべての非言語コミュニケーション入力を再現する、人間の信念状態の正確なラベル付けとマルチモーダル入力からなる。 さらに,既存の深層学習モデルによるデータセットの評価を行い,各種入力モダリティとオブジェクトコンテキストの関係がベースラインモデルの性能に与える影響について新たな知見を提供する。

Humans with an average level of social cognition can infer the beliefs of others based solely on the nonverbal communication signals (e.g. gaze, gesture, pose and contextual information) exhibited during social interactions. This social cognitive ability to predict human beliefs and intentions is more important than ever for ensuring safe human-robot interaction and collaboration. This paper uses the combined knowledge of Theory of Mind (ToM) and Object-Context Relations to investigate methods for enhancing collaboration between humans and autonomous systems in environments where verbal communication is prohibited. We propose a novel and challenging multimodal video dataset for assessing the capability of artificial intelligence (AI) systems in predicting human belief states in an object-context scenario. The proposed dataset consists of precise labelling of human belief state ground-truth and multimodal inputs replicating all nonverbal communication inputs captured by human perception. We further evaluate our dataset with existing deep learning models and provide new insights into the effects of the various input modalities and object-context relations on the performance of the baseline models.
翻訳日:2022-06-23 15:38:56 公開日:2022-06-21
# 質問は、密集した通路のレトリバーを訓練するしかないか?

Questions Are All You Need to Train a Dense Passage Retriever ( http://arxiv.org/abs/2206.10658v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Mike Lewis and Dani Yogatama and Luke Zettlemoyer and Joelle Pineau and Manzil Zaheer(参考訳) ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための,新しいコーパスレベルの自動エンコーディング手法であるartを紹介する。 高度な検索は、open qaのようなオープンドメインタスクの中心的な課題であり、最先端の手法では、カスタムのハード負のマイニングとポジティブな例の否定を伴う大規模な教師ありデータセットを必要とする。 対照的にARTは、未解決の入力や出力(質問や潜在的な回答文書など)へのアクセスのみを必要とする。 新たな文書リトライバル自動エンコーディング方式を用いて,(1)証拠文書の集合を検索するために入力質問を使用し,(2)文書を用いて元の質問を再構築する確率を計算する。 質問再構成に基づく検索の訓練は、文書と質問エンコーダの効果的な教師なし学習を可能にし、後から完全なオープンQAシステムに組み込むことができる。 広範囲な実験により、ARTは事前訓練された言語モデルからのみ汎用的な初期化を行い、ラベル付きデータやタスク固有の損失を除去し、複数のQA検索ベンチマークで最先端の結果を得ることができた。

We introduce ART, a new corpus-level autoencoding approach for training dense retrieval models that does not require any labeled training data. Dense retrieval is a central challenge for open-domain tasks, such as Open QA, where state-of-the-art methods typically require large supervised datasets with custom hard-negative mining and denoising of positive examples. ART, in contrast, only requires access to unpaired inputs and outputs (e.g. questions and potential answer documents). It uses a new document-retrieval autoencoding scheme, where (1) an input question is used to retrieve a set of evidence documents, and (2) the documents are then used to compute the probability of reconstructing the original question. Training for retrieval based on question reconstruction enables effective unsupervised learning of both document and question encoders, which can be later incorporated into complete Open QA systems without any further finetuning. Extensive experiments demonstrate that ART obtains state-of-the-art results on multiple QA retrieval benchmarks with only generic initialization from a pre-trained language model, removing the need for labeled data and task-specific losses.
翻訳日:2022-06-23 15:33:41 公開日:2022-06-21
# データセットシフトによる性能予測

Performance Prediction Under Dataset Shift ( http://arxiv.org/abs/2206.10697v1 )

ライセンス: Link先を確認
Simona Maggio, Victor Bouvier and L\'eo Dreyfus-Schmidt(参考訳) 実運用にデプロイされるMLモデルは、トレーニング設定と根本的に異なる、未知のドメイン変更に直面することが多い。 性能予測モデルは、これらの変化がモデルの性能に与える影響を測定する重要なタスクを実行する。 生成した合成摂動を学習し,様々な性能予測モデルの新たな領域への一般化能力について検討する。 10の表付きデータセットのベンチマークに対する実証的な検証は、最先端のシフト検出メトリクスに基づくモデルでは、目に見えないドメインに一般化するのに十分な表現力がないことを示している。 さらに,性能予測器の信頼性を確保するため,予測精度の自然な不確実性推定手法を提案する。 実装はhttpsで利用可能です。 //github.com/dataiku-research/performance_prediction_under_shift。

ML models deployed in production often have to face unknown domain changes, fundamentally different from their training settings. Performance prediction models carry out the crucial task of measuring the impact of these changes on model performance. We study the generalization capabilities of various performance prediction models to new domains by learning on generated synthetic perturbations. Empirical validation on a benchmark of ten tabular datasets shows that models based upon state-of-the-art shift detection metrics are not expressive enough to generalize to unseen domains, while Error Predictors bring a consistent improvement in performance prediction under shift. We additionally propose a natural and effortless uncertainty estimation of the predicted accuracy that ensures reliable use of performance predictors. Our implementation is available at https: //github.com/dataiku-research/performance_prediction_under_shift.
翻訳日:2022-06-23 15:30:56 公開日:2022-06-21
# 教師付きコンクリートオートエンコーダによるサバイバルベース患者の階層化のためのマルチオミックデータ統合と特徴選択

Multi-Omic Data Integration and Feature Selection for Survival-based Patient Stratification via Supervised Concrete Autoencoders ( http://arxiv.org/abs/2206.10699v1 )

ライセンス: Link先を確認
Pedro Henrique da Costa Avelar, Roman Laddach, Sophia Karagiannis, Min Wu, Sophia Tsoka(参考訳) 癌は複雑な疾患であり、社会や経済に大きな影響を及ぼす。 高速分子アッセイの進歩と高品質なマルチオミクス測定のコストの低減は、機械学習を通じた洞察を刺激している。 これまでの研究では、複数のomic layerを使用して生存予測とがん患者の階層化を約束している。 本稿では,先行研究により改良されたサバイバルベースマルチオミック統合のための教師付きオートエンコーダ(sae)モデルを開発し,特徴選択を用いて入力特徴を合成し,サバイバル予測を行うコンクリート教師付きオートエンコーダモデル(csae)を報告する。 我々の実験によると、我々のモデルはより優れた生存分離(SAE)を提供するか、より解釈可能な(CSAE)かのどちらかで、最もよく使われているベースラインのいくつかに匹敵するか同等である。 また、モデル上で特徴選択安定性解析を行い、生存に共通する特徴とパワーローの関係があることに気付きました。 このプロジェクトのコードは、https://github.com/phcavelar/coxaeで入手できる。

Cancer is a complex disease with significant social and economic impact. Advancements in high-throughput molecular assays and the reduced cost for performing high-quality multi-omics measurements have fuelled insights through machine learning . Previous studies have shown promise on using multiple omic layers to predict survival and stratify cancer patients. In this paper, we developed a Supervised Autoencoder (SAE) model for survival-based multi-omic integration which improves upon previous work, and report a Concrete Supervised Autoencoder model (CSAE), which uses feature selection to jointly reconstruct the input features as well as predict survival. Our experiments show that our models outperform or are on par with some of the most commonly used baselines, while either providing a better survival separation (SAE) or being more interpretable (CSAE). We also perform a feature selection stability analysis on our models and notice that there is a power-law relationship with features which are commonly associated with survival. The code for this project is available at: https://github.com/phcavelar/coxae
翻訳日:2022-06-23 15:30:42 公開日:2022-06-21
# 時空間グラフ畳み込みネットワークを用いたチームパフォーマンス予測

Predicting Team Performance with Spatial Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2206.10720v1 )

ライセンス: Link先を確認
Shengnan Hu, Gita Sukthankar(参考訳) 本稿では,エージェント群の行動トレースからチームパフォーマンスを予測する新しい手法を提案する。 この時空間予測問題は、コーチングや相手モデリングといったスポーツ分析の課題に非常に関係している。 提案するモデルである空間的時間グラフ畳み込みネットワーク(st-gcn)は,プレイヤーの動きとゲーム特徴の短いセグメントからゲームスコアを予測する他の分類手法よりも優れていることを示す。 提案するアーキテクチャは、グラフ畳み込みネットワークを用いて、チームメンバーとゲートリカレントユニット間の空間的関係をキャプチャし、動的動作情報を分析する。 アーキテクチャのさまざまな側面のコントリビューションを示すために,アブレーション評価を実施した。

This paper presents a new approach for predicting team performance from the behavioral traces of a set of agents. This spatiotemporal forecasting problem is very relevant to sports analytics challenges such as coaching and opponent modeling. We demonstrate that our proposed model, Spatial Temporal Graph Convolutional Networks (ST-GCN), outperforms other classification techniques at predicting game score from a short segment of player movement and game features. Our proposed architecture uses a graph convolutional network to capture the spatial relationships between team members and Gated Recurrent Units to analyze dynamic motion information. An ablative evaluation was performed to demonstrate the contributions of different aspects of our architecture.
翻訳日:2022-06-23 15:30:23 公開日:2022-06-21
# 反復チャートリファインメント(ICR)によるスパースカーネルガウス過程

Sparse Kernel Gaussian Processes through Iterative Charted Refinement (ICR) ( http://arxiv.org/abs/2206.10634v1 )

ライセンス: Link先を確認
Gordian Edenhofer and Reimar H. Leike and Philipp Frank and Torsten A. En{\ss}lin(参考訳) ガウス過程(英: Gaussian Processs, GP)は、確率モデルである。 主な制限は計算の複雑さである。 正確には、GP推論は$\mathcal{O}(N^3)$計算を必要とし、$N$はモデル化された点の数を表す。 この制限を克服するための現在のアプローチは、それぞれデータやカーネルのスパース、構造化、あるいは確率的な表現に依存しており、GPを評価するためにネスト最適化を伴っている。 ネスト最適化なしで崩壊するカーネルの時間を$\mathcal{O}(N)$で、ほぼ任意の空間の点上でGPをモデル化するための、ICR(Iterative Charted Refinement)と呼ばれる新しい生成法を提案する。 icrは、様々な解像度でモデル化された位置のビューとユーザが提供する座標チャートを組み合わせることで、長距離および短距離相関を表す。 2桁以上の間隔の異なる点を用いた実験では、icrの精度は最先端gp法に匹敵する。 ICRは、CPUとGPUで計算速度の点で既存の手法よりも優れており、すでに122億ドルのパラメータを持つGPのモデル化に成功している。

Gaussian Processes (GPs) are highly expressive, probabilistic models. A major limitation is their computational complexity. Naively, exact GP inference requires $\mathcal{O}(N^3)$ computations with $N$ denoting the number of modeled points. Current approaches to overcome this limitation either rely on sparse, structured or stochastic representations of data or kernel respectively and usually involve nested optimizations to evaluate a GP. We present a new, generative method named Iterative Charted Refinement (ICR) to model GPs on nearly arbitrarily spaced points in $\mathcal{O}(N)$ time for decaying kernels without nested optimizations. ICR represents long- as well as short-range correlations by combining views of the modeled locations at varying resolutions with a user-provided coordinate chart. In our experiment with points whose spacings vary over two orders of magnitude, ICR's accuracy is comparable to state-of-the-art GP methods. ICR outperforms existing methods in terms of computational speed by one order of magnitude on the CPU and GPU and has already been successfully applied to model a GP with $122$ billion parameters.
翻訳日:2022-06-23 14:58:05 公開日:2022-06-21
# 最大ヘッセン固有値と一般化について

On the Maximum Hessian Eigenvalue and Generalization ( http://arxiv.org/abs/2206.10654v1 )

ライセンス: Link先を確認
Simran Kaur, Jeremy Cohen, Zachary C. Lipton(参考訳) 学習率の増加やバッチ正規化の適用など、特定の訓練介入が深層ネットワークの一般化を改善するメカニズムは謎のままである。 以前の研究では、"flatter" の解は、平らさを測定するためのいくつかの指標(特に損失のヘッセンの最大の固有値である$\lambda_{max}$)と、平坦さを直接最適化する sharpness-aware minimization (sam) [1] のようなアルゴリズムを動機付けて、目に見えないデータに対する "sharper" の解よりも一般化していると推測されている。 他の作品では$\lambda_{max}$ と一般化の関係に疑問がある。 本稿では, 一般化に対する$\lambda_{max}$の影響を更に疑問視する知見を提示する。 We show that: (1) while larger learning rates reduce $\lambda_{max}$ for all batch sizes, generalization benefits sometimes vanish at larger batch sizes; (2) by scaling batch size and learning rate simultaneously, we can change $\lambda_{max}$ without affecting generalization; (3) while SAM produces smaller $\lambda_{max}$ for all batch sizes, generalization benefits (also) vanish with larger batch sizes; (4) for dropout, excessively high dropout probabilities can degrade generalization, even as they promote smaller $\lambda_{max}$; and (5) while batch-normalization does not consistently produce smaller $\lambda_{max}$, it nevertheless confers generalization benefits. 実験では,大規模学習率とsamによるミニバッチsgdの一般化効果を肯定する一方で,gd-sgdの不一致は,ニューラルネットワークの一般化を説明するための$\lambda_{max}$の限界を示す。

The mechanisms by which certain training interventions, such as increasing learning rates and applying batch normalization, improve the generalization of deep networks remains a mystery. Prior works have speculated that "flatter" solutions generalize better than "sharper" solutions to unseen data, motivating several metrics for measuring flatness (particularly $\lambda_{max}$, the largest eigenvalue of the Hessian of the loss); and algorithms, such as Sharpness-Aware Minimization (SAM) [1], that directly optimize for flatness. Other works question the link between $\lambda_{max}$ and generalization. In this paper, we present findings that call $\lambda_{max}$'s influence on generalization further into question. We show that: (1) while larger learning rates reduce $\lambda_{max}$ for all batch sizes, generalization benefits sometimes vanish at larger batch sizes; (2) by scaling batch size and learning rate simultaneously, we can change $\lambda_{max}$ without affecting generalization; (3) while SAM produces smaller $\lambda_{max}$ for all batch sizes, generalization benefits (also) vanish with larger batch sizes; (4) for dropout, excessively high dropout probabilities can degrade generalization, even as they promote smaller $\lambda_{max}$; and (5) while batch-normalization does not consistently produce smaller $\lambda_{max}$, it nevertheless confers generalization benefits. While our experiments affirm the generalization benefits of large learning rates and SAM for minibatch SGD, the GD-SGD discrepancy demonstrates limits to $\lambda_{max}$'s ability to explain generalization in neural networks.
翻訳日:2022-06-23 14:57:44 公開日:2022-06-21
# レーン検出のためのマルチレベル領域適応

Multi-level Domain Adaptation for Lane Detection ( http://arxiv.org/abs/2206.10692v1 )

ライセンス: Link先を確認
Chenguang Li, Boheng Zhang, Jia Shi, Guangliang Cheng(参考訳) 我々は,自律運転における付加的なアノテーションと再学習コストを大幅に削減するために,車線検出における領域差の橋渡しに重点を置いている。 重要な要因は、従来の方法では、レーンの形状や位置を無視しながらピクセル単位の損失のみに着目したクロスドメインレーン検出の性能改善を妨げている。 この問題に対処するために,我々は,ピクセル,インスタンス,カテゴリの3つの補完的な意味レベルでクロスドメインレーン検出を扱うための新しい視点であるマルチレベルドメイン適応(mlda)フレームワークを提案する。 特に画素レベルでは,車線と背景の不均衡な信頼分布に対処するために,自己学習にクラス間信頼制約を適用することを提案する。 例えば、ピクセルを超えてセグメント化されたレーンをインスタンスとして扱い、三重項学習で対象領域の識別的特徴を促進することで、レーンの意味的コンテキストを効果的に再構築し、特徴混乱を軽減することに寄与する。 カテゴリレベルでは,適応時の車線前位置を利用する適応型ドメイン間埋め込みモジュールを提案する。 ie TuSimple と CULane の2つの挑戦的データセットでは,最先端ドメイン適応アルゴリズムと比較して,精度8.8%,F1スコア7.4%でレーン検出性能を大きく向上させる。

We focus on bridging domain discrepancy in lane detection among different scenarios to greatly reduce extra annotation and re-training costs for autonomous driving. Critical factors hinder the performance improvement of cross-domain lane detection that conventional methods only focus on pixel-wise loss while ignoring shape and position priors of lanes. To address the issue, we propose the Multi-level Domain Adaptation (MLDA) framework, a new perspective to handle cross-domain lane detection at three complementary semantic levels of pixel, instance and category. Specifically, at pixel level, we propose to apply cross-class confidence constraints in self-training to tackle the imbalanced confidence distribution of lane and background. At instance level, we go beyond pixels to treat segmented lanes as instances and facilitate discriminative features in target domain with triplet learning, which effectively rebuilds the semantic context of lanes and contributes to alleviating the feature confusion. At category level, we propose an adaptive inter-domain embedding module to utilize the position prior of lanes during adaptation. In two challenging datasets, ie TuSimple and CULane, our approach improves lane detection performance by a large margin with gains of 8.8% on accuracy and 7.4% on F1-score respectively, compared with state-of-the-art domain adaptation algorithms.
翻訳日:2022-06-23 14:54:30 公開日:2022-06-21
# 大渦シミュレーションにおける乱流モデリングのための深部強化学習

Deep Reinforcement Learning for Turbulence Modeling in Large Eddy Simulations ( http://arxiv.org/abs/2206.11038v1 )

ライセンス: Link先を確認
Marius Kurz, Philipp Offenh\"auser, Andrea Beck(参考訳) 過去数年間、教師あり学習(SL)は、データ駆動乱流モデリングの最先端技術として確立されてきた。 SLパラダイムでは、各フィルタ関数を適用し、解法と未解決フロースケールを分離することにより、一般に高忠実度解から事前計算されるデータセットに基づいてモデルを訓練する。 暗黙的にフィルタされた大渦シミュレーション(les)では、このアプローチは実現不可能である。 その結果、正確なフィルタ形式は一般には知られていないため、完全な解が得られても対応する閉包項は計算できない。 強化学習(rl)パラダイムは、事前に取得したトレーニングデータセットではなく、動的les環境自体と直接対話することで、この矛盾を回避するために使用することができる。 これにより、潜在的に複雑な暗黙のlesフィルタを設計によってトレーニングプロセスに組み込むことができる。 本研究では, 強制等方性乱流の暗黙的にフィルタされた大規模渦シミュレーションに対して, 最適な渦粘性を求めるために強化学習フレームワークを適用した。 そこで我々は, 局所フロー状態のみに基づいて, LESの渦粘度を動的に適用する畳み込みニューラルネットワークに基づくポリシーネットワークを用いて, RLタスクとして乱流モデリングのタスクを定式化する。 訓練されたモデルが長期安定シミュレーションを提供し、精度で確立された解析モデルより優れていることを示す。 さらに、モデルは他の解像度や離散化によく当てはまる。 したがって、特に暗黙のフィルタ付きlesに対して、rlは一貫性、正確、安定な乱流モデリングのためのフレームワークを提供できることを実証する。

Over the last years, supervised learning (SL) has established itself as the state-of-the-art for data-driven turbulence modeling. In the SL paradigm, models are trained based on a dataset, which is typically computed a priori from a high-fidelity solution by applying the respective filter function, which separates the resolved and the unresolved flow scales. For implicitly filtered large eddy simulation (LES), this approach is infeasible, since here, the employed discretization itself acts as an implicit filter function. As a consequence, the exact filter form is generally not known and thus, the corresponding closure terms cannot be computed even if the full solution is available. The reinforcement learning (RL) paradigm can be used to avoid this inconsistency by training not on a previously obtained training dataset, but instead by interacting directly with the dynamical LES environment itself. This allows to incorporate the potentially complex implicit LES filter into the training process by design. In this work, we apply a reinforcement learning framework to find an optimal eddy-viscosity for implicitly filtered large eddy simulations of forced homogeneous isotropic turbulence. For this, we formulate the task of turbulence modeling as an RL task with a policy network based on convolutional neural networks that adapts the eddy-viscosity in LES dynamically in space and time based on the local flow state only. We demonstrate that the trained models can provide long-term stable simulations and that they outperform established analytical models in terms of accuracy. In addition, the models generalize well to other resolutions and discretizations. We thus demonstrate that RL can provide a framework for consistent, accurate and stable turbulence modeling especially for implicitly filtered LES.
翻訳日:2022-06-23 14:47:50 公開日:2022-06-21
# 深い行列分解のための一貫した柔軟なフレームワーク

A consistent and flexible framework for deep matrix factorizations ( http://arxiv.org/abs/2206.10693v1 )

ライセンス: Link先を確認
Pierre De Handschutter, Nicolas Gillis(参考訳) deep matrix factorizations (deep mfs) は制約付き低ランク近似に触発された最近の教師なしデータマイニング技術である。 彼らは高次元データセット内の機能の複雑な階層を抽出することを目指している。 ディープmfモデルと基盤となる最適化フレームワークの品質を評価するために文献で提案されている損失関数のほとんどは、異なる層で異なる損失が使用されるため一貫性がない。 本稿では,深度MFに対する2つの意味損失関数を導入し,対応する最適化問題を解くための汎用フレームワークを提案する。 本稿では,分散性,非負性,最小体積といった様々な制約と正規化を統合することにより,この手法の有効性を示す。 これらのモデルは、合成データと実データの両方、すなわちハイパースペクトルアンミックスと顔の特徴抽出にうまく適用されている。

Deep matrix factorizations (deep MFs) are recent unsupervised data mining techniques inspired by constrained low-rank approximations. They aim to extract complex hierarchies of features within high-dimensional datasets. Most of the loss functions proposed in the literature to evaluate the quality of deep MF models and the underlying optimization frameworks are not consistent because different losses are used at different layers. In this paper, we introduce two meaningful loss functions for deep MF and present a generic framework to solve the corresponding optimization problems. We illustrate the effectiveness of this approach through the integration of various constraints and regularizations, such as sparsity, nonnegativity and minimum-volume. The models are successfully applied on both synthetic and real data, namely for hyperspectral unmixing and extraction of facial features.
翻訳日:2022-06-23 14:44:08 公開日:2022-06-21
# 有限訓練タスクを用いたメタ強化学習 --密度推定アプローチ-

Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach ( http://arxiv.org/abs/2206.10716v1 )

ライセンス: Link先を確認
Zohar Rimon, Aviv Tamar, Gilad Adler(参考訳) meta reinforcement learning (meta rl) では、エージェントは一連のトレーニングタスクから、同じタスク分散から引き出された新しいタスクを素早く解く方法を学ぶ。 最適メタRLポリシー、すなわちベイズ最適行動は明確に定義されており、タスク分布に関して取られる期待における最適報酬を保証する。 本研究で検討する課題は, 最適動作を高い確率で保証するために必要な訓練タスク数である。 最近の研究は、トレーニングタスクから履歴に依存したポリシーが学習されたモデルフリー設定のための最初のPAC分析を提供した。 本研究では,タスク分布を直接学習し,密度推定手法を用いて,学習したタスク分布に関するポリシーを訓練するアプローチを提案する。 我々は、我々のアプローチがタスク分散の次元に依存する境界に繋がることを示す。 特に、タスク分布が低次元多様体にある設定において、我々は解析を拡張して次元の縮小技術を使用し、そのような構造を考慮し、状態とアクションの数に厳密に依存する以前の作業よりもかなり良い境界を得る。 提案手法の鍵となるのは,カーネル密度推定法による正規化である。 さらに、この正規化は、最先端のVariBADメタRLアルゴリズムを 'plugged in' する場合、実際に有用であることを示す。

In meta reinforcement learning (meta RL), an agent learns from a set of training tasks how to quickly solve a new task, drawn from the same task distribution. The optimal meta RL policy, a.k.a. the Bayes-optimal behavior, is well defined, and guarantees optimal reward in expectation, taken with respect to the task distribution. The question we explore in this work is how many training tasks are required to guarantee approximately optimal behavior with high probability. Recent work provided the first such PAC analysis for a model-free setting, where a history-dependent policy was learned from the training tasks. In this work, we propose a different approach: directly learn the task distribution, using density estimation techniques, and then train a policy on the learned task distribution. We show that our approach leads to bounds that depend on the dimension of the task distribution. In particular, in settings where the task distribution lies in a low-dimensional manifold, we extend our analysis to use dimensionality reduction techniques and account for such structure, obtaining significantly better bounds than previous work, which strictly depend on the number of states and actions. The key of our approach is the regularization implied by the kernel density estimation method. We further demonstrate that this regularization is useful in practice, when `plugged in' the state-of-the-art VariBAD meta RL algorithm.
翻訳日:2022-06-23 14:06:14 公開日:2022-06-21
# 非線形rlにおける報酬フリー探索の統計的効率について

On the Statistical Efficiency of Reward-Free Exploration in Non-Linear RL ( http://arxiv.org/abs/2206.10770v1 )

ライセンス: Link先を確認
Jinglin Chen, Aditya Modi, Akshay Krishnamurthy, Nan Jiang, Alekh Agarwal(参考訳) 一般非線形関数近似による報酬不要強化学習 (RL) について検討し, 各種の標準構造仮定に基づくサンプル効率と硬度の評価を行った。 正の面では,前述した線形mdp(jin et al., 2020b),線形完全性(zanette et al., 2020b),未知表現の低ランクmdps(modi et al., 2021)を対象とする,最小構造仮定下でのサンプル効率な報酬なし探索のためのrfolive(reward-free olive)アルゴリズムを提案する。 分析の結果, 探索可能性や到達可能性の仮定は, 従来の2つの設定では, 報酬のない探索には統計的に必要ではないことがわかった。 負の面では, 線形完全性仮定の下では, 低ランクと線形完全性設定の指数関数的分離を示す線形完全性仮定の下で, 無報酬と無報酬の両方を探索する統計的難易度結果を提供する。

We study reward-free reinforcement learning (RL) under general non-linear function approximation, and establish sample efficiency and hardness results under various standard structural assumptions. On the positive side, we propose the RFOLIVE (Reward-Free OLIVE) algorithm for sample-efficient reward-free exploration under minimal structural assumptions, which covers the previously studied settings of linear MDPs (Jin et al., 2020b), linear completeness (Zanette et al., 2020b) and low-rank MDPs with unknown representation (Modi et al., 2021). Our analyses indicate that the explorability or reachability assumptions, previously made for the latter two settings, are not necessary statistically for reward-free exploration. On the negative side, we provide a statistical hardness result for both reward-free and reward-aware exploration under linear completeness assumptions when the underlying features are unknown, showing an exponential separation between low-rank and linear completeness settings.
翻訳日:2022-06-23 13:35:56 公開日:2022-06-21
# (参考訳) グラフ上のノードアウトレイラ検出のベンチマーク

Benchmarking Node Outlier Detection on Graphs ( http://arxiv.org/abs/2206.10071v1 )

ライセンス: CC BY 4.0
Kay Liu, Yingtong Dou, Yue Zhao, Xueying Ding, Xiyang Hu, Ruitong Zhang, Kaize Ding, Canyu Chen, Hao Peng, Kai Shu, Lichao Sun, Jundong Li, George H. Chen, Zhihao Jia, Philip S. Yu(参考訳) グラフの異常検出は、多くのアプリケーションを持つ、新興だが重要な機械学習タスクである。 近年のアルゴリズムの普及にもかかわらず、性能評価のための標準的で統一的な設定の欠如は、実世界のアプリケーションにおけるその進歩と使用を制限している。 To tap the gap, we present, (to our best knowledge) the first comprehensive unsupervised node outlier detection benchmark for graphs called UNOD, with the following highlights: (1) evaluating fourteen methods with backbone spanning from classical matrix factorization to the latest graph neural networks; (2) benchmarking the method performance with different types of injected outliers and organic outliers on real-world datasets; (3) comparing the efficiency and scalability of the algorithms by runtime and GPU memory usage on synthetic graphs at different scales. 大規模な実験結果の分析に基づいて、現在のUNOD法の長所と短所を論じ、複数の重要かつ将来的な研究方向性を指摘する。

Graph outlier detection is an emerging but crucial machine learning task with numerous applications. Despite the proliferation of algorithms developed in recent years, the lack of a standard and unified setting for performance evaluation limits their advancement and usage in real-world applications. To tap the gap, we present, (to our best knowledge) the first comprehensive unsupervised node outlier detection benchmark for graphs called UNOD, with the following highlights: (1) evaluating fourteen methods with backbone spanning from classical matrix factorization to the latest graph neural networks; (2) benchmarking the method performance with different types of injected outliers and organic outliers on real-world datasets; (3) comparing the efficiency and scalability of the algorithms by runtime and GPU memory usage on synthetic graphs at different scales. Based on the analyses of extensive experimental results, we discuss the pros and cons of current UNOD methods, and point out multiple crucial and promising future research directions.
翻訳日:2022-06-23 06:48:43 公開日:2022-06-21
# (参考訳) 量子力学モデルと機械学習ポテンシャルの橋渡しとしてのDeePKS+ABACUS

DeePKS+ABACUS as a Bridge between Expensive Quantum Mechanical Models and Machine Learning Potentials ( http://arxiv.org/abs/2206.10093v1 )

ライセンス: CC BY 4.0
Wenfei Li, Qi Ou, Yixiao Chen, Yu Cao, Renxi Liu, Chunyi Zhang, Daye Zheng, Chun Cai, Xifan Wu, Han Wang, Mohan Chen, Linfeng Zhang(参考訳) 近年,機械学習(ML)ポテンシャルの開発により,量子力学(QM)モデルの精度で大規模かつ長時間の分子シミュレーションが可能となった。 しかし、メタGAレベルにおける密度汎関数理論(DFT)や正確な交換、量子モンテカルロなどのような高レベルのQM手法では、MLポテンシャルを訓練するための十分な量のデータを生成することは、高いコストで計算的に困難である。 本研究では,ML ベースの DFT モデルである Deep Kohn-Sham (DeePKS) でこの問題を緩和できることを実証する。 DeePKSは計算効率のよいニューラルネットワークベースの機能モデルを用いて、安価なDFTモデルに付加された補正項を構築する。 トレーニング時にDeePKSは、高レベルのQM法と比較して密に整合したエネルギーと力を提供するが、必要なトレーニングデータ数は、信頼できるMLポテンシャルのトレーニングに必要なものよりも桁違いに少ない。 従って、DeePKSは高価なQMモデルとMLポテンシャルの間のブリッジとして機能する: DeePKSモデルをトレーニングするために十分な量の高精度なQMデータを生成し、DeePKSモデルを使用して、はるかに多くの構成をラベル付けしてMLポテンシャルをトレーニングすることができる。 この周期的システムのためのスキームは、オープンソースであり、様々なアプリケーションで使用可能なdftパッケージabacusに実装されている。

Recently, the development of machine learning (ML) potentials has made it possible to perform large-scale and long-time molecular simulations with the accuracy of quantum mechanical (QM) models. However, for high-level QM methods, such as density functional theory (DFT) at the meta-GGA level and/or with exact exchange, quantum Monte Carlo, etc., generating a sufficient amount of data for training a ML potential has remained computationally challenging due to their high cost. In this work, we demonstrate that this issue can be largely alleviated with Deep Kohn-Sham (DeePKS), a ML-based DFT model. DeePKS employs a computationally efficient neural network-based functional model to construct a correction term added upon a cheap DFT model. Upon training, DeePKS offers closely-matched energies and forces compared with high-level QM method, but the number of training data required is orders of magnitude less than that required for training a reliable ML potential. As such, DeePKS can serve as a bridge between expensive QM models and ML potentials: one can generate a decent amount of high-accuracy QM data to train a DeePKS model, and then use the DeePKS model to label a much larger amount of configurations to train a ML potential. This scheme for periodic systems is implemented in a DFT package ABACUS, which is open-source and ready for use in various applications.
翻訳日:2022-06-23 06:24:19 公開日:2022-06-21
# (参考訳) 電子商取引用自動制御可能な製品コピーライト

Automatic Controllable Product Copywriting for E-Commerce ( http://arxiv.org/abs/2206.10103v1 )

ライセンス: CC BY 4.0
Xiaojie Guo, Qingkai Zeng, Meng Jiang, Yun Xiao, Bo Long, Lingfei Wu(参考訳) 電子商取引の自動製品記述生成は、過去10年間に大きく進歩した。 製品のコピーライトは、製品の特徴をテキスト記述で強調することで、ユーザの興味を引き付け、ユーザエクスペリエンスを向上させることを目的としている。 電子商取引プラットフォームが提供するサービスが多様化するにつれて、自動生成記述のパターンを動的に適応させる必要がある。 本稿では,E-Commerce Prefix-based Controllable Copywriting Generation (EPCCG)システムをJD.comのeコマース製品レコメンデーションプラットフォームに導入した経験を報告する。 システムの開発には2つの主要コンポーネントが含まれる。 1) 複写アスペクト抽出 2) 弱監督されたアスペクトラベリング 3) 接頭辞に基づく言語モデルによるテキスト生成 4) 複写品質管理。 提案するECCCGの有効性を検証する実験を行った。 さらに、EPCCGと協調してリアルタイムのJD.com電子商取引レコメンデーションプラットフォームにデプロイアーキテクチャを導入し、デプロイ以来の大きな成果をあげた。

Automatic product description generation for e-commerce has witnessed significant advancement in the past decade. Product copywriting aims to attract users' interest and improve user experience by highlighting product characteristics with textual descriptions. As the services provided by e-commerce platforms become diverse, it is necessary to adapt the patterns of automatically-generated descriptions dynamically. In this paper, we report our experience in deploying an E-commerce Prefix-based Controllable Copywriting Generation (EPCCG) system into the JD.com e-commerce product recommendation platform. The development of the system contains two main components: 1) copywriting aspect extraction; 2) weakly supervised aspect labeling; 3) text generation with a prefix-based language model; 4) copywriting quality control. We conduct experiments to validate the effectiveness of the proposed EPCCG. In addition, we introduce the deployed architecture which cooperates with the EPCCG into the real-time JD.com e-commerce recommendation platform and the significant payoff since deployment.
翻訳日:2022-06-23 06:23:10 公開日:2022-06-21
# (参考訳) バウンディングボックスの摂動に対する平均精度の感度

Sensitivity of Average Precision to Bounding Box Perturbations ( http://arxiv.org/abs/2206.10107v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) オブジェクト検出は基本的なビジョンタスクです。 学術研究が盛んであり、産業界でも広く採用されている。 平均精度(Average Precision, AAP)は、物体検出器を評価するための標準スコアである。 しかし、このスコアの微妙さに対する我々の理解は限られている。 ここでは,束縛箱の摂動に対するAPの感度を定量化し,APが小さい翻訳に非常に敏感であることを示す。 1ピクセルのシフトだけでモデルのmAPを8.4%下げることができる。 ピクセルシフトが1つしかない小さな物体の地図は23.1%である。 グラウンドトラス(GT)ボックスを予測として使用する際の対応する数字は、それぞれ23%と41.7%である。 これらの結果は、モデルが良くなるにつれて、より高いmAPを達成することがますます困難になる理由を説明する。 また, ボックススケーリングがAPに与える影響についても検討した。 コードとデータはhttps://github.com/aliborji/ap_box_perturbationで入手できる。

Object detection is a fundamental vision task. It has been highly researched in academia and has been widely adopted in industry. Average Precision (AP) is the standard score for evaluating object detectors. Our understanding of the subtleties of this score, however, is limited. Here, we quantify the sensitivity of AP to bounding box perturbations and show that AP is very sensitive to small translations. Only one pixel shift is enough to drop the mAP of a model by 8.4%. The mAP drop over small objects with only one pixel shift is 23.1%. The corresponding numbers when ground-truth (GT) boxes are used as predictions are 23% and 41.7%, respectively. These results explain why achieving higher mAP becomes increasingly harder as models get better. We also investigate the effect of box scaling on AP. Code and data is available at https://github.com/aliborji/AP_Box_Perturbation.
翻訳日:2022-06-23 06:06:04 公開日:2022-06-21
# (参考訳) 概念ボトルネックに基づく映像分類のための自動概念抽出

Automatic Concept Extraction for Concept Bottleneck-based Video Classification ( http://arxiv.org/abs/2206.10129v1 )

ライセンス: CC BY 4.0
Jeya Vikranth Jeyakumar, Luke Dickens, Luis Garcia, Yu-Hsi Cheng, Diego Ramirez Echavarria, Joseph Noor, Alessandra Russo, Lance Kaplan, Erik Blasch, Mani Srivastava(参考訳) 解釈可能なディープラーニングモデルにおける最近の研究は、概念に基づく説明手法が標準のエンドツーエンドモデルと競合する精度を実現し、画像から抽出された高次視覚概念についての推論と介入を可能にすることを示した。 しかし、これらの概念ボトルネックモデルは、ビデオ分類のような複雑なタスクに難解な、必要かつ十分な事前定義された概念のセットに依存している。 複雑なタスクでは、ラベルと視覚要素間の関係は多くのフレームにまたがっている。 そこで,本稿では,概念に基づくビデオ分類に必要な概念抽象化セットを厳格に構成する,概念発見・抽出モジュールであるcodexを提案する。 codexは、ビデオの自然言語説明から複雑な概念抽象化の豊富なセットを特定し、アモルファスの概念セットを事前に定義する必要性を回避している。 提案手法の有効性を示すために,既存の複雑なビデオ分類データセットと,そのラベルに対するクラウドソース自然言語説明を組み合わせた2つの公開データセットを構築した。 本手法は自然言語に固有の複雑な概念抽象化を導出し,概念ボトルネック法を複雑なタスクに一般化する。

Recent efforts in interpretable deep learning models have shown that concept-based explanation methods achieve competitive accuracy with standard end-to-end models and enable reasoning and intervention about extracted high-level visual concepts from images, e.g., identifying the wing color and beak length for bird-species classification. However, these concept bottleneck models rely on a necessary and sufficient set of predefined concepts-which is intractable for complex tasks such as video classification. For complex tasks, the labels and the relationship between visual elements span many frames, e.g., identifying a bird flying or catching prey-necessitating concepts with various levels of abstraction. To this end, we present CoDEx, an automatic Concept Discovery and Extraction module that rigorously composes a necessary and sufficient set of concept abstractions for concept-based video classification. CoDEx identifies a rich set of complex concept abstractions from natural language explanations of videos-obviating the need to predefine the amorphous set of concepts. To demonstrate our method's viability, we construct two new public datasets that combine existing complex video classification datasets with short, crowd-sourced natural language explanations for their labels. Our method elicits inherent complex concept abstractions in natural language to generalize concept-bottleneck methods to complex tasks.
翻訳日:2022-06-23 06:02:57 公開日:2022-06-21
# (参考訳) 教師なしコントラスト表現学習のためのFew-Max:Few-Shot領域適応

Few-Max: Few-Shot Domain Adaptation for Unsupervised Contrastive Representation Learning ( http://arxiv.org/abs/2206.10137v1 )

ライセンス: CC0 1.0
Ali Lotfi Rezaabad, Sidharth Kumar, Sriram Vishwanath, and Jonathan I. Tamir(参考訳) 対照的な自己教師付き学習手法は、ラベルを必要とせず、画像などのデータポイントを非パラメトリック表現空間にマッピングすることを学ぶ。 高い成功を収める一方で、現在の方法はトレーニングフェーズで大量のデータを必要とする。 ターゲットトレーニングセットのサイズが制限されている場合、一般化は貧弱であることが知られている。 大規模なソースデータセットの事前トレーニングとターゲットサンプルの微調整は、少数のターゲットサンプルしか使用できない数ショット方式で過度に適合する傾向にある。 そこで本研究では,Few-Maxと呼ばれる自己教師型コントラスト学習のためのドメイン適応手法を提案する。 表現の質を定量化するために、Few-MaxはImageNet, VisDA, fastMRIを含む様々なソースおよびターゲットデータセットで評価し、Few-Maxは他のアプローチよりも一貫して優れている。

Contrastive self-supervised learning methods learn to map data points such as images into non-parametric representation space without requiring labels. While highly successful, current methods require a large amount of data in the training phase. In situations where the target training set is limited in size, generalization is known to be poor. Pretraining on a large source data set and fine-tuning on the target samples is prone to overfitting in the few-shot regime, where only a small number of target samples are available. Motivated by this, we propose a domain adaption method for self-supervised contrastive learning, termed Few-Max, to address the issue of adaptation to a target distribution under few-shot learning. To quantify the representation quality, we evaluate Few-Max on a range of source and target datasets, including ImageNet, VisDA, and fastMRI, on which Few-Max consistently outperforms other approaches.
翻訳日:2022-06-23 05:44:56 公開日:2022-06-21
# (参考訳) 天wen-1の画像から大量のダストストームを除去する深層学習

Deep Learning Eliminates Massive Dust Storms from Images of Tianwen-1 ( http://arxiv.org/abs/2206.10145v1 )

ライセンス: CC BY 4.0
Hongyu Li, Jia Li, Xin Ren, Long Xu(参考訳) ダストストームは火星探査機の撮像品質を著しく低下させ、地球地形と地形のマッピングの進行を遅らせる可能性がある。 この問題に対処するため,本稿では,火星の塵除去問題を解決するため,地球上で得られた画像デハビリテーション知識を再利用する手法を提案する。 このアプローチでは、tianwen-1が捉えたリモートセンシング画像を収集し、数百のクリーンでほこりっぽい画像を手動で選択する。 地球上のヘイズ形成過程にインスパイアされ、クリーンな画像に類似した視覚劣化過程を定式化し、リアルなダストライイメージと類似した特徴分布を共有するダストリーイメージを合成する。 これらのリアルなクリーンで合成的なダスト画像ペアは、本質的にダストの無関係な特徴をエンコードし、それらをダストのない画像にデコードする深いモデルを訓練するために使用されます。 定性的かつ定量的な結果は、提案されたアプローチによって塵嵐が効果的に除去され、火星の地形や地形が明らかに改善されることを示している。

Dust storms may remarkably degrade the imaging quality of Martian orbiters and delay the progress of mapping the global topography and geomorphology. To address this issue, this paper presents an approach that reuses the image dehazing knowledge obtained on Earth to resolve the dust-removal problem on Mars. In this approach, we collect remote-sensing images captured by Tianwen-1 and manually select hundreds of clean and dusty images. Inspired by the haze formation process on Earth, we formulate a similar visual degradation process on clean images and synthesize dusty images sharing a similar feature distribution with realistic dusty images. These realistic clean and synthetic dusty image pairs are used to train a deep model that inherently encodes dust irrelevant features and decodes them into dust-free images. Qualitative and quantitative results show that dust storms can be effectively eliminated by the proposed approach, leading to obviously improved topographical and geomorphological details of Mars.
翻訳日:2022-06-23 05:30:32 公開日:2022-06-21
# (参考訳) 注釈情報を用いたigc学習フレームワークに基づく画像変換に関するニューラルネットワークの検討

Review Neural Networks about Image Transformation Based on IGC Learning Framework with Annotated Information ( http://arxiv.org/abs/2206.10155v1 )

ライセンス: CC0 1.0
Yuanjie Yan, Suorong Yang, Yan Wang, Jian Zhao, Furao Shen(参考訳) 画像変換は、入力画像と出力画像の間のマッピングを学習することを目的としている視覚とグラフィックスの問題のクラスであり、ディープニューラルネットワークの文脈で急速に発展する。 コンピュータビジョン(CV)では、多くの問題が画像変換タスク(セマンティックセグメンテーションやスタイル転送など)とみなすことができる。 これらの作品は異なるトピックやモチベーションを持ち、画像変換タスクを繁栄させる。 いくつかの調査は、画像変換の一分野であるスタイル転送や画像から画像への変換の研究のみをレビューしている。 しかしながら、これらの調査はいずれも、最高の知識を統一したフレームワークでまとめられたものではない。 本稿では,独立学習,指導学習,協調学習を含む新しい学習フレームワークであるIGC学習フレームワークを提案する。 私たちが議論する画像変換は主に、ディープニューラルネットワークに関する一般的な画像から画像への変換とスタイル転送を含む。 このフレームワークの観点から、これらのサブタスクをレビューし、様々なシナリオを統一的に解釈する。 画像変換に関する関連するサブタスクを,同様の開発動向に従って分類する。 さらに, IGC学習の有効性を検証する実験も行われている。 最後に,今後の研究の方向性と課題について考察する。

Image transformation, a class of vision and graphics problems whose goal is to learn the mapping between an input image and an output image, develops rapidly in the context of deep neural networks. In Computer Vision (CV), many problems can be regarded as the image transformation task, e.g., semantic segmentation and style transfer. These works have different topics and motivations, making the image transformation task flourishing. Some surveys only review the research on style transfer or image-to-image translation, all of which are just a branch of image transformation. However, none of the surveys summarize those works together in a unified framework to our best knowledge. This paper proposes a novel learning framework including Independent learning, Guided learning, and Cooperative learning, called the IGC learning framework. The image transformation we discuss mainly involves the general image-to-image translation and style transfer about deep neural networks. From the perspective of this framework, we review those subtasks and give a unified interpretation of various scenarios. We categorize related subtasks about the image transformation according to similar development trends. Furthermore, experiments have been performed to verify the effectiveness of IGC learning. Finally, new research directions and open problems are discussed for future research.
翻訳日:2022-06-23 05:22:49 公開日:2022-06-21
# (参考訳) 多エージェントシステムにおける対人コミュニケーションに対するロバストな政策学習

Certifiably Robust Policy Learning against Adversarial Communication in Multi-agent Systems ( http://arxiv.org/abs/2206.10158v1 )

ライセンス: CC BY 4.0
Yanchao Sun, Ruijie Zheng, Parisa Hassanzadeh, Yongyuan Liang, Soheil Feizi, Sumitra Ganesh, Furong Huang(参考訳) 多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。 しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。 特に、悪意のある攻撃者によって通信メッセージが操作される場合、信頼できない通信に依存するエージェントは、破滅的な結果をもたらす危険な行動を起こす可能性がある。 したがって、良心的なコミュニケーションの恩恵を受けながら、エージェントが腐敗したコミュニケーションによって誤解されないようにすることが重要である。 本研究では,攻撃者が任意の$C<\frac{N-1}{2}$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を考える。 この強力な脅威モデルに対して,複数のメッセージ集合をランダムに集約するメッセージアンサンブルポリシーを構築することにより,認証可能な防御法を提案する。 理論的解析により、このメッセージアンサンブルポリシーは、攻撃アルゴリズムにかかわらず、敵対的通信に対して確実に堅牢でありながら、良性通信を活用できることが示されている。 複数の環境での実験は、我々の防衛が様々な種類の攻撃に対する訓練されたポリシーの堅牢性を大幅に改善することを検証する。

Communication is important in many multi-agent reinforcement learning (MARL) problems for agents to share information and make good decisions. However, when deploying trained communicative agents in a real-world application where noise and potential attackers exist, the safety of communication-based policies becomes a severe issue that is underexplored. Specifically, if communication messages are manipulated by malicious attackers, agents relying on untrustworthy communication may take unsafe actions that lead to catastrophic consequences. Therefore, it is crucial to ensure that agents will not be misled by corrupted communication, while still benefiting from benign communication. In this work, we consider an environment with $N$ agents, where the attacker may arbitrarily change the communication from any $C<\frac{N-1}{2}$ agents to a victim agent. For this strong threat model, we propose a certifiable defense by constructing a message-ensemble policy that aggregates multiple randomly ablated message sets. Theoretical analysis shows that this message-ensemble policy can utilize benign communication while being certifiably robust to adversarial communication, regardless of the attacking algorithm. Experiments in multiple environments verify that our defense significantly improves the robustness of trained policies against various types of attacks.
翻訳日:2022-06-23 04:45:15 公開日:2022-06-21
# (参考訳) グラフからシーケンスモデルによるパーキングロットの可利用性予測:SmartSantanderを用いたケーススタディ

Predicting Parking Lot Availability by Graph-to-Sequence Model: A Case Study with SmartSantander ( http://arxiv.org/abs/2206.10160v1 )

ライセンス: CC BY 4.0
Yuya Sasaki, Junya Takayama, Juan Ram\'on Santana, Shohei Yamasaki, Tomoya Okuno, Makoto Onizuka(参考訳) 現在では、サービスと都市部の居住性を改善するため、世界中で複数のスマートシティイニシアティブが実施されている。 SmartSantanderはスペインのサンタンデールにあるスマートシティプロジェクトで、ワイヤレスセンサーネットワーク技術を利用して市内に異質なセンサーを配置し、屋外駐車情報を含む複数のパラメータを測定する。 本稿では,SmartSantanderを用いた300以上の屋外駐車センサの履歴データを用いて,駐車場利用率の予測について検討する。 駐車場の周期的変動と地理的近接を捉えるためのグラフ・ツー・シーケンスモデルを設計する。 私たちのモデルの開発と評価には、サンタンデール市で3年間の駐車場利用状況のデータセットを使用します。 市内の駐車場情報サービスを提供するのに十分な精度の既存のシーケンス・ツー・シーケンス・モデルと比較して精度の高いモデルを実現する。 我々は、市民や観光客が広く利用するスマートフォンアプリケーションにモデルを応用する。

Nowadays, so as to improve services and urban areas livability, multiple smart city initiatives are being carried out throughout the world. SmartSantander is a smart city project in Santander, Spain, which has relied on wireless sensor network technologies to deploy heterogeneous sensors within the city to measure multiple parameters, including outdoor parking information. In this paper, we study the prediction of parking lot availability using historical data from more than 300 outdoor parking sensors with SmartSantander. We design a graph-to-sequence model to capture the periodical fluctuation and geographical proximity of parking lots. For developing and evaluating our model, we use a 3-year dataset of parking lot availability in the city of Santander. Our model achieves a high accuracy compared with existing sequence-to-sequence models, which is accurate enough to provide a parking information service in the city. We apply our model to a smartphone application to be widely used by citizens and tourists.
翻訳日:2022-06-23 04:05:53 公開日:2022-06-21
# (参考訳) 空間変動ガウスマルコフ確率場の効率的な推論と遺伝子制御ネットワークへの応用

Efficient Inference of Spatially-varying Gaussian Markov Random Fields with Applications in Gene Regulatory Networks ( http://arxiv.org/abs/2206.10174v1 )

ライセンス: CC BY 4.0
Visweswaran Ravikumar and Tong Xu and Wajd N. Al-Holou and Salar Fattahi and Arvind Rao(参考訳) 本稿では,遺伝子間のネットワーク関係を表現する,スパースな文脈特異的gmrfのネットワークを学習することを目的として,空間的に変動するガウス型マルコフ確率場(sv-gmrf)を推定する問題について検討する。 sv-gmrfsの重要な応用は、空間分解トランスクリプトミクスデータセットから遺伝子制御ネットワークを推論することである。 SV-GMRFの推定に関する現在の研究は、正規化最大推定(MLE)に基づいており、非常に非線形な性質のために計算コストが極端に高い。 この課題を解決するため,統計的および計算的保証の強いMLEの代わりに,単純かつ効率的な最適化問題を提案する。 2分未満で200万以上の変数を持つsv-gmrfsのインスタンスを解決できる。 本研究は,Glioblastomaの遺伝子制御ネットワークが組織内で空間的にリ配線されているかを研究するためのフレームワークを応用し,その転写因子HES4およびリボソームタンパク質の顕著な活性を,治療抵抗性幹細胞を培養する腫瘍周囲ニッチにおける遺伝子発現ネットワークの特徴として同定する。

In this paper, we study the problem of inferring spatially-varying Gaussian Markov random fields (SV-GMRF) where the goal is to learn a network of sparse, context-specific GMRFs representing network relationships between genes. An important application of SV-GMRFs is in inference of gene regulatory networks from spatially-resolved transcriptomics datasets. The current work on inference of SV-GMRFs are based on the regularized maximum likelihood estimation (MLE) and suffer from overwhelmingly high computational cost due to their highly nonlinear nature. To alleviate this challenge, we propose a simple and efficient optimization problem in lieu of MLE that comes equipped with strong statistical and computational guarantees. Our proposed optimization problem is extremely efficient in practice: we can solve instances of SV-GMRFs with more than 2 million variables in less than 2 minutes. We apply the developed framework to study how gene regulatory networks in Glioblastoma are spatially rewired within tissue, and identify prominent activity of the transcription factor HES4 and ribosomal proteins as characterizing the gene expression network in the tumor peri-vascular niche that is known to harbor treatment resistant stem cells.
翻訳日:2022-06-23 03:37:23 公開日:2022-06-21
# (参考訳) 再サンプリング粒子群最適化を用いた複数の衛星による観測スケジューリング

Large region targets observation scheduling by multiple satellites using resampling particle swarm optimization ( http://arxiv.org/abs/2206.10178v1 )

ライセンス: CC BY 4.0
Yi Gu, Chao Han, Yuhan Chen, Shenggang Liu, Xinwei Wang(参考訳) 過去数十年間、地球観測衛星(EOSs)が急速に増加し、EOSsスケジューリングの複雑さが増した。 本稿では,大域観測の広範な適用を考慮し,大域目標に対するEOS観測スケジューリング問題に対処することを目的とする。 まず, 投影基準面とポリゴンクリップ技術を用いた高速カバレッジ計算法を開発した。 次に,提案手法に基づいて目的関数を計算したスケジューリング問題に対する非線形整数計画モデルを定式化する。 モデルを解くために, greedy initialization-based resampling particle swarm optimization (gi-rpso) アルゴリズムを提案する。 グリーディ初期化戦略と粒子再サンプリング法は, 進化過程における効率的かつ効果的な解の生成に寄与する。 最後に,提案手法の有効性と信頼性について広範な実験を行った。 従来の粒子群最適化と広く使われているグリードアルゴリズムと比較して、提案したGI-RPSOはスケジューリング結果をそれぞれ5.42%と15.86%改善することができる。

The last decades have witnessed a rapid increase of Earth observation satellites (EOSs), leading to the increasing complexity of EOSs scheduling. On account of the widespread applications of large region observation, this paper aims to address the EOSs observation scheduling problem for large region targets. A rapid coverage calculation method employing a projection reference plane and a polygon clipping technique is first developed. We then formulate a nonlinear integer programming model for the scheduling problem, where the objective function is calculated based on the developed coverage calculation method. A greedy initialization-based resampling particle swarm optimization (GI-RPSO) algorithm is proposed to solve the model. The adopted greedy initialization strategy and particle resampling method contribute to generating efficient and effective solutions during the evolution process. In the end, extensive experiments are conducted to illustrate the effectiveness and reliability of the proposed method. Compared to the traditional particle swarm optimization and the widely used greedy algorithm, the proposed GI-RPSO can improve the scheduling result by 5.42% and 15.86%, respectively.
翻訳日:2022-06-23 03:35:17 公開日:2022-06-21
# (参考訳) 連邦強化学習:マルコフサンプリングによる線形高速化

Federated Reinforcement Learning: Linear Speedup Under Markovian Sampling ( http://arxiv.org/abs/2206.10185v1 )

ライセンス: CC BY 4.0
Sajad Khodadadian, Pranay Sharma, Gauri Joshi, Siva Theja Maguluri(参考訳) 強化学習アルゴリズムはデータ集約性が高いことで知られているため、環境からの観測をサンプリングする作業は通常複数のエージェントに分割される。 しかし、これらの観察をエージェントから中央の場所に移すことは、通信コストの面では極めて高価であり、また、各エージェントのローカル行動ポリシーのプライバシーを侵害する可能性がある。 本稿では,複数のエージェントが個別のデータや方針を共有することなく,協調的にグローバルモデルを学ぶ,連合強化学習フレームワークについて考察する。 各エージェントはモデルのローカルコピーを保持し、ローカルサンプルデータを使用して更新する。 N 個のエージェントを持つことで N 個のデータをサンプリングすることができるが、比例収束速度が向上するかどうかは明らかではない。 我々は,オンポリシーtd,オフポリシーtd,qラーニングの連帯型を提案し,それらの収束を分析する。 これらすべてのアルゴリズムについて、私たちの知る限りでは、我々はマルコフノイズと複数の局所更新を最初に検討し、エージェントの数に関して線形収束速度を証明します。 これらの結果を得るため,マルコフ雑音を伴う連立確率近似の一般的な枠組みであるフェデレートtdとq-learningは特別な場合であり,この枠組みを利用してすべてのアルゴリズムに適用可能な統一収束解析を提供する。

Since reinforcement learning algorithms are notoriously data-intensive, the task of sampling observations from the environment is usually split across multiple agents. However, transferring these observations from the agents to a central location can be prohibitively expensive in terms of the communication cost, and it can also compromise the privacy of each agent's local behavior policy. In this paper, we consider a federated reinforcement learning framework where multiple agents collaboratively learn a global model, without sharing their individual data and policies. Each agent maintains a local copy of the model and updates it using locally sampled data. Although having N agents enables the sampling of N times more data, it is not clear if it leads to proportional convergence speedup. We propose federated versions of on-policy TD, off-policy TD and Q-learning, and analyze their convergence. For all these algorithms, to the best of our knowledge, we are the first to consider Markovian noise and multiple local updates, and prove a linear convergence speedup with respect to the number of agents. To obtain these results, we show that federated TD and Q-learning are special cases of a general framework for federated stochastic approximation with Markovian noise, and we leverage this framework to provide a unified convergence analysis that applies to all the algorithms.
翻訳日:2022-06-23 03:34:21 公開日:2022-06-21
# (参考訳) 半教師付き物体検出のための局所化の改善

Improving Localization for Semi-Supervised Object Detection ( http://arxiv.org/abs/2206.10186v1 )

ライセンス: CC BY-SA 4.0
Leonardo Rossi, Akbar Karimi, Andrea Prati(参考訳) 現在、Semi-Supervised Object Detection (SSOD)はホットなトピックである。なぜなら、新しいデータセットを作成するためのイメージの収集は比較的容易であるが、ラベル付けは高価で時間を要する作業である。 半教師学習(SSL)環境における生画像の活用に成功している手法の1つは,教師による擬似ラベリングと,教師から教師への知識伝達を同時に行う平均教師技法である。 しかし,信頼値は予測の不確実性に厳密に関係せず,予測を安全にフィルタすることはできないため,しきい値による擬似ラベルは最適ではない。 本稿では,予測境界ボックスのフィルタリングを改善し,より高品質な学生教育を実現するために,ボックスローカライゼーションのための追加の分類タスクを提案する。 さらに,教師なし部分のバウンディングボックス回帰が,カテゴリー分類と同様にトレーニングに等しく寄与できることを実証的に証明する。 我々のIL-net(Improving Localization net)は,COCOデータセット上でのSSOD性能を1.14%向上することを示した。 コードはhttps://github.com/IMPLabUniPr/unbiased-teacher/tree/ilnetで入手できる。

Nowadays, Semi-Supervised Object Detection (SSOD) is a hot topic, since, while it is rather easy to collect images for creating a new dataset, labeling them is still an expensive and time-consuming task. One of the successful methods to take advantage of raw images on a Semi-Supervised Learning (SSL) setting is the Mean Teacher technique, where the operations of pseudo-labeling by the Teacher and the Knowledge Transfer from the Student to the Teacher take place simultaneously. However, the pseudo-labeling by thresholding is not the best solution since the confidence value is not strictly related to the prediction uncertainty, not permitting to safely filter predictions. In this paper, we introduce an additional classification task for bounding box localization to improve the filtering of the predicted bounding boxes and obtain higher quality on Student training. Furthermore, we empirically prove that bounding box regression on the unsupervised part can equally contribute to the training as much as category classification. Our experiments show that our IL-net (Improving Localization net) increases SSOD performance by 1.14% AP on COCO dataset in limited-annotation regime. The code is available at https://github.com/IMPLabUniPr/unbiased-teacher/tree/ilnet
翻訳日:2022-06-23 03:32:46 公開日:2022-06-21
# (参考訳) LDD: Grape Diseases Object Detection and Instance Segmentationのためのデータセット

LDD: A Dataset for Grape Diseases Object Detection and Instance Segmentation ( http://arxiv.org/abs/2206.10192v1 )

ライセンス: CC BY-SA 4.0
Leonardo Rossi, Marco Valenti, Sara Elisabetta Legler, Andrea Prati(参考訳) 既知のオブジェクト検出タスクの拡張であるインスタンスセグメンテーションタスクは、精密農業など、多くの領域で非常に役に立ちます: 植物器官とそれに関連する可能性のある疾患を自動的に識別することができ、作物の監視と病気管理を効果的にスケールし、自動化できます。 ブドウの早期検出と診断に関わる問題に対処するため,インスタンスセグメンテーションアプローチによる疾患認識の最先端化を目標として,新たなデータセットが作成されている。 これは、自然の状況で病気の影響を受ける葉やブドウの群れの画像を収集することで達成された。 このデータセットには、より一般的な8つのブドウ病の症状のない葉やブドウを含む10種類のオブジェクトの写真が含まれており、1,092枚の画像に合計17,706個のラベルが付けられている。 データセットの特性に関する完全なビューを提供するために、複数の統計指標が提案されている。 モデルであるMask R-CNNとR^3-CNNのオブジェクト検出およびインスタンス分割タスクの予備的な結果がベースラインとして提供され、自動疾患の症状認識の目的に関する有望な結果が得られることを示す。

The Instance Segmentation task, an extension of the well-known Object Detection task, is of great help in many areas, such as precision agriculture: being able to automatically identify plant organs and the possible diseases associated with them, allows to effectively scale and automate crop monitoring and its diseases control. To address the problem related to early disease detection and diagnosis on vines plants, a new dataset has been created with the goal of advancing the state-of-the-art of diseases recognition via instance segmentation approaches. This was achieved by gathering images of leaves and clusters of grapes affected by diseases in their natural context. The dataset contains photos of 10 object types which include leaves and grapes with and without symptoms of the eight more common grape diseases, with a total of 17,706 labeled instances in 1,092 images. Multiple statistical measures are proposed in order to offer a complete view on the characteristics of the dataset. Preliminary results for the object detection and instance segmentation tasks reached by the models Mask R-CNN and R^3-CNN are provided as baseline, demonstrating that the procedure is able to reach promising results about the objective of automatic diseases' symptoms recognition.
翻訳日:2022-06-23 03:23:32 公開日:2022-06-21
# (参考訳) semmae: 自動エンコーダ学習のための意味的誘導マスク

SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders ( http://arxiv.org/abs/2206.10207v1 )

ライセンス: CC BY 4.0
Gang Li, Heliang Zheng, Daqing Liu, Bing Su, Changwen Zheng(参考訳) 近年,マスク付き画像モデリングにおいて,マスク付き言語モデリングに追いつくために大きな進歩を遂げている。 しかし、nlpの単語とは異なり、画像の意味分解の欠如は、視覚と言語の間でマスクの自動エンコーディング(mae)が異なる。 本稿では,意味的部分という単語の潜在的な視覚的類似を探索し,セマンティック・ガイドによるマスキング戦略を提案することにより,意味情報をMAEのトレーニングプロセスに統合する。 広く採用されているランダムマスキングと比較して,マスキング戦略は徐々にネットワークを誘導し,部内パターンから部内関係まで様々な情報を学ぶことができる。 特に、これを2つのステップで達成します。 1) 意味的部分学習: ViT ベースのエンコーダの多面的注意を生かして意味的部分を得る自己指導的部分学習法を設計する。 2)Semantic-Guided MAE (SemMAE) トレーニングでは,各部分のパッチ部分のマスキングから,画像中の(全体)部分のマスキングまで,さまざまなマスキング戦略を設計する。 様々な視覚課題に関する広範囲な実験により、セムマエは意味情報を統合することでより良い画像表現を学べることを示した。 特に、SemMAEはImageNet-1kで84.5%の微調整精度を達成し、バニラMAEを1.4%上回っている。 セマンティックセグメンテーションときめ細かい認識タスクでは、SemMAEは大幅に改善され、最先端のパフォーマンスをもたらす。

Recently, significant progress has been made in masked image modeling to catch up to masked language modeling. However, unlike words in NLP, the lack of semantic decomposition of images still makes masked autoencoding (MAE) different between vision and language. In this paper, we explore a potential visual analogue of words, i.e., semantic parts, and we integrate semantic information into the training process of MAE by proposing a Semantic-Guided Masking strategy. Compared to widely adopted random masking, our masking strategy can gradually guide the network to learn various information, i.e., from intra-part patterns to inter-part relations. In particular, we achieve this in two steps. 1) Semantic part learning: we design a self-supervised part learning method to obtain semantic parts by leveraging and refining the multi-head attention of a ViT-based encoder. 2) Semantic-guided MAE (SemMAE) training: we design a masking strategy that varies from masking a portion of patches in each part to masking a portion of (whole) parts in an image. Extensive experiments on various vision tasks show that SemMAE can learn better image representation by integrating semantic information. In particular, SemMAE achieves 84.5% fine-tuning accuracy on ImageNet-1k, which outperforms the vanilla MAE by 1.4%. In the semantic segmentation and fine-grained recognition tasks, SemMAE also brings significant improvements and yields the state-of-the-art performance.
翻訳日:2022-06-23 03:15:15 公開日:2022-06-21
# (参考訳) 自動テスト生成への機械学習の統合: 体系的文献レビュー

The Integration of Machine Learning into Automated Test Generation: A Systematic Literature Review ( http://arxiv.org/abs/2206.10210v1 )

ライセンス: CC BY 4.0
Afonso Fontes and Gregory Gay(参考訳) 背景: 機械学習(ML)は効果的な自動テスト生成を可能にする。 Aims: 私たちは、新しい研究、テストプラクティス、研究者の目標、適用されたMLテクニック、評価、課題を特徴づけています。 方法: 97冊の出版物について体系的な文献レビューを行う。 結果:MLはシステム,GUI,ユニット,パフォーマンス,組合せテストの入力を生成したり,既存の生成メソッドのパフォーマンスを向上する。 MLはまた、テストの検証、プロパティベース、期待される出力オラクルを生成するためにも使用される。 監視された学習(ニューラルネットワークと強化学習をベースとすることが多い)は一般的であり、一部の出版物では教師なしあるいは半教師なしの学習も採用されている。 (Semi-/Un-) 従来のテストメトリクスとML関連のメトリクス(例えば精度)の両方を用いて改善されたアプローチを評価する一方、強化学習は報酬関数に関連するテストメトリクスを用いてしばしば評価される。 結論: Work-to-dateは素晴らしい将来性を示しているが、トレーニングデータ、リトレーニング、スケーラビリティ、評価の複雑さ、採用するMLアルゴリズム、ベンチマーク、複製性に関するオープンな課題がある。 私たちの発見は、この分野の研究者にとってロードマップとインスピレーションとなり得る。

Background: Machine learning (ML) may enable effective automated test generation. Aims: We characterize emerging research, examining testing practices, researcher goals, ML techniques applied, evaluation, and challenges. Method: We perform a systematic literature review on a sample of 97 publications. Results: ML generates input for system, GUI, unit, performance, and combinatorial testing or improves the performance of existing generation methods. ML is also used to generate test verdicts, property-based, and expected output oracles. Supervised learning - often based on neural networks - and reinforcement learning - often based on Q-learning - are common, and some publications also employ unsupervised or semi-supervised learning. (Semi-/Un-)Supervised approaches are evaluated using both traditional testing metrics and ML-related metrics (e.g., accuracy), while reinforcement learning is often evaluated using testing metrics tied to the reward function. Conclusions: Work-to-date shows great promise, but there are open challenges regarding training data, retraining, scalability, evaluation complexity, ML algorithms employed - and how they are applied - benchmarks, and replicability. Our findings can serve as a roadmap and inspiration for researchers in this field.
翻訳日:2022-06-23 02:59:55 公開日:2022-06-21
# (参考訳) 廃刊ニュース:新聞に印刷障害を与える

Broken News: Making Newspapers Accessible to Print-Impaired ( http://arxiv.org/abs/2206.10225v1 )

ライセンス: CC BY 4.0
Vishal Agarwal, Tanuja Ganu, Saikat Guha(参考訳) 毎日のニュースコンテンツにアクセスすることは、印刷コンテンツの不透明さやオンラインソースからの障害のため、盲目や視力の低い人たちにとって依然として大きな課題だ。 本稿では,印刷新聞をHTMLなどのアクセス可能なファイル形式にデジタル化する手法を提案する。 新聞のレイアウト分析には,事例分割と検出のフレームワークのアンサンブルを使用し,見出しや記事テキストなどのテキスト要素をOCRで認識する。 さらに,mask-rcnnフレームワークのエッジマスク損失関数を提案し,セグメンテーションマスク境界を改善し,従って下流のocrタスクの精度を向上させる。 実験により,提案した損失関数は,ニュース記事の単語誤り率(WER)を32.5%削減することを示した。

Accessing daily news content still remains a big challenge for people with print-impairment including blind and low-vision due to opacity of printed content and hindrance from online sources. In this paper, we present our approach for digitization of print newspaper into an accessible file format such as HTML. We use an ensemble of instance segmentation and detection framework for newspaper layout analysis and then OCR to recognize text elements such as headline and article text. Additionally, we propose EdgeMask loss function for Mask-RCNN framework to improve segmentation mask boundary and hence accuracy of downstream OCR task. Empirically, we show that our proposed loss function reduces the Word Error Rate (WER) of news article text by 32.5 %.
翻訳日:2022-06-23 02:58:47 公開日:2022-06-21
# (参考訳) ニューラルネットワーク認証のためのリーマンデータ依存ランダム平滑化

Riemannian data-dependent randomized smoothing for neural networks certification ( http://arxiv.org/abs/2206.10235v1 )

ライセンス: CC BY 4.0
Pol Labarbarie, Hatem Hajri, Marc Arnaudon(参考訳) ニューラルネットワークの認定は、数年前から機械学習コミュニティの注目を集めてきた、重要かつ困難な問題である。 本稿では,確率論的に堅牢なニューラルネットワークを得るための最先端手法と考えられるランダム化平滑化(RS)に焦点を当てる。 特に、最近導入されたancerと呼ばれる新しいデータ依存rs技術は、ニューラルネットワークの各入力データの近くに直交軸を持つ楕円を証明できる。 本研究では,入力データの回転下ではアンサーは不変ではないことを指摘し,軸に制約なく楕円を証明できる新しい回転不変な定式化を提案する。 我々のアプローチはRiemannian Data Dependant Randomized Smoothing (RDDRS)と呼ばれ、共分散行列の多様体上の情報幾何学技術に依存しており、MNISTデータセットの実験に基づいて、anceRよりも大きな領域を認証することができる。

Certification of neural networks is an important and challenging problem that has been attracting the attention of the machine learning community since few years. In this paper, we focus on randomized smoothing (RS) which is considered as the state-of-the-art method to obtain certifiably robust neural networks. In particular, a new data-dependent RS technique called ANCER introduced recently can be used to certify ellipses with orthogonal axis near each input data of the neural network. In this work, we remark that ANCER is not invariant under rotation of input data and propose a new rotationally-invariant formulation of it which can certify ellipses without constraints on their axis. Our approach called Riemannian Data Dependant Randomized Smoothing (RDDRS) relies on information geometry techniques on the manifold of covariance matrices and can certify bigger regions than ANCER based on our experiments on the MNIST dataset.
翻訳日:2022-06-23 02:52:33 公開日:2022-06-21
# (参考訳) 医用測地用深部活性潜水面

Deep Active Latent Surfaces for Medical Geometries ( http://arxiv.org/abs/2206.10241v1 )

ライセンス: CC BY 4.0
Patrick M. Jensen, Udaranga Wickramasinghe, Anders B. Dahl, Pascal Fua, Vedrana A. Dahl(参考訳) 形状先行は、ノイズや不完全なデータから3次元形状を再構成する際に有効であることが知られている。 ディープラーニングベースの形状表現を使用する場合、これはしばしば潜在表現の学習を伴うが、これは単一の大域ベクトルか複数の局所表現のどちらかである。 後者は柔軟性が増すが、オーバーフィットしやすい。 本稿では,各頂点に独立した潜在ベクトルを持つ3次元メッシュを用いて形状を表現するハイブリッド手法を提案する。 トレーニング中、潜在ベクトルは同じ値を持つように制限され、オーバーフィッティングを避ける。 推論では、潜在ベクトルは空間正規化制約を課しながら独立に更新される。 これによって柔軟性と一般化の両能力が得られ、いくつかの医療画像処理タスクで実証した。

Shape priors have long been known to be effective when reconstructing 3D shapes from noisy or incomplete data. When using a deep-learning based shape representation, this often involves learning a latent representation, which can be either in the form of a single global vector or of multiple local ones. The latter allows more flexibility but is prone to overfitting. In this paper, we advocate a hybrid approach representing shapes in terms of 3D meshes with a separate latent vector at each vertex. During training the latent vectors are constrained to have the same value, which avoids overfitting. For inference, the latent vectors are updated independently while imposing spatial regularization constraints. We show that this gives us both flexibility and generalization capabilities, which we demonstrate on several medical image processing tasks.
翻訳日:2022-06-23 02:42:49 公開日:2022-06-21
# (参考訳) ドキュメントナビゲータビリティ: 印刷障害の必要性

Document Navigability: A Need for Print-Impaired ( http://arxiv.org/abs/2206.10253v1 )

ライセンス: CC BY 4.0
Anukriti Kumar, Tanuja Ganu, Saikat Guha(参考訳) 印刷された文書は、盲目、低視力、その他の印刷不能(BLV)個人にとって引き続き課題である。 本稿では, 引用, 脚注, 図形, 表, 方程式に対する内部参照の(内在性) 特定の問題に着目する。 視認されたユーザーは参照したコンテンツを数秒でひっくり返すことができるが、blvの個人が依存するリニアオーディオナレーションは、これらの参照を非常に難しいものにする。 本稿では,参照されたコンテンツを特定し,コンテンツ要約を音声ナレーションにインライン化するためのメタデータを抽出する視覚ベースの手法を提案する。 我々は,本手法を科学的文書の引用に適用し,ボルンデジタルとスキャンされた文書の両方でうまく機能することを確認した。

Printed documents continue to be a challenge for blind, low-vision, and other print-disabled (BLV) individuals. In this paper, we focus on the specific problem of (in-)accessibility of internal references to citations, footnotes, figures, tables and equations. While sighted users can flip to the referenced content and flip back in seconds, linear audio narration that BLV individuals rely on makes following these references extremely hard. We propose a vision based technique to locate the referenced content and extract metadata needed to (in subsequent work) inline a content summary into the audio narration. We apply our technique to citations in scientific documents and find it works well both on born-digital as well as scanned documents.
翻訳日:2022-06-23 02:28:51 公開日:2022-06-21
# (参考訳) アクセシビリティのためのOCR最適化に向けて

Towards Optimizing OCR for Accessibility ( http://arxiv.org/abs/2206.10254v1 )

ライセンス: CC BY 4.0
Peya Mowar, Tanuja Ganu, Saikat Guha(参考訳) 構造、強調、アイコンといった視覚的な手がかりは、視覚障害者による効率的な情報収集において重要な役割を担い、快適な読書体験を実現する。 ブラインド、低ビジョン、その他の印刷不能な個人は、現在のOCRやテキスト音声ソフトウェアがそれらを無視しているため、これらの手がかりを見逃してしまう。 楽しいリスニング体験のための4つのセマンティック目標を特定し、これらの目標に向かって進むのに役立つ統語的視覚的手がかりを特定する。 経験的に、1つか2つの視覚的手がかりを聴覚形式で保存することは、印刷コンテンツの聴取経験を著しく向上させる。

Visual cues such as structure, emphasis, and icons play an important role in efficient information foraging by sighted individuals and make for a pleasurable reading experience. Blind, low-vision and other print-disabled individuals miss out on these cues since current OCR and text-to-speech software ignore them, resulting in a tedious reading experience. We identify four semantic goals for an enjoyable listening experience, and identify syntactic visual cues that help make progress towards these goals. Empirically, we find that preserving even one or two visual cues in aural form significantly enhances the experience for listening to print content.
翻訳日:2022-06-23 02:21:24 公開日:2022-06-21
# (参考訳) GNN-PMB: ベルとウィスレスのないシンプルだが効果的なオンライン3Dマルチオブジェクトトラッカー

GNN-PMB: A Simple but Effective Online 3D Multi-Object Tracker without Bells and Whistles ( http://arxiv.org/abs/2206.10255v1 )

ライセンス: CC BY 4.0
Jianan Liu, Liping Bai, Yuxuan Xia, Tao Huang, Bing Zhu(参考訳) マルチオブジェクトトラッキング(MOT)は、現代の先進運転支援システム(ADAS)や自律運転システム(AD)において重要な応用である。 MOTのほとんどのソリューションは、GNNのようなランダムなベクトルベイズフィルタとルールベースのヒューリスティックな軌道維持に基づいている。 RFSベイズフィルタは、ランダム有限集合(RFS)理論の発展に伴い、最近ADASおよびAD系のMOTタスクに応用されている。 しかしながら、実際のトラフィックにおけるそれらの有用性は、計算コストと実装の複雑さのために疑わしい。 本稿では,ルールベースヒューリスティックトラックメンテナンスによるGNNが,ADASおよびADシステムにおけるLiDARベースのMOTタスクには不十分であることを明らかにした。 この判断は、規則ベースのヒューリスティックトラックメンテナンスを伴う従来のランダムベクトルベイズフィルタやrfsベイズフィルタなど、いくつかの異なるマルチポイントオブジェクトフィルタベースのトラッキングフレームワークを体系的に比較することによって示される。 さらに,LDARに基づくMOTタスクに対して,グローバルニアニア(GNN-PMB)トラッカーを用いたPoisson multi-Bernoulliフィルタを提案する。 提案したGNN-PMBトラッカーはnuScenesテストデータセットの競合的な結果を達成し、最先端のLiDARトラッカーとLiDARおよびカメラフュージョンベースのトラッカーよりも優れたトラッキング性能を示す。

Multi-object tracking (MOT) is among crucial applications in modern advanced driver assistance systems (ADAS) and autonomous driving (AD) systems. Most solutions to MOT are based on random vector Bayesian filters like global nearest neighbor (GNN) plus rule-based heuristical track maintenance. With the development of random finite set (RFS) theory, the RFS Bayesian filters have been applied in MOT tasks for ADAS and AD systems recently. However, their usefulness in the real traffic is open to doubt due to computational cost and implementation complexity. In this paper, it is revealed that GNN with rule-based heuristic track maintenance is insufficient for LiDAR-based MOT tasks in ADAS and AD systems. This judgement is illustrated by systematically comparing several different multi-point object filter-based tracking frameworks, including traditional random vector Bayesian filters with rule-based heuristical track maintenance and RFS Bayesian filters. Moreover, a simple and effective tracker, namely Poisson multi-Bernoulli filter using global nearest neighbor (GNN-PMB) tracker, is proposed for LiDAR-based MOT tasks. The proposed GNN-PMB tracker achieves competitive results in nuScenes test dataset, and shows superior tracking performance over other state-of-the-art LiDAR only trackers and LiDAR and camera fusion-based trackers.
翻訳日:2022-06-23 02:13:14 公開日:2022-06-21
# (参考訳) グラフに基づく意味的単眼局在とマッピングのためのオブジェクト構造点表現

Object Structural Points Representation for Graph-based Semantic Monocular Localization and Mapping ( http://arxiv.org/abs/2206.10263v1 )

ライセンス: CC BY 4.0
Davide Tateo, Davide Antonio Cucci, Matteo Matteucci, Andrea Bonarini(参考訳) モノクロセマンティクスの同時ローカライゼーションとマッピング(slam)のための効率的なオブジェクトレベルの表現は、まだ広く受け入れられているソリューションを欠いている。 本稿では,ポーズグラフの定式化に基づくモノラル意味論的SLAMシステムにおいて,対象の幾何学をランドマークとして用いるための,構造点に基づく効率的な表現法を提案する。 特に、ポーズグラフ内のランドマークノードに対して、オブジェクトの位置、向き、サイズ/スケールを格納する逆深さパラメトリゼーションを提案する。 提案する定式化は一般的であり, 異なる測地に適用することができる。本論文では, 人造工芸品が通常, 窓, ドア, キャビネットなどの平面形状を共有する屋内環境に焦点を当てる。 このアプローチは、同様の形状が存在する都市シナリオにも容易に拡張できる。 シミュレーション実験は、特に物体形状再構成において、優れた性能を示す。

Efficient object level representation for monocular semantic simultaneous localization and mapping (SLAM) still lacks a widely accepted solution. In this paper, we propose the use of an efficient representation, based on structural points, for the geometry of objects to be used as landmarks in a monocular semantic SLAM system based on the pose-graph formulation. In particular, an inverse depth parametrization is proposed for the landmark nodes in the pose-graph to store object position, orientation and size/scale. The proposed formulation is general and it can be applied to different geometries; in this paper we focus on indoor environments where human-made artifacts commonly share a planar rectangular shape, e.g., windows, doors, cabinets, etc. The approach can be easily extended to urban scenarios where similar shapes exists as well. Experiments in simulation show good performance, particularly in object geometry reconstruction.
翻訳日:2022-06-23 01:46:00 公開日:2022-06-21
# (参考訳) KnowDA:Few-Shot NLPにおけるデータ拡張のためのオールインワン知識混合モデル

KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in Few-Shot NLP ( http://arxiv.org/abs/2206.10265v1 )

ライセンス: CC BY 4.0
Yufei Wang, Jiayi Zheng, Can Xu, Xiubo Geng, Tao Shen, Chongyang Tao, Daxin Jiang(参考訳) 本稿では,NLPタスクのテキストデータ拡張に焦点を当てた。 既存のデータ拡張アルゴリズムは、タスク非依存のヒューリスティックルール(例:Synonym Replacement)や、小さなトレーニングセットを使用して新しい合成データを生成するファインチューン汎用言語モデル(例:GPT2)を利用する。 したがって、これらの手法は単純なタスク固有の知識を持ち、単純なタスクで弱いベースラインに対して低品質の合成データを得るのに制限される。 この問題に対処するため,我々は知識混合データ拡張モデル (knowda: knowledge mixed data augmentation model) を提案する。 komtは、様々な異種nlpタスクからの入力サンプルを統一されたテキストからテキストへのフォーマットに再構成するトレーニング手順であり、異なる粒度の異なる目標を用いて、部分的または完全なサンプルを生成する。 KoMTの助けを借りて、KnowDAは学習されたタスクの混合から暗黙的に必要なタスク固有の知識を組み合わせることができ、与えられたいくつかのインスタンスを通してターゲットタスク固有の合成法則を素早く把握することができる。 私たちの知る限りでは、データ拡張のためのマルチタスクコトレーニングにおいて、タスク数を100以上にスケールアップする最初の試みです。 大規模な実験は i)KnowDAは、FewGLUEベンチマークにおいて、AlbertとDebertaのパフォーマンスを大きなマージンで改善し、従来の最先端データ拡張ベースラインを上回ります。 二 ノウダは、数発のNERタスクにおいて、KoMTに含まれないホールドアウトタスクタイプであるモデル性能を向上させることもできる。

This paper focuses on text data augmentation for few-shot NLP tasks. The existing data augmentation algorithms either leverage task-independent heuristic rules (e.g., Synonym Replacement) or fine-tune general-purpose pre-trained language models (e.g., GPT2) using a small training set to produce new synthetic data. Consequently, these methods have trivial task-specific knowledge and are limited to yielding low-quality synthetic data for weak baselines in simple tasks. To combat this issue, we propose the Knowledge Mixture Data Augmentation Model (KnowDA): an encoder-decoder LM pretrained on a mixture of diverse NLP tasks using Knowledge Mixture Training (KoMT). KoMT is a training procedure that reformulates input examples from various heterogeneous NLP tasks into a unified text-to-text format and employs denoising objectives in different granularity to learn to generate partial or complete samples. With the aid of KoMT, KnowDA could combine required task-specific knowledge implicitly from the learned mixture of tasks and quickly grasp the inherent synthesis law of the target task through a few given instances. To the best of our knowledge, we are the first attempt to scale the number of tasks to 100+ in multi-task co-training for data augmentation. Extensive experiments show that i) KnowDA successfully improves the performance of Albert and Deberta by a large margin on the FewGLUE benchmark, outperforming previous state-of-the-art data augmentation baselines; ii) KnowDA could also improve the model performance on the few-shot NER tasks, a held-out task type not included in KoMT.
翻訳日:2022-06-23 01:35:58 公開日:2022-06-21
# (参考訳) 植物と植物部位の効率的な再構築のための注意駆動能動視覚

Attention-driven Active Vision for Efficient Reconstruction of Plants and Targeted Plant Parts ( http://arxiv.org/abs/2206.10274v1 )

ライセンス: CC BY 4.0
Akshay K. Burusa, Eldert J. van Henten, Gert Kootstra(参考訳) ロボットによるトマト植物の視覚再構成は,温室環境における変異度や閉塞度が高いため,極めて困難である。 アクティブビジョンのパラダイムは、事前に取得した情報を推論し、植物に関する新しい情報を集めるためにカメラ視点を体系的に計画することで、これらの課題を克服するのに役立つ。 しかし、既存の能動画像アルゴリズムでは、葉ノードの3次元再構築などの対象の知覚目標では、再構築が必要な植物部分と他の植物部分とを区別できないため、うまく機能しない。 本稿では,関連プラント部分のみを考慮した注意駆動型アクティブビジョンアルゴリズムを提案する。 トマトの3次元再構築作業において, 植物全体, 主幹, 葉ノードなど, 様々なレベルの注意を喚起したシミュレーション環境において, 提案手法を評価した。 本手法は, 植物全体の3次元再構成精度を9.7%, 5.3%, 主幹14.2%, 7.9%, 葉ノード25.9%, 17.3%向上させた。 また, 植物全体の80%, 主茎を1つの視点で再構築し, 葉ノードの80%を3つの視点で再構成した。 また, 注意駆動型nbvプランナーは, 植物モデルの変化, 咬合量, 候補視点数, 再構築の解決度にも拘わらず効果的に機能することを示した。 能動視に注意機構を加えることで、植物全体および対象植物の部品を効率的に再構築することができる。 複合食品環境における知覚の質を著しく向上させるためには,アクティブビジョンのための注意機構が必要であると結論づけた。

Visual reconstruction of tomato plants by a robot is extremely challenging due to the high levels of variation and occlusion in greenhouse environments. The paradigm of active-vision helps overcome these challenges by reasoning about previously acquired information and systematically planning camera viewpoints to gather novel information about the plant. However, existing active-vision algorithms cannot perform well on targeted perception objectives, such as the 3D reconstruction of leaf nodes, because they do not distinguish between the plant-parts that need to be reconstructed and the rest of the plant. In this paper, we propose an attention-driven active-vision algorithm that considers only the relevant plant-parts according to the task-at-hand. The proposed approach was evaluated in a simulated environment on the task of 3D reconstruction of tomato plants at varying levels of attention, namely the whole plant, the main stem and the leaf nodes. Compared to pre-defined and random approaches, our approach improves the accuracy of 3D reconstruction by 9.7% and 5.3% for the whole plant, 14.2% and 7.9% for the main stem, and 25.9% and 17.3% for the leaf nodes respectively within the first 3 viewpoints. Also, compared to pre-defined and random approaches, our approach reconstructs 80% of the whole plant and the main stem in 1 less viewpoint and 80% of the leaf nodes in 3 less viewpoints. We also demonstrated that the attention-driven NBV planner works effectively despite changes to the plant models, the amount of occlusion, the number of candidate viewpoints and the resolutions of reconstruction. By adding an attention mechanism to active-vision, it is possible to efficiently reconstruct the whole plant and targeted plant parts. We conclude that an attention mechanism for active-vision is necessary to significantly improve the quality of perception in complex agro-food environments.
翻訳日:2022-06-23 01:05:42 公開日:2022-06-21
# (参考訳) 森林型不均質処理効果を推定する要因について

What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work? ( http://arxiv.org/abs/2206.10323v1 )

ライセンス: CC BY 4.0
Susanne Dandl and Torsten Hothorn and Heidi Seibold and Erik Sverdrup and Stefan Wager and Achim Zeileis(参考訳) ヘテロジニアス治療効果(hte)の評価は、パーソナライズされた医療から経済学まで、多くの分野において最も重要なものである。 ランダム森林は、ランダム化試験と観測研究の両方において、HTE推定に対する柔軟で強力なアプローチであることが示されている。 Athey, Tibshirani, Wager (2019) が導入した "Causal forests" は, パッケージグラーフのR実装とともに急速に採用された。 Rパッケージモデル4youのモジュール実装とともに、Seebold、Zeileis、Hothorn (2018)によって、ランダム化試行と予測変数の効果を同時にキャプチャする「モデルベース森林」と呼ばれる関連するアプローチが導入された。 本稿では,理論的な動機を越え,どの計算要素が因果樹林を成功させるのか,モデルベース林の強みとどのように融合するかを検討する。 そこで本研究では,l2損失下の加法モデルに対して,同一パラメータとモデル仮定を用いて両手法を理解できることを示す。 この理論的な洞察により、モデルに基づく因果樹林のいくつかのフレーバーを実装し、シリコの異なる要素を識別することができる。 原生林とモデルベース林は、ランダム化試験と観測条件の両方を調査するベンチマーク研究において、新しいブレンドバージョンと比較された。 ランダムな設定では、どちらのアプローチも同じように実行された。 データ生成プロセスにコンファウンディングが存在した場合、治療指標の局所的な中心化と対応する傾向が、優れたパフォーマンスの原動力となることが分かりました。 結果の局所的な中心化は重要ではなく、予後および予測的効果の両方に関して、同時分割選択によって置き換えまたは強化される可能性がある。

Estimation of heterogeneous treatment effects (HTE) is of prime importance in many disciplines, ranging from personalized medicine to economics among many others. Random forests have been shown to be a flexible and powerful approach to HTE estimation in both randomized trials and observational studies. In particular "causal forests", introduced by Athey, Tibshirani and Wager (2019), along with the R implementation in package grf were rapidly adopted. A related approach, called "model-based forests", that is geared towards randomized trials and simultaneously captures effects of both prognostic and predictive variables, was introduced by Seibold, Zeileis and Hothorn (2018) along with a modular implementation in the R package model4you. Here, we present a unifying view that goes beyond the theoretical motivations and investigates which computational elements make causal forests so successful and how these can be blended with the strengths of model-based forests. To do so, we show that both methods can be understood in terms of the same parameters and model assumptions for an additive model under L2 loss. This theoretical insight allows us to implement several flavors of "model-based causal forests" and dissect their different elements in silico. The original causal forests and model-based forests are compared with the new blended versions in a benchmark study exploring both randomized trials and observational settings. In the randomized setting, both approaches performed akin. If confounding was present in the data generating process, we found local centering of the treatment indicator with the corresponding propensities to be the main driver for good performance. Local centering of the outcome was less important, and might be replaced or enhanced by simultaneous split selection with respect to both prognostic and predictive effects.
翻訳日:2022-06-23 00:42:09 公開日:2022-06-21
# (参考訳) 教室における絶滅危惧言語資源の構築:カタイボの普遍的依存

Building an Endangered Language Resource in the Classroom: Universal Dependencies for Kakataibo ( http://arxiv.org/abs/2206.10343v1 )

ライセンス: CC BY 4.0
Roberto Zariquiey, Claudia Alvarado, Ximena Echevarria, Luisa Gomez, Rosa Gonzales, Mariana Illescas, Sabina Oporto, Frederic Blum, Arturo Oncevay, Javier Vera(参考訳) 本稿では,ペルーで話されるパノア語であるカタイボ語(Kataibo)という,絶滅危惧言語のための新しいユニバーサル依存ツリーバンクをAmazoniaから立ち上げる。 まず,大学生を対象とした計算言語コースの文脈において,木バンクの作成に有効な協調手法について論じる。 次に,木々バンクの詳細と,提案するアノテーションに実装された言語固有の考察について述べる。 音声タグ付けと構文依存解析の実験を行った。 我々はモノリンガルと移動学習の設定に焦点を合わせ、別のパノア語リソースであるShitibo-Koniboツリーバンクの影響について研究する。

In this paper, we launch a new Universal Dependencies treebank for an endangered language from Amazonia: Kakataibo, a Panoan language spoken in Peru. We first discuss the collaborative methodology implemented, which proved effective to create a treebank in the context of a Computational Linguistic course for undergraduates. Then, we describe the general details of the treebank and the language-specific considerations implemented for the proposed annotation. We finally conduct some experiments on part-of-speech tagging and syntactic dependency parsing. We focus on monolingual and transfer learning settings, where we study the impact of a Shipibo-Konibo treebank, another Panoan language resource.
翻訳日:2022-06-22 23:43:02 公開日:2022-06-21
# (参考訳) TabText: 語彙データ構造間の知識集約のための体系的アプローチ

TabText: a Systematic Approach to Aggregate Knowledge Across Tabular Data Structures ( http://arxiv.org/abs/2206.10381v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas, Kimberly Villalobos Carballo, Yu Ma, Liangyuan Na, L\'eonard Boussioux, Cynthia Zeng, Luis R. Soenksen, Ignacio Fuentes(参考訳) 表データを生産的かつ効率的な方法で処理および分析することは、医療などの分野における機械学習の成功に不可欠である。 しかし、表情報の表現と標準化のための統一フレームワークの欠如は、研究者や専門家にとっても大きな課題となっている。 本研究では,非構造化データ形式を利用したTabTextを用いて,表構造や時間周期の異なる表データのエンコードを行う手法を提案する。 2つの医療データセットと4つの予測タスクを使用して,従来の処理方法で抽出したデータよりも2~5%多く,タブテキストで抽出される。 さらに,欠落した値,メタ情報,言語記述性といった文表現の異なる選択に対するフレームワークの感度を分析し,性能向上のための勝利戦略に関する洞察を与える。

Processing and analyzing tabular data in a productive and efficient way is essential for building successful applications of machine learning in fields such as healthcare. However, the lack of a unified framework for representing and standardizing tabular information poses a significant challenge to researchers and professionals alike. In this work, we present TabText, a methodology that leverages the unstructured data format of language to encode tabular data from different table structures and time periods efficiently and accurately. We show using two healthcare datasets and four prediction tasks that features extracted via TabText outperform those extracted with traditional processing methods by 2-5%. Furthermore, we analyze the sensitivity of our framework against different choices for sentence representations of missing values, meta information and language descriptiveness, and provide insights into winning strategies that improve performance.
翻訳日:2022-06-22 23:27:41 公開日:2022-06-21
# (参考訳) 時間と時間と経路の経路--距離軌道からの走行時間の推定-

Route to Time and Time to Route: Travel Time Estimation from Sparse Trajectories ( http://arxiv.org/abs/2206.10418v1 )

ライセンス: CC BY 4.0
Zhiwen Zhang, Hongjun Wang, Zipei Fan, Jiyuan Chen, Xuan Song, and Ryosuke Shibasaki(参考訳) IoT(Internet of Things)技術の急速な発展により、多くのオンラインウェブアプリ(Google MapやUberなど)は、モバイルデバイスが収集した軌跡データの移動時間を見積もっている。 しかし、実際には、ネットワーク通信やエネルギー制約といった複雑な要因は、サンプリングレートの低さで複数の軌道を収集する。 本稿では, スパースシナリオにおける移動時間推定(TTE)と経路回復の問題を解決することを目的としており, 連続サンプリングGPS点間の移動時間と経路のラベルが不確実である場合が多い。 我々はこの問題を,トレーニングデータが粗いラベルを持つ不正確な監視問題として定式化し,TTEと経路回復の課題を共同で解決する。 そして、これらの2つのタスクは、モデル学習手順において互いに補完的であり、そのような関係を保っていると主張する。 この仮定に基づき,eステップの弱い監督により推定された経路の走行時間を代替的に推定し,mステップで推定された走行時間に基づいて経路をスパーストラジェクタに対して取得するemアルゴリズムを提案する。 実世界の3つの軌道データセットについて実験を行い,提案手法の有効性を実証した。

Due to the rapid development of Internet of Things (IoT) technologies, many online web apps (e.g., Google Map and Uber) estimate the travel time of trajectory data collected by mobile devices. However, in reality, complex factors, such as network communication and energy constraints, make multiple trajectories collected at a low sampling rate. In this case, this paper aims to resolve the problem of travel time estimation (TTE) and route recovery in sparse scenarios, which often leads to the uncertain label of travel time and route between continuously sampled GPS points. We formulate this problem as an inexact supervision problem in which the training data has coarsely grained labels and jointly solve the tasks of TTE and route recovery. And we argue that both two tasks are complementary to each other in the model-learning procedure and hold such a relation: more precise travel time can lead to better inference for routes, in turn, resulting in a more accurate time estimation). Based on this assumption, we propose an EM algorithm to alternatively estimate the travel time of inferred route through weak supervision in E step and retrieve the route based on estimated travel time in M step for sparse trajectories. We conducted experiments on three real-world trajectory datasets and demonstrated the effectiveness of the proposed method.
翻訳日:2022-06-22 23:21:23 公開日:2022-06-21
# (参考訳) Model Joins: 巨大なテーブルの会員に関するアナリティクスの強化

Model Joins: Enabling Analytics Over Joins of Absent Big Tables ( http://arxiv.org/abs/2206.10434v1 )

ライセンス: CC BY-SA 4.0
Ali Mohammadi Shanghooshabad, Peter Triantafillou(参考訳) この作品は2つの重要な事実によって動機付けられている。 まず、生のデータテーブルにアクセスすることなく、知識発見・分析(lkd)タスクを学習し実行できることが望ましい。 これは、成長を続けるテーブルの管理とメンテナンス、あるいはプライバシー上の理由から、ますますイライラし、コストがかかる組織が原因かもしれない。 したがって、コンパクトなモデルは生のデータから開発でき、テーブルの代わりに使うことができる。 第二に、しばしばLKDタスクは(潜在的に非常に大きな)テーブル上で実行され、それはそれ自体が別々の(潜在的に非常に大きな)リレーショナルテーブルと結合した結果である。 しかし、個人が参加するテーブルが存在しない場合、どうやってこれを行うことができるのか? Q1: (absent/deleted) テーブルの 1 つの "join Model" や "join Model with other table" は、実際の生テーブルのジョインで実行されたように、LKD を可能にする方法として、どのようにできるのか? Q2: テーブルごとの適切なモデルは何ですか? Q3: モデル結合が実際のデータ結合の近似となると、モデル結合の結果の品質をどのように評価できるでしょうか? この作業は、これらの課題に対処するフレームワーク、Model Joinを生み出します。 このフレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合し、実際の生データの結合の均一かつ独立なサンプルの高品質な近似である均一で独立なサンプルを生成する。 近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。 Model Joinによって得られたサンプルは、近似クエリ処理、分類、クラスタリング、回帰、関連ルールマイニング、可視化など、LKD下流タスクの実行に使用することができる。 私たちの知る限りでは、このアジェンダとソリューションに関する最初の作業です。 tpc-dsデータおよび合成データを用いた詳細な実験はモデルジョインの有用性を示す。

This work is motivated by two key facts. First, it is highly desirable to be able to learn and perform knowledge discovery and analytics (LKD) tasks without the need to access raw-data tables. This may be due to organizations finding it increasingly frustrating and costly to manage and maintain ever-growing tables, or for privacy reasons. Hence, compact models can be developed from the raw data and used instead of the tables. Second, oftentimes, LKD tasks are to be performed on a (potentially very large) table which is itself the result of joining separate (potentially very large) relational tables. But how can one do this, when the individual to-be-joined tables are absent? Here, we pose the following fundamental questions: Q1: How can one "join models" of (absent/deleted) tables or "join models with other tables" in a way that enables LKD as if it were performed on the join of the actual raw tables? Q2: What are appropriate models to use per table? Q3: As the model join would be an approximation of the actual data join, how can one evaluate the quality of the model join result? This work puts forth a framework, Model Join, addressing these challenges. The framework integrates and joins the per-table models of the absent tables and generates a uniform and independent sample that is a high-quality approximation of a uniform and independent sample of the actual raw-data join. The approximation stems from the models, but not from the Model Join framework. The sample obtained by the Model Join can be used to perform LKD downstream tasks, such as approximate query processing, classification, clustering, regression, association rule mining, visualization, and so on. To our knowledge, this is the first work with this agenda and solutions. Detailed experiments with TPC-DS data and synthetic data showcase Model Join's usefulness.
翻訳日:2022-06-22 23:04:36 公開日:2022-06-21
# (参考訳) Graphical Join: RDBMSのための新しい物理結合アルゴリズム

Graphical Join: A New Physical Join Algorithm for RDBMSs ( http://arxiv.org/abs/2206.10435v1 )

ライセンス: CC BY-SA 4.0
Ali Mohammadi Shanghooshabad and Peter Triantafillou(参考訳) 結合操作(特にn-way, many-to-many joins)は時間とリソース消費であることが知られている。 大規模では、テーブルサイズとジョインサイズに関して、現在の最先端技術(Nested-loop/Hash/Sort-merge Joinアルゴリズムを使ったバイナリジョイン計画と、最悪ケースの最適ジョインアルゴリズム(WOJA)の両方を含む)は、適切なリソースと時間制約を与えられた答えを生成できない。 本稿では, n-way equi-join処理のための新しい手法であるgraphical join (gj)を提案する。 まず、物理結合計算問題をPGMにマッピングし、Run-Length Encoding (RLE)ベースの結合-resultサマリを計算できる微調整推論アルゴリズムを導入する。 第2に,上述のジョイン/リサート要約を生成してデサム化するGJのような結合アルゴリズムが,時間と空間において大きなパフォーマンス上のメリットをもたらすことを示す。 JOB、TPCDS、最後のFMデータセットからの結合クエリを用いて総合的な実験が行われ、PostgresQLとMonetDBに対するGJと、Umbraシステムで実装されたアートWOJAの状態を比較している。 インメモリ結合計算の結果、PostgreSQL、MonetDB、Umbraよりも64X、388X、6倍パフォーマンスが向上した。 ディスク上の結合計算では、GJはPostgreSQL、MonetDB、Umbraよりも最大820X、717X、165X高速である。 さらに、GJスペースの必要性は、PostgresQL、MonetDB、Umbraよりも最大21,488X、38,333X、78,750X小さい。

Join operations (especially n-way, many-to-many joins) are known to be time- and resource-consuming. At large scales, with respect to table and join-result sizes, current state of the art approaches (including both binary-join plans which use Nested-loop/Hash/Sort-merge Join algorithms or, alternatively, worst-case optimal join algorithms (WOJAs)), may even fail to produce any answer given reasonable resource and time constraints. In this work, we introduce a new approach for n-way equi-join processing, the Graphical Join (GJ). The key idea is two-fold: First, to map the physical join computation problem to PGMs and introduce tweaked inference algorithms which can compute a Run-Length Encoding (RLE) based join-result summary, entailing all statistics necessary to materialize the join result. Second, and most importantly, to show that a join algorithm, like GJ, which produces the above join-result summary and then desummarizes it, can introduce large performance benefits in time and space. Comprehensive experimentation is undertaken with join queries from the JOB, TPCDS, and lastFM datasets, comparing GJ against PostgresQL and MonetDB and a state of the art WOJA implemented within the Umbra system. The results for in-memory join computation show performance improvements up to 64X, 388X, and 6X faster than PostgreSQL, MonetDB and Umbra, respectively. For on-disk join computation, GJ is faster than PostgreSQL, MonetDB and Umbra by up to 820X, 717X and 165X, respectively. Furthermore, GJ space needs are up to 21,488X, 38,333X, and 78,750X smaller than PostgresQL, MonetDB, and Umbra, respectively.
翻訳日:2022-06-22 22:11:09 公開日:2022-06-21
# (参考訳) Shifted Compression Framework: 一般化と改善

Shifted Compression Framework: Generalizations and Improvements ( http://arxiv.org/abs/2206.10452v1 )

ライセンス: CC BY 4.0
Egor Shulgin and Peter Richt\'arik(参考訳) コミュニケーションは、大規模機械学習モデルの分散トレーニングにおける重要なボトルネックの1つであり、確率的勾配やモデルのような交換された情報の損失の多い圧縮はこの問題を緩和する最も効果的な手段の1つである。 最も研究されている圧縮技法は、圧縮したいベクトルの正方形ノルムの倍数に有界な分散を持つ偏りのない圧縮作用素のクラスである。 設計上、この分散は高いままであり、入力ベクトルがゼロに近づくと減少する。 しかし、訓練中のモデルが過パラメータ化されない限り、我々が圧縮したいベクトルが、収束速度に悪影響を及ぼす分散圧縮 {\sf sgd} のような古典的手法の反復の間、ゼロに近づいたいというa-prioriの理由はない。 この問題により、この問題を回避することを目的として、近年、より精巧で一見全く異なるアルゴリズムが提案されている。 これらの手法は、通常圧縮したいベクトルと反復過程を通して変化する補助ベクトルとの間に {\em difference} を圧縮するという考え方に基づいている。 この研究は一歩後退し、そのような手法を概念的に、理論的に研究するための統一的な枠組みを開発する。 本フレームワークでは,非バイアス圧縮機とバイアス圧縮機を用いて勾配とモデルの両方を圧縮し,補助ベクトルの構成に光を照射する。 さらに,我々の汎用フレームワークは既存のアルゴリズムの改善につながり,新たなアルゴリズムを作成できる。 最後に, 理論的知見を実証し, 支持する数値実験を行った。

Communication is one of the key bottlenecks in the distributed training of large-scale machine learning models, and lossy compression of exchanged information, such as stochastic gradients or models, is one of the most effective instruments to alleviate this issue. Among the most studied compression techniques is the class of unbiased compression operators with variance bounded by a multiple of the square norm of the vector we wish to compress. By design, this variance may remain high, and only diminishes if the input vector approaches zero. However, unless the model being trained is overparameterized, there is no a-priori reason for the vectors we wish to compress to approach zero during the iterations of classical methods such as distributed compressed {\sf SGD}, which has adverse effects on the convergence speed. Due to this issue, several more elaborate and seemingly very different algorithms have been proposed recently, with the goal of circumventing this issue. These methods are based on the idea of compressing the {\em difference} between the vector we would normally wish to compress and some auxiliary vector which changes throughout the iterative process. In this work we take a step back, and develop a unified framework for studying such methods, conceptually, and theoretically. Our framework incorporates methods compressing both gradients and models, using unbiased and biased compressors, and sheds light on the construction of the auxiliary vectors. Furthermore, our general framework can lead to the improvement of several existing algorithms, and can produce new algorithms. Finally, we performed several numerical experiments which illustrate and support our theoretical findings.
翻訳日:2022-06-22 21:44:01 公開日:2022-06-21
# 高次元偏微分方程式の有限表現法

Finite Expression Method for Solving High-Dimensional Partial Differential Equations ( http://arxiv.org/abs/2206.10121v1 )

ライセンス: Link先を確認
Senwei Liang and Haizhao Yang(参考訳) 高次元偏微分方程式(PDE)の効率的かつ正確な数値解法を設計することは、主に次元をスケールする数値スキームを設計する「次元の商」のために、計算科学と工学において困難かつ重要なトピックである。 本稿では,有限個の解析式を持つ関数空間における近似PDE解を求める新しい手法を提案し,その手法を有限式法(FEX)と呼ぶ。 FEXは次元の呪いを避けることができるという近似理論で証明されている。 概念実証として,様々な高次元pdesのfexを異なる次元で実装し,高次元のメモリ複雑性多項式と可算時間複雑性を持つ機械精度を実現するための深層強化学習法を提案する。 有限解析式を持つ近似解はまた、基底真理 PDE 解の解釈可能な洞察を与え、物理系の理解と洗練された解の設計後処理技術をさらに前進させるのに役立つ。

Designing efficient and accurate numerical solvers for high-dimensional partial differential equations (PDEs) remains a challenging and important topic in computational science and engineering, mainly due to the ``curse of dimensionality" in designing numerical schemes that scale in dimension. This paper introduces a new methodology that seeks an approximate PDE solution in the space of functions with finitely many analytic expressions and, hence, this methodology is named the finite expression method (FEX). It is proved in approximation theory that FEX can avoid the curse of dimensionality. As a proof of concept, a deep reinforcement learning method is proposed to implement FEX for various high-dimensional PDEs in different dimensions, achieving high and even machine accuracy with a memory complexity polynomial in dimension and an amenable time complexity. An approximate solution with finite analytic expressions also provides interpretable insights into the ground truth PDE solution, which can further help to advance the understanding of physical systems and design postprocessing techniques for a refined solution.
翻訳日:2022-06-22 20:30:26 公開日:2022-06-21
# クラスタリングに基づく音声感情認識のための能動学習における自己教師あり学習と次元低減手法の解析

Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2206.10188v1 )

ライセンス: Link先を確認
Einari Vaaras, Manu Airaksinen, Okko R\"as\"anen(参考訳) ドメインの専門家が複雑な機械学習タスクのためにデータアノテーションを実行する必要がある場合、時間と費用を削減するためにアノテーションの労力を減らすことが重要です。 アノテーションがない場合、ひとつのアプローチは、クラスタリングベースのアクティブラーニング(AL)メソッドに機能空間の構造を利用することです。 しかし、これらの手法は、どのようにサンプルが特徴空間に整理され、どの距離メートル法が使用されるかに大きく依存する。 コントラスト予測符号化(cpc)のような教師なしの手法は、組織化された特徴空間を学ぶのに使用できるが、これらの手法は通常、データ密度を推定するのに難しい高次元の特徴を生み出す。 本稿では,クラスタリングに基づくALの関数化手法の探索において,CPCと多次元化手法を組み合わせる。 音声感情認識システム展開のシミュレーション実験により,特徴空間の局所的および大域的トポロジがALに有効であり,CPCは従来の信号特徴よりもクラスタリングに基づくAL性能を向上させることができることを示した。 さらに,データ次元の圧縮がAL性能を著しく損なうことはなく,アノテーションの数が少ない場合の高次元表現と同様に2次元特徴表現がAL性能に類似していることが観察された。

When domain experts are needed to perform data annotation for complex machine-learning tasks, reducing annotation effort is crucial in order to cut down time and expenses. For cases when there are no annotations available, one approach is to utilize the structure of the feature space for clustering-based active learning (AL) methods. However, these methods are heavily dependent on how the samples are organized in the feature space and what distance metric is used. Unsupervised methods such as contrastive predictive coding (CPC) can potentially be used to learn organized feature spaces, but these methods typically create high-dimensional features which might be challenging for estimating data density. In this paper, we combine CPC and multiple dimensionality reduction methods in search of functioning practices for clustering-based AL. Our experiments for simulating speech emotion recognition system deployment show that both the local and global topology of the feature space can be successfully used for AL, and that CPC can be used to improve clustering-based AL performance over traditional signal features. Additionally, we observe that compressing data dimensionality does not harm AL performance substantially, and that 2-D feature representations achieved similar AL performance as higher-dimensional representations when the number of annotations is not very low.
翻訳日:2022-06-22 20:30:09 公開日:2022-06-21
# スケーラブルニューラルネットワークによるランダム量子回路の教師あり学習

Supervised learning of random quantum circuits via scalable neural networks ( http://arxiv.org/abs/2206.10348v1 )

ライセンス: Link先を確認
S. Cantori, D. Vitali, S. Pilati(参考訳) 量子回路の出力を予測することは、普遍的な量子コンピュータの開発において重要な役割を担っている。 本稿では,ランダム量子回路の出力期待値の教師付き学習について検討する。 深層畳み込みニューラルネットワーク (deep convolutional neural network, cnns) は、古典的シミュレーション回路のデータベースを用いて、単一量子ビットと2量子ビットの期待値を予測するように訓練されている。 これらの回路は、適切に設計された構成ゲートのワンホット符号化によって表現される。 未確認回路の予測精度を解析し,IBM量子プログラムから利用可能な小型量子コンピュータとの比較を行った。 CNNは、回路深度、ネットワーク深度、トレーニングセットサイズによって、量子デバイスよりも優れていることが多い。 特に、私たちのCNNはスケーラブルに設計されています。 これにより、トレーニングセットに含まれるものよりも大きい回路に対して、転送学習と外挿を活用できる。 これらのCNNはまた、ノイズに対する顕著な耐性を示しており、非常に少ない測定値でトレーニングされた(シミュレーションされた)期待値でも正確である。

Predicting the output of quantum circuits is a hard computational task that plays a pivotal role in the development of universal quantum computers. Here we investigate the supervised learning of output expectation values of random quantum circuits. Deep convolutional neural networks (CNNs) are trained to predict single-qubit and two-qubit expectation values using databases of classically simulated circuits. These circuits are represented via an appropriately designed one-hot encoding of the constituent gates. The prediction accuracy for previously unseen circuits is analyzed, also making comparisons with small-scale quantum computers available from the free IBM Quantum program. The CNNs often outperform the quantum devices, depending on the circuit depth, on the network depth, and on the training set size. Notably, our CNNs are designed to be scalable. This allows us exploiting transfer learning and performing extrapolations to circuits larger than those included in the training set. These CNNs also demonstrate remarkable resilience against noise, namely, they remain accurate even when trained on (simulated) expectation values averaged over very few measurements.
翻訳日:2022-06-22 20:29:45 公開日:2022-06-21
# ロバスト飛行制御のためのニューラル移動水平推定

Neural Moving Horizon Estimation for Robust Flight Control ( http://arxiv.org/abs/2206.10397v1 )

ライセンス: Link先を確認
Bingheng Wang, Zhengtian Ma, Shupeng Lai, and Lin Zhao(参考訳) 外乱に対する推定と反応は、クワッドローターのロバストな飛行制御に不可欠である。 既存の推定器は通常、満足な性能を達成するために、特定の飛行シナリオの大幅なチューニングや、広範な実世界のデータによるトレーニングを必要とする。 本稿では,ニューラルネットワークによってモデル化されたMHEパラメータを自動的に調整し,異なる飛行シナリオに適応できるニューロ移動地平線推定器を提案する。 本研究では,mheのパラメータに関する推定値の解析勾配を導出し,mheを層としてニューラルネットワークにシームレスに埋め込み,高効率な学習を実現する。 最も興味深いのは、カルマンフィルタから再帰的に勾配を効率的に解くことができることである。 さらに, 軌道追従誤差から直接ニューロメエを訓練するモデルベースポリシー勾配アルゴリズムを, 地中外乱を必要とせずに開発した。 ニューロMHEの有効性は、様々な挑戦飛行において四重極子上でのシミュレーションと物理実験を通じて広範囲に検証される。 特に、ニューロマッハは2.5%のパラメータしか使わず、強制推定誤差を最大49.4%まで削減することで最先端の推定器を上回る。 提案手法は汎用的であり,他のロボットシステムのロバスト適応制御に適用可能である。

Estimating and reacting to external disturbances is crucial for robust flight control of quadrotors. Existing estimators typically require significant tuning for a specific flight scenario or training with extensive real-world data to achieve satisfactory performance. In this paper, we propose a neural moving horizon estimator (NeuroMHE) that can automatically tune the MHE parameters modeled by a neural network and adapt to different flight scenarios. We achieve this by deriving the analytical gradient of the MHE estimates with respect to the tunable parameters, enabling a seamless embedding of MHE as a layer into the neural network for highly effective learning. Most interestingly, we show that the gradient can be solved efficiently from a Kalman filter in a recursive form. Moreover, we develop a model-based policy gradient algorithm to train NeuroMHE directly from the trajectory tracking error without the need for the ground-truth disturbance. The effectiveness of NeuroMHE is verified extensively via both simulations and physical experiments on a quadrotor in various challenging flights. Notably, NeuroMHE outperforms the state-of-the-art estimator with force estimation error reductions of up to 49.4% by using only a 2.5% amount of parameters. The proposed method is general and can be applied to robust adaptive control for other robotic systems.
翻訳日:2022-06-22 20:29:29 公開日:2022-06-21
# リアプノフ密度モデル:学習制御における分布シフトの抑制

Lyapunov Density Models: Constraining Distribution Shift in Learning-Based Control ( http://arxiv.org/abs/2206.10524v1 )

ライセンス: Link先を確認
Katie Kang, Paula Gradu, Jason Choi, Michael Janner, Claire Tomlin, Sergey Levine(参考訳) 学習されたモデルとポリシーは、トレーニングデータの分布内で評価された場合、効果的に一般化することができるが、分布外入力に対して予測不能で誤った出力を生成することができる。 学習に基づく制御アルゴリズムをデプロイする際の分散シフトを回避するため,エージェントを訓練対象と類似した状態や動作に拘束する機構を模索する。 制御理論では、リャプノフ安定性と制御不変集合により、特定の状態の周囲でシステムを安定させるコントローラが保証される一方で、機械学習では、密度モデルによりトレーニングデータ分布を推定することができる。 これら2つの概念を組み合わせることで、分散アクションのみを使用して、システムを分散状態に制約する学習ベースの制御アルゴリズムを生成することができるか? 本研究では,lyapunov の安定性と密度推定の概念を組み合わせることで,lyapunov の密度モデルを導入することを提案する。

Learned models and policies can generalize effectively when evaluated within the distribution of the training data, but can produce unpredictable and erroneous outputs on out-of-distribution inputs. In order to avoid distribution shift when deploying learning-based control algorithms, we seek a mechanism to constrain the agent to states and actions that resemble those that it was trained on. In control theory, Lyapunov stability and control-invariant sets allow us to make guarantees about controllers that stabilize the system around specific states, while in machine learning, density models allow us to estimate the training data distribution. Can we combine these two concepts, producing learning-based control algorithms that constrain the system to in-distribution states using only in-distribution actions? In this work, we propose to do this by combining concepts from Lyapunov stability and density estimation, introducing Lyapunov density models: a generalization of control Lyapunov functions and density models that provides guarantees on an agent's ability to stay in-distribution over its entire trajectory.
翻訳日:2022-06-22 20:29:09 公開日:2022-06-21
# 電力系統運用支援のためのグラディエント強化物理インフォームニューラルネットワーク

Gradient-Enhanced Physics-Informed Neural Networks for Power Systems Operational Support ( http://arxiv.org/abs/2206.10579v1 )

ライセンス: Link先を確認
Mostafa Mohammadian, Kyri Baker and Ferdinando Fioretto(参考訳) パワーフロー問題の解決をスピードアップするためのディープラーニング手法の適用は、最近非常に有望な結果を示している。 しかし、電力系統のダイナミクスはスナップショットや定常操作ではない。 これらのダイナミクスは、これらのモデルによって提供される最適解が、周波数変動やグリッド不安定を回避し、実用的な動的制約に準拠することを保証するために考慮されなければならない。 残念ながら、通常の微分方程式や偏微分方程式に基づく力学系モデルは、計算コストが高いために制御や状態推定の直接適用には適さないことが多い。 これらの課題に対処するために,電力系統の動的挙動をほぼリアルタイムで近似する機械学習手法を提案する。 提案するフレームワークは、勾配強化された物理インフォームドニューラルネットワーク(gPINN)に基づいて、電力システムを管理する基礎となる物理法則を符号化する。 提案したgPINNの重要な特徴は、高価なトレーニングデータを生成する必要なしにトレーニングできることだ。 本論文は、ロータ角と周波数を予測できる単機無限バスシステムにおける前方および逆問題と、慣性や減衰といった不確定なパラメータの双方における提案手法の可能性を示し、様々な電力系統応用の可能性を示す。

The application of deep learning methods to speed up the resolution of challenging power flow problems has recently shown very encouraging results. However, power system dynamics are not snap-shot, steady-state operations. These dynamics must be considered to ensure that the optimal solutions provided by these models adhere to practical dynamical constraints, avoiding frequency fluctuations and grid instabilities. Unfortunately, dynamic system models based on ordinary or partial differential equations are frequently unsuitable for direct application in control or state estimates due to their high computational costs. To address these challenges, this paper introduces a machine learning method to approximate the behavior of power systems dynamics in near real time. The proposed framework is based on gradient-enhanced physics-informed neural networks (gPINNs) and encodes the underlying physical laws governing power systems. A key characteristic of the proposed gPINN is its ability to train without the need of generating expensive training data. The paper illustrates the potential of the proposed approach in both forward and inverse problems in a single-machine infinite bus system for predicting rotor angles and frequency, and uncertain parameters such as inertia and damping to showcase its potential for a range of power systems applications.
翻訳日:2022-06-22 20:28:51 公開日:2022-06-21
# (参考訳) FedHiSyn: リソースとデータの均一性のための階層的な同期学習フレームワーク

FedHiSyn: A Hierarchical Synchronous Federated Learning Framework for Resource and Data Heterogeneity ( http://arxiv.org/abs/2206.10546v1 )

ライセンス: CC BY 4.0
Guanghao Li, Yue Hu, Miao Zhang, Ji Liu, Quanjun Yin, Yong Peng, Dejing Dou(参考訳) フェデレートラーニング(FL)は、データプライバシを保護するために複数のデバイスに格納された分散生データを共有することなく、グローバルモデルのトレーニングを可能にする。 デバイスが多種多様であるため、FLフレームワークはトラグラー効果や時代遅れモデルの問題に取り組むのに苦労する。 さらに、データの不均一性は、fl訓練過程におけるグローバルモデルの厳密な精度低下をもたらす。 上記の問題に対処するため、階層型同期FLフレームワークであるFedHiSynを提案する。 FedHiSynはまず、利用可能なすべてのデバイスを、その計算能力に基づいて、少数のカテゴリにクラスタ化する。 ある期間のローカルトレーニングの後、異なるカテゴリでトレーニングされたモデルが同時に中央サーバにアップロードされる。 単一のカテゴリ内で、デバイスは、リングトポロジーに基づいて、ローカルに更新されたモデル重みを相互に通信する。 リングトポロジにおけるトレーニングの効率は均質なリソースを持つデバイスを好むため、計算能力に基づく分類はストラグラー効果の影響を緩和する。 さらに、複数のカテゴリの同期更新と単一のカテゴリ内のデバイス通信の組み合わせは、高い精度を実現しながら、データの多様性の問題に対処するのに役立つ。 提案手法は,MNIST,EMNIST,CIFAR10,CIFAR100のデータセットと多種多様なデバイス設定に基づく。 実験結果から,FedHiSynはFedAvg,SCAFFOLD,FedATの6つのベースライン法で,トレーニング精度と効率の点で優れていた。

Federated Learning (FL) enables training a global model without sharing the decentralized raw data stored on multiple devices to protect data privacy. Due to the diverse capacity of the devices, FL frameworks struggle to tackle the problems of straggler effects and outdated models. In addition, the data heterogeneity incurs severe accuracy degradation of the global model in the FL training process. To address aforementioned issues, we propose a hierarchical synchronous FL framework, i.e., FedHiSyn. FedHiSyn first clusters all available devices into a small number of categories based on their computing capacity. After a certain interval of local training, the models trained in different categories are simultaneously uploaded to a central server. Within a single category, the devices communicate the local updated model weights to each other based on a ring topology. As the efficiency of training in the ring topology prefers devices with homogeneous resources, the classification based on the computing capacity mitigates the impact of straggler effects. Besides, the combination of the synchronous update of multiple categories and the device communication within a single category help address the data heterogeneity issue while achieving high accuracy. We evaluate the proposed framework based on MNIST, EMNIST, CIFAR10 and CIFAR100 datasets and diverse heterogeneous settings of devices. Experimental results show that FedHiSyn outperforms six baseline methods, e.g., FedAvg, SCAFFOLD, and FedAT, in terms of training accuracy and efficiency.
翻訳日:2022-06-22 20:27:36 公開日:2022-06-21
# 待ち行列モデルの最適ポリシーの探索:新しいパラメータ化

Finding Optimal Policy for Queueing Models: New Parameterization ( http://arxiv.org/abs/2206.10073v1 )

ライセンス: Link先を確認
Trang H. Tran, Lam M. Nguyen, Katya Scheinberg(参考訳) キューシステムは、通信ネットワーク、輸送および製造システムを含む多くの重要な実生活アプリケーションに現れる。 強化学習(Reinforcement Learning、RL)フレームワークは、基礎となるダイナミクスが通常不明であり、エージェントがナビゲートする環境からほとんど情報を受け取らないキューイング制御問題に適したモデルである。 本研究では,rl環境としての待ち行列モデルの最適化について検討し,最適方針を効率的に学習するための洞察を与える。 本稿では,待ち行列ネットワークシステムの固有特性を用いて,新しいパラメータ化手法を提案する。 実験により,光から重交通まで様々な負荷条件下での手法の性能が示された。

Queueing systems appear in many important real-life applications including communication networks, transportation and manufacturing systems. Reinforcement learning (RL) framework is a suitable model for the queueing control problem where the underlying dynamics are usually unknown and the agent receives little information from the environment to navigate. In this work, we investigate the optimization aspects of the queueing model as a RL environment and provide insight to learn the optimal policy efficiently. We propose a new parameterization of the policy by using the intrinsic properties of queueing network systems. Experiments show good performance of our methods with various load conditions from light to heavy traffic.
翻訳日:2022-06-22 20:07:42 公開日:2022-06-21
# R2-AD2:生起勾配解析による異常検出

R2-AD2: Detecting Anomalies by Analysing the Raw Gradient ( http://arxiv.org/abs/2206.10259v1 )

ライセンス: Link先を確認
Jan-Philipp Schulze, Philip Sperl, Ana R\u{a}du\c{t}oiu, Carla Sagebiel, Konstantin B\"ottinger(参考訳) ニューラルネットワークは勾配に基づく学習スキームに従い、出力損失をバックプロパゲートすることでマッピングパラメータを適応する。 トレーニング中に見られるものとは異なり、サンプルは異なる勾配分布を引き起こす。 この直感に基づいて、R2-AD2と呼ばれる新しい半教師付き異常検出法を設計する。 複数のトレーニングステップにおける勾配の時間的分布を解析することにより,厳密な半教師付き設定における点異常を確実に検出する。 ドメイン依存機能の代わりに、テスト中のサンプルによって引き起こされる生の勾配をエンドツーエンドのリカレントニューラルネットワークアーキテクチャに入力する。 R2-AD2は純粋にデータ駆動型であり、異常検出の様々な重要なユースケースに容易に適用できる。

Neural networks follow a gradient-based learning scheme, adapting their mapping parameters by back-propagating the output loss. Samples unlike the ones seen during training cause a different gradient distribution. Based on this intuition, we design a novel semi-supervised anomaly detection method called R2-AD2. By analysing the temporal distribution of the gradient over multiple training steps, we reliably detect point anomalies in strict semi-supervised settings. Instead of domain dependent features, we input the raw gradient caused by the sample under test to an end-to-end recurrent neural network architecture. R2-AD2 works in a purely data-driven way, thus is readily applicable in a variety of important use cases of anomaly detection.
翻訳日:2022-06-22 20:07:33 公開日:2022-06-21
# プライバシーオニオン効果:記憶力は相対的

The Privacy Onion Effect: Memorization is Relative ( http://arxiv.org/abs/2206.10469v1 )

ライセンス: Link先を確認
Nicholas Carlini, Matthew Jagielski, Nicolas Papernot, Andreas Terzis, Florian Tramer, Chiyuan Zhang(参考訳) プライベートデータセットでトレーニングされた機械学習モデルは、プライベートデータを漏洩することが示されている。 最近の研究によると、平均的なデータポイントがリークされることはほとんどないが、外れ値のサンプルはしばしば暗記され、結果としてプライバシーが漏洩する。 プライバシ攻撃に最も脆弱なインタラヤポイントの"レイヤ"を削除することで、前もって安全だったポイントの新たなレイヤを同じ攻撃に公開する。 この効果を研究するためにいくつかの実験を行い、なぜそれが起こるのかを理解する。 この効果の存在は様々な結果をもたらす。 例えば、厳格なプライバシー保証のトレーニングを伴わずに暗記を擁護する提案は効果が低いことを示唆している。 さらに、機械学習のようなプライバシー向上技術が、他のユーザーのプライバシーを損なう可能性があることも示唆している。

Machine learning models trained on private datasets have been shown to leak their private data. While recent work has found that the average data point is rarely leaked, the outlier samples are frequently subject to memorization and, consequently, privacy leakage. We demonstrate and analyse an Onion Effect of memorization: removing the "layer" of outlier points that are most vulnerable to a privacy attack exposes a new layer of previously-safe points to the same attack. We perform several experiments to study this effect, and understand why it occurs. The existence of this effect has various consequences. For example, it suggests that proposals to defend against memorization without training with rigorous privacy guarantees are unlikely to be effective. Further, it suggests that privacy-enhancing technologies such as machine unlearning could actually harm the privacy of other users.
翻訳日:2022-06-22 20:04:46 公開日:2022-06-21
# (認定!) 自由のための敵対的ロバスト性!

(Certified!!) Adversarial Robustness for Free! ( http://arxiv.org/abs/2206.10550v1 )

ライセンス: Link先を確認
Nicholas Carlini, Florian Tramer, Krishnamurthy (Dj) Dvijotham, J. Zico Kolter(参考訳) 本稿では,既訓練モデルのみに頼って,2ノルム境界摂動に対する最先端の正反対性を実現する方法について述べる。 そこで我々は,事前学習された拡散確率モデルと標準高精度分類器を組み合わせることで,Salmanらによる偏微分平滑化アプローチをインスタンス化する。 これにより,2ノルム0.5以内で制約された対向摂動,任意のアプローチによる以前のsataよりも14パーセンテージ向上,あるいは分別平滑化よりも30パーセンテージ向上といった条件下で,imagenetの71%の精度を証明できる。 モデルパラメータの微調整や再トレーニングを必要とせず,事前学習された拡散モデルと画像分類器のみを用いてこれらの結果を得る。

In this paper we show how to achieve state-of-the-art certified adversarial robustness to 2-norm bounded perturbations by relying exclusively on off-the-shelf pretrained models. To do so, we instantiate the denoised smoothing approach of Salman et al. by combining a pretrained denoising diffusion probabilistic model and a standard high-accuracy classifier. This allows us to certify 71% accuracy on ImageNet under adversarial perturbations constrained to be within a 2-norm of 0.5, an improvement of 14 percentage points over the prior certified SoTA using any approach, or an improvement of 30 percentage points over denoised smoothing. We obtain these results using only pretrained diffusion models and image classifiers, without requiring any fine tuning or retraining of model parameters.
翻訳日:2022-06-22 20:04:30 公開日:2022-06-21
# 持続的ホモロジーの有効性について

On the effectiveness of persistent homology ( http://arxiv.org/abs/2206.10551v1 )

ライセンス: Link先を確認
Renata Turke\v{s}, Guido Mont\'ufar and Nina Otter(参考訳) 永続ホモロジー(PH)は、トポロジカルデータ分析において最も一般的な手法の1つである。 PHは様々な種類のアプリケーションで使われてきたが、その成功の理由はいまだ解明されていない。 特に、最も有効な問題の種類や、幾何的あるいは位相的特徴をどの程度検出できるかは分かっていない。 この研究の目標は、データ分析において、phが他の方法よりも良く、あるいはさらに優れているいくつかの種類の問題を特定することである。 形状から採取した2次元および3次元点雲からの孔数,曲率,凸度の検出という3つの基本的な形状解析課題について考察した。 実験によると、phはこれらのタスクで成功し、ポイントクラウドの性質にインスパイアされたアーキテクチャであるpointnetなど、いくつかのベースラインを上回っている。 さらに、PHは限られた計算資源や限られた訓練データ、様々なデータ変換やノイズを含む配布外テストデータに対して有効であることを示す。

Persistent homology (PH) is one of the most popular methods in Topological Data Analysis. While PH has been used in many different types of applications, the reasons behind its success remain elusive. In particular, it is not known for which classes of problems it is most effective, or to what extent it can detect geometric or topological features. The goal of this work is to identify some types of problems on which PH performs well or even better than other methods in data analysis. We consider three fundamental shape-analysis tasks: the detection of the number of holes, curvature and convexity from 2D and 3D point clouds sampled from shapes. Experiments demonstrate that PH is successful in these tasks, outperforming several baselines, including PointNet, an architecture inspired precisely by the properties of point clouds. In addition, we observe that PH remains effective for limited computational resources and limited training data, as well as out-of-distribution test data, including various data transformations and noise.
翻訳日:2022-06-22 20:04:14 公開日:2022-06-21
# sqsgd: ローカルプライベートと通信効率のよい連合学習

sqSGD: Locally Private and Communication Efficient Federated Learning ( http://arxiv.org/abs/2206.10565v1 )

ライセンス: Link先を確認
Yan Feng, Tao Xiong, Ruofan Wu, LingJuan Lv, Leilei Shi(参考訳) Federated Learning(FL)は、分散データソースから機械学習モデルをトレーニングするテクニックである。 我々は、FLをプライバシー制約というローカルな概念の下で研究し、クライアントを離れる前にデータを難読化することで機密データ開示に対して強力な保護を提供する。 実用的プライバシー保護FLアルゴリズムの設計における主な関心点として,通信効率と高次元互換性の2つを挙げる。 次に,2つの関心事に対応する勾配型学習アルゴリズム \emph{sqsgd} (selective quantized stochastic gradient descent) を開発した。 提案アルゴリズムは,クライアント1次元当たりのビット数が一定である新しいプライバシ保存量子化方式に基づいている。 次に,基本アルゴリズムを3つの方法で改善する。まず,固定されたプライバシ予算の下で,より優れたトレーニング性能とより少ない通信コストを同時に提供する,勾配サブサンプリング戦略を適用する。 次に,ランダム化回転を前処理ステップとして利用し,量子化誤差を低減する。 第3に,適応勾配ノルム上界収縮戦略を採用し,精度の向上とトレーニングの安定化を図る。 最後に,提案フレームワークの実用性をベンチマークデータセットで実証する。 実験の結果、sqSGDはローカルのプライバシー制約でLeNetやResNetのような大規模なモデルをうまく学習していることがわかった。 さらに、固定されたプライバシーと通信レベルにおいて、sqsgdの性能は様々なベースラインアルゴリズムのそれを大幅に上回っている。

Federated learning (FL) is a technique that trains machine learning models from decentralized data sources. We study FL under local notions of privacy constraints, which provides strong protection against sensitive data disclosures via obfuscating the data before leaving the client. We identify two major concerns in designing practical privacy-preserving FL algorithms: communication efficiency and high-dimensional compatibility. We then develop a gradient-based learning algorithm called \emph{sqSGD} (selective quantized stochastic gradient descent) that addresses both concerns. The proposed algorithm is based on a novel privacy-preserving quantization scheme that uses a constant number of bits per dimension per client. Then we improve the base algorithm in three ways: first, we apply a gradient subsampling strategy that simultaneously offers better training performance and smaller communication costs under a fixed privacy budget. Secondly, we utilize randomized rotation as a preprocessing step to reduce quantization error. Thirdly, an adaptive gradient norm upper bound shrinkage strategy is adopted to improve accuracy and stabilize training. Finally, the practicality of the proposed framework is demonstrated on benchmark datasets. Experiment results show that sqSGD successfully learns large models like LeNet and ResNet with local privacy constraints. In addition, with fixed privacy and communication level, the performance of sqSGD significantly dominates that of various baseline algorithms.
翻訳日:2022-06-22 20:03:59 公開日:2022-06-21
# Diffractive Interconnects:Diffractive Networks を用いた全オプティカル置換操作

Diffractive Interconnects: All-Optical Permutation Operation Using Diffractive Networks ( http://arxiv.org/abs/2206.10152v1 )

ライセンス: Link先を確認
Deniz Mengu, Yifan Zhao, Anika Tabassum, Mona Jarrahi, Aydogan Ozcan(参考訳) 置換行列は、通信、情報セキュリティ、データ処理など様々な分野で頻繁に使用される重要な計算ビルディングブロックを形成する。 電力効率,高速,コンパクトなプラットフォームに基づく比較的多数の入出力相互接続を持つ置換演算子の光学的実装が望ましい。 本稿では,波長スケールで個別に構成された受動透過層を用いて,入力と出力フィールド間の数十万の相互接続にスケール可能な透過操作を全光学的に行うために,ディープラーニングによって構築された回折光学ネットワークを提案する。 以上の結果から,与えられた置換操作を近似する回折光ネットワークの容量は,システム内の回折層数と学習可能な伝送素子数に比例することがわかった。 このような深い回折ネットワーク設計は、システムの物理的アライメントと出力回折効率の観点から、実用的な課題を提起することができる。 我々は,任意に選択された置換操作を全能的に行うような不均衡耐性拡散型設計を考案し,スペクトルのthz部分で動作する回折型置換ネットワークを初めて実験的に実証した。 Diffractive Permutation Networkは、セキュリティ、画像暗号化、データ処理などの様々な用途や通信、特にTHz帯域に接近する無線通信におけるキャリア周波数など、無線ネットワークにおけるチャネルルーティングや相互接続パネルとして機能する可能性がある。

Permutation matrices form an important computational building block frequently used in various fields including e.g., communications, information security and data processing. Optical implementation of permutation operators with relatively large number of input-output interconnections based on power-efficient, fast, and compact platforms is highly desirable. Here, we present diffractive optical networks engineered through deep learning to all-optically perform permutation operations that can scale to hundreds of thousands of interconnections between an input and an output field-of-view using passive transmissive layers that are individually structured at the wavelength scale. Our findings indicate that the capacity of the diffractive optical network in approximating a given permutation operation increases proportional to the number of diffractive layers and trainable transmission elements in the system. Such deeper diffractive network designs can pose practical challenges in terms of physical alignment and output diffraction efficiency of the system. We addressed these challenges by designing misalignment tolerant diffractive designs that can all-optically perform arbitrarily-selected permutation operations, and experimentally demonstrated, for the first time, a diffractive permutation network that operates at THz part of the spectrum. Diffractive permutation networks might find various applications in e.g., security, image encryption and data processing, along with telecommunications; especially with the carrier frequencies in wireless communications approaching THz-bands, the presented diffractive permutation networks can potentially serve as channel routing and interconnection panels in wireless networks.
翻訳日:2022-06-22 20:03:38 公開日:2022-06-21
# (参考訳) 周辺視トランスフォーマ

Vicinity Vision Transformer ( http://arxiv.org/abs/2206.10552v1 )

ライセンス: CC BY 4.0
Weixuan Sun, Zhen Qin, Hui Deng, Jianyuan Wang, Yi Zhang, Kaihao Zhang, Nick Barnes, Stan Birchfield, Lingpeng Kong, Yiran Zhong(参考訳) 視覚変換器は多くのコンピュータビジョンタスクで大きな成功を収めている。 しかし、その中心的なコンポーネントであるSoftmax attentionは、計算複雑性とメモリフットプリントが二次的であるため、視覚変換器が高解像度の画像にスケールアップすることを禁止している。 同様の問題を緩和するために自然言語処理(nlp)タスクに線形注意が導入されたが、既存の線形注意を視覚トランスフォーマーに直接適用することは、十分な結果をもたらすことはない。 この問題を調査し,コンピュータビジョンタスクがNLPタスクよりもローカル情報に重点を置いていることを見出した。 この観測に基づいて,線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。 具体的には,各画像パッチに対して,隣接パッチを用いて測定した2次元マンハッタン距離に基づいて注意重みを調節する。 この場合、近隣のパッチは遠方のパッチよりも強い注目を集める。 さらに,その効率性を示すためにはトークン長を特徴量よりも大きくする必要があるため,精度を損なうことなく特徴量を削減する新しい近傍視覚トランスフォーマ(vvt)構造を提案する。 我々は,CIFAR100, ImageNet1K, ADE20Kデータセットについて広範囲に実験を行い,本手法の有効性を検証した。 提案手法は,入力解像度が大きくなると,従来のトランスフォーマーベースおよび畳み込みベースネットワークよりもGFlopsの速度が遅い。 特に,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。

Vision transformers have shown great success on numerous computer vision tasks. However, its central component, softmax attention, prohibits vision transformers from scaling up to high-resolution images, due to both the computational complexity and memory footprint being quadratic. Although linear attention was introduced in natural language processing (NLP) tasks to mitigate a similar issue, directly applying existing linear attention to vision transformers may not lead to satisfactory results. We investigate this problem and find that computer vision tasks focus more on local information compared with NLP tasks. Based on this observation, we present a Vicinity Attention that introduces a locality bias to vision transformers with linear complexity. Specifically, for each image patch, we adjust its attention weight based on its 2D Manhattan distance measured by its neighbouring patches. In this case, the neighbouring patches will receive stronger attention than far-away patches. Moreover, since our Vicinity Attention requires the token length to be much larger than the feature dimension to show its efficiency advantages, we further propose a new Vicinity Vision Transformer (VVT) structure to reduce the feature dimension without degenerating the accuracy. We perform extensive experiments on the CIFAR100, ImageNet1K, and ADE20K datasets to validate the effectiveness of our method. Our method has a slower growth rate of GFlops than previous transformer-based and convolution-based networks when the input resolution increases. In particular, our approach achieves state-of-the-art image classification accuracy with 50% fewer parameters than previous methods.
翻訳日:2022-06-22 19:54:35 公開日:2022-06-21
# (参考訳) H&E-Computational Biomarkerは肺腺癌に対するユニバーサルEGFRスクリーニングを可能にする

H&E-based Computational Biomarker Enables Universal EGFR Screening for Lung Adenocarcinoma ( http://arxiv.org/abs/2206.10573v1 )

ライセンス: CC BY 4.0
Gabriele Campanella, David Ho, Ida H\"aggstr\"om, Anton S Becker, Jason Chang, Chad Vanderbilt, Thomas J Fuchs(参考訳) 肺腺癌は肺がんの最も一般的な形態であり、肺がんは世界中で最も多い死因である。 EGFR陽性肺腺癌はTKI療法に高い反応率を示しており、肺癌の分子検査の本質となっている。 現在のガイドラインでは、検査の必要性を考慮しているが、ほとんどの患者は定期的にプロファイルされていないため、数百万人が肺がんの最適な治療を受けていない。 シークエンシング(Sequencing)はEGFR変異の分子試験における金の標準であるが、結果が戻ってくるまでに数週間かかる可能性がある。 シークエンシングのための組織を保存しながらEGFR変異を迅速かつ安価に検出できる代替スクリーニングツールの開発は、準最適治療患者の数を減らすのに役立つ。 今回我々は,EGFR変異の予測に病理画像と臨床変数を統合し,これまでで最大の臨床コホートで84%のAUCを達成できる多モードアプローチを提案する。 このような計算モデルは、少ない追加コストでデプロイできる。 その臨床応用は、中国では53.1%、米国では96.6%の患者を減少させる可能性がある。

Lung cancer is the leading cause of cancer death worldwide, with lung adenocarcinoma being the most prevalent form of lung cancer. EGFR positive lung adenocarcinomas have been shown to have high response rates to TKI therapy, underlying the essential nature of molecular testing for lung cancers. Despite current guidelines consider testing necessary, a large portion of patients are not routinely profiled, resulting in millions of people not receiving the optimal treatment for their lung cancer. Sequencing is the gold standard for molecular testing of EGFR mutations, but it can take several weeks for results to come back, which is not ideal in a time constrained scenario. The development of alternative screening tools capable of detecting EGFR mutations quickly and cheaply while preserving tissue for sequencing could help reduce the amount of sub-optimally treated patients. We propose a multi-modal approach which integrates pathology images and clinical variables to predict EGFR mutational status achieving an AUC of 84% on the largest clinical cohort to date. Such a computational model could be deployed at large at little additional cost. Its clinical application could reduce the number of patients who receive sub-optimal treatments by 53.1% in China, and up to 96.6% in the US.
翻訳日:2022-06-22 19:23:59 公開日:2022-06-21
# 最適制御可能な知覚損失圧縮

Optimally Controllable Perceptual Lossy Compression ( http://arxiv.org/abs/2206.10082v1 )

ライセンス: Link先を確認
Zeyu Yan, Fei Wen, Peilin Liu(参考訳) 損失圧縮の最近の研究は、歪みと知覚品質が互いに相反していることを示し、歪みと知覚のトレードオフを推し進めた(D-P)。 直感的に異なる知覚品質を達成するためには、異なるデコーダをトレーニングする必要がある。 本稿では,任意の(無限個の異なる)D-Pトレードオフを最適に達成できるデコーダが2つしかないことを明らかにする。 D-Pトレードオフ境界の任意の点は、最小のMSEデコーダと特異的に構築された完全知覚デコーダの出力間の単純な線形補間によって達成できることを示す。 一方、知覚的品質(二乗ワッサーシュタイン2距離メートル法の観点から)は補間係数によって定量的に制御できる。 さらに,完全な知覚的デコーダを構築するために,理論的に最適な2つのトレーニングフレームワークを提案する。 新しいフレームワークは、理論的に最適であるだけでなく、実用的な知覚的復号化において最先端の性能を得ることができる既存の手法で広く使われている歪み+逆損失ベースヒューリスティックフレームワークとは異なる。 最後に、理論的な発見と実験によるフレームワークの優位性を実証する。 コードは、https://github.com/zeyuyan/controllable-perceptual-compressionで入手できる。

Recent studies in lossy compression show that distortion and perceptual quality are at odds with each other, which put forward the tradeoff between distortion and perception (D-P). Intuitively, to attain different perceptual quality, different decoders have to be trained. In this paper, we present a nontrivial finding that only two decoders are sufficient for optimally achieving arbitrary (an infinite number of different) D-P tradeoff. We prove that arbitrary points of the D-P tradeoff bound can be achieved by a simple linear interpolation between the outputs of a minimum MSE decoder and a specifically constructed perfect perceptual decoder. Meanwhile, the perceptual quality (in terms of the squared Wasserstein-2 distance metric) can be quantitatively controlled by the interpolation factor. Furthermore, to construct a perfect perceptual decoder, we propose two theoretically optimal training frameworks. The new frameworks are different from the distortion-plus-adversarial loss based heuristic framework widely used in existing methods, which are not only theoretically optimal but also can yield state-of-the-art performance in practical perceptual decoding. Finally, we validate our theoretical finding and demonstrate the superiority of our frameworks via experiments. Code is available at: https://github.com/ZeyuYan/Controllable-Perceptual-Compression
翻訳日:2022-06-22 19:20:40 公開日:2022-06-21
# 高ダイナミックレンジ光場に対する4次元dctパーセプショナル符号化を用いた畳み込みオートエンコーダに基づく統合表現・圧縮方式

An Integrated Representation & Compression Scheme Based on Convolutional Autoencoders with 4D DCT Perceptual Encoding for High Dynamic Range Light Fields ( http://arxiv.org/abs/2206.10131v1 )

ライセンス: Link先を確認
Sally Khaidem and Mansi Sharma(参考訳) 新興および既存のライトフィールドディスプレイは、立体眼鏡フリーのプラットフォーム上で3dシーンをリアルに表現する能力が高い。 ライトフィールドサイズは3dディスプレイとストリーミング目的を利用した大きな欠点である。 光場が高ダイナミックレンジであるとき、そのサイズは劇的に増加する。 本稿では,高ダイナミックレンジの光場に対して知覚的にロスレスな圧縮をもたらす新しい圧縮アルゴリズムを提案する。 このアルゴリズムは4次元ボリュームとして解釈することで、hdr光場の相互および内部相関を利用する。 HDR光場圧縮は、新しい4DDCT-UCS (4D-DCT Uniform Colour Space)アルゴリズムに基づいている。 HEVCによる4DDCT-UCS取得画像の追加符号化は、HDR光フィールドデータにおけるフレーム内、フレーム間、および固有の冗長性を排除する。 JPEG-XL や HDR ビデオ符号化アルゴリズムのような最先端のコーダとの比較により,提案手法の実際の光場に対する圧縮性能が向上した。

The emerging and existing light field displays are highly capable of realistic presentation of 3D scenes on auto-stereoscopic glasses-free platforms. The light field size is a major drawback while utilising 3D displays and streaming purposes. When a light field is of high dynamic range, the size increases drastically. In this paper, we propose a novel compression algorithm for a high dynamic range light field which yields a perceptually lossless compression. The algorithm exploits the inter and intra view correlations of the HDR light field by interpreting it to be a four-dimension volume. The HDR light field compression is based on a novel 4DDCT-UCS (4D-DCT Uniform Colour Space) algorithm. Additional encoding of 4DDCT-UCS acquired images by HEVC eliminates intra-frame, inter-frame and intrinsic redundancies in HDR light field data. Comparison with state-of-the-art coders like JPEG-XL and HDR video coding algorithm exhibits superior compression performance of the proposed scheme for real-world light fields.
翻訳日:2022-06-22 19:20:20 公開日:2022-06-21
# covechoリソース制限肺超音波画像解析ツールによるトリアージとアクティブラーニングの高速化

covEcho Resource constrained lung ultrasound image analysis tool for faster triaging and active learning ( http://arxiv.org/abs/2206.10183v1 )

ライセンス: Link先を確認
Jinu Joseph, Mahesh Raveendranatha Panicker, Yale Tung Chen, Kesavadas Chandrasekharan, Vimal Chacko Mondy, Anoop Ayyappan, Jineesh Valakkada and Kiran Vishnu Narayan(参考訳) 肺超音波(LUS)は、肺の連続的および定期的なモニタリングに使用できる唯一の医用画像モダリティである。 これは、肺感染症の発症時に肺の症状を追跡するのや、新型コロナウイルスなどのパンデミックによる肺へのワクチン接種の影響を追跡するのに非常に有用である。 肺の重症度を様々なクラスに分類する自動化や、様々なLUSランドマークとマニフェストの自動セグメンテーションのための多くの試みがある。 しかし、これらのアプローチはすべて静的機械学習モデルのトレーニングに基づいており、大きなデータセットを臨床的にアノテートし、計算量が多く、ほとんどの場合は非リアルタイムである。 本研究では,リソース制約条件下でのcovid-19被験者のトリージングを高速化するために,リアルタイム軽量アクティブラーニングによるアプローチを提案する。 you look only once(yolo)ネットワークに基づくこのツールは、様々なlusのランドマーク、アーティファクト、マニフェストの識別、肺感染症の重症度予測、臨床医からのフィードバックや画像品質に基づくアクティブラーニングの可能性、感染の重大度が高く画像品質の高い重要なフレームの要約に基づく画像の品質を提供する能力を持つ。 提案手法は,LUSランドマークの予測において平均平均精度(mAP)が0.5のIoU(Intersection over Union)閾値で66%であることを示す。 14MBの軽量YOLOv5sネットワークは、Quadro P4000 GPUで動作しながら123FPSを達成する。 このツールは著者からの要求に応じて使用と分析が可能である。

Lung ultrasound (LUS) is possibly the only medical imaging modality which could be used for continuous and periodic monitoring of the lung. This is extremely useful in tracking the lung manifestations either during the onset of lung infection or to track the effect of vaccination on lung as in pandemics such as COVID-19. There have been many attempts in automating the classification of severity of lung into various classes or automatic segmentation of various LUS landmarks and manifestations. However, all these approaches are based on training static machine learning models which require a significantly clinically annotated large dataset and are computationally heavy and most of the time non-real time. In this work, a real-time light weight active learning-based approach is presented for faster triaging in COVID-19 subjects in resource constrained settings. The tool, based on the you look only once (YOLO) network, has the capability of providing the quality of images based on the identification of various LUS landmarks, artefacts and manifestations, prediction of severity of lung infection, possibility of active learning based on the feedback from clinicians or on the image quality and a summarization of the significant frames which are having high severity of infection and high image quality for further analysis. The results show that the proposed tool has a mean average precision (mAP) of 66% at an Intersection over Union (IoU) threshold of 0.5 for the prediction of LUS landmarks. The 14MB lightweight YOLOv5s network achieves 123 FPS while running in a Quadro P4000 GPU. The tool is available for usage and analysis upon request from the authors.
翻訳日:2022-06-22 19:20:02 公開日:2022-06-21
# 非協調衛星間の相対航法におけるPose初期化手法の実験的検討

Experimental Evaluation of Pose Initialization Methods for Relative Navigation Between Non-Cooperative Satellites ( http://arxiv.org/abs/2206.10244v1 )

ライセンス: Link先を確認
Sebastiano Chiodini, Marco Pertile, Pierdomenico Fracchiolla, Andrea Valmorbida, Enrico Lorenzini, Stefano Debei(参考訳) 本研究では,2つの衛星間の相対的なポーズ初期化の問題,すなわちチェッカーと非協調目標について解析した。 分析対象はモノクロカメラシステム(Sharma-Ventura-D'Amico(SVD)法)とシルエットマッチング法である。 どちらの手法も対象の幾何に関する事前知識に基づいているが、ファイドリアルマーカーや事前範囲の測定や状態情報を必要としない。 テストは2U CubeSatモックアップを電動回転ステージに取り付けられたターゲットとして使用し、チェッカーカメラに対する相対運動をシミュレートした。 モーションキャプチャシステムは、2つのモックアップ間のfiducial relative motionを提供し、解析された初期化アルゴリズムの性能を評価するための参照器として使用された。

In this work, we have analyzed the problem of relative pose initialization between two satellites: a chaser and a non-cooperating target. The analysis has been targeted to two close-range methods based on a monocular camera system: the Sharma-Ventura-D'Amico (SVD) method and the silhouette matching method. Both methods are based on a priori knowledge of the target geometry, but neither fiducial markers nor a priori range measurements or state information are needed. The tests were carried out using a 2U CubeSat mock-up as target attached to a motorized rotary stage to simulate its relative motion with respect to the chaser camera. A motion capture system was used as a reference instrument that provides the fiducial relative motion between the two mock-ups and allows to evaluate the performances of the initialization algorithms analyzed.
翻訳日:2022-06-22 19:18:33 公開日:2022-06-21
# 膝軟骨セグメンテーションのための位置優先クラスタリングに基づく自己注意モジュール

Position-prior Clustering-based Self-attention Module for Knee Cartilage Segmentation ( http://arxiv.org/abs/2206.10286v1 )

ライセンス: Link先を確認
Dong Liang, Jun Liu, Kuanquan Wang, Gongning Luo, Wei Wang, Shuo Li(参考訳) 膝軟骨の形態的変化(特に大腿部軟骨と大腿部軟骨)は、mr画像で表現され、軟骨分断結果で評価される変形性膝関節症の進行と密接に関連している。 そこで, 変形性膝関節症に対する縦断的研究に有効な自動軟骨分割モデルを提案する必要がある。 本研究では,畳み込みニューラルネットワークにおける受容野の制限による不連続なセグメンテーションの問題を解消するために,位置優先クラスタリングに基づく自己保持モジュール(PCAM)を提案する。 PCAMでは、各クラス中心と特徴点間の長距離依存性を自己注意により捕捉し、コンテキスト情報を再配置することで、相対的特徴を強化し、セグメンテーション結果の連続性を確保する。 クラス内の一貫性を育み、セグメンテーション結果の精度をさらに向上させるクラスセンタの推定にclutseringベースの手法を用いる。 位置優先は、偽陽性をサイドアウトプットから除外し、中心推定をより正確にする。 OAI-ZIBデータセット上で十分な実験を行う。 実験の結果,PCAMとセグメンテーションネットワークの組み合わせによるセグメンテーション性能は,医療セグメンテーションタスクにおけるPCAMの可能性を示すオリジナルモデルと比較して明らかな改善が得られた。 ソースコードはリンクから公開されている。 https://github.com/LeongDong/PCAMNet

The morphological changes in knee cartilage (especially femoral and tibial cartilages) are closely related to the progression of knee osteoarthritis, which is expressed by magnetic resonance (MR) images and assessed on the cartilage segmentation results. Thus, it is necessary to propose an effective automatic cartilage segmentation model for longitudinal research on osteoarthritis. In this research, to relieve the problem of inaccurate discontinuous segmentation caused by the limited receptive field in convolutional neural networks, we proposed a novel position-prior clustering-based self-attention module (PCAM). In PCAM, long-range dependency between each class center and feature point is captured by self-attention allowing contextual information re-allocated to strengthen the relative features and ensure the continuity of segmentation result. The clutsering-based method is used to estimate class centers, which fosters intra-class consistency and further improves the accuracy of segmentation results. The position-prior excludes the false positives from side-output and makes center estimation more precise. Sufficient experiments are conducted on OAI-ZIB dataset. The experimental results show that the segmentation performance of combination of segmentation network and PCAM obtains an evident improvement compared to original model, which proves the potential application of PCAM in medical segmentation tasks. The source code is publicly available from link: https://github.com/LeongDong/PCAMNet
翻訳日:2022-06-22 19:18:18 公開日:2022-06-21
# 極性変換を用いたcta画像の高効率深層学習型大動脈セグメンテーション

Using the Polar Transform for Efficient Deep Learning-Based Aorta Segmentation in CTA Images ( http://arxiv.org/abs/2206.10294v1 )

ライセンス: Link先を確認
Marin Ben\v{c}evi\'c, Marija Habijan, Irena Gali\'c, Danilo Babin(参考訳) 医用画像のセグメンテーションは、しばしば単一の画像上に複数の楕円オブジェクトをセグメンテーションする必要がある。 これには、他のタスクの中でも、軸方向のCTAスライスにおける大動脈などの分断容器が含まれる。 本稿では,これらの課題におけるニューラルネットワークの意味セグメンテーション性能を向上させるための一般的なアプローチを提案し,大動脈セグメンテーションの課題に対するアプローチを検証する。 2つのニューラルネットワークのカスケードを使用して、一方はu-netアーキテクチャに基づいて粗いセグメンテーションを行い、もう一方は入力の極性画像変換に関する最終セグメンテーションを実行する。 粗いセグメンテーションの連結成分分析は極変換を構成するために使用され、同じ画像の複数の変換に関する予測はヒステリシス閾値を用いて融合される。 本手法は,複雑なニューラルネットワークアーキテクチャを必要とせずにオータセグメンテーション性能を向上させる。 さらに,本手法は,最先端のセグメンテーション性能を実現しつつ,ロバスト性と画素レベルのリコールを改善していることを示す。

Medical image segmentation often requires segmenting multiple elliptical objects on a single image. This includes, among other tasks, segmenting vessels such as the aorta in axial CTA slices. In this paper, we present a general approach to improving the semantic segmentation performance of neural networks in these tasks and validate our approach on the task of aorta segmentation. We use a cascade of two neural networks, where one performs a rough segmentation based on the U-Net architecture and the other performs the final segmentation on polar image transformations of the input. Connected component analysis of the rough segmentation is used to construct the polar transformations, and predictions on multiple transformations of the same image are fused using hysteresis thresholding. We show that this method improves aorta segmentation performance without requiring complex neural network architectures. In addition, we show that our approach improves robustness and pixel-level recall while achieving segmentation performance in line with the state of the art.
翻訳日:2022-06-22 19:17:37 公開日:2022-06-21
# 弱教師付き映像表現学習のためのバイキャリブレーションネットワーク

Bi-Calibration Networks for Weakly-Supervised Video Representation Learning ( http://arxiv.org/abs/2206.10491v1 )

ライセンス: Link先を確認
Fuchen Long and Ting Yao and Zhaofan Qiu and Xinmei Tian and Jiebo Luo and Tao Mei(参考訳) 検索されたクエリや周辺テキスト(タイトルなど)と組み合わせた大量のウェブビデオの活用は、教師付きビデオ表現学習の経済的かつ拡張可能な代替手段となる。 しかし、このような弱い視覚的・テキスト的接続のモデリングは、クエリ多義性(すなわち、クエリの多くの意味)とテキスト同型性(すなわち、異なるテキストの同じ構文構造)のため、簡単ではない。 本稿では,弱い教師付きビデオ表現学習を促進するために,クエリとテキスト間の相互校正設計を提案する。 具体的には,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。 技術的には、BCNは同じクエリで検索されたすべてのビデオのタイトルにクラスタリングを実行し、各クラスタのセントロイドをテキストプロトタイプとして取り込む。 クエリ語彙はクエリワードに基づいて直接構築される。 テキストプロトタイプ/クエリボキャブラリ上のビデオ-テキスト/ビデオ-クエリープロジェクションは、テキスト-クエリーまたはクエリ--テキストキャリブレーションを開始して、クエリーまたはテキストへの修正を見積もる。 2つの補正のバランスをとるための選択スキームも考案する。 各ビデオに対する問合せとタイトルを組み合わせた2つの大規模Webビデオデータセットを新たに収集し,それぞれYOVO-3MとYOVO-10Mと命名した。 3m web ビデオで学習した bcn のビデオ特徴は,下流タスクにおける線形モデルプロトコル下で優れた結果を得た。 さらに注目すべきは、さらに微調整された10mのwebビデオセットでトレーニングされたbcnは、1.6%となり、kinetics-400ではtop-1の精度が1.8%向上した。 ソースコードとデータセットは \url{https://github.com/FuchenUSTC/BCN} で入手できる。

The leverage of large volumes of web videos paired with the searched queries or surrounding texts (e.g., title) offers an economic and extensible alternative to supervised video representation learning. Nevertheless, modeling such weakly visual-textual connection is not trivial due to query polysemy (i.e., many possible meanings for a query) and text isomorphism (i.e., same syntactic structure of different text). In this paper, we introduce a new design of mutual calibration between query and text to boost weakly-supervised video representation learning. Specifically, we present Bi-Calibration Networks (BCN) that novelly couples two calibrations to learn the amendment from text to query and vice versa. Technically, BCN executes clustering on all the titles of the videos searched by an identical query and takes the centroid of each cluster as a text prototype. The query vocabulary is built directly on query words. The video-to-text/video-to-query projections over text prototypes/query vocabulary then start the text-to-query or query-to-text calibration to estimate the amendment to query or text. We also devise a selection scheme to balance the two corrections. Two large-scale web video datasets paired with query and title for each video are newly collected for weakly-supervised video representation learning, which are named as YOVO-3M and YOVO-10M, respectively. The video features of BCN learnt on 3M web videos obtain superior results under linear model protocol on downstream tasks. More remarkably, BCN trained on the larger set of 10M web videos with further fine-tuning leads to 1.6%, and 1.8% gains in top-1 accuracy on Kinetics-400, and Something-Something V2 datasets over the state-of-the-art TDN, and ACTION-Net methods with ImageNet pre-training. Source code and datasets are available at \url{https://github.com/FuchenUSTC/BCN}.
翻訳日:2022-06-22 19:17:19 公開日:2022-06-21
# マルチuavによるサービス品質保証による野火調査と追跡の協調計画

Multi-UAV Planning for Cooperative Wildfire Coverage and Tracking with Quality-of-Service Guarantees ( http://arxiv.org/abs/2206.10544v1 )

ライセンス: Link先を確認
Esmaeil Seraj and Andrew Silva and Matthew Gombolay(参考訳) 近年では、ロボットと無人航空機(uavs)のチームが、正確なオンラインの野火のカバレッジと追跡を可能にするために、研究者から委託されている。 これまでの作業の大部分は、このようなマルチロボットシステムの調整と制御に重点を置いていたが、これらのUAVチームは、火の軌跡(位置と伝播のダイナミクス)を推論して、時間的地平線上での性能を保証する能力を与えていない。 本研究では,複数UAVチームにおける協調作業と,確率的性能保証を備えた火災追跡を実現するための予測フレームワークを提案する。 本手法により,uavは安全・安全条件下での時間的協調のために潜在火災伝播ダイナミクスを推定できる。 我々は,UAVチームが限られた資源を分配し,事例特異的な推定状態に従って消防エリア全体をカバーし,確率的性能保証を提供するための,新規で解析的な時間的・追跡エラー境界を導出する。 本研究の結果は, 空域火災監視のケーススタディに限らず, 捜索・救助, 目標追跡, 国境パトロールなどの問題に適用可能である。 シミュレーションにおける本手法を評価し,実ロボットのダイナミクスと制約を考慮した物理マルチロボットテストにおいて,提案手法の実証を行った。 本手法の性能を定量的に評価し, 7.5倍, 9.0倍の追跡誤差を, 最先端モデルベースおよび強化学習ベンチマークと比較した。

In recent years, teams of robot and Unmanned Aerial Vehicles (UAVs) have been commissioned by researchers to enable accurate, online wildfire coverage and tracking. While the majority of prior work focuses on the coordination and control of such multi-robot systems, to date, these UAV teams have not been given the ability to reason about a fire's track (i.e., location and propagation dynamics) to provide performance guarantee over a time horizon. Motivated by the problem of aerial wildfire monitoring, we propose a predictive framework which enables cooperation in multi-UAV teams towards collaborative field coverage and fire tracking with probabilistic performance guarantee. Our approach enables UAVs to infer the latent fire propagation dynamics for time-extended coordination in safety-critical conditions. We derive a set of novel, analytical temporal, and tracking-error bounds to enable the UAV-team to distribute their limited resources and cover the entire fire area according to the case-specific estimated states and provide a probabilistic performance guarantee. Our results are not limited to the aerial wildfire monitoring case-study and are generally applicable to problems, such as search-and-rescue, target tracking and border patrol. We evaluate our approach in simulation and provide demonstrations of the proposed framework on a physical multi-robot testbed to account for real robot dynamics and restrictions. Our quantitative evaluations validate the performance of our method accumulating 7.5x and 9.0x smaller tracking-error than state-of-the-art model-based and reinforcement learning benchmarks, respectively.
翻訳日:2022-06-22 19:13:58 公開日:2022-06-21
# (参考訳) 意味論-奥行き共生--意味論と奥行きの深い半教師付き学習

Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth ( http://arxiv.org/abs/2206.10562v1 )

ライセンス: CC BY 4.0
Nitin Bansal, Pan Ji, Junsong Yuan, Yi Xu(参考訳) マルチタスク学習(MTL)パラダイムは、2つ以上のタスクを共同で学習することに焦点を当て、w.r.tモデルの一般化性、性能、トレーニング/推論メモリフットプリントの大幅な向上を目指している。 上記の利点は、視覚関連 {\bf dense} 予測タスクの合同訓練において必要不可欠なものとなる。 本研究では,2つの重み付きタスクのMTL問題である,セマンティックセグメンテーションと深度推定に取り組み,これら2つのタスク間のチャネル間の効果的な機能共有を容易にする,クロスチャネル注意モジュール({CCAM})を提案する。 真の共生精神では、予測深度(AffineMix)と予測深度(ColorAug)を用いてセマンティックセグメンテーションタスクのための新しいデータ拡張を定式化し、予測深度(ColorAug)を用いた単純な深度増強を行う。 最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度とセマンティックセグメンテーションに基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。

Multi-task learning (MTL) paradigm focuses on jointly learning two or more tasks, aiming for significant improvement w.r.t model's generalizability, performance, and training/inference memory footprint. The aforementioned benefits become ever so indispensable in the case of joint training for vision-related {\bf dense} prediction tasks. In this work, we tackle the MTL problem of two dense tasks, \ie, semantic segmentation and depth estimation, and present a novel attention module called Cross-Channel Attention Module ({CCAM}), which facilitates effective feature sharing along each channel between the two tasks, leading to mutual performance gain with a negligible increase in trainable parameters. In a true symbiotic spirit, we then formulate a novel data augmentation for the semantic segmentation task using predicted depth called {AffineMix}, and a simple depth augmentation using predicted semantics called {ColorAug}. Finally, we validate the performance gain of the proposed method on the Cityscapes dataset, which helps us achieve state-of-the-art results for a semi-supervised joint model based on depth and semantic segmentation.
翻訳日:2022-06-22 19:09:30 公開日:2022-06-21
# 早期リコール・後期精度:知覚劣化環境下での操作制約下でのマルチロボットセマンティックオブジェクトマッピング

Early Recall, Late Precision: Multi-Robot Semantic Object Mapping under Operational Constraints in Perceptually-Degraded Environments ( http://arxiv.org/abs/2206.10062v1 )

ライセンス: Link先を確認
Xianmei Lei, Taeyeon Kim, Nicolas Marchal, Daniel Pastor, Barry Ridge, Frederik Sch\"oller, Edward Terry, Fernando Chavez, Thomas Touma, Kyohei Otsu and Ali Agha(参考訳) 探索・救助などの長距離マルチロボット自律探査作業における意味的オブジェクトマッピングは重要かつ困難である。 このようなミッションの間、高いリコールは真のターゲットオブジェクトの欠落を避けるのが望ましいし、偽陽性に対して貴重な運用時間を浪費することを避けるためにも高い精度が重要である。 視覚認識アルゴリズムの最近の進歩を踏まえると、前者は主に自律的に解けるが、後者は人間のオペレーターの監督なしには解決が難しい。 しかし、ミッション時間、計算要求、メッシュネットワーク帯域幅などの運用上の制約は、適切に管理されない限り、オペレータのタスクを無効にすることができる。 本稿では,この問題を解決するためにEarly Recall, Late Precision (EaRLaP)意味オブジェクトマッピングパイプラインを提案する。 earlapはdarpa subterranean challengeでチーム・コスター(team costar)が使用し、ロボットチームが遭遇したすべてのアーティファクトをうまく検出した。 各種データセット上でのEaRLaPの結果と性能について論じる。

Semantic object mapping in uncertain, perceptually degraded environments during long-range multi-robot autonomous exploration tasks such as search-and-rescue is important and challenging. During such missions, high recall is desirable to avoid missing true target objects and high precision is also critical to avoid wasting valuable operational time on false positives. Given recent advancements in visual perception algorithms, the former is largely solvable autonomously, but the latter is difficult to address without the supervision of a human operator. However, operational constraints such as mission time, computational requirements, mesh network bandwidth and so on, can make the operator's task infeasible unless properly managed. We propose the Early Recall, Late Precision (EaRLaP) semantic object mapping pipeline to solve this problem. EaRLaP was used by Team CoSTAR in DARPA Subterranean Challenge, where it successfully detected all the artifacts encountered by the team of robots. We will discuss these results and performance of the EaRLaP on various datasets.
翻訳日:2022-06-22 18:50:13 公開日:2022-06-21
# EBGANを用いた異常侵入検出

Using EBGAN for Anomaly Intrusion Detection ( http://arxiv.org/abs/2206.10400v1 )

ライセンス: Link先を確認
Yi Cui, Wenfeng Shen, Jian Zhang, Weijia Lu, Chuang Liu, Lin Sun, Si Chen(参考訳) アクティブなネットワークセキュリティ保護スキームとして、侵入検知システム(IDS)は、悪意のあるネットワークトラフィックの形でネットワーク攻撃を検出する重要な責任を負う。 侵入検知技術はIDSの重要な部分である。 現在、多くの研究者が侵入検知技術に関する広範な研究を行っている。 しかし,大規模ネットワークトラフィックデータに対する効率的な侵入検出手法の開発は依然として困難である。 GAN(Generative Adversarial Networks)は複雑な高次元データのための強力なモデリング機能を持つため、この問題に対処するための新しいアイデアを提供する。 本稿では,ネットワークレコードを通常のトラフィックや悪意のあるトラフィックに分類するEBGANベースの侵入検知手法であるIDS-EBGANを提案する。 IDS-EBGANのジェネレータは、トレーニングセット内の元の悪意のあるネットワークトラフィックを、敵対的な悪意のある例に変換する責任がある。 これは,悪意のあるトラフィックを識別する識別能力を向上させるために,敵対学習を利用したいためである。 同時に、判別器はオートエンコーダモデルを採用する。 テスト中、IDS-EBGANは識別器の再構成誤差を使用してトラフィックレコードを分類する。

As an active network security protection scheme, intrusion detection system (IDS) undertakes the important responsibility of detecting network attacks in the form of malicious network traffic. Intrusion detection technology is an important part of IDS. At present, many scholars have carried out extensive research on intrusion detection technology. However, developing an efficient intrusion detection method for massive network traffic data is still difficult. Since Generative Adversarial Networks (GANs) have powerful modeling capabilities for complex high-dimensional data, they provide new ideas for addressing this problem. In this paper, we put forward an EBGAN-based intrusion detection method, IDS-EBGAN, that classifies network records as normal traffic or malicious traffic. The generator in IDS-EBGAN is responsible for converting the original malicious network traffic in the training set into adversarial malicious examples. This is because we want to use adversarial learning to improve the ability of discriminator to detect malicious traffic. At the same time, the discriminator adopts Autoencoder model. During testing, IDS-EBGAN uses reconstruction error of discriminator to classify traffic records.
翻訳日:2022-06-22 18:49:53 公開日:2022-06-21
# 音声事前学習におけるマスキング予測のための教師案内コードブック

Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training ( http://arxiv.org/abs/2206.10125v1 )

ライセンス: Link先を確認
Chengyi Wang, Yiming Wang, Yu Wu, Sanyuan Chen, Jinyu Li, Shujie Liu, Furu Wei(参考訳) 近年,音声認識のための自己教師型学習(SSL)が目覚ましい進歩を遂げている。 通常、教師なしの方法で得られるコードブックを必要とするため、正確性が低く、解釈が難しい。 本稿では,音素レベルアライメント(PBERT)を生成するためのハイブリッドASRシステムとのデコードや,エンドツーエンドのCTCモデル(CTCクラスタリング)から抽出した教師付き音声特徴のクラスタリングによって,自動音声認識(ASR)性能と事前学習効率を向上させるための2つの教師付きコードブック生成手法を提案する。 ハイブリッドモデルとCTCモデルの両方は、微調整で使用される少量のラベル付き音声で訓練される。 実験により,提案手法のSSLおよび自己学習ベースラインに対して,最大17.0%の相対的なWER削減効果が得られた。 事前学習したモデルでは,非asr音声タスクにおける転送性も良好である。

Recently, masked prediction pre-training has seen remarkable progress in self-supervised learning (SSL) for speech recognition. It usually requires a codebook obtained in an unsupervised way, making it less accurate and difficult to interpret. We propose two supervision-guided codebook generation approaches to improve automatic speech recognition (ASR) performance and also the pre-training efficiency, either through decoding with a hybrid ASR system to generate phoneme-level alignments (named PBERT), or performing clustering on the supervised speech features extracted from an end-to-end CTC model (named CTC clustering). Both the hybrid and CTC models are trained on the same small amount of labeled speech as used in fine-tuning. Experiments demonstrate significant superiority of our methods to various SSL and self-training baselines, with up to 17.0% relative WER reduction. Our pre-trained models also show good transferability in a non-ASR speech task.
翻訳日:2022-06-22 18:45:22 公開日:2022-06-21
# (参考訳) テンソル-トレイン分解によるnimble gnn埋め込み

Nimble GNN Embedding with Tensor-Train Decomposition ( http://arxiv.org/abs/2206.10581v1 )

ライセンス: CC BY 4.0
Chunxing Yin, Da Zheng, Israt Nisa, Christos Faloutos, George Karypis, Richard Vuduc(参考訳) 本稿では、テンソルトレイン(tt)分解によりよりコンパクトにグラフニューラルネットワーク(gnns)の埋め込みテーブルを表現する新しい手法を提案する。 私たちが考えるシナリオは (a)ノードの特徴を欠いたグラフデータにより、トレーニング中の埋め込みの学習が必要となること。 b)大容量GPUにおいても,ホスト間GPU通信を減らすために,より小さなテーブルを必要とするGPUプラットフォームを利用したい。 TTを使用することで、埋め込みのコンパクトなパラメータ化が可能になり、巨大なグラフであっても最新のGPUに完全に適合するほど小さくすることができる。 このアプローチは、初期化と階層グラフ分割のための巧妙なスキームと組み合わせることで、大規模なベンチマークデータセットでノード埋め込みベクターのサイズを1,659倍から81,362倍に削減し、マルチgpuシステムで同等あるいは優れた精度と大幅な高速化を実現する。 場合によっては、入力に明示的なノード機能がないモデルでも、ノード機能を使用するモデルの精度にマッチします。

This paper describes a new method for representing embedding tables of graph neural networks (GNNs) more compactly via tensor-train (TT) decomposition. We consider the scenario where (a) the graph data that lack node features, thereby requiring the learning of embeddings during training; and (b) we wish to exploit GPU platforms, where smaller tables are needed to reduce host-to-GPU communication even for large-memory GPUs. The use of TT enables a compact parameterization of the embedding, rendering it small enough to fit entirely on modern GPUs even for massive graphs. When combined with judicious schemes for initialization and hierarchical graph partitioning, this approach can reduce the size of node embedding vectors by 1,659 times to 81,362 times on large publicly available benchmark datasets, achieving comparable or better accuracy and significant speedups on multi-GPU systems. In some cases, our model without explicit node features on input can even match the accuracy of models that use node features.
翻訳日:2022-06-22 18:39:28 公開日:2022-06-21
# ブートストラップ型オポチュニティカリキュラムによるロバスト深層強化学習

Robust Deep Reinforcement Learning through Bootstrapped Opportunistic Curriculum ( http://arxiv.org/abs/2206.10057v1 )

ライセンス: Link先を確認
Junlin Wu and Yevgeniy Vorobeychik(参考訳) 深い強化学習の進歩にもかかわらず、国家観測に対する敵の摂動に対して非常に脆弱であることが示されている。 強化学習の対向的堅牢性を向上しようとする最近の試みは、非常に小さな摂動のみを許容し、摂動サイズが増加するにつれて脆弱である。 頑健な強化学習のためのフレキシブルな対数カリキュラム学習フレームワークであるBootstrapped Opportunistic Adversarial Curriculum Learning (BCL)を提案する。 本フレームワークは,各カリキュラムフェーズの保守的ブートストラップと,前フェーズの複数実行から得られる高品質なソリューションとを組み合わせ,カリキュラムを前向きにスキップする。 実験の結果,提案するBCLフレームワークにより,学習方針の頑健さと対向的摂動を劇的に改善できることがわかった。 最も大きな改善はpongであり、我々のフレームワークは最大25/255の摂動に対して堅牢性をもたらします。 私たちのコードは、https://github.com/jlwu002/BCLで利用可能です。

Despite considerable advances in deep reinforcement learning, it has been shown to be highly vulnerable to adversarial perturbations to state observations. Recent efforts that have attempted to improve adversarial robustness of reinforcement learning can nevertheless tolerate only very small perturbations, and remain fragile as perturbation size increases. We propose Bootstrapped Opportunistic Adversarial Curriculum Learning (BCL), a novel flexible adversarial curriculum learning framework for robust reinforcement learning. Our framework combines two ideas: conservatively bootstrapping each curriculum phase with highest quality solutions obtained from multiple runs of the previous phase, and opportunistically skipping forward in the curriculum. In our experiments we show that the proposed BCL framework enables dramatic improvements in robustness of learned policies to adversarial perturbations. The greatest improvement is for Pong, where our framework yields robustness to perturbations of up to 25/255; in contrast, the best existing approach can only tolerate adversarial noise up to 5/255. Our code is available at: https://github.com/jlwu002/BCL.
翻訳日:2022-06-22 18:19:34 公開日:2022-06-21
# 行動マスキングを用いた強化学習による安全・心理的な交通信号制御

Safe and Psychologically Pleasant Traffic Signal Control with Reinforcement Learning using Action Masking ( http://arxiv.org/abs/2206.10122v1 )

ライセンス: Link先を確認
Arthur M\"uller, Matthia Sabatelli(参考訳) トラヒック信号制御(tsc)のための強化学習(rl)は,従来の手法よりも交差点のトラヒックフローを制御するシミュレーションの性能が向上している。 しかし、いくつかの課題により、RTLベースのTSCがまだ現場に配備されていない。 実際のデプロイメントにおける大きな課題のひとつは、すべての安全要件が運用中は常に満たされることを保証することです。 本稿では,設計上安全な動作空間を用いて,実世界の交差点における安全を確保する手法を提案する。 動作空間は、交差点の衝突しない信号色の組み合わせを表すトラヒックフェーズを含んでいる。 さらに、アクションマスキング機構は、適切な位相遷移のみが行われることを保証する。 現実のデプロイメントにおけるもうひとつの課題は,道路ユーザのストレスを回避するコントロール行動を保証することだ。 我々は、アクションマスキング機構を拡張してドメイン知識を組み込むことで、これを実現する方法を実証する。 私たちは現実的なシミュレーションシナリオでアプローチをテストし検証します。 安全性と心理的に快適な制御行動を確保することにより,本手法はRTL for TSCの現実的な展開に向けた開発を促進する。

Reinforcement learning (RL) for traffic signal control (TSC) has shown better performance in simulation for controlling the traffic flow of intersections than conventional approaches. However, due to several challenges, no RL-based TSC has been deployed in the field yet. One major challenge for real-world deployment is to ensure that all safety requirements are met at all times during operation. We present an approach to ensure safety in a real-world intersection by using an action space that is safe by design. The action space encompasses traffic phases, which represent the combination of non-conflicting signal colors of the intersection. Additionally, an action masking mechanism makes sure that only appropriate phase transitions are carried out. Another challenge for real-world deployment is to ensure a control behavior that avoids stress for road users. We demonstrate how to achieve this by incorporating domain knowledge through extending the action masking mechanism. We test and verify our approach in a realistic simulation scenario. By ensuring safety and psychologically pleasant control behavior, our approach drives development towards real-world deployment of RL for TSC.
翻訳日:2022-06-22 18:19:14 公開日:2022-06-21
# インターネットと悪意のあるトラフィック分類のためのオープンソースフレームワーク

Open-Source Framework for Encrypted Internet and Malicious Traffic Classification ( http://arxiv.org/abs/2206.10144v1 )

ライセンス: Link先を確認
Ofek Bader, Adi Lichy, Amit Dvir, Ran Dubin, Chen Hajaj(参考訳) インターネットトラフィック分類は、ネットワークの可視性、qos(quality of services)、侵入検出、qoe(quality of experience)、トラヒックトレンド分析において重要な役割を果たす。 プライバシー、完全性、機密性、プロトコルの難読化を改善するため、現在のトラフィックはSSL/TLSなどの暗号化プロトコルに基づいている。 文学における機械学習(ML)と深層学習(DL)モデルの利用の増加に伴い、標準化されたフレームワークが欠如しているため、異なるモデルとメソッドの比較は困難で困難になっている。 本稿では,osf-eimtcという,学習プロセスの完全なパイプラインを提供するオープンソースフレームワークを提案する。 良く知られたデータセットから、新しくよく知られた特徴を抽出し、(交通分類文献から)よく知られたMLとDLモデルの実装と評価を提供する。 このようなフレームワークは、トラフィック分類領域の研究を容易にし、より反復可能で再現可能で、実行が容易になり、よく知られた新しい機能やモデルのより正確な比較を可能にする。 フレームワーク評価の一環として、複数のデータセット、モデル、機能セットを利用して、フレームワークが利用可能なさまざまなケースを実演します。 公開データセットの分析を行い,OSF-EIMTCを用いたオープンチャレンジへの参加をコミュニティに呼びかける。

Internet traffic classification plays a key role in network visibility, Quality of Services (QoS), intrusion detection, Quality of Experience (QoE) and traffic-trend analyses. In order to improve privacy, integrity, confidentiality, and protocol obfuscation, the current traffic is based on encryption protocols, e.g., SSL/TLS. With the increased use of Machine-Learning (ML) and Deep-Learning (DL) models in the literature, comparison between different models and methods has become cumbersome and difficult due to a lack of a standardized framework. In this paper, we propose an open-source framework, named OSF-EIMTC, which can provide the full pipeline of the learning process. From the well-known datasets to extracting new and well-known features, it provides implementations of well-known ML and DL models (from the traffic classification literature) as well as evaluations. Such a framework can facilitate research in traffic classification domains, so that it will be more repeatable, reproducible, easier to execute, and will allow a more accurate comparison of well-known and novel features and models. As part of our framework evaluation, we demonstrate a variety of cases where the framework can be of use, utilizing multiple datasets, models, and feature sets. We show analyses of publicly available datasets and invite the community to participate in our open challenges using the OSF-EIMTC.
翻訳日:2022-06-22 18:18:17 公開日:2022-06-21
# 非同期および異種クライアント更新によるフェデレーション最適化の一般理論

A General Theory for Federated Optimization with Asynchronous and Heterogeneous Clients Updates ( http://arxiv.org/abs/2206.10189v1 )

ライセンス: Link先を確認
Yann Fraboni, Richard Vidal, Laetitia Kameni, Marco Lorenzi(参考訳) 本稿では,勾配更新の遅延を考慮した非同期フェデレーション学習最適化手法を提案する。 我々の理論的枠組みは、例えば異種ハードウェア機能のために、クライアントの更新時間の変動を表す確率的集約重みを導入し、標準的なfedavg集約スキームを拡張している。 我々の定式化は、クライアントが不均一なデータセットを持ち、確率勾配降下(SGD)の少なくとも1ステップを実行する一般的な連邦設定に適用される。 このようなスキームの収束を実証し,関連する最小条件をフェデレーション問題の最適条件とする。 我々の一般的なフレームワークは、集中学習、FedAvg、非同期FedAvg、FedBuffといった既存の最適化手法に適用できることを示します。 この理論により、異種条件下での連合学習実験を設計するための有意義なガイドラインを作成できる。 具体的には,FedAvgの新たな拡張であるFedFixを開発し,同期アグリゲーションの収束安定性を維持しつつ,効率的な非同期フェデレーショントレーニングを実現する。 我々は、非同期fedavgが安定性を犠牲にして高速収束に繋がることを示す一連の実験で、実証実験を行い、最終的に同期および非同期fedavgに対するfedfixの改善を実証した。

We propose a novel framework to study asynchronous federated learning optimization with delays in gradient updates. Our theoretical framework extends the standard FedAvg aggregation scheme by introducing stochastic aggregation weights to represent the variability of the clients update time, due for example to heterogeneous hardware capabilities. Our formalism applies to the general federated setting where clients have heterogeneous datasets and perform at least one step of stochastic gradient descent (SGD). We demonstrate convergence for such a scheme and provide sufficient conditions for the related minimum to be the optimum of the federated problem. We show that our general framework applies to existing optimization schemes including centralized learning, FedAvg, asynchronous FedAvg, and FedBuff. The theory here provided allows drawing meaningful guidelines for designing a federated learning experiment in heterogeneous conditions. In particular, we develop in this work FedFix, a novel extension of FedAvg enabling efficient asynchronous federated training while preserving the convergence stability of synchronous aggregation. We empirically demonstrate our theory on a series of experiments showing that asynchronous FedAvg leads to fast convergence at the expense of stability, and we finally demonstrate the improvements of FedFix over synchronous and asynchronous FedAvg.
翻訳日:2022-06-22 18:17:54 公開日:2022-06-21
# ソフトマックスとスカッシュの近似操作によるカプセルネットワークのエッジ化

Enabling Capsule Networks at the Edge through Approximate Softmax and Squash Operations ( http://arxiv.org/abs/2206.10200v1 )

ライセンス: Link先を確認
Alberto Marchisio and Beatrice Bussolino and Edoardo Salvati and Maurizio Martina and Guido Masera and Muhammad Shafique(参考訳) カプセルネットワーク(capsnets)のような複雑なディープニューラルネットワークは、計算集約的な操作のコストで高い学習能力を発揮する。 エッジデバイスへの展開を可能にするため,ソフトマックスやスカッシュのような複雑な操作の近似変種を設計するために近似計算を活用することを提案する。 本研究では,ASIC設計フローで実装した設計の面積,消費電力,臨界経路遅延と,正確な関数と比較して量子化されたCapsNetsの精度とのトレードオフを評価する。

Complex Deep Neural Networks such as Capsule Networks (CapsNets) exhibit high learning capabilities at the cost of compute-intensive operations. To enable their deployment on edge devices, we propose to leverage approximate computing for designing approximate variants of the complex operations like softmax and squash. In our experiments, we evaluate tradeoffs between area, power consumption, and critical path delay of the designs implemented with the ASIC design flow, and the accuracy of the quantized CapsNets, compared to the exact functions.
翻訳日:2022-06-22 18:17:31 公開日:2022-06-21
# 個人化サブグラフフェデレーション学習

Personalized Subgraph Federated Learning ( http://arxiv.org/abs/2206.10206v1 )

ライセンス: Link先を確認
Jinheon Baek, Wonyong Jeong, Jiongdao Jin, Jaehong Yoon, Sung Ju Hwang(参考訳) 現実世界のシナリオでは、より大きなグローバルグラフのサブグラフは複数のデバイスや機関に分散され、プライバシー制限のためローカルにのみアクセス可能である。 最近提案されたサブグラフフェデレートラーニング(FL)手法は、グラフニューラルネットワーク(GNN)を分散訓練しながら、プライベートなローカルサブグラフにまたがる欠落したリンクを扱う。 しかし、グローバルグラフの異なる部分からなる部分グラフによって生じる部分グラフ間の必然的不均一性を見落としている。 例えば、サブグラフはより大きなグローバルグラフ内のコミュニティの1つに属するかもしれない。 そのような場合の単純部分グラフFLは、不均一グラフ分布で訓練された局所的なGNNモデルから非互換な知識を崩壊させる。 このような制限を克服するために、単一グローバルGNNモデルを学ぶのではなく、関連ローカルGNNモデルの協調改善に焦点を当てたパーソナライズされたサブグラフFL問題を導入し、それに取り組むための新しいフレームワークFEDerated Personalized sUBgraph Learning (FED-PUB)を提案する。 パーソナライズされたサブグラフFLにおける重要な課題は、サーバがそれぞれのクライアントが持っているサブグラフを知らないことである。 したがってFED-PUBは、ランダムグラフを入力としてローカルGNNの機能埋め込みを利用して類似性を計算し、サーバ側アグリゲーションの重み付け平均化を行う。 さらに、各クライアントのパーソナライズされたスパースマスクを学習し、集約されたパラメータのサブグラフ関連サブセットのみを選択して更新する。 我々は,FED-PUBのサブグラフFL性能を6つのデータセットで検証し,オーバーラップしないサブグラフとオーバーラップするサブグラフの両方を考慮した。

In real-world scenarios, subgraphs of a larger global graph may be distributed across multiple devices or institutions, and only locally accessible due to privacy restrictions, although there may be links between them. Recently proposed subgraph Federated Learning (FL) methods deal with those missing links across private local subgraphs while distributively training Graph Neural Networks (GNNs) on them. However, they have overlooked the inevitable heterogeneity among subgraphs, caused by subgraphs comprising different parts of a global graph. For example, a subgraph may belong to one of the communities within the larger global graph. A naive subgraph FL in such a case will collapse incompatible knowledge from local GNN models trained on heterogeneous graph distributions. To overcome such a limitation, we introduce a new subgraph FL problem, personalized subgraph FL, which focuses on the joint improvement of the interrelated local GNN models rather than learning a single global GNN model, and propose a novel framework, FEDerated Personalized sUBgraph learning (FED-PUB), to tackle it. A crucial challenge in personalized subgraph FL is that the server does not know which subgraph each client has. FED-PUB thus utilizes functional embeddings of the local GNNs using random graphs as inputs to compute similarities between them, and use them to perform weighted averaging for server-side aggregation. Further, it learns a personalized sparse mask at each client to select and update only the subgraph-relevant subset of the aggregated parameters. We validate FED-PUB for its subgraph FL performance on six datasets, considering both non-overlapping and overlapping subgraphs, on which ours largely outperforms relevant baselines.
翻訳日:2022-06-22 18:17:22 公開日:2022-06-21
# コントラスト学習によるオフラインメタ強化学習のためのロバストタスク表現

Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning ( http://arxiv.org/abs/2206.10442v1 )

ライセンス: Link先を確認
Haoqi Yuan, Zongqing Lu(参考訳) オフラインデータから学習して新しいタスクに適応する実践的強化学習パラダイムであるオフラインメタ強化学習について検討する。 オフラインデータの配信は、行動方針とタスクとで共同で決定される。 既存のオフラインメタ強化学習アルゴリズムではこれらの要因を識別できないため、タスク表現が動作ポリシーの変更に不安定になる。 この問題に対処するために,学習・テストにおける行動方針の分布ミスマッチに頑健なタスク表現のためのコントラスト学習フレームワークを提案する。 本研究では,双方向エンコーダ構造を設計し,相互情報最大化を用いてタスク表現学習を形式化し,対照学習目標を導出し,負対の真の分布を近似する手法をいくつか紹介する。 様々なオフラインメタ強化学習ベンチマークにおける実験により,本手法が先行手法よりも優れていること,特に分布外行動ポリシーへの一般化が示された。 コードはhttps://github.com/PKU-AI-Edge/CORROで公開されている。

We study offline meta-reinforcement learning, a practical reinforcement learning paradigm that learns from offline data to adapt to new tasks. The distribution of offline data is determined jointly by the behavior policy and the task. Existing offline meta-reinforcement learning algorithms cannot distinguish these factors, making task representations unstable to the change of behavior policies. To address this problem, we propose a contrastive learning framework for task representations that are robust to the distribution mismatch of behavior policies in training and test. We design a bi-level encoder structure, use mutual information maximization to formalize task representation learning, derive a contrastive learning objective, and introduce several approaches to approximate the true distribution of negative pairs. Experiments on a variety of offline meta-reinforcement learning benchmarks demonstrate the advantages of our method over prior methods, especially on the generalization to out-of-distribution behavior policies. The code is available at https://github.com/PKU-AI-Edge/CORRO.
翻訳日:2022-06-22 18:16:50 公開日:2022-06-21
# 時間前に宝くじに勝つ:効率的な早期ネットワークの刈り取り

Winning the Lottery Ahead of Time: Efficient Early Network Pruning ( http://arxiv.org/abs/2206.10451v1 )

ライセンス: Link先を確認
John Rachwan, Daniel Z\"ugner, Bertrand Charpentier, Simon Geisler, Morgane Ayle, Stephan G\"unnemann(参考訳) ディープニューラルネットワークのスパース化タスクであるpruningが最近注目を集めている。 最先端のpruningメソッドは、非常にスパースなモデルを抽出するが、1)これらのスパースモデルを見つけるプロセスは、しばしば非常に高価であり、2)非構造化pruningは、gpuメモリ、トレーニング時間、または二酸化炭素排出量の点でメリットを提供しない。 本研究では, 学習課題(1)の前後で最先端スパースモデルを効率的に抽出し, 構造化方法(2)に応用できる, グラディエントフロー保存(EarlyCroP)による早期圧縮を提案する。 これにより、高密度バージョンが大きすぎるコモディティGPU上でスパースネットワークのトレーニングが可能になり、コスト削減とハードウェア要件の削減が可能になります。 実験によって、EarlyCroPは、多くのタスク(分類、回帰を含む)とドメイン(コンピュータビジョン、自然言語処理、強化学習を含む)において、豊富なベースラインのセットより優れています。 EarlyCroPは、プルーニングベースラインを上回りながら、密集したトレーニングに匹敵する精度をもたらす。

Pruning, the task of sparsifying deep neural networks, received increasing attention recently. Although state-of-the-art pruning methods extract highly sparse models, they neglect two main challenges: (1) the process of finding these sparse models is often very expensive; (2) unstructured pruning does not provide benefits in terms of GPU memory, training time, or carbon emissions. We propose Early Compression via Gradient Flow Preservation (EarlyCroP), which efficiently extracts state-of-the-art sparse models before or early in training addressing challenge (1), and can be applied in a structured manner addressing challenge (2). This enables us to train sparse networks on commodity GPUs whose dense versions would be too large, thereby saving costs and reducing hardware requirements. We empirically show that EarlyCroP outperforms a rich set of baselines for many tasks (incl. classification, regression) and domains (incl. computer vision, natural language processing, and reinforcment learning). EarlyCroP leads to accuracy comparable to dense training while outperforming pruning baselines.
翻訳日:2022-06-22 18:16:34 公開日:2022-06-21
# 予測保守, 機械学習, 物理に基づくモデリングの交差点におけるディジタルツイン景観

The Digital Twin Landscape at the Crossroads of Predictive Maintenance, Machine Learning and Physics Based Modeling ( http://arxiv.org/abs/2206.10462v1 )

ライセンス: Link先を確認
Brian Kunzer, Mario Berges, Artur Dubrawski(参考訳) デジタル双生児の概念は過去10年で爆発的に普及したが、その複数の定義、新しい技術としての斬新さ、実用的な応用性など、多くのレビュー、調査、プレスリリースにもかかわらず、混乱している。 デジタル・ツイン(digital twin)という用語の歴史は、製品ライフサイクル管理、アセット・メンテナンス、機器艦隊の管理、運用、計画といった分野において、初期の文脈とともに検討されている。 デジタル双生児を利用するための最小実行可能なフレームワークの定義も7つの必須要素に基づいている。 DTメソッドが採用されているDTアプリケーションや業界への簡単なツアーも概説されている。 デジタルツインフレームワークの適用は、予測保守の分野で強調され、その拡張は機械学習と物理に基づくモデリングを活用している。 機械学習と物理に基づくモデリングを組み合わせてハイブリッドなデジタルツインフレームワークを構築し、分離時に各手法の欠点を相乗的に緩和することができる。 デジタル双生児モデルの実装に関する課題についても述べる。 デジタルツイン技術が急速に成長し、成熟するにつれて、複雑な機器のインテリジェントなアップキープのためのツールやソリューションを大幅に強化するという大きな約束が実現されることが期待されている。

The concept of a digital twin has exploded in popularity over the past decade, yet confusion around its plurality of definitions, its novelty as a new technology, and its practical applicability still exists, all despite numerous reviews, surveys, and press releases. The history of the term digital twin is explored, as well as its initial context in the fields of product life cycle management, asset maintenance, and equipment fleet management, operations, and planning. A definition for a minimally viable framework to utilize a digital twin is also provided based on seven essential elements. A brief tour through DT applications and industries where DT methods are employed is also outlined. The application of a digital twin framework is highlighted in the field of predictive maintenance, and its extensions utilizing machine learning and physics based modeling. Employing the combination of machine learning and physics based modeling to form hybrid digital twin frameworks, may synergistically alleviate the shortcomings of each method when used in isolation. Key challenges of implementing digital twin models in practice are additionally discussed. As digital twin technology experiences rapid growth and as it matures, its great promise to substantially enhance tools and solutions for intelligent upkeep of complex equipment, are expected to materialize.
翻訳日:2022-06-22 18:15:05 公開日:2022-06-21
# D-CIPHER:閉形PDEの発見

D-CIPHER: Discovery of Closed-form PDEs ( http://arxiv.org/abs/2206.10586v1 )

ライセンス: Link先を確認
Krzysztof Kacprzyk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 偏微分方程式や高次常微分方程式を含む閉形式微分方程式は、科学者が自然現象をモデル化し理解するのに最も重要な道具の一つである。 データからこれらの方程式を直接発見することは、データで観測されない様々な微分(\textit{equation-data mismatch})間の関係をモデル化する必要があるため、困難である。 現在のアプローチは方程式の形式について強い仮定をしており、多くのよく知られたシステムを見つけられなかった。 さらに、導関数を推定することで方程式データミスマッチを解消することが多く、ノイズやサンプルの少ないシステムでは不十分である。 この目的のために,D-CIPHERを提案する。これは人工物の測定に頑健であり,新しい,非常に一般的な微分方程式のクラスを明らかにすることができる。 さらに,D-CIPHERを効率的に探索するための新しい最適化手法であるCoLLieを設計する。 最後に、現在の手法の能力を超える多くのよく知られた方程式を発見できることを実証的に示す。

Closed-form differential equations, including partial differential equations and higher-order ordinary differential equations, are one of the most important tools used by scientists to model and better understand natural phenomena. Discovering these equations directly from data is challenging because it requires modeling relationships between various derivatives that are not observed in the data (\textit{equation-data mismatch}) and it involves searching across a huge space of possible equations. Current approaches make strong assumptions about the form of the equation and thus fail to discover many well-known systems. Moreover, many of them resolve the equation-data mismatch by estimating the derivatives, which makes them inadequate for noisy and infrequently sampled systems. To this end, we propose D-CIPHER, which is robust to measurement artifacts and can uncover a new and very general class of differential equations. We further design a novel optimization procedure, CoLLie, to help D-CIPHER search through this class efficiently. Finally, we demonstrate empirically that it can discover many well-known equations that are beyond the capabilities of current methods.
翻訳日:2022-06-22 18:14:45 公開日:2022-06-21
# (参考訳) edgenext:モバイルビジョンアプリケーションのためのcnn-transformerアーキテクチャ

EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications ( http://arxiv.org/abs/2206.10589v1 )

ライセンス: CC BY 4.0
Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khan(参考訳) 精度の高まりを追求するため、通常、大規模で複雑なニューラルネットワークが開発されている。 このようなモデルは高い計算資源を必要とするため、エッジデバイスにはデプロイできない。 いくつかのアプリケーション領域で有用であるため、リソース効率の良い汎用ネットワークを構築することは非常に興味深い。 本研究では,cnnモデルとトランスフォーマモデルの両方の強みを効果的に結合し,新しい効率的なハイブリッドアーキテクチャedgenextを提案する。 特にedgenextでは、sdtaエンコーダを導入し、入力テンソルを複数のチャネルグループに分割し、チャネル次元にまたがる自己アテンションとともに深さ方向の畳み込みを利用して、暗黙的に受容場を増加させ、マルチスケールな特徴をエンコードします。 分類,検出,セグメンテーションタスクに関する広範な実験により,提案手法の利点が明らかになり,比較的少ない計算条件で,最先端の手法よりも優れていた。 1.3Mパラメータを持つEdgeNeXtモデルは、ImageNet-1K上で71.2\%のTop-1精度を実現し、絶対ゲイン2.2\%、FLOP28\%でMobileViTを上回った。 さらに、5.6mパラメータを持つedgenextモデルはimagenet-1kで79.4\%top-1精度を達成している。 コードとモデルはhttps://t.ly/_vu9で公開されている。

In the pursuit of achieving ever-increasing accuracy, large and complex neural networks are usually developed. Such models demand high computational resources and therefore cannot be deployed on edge devices. It is of great interest to build resource-efficient general purpose networks due to their usefulness in several application areas. In this work, we strive to effectively combine the strengths of both CNN and Transformer models and propose a new efficient hybrid architecture EdgeNeXt. Specifically in EdgeNeXt, we introduce split depth-wise transpose attention (SDTA) encoder that splits input tensors into multiple channel groups and utilizes depth-wise convolution along with self-attention across channel dimensions to implicitly increase the receptive field and encode multi-scale features. Our extensive experiments on classification, detection and segmentation tasks, reveal the merits of the proposed approach, outperforming state-of-the-art methods with comparatively lower compute requirements. Our EdgeNeXt model with 1.3M parameters achieves 71.2\% top-1 accuracy on ImageNet-1K, outperforming MobileViT with an absolute gain of 2.2\% with 28\% reduction in FLOPs. Further, our EdgeNeXt model with 5.6M parameters achieves 79.4\% top-1 accuracy on ImageNet-1K. The code and models are publicly available at https://t.ly/_Vu9.
翻訳日:2022-06-22 18:11:01 公開日:2022-06-21
# (参考訳) 時間的に一貫したセマンティックビデオ編集

Temporally Consistent Semantic Video Editing ( http://arxiv.org/abs/2206.10590v1 )

ライセンス: CC BY 4.0
Yiran Xu, Badour AlBahar, Jia-Bin Huang(参考訳) generative adversarial networks (gans) は、オブジェクトクラスの変更、属性の変更、スタイルの転送など、実画像の素晴らしい画像生成品質とセマンティック編集能力を示している。 しかし、これらのGANベースの編集をフレームごとに独立してビデオに適用すると、必然的に時間的なひねりが生じる。 本稿では,時間的コヒーレントなビデオ編集を容易にする簡易かつ効果的な方法を提案する。 私たちの核となるアイデアは、潜在コードと事前学習されたジェネレータの両方を最適化することで、時間的測光の不整合を最小限に抑えることです。 我々は,異なる領域における編集の質とGAN変換技術を評価し,ベースラインに対して良好な結果を示す。

Generative adversarial networks (GANs) have demonstrated impressive image generation quality and semantic editing capability of real images, e.g., changing object classes, modifying attributes, or transferring styles. However, applying these GAN-based editing to a video independently for each frame inevitably results in temporal flickering artifacts. We present a simple yet effective method to facilitate temporally coherent video editing. Our core idea is to minimize the temporal photometric inconsistency by optimizing both the latent code and the pre-trained generator. We evaluate the quality of our editing on different domains and GAN inversion techniques and show favorable results against the baselines.
翻訳日:2022-06-22 17:45:39 公開日:2022-06-21
# 変圧器を用いた漢字のSVGベクトルフォント生成

SVG Vector Font Generation for Chinese Characters with Transformer ( http://arxiv.org/abs/2206.10329v1 )

ライセンス: Link先を確認
Haruka Aoki, Kiyoharu Aizawa(参考訳) 漢字のフォントをデザインするのは、非常に労働集約的で時間を要する。 最新の手法では、英語アルファベットのベクトルフォントを生成することに成功したが、中国語のベクトルフォント生成は、その複雑な形状と多数の文字のために未解決の問題となっている。 本研究では,1つのスタイルとコンテンツ参照のみから中国語のベクトルフォントを自動生成する問題に対処する。 そこで我々は,トランスフォーマー機能とロス機能を備えた新しいネットワークアーキテクチャを提案する。 データセットの範囲は依然としてsans-serifファミリに限定されていたが,提案手法を用いて初めて中国語ベクターフォントの生成に成功した。

Designing fonts for Chinese characters is highly labor-intensive and time-consuming. While the latest methods successfully generate the English alphabet vector font, despite the high demand for automatic font generation, Chinese vector font generation has been an unsolved problem owing to its complex shape and numerous characters. This study addressed the problem of automatically generating Chinese vector fonts from only a single style and content reference. We proposed a novel network architecture with Transformer and loss functions to capture structural features without differentiable rendering. Although the dataset range was still limited to the sans-serif family, we successfully generated the Chinese vector font for the first time using the proposed method.
翻訳日:2022-06-22 17:43:28 公開日:2022-06-21
# コントラストマッチングと重み付き音声損失を用いたマルチビューステレオの強化

Enhancing Multi-view Stereo with Contrastive Matching and Weighted Focal Loss ( http://arxiv.org/abs/2206.10360v1 )

ライセンス: Link先を確認
Yikang Ding, Zhenyang Li, Dihe Huang, Zhiheng Li, Kai Zhang(参考訳) 近年,学習型マルチビューステレオ (MVS) 手法が進歩し,従来の手法を上回っている。 しかし、その正確さと完全性はまだ苦戦している。 本稿では,コントラスト学習と特徴マッチングに触発された既存ネットワークの性能向上のための新しい手法を提案する。 まず, 深さ方向の正しい一致点を正のサンプルとして, その他の点を負のサンプルとして扱い, 特徴の類似性に基づいてコントラスト損失を計算するコントラストマッチング損失(cml)を提案する。 さらに,未重要領域における低信頼画素の損失への寄与を予測された信頼度に応じて弱めるために,より優れた分類能力を有する重み付き焦点損失(WFL)を提案する。 DTU, Tanks and Temples および BlendedMVS データセットで行った大規模な実験により,本手法は最先端の性能とベースラインネットワークよりも大幅に向上したことを示す。

Learning-based multi-view stereo (MVS) methods have made impressive progress and surpassed traditional methods in recent years. However, their accuracy and completeness are still struggling. In this paper, we propose a new method to enhance the performance of existing networks inspired by contrastive learning and feature matching. First, we propose a Contrast Matching Loss (CML), which treats the correct matching points in depth-dimension as positive sample and other points as negative samples, and computes the contrastive loss based on the similarity of features. We further propose a Weighted Focal Loss (WFL) for better classification capability, which weakens the contribution of low-confidence pixels in unimportant areas to the loss according to predicted confidence. Extensive experiments performed on DTU, Tanks and Temples and BlendedMVS datasets show our method achieves state-of-the-art performance and significant improvement over baseline network.
翻訳日:2022-06-22 17:43:15 公開日:2022-06-21
# MEStereo-Du2CNN:HDR3D用マルチ露光ステレオ画像からロバスト深さ推定を学習するための新しいデュアルチャネルCNN

MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications ( http://arxiv.org/abs/2206.10375v1 )

ライセンス: Link先を確認
Rohit Choudhary and Mansi Sharma and Uma T V and Rithvik Anil(参考訳) ディスプレイ技術は長年にわたって進化してきた。 3D技術を次のレベルに持ち込むために、実用的なHDRキャプチャ、処理、表示ソリューションを開発することが重要である。 マルチ露光ステレオ画像列の深さ推定は、コスト効率のよい3D HDRビデオコンテンツの開発に不可欠である。 本稿では,マルチ露光ステレオ深度推定のための新しい深層アーキテクチャを開発した。 提案されたアーキテクチャには2つの新しいコンポーネントがある。 まず,従来のステレオ深度推定におけるステレオマッチング手法を改良した。 アーキテクチャの立体深度推定コンポーネントとして,モノ・ステレオ・トランスファー学習アプローチをデプロイする。 提案手法では,コストボリュームを回避し,機能融合のための重み付けが異なるresnetベースのデュアルエンコーダシングルデコーダcnnに置き換える。 efficientnetベースのブロックは、異質性を学ぶために使用される。 次に, ステレオ画像から得られた不均質マップを, 頑健な不均質特徴融合法を用いて異なる露出レベルで組み合わせた。 異なる露出で得られた差分マップは、異なる品質尺度で計算された重みマップを用いてマージされる。 得られた最終的な不均一性マップはより堅牢であり、深度不連続性を維持する最善の特徴を保っている。 提案するcnnは、標準ダイナミックレンジステレオデータまたはマルチエクスポージャー低ダイナミックレンジステレオシーケンスを使用してトレーニングする柔軟性を提供する。 性能の面では,提案モデルは,挑戦的なシーンフローと異なる露出のミドルベリーステレオデータセットにおいて,定量的かつ定性的に,最先端のモノクラー・ステレオ深度推定法を上回る。 このアーキテクチャは複雑な自然のシーンで非常によく機能し、多様な3D HDRアプリケーションにその有用性を示す。

Display technologies have evolved over the years. It is critical to develop practical HDR capturing, processing, and display solutions to bring 3D technologies to the next level. Depth estimation of multi-exposure stereo image sequences is an essential task in the development of cost-effective 3D HDR video content. In this paper, we develop a novel deep architecture for multi-exposure stereo depth estimation. The proposed architecture has two novel components. First, the stereo matching technique used in traditional stereo depth estimation is revamped. For the stereo depth estimation component of our architecture, a mono-to-stereo transfer learning approach is deployed. The proposed formulation circumvents the cost volume construction requirement, which is replaced by a ResNet based dual-encoder single-decoder CNN with different weights for feature fusion. EfficientNet based blocks are used to learn the disparity. Secondly, we combine disparity maps obtained from the stereo images at different exposure levels using a robust disparity feature fusion approach. The disparity maps obtained at different exposures are merged using weight maps calculated for different quality measures. The final predicted disparity map obtained is more robust and retains best features that preserve the depth discontinuities. The proposed CNN offers flexibility to train using standard dynamic range stereo data or with multi-exposure low dynamic range stereo sequences. In terms of performance, the proposed model surpasses state-of-the-art monocular and stereo depth estimation methods, both quantitatively and qualitatively, on challenging Scene flow and differently exposed Middlebury stereo datasets. The architecture performs exceedingly well on complex natural scenes, demonstrating its usefulness for diverse 3D HDR applications.
翻訳日:2022-06-22 17:42:58 公開日:2022-06-21
# Wikipedia画像キャプションマッチングのためのトランスフォーマーに基づくマルチモーダル提案と再学習

Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia Image-Caption Matching ( http://arxiv.org/abs/2206.10436v1 )

ライセンス: Link先を確認
Nicola Messina, Davide Alessandro Coccomini, Andrea Esuli, Fabrizio Falchi(参考訳) webやオンライン百科事典のアクセシビリティが高まるにつれ、管理するデータの量は絶えず増加している。 例えばWikipediaには、複数の言語で書かれた何百万ページもある。 これらのページには、しばしばテキストコンテキストに欠けるイメージが含まれており、概念的に浮かんでいるため、発見と管理が困難である。 そこで本研究では,画像(URLと視覚データ)に関連付けられたデータを用いて,利用可能な大量のキャプションの中から正しいキャプションを見つけることを目的とした,ウィキペディアのイメージキャプションマッチングチャレンジに参加するためのシステムを提案する。 このタスクを実行できるシステムは、大規模なオンライン百科事典におけるマルチメディアコンテンツのアクセシビリティと完全性を改善する。 具体的には,最近のトランスフォーマーモデルを用いて,クエリ画像データとキャプションの関連性スコアを効率的かつ効果的に推定する2つのモデルのカスケードを提案する。 提案手法は画像とキャプションの大規模なプールを扱う上で有効な方法であり, 推論時の計算複雑性を抑えながら, 広範にわたる実験により検証する。 提案手法は,カグルチャレンジの個人リーダーボード上で0.53の正規化割引累積利得(ndcg)値を得た。

With the increased accessibility of web and online encyclopedias, the amount of data to manage is constantly increasing. In Wikipedia, for example, there are millions of pages written in multiple languages. These pages contain images that often lack the textual context, remaining conceptually floating and therefore harder to find and manage. In this work, we present the system we designed for participating in the Wikipedia Image-Caption Matching challenge on Kaggle, whose objective is to use data associated with images (URLs and visual data) to find the correct caption among a large pool of available ones. A system able to perform this task would improve the accessibility and completeness of multimedia content on large online encyclopedias. Specifically, we propose a cascade of two models, both powered by the recent Transformer model, able to efficiently and effectively infer a relevance score between the query image data and the captions. We verify through extensive experimentation that the proposed two-model approach is an effective way to handle a large pool of images and captions while maintaining bounded the overall computational complexity at inference time. Our approach achieves remarkable results, obtaining a normalized Discounted Cumulative Gain (nDCG) value of 0.53 on the private leaderboard of the Kaggle challenge.
翻訳日:2022-06-22 17:42:30 公開日:2022-06-21
# 領域適応型3Dモデルによる人間のメッシュ回復

Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery ( http://arxiv.org/abs/2206.10457v1 )

ライセンス: Link先を確認
Zhenzhen Weng, Kuan-Chieh Wang, Angjoo Kanazawa, Serena Yeung(参考訳) 一つの画像から3d人体を知覚する能力は、エンターテイメントやロボティクスから神経科学や医療に至るまで、さまざまな応用がある。 人間のメッシュ回復における根本的な課題は、トレーニングに必要な3Dメッシュターゲットを収集することである。 結果として、これらの制限された設定で収集されたベンチマークデータセットで進歩する一方で、モデルは分散シフトのために実世界の ``in-the-wild''' シナリオに一般化できない。 本研究では,データ拡張手法であるDomain Adaptive 3D Pose Augmentation (DAPA)を提案する。 DAPAは、合成メッシュから直接監視することで、合成データセットに基づく手法の強度と、ターゲットデータセットから真理2Dキーポイントを使用してドメイン適応手法を組み合わせる。 DAPAによる微調整は,ベンチマーク3DPWとAGORAの結果を効果的に改善することを示す。 さらに、実世界の親子間相互作用のビデオから算出した、挑戦的なデータセット上でのDAPAの有用性を実証する。

The ability to perceive 3D human bodies from a single image has a multitude of applications ranging from entertainment and robotics to neuroscience and healthcare. A fundamental challenge in human mesh recovery is in collecting the ground truth 3D mesh targets required for training, which requires burdensome motion capturing systems and is often limited to indoor laboratories. As a result, while progress is made on benchmark datasets collected in these restrictive settings, models fail to generalize to real-world ``in-the-wild'' scenarios due to distribution shifts. We propose Domain Adaptive 3D Pose Augmentation (DAPA), a data augmentation method that enhances the model's generalization ability in in-the-wild scenarios. DAPA combines the strength of methods based on synthetic datasets by getting direct supervision from the synthesized meshes, and domain adaptation methods by using ground truth 2D keypoints from the target dataset. We show quantitatively that finetuning with DAPA effectively improves results on benchmarks 3DPW and AGORA. We further demonstrate the utility of DAPA on a challenging dataset curated from videos of real-world parent-child interaction.
翻訳日:2022-06-22 17:42:11 公開日:2022-06-21
# 生体認証におけるプライバシー向上技術の概要

An Overview of Privacy-enhancing Technologies in Biometric Recognition ( http://arxiv.org/abs/2206.10465v1 )

ライセンス: Link先を確認
Pietro Melzi, Christian Rathgeb, Ruben Tolosana, Ruben Vera-Rodriguez, Christoph Busch(参考訳) プライバシー強化技術は基本的なデータ保護原則を実装する技術である。 生体認証に関しては、一般的にセンシティブに分類される保存された生体認証データを保護するために、異なる種類のプライバシー強化技術が導入されている。 この点において、様々な分類と概念分類が提案され、標準化活動が進められている。 しかし、これらの取り組みは主にプライバシー向上技術のサブカテゴリに特化しており、そのため一般化が欠如している。 本稿では,バイオメトリックスのためのプライバシエンハンシング技術の概念を統一したフレームワークで概観する。 既存の概念の主な側面と違いは、各処理ステップで詳細に強調される。 既存のアプローチの基本的特性と限界を議論し、データ保護技術や原則に関連づける。 さらに,バイオメトリックスにおけるプライバシエンハンシング技術の評価のシナリオと方法を提案する。 本論文は,バイオメトリックデータ保護分野への参入点として,経験豊富な研究者と非専門家を対象としている。

Privacy-enhancing technologies are technologies that implement fundamental data protection principles. With respect to biometric recognition, different types of privacy-enhancing technologies have been introduced for protecting stored biometric data which are generally classified as sensitive. In this regard, various taxonomies and conceptual categorizations have been proposed and standardization activities have been carried out. However, these efforts have mainly been devoted to certain sub-categories of privacy-enhancing technologies and therefore lack generalization. This work provides an overview of concepts of privacy-enhancing technologies for biometrics in a unified framework. Key aspects and differences between existing concepts are highlighted in detail at each processing step. Fundamental properties and limitations of existing approaches are discussed and related to data protection techniques and principles. Moreover, scenarios and methods for the assessment of privacy-enhancing technologies for biometrics are presented. This paper is meant as a point of entry to the field of biometric data protection and is directed towards experienced researchers as well as non-experts.
翻訳日:2022-06-22 17:41:51 公開日:2022-06-21
# SFace: 合成データを用いたプライバシフレンドリで正確な顔認識

SFace: Privacy-friendly and Accurate Face Recognition using Synthetic Data ( http://arxiv.org/abs/2206.10520v1 )

ライセンス: Link先を確認
Fadi Boutros, Marco Huber, Patrick Siebke, Tim Rieber, Naser Damer(参考訳) この文献で提案された最近のディープ顔認識モデルは、MS-Celeb-1MやVGGFace2といった大規模なパブリックデータセットを使用して、非常にディープニューラルネットワークのトレーニングを行い、主流のベンチマークで最先端のパフォーマンスを達成した。 近年、MS-Celeb-1MやVGGFace2といったこれらのデータセットの多くは、信頼できるプライバシーと倫理上の懸念のために取り下げられている。 これにより、プライバシフレンドリーな合成生成顔データセットを用いた顔認識モデルのトレーニングが実現可能かどうかを提案・検討する動機付けとなる。 この目的のために, クラス条件生成逆ネットワークを用いて, クラスラベル合成顔画像, sface を生成する。 このようなデータを用いた顔認識モデルのトレーニングにおけるプライバシーの側面に対処するために,合成データセットと生成モデルのトレーニングに使用されるオリジナルデータセットとの同一性に関する広範な評価実験を行う。 以上の結果から,合成データセットに同一のクラスラベルを持つデータセットの同一性を関連付けることは不可能であることが示唆された。 また,プライバシフレンドリーなデータセットであるSFace上で,3つの異なる学習戦略,多クラス分類,ラベルフリーな知識伝達,多クラス分類と知識伝達の複合学習を用いた顔認識学習を提案する。 報告された5つの顔のベンチマークによる評価結果は、プライバシフレンドリーな合成データセットが顔認識モデルのトレーニングに使用される可能性が高く、例えば、複数クラス分類を用いたLFWでの検証精度91.87\%、複合学習戦略を用いた99.13\%を実現していることを示している。

Recent deep face recognition models proposed in the literature utilized large-scale public datasets such as MS-Celeb-1M and VGGFace2 for training very deep neural networks, achieving state-of-the-art performance on mainstream benchmarks. Recently, many of these datasets, e.g., MS-Celeb-1M and VGGFace2, are retracted due to credible privacy and ethical concerns. This motivates this work to propose and investigate the feasibility of using a privacy-friendly synthetically generated face dataset to train face recognition models. Towards this end, we utilize a class-conditional generative adversarial network to generate class-labeled synthetic face images, namely SFace. To address the privacy aspect of using such data to train a face recognition model, we provide extensive evaluation experiments on the identity relation between the synthetic dataset and the original authentic dataset used to train the generative model. Our reported evaluation proved that associating an identity of the authentic dataset to one with the same class label in the synthetic dataset is hardly possible. We also propose to train face recognition on our privacy-friendly dataset, SFace, using three different learning strategies, multi-class classification, label-free knowledge transfer, and combined learning of multi-class classification and knowledge transfer. The reported evaluation results on five authentic face benchmarks demonstrated that the privacy-friendly synthetic dataset has high potential to be used for training face recognition models, achieving, for example, a verification accuracy of 91.87\% on LFW using multi-class classification and 99.13\% using the combined learning strategy.
翻訳日:2022-06-22 17:41:37 公開日:2022-06-21
# QuantFace: 合成データ低ビット量子化による軽量顔認識を目指して

QuantFace: Towards Lightweight Face Recognition by Synthetic Data Low-bit Quantization ( http://arxiv.org/abs/2206.10526v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Arjan Kuijper(参考訳) ディープラーニングに基づく顔認識モデルは、計算コストの高い全精度浮動小数点ネットワークを利用して、ディープニューラルネットワークの一般的なトレンドに従う。 計算要求に制約されたユースケースでそのようなネットワークをデプロイすることは、フル精度モデルで必要とされる大きなメモリのために、しばしば実現不可能である。 従来のコンパクト顔認識アプローチでは、特別なコンパクトアーキテクチャを設計し、実際のトレーニングデータを使用してスクラッチからトレーニングすることが提案されている。 本稿では,低ビット精度フォーマットモデル量子化に基づくquantfaceソリューションを提案する。 quantfaceは、特定のアーキテクチャを設計したり、実際のトレーニングデータにアクセスする必要なしに、既存の顔認識モデルの必要な計算コストを削減する。 quantfaceは、実際のトレーニングデータへのアクセシビリティに関する潜在的なプライバシー懸念と問題を軽減するために、量子化プロセスにプライバシに優しい合成顔データを導入する。 7つのベンチマークと4つのネットワークアーキテクチャに関する広範な評価実験を通じて、quantfaceは、実際のトレーニングデータセットにアクセスせずに、全精度モデルの検証性能を維持しながら、モデルサイズを最大5倍に削減できることを実証する。

Deep learning-based face recognition models follow the common trend in deep neural networks by utilizing full-precision floating-point networks with high computational costs. Deploying such networks in use-cases constrained by computational requirements is often infeasible due to the large memory required by the full-precision model. Previous compact face recognition approaches proposed to design special compact architectures and train them from scratch using real training data, which may not be available in a real-world scenario due to privacy concerns. We present in this work the QuantFace solution based on low-bit precision format model quantization. QuantFace reduces the required computational cost of the existing face recognition models without the need for designing a particular architecture or accessing real training data. QuantFace introduces privacy-friendly synthetic face data to the quantization process to mitigate potential privacy concerns and issues related to the accessibility to real training data. Through extensive evaluation experiments on seven benchmarks and four network architectures, we demonstrate that QuantFace can successfully reduce the model size up to 5x while maintaining, to a large degree, the verification performance of the full-precision model without accessing real training datasets.
翻訳日:2022-06-22 17:41:08 公開日:2022-06-21
# 構造化意味的一貫性を学習するマルチモーダル医用画像セグメンテーション

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency ( http://arxiv.org/abs/2206.10571v1 )

ライセンス: Link先を確認
Jie Yang, Ruimao Zhang, Chaoqun Wang, Zhen Li, Xiang Wan, Lingyan Zhang(参考訳) 医療画像解析を改善するためのマルチモーダルデータの統合が注目されている。 しかし、モーダルな不一致のため、単一モデルを使って複数のモーダルからデータを処理する方法はまだ未解決の問題である。 本稿では,マルチモーダル医用画像の画素レベルセグメンテーションを改善するための新しい手法を提案する。 本手法は, 共通意味情報を抽出しながら, モダリティの相違に対応するために, モダリティ特化モジュールとモダリティ共有モジュールの両方を採用した従来の手法とは異なり, トレーニング段階におけるモダリティ間の構造的セマンティック一貫性(セマンティッククラス表現とその相関関係)を学習するために, 慎重に設計された外部注意モジュール(EAM)を備えた単一トランスフォーマーをベースとした。 実際、上述したモダリティ間の構造的セマンティック一貫性は、それぞれモダリティレベルと画像レベルで整合性正規化を実装することで、徐々に達成できる。 提案したEAMは、異なるスケール表現のセマンティック一貫性を学習するために採用され、モデルが最適化されると破棄される。 したがって、テストフェーズでは、モデルの使いやすさとシンプルさをうまくバランスさせるように、すべてのモーダル予測のために1つのトランスフォーマーを維持するだけでよいのです。 提案手法の有効性を実証するために,(1)心構造セグメント化,(2)腹部多臓器セグメント化の2つの医療画像セグメント化シナリオについて実験を行った。 以上の結果から,提案手法は最先端の手法よりも広いマージンで優れており,特定のモダリティに対して極めて限られたトレーニングサンプル(例:1または3の注記CTやMRI画像)と競合する性能が得られた。

Integrating multi-modal data to improve medical image analysis has received great attention recently. However, due to the modal discrepancy, how to use a single model to process the data from multiple modalities is still an open issue. In this paper, we propose a novel scheme to achieve better pixel-level segmentation for unpaired multi-modal medical images. Different from previous methods which adopted both modality-specific and modality-shared modules to accommodate the appearance variance of different modalities while extracting the common semantic information, our method is based on a single Transformer with a carefully designed External Attention Module (EAM) to learn the structured semantic consistency (i.e. semantic class representations and their correlations) between modalities in the training phase. In practice, the above-mentioned structured semantic consistency across modalities can be progressively achieved by implementing the consistency regularization at the modality-level and image-level respectively. The proposed EAMs are adopted to learn the semantic consistency for different scale representations and can be discarded once the model is optimized. Therefore, during the testing phase, we only need to maintain one Transformer for all modal predictions, which nicely balances the model's ease of use and simplicity. To demonstrate the effectiveness of the proposed method, we conduct the experiments on two medical image segmentation scenarios: (1) cardiac structure segmentation, and (2) abdominal multi-organ segmentation. Extensive results show that the proposed method outperforms the state-of-the-art methods by a wide margin, and even achieves competitive performance with extremely limited training samples (e.g., 1 or 3 annotated CT or MRI images) for one specific modality.
翻訳日:2022-06-22 17:39:59 公開日:2022-06-21
# ヒト眼球運動に基づく深部畳み込みニューラルネットワークにおける視覚注意の誘導

Guiding Visual Attention in Deep Convolutional Neural Networks Based on Human Eye Movements ( http://arxiv.org/abs/2206.10587v1 )

ライセンス: Link先を確認
Leonard E. van Dyck, Sebastian J. Denzler, Walter R. Gruber(参考訳) ディープ・コンボリューショナル・ニューラル・ニューラルネットワーク(DCNN)は、もともと生物学的ビジョンの原理にインスパイアされ、オブジェクト認識の最良の計算モデルへと進化し、その結果、ニューロイメージングやニューラル時系列データとの比較を通して、腹側視覚経路による強いアーキテクチャ的および機能的並列性を示している。 近年のディープラーニングの進歩により、この類似性が低下しているように見えるため、計算神経科学は生物学的妥当性を逆エンジニアリングして有用なモデルを得る。 これまでの研究では、生物学的にインスパイアされたアーキテクチャがモデルの人間的類似性を増幅できることが示されているが、本研究では純粋にデータ駆動のアプローチを検討する。 人間の視線追跡データを用いて、トレーニング例を直接修正し、自然画像における物体認識中のモデルの視覚的注意を人間の固定の焦点から遠ざけるように誘導する。 我々は,人間の眼球追跡データに対するgradcam saliency mapを用いて,様々な操作型(標準的,人間的,非人間的注意)を比較し,検証する。 その結果,提案手法は負方向を意図して動作し,非人間的モデルでは人間とは大きく異なる画像部分に焦点を当てていることがわかった。 観察された効果は, カテゴリー特異的で, アニマシーと顔存在により増強され, フィードフォワード処理が完了した後のみ発達し, 顔検出に強い影響を及ぼした。 しかし、このアプローチでは、人間の類似性は顕著に増加しなかった。 DCNNにおける過度な視覚的注意の応用と、顔検出理論へのさらなる影響について論じる。

Deep Convolutional Neural Networks (DCNNs) were originally inspired by principles of biological vision, have evolved into best current computational models of object recognition, and consequently indicate strong architectural and functional parallelism with the ventral visual pathway throughout comparisons with neuroimaging and neural time series data. As recent advances in deep learning seem to decrease this similarity, computational neuroscience is challenged to reverse-engineer the biological plausibility to obtain useful models. While previous studies have shown that biologically inspired architectures are able to amplify the human-likeness of the models, in this study, we investigate a purely data-driven approach. We use human eye tracking data to directly modify training examples and thereby guide the models' visual attention during object recognition in natural images either towards or away from the focus of human fixations. We compare and validate different manipulation types (i.e., standard, human-like, and non-human-like attention) through GradCAM saliency maps against human participant eye tracking data. Our results demonstrate that the proposed guided focus manipulation works as intended in the negative direction and non-human-like models focus on significantly dissimilar image parts compared to humans. The observed effects were highly category-specific, enhanced by animacy and face presence, developed only after feedforward processing was completed, and indicated a strong influence on face detection. With this approach, however, no significantly increased human-likeness was found. Possible applications of overt visual attention in DCNNs and further implications for theories of face detection are discussed.
翻訳日:2022-06-22 17:39:23 公開日:2022-06-21
# マスキング言語モデルに基づくテキストにおける可逆データ隠蔽のための汎用フレームワーク

General Framework for Reversible Data Hiding in Texts Based on Masked Language Modeling ( http://arxiv.org/abs/2206.10112v1 )

ライセンス: Link先を確認
Xiaoyan Zheng, Yurun Fang and Hanzhou Wu(参考訳) 自然言語処理の急速な発展により、情報隠蔽の最近の進歩は、秘密情報をテキストに秘密に埋め込むことに集中している。 これらのアルゴリズムは、所定のカバーテキストを変更したり、秘密情報を含むテキストを直接生成するが、これは可逆的ではない。 この問題に対処するために,本論文では,隠れた情報を所定のカバーテキストに埋め込むための一般的な枠組みを提案し,そこに埋め込まれた情報とオリジナルのカバーテキストをマークされたテキストから完全に取り出すことができる。 提案手法の主な考え方は,マスク付き言語モデルを用いて,ある位置の単語を収集してカバーテキストを再構成し,他の位置の単語を処理して秘密情報を抽出できるようなマーク付きテキストを生成することである。 その結果,オリジナルカバーテキストと秘密情報の埋め込みと抽出を成功に導くことができた。 一方, 秘密情報を含むマーク付きテキストは, 精度と意味的品質が良好であり, 提案手法は良好な安全性を示し, 実験結果から検証されている。 さらに、言語モデルを共有するためにデータハイダとデータレシーバーは必要ないため、サイド情報を大幅に削減し、アプリケーションにおいて優れた可能性を持っている。

With the fast development of natural language processing, recent advances in information hiding focus on covertly embedding secret information into texts. These algorithms either modify a given cover text or directly generate a text containing secret information, which, however, are not reversible, meaning that the original text not carrying secret information cannot be perfectly recovered unless much side information are shared in advance. To tackle with this problem, in this paper, we propose a general framework to embed secret information into a given cover text, for which the embedded information and the original cover text can be perfectly retrieved from the marked text. The main idea of the proposed method is to use a masked language model to generate such a marked text that the cover text can be reconstructed by collecting the words of some positions and the words of the other positions can be processed to extract the secret information. Our results show that the original cover text and the secret information can be successfully embedded and extracted. Meanwhile, the marked text carrying secret information has good fluency and semantic quality, indicating that the proposed method has satisfactory security, which has been verified by experimental results. Furthermore, there is no need for the data hider and data receiver to share the language model, which significantly reduces the side information and thus has good potential in applications.
翻訳日:2022-06-22 17:38:32 公開日:2022-06-21
# クエリ生成を伴う微分検索インデックスのインデックス化と検索のギャップを埋める

Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation ( http://arxiv.org/abs/2206.10128v1 )

ライセンス: Link先を確認
Shengyao Zhuang, Houxing Ren, Linjun Shou, Jian Pei, Ming Gong, Guido Zuccon, and Daxin Jiang(参考訳) 微分可能検索インデックス(英: differentiable search index, dsi)は、情報検索の新しいパラダイムである。 インデックスと検索が2つの異なるコンポーネントである従来の検索アーキテクチャとは異なり、dsiは単一のトランスフォーマーモデルを使用してインデックスと検索の両方を実行する。 本稿では,dsiのインデクシングと検索プロセスの間に生じるデータ分散ミスマッチという,現在のdsiモデルの重要な問題を特定し,対処する。 具体的には、インデックス化において、現在のDSIメソッドは、長い文書テキストとその識別との接続を構築することを学習するが、検索時には、短いクエリテキストがDSIモデルに提供され、文書識別子の検索を行う。 この問題は、文書テキストとクエリテキストが異なる言語に属する言語間検索にDSIを使用する場合、さらに悪化する。 現在のDSIモデルの基本的問題に対処するため、DSI-QGと呼ばれるDSIのための簡易かつ効果的なインデックス化フレームワークを提案する。 dsi-qgでは、ドキュメントはインデックス化時にクエリ生成モデルによって生成される関連クエリによって表現される。 これにより、dsiモデルがインデックス化時に文書識別子とクエリテキストの集合を接続できるため、インデックス化と検索フェーズの間に存在するデータ分散ミスマッチを緩和できる。 DSI-QG が元の DSI モデルより有意に優れていたことを示す。

The Differentiable Search Index (DSI) is a new, emerging paradigm for information retrieval. Unlike traditional retrieval architectures where index and retrieval are two different and separate components, DSI uses a single transformer model to perform both indexing and retrieval. In this paper, we identify and tackle an important issue of current DSI models: the data distribution mismatch that occurs between the DSI indexing and retrieval processes. Specifically, we argue that, at indexing, current DSI methods learn to build connections between long document texts and their identifies, but then at retrieval, short query texts are provided to DSI models to perform the retrieval of the document identifiers. This problem is further exacerbated when using DSI for cross-lingual retrieval, where document text and query text are in different languages. To address this fundamental problem of current DSI models we propose a simple yet effective indexing framework for DSI called DSI-QG. In DSI-QG, documents are represented by a number of relevant queries generated by a query generation model at indexing time. This allows DSI models to connect a document identifier to a set of query texts when indexing, hence mitigating data distribution mismatches present between the indexing and the retrieval phases. Empirical results on popular mono-lingual and cross-lingual passage retrieval benchmark datasets show that DSI-QG significantly outperforms the original DSI model.
翻訳日:2022-06-22 17:38:11 公開日:2022-06-21
# taphsir: 要件の照応的曖昧性検出と解決に向けて

TAPHSIR: Towards AnaPHoric Ambiguity Detection and ReSolution In Requirements ( http://arxiv.org/abs/2206.10227v1 )

ライセンス: Link先を確認
Saad Ezzini, Sallam Abualhaija, Chetan Arora, Mehrdad Sabetzadeh(参考訳) 本稿では,naphoric ambiguity detectionとanaphora resolutionの要求条件におけるツールであるtaphsirを紹介する。 TAPHSIR施設は、要求仕様における代名詞の使用を見直し、開発過程で誤解を招く可能性のある代名詞を改訂する。 この目的のために、TAPHSIRは、潜在的なアナフォラの曖昧さを持つ要求を検出し、アナフォラの発生を自動的に解釈しようとする。 TAPHSIRは、機械学習に基づくあいまいさ検出ソリューションと、BERT言語モデルの変種に基づくアナフォラ解決ソリューションからなるハイブリッドソリューションを採用している。 要件仕様が与えられた場合、TAPHSIRは、仕様における各代名詞の発生があいまいであるか不明瞭であるかを判断し、さらに代名詞の自動解釈を提供する。 TAPHSIRが生成した出力は、要件エンジニアが容易にレビューし、検証することができる。 TAPHSIRはZenodo(DOI:10.5281/zenodo.5902117)で公開されている。

We introduce TAPHSIR, a tool for anaphoric ambiguity detection and anaphora resolution in requirements. TAPHSIR facilities reviewing the use of pronouns in a requirements specification and revising those pronouns that can lead to misunderstandings during the development process. To this end, TAPHSIR detects the requirements which have potential anaphoric ambiguity and further attempts interpreting anaphora occurrences automatically. TAPHSIR employs a hybrid solution composed of an ambiguity detection solution based on machine learning and an anaphora resolution solution based on a variant of the BERT language model. Given a requirements specification, TAPHSIR decides for each pronoun occurrence in the specification whether the pronoun is ambiguous or unambiguous, and further provides an automatic interpretation for the pronoun. The output generated by TAPHSIR can be easily reviewed and validated by requirements engineers. TAPHSIR is publicly available on Zenodo (DOI: 10.5281/zenodo.5902117).
翻訳日:2022-06-22 17:37:48 公開日:2022-06-21
# Twitterが毎日の新型コロナウイルス感染者を予測

Twitter conversations predict the daily confirmed COVID-19 cases ( http://arxiv.org/abs/2206.10471v1 )

ライセンス: Link先を確認
Rabindra Lamsala, Aaron Harwood, Maria Rodriguez Read(参考訳) この論文の執筆時点で、covid-19(coonavirus disease 2019)は220以上の国と領域に拡大している。 新型コロナウイルスの感染拡大を受け、ソーシャルメディア、特にTwitterやWeiboなどのマイクロブログプラットフォームで人々が活発に活動するようになった。 パンデミック特有の談話は、ここ数ヶ月の間、これらのプラットフォームで継続されている。 これまでの研究では、このような社会的に発生した会話が危機事象の状況認識に寄与していることが確認されている。 感染者の早期予測は、ウイルスのアウトグロースに対応するために必要な資源の要件を当局が見積もる上で不可欠だ。 そこで本研究では,現在進行中の波の急勾配領域を対象とした予測モデルの設計に公衆の言論を取り入れようと試みる。 本稿では、新型コロナウイルス関連Twitter会話から複数の時系列を設計するための感情関連トピックベースの方法論を提案する。 ユースケースとして,オーストラリアで発生した日中事例とTwitterでの会話について,提案手法を実装した。 実験結果: (i)1日当たりの感染者が確認されたため,Grangerによる潜伏するソーシャルメディア変数の存在を示す。 (ii)これらの変数が予測モデルにさらなる予測機能を提供することを確認する。 さらに,モデルに対するソーシャルメディア変数の導入により,ベースラインモデルに対するrmseの48.83-51.38%の改善が示された。 また、大規模なCOVID-19特定ジオタグ付きグローバルツイートデータセットであるMegaGeoCOVを一般公開し、このスケールのジオタグ付きデータは、他の空間的および時間的文脈を通じてパンデミックの会話のダイナミクスを理解するのに役立つと予測している。

As of writing this paper, COVID-19 (Coronavirus disease 2019) has spread to more than 220 countries and territories. Following the outbreak, the pandemic's seriousness has made people more active on social media, especially on the microblogging platforms such as Twitter and Weibo. The pandemic-specific discourse has remained on-trend on these platforms for months now. Previous studies have confirmed the contributions of such socially generated conversations towards situational awareness of crisis events. The early forecasts of cases are essential to authorities to estimate the requirements of resources needed to cope with the outgrowths of the virus. Therefore, this study attempts to incorporate the public discourse in the design of forecasting models particularly targeted for the steep-hill region of an ongoing wave. We propose a sentiment-involved topic-based methodology for designing multiple time series from publicly available COVID-19 related Twitter conversations. As a use case, we implement the proposed methodology on Australian COVID-19 daily cases and Twitter conversations generated within the country. Experimental results: (i) show the presence of latent social media variables that Granger-cause the daily COVID-19 confirmed cases, and (ii) confirm that those variables offer additional prediction capability to forecasting models. Further, the results show that the inclusion of social media variables for modeling introduces 48.83--51.38% improvements on RMSE over the baseline models. We also release the large-scale COVID-19 specific geotagged global tweets dataset, MegaGeoCOV, to the public anticipating that the geotagged data of this scale would aid in understanding the conversational dynamics of the pandemic through other spatial and temporal contexts.
翻訳日:2022-06-22 17:37:32 公開日:2022-06-21
# (参考訳) 弱い監督による音声言語理解のための低資源パイプライン

Low Resource Pipeline for Spoken Language Understanding via Weak Supervision ( http://arxiv.org/abs/2206.10559v1 )

ライセンス: CC BY 4.0
Ayush Kumar, Rishabh Kumar Tripathi, Jithendra Vepa(参考訳) Weak Supervised Learning (WSL)では、セマンティックルールとタスク固有の事前学習モデルから得られたノイズの多いラベルに基づいてモデルを訓練する。 ルールはタスクに対する限定的な一般化を提供するが、事前訓練されたモデルは限られたタスクでのみ利用可能である。 そこで本研究では,提案手法を弱源として,無注データから雑音ラベルを得る手法を提案する。 本研究では,タスク非依存のプロンプトが一般化可能であり,感情分類や不規則検出,感情分類など,さまざまな音声言語理解(SLU)タスクのノイズラベルを得るために使用できることを示す。 これらのプロンプトはタスク固有のコンテキストを追加するために更新され、タスク固有のプロンプトを設計する柔軟性を提供する。 そこで我々は,SLUタスクの信頼ラベルを生成するプロンプトベースの手法を,ラベル付きデータがない場合に,弱教師付きモデル(WSM)を訓練するための普遍的な弱い情報源として利用することができることを示した。 提案したWSLパイプラインは,3つのベンチマークSLUデータセットすべてにおいて,ゼロおよび少数ショットの学習において,プロンプトベースの弱いソースをトレーニングし,他の競合する低リソースベンチマークを4%以上上回りました。 提案手法は,従来の規則に基づくWSLパイプラインをマクロF1上で5%以上上回る性能を示した。

In Weak Supervised Learning (WSL), a model is trained over noisy labels obtained from semantic rules and task-specific pre-trained models. Rules offer limited generalization over tasks and require significant manual efforts while pre-trained models are available only for limited tasks. In this work, we propose to utilize prompt-based methods as weak sources to obtain the noisy labels on unannotated data. We show that task-agnostic prompts are generalizable and can be used to obtain noisy labels for different Spoken Language Understanding (SLU) tasks such as sentiment classification, disfluency detection and emotion classification. These prompts could additionally be updated to add task-specific contexts, thus providing flexibility to design task-specific prompts. We demonstrate that prompt-based methods generate reliable labels for the above SLU tasks and thus can be used as a universal weak source to train a weak-supervised model (WSM) in absence of labeled data. Our proposed WSL pipeline trained over prompt-based weak source outperforms other competitive low-resource benchmarks on zero and few-shot learning by more than 4% on Macro-F1 on all of the three benchmark SLU datasets. The proposed method also outperforms a conventional rule based WSL pipeline by more than 5% on Macro-F1.
翻訳日:2022-06-22 17:28:42 公開日:2022-06-21
# セマンティクス駆動画像段落キャプションのためのバイパスネットワーク

Bypass Network for Semantics Driven Image Paragraph Captioning ( http://arxiv.org/abs/2206.10059v1 )

ライセンス: Link先を確認
Qi Zheng, Chaoyue Wang, Dadong Wang(参考訳) 画像段落キャプションは、与えられた画像を一連のコヒーレントな文で表現することを目的としている。 既存のほとんどのメソッドは、前の文からトピックベクトルを動的に推論するトピック遷移を通してコヒーレンスをモデル化する。 しかし、これらの手法は、生成項の即時又は遅れた繰り返しに悩まされている。 (i)構文と意味論の絡み合いは、話題ベクトルが関連する視覚領域に参加するのを邪魔する。 (ii)長距離遷移を学ぶための制約や報酬は少ない。 本稿では,先行文の意味論と言語構文を別々にモデル化するバイパスネットワークを提案する。 具体的には、提案モデルはトピック遷移モジュールと文生成モジュールという2つの主要なモジュールから構成されている。 前者は、以前の意味ベクトルをクエリとして、地域の特徴に注意を向けて次の話題ベクトルを取得する。 後者は、トピックベクトルと先行構文状態をデコードして次の文を生成する。 生成した段落における遅延反復を更に削減するため,強化訓練に対する代替報酬を考案する。 広範に使用されているベンチマークに関する総合的な実験は、高い精度を維持しながらコヒーレンスのための技術よりも提案されたモデルの方が優れていることを示す。

Image paragraph captioning aims to describe a given image with a sequence of coherent sentences. Most existing methods model the coherence through the topic transition that dynamically infers a topic vector from preceding sentences. However, these methods still suffer from immediate or delayed repetitions in generated paragraphs because (i) the entanglement of syntax and semantics distracts the topic vector from attending pertinent visual regions; (ii) there are few constraints or rewards for learning long-range transitions. In this paper, we propose a bypass network that separately models semantics and linguistic syntax of preceding sentences. Specifically, the proposed model consists of two main modules, i.e. a topic transition module and a sentence generation module. The former takes previous semantic vectors as queries and applies attention mechanism on regional features to acquire the next topic vector, which reduces immediate repetition by eliminating linguistics. The latter decodes the topic vector and the preceding syntax state to produce the following sentence. To further reduce delayed repetition in generated paragraphs, we devise a replacement-based reward for the REINFORCE training. Comprehensive experiments on the widely used benchmark demonstrate the superiority of the proposed model over the state of the art for coherence while maintaining high accuracy.
翻訳日:2022-06-22 16:56:12 公開日:2022-06-21
# RendNet:2D/3D認識とラテンダースペース

RendNet: Unified 2D/3D Recognizer With Latent Space Rendering ( http://arxiv.org/abs/2206.10066v1 )

ライセンス: Link先を確認
Ruoxi Shi, Xinyang Jiang, Caihua Shan, Yansen Wang, Dongsheng Li(参考訳) ベクトルグラフィックス(VG)は、エンジニアリング、アーキテクチャ、デザインなど、私たちの日常生活で広く使われています。 既存のほとんどの方法のVG認識プロセスは、まずVGをラスタグラフィックス(RG)にレンダリングし、次にRGフォーマットに基づいて認識を実行することである。 しかし、この手順はジオメトリーの構造を捨て、高分解能のVGを失う。 近年、元のVGフォーマットから直接認識するアルゴリズムの別のカテゴリが提案されている。 しかし、これはRGレンダリングによってフィルタリングできるトポロジ的誤差の影響を受けている。 1つのフォーマットを見るのではなく、VGとRGのフォーマットを併用してこれらの欠点を避けるのがよい方法です。 また,VGとRG情報を効果的に組み合わせるためには,VG-to-RGレンダリングプロセスが不可欠であると主張する。 VGプリミティブをRGピクセルに転送する方法のルールを指定することで、レンダリングプロセスはVGとRGの相互作用と相関を記述する。 その結果、VG/RG表現の両方を考慮し、VG-to-RGラスタ化処理を取り入れた2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。 実験により、RendNetは、様々なVGデータセット上の2Dおよび3Dオブジェクト認識タスクで最先端のパフォーマンスを達成できることが示されている。

Vector graphics (VG) have been ubiquitous in our daily life with vast applications in engineering, architecture, designs, etc. The VG recognition process of most existing methods is to first render the VG into raster graphics (RG) and then conduct recognition based on RG formats. However, this procedure discards the structure of geometries and loses the high resolution of VG. Recently, another category of algorithms is proposed to recognize directly from the original VG format. But it is affected by the topological errors that can be filtered out by RG rendering. Instead of looking at one format, it is a good solution to utilize the formats of VG and RG together to avoid these shortcomings. Besides, we argue that the VG-to-RG rendering process is essential to effectively combine VG and RG information. By specifying the rules on how to transfer VG primitives to RG pixels, the rendering process depicts the interaction and correlation between VG and RG. As a result, we propose RendNet, a unified architecture for recognition on both 2D and 3D scenarios, which considers both VG/RG representations and exploits their interaction by incorporating the VG-to-RG rasterization process. Experiments show that RendNet can achieve state-of-the-art performance on 2D and 3D object recognition tasks on various VG datasets.
翻訳日:2022-06-22 16:55:56 公開日:2022-06-21
# 密度誘導適応選択CNNと変圧器推定による変動密度集団の計数

Counting Varying Density Crowds Through Density Guided Adaptive Selection CNN and Transformer Estimation ( http://arxiv.org/abs/2206.10075v1 )

ライセンス: Link先を確認
Yuehai Chen, Jing Yang, Badong Chen and Shaoyi Du(参考訳) 実世界の群衆カウントアプリケーションでは、画像内の群衆密度は大きく異なる。 密度の変化に直面した場合、人間は低密度領域の目標を特定して数え、高密度領域の数を推論する傾向がある。 我々は,CNNが固定サイズの畳み込みカーネルを用いて局所的な情報相関に注目し,トランスフォーマーがグローバルな自己認識機構を用いて意味的な群集情報を効果的に抽出できることを観察した。 したがって、CNNは低密度領域における群衆の正確な位置と推定が可能であり、高密度領域における密度を適切に知覚することは困難である。 逆にTransformerは、高密度領域では高い信頼性を持つが、スパース領域ではターゲットを見つけることができない。 CNNもTransformerも、このような密度の変動には対処できない。 そこで本研究では,cnnおよびtransformer適応選択ネットワーク(ctasnet)を提案する。 まず、CTASNetはCNNとTransformerの予測結果を生成する。 そして、CNN/Transformerが低密度領域や高密度領域に適していることを考慮し、CNNとTransformerの予測を自動的に組み合わせる密度誘導適応選択モジュールを設計する。 さらに,アノテーションノイズの影響を低減するために,コレントロピーに基づく最適搬送損失を提案する。 提案手法は,4つの挑戦的集団計数データセットに関する広範囲な実験により検証された。

In real-world crowd counting applications, the crowd densities in an image vary greatly. When facing with density variation, human tend to locate and count the target in low-density regions, and reason the number in high-density regions. We observe that CNN focus on the local information correlation using a fixed-size convolution kernel and the Transformer could effectively extract the semantic crowd information by using the global self-attention mechanism. Thus, CNN could locate and estimate crowd accurately in low-density regions, while it is hard to properly perceive density in high-density regions. On the contrary, Transformer, has a high reliability in high-density regions, but fails to locate the target in sparse regions. Neither CNN or Transformer can well deal with this kind of density variations. To address this problem, we propose a CNN and Transformer Adaptive Selection Network (CTASNet) which can adaptively select the appropriate counting branch for different density regions. Firstly, CTASNet generates the prediction results of CNN and Transformer. Then, considering that CNN/Transformer are appropriate for low/high-density regions, a density guided Adaptive Selection Module is designed to automatically combine the predictions of CNN and Transformer. Moreover, to reduce the influences of annotation noise, we introduce a Correntropy based Optimal Transport loss. Extensive experiments on four challenging crowd counting datasets have validated the proposed method.
翻訳日:2022-06-22 16:55:33 公開日:2022-06-21
# KTN:多人数2D-3D対応学習のための知識伝達ネットワーク

KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D Correspondences ( http://arxiv.org/abs/2206.10090v1 )

ライセンス: Link先を確認
Xuanhan Wang, Lianli Gao, Yixuan Zhou, Jingkuan Song, Meng Wang(参考訳) 人体2次元画素と3次元人体テンプレートとの密接な対応を確立することを目的とした人体密着度推定は,画像中の人物の理解を可能にする重要な手法である。 現実のシーンが複雑で、部分的なアノテーションしか利用できないという現実的なシナリオのために、まだいくつかの課題がある。 本研究では,画像中の複数の人物の密着度を検出する新しい枠組みを提案する。 提案手法は知識伝達ネットワーク(KTN)と呼ばれるもので,主に2つの問題に対処する。 1)不完全な推定を緩和するための画像表現の洗練方法、及び 2)低品質なトレーニングラベル(限定的なアノテーションとクラス不均衡ラベル)による誤推定の低減方法。 密度推定のための領域のピラミッド的特徴を直接伝播する既存の研究とは異なり、KTNはピラミッド的表現を改良し、特徴解像度を同時に維持し、背景画素を抑圧し、この戦略により精度が大幅に向上する。 さらに、KTNは、構造体知識グラフを通して、十分なアノテーションからトレーニングされた2Dベースのボディパーサを3Dベースのボディパーサとして配置する、外部知識による3Dベースのボディパーサの能力を高める。 このようにして、低品質アノテーションによる悪影響を著しく低減する。 KTNの有効性は、DensePose-COCOデータセットの最先端手法よりも優れた性能で実証されている。 代表課題(人体セグメンテーション、人体部分セグメンテーション、キーポイント検出など)と2つの一般的な密集度推定パイプライン(RCNNと完全畳み込みフレームワーク)に関する広範囲にわたるアブレーション研究と実験結果は、提案手法の一般化可能性を示している。

Human densepose estimation, aiming at establishing dense correspondences between 2D pixels of human body and 3D human body template, is a key technique in enabling machines to have an understanding of people in images. It still poses several challenges due to practical scenarios where real-world scenes are complex and only partial annotations are available, leading to incompelete or false estimations. In this work, we present a novel framework to detect the densepose of multiple people in an image. The proposed method, which we refer to Knowledge Transfer Network (KTN), tackles two main problems: 1) how to refine image representation for alleviating incomplete estimations, and 2) how to reduce false estimation caused by the low-quality training labels (i.e., limited annotations and class-imbalance labels). Unlike existing works directly propagating the pyramidal features of regions for densepose estimation, the KTN uses a refinement of pyramidal representation, where it simultaneously maintains feature resolution and suppresses background pixels, and this strategy results in a substantial increase in accuracy. Moreover, the KTN enhances the ability of 3D based body parsing with external knowledges, where it casts 2D based body parsers trained from sufficient annotations as a 3D based body parser through a structural body knowledge graph. In this way, it significantly reduces the adverse effects caused by the low-quality annotations. The effectiveness of KTN is demonstrated by its superior performance to the state-of-the-art methods on DensePose-COCO dataset. Extensive ablation studies and experimental results on representative tasks (e.g., human body segmentation, human part segmentation and keypoints detection) and two popular densepose estimation pipelines (i.e., RCNN and fully-convolutional frameworks), further indicate the generalizability of the proposed method.
翻訳日:2022-06-22 16:55:09 公開日:2022-06-21
# BEVDepth:多視点3次元物体検出のための信頼度取得

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection ( http://arxiv.org/abs/2206.10092v1 )

ライセンス: Link先を確認
Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang Shi, Jianjian Sun, Zeming Li(参考訳) 本研究では,カメラを用いた3次元物体検出のために,bevdepthと呼ばれる信頼性の高い深さ推定を行う3次元物体検出器を提案する。 近年のアプローチを徹底的に分析した結果,カメラ情報なしで奥行き推定が暗黙的に学習されることが判明した。 BEVDepthは、エンコードされた内在的パラメータと外在的パラメータを利用した明示的な深度管理を行う。 さらに、深度補正サブネットワークを導入し、深度地盤真理における投射誘起障害に対処する。 推定深度を用いて画像ビューからBEVに投影しながら速度ボトルネックを低減するため,高速なビュー変換操作も提案した。 さらに、BEVDepthはマルチフレームからの入力で簡単に拡張できます。 ベルやホイッスルがなければ、bevdepthは高い効率を維持しながら、挑戦的なヌッセンテストセットで新しい最先端のndsを60.0%達成する。 初めて、カメラとLiDARのパフォーマンスギャップは10% NDSで大幅に減少する。

In this research, we propose a new 3D object detector with a trustworthy depth estimation, dubbed BEVDepth, for camera-based Bird's-Eye-View (BEV) 3D object detection. By a thorough analysis of recent approaches, we discover that the depth estimation is implicitly learned without camera information, making it the de-facto fake-depth for creating the following pseudo point cloud. BEVDepth gets explicit depth supervision utilizing encoded intrinsic and extrinsic parameters. A depth correction sub-network is further introduced to counteract projecting-induced disturbances in depth ground truth. To reduce the speed bottleneck while projecting features from image-view into BEV using estimated depth, a quick view-transform operation is also proposed. Besides, our BEVDepth can be easily extended with input from multi-frame. Without any bells and whistles, BEVDepth achieves the new state-of-the-art 60.0% NDS on the challenging nuScenes test set while maintaining high efficiency. For the first time, the performance gap between the camera and LiDAR is largely reduced within 10% NDS.
翻訳日:2022-06-22 16:54:37 公開日:2022-06-21
# 時間行動生成のためのピラミッド領域に基づくスロットアテンションネットワーク

Pyramid Region-based Slot Attention Network for Temporal Action Proposal Generation ( http://arxiv.org/abs/2206.10095v1 )

ライセンス: Link先を確認
Shuaicheng Li, Feng Zhang, Rui-Wei Zhao, Rui Feng, Kunlin Yang, Lingbo Liu, Jun Hou(参考訳) ビデオの開始フレームと終了フレームの範囲内での時間的アクションインスタンスの発見を目的とした時間的アクション提案生成は,時間的コンテキストと意味的コンテキストの適切な利用の恩恵が大きいことが判明した。 最新の取り組みは、自己認識モジュールを通して時間的コンテキストと類似性に基づく意味的コンテキストを検討することに集中している。 しかし、いまだに混乱した背景情報と限られた文脈的特徴学習に苦しむ。 本稿では,これらの問題に対処する新しいピラミッド領域型スロットアテンション(PRSlot)モジュールを提案する。 PRSlotモジュールは、類似性計算を使用する代わりに、エンコーダ-デコーダ方式で局所関係を直接学習し、 \textit{slot} と呼ばれる入力特徴に対する注意に基づいて強化された局所領域の表現を生成する。 具体的には、入力スニペットレベルの機能に基づいて、prslotモジュールは対象のスニペットを \textit{query} として、その周辺領域を \textit{key} として、各 \textit{query-key} スロットのスロット表現を生成し、ローカルスニペットコンテキストを並列ピラミッド戦略で集約する。 PRSlotモジュールをベースとして、PRSA-Netと呼ばれる新しいピラミッド領域ベースのSlot Attention Networkを提案し、より優れた提案生成のための時間的・意味的なコンテキストを持つ統一視覚表現を学習する。 thumos14 と activitynet-1.3 ベンチマークが広く採用されている。 我々のPRSA-Netは、他の最先端手法よりも優れています。 特に、AR@100は、提案生成の50.67%から56.12%に改善し、mAPを0.5tIoU以下で51.9\%から58.7\%に引き上げます。 \textit{Code is available at} \url{https://github.com/handhand123/PRSA-Net}

It has been found that temporal action proposal generation, which aims to discover the temporal action instances within the range of the start and end frames in the untrimmed videos, can largely benefit from proper temporal and semantic context exploitation. The latest efforts were dedicated to considering the temporal context and similarity-based semantic contexts through self-attention modules. However, they still suffer from cluttered background information and limited contextual feature learning. In this paper, we propose a novel Pyramid Region-based Slot Attention (PRSlot) module to address these issues. Instead of using the similarity computation, our PRSlot module directly learns the local relations in an encoder-decoder manner and generates the representation of a local region enhanced based on the attention over input features called \textit{slot}. Specifically, upon the input snippet-level features, PRSlot module takes the target snippet as \textit{query}, its surrounding region as \textit{key} and then generates slot representations for each \textit{query-key} slot by aggregating the local snippet context with a parallel pyramid strategy. Based on PRSlot modules, we present a novel Pyramid Region-based Slot Attention Network termed PRSA-Net to learn a unified visual representation with rich temporal and semantic context for better proposal generation. Extensive experiments are conducted on two widely adopted THUMOS14 and ActivityNet-1.3 benchmarks. Our PRSA-Net outperforms other state-of-the-art methods. In particular, we improve the AR@100 from the previous best 50.67% to 56.12% for proposal generation and raise the mAP under 0.5 tIoU from 51.9\% to 58.7\% for action detection on THUMOS14. \textit{Code is available at} \url{https://github.com/handhand123/PRSA-Net}
翻訳日:2022-06-22 16:54:20 公開日:2022-06-21
# HOPE:階層型時空間ネットワークによる活動フロー予測

HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow Prediction ( http://arxiv.org/abs/2206.10118v1 )

ライセンス: Link先を確認
Yihan Hu, Wenxin Shao, Bo Jiang, Jiajie Chen, Siqi Chai, Zhening Yang, Jingyu Qian, Helong Zhou, Qiang Liu(参考訳) 本報告では, cvpr 2022 における waymo open dataset challenge における占有とフロー予測の課題に対するソリューションについて紹介する。 本研究では,空間時間エンコーダ,潜伏変数に富んだマルチスケールアグリゲータ,再帰的階層型3Dデコーダを備えた新しい階層型空間時間ネットワークを開発した。 トレーニングプロセスの効率的な指導には,焦点損失やフロートレース損失の修正など,複数の損失を用いる。 本手法は0.8389のフローグラウンド占有率aucを達成し,他のすべてのチームよりも優れる。

In this report, we introduce our solution to the Occupancy and Flow Prediction challenge in the Waymo Open Dataset Challenges at CVPR 2022, which ranks 1st on the leaderboard. We have developed a novel hierarchical spatial-temporal network featured with spatial-temporal encoders, a multi-scale aggregator enriched with latent variables, and a recursive hierarchical 3D decoder. We use multiple losses including focal loss and modified flow trace loss to efficiently guide the training process. Our method achieves a Flow-Grounded Occupancy AUC of 0.8389 and outperforms all the other teams on the leaderboard.
翻訳日:2022-06-22 16:53:42 公開日:2022-06-21
# KE-RCNN:知識に基づく推論をパートレベルの属性解析に統一する

KE-RCNN: Unifying Knowledge based Reasoning into Part-level Attribute Parsing ( http://arxiv.org/abs/2206.10146v1 )

ライセンス: Link先を確認
Xuanhan Wang, Jingkuan Song, Xiaojia Chen, Lechao Cheng, Lianli Gao, Heng Tao Shen(参考訳) 部分レベルの属性解析は基本的だが難しい作業であり、説明可能な身体部分の詳細を提供するには領域レベルの視覚的理解が必要である。 既存のほとんどのアプローチでは、属性予測ヘッドを持つ地域畳み込みニューラルネットワーク(RCNN)を2段階検出器に追加することでこの問題に対処している。 しかし、身体部位の属性はそれらの包括的関係に大きく依存するため、局所的な視覚的な手がかり(すなわち外観のみ)を持つ部分ボックスは、解析結果に満足できない結果をもたらす。 本稿では,暗黙の知識(例えば,シャツの'above-the-hip'という属性は,シャツヒップの視覚的/幾何学的関係)や明示的な知識(例えば,'shorts'の一部が'hoodie'や'lining'の属性を持つことができない)を含む,豊富な知識を活用することで属性を識別する知識埋め込みRCNNを提案する。 具体的には、KE-RCNNは、IK-En(Implicit Knowledge Based Encoder)とEK-De(Explicit Knowledge Based Decoder)の2つの新しいコンポーネントで構成されている。 前者は部分関係コンテキストを部分ボックスにエンコードすることで部分レベル表現を強化するように設計されており、後者は \textit{part-attribute} 関係に関する事前知識のガイダンスを用いて属性をデコードする。 このようにして、KE-RCNNはプラグ・アンド・プレイであり、Attribute-RCNN、Cascade-RCNN、HRNetベースのRCNN、SwinTransformerベースのRCNNなどの2段階検出器に統合することができる。 FashionpediaとKinetics-TPSの2つの挑戦的なベンチマークで実施された大規模な実験は、KE-RCNNの有効性と一般化性を実証している。 特に、既存のすべての方法よりも高い改善を達成し、 fashionpediaのapの約3%、kinetics-tpsのaccの約4%に達する。

Part-level attribute parsing is a fundamental but challenging task, which requires the region-level visual understanding to provide explainable details of body parts. Most existing approaches address this problem by adding a regional convolutional neural network (RCNN) with an attribute prediction head to a two-stage detector, in which attributes of body parts are identified from local-wise part boxes. However, local-wise part boxes with limit visual clues (i.e., part appearance only) lead to unsatisfying parsing results, since attributes of body parts are highly dependent on comprehensive relations among them. In this article, we propose a Knowledge Embedded RCNN (KE-RCNN) to identify attributes by leveraging rich knowledges, including implicit knowledge (e.g., the attribute ``above-the-hip'' for a shirt requires visual/geometry relations of shirt-hip) and explicit knowledge (e.g., the part of ``shorts'' cannot have the attribute of ``hoodie'' or ``lining''). Specifically, the KE-RCNN consists of two novel components, i.e., Implicit Knowledge based Encoder (IK-En) and Explicit Knowledge based Decoder (EK-De). The former is designed to enhance part-level representation by encoding part-part relational contexts into part boxes, and the latter one is proposed to decode attributes with a guidance of prior knowledge about \textit{part-attribute} relations. In this way, the KE-RCNN is plug-and-play, which can be integrated into any two-stage detectors, e.g., Attribute-RCNN, Cascade-RCNN, HRNet based RCNN and SwinTransformer based RCNN. Extensive experiments conducted on two challenging benchmarks, e.g., Fashionpedia and Kinetics-TPS, demonstrate the effectiveness and generalizability of the KE-RCNN. In particular, it achieves higher improvements over all existing methods, reaching around 3% of AP on Fashionpedia and around 4% of Acc on Kinetics-TPS.
翻訳日:2022-06-22 16:53:19 公開日:2022-06-21
# コントラスト学習による映像ハイライト検出のためのビジュアルオーディオ表現の提案

Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning ( http://arxiv.org/abs/2206.10157v1 )

ライセンス: Link先を確認
Shuaicheng Li, Feng Zhang, Kunlin Yang, Lingbo Liu, Shinan Liu, Jun Hou, Shuai Yi(参考訳) ビデオのハイライト検出は、未トリミングビデオの面白い瞬間を特定することを目的とした、極めて難しい問題だ。 このタスクの鍵となるのは,2つの目標である \textit{i.e.},クロスモーダル表現学習,きめ細かい特徴識別を共同で追求する,効果的なビデオ表現にある。 本稿では,これらの2つの課題を,表現モデルにおけるモダリティ内およびモダリティ間関係の強化だけでなく,特徴を識別的に形成することで解決する。 提案手法は主にモダリティ内エンコーディングとクロスモダリティ共起エンコーディングを完全表現モデリングに活用する。 具体的には、モダリティ内エンコーディングはモダリティ的特徴を増強し、オーディオ信号と視覚信号の両方においてモダリティ内関係学習を通じて無関係なモダリティを弱めます。 一方、クロスモダリティ共起符号化は共起相互モダリティ関係に注目し、マルチモダリティ間の効果的な情報を選択的に取得する。 マルチモーダル表現は、ローカルコンテキストから抽象化されたグローバル情報によってさらに強化される。 さらに,特徴埋め込みの判別能力を,hpcl(hard-pairs guided contrastive learning)方式で拡張した。 また,hpclの特徴識別を改善するため,ハードペアサンプリング戦略を用いてハードサンプルをマイニングする。 2つのベンチマークで行った大規模な実験により,提案手法の有効性と優位性を示した。

Video highlight detection is a crucial yet challenging problem that aims to identify the interesting moments in untrimmed videos. The key to this task lies in effective video representations that jointly pursue two goals, \textit{i.e.}, cross-modal representation learning and fine-grained feature discrimination. In this paper, these two challenges are tackled by not only enriching intra-modality and cross-modality relations for representation modeling but also shaping the features in a discriminative manner. Our proposed method mainly leverages the intra-modality encoding and cross-modality co-occurrence encoding for fully representation modeling. Specifically, intra-modality encoding augments the modality-wise features and dampens irrelevant modality via within-modality relation learning in both audio and visual signals. Meanwhile, cross-modality co-occurrence encoding focuses on the co-occurrence inter-modality relations and selectively captures effective information among multi-modality. The multi-modal representation is further enhanced by the global information abstracted from the local context. In addition, we enlarge the discriminative power of feature embedding with a hard-pairs guided contrastive learning (HPCL) scheme. A hard-pairs sampling strategy is further employed to mine the hard samples for improving feature discrimination in HPCL. Extensive experiments conducted on two benchmarks demonstrate the effectiveness and superiority of our proposed methods compared to other state-of-the-art methods.
翻訳日:2022-06-22 16:52:36 公開日:2022-06-21
# 教師なしスーパーピクセルセグメンテーションの再考

Rethinking Unsupervised Neural Superpixel Segmentation ( http://arxiv.org/abs/2206.10213v1 )

ライセンス: Link先を確認
Moshe Eliasof, Nir Ben Zikri, Eran Treister(参考訳) 近年,CNNによる超画素分割のための教師なし学習の概念が研究されている。 基本的に、このような方法は畳み込みニューラルネットワーク(cnn)によってスーパーピクセルを生成し、そのようなcnnはラベルやそれ以上の情報なしでトレーニングされる。 したがって、このようなアプローチは、通常、ソリューションを有意義なスーパーピクセルセグメンテーションへと導く目的関数を設計することによって、事前の編入に依存する。 本稿では,そのようなネットワークの有効性を改善するための3つの重要な要素を提案する。 (i)入力画像と比較して、 \emph{soft} 上画素画像の類似性。 (ii)オブジェクトエッジとバウンダリの強化と考察 (iii)ネットワークのマルチスケールコンポーネントとして機能する、より広い視野の視野を可能にするatrous畳み込みに基づく修正されたアーキテクチャ。 bsds500データセットを実験することで,提案の質的および定量的な意義を示す証拠が得られた。

Recently, the concept of unsupervised learning for superpixel segmentation via CNNs has been studied. Essentially, such methods generate superpixels by convolutional neural network (CNN) employed on a single image, and such CNNs are trained without any labels or further information. Thus, such approach relies on the incorporation of priors, typically by designing an objective function that guides the solution towards a meaningful superpixel segmentation. In this paper we propose three key elements to improve the efficacy of such networks: (i) the similarity of the \emph{soft} superpixelated image compared to the input image, (ii) the enhancement and consideration of object edges and boundaries and (iii) a modified architecture based on atrous convolution, which allow for a wider field of view, functioning as a multi-scale component in our network. By experimenting with the BSDS500 dataset, we find evidence to the significance of our proposal, both qualitatively and quantitatively.
翻訳日:2022-06-22 16:52:12 公開日:2022-06-21
# 弱教師付き物体検出のためのオンラインプログレッシブインスタンスバランスサンプリング

Online progressive instance-balanced sampling for weakly supervised object detection ( http://arxiv.org/abs/2206.10324v1 )

ライセンス: Link先を確認
M. Chen, Y. Tian, Z. Li, E. Li and Z. Liang(参考訳) 複数のインスタンス検出ネットワーク(MIDN)に基づいて、多くの研究が、弱い教師付きオブジェクト検出(WSOD)に多大な貢献をしている。 しかし、ほとんどの手法は、トレーニングフェーズ中に各画像に圧倒的な負のインスタンスが存在するという事実を無視し、トレーニングを誤解させ、ネットワークをローカルなミニマに陥らせる。 この問題に対処するために,ハードサンプリングとソフトサンプリングに基づくオンラインプログレッシブ・インスタンスバランスサンプリング(OPIS)アルゴリズムを提案する。 このアルゴリズムには、プログレッシブインスタンスバランス(PIB)モジュールとプログレッシブインスタンスリウェイト(PIR)モジュールの2つのモジュールが含まれている。 ランダムサンプリングとIoUバランスサンプリングを組み合わせたPIBモジュールは、正のインスタンスと負のインスタンスのバランスを保ちながら、強負のインスタンスを徐々にマイニングする。 pirモジュールはさらに、分類器スコアと隣接する改良点を活用し、ポジティブなインスタンスの重み付けを重み付けし、ネットワークをポジティブなインスタンスに集中させる。 PASCAL VOC 2007 と 2012 のデータセットによる大規模な実験結果から,提案手法がベースラインを大幅に改善できることが示された。 さらに,提案手法はベースラインと比較した場合,ネットワークパラメータの追加を必要とせず,補足的なトレーニングオーバーヘッドも小さく,インスタンス分類器改良パラダイムに基づいた他の手法と容易に統合できる。

Based on multiple instance detection networks (MIDN), plenty of works have contributed tremendous efforts to weakly supervised object detection (WSOD). However, most methods neglect the fact that the overwhelming negative instances exist in each image during the training phase, which would mislead the training and make the network fall into local minima. To tackle this problem, an online progressive instance-balanced sampling (OPIS) algorithm based on hard sampling and soft sampling is proposed in this paper. The algorithm includes two modules: a progressive instance balance (PIB) module and a progressive instance reweighting (PIR) module. The PIB module combining random sampling and IoU-balanced sampling progressively mines hard negative instances while balancing positive instances and negative instances. The PIR module further utilizes classifier scores and IoUs of adjacent refinements to reweight the weights of positive instances for making the network focus on positive instances. Extensive experimental results on the PASCAL VOC 2007 and 2012 datasets demonstrate the proposed method can significantly improve the baseline, which is also comparable to many existing state-of-the-art results. In addition, compared to the baseline, the proposed method requires no extra network parameters and the supplementary training overheads are small, which could be easily integrated into other methods based on the instance classifier refinement paradigm.
翻訳日:2022-06-22 16:51:59 公開日:2022-06-21
# (参考訳) スケッチによるアルゴリズム的ガウス化:データをサブガウス的ランダムデザインに変換する

Algorithmic Gaussianization through Sketching: Converting Data into Sub-gaussian Random Designs ( http://arxiv.org/abs/2206.10291v1 )

ライセンス: CC BY 4.0
Micha{\l} Derezi\'nski(参考訳) アルゴリズムガウス化(英: Algorithmic Gaussianization)は、大規模なデータセットのより小さな表現を生成するためにランダム化されたスケッチ法やサンプリング法を用いて発生する現象である。 しかし、この現象は特定のタスクやメトリクス、あるいは計算コストの高い手法に依存することでのみ研究されてきた。 平均化によってデータ分布をガウス化するためのアルゴリズムフレームワークを提供し、サブガウスのランダム設計からほぼ区別できない(全変動距離の観点で)データスケッチを効率的に構築できることを証明した。 特に、最近紹介されたreferation score sparsified (less) embeddedsと呼ばれるスケッチ技術に依存すると、$n\times d$ sketch of an $n\times d$ matrix $a$, where $n\ll n$, is almost indistinguishable with a sub-gaussian design, in time $o(\text{nnz}(a)\log n + nd^2)$, where $\text{nnz}(a)$ is the number of non-zero entry in $a$ である。 結果として、ガウス以下の設計(例えば、最小二乗とラッソ回帰、共分散推定、低ランク近似など)から得られる推定値に対して、強い統計的保証と正確な漸近が、スケッチフレームワークに容易に適応できる。 我々はこれを、スケッチされた最小二乗に対する新しい近似保証で説明する。

Algorithmic Gaussianization is a phenomenon that can arise when using randomized sketching or sampling methods to produce smaller representations of large datasets: For certain tasks, these sketched representations have been observed to exhibit many robust performance characteristics that are known to occur when a data sample comes from a sub-gaussian random design, which is a powerful statistical model of data distributions. However, this phenomenon has only been studied for specific tasks and metrics, or by relying on computationally expensive methods. We address this by providing an algorithmic framework for gaussianizing data distributions via averaging, proving that it is possible to efficiently construct data sketches that are nearly indistinguishable (in terms of total variation distance) from sub-gaussian random designs. In particular, relying on a recently introduced sketching technique called Leverage Score Sparsified (LESS) embeddings, we show that one can construct an $n\times d$ sketch of an $N\times d$ matrix $A$, where $n\ll N$, that is nearly indistinguishable from a sub-gaussian design, in time $O(\text{nnz}(A)\log N + nd^2)$, where $\text{nnz}(A)$ is the number of non-zero entries in $A$. As a consequence, strong statistical guarantees and precise asymptotics available for the estimators produced from sub-gaussian designs (e.g., for least squares and Lasso regression, covariance estimation, low-rank approximation, etc.) can be straightforwardly adapted to our sketching framework. We illustrate this with a new approximation guarantee for sketched least squares, among other examples.
翻訳日:2022-06-22 16:49:18 公開日:2022-06-21
# 高次元点雲データに対するマニフォールド散乱変換

The Manifold Scattering Transform for High-Dimensional Point Cloud Data ( http://arxiv.org/abs/2206.10078v1 )

ライセンス: Link先を確認
Joyce Chew, Holly R. Steach, Siddharth Viswanath, Hau-Tieng Wu, Matthew Hirn, Deanna Needell, Smita Krishnaswamy, Michael Perlmutter(参考訳) 多様体散乱変換はリーマン多様体上のデータに対する深い特徴抽出器である。 これは畳み込みニューラルネットワークのような作用素を一般多様体に拡張する最初の例の1つである。 このモデルの最初の研究は、理論的な安定性と不変性に重点を置いていたが、事前定義されたメッシュを持つ二次元曲面を除いて数値的な実装方法を提供しなかった。 本研究では, 拡散写像の理論に基づいて, 低次元多様体上に横たわるような高次元の点雲である単一細胞遺伝学などの自然論系におけるデータセットに対する多様体散乱変換を実装するための実用的なスキームを提案する。 本手法は信号分類や多様体分類に有効であることを示す。

The manifold scattering transform is a deep feature extractor for data defined on a Riemannian manifold. It is one of the first examples of extending convolutional neural network-like operators to general manifolds. The initial work on this model focused primarily on its theoretical stability and invariance properties but did not provide methods for its numerical implementation except in the case of two-dimensional surfaces with predefined meshes. In this work, we present practical schemes, based on the theory of diffusion maps, for implementing the manifold scattering transform to datasets arising in naturalistic systems, such as single cell genetics, where the data is a high-dimensional point cloud modeled as lying on a low-dimensional manifold. We show that our methods are effective for signal classification and manifold classification tasks.
翻訳日:2022-06-22 15:52:17 公開日:2022-06-21
# オンライン変化点検出に対する対比的アプローチ

A Contrastive Approach to Online Change Point Detection ( http://arxiv.org/abs/2206.10143v1 )

ライセンス: Link先を確認
Nikita Puchkin and Valeriia Shcherbakova(参考訳) オンライン変化点検出のための新しい手法を提案する。 提案手法は,変化前分布と変化後分布との差分尺度を最大化するものである。 これはパラメトリックシナリオと非パラメトリックシナリオの両方に適した柔軟な手順につながる。 術式の平均走行距離と検出遅延に対する非漸近的境界を証明した。 アルゴリズムの効率性は、合成および実世界のデータセットに関する数値実験で示される。

We suggest a novel procedure for online change point detection. Our approach expands an idea of maximizing a discrepancy measure between points from pre-change and post-change distributions. This leads to a flexible procedure suitable for both parametric and nonparametric scenarios. We prove non-asymptotic bounds on the average running length of the procedure and its expected detection delay. The efficiency of the algorithm is illustrated with numerical experiments on synthetic and real-world data sets.
翻訳日:2022-06-22 15:52:03 公開日:2022-06-21
# 粗測定された線形力学系の制御性(拡張版)

Controllability of Coarsely Measured Networked Linear Dynamical Systems (Extended Version) ( http://arxiv.org/abs/2206.10569v1 )

ライセンス: Link先を確認
Nafiseh Ghoroghchian and Rajasekhar Anguluri and Gautam Dasarathy and Stark C. Draper(参考訳) ネットワーク構造に関する完全な知識が得られず,知識が粗い要約に制限される場合,大規模線形ネットワーク力学系の制御可能性を考える。 本稿では,(合成,還元次)粗スケールシステムの平均制御性によって,ファインスケールシステムの平均制御性が十分に近似できる条件を提案する。 この目的のためには、このタイプの近似を可能にする細スケールネットワークの固有のパラメトリック構造に関する知識が必要である。 したがって、基礎となる微細ネットワークは確率ブロックモデル(SBM)によって生成されると仮定し、コミュニティ検出においてしばしば研究される。 次に,sbmの粗い要約を用いて,細粒度システムの平均制御性を直接推定するアルゴリズムを提案する。 我々の分析は、粗い特徴を持つネットワーク力学から制御性を正確に定量化できる基盤構造(例えば、組立コミュニティ)の必要性を示している。 また,本手法を縮小順序法と比較し,両手法が互いに優れるレシエーションを強調した。 最後に,ネットワークサイズと密度の異なるスケールに対する理論的結果を確認するためのシミュレーションと,粗い要約でコミュニティ構造がどれだけ保持されているかをキャプチャするパラメータを提供する。

We consider the controllability of large-scale linear networked dynamical systems when complete knowledge of network structure is unavailable and knowledge is limited to coarse summaries. We provide conditions under which average controllability of the fine-scale system can be well approximated by average controllability of the (synthesized, reduced-order) coarse-scale system. To this end, we require knowledge of some inherent parametric structure of the fine-scale network that makes this type of approximation possible. Therefore, we assume that the underlying fine-scale network is generated by the stochastic block model (SBM) -- often studied in community detection. We then provide an algorithm that directly estimates the average controllability of the fine-scale system using a coarse summary of SBM. Our analysis indicates the necessity of underlying structure (e.g., in-built communities) to be able to quantify accurately the controllability from coarsely characterized networked dynamics. We also compare our method to that of the reduced-order method and highlight the regimes where both can outperform each other. Finally, we provide simulations to confirm our theoretical results for different scalings of network size and density, and the parameter that captures how much community-structure is retained in the coarse summary.
翻訳日:2022-06-22 15:51:57 公開日:2022-06-21
# (参考訳) ラザダスポンサー検索のための動的リザーブ価格設計

Dynamic Reserve Price Design for Lazada Sponsored Search ( http://arxiv.org/abs/2206.10295v1 )

ライセンス: CC BY 4.0
Mang Li(参考訳) eコマースプラットフォームでは、スポンサード検索が予期せぬ広告アイテムを表示する場合、ユーザーはオーガニック検索を使う可能性が低い。 プラットフォームを肯定的な成長に寄与するオークションメカニズムに隠れたコストを組み込むため、トラフィックを売却するか、収益とユーザエクスペリエンスの間に健全な関係を築くかを決定するために、リザーブ価格設計に目を向ける。 本稿では,広告主に長期のインセンティブを保ちながら,ユーザエクスペリエンスの最小限のコストでより効率的にトラフィックを販売するための動的リザーブ価格設計フレームワークを提案する。 生産環境における数十億規模のデータによる予備価格を計算するために,分散アルゴリズムも提案されている。 オフライン評価とオンラインABテストによる実験は、工業生産に適するシンプルで効率的な方法であることを示した。 既にラザダのスポンサーによる検索で完全に配備されている。

In ecommerce platform, users will be less likely to use organic search if sponsored search shows them unexpected advertising items, which will be a hidden cost for the platform. In order to incorporate the hidden cost into auction mechanism which helps create positive growth for the platform, we turn to a reserve price design to decide whether we sell the traffic, as well as build healthy relationships between revenue and user experience. We propose a dynamic reserve price design framework to sell traffic more efficiently with minimal cost of user experience while keeping long term incentives to the advertisers to reveal their valuations truthfully. A distributed algorithm is also proposed to compute the reserve price with billion scale data in the production environment. Experiments with offline evaluations and online AB testing demonstrate that it is a simple and efficient method to be suitably used in industrial production. It has already been fully deployed in the production of Lazada sponsored search.
翻訳日:2022-06-22 15:46:30 公開日:2022-06-21
# 物理力学による流体運動の推定と再現の学習

Learning to Estimate and Refine Fluid Motion with Physical Dynamics ( http://arxiv.org/abs/2206.10480v1 )

ライセンス: Link先を確認
Mingrui Zhang and Jianhong Wang and James Tlhomole and Matthew D. Piggott(参考訳) 画像から直接流体運動に関する情報を抽出することは困難である。 流体流動はナヴィエ・ストークス方程式によって支配される複雑な力学系を表す。 一般の光学フロー法は通常剛体運動のために設計されており、流体運動の直接推定に適用すると苦労する。 さらに、光学フロー法は2つの連続したフレームにのみ焦点をあてるが、流体運動(速度場)は時間依存偏微分方程式(pdes)によって制約された連続軌道と考えることができる。 この不一致は物理的に矛盾した推定を誘導する可能性がある。 本稿では,教師なし学習に基づく流体流量推定のための予測補正手法を提案する。 推定はまずPDE制約の光フロー予測器によって与えられ、次に物理ベースの補正器によって洗練される。 提案手法は,既存の教師付き学習法と比較し,光学フロー法より優れ,競合する結果を示す。 さらに,提案手法は,地上の真理情報が効果的に理解できない複雑な実世界の流体シナリオに一般化することができる。 最後に,流体力学シミュレーションでよく用いられる演算子分割法を模倣して,物理補正器が流量推定を洗練できることを実証する。

Extracting information on fluid motion directly from images is challenging. Fluid flow represents a complex dynamic system governed by the Navier-Stokes equations. General optical flow methods are typically designed for rigid body motion, and thus struggle if applied to fluid motion estimation directly. Further, optical flow methods only focus on two consecutive frames without utilising historical temporal information, while the fluid motion (velocity field) can be considered a continuous trajectory constrained by time-dependent partial differential equations (PDEs). This discrepancy has the potential to induce physically inconsistent estimations. Here we propose an unsupervised learning based prediction-correction scheme for fluid flow estimation. An estimate is first given by a PDE-constrained optical flow predictor, which is then refined by a physical based corrector. The proposed approach outperforms optical flow methods and shows competitive results compared to existing supervised learning based methods on a benchmark dataset. Furthermore, the proposed approach can generalize to complex real-world fluid scenarios where ground truth information is effectively unknowable. Finally, experiments demonstrate that the physical corrector can refine flow estimates by mimicking the operator splitting method commonly utilised in fluid dynamical simulation.
翻訳日:2022-06-22 15:36:02 公開日:2022-06-21
# Deep Learning-based breath hold reduction を用いた高速拡散心MRI

Faster Diffusion Cardiac MRI with Deep Learning-based breath hold reduction ( http://arxiv.org/abs/2206.10543v1 )

ライセンス: Link先を確認
Michael Tanzer, Pedro Ferreira, Andrew Scott, Zohya Khalique, Maria Dwornik, Dudley Pennell, Guang Yang, Daniel Rueckert, Sonia Nielles-Vallespin(参考訳) 拡散テンソル心磁気共鳴法(DT-CMR)により,生体内および非侵襲的に心筋内における心筋細胞の微細構造を解明することができる。 この革新的な技術は、心臓臨床診断、リスク層化、予後、治療フォローアップを実行する能力に革命をもたらす可能性がある。 しかし、DT-CMRは現在非効率であり、単一の2D静的画像を取得するのに6分以上かかる。 そのため、DT-CMRは現在研究に限られているが臨床的には使われていない。 本稿では,DT-CMRデータセットの生成に必要な繰り返し回数を削減し,その後にノイズを除去し,画像品質を維持しつつ線形係数による取得時間を短縮することを提案する。 提案手法は,ジェネレーティブ・アドバーサリアル・ネットワーク,ビジョン・トランスフォーマー,およびアンサンブル・ラーニングに基づいて,従来の提案手法よりも大幅に,はるかに優れた性能を示し,単一呼吸保持DT-CMRを現実に近づける。

Diffusion Tensor Cardiac Magnetic Resonance (DT-CMR) enables us to probe the microstructural arrangement of cardiomyocytes within the myocardium in vivo and non-invasively, which no other imaging modality allows. This innovative technology could revolutionise the ability to perform cardiac clinical diagnosis, risk stratification, prognosis and therapy follow-up. However, DT-CMR is currently inefficient with over six minutes needed to acquire a single 2D static image. Therefore, DT-CMR is currently confined to research but not used clinically. We propose to reduce the number of repetitions needed to produce DT-CMR datasets and subsequently de-noise them, decreasing the acquisition time by a linear factor while maintaining acceptable image quality. Our proposed approach, based on Generative Adversarial Networks, Vision Transformers, and Ensemble Learning, performs significantly and considerably better than previous proposed approaches, bringing single breath-hold DT-CMR closer to reality.
翻訳日:2022-06-22 15:35:44 公開日:2022-06-21
# envpool: 高度並列強化学習環境実行エンジン

EnvPool: A Highly Parallel Reinforcement Learning Environment Execution Engine ( http://arxiv.org/abs/2206.10558v1 )

ライセンス: Link先を確認
Jiayi Weng, Min Lin, Shengyi Huang, Bo Liu, Denys Makoviichuk, Viktor Makoviychuk, Zichen Liu, Yufan Song, Ting Luo, Yukun Jiang, Zhongwen Xu, Shuicheng Yan(参考訳) 強化学習(RL)訓練システムの開発には大きな進展があった。 IMPALA、Apex、Seed RL、Sample Factoryなどの過去の作業は、システム全体のスループットを改善することを目的としていた。 本稿では,RLトレーニングシステムにおける共通ボトルネック,すなわち並列環境の実行に対処する。 RL環境を並列化するためのキュレートされた設計により、ラップトップや控えめなワークステーションからNVIDIA DGX-A100のようなハイエンドマシンまで、さまざまなハードウェアセットアップにわたるRL環境シミュレーション速度を改善しました。 ハイエンドマシンでは、envpoolはatari環境上での環境実行に毎秒100万フレーム、mujoco環境では毎秒300万フレームを達成している。 ラップトップ上で実行する場合、EnvPoolの速度はPythonサブプロセスの2.8倍である。 さらに、CleanRL、rl_games、DeepMind Acmeなど、既存のRLトレーニングライブラリとの互換性も、オープンソースコミュニティで実証されている。 最後に、EnvPoolは、研究者がアイデアをより速いペースで反復し、事実上のRL環境実行エンジンになる大きな可能性を秘めている。 例を挙げると、atari pongとmujoco antのトレーニングに5分しかかからない。 envpoolはすでにhttps://github.com/sail-sg/envpoolでオープンソース化されている。

There has been significant progress in developing reinforcement learning (RL) training systems. Past works such as IMPALA, Apex, Seed RL, Sample Factory, and others aim to improve the system's overall throughput. In this paper, we try to address a common bottleneck in the RL training system, i.e., parallel environment execution, which is often the slowest part of the whole system but receives little attention. With a curated design for paralleling RL environments, we have improved the RL environment simulation speed across different hardware setups, ranging from a laptop, and a modest workstation, to a high-end machine like NVIDIA DGX-A100. On a high-end machine, EnvPool achieves 1 million frames per second for the environment execution on Atari environments and 3 million frames per second on MuJoCo environments. When running on a laptop, the speed of EnvPool is 2.8 times of the Python subprocess. Moreover, great compatibility with existing RL training libraries has been demonstrated in the open-sourced community, including CleanRL, rl_games, DeepMind Acme, etc. Finally, EnvPool allows researchers to iterate their ideas at a much faster pace and has the great potential to become the de facto RL environment execution engine. Example runs show that it takes only 5 minutes to train Atari Pong and MuJoCo Ant, both on a laptop. EnvPool has already been open-sourced at https://github.com/sail-sg/envpool.
翻訳日:2022-06-22 15:34:53 公開日:2022-06-21
# (参考訳) 分散・フェデレーション学習におけるエネルギー・炭素フットプリント分析

An Energy and Carbon Footprint Analysis of Distributed and Federated Learning ( http://arxiv.org/abs/2206.10380v1 )

ライセンス: CC BY 4.0
Stefano Savazzi, Vittorio Rampa, Sanaz Kianoush, Mehdi Bennis(参考訳) 古典的で集中型の人工知能(AI)手法では、プライバシを侵害しながら、生産者(センサー、マシン)からエネルギーを消費するデータセンターにデータを移動させ、計算および通信リソースの要求による環境上の懸念を高める必要がある。 このような高エネルギーコストを緩和する新たな代替手段は、通常低消費電力のデバイス間での学習タスクを効率的に分散またはフェデレートすることを提案している。 本稿では,分散・連合学習(FL)におけるエネルギー・炭素フットプリントの分析のための新しい枠組みを提案する。 提案フレームワークは,バニラFL法におけるエネルギーフットプリントと炭素等価エミッションと,コンセンサスに基づく完全分散アプローチの両方を定量化する。 グリーンFL設計を支援し,持続可能性評価の基盤となる最適境界点と運用点について論じる。 新たな5G産業の2つのケーススタディが分析され、継続的および強化学習施設の環境フットプリントを定量化し、継続的な改善のためにトレーニングプロセスが定期的に繰り返される。 すべてのケースにおいて、分散学習の持続性は、コミュニケーション効率と学習者人口サイズに関する特定の要件を満たすことに依存している。 ターゲットとする産業アプリケーションのためのモデルとデータフットプリントを考慮して、エネルギーとテストの精度もトレードオフすべきである。

Classical and centralized Artificial Intelligence (AI) methods require moving data from producers (sensors, machines) to energy hungry data centers, raising environmental concerns due to computational and communication resource demands, while violating privacy. Emerging alternatives to mitigate such high energy costs propose to efficiently distribute, or federate, the learning tasks across devices, which are typically low-power. This paper proposes a novel framework for the analysis of energy and carbon footprints in distributed and federated learning (FL). The proposed framework quantifies both the energy footprints and the carbon equivalent emissions for vanilla FL methods and consensus-based fully decentralized approaches. We discuss optimal bounds and operational points that support green FL designs and underpin their sustainability assessment. Two case studies from emerging 5G industry verticals are analyzed: these quantify the environmental footprints of continual and reinforcement learning setups, where the training process is repeated periodically for continuous improvements. For all cases, sustainability of distributed learning relies on the fulfillment of specific requirements on communication efficiency and learner population size. Energy and test accuracy should be also traded off considering the model and the data footprints for the targeted industrial applications.
翻訳日:2022-06-22 15:32:50 公開日:2022-06-21
# アクティブ話者検出のための音声視覚同期の再考

Rethinking Audio-visual Synchronization for Active Speaker Detection ( http://arxiv.org/abs/2206.10421v1 )

ライセンス: Link先を確認
Abudukelimu Wuerkaixi, You Zhang, Zhiyao Duan, Changshui Zhang(参考訳) アクティブ話者検出(ASD)システムは,多話者会話を解析するための重要なモジュールである。 彼らは、どの話者や誰も、いつでも視覚的なシーンで話しているかを検出することを目指している。 ASDに関する既存の研究は、アクティブスピーカーの定義には同意していない。 本研究における定義を明確にし,音声と視覚的発話の同期を必要とする。 この定義の明確化は,既存のasd手法が視聴覚同期のモデル化に失敗し,非同期映像を能動的発話として分類することを発見した,広範な実験の動機となっている。 この問題に対処するため,本研究では,同期キューを活用するために,マルチモーダルコントラスト学習戦略を提案し,アテンションモジュールに位置エンコーディングを適用した。 実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。

Active speaker detection (ASD) systems are important modules for analyzing multi-talker conversations. They aim to detect which speakers or none are talking in a visual scene at any given time. Existing research on ASD does not agree on the definition of active speakers. We clarify the definition in this work and require synchronization between the audio and visual speaking activities. This clarification of definition is motivated by our extensive experiments, through which we discover that existing ASD methods fail in modeling the audio-visual synchronization and often classify unsynchronized videos as active speaking. To address this problem, we propose a cross-modal contrastive learning strategy and apply positional encoding in attention modules for supervised ASD models to leverage the synchronization cue. Experimental results suggest that our model can successfully detect unsynchronized speaking as not speaking, addressing the limitation of current models.
翻訳日:2022-06-22 15:30:58 公開日:2022-06-21
# (参考訳) 非対称ユーティリティによる政策学習

Policy learning with asymmetric utilities ( http://arxiv.org/abs/2206.10479v1 )

ライセンス: CC BY 4.0
Eli Ben-Michael and Kosuke Imai and Zhichao Jiang(参考訳) データ駆動意思決定は、医療や公共政策のような高リスク設定においても重要な役割を果たす。 観測データから最適政策を学ぶには、人口間で期待値が最大化される効用関数を慎重に定式化する必要がある。 研究者は通常、観察結果のみに依存するユーティリティを使用するが、多くの環境では、意思決定者のユーティリティ機能は、すべてのアクションの下での潜在的な結果の共同セットによってより適切に特徴付けられる。 例えば、hippocratic principle to 'do no harm' は、治療なしで生き残る患者に死をもたらすコストが、救命治療のコストよりも大きいことを意味する。 この形式の非対称効用関数を用いた最適政策学習を考える。 非対称なユーティリティが不特定社会福祉機能に繋がることを示すので、まずそれを部分的に同定する。 統計的決定理論を採り、代替政策に対する最大後悔を最小化することでミニマックス決定規則を導出する。 中間分類問題を解くことで,観測データからミニマックス決定規則を学習できることを示す。 また、この手順の有限サンプル後悔は、これらの中間分類器の誤分類率によって限定される。 この概念的枠組みと方法論を,肺高血圧の可能性を秘めた患者に対して,右心カテーテルを使用すべきか否かの判断に応用する。

Data-driven decision making plays an important role even in high stakes settings like medicine and public policy. Learning optimal policies from observed data requires a careful formulation of the utility function whose expected value is maximized across a population. Although researchers typically use utilities that depend on observed outcomes alone, in many settings the decision maker's utility function is more properly characterized by the joint set of potential outcomes under all actions. For example, the Hippocratic principle to ``do no harm'' implies that the cost of causing death to a patient who would otherwise survive without treatment is greater than the cost of forgoing life-saving treatment. We consider optimal policy learning with asymmetric utility functions of this form. We show that asymmetric utilities lead to an unidentifiable social welfare function, and so we first partially identify it. Drawing on statistical decision theory, we then derive minimax decision rules by minimizing the maximum regret relative to alternative policies. We show that one can learn minimax decision rules from observed data by solving intermediate classification problems. We also establish that the finite sample regret of this procedure is bounded by the mis-classification rate of these intermediate classifiers. We apply this conceptual framework and methodology to the decision about whether or not to use right heart catheterization for patients with possible pulmonary hypertension.
翻訳日:2022-06-22 15:28:00 公開日:2022-06-21
# wrapperfl: 産業連関学習のためのモデル非依存プラグイン

WrapperFL: A Model Agnostic Plug-in for Industrial Federated Learning ( http://arxiv.org/abs/2206.10407v1 )

ライセンス: Link先を確認
Xueyang Wu, Shengqi Tan, Qian Xu, Qiang Yang(参考訳) プライバシー保護型機械学習パラダイムとしての連合学習は、業界でますます注目を集めている。 需要の急増に伴い、フェデレーション参加者がゼロからフェデレーションモデルのセットアップと構築を可能にする、多くのフェデレーション学習プラットフォームが存在している。 しかし、離脱プラットフォームは非常に侵入的で複雑で、構築された機械学習モデルとの統合が難しい。 すでに成熟したサービスモデルを持つ多くの現実世界のビジネスにとって、既存の統合学習プラットフォームは、参入障壁と開発コストが高い。 本稿では,既存のモデルを用いた連合システムの構築/参加を最小限のコストで行える,アンサンブル学習にインスパイアされた,シンプルかつ実用的な連合学習プラグインを提案する。 WrapperFLは、既存のモデルの入力と出力のインターフェースに単にアタッチするだけで、再開発なしにプラグアンドプレイで動作し、人力やリソースのオーバーヘッドを大幅に削減する。 異種データ分布と異種モデルに基づく多様なタスクに対する提案手法を検証する。 実験の結果,laperflは実用環境では幅広いアプリケーションに適用可能であり,低コストで連合学習による局所モデルの改善が期待できることがわかった。

Federated learning, as a privacy-preserving collaborative machine learning paradigm, has been gaining more and more attention in the industry. With the huge rise in demand, there have been many federated learning platforms that allow federated participants to set up and build a federated model from scratch. However, exiting platforms are highly intrusive, complicated, and hard to integrate with built machine learning models. For many real-world businesses that already have mature serving models, existing federated learning platforms have high entry barriers and development costs. This paper presents a simple yet practical federated learning plug-in inspired by ensemble learning, dubbed WrapperFL, allowing participants to build/join a federated system with existing models at minimal costs. The WrapperFL works in a plug-and-play way by simply attaching to the input and output interfaces of an existing model, without the need of re-development, significantly reducing the overhead of manpower and resources. We verify our proposed method on diverse tasks under heterogeneous data distributions and heterogeneous models. The experimental results demonstrate that WrapperFL can be successfully applied to a wide range of applications under practical settings and improves the local model with federated learning at a low cost.
翻訳日:2022-06-22 15:25:17 公開日:2022-06-21
# 記号回帰データセットの再考と科学的発見のためのベンチマーク

Rethinking Symbolic Regression Datasets and Benchmarks for Scientific Discovery ( http://arxiv.org/abs/2206.10540v1 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Naoya Chiba, Ryo Igarashi, Tatsunori Taniai, Yoshitaka Ushiku(参考訳) 本稿では,数式を用いて与えられたデータを表現するための課題である記号回帰のデータセットと評価基準を再検討する。 feynman lectures on physicsに基づく既存のデータセットで使われる式セットに着目し,120のデータセットを再現し,srsd(symbolive regression for scientific discovery)の性能について検討した。 120個のSRSDデータセットのそれぞれに対して、この公式とその変数の特性を慎重にレビューし、合理的に現実的なサンプリング範囲を設計し、新しいSRSDデータセットを使用して、これらのデータセットからSRSD法が物理法則を(再)発見するか否か等、SRSDの可能性を評価する。 評価指標として,予測方程式と接地トラス方程式木の間の正規化編集距離を用いることを提案する。 既存のメトリクスは、与えられた入力に対する目標値とsrモデルの予測値の間の2値または誤差であるが、正規化された編集距離は、接地木と予測式木との類似性を評価する。 SRBenchにおける5つの最先端SR手法と,最近のTransformerアーキテクチャに基づくシンプルなベースラインを用いて,新しいSRSDデータセットの実験を行った。 その結果、我々はより現実的なパフォーマンス評価を提供し、科学的発見のための新しい機械学習ベースのアプローチを開拓した。 データセットとコードリポジトリは公開されています。

This paper revisits datasets and evaluation criteria for Symbolic Regression, a task of expressing given data using mathematical equations, specifically focused on its potential for scientific discovery. Focused on a set of formulas used in the existing datasets based on Feynman Lectures on Physics, we recreate 120 datasets to discuss the performance of symbolic regression for scientific discovery (SRSD). For each of the 120 SRSD datasets, we carefully review the properties of the formula and its variables to design reasonably realistic sampling range of values so that our new SRSD datasets can be used for evaluating the potential of SRSD such as whether or not an SR method con (re)discover physical laws from such datasets. As an evaluation metric, we also propose to use normalized edit distances between a predicted equation and the ground-truth equation trees. While existing metrics are either binary or errors between the target values and an SR model's predicted values for a given input, normalized edit distances evaluate a sort of similarity between the ground-truth and predicted equation trees. We have conducted experiments on our new SRSD datasets using five state-of-the-art SR methods in SRBench and a simple baseline based on a recent Transformer architecture. The results show that we provide a more realistic performance evaluation and open up a new machine learning-based approach for scientific discovery. Our datasets and code repository are publicly available.
翻訳日:2022-06-22 15:24:55 公開日:2022-06-21
# 自律エージェントの能力評価のための不確実性定量化

Uncertainty Quantification for Competency Assessment of Autonomous Agents ( http://arxiv.org/abs/2206.10553v1 )

ライセンス: Link先を確認
Aastha Acharya, Rebecca Russell, Nisar R. Ahmed(参考訳) 現実世界で安全で信頼性の高いデプロイメントを行うためには、自律的なエージェントは適切なレベルの信頼を人間のユーザから引き出す必要がある。 信頼を構築する方法の1つは、エージェントに与えられたタスクを実行する能力を評価し、伝達させることである。 能力はエージェントに影響を及ぼす不確実性に依存し、能力評価にとって正確な不確実性定量化が不可欠である。 本稿では,能力評価の一環として課題成果を予測する際に,エージェントのアレエータ的・認識的不確かさを定量化するために,深層生成モデルのアンサンブルがいかに用いられるかを示す。

For safe and reliable deployment in the real world, autonomous agents must elicit appropriate levels of trust from human users. One method to build trust is to have agents assess and communicate their own competencies for performing given tasks. Competency depends on the uncertainties affecting the agent, making accurate uncertainty quantification vital for competency assessment. In this work, we show how ensembles of deep generative models can be used to quantify the agent's aleatoric and epistemic uncertainties when forecasting task outcomes as part of competency assessment.
翻訳日:2022-06-22 15:24:30 公開日:2022-06-21
# 辺縁テール適応正規化流れ

Marginal Tail-Adaptive Normalizing Flows ( http://arxiv.org/abs/2206.10311v1 )

ライセンス: Link先を確認
Mike Laszkiewicz, Johannes Lederer, Asja Fischer(参考訳) 分布のテール挙動を学ぶことは、非常に難しい問題である。 定義によれば、尾部からのサンプルの数は小さく、フローの正規化のような深い生成モデルは、分布の体を学ぶことに集中する傾向にある。 本稿では,尾の挙動を正確に把握し,より正確なモデルを作成するため,流れの正規化能力の向上に焦点をあてる。 自己回帰流の限界尾化性は,その基底分布の限界尾化性によって制御できることを示す。 この理論的洞察は、柔軟なベース分布とデータ駆動線形層に基づく新しいタイプのフローへと導かれる。 実験分析により,提案手法は精度(特に分布の尾部)を向上し,重み付きデータを生成可能であることが示された。 尾行行動の把握が不可欠である気象や気候の例として,その応用例を示す。

Learning the tail behavior of a distribution is a notoriously difficult problem. By definition, the number of samples from the tail is small, and deep generative models, such as normalizing flows, tend to concentrate on learning the body of the distribution. In this paper, we focus on improving the ability of normalizing flows to correctly capture the tail behavior and, thus, form more accurate models. We prove that the marginal tailedness of an autoregressive flow can be controlled via the tailedness of the marginals of its base distribution. This theoretical insight leads us to a novel type of flows based on flexible base distributions and data-driven linear layers. An empirical analysis shows that the proposed method improves on the accuracy -- especially on the tails of the distribution -- and is able to generate heavy-tailed data. We demonstrate its application on a weather and climate example, in which capturing the tail behavior is essential.
翻訳日:2022-06-22 15:17:23 公開日:2022-06-21
# ビジネス成果を最適化するための機械学習規範キャンバス

Machine Learning Prescriptive Canvas for Optimizing Business Outcomes ( http://arxiv.org/abs/2206.10333v1 )

ライセンス: Link先を確認
Hanan Shteingart, Gerben Oostra, Ohad Levinkron, Naama Parush, Gil Shabat, Daniel Aronovich(参考訳) データサイエンスは、様々な分野のビジネスを改善する可能性がある。 データサイエンスプロジェクトにおけるライオンのシェアは予測的アプローチを使用しているが、これらの予測を改善するには意思決定が必要である。 しかし、このような2段階のアプローチは副最適化であるだけでなく、パフォーマンスを低下させ、プロジェクトを失敗させる可能性もある。 別の方法として、アクションが"最初の市民"である規範的フレーミングに従うことで、モデルが結果を予測するのではなく、アクションを規定するポリシを生成する。 本稿では、規範的アプローチが重要である理由を説明し、ステップバイステップの方法論であるPrescriptive Canvasを提供する。 後者は、プロジェクトやデータサイエンスマネージャを含むプロジェクトステークホルダー間のフレーミングとコミュニケーションを改善し、ビジネスへの影響を成功させることを目的としています。

Data science has the potential to improve business in a variety of verticals. While the lion's share of data science projects uses a predictive approach, to drive improvements these predictions should become decisions. However, such a two-step approach is not only sub-optimal but might even degrade performance and fail the project. The alternative is to follow a prescriptive framing, where actions are "first citizens" so that the model produces a policy that prescribes an action to take, rather than predicting an outcome. In this paper, we explain why the prescriptive approach is important and provide a step-by-step methodology: the Prescriptive Canvas. The latter aims to improve framing and communication across the project stakeholders including project and data science managers towards a successful business impact.
翻訳日:2022-06-22 15:17:11 公開日:2022-06-21
# 多重結合列を持つ確率近似の単一時間スケール解析

A Single-Timescale Analysis For Stochastic Approximation With Multiple Coupled Sequences ( http://arxiv.org/abs/2206.10414v1 )

ライセンス: Link先を確認
Han Shen and Tianyi Chen(参考訳) 複数の結合配列を持つ確率近似(SA)は、バイレベル学習や強化学習(RL)といった機械学習に広く応用されている。 本稿では,複数の結合配列を持つ非線形SAの有限時間収束について検討する。 既存のマルチスケール解析とは違って,マルチシーケンス単一スケールSA(STSA)の性能保証をきめ細かな解析で実現するシナリオを模索する。 我々の分析の核心は、多くの応用において保持される多列SAの固定点の滑らか性である。 すべての列が強い単調増分を持つとき、$\mathcal{O}(\epsilon^{-1})$の反復複雑性を確立して$\epsilon$-accuracyを達成し、既存の$\mathcal{O}(\epsilon^{-1.5})$の2つの連結列に対する複雑性を改善する。 主列以外が強単調な増分を持つとき、$\mathcal{O}(\epsilon^{-2})$の反復複雑性を確立する。 この結果のメリットは,確率的双レベルおよび構成最適化問題に適用すること,rl問題が既存の性能保証よりも緩和された仮定や改善につながる点にあります。

Stochastic approximation (SA) with multiple coupled sequences has found broad applications in machine learning such as bilevel learning and reinforcement learning (RL). In this paper, we study the finite-time convergence of nonlinear SA with multiple coupled sequences. Different from existing multi-timescale analysis, we seek for scenarios where a fine-grained analysis can provide the tight performance guarantee for multi-sequence single-timescale SA (STSA). At the heart of our analysis is the smoothness property of the fixed points in multi-sequence SA that holds in many applications. When all sequences have strongly monotone increments, we establish the iteration complexity of $\mathcal{O}(\epsilon^{-1})$ to achieve $\epsilon$-accuracy, which improves the existing $\mathcal{O}(\epsilon^{-1.5})$ complexity for two coupled sequences. When all but the main sequence have strongly monotone increments, we establish the iteration complexity of $\mathcal{O}(\epsilon^{-2})$. The merit of our results lies in that applying them to stochastic bilevel and compositional optimization problems, as well as RL problems leads to either relaxed assumptions or improvements over their existing performance guarantees.
翻訳日:2022-06-22 15:16:59 公開日:2022-06-21
# 内点法による制約付き変分不等式解法

Solving Constrained Variational Inequalities via an Interior Point Method ( http://arxiv.org/abs/2206.10575v1 )

ライセンス: Link先を確認
Tong Yang, Michael I. Jordan, Tatjana Chavdarova(参考訳) 制約付き変分不等式(cVI)問題を解くためのインテリアポイントアプローチを開発する。 単目的文脈における乗算器の交互方向法(admm)の有効性に着想を得て,admm を一般化して cvis の一階法を導出し,制約付き vis (acvi) に対して admm ベースの内点法と呼ぶ。 acviの2つの一般的な問題クラスにおける収束保証を提供する。 (i)オペレータが$\xi$モノトーンである場合、及び (ii)単調の場合、制約はアクティブであり、ゲームは純粋に回転しない。 後者の場合、作用素が L-Lipschitz を加算する場合、それぞれが最後のイテレートと平均イテレートに対して $\mathcal{O}(1/\sqrt{K})$ と $\mathcal{O}(1/K)$ のギャップ関数のレートで既知の下界と一致する。 我々の知る限りでは、これは大域収束保証を持つ一般のcVI問題に対する一階内点法の最初のプレゼンテーションである。 さらに、この設定における以前の研究とは異なり、ACVI は制約が自明でない場合に cVI を解く手段を提供する。 経験的分析は、一般的な一階法よりもACVIの明確な利点を示している。 特に (i)分析中心から解に近づくと,循環的挙動が顕著に減少する。 (ii)制約付近で振動する投影法とは異なり、acviは制約を効率的に処理する。

We develop an interior-point approach to solve constrained variational inequality (cVI) problems. Inspired by the efficacy of the alternating direction method of multipliers (ADMM) method in the single-objective context, we generalize ADMM to derive a first-order method for cVIs, that we refer to as ADMM-based interior point method for constrained VIs (ACVI). We provide convergence guarantees for ACVI in two general classes of problems: (i) when the operator is $\xi$-monotone, and (ii) when it is monotone, the constraints are active and the game is not purely rotational. When the operator is in addition L-Lipschitz for the latter case, we match known lower bounds on rates for the gap function of $\mathcal{O}(1/\sqrt{K})$ and $\mathcal{O}(1/K)$ for the last and average iterate, respectively. To the best of our knowledge, this is the first presentation of a first-order interior-point method for the general cVI problem that has a global convergence guarantee. Moreover, unlike previous work in this setting, ACVI provides a means to solve cVIs when the constraints are nontrivial. Empirical analyses demonstrate clear advantages of ACVI over common first-order methods. In particular, (i) cyclical behavior is notably reduced as our methods approach the solution from the analytic center, and (ii) unlike projection-based methods that oscillate when near a constraint, ACVI efficiently handles the constraints.
翻訳日:2022-06-22 15:16:40 公開日:2022-06-21
# 深い学習を通して線形PDEを解くためのロバストSDEに基づく変分式

Robust SDE-Based Variational Formulations for Solving Linear PDEs via Deep Learning ( http://arxiv.org/abs/2206.10588v1 )

ライセンス: Link先を確認
Lorenz Richter, Julius Berner(参考訳) 近年,モンテカルロ法とディープラーニングの組み合わせにより,偏微分方程式(PDE)を高次元で解くアルゴリズムが提案されている。 関連する学習問題はしばしば、関連する確率微分方程式(sdes)に基づく変分定式化として記述され、勾配に基づく最適化法を用いて対応する損失を最小化することができる。 したがって、各数値的実装において、収束を正確かつ迅速に到達するために、低分散を示す適切な勾配推定子に依存することが不可欠である。 本稿では,線形コルモゴロフPDEの文脈に現れる対応する数値的側面について,厳密に検討する。 特に,既存のディープラーニング手法を体系的に比較し,その性能に関する理論的説明を提供する。 その後, 理論上, 数値的にもより頑健であることを示す新しい手法を提案することにより, 性能が大幅に向上した。

The combination of Monte Carlo methods and deep learning has recently led to efficient algorithms for solving partial differential equations (PDEs) in high dimensions. Related learning problems are often stated as variational formulations based on associated stochastic differential equations (SDEs), which allow the minimization of corresponding losses using gradient-based optimization methods. In respective numerical implementations it is therefore crucial to rely on adequate gradient estimators that exhibit low variance in order to reach convergence accurately and swiftly. In this article, we rigorously investigate corresponding numerical aspects that appear in the context of linear Kolmogorov PDEs. In particular, we systematically compare existing deep learning approaches and provide theoretical explanations for their performances. Subsequently, we suggest novel methods that can be shown to be more robust both theoretically and numerically, leading to substantial performance improvements.
翻訳日:2022-06-22 15:16:11 公開日:2022-06-21
# (参考訳) mri画像における乳頭内粘膜腫瘍(ipmn)分類のための神経トランスフォーマー

Neural Transformers for Intraductal Papillary Mucosal Neoplasms (IPMN) Classification in MRI images ( http://arxiv.org/abs/2206.10531v1 )

ライセンス: CC BY 4.0
Federica Proietto Salanitri, Giovanni Bellitto, Simone Palazzo, Ismail Irmakci, Michael B. Wallace, Candice W. Bolan, Megan Engels, Sanne Hoogenboom, Marco Aldinucci, Ulas Bagci, Daniela Giordano, Concetto Spampinato(参考訳) 膵管内乳頭粘膜腫瘍(ipmn)の早期発見は困難かつ複雑な作業であり,より好ましい結果をもたらす可能性がある。 一度検出されると、リスクの低いIPMNは監視プログラムを受けることができ、リスクの高いIPMNはがんになる前に外科的に切除する必要がある。 IPMN分類における現在の基準(福岡ら)は, 誤診を伴うとともに, 術中および術中変動が顕著であり, 適切な診断が不可能である。 ディープラーニングパラダイムによる人工知能の確立した進歩は、膵癌に対する医学的決定を効果的に支援するための重要なツールとなるかもしれない。 本研究では、近年のトランスフォーマーネットワークの成功を利用して、視覚を含む様々なタスクを一般化する新しいAIベースのIPMN分類器を提案する。 具体的には,我々のトランスフォーマーモデルが,標準畳み込みニューラルネットワークよりも事前学習をうまく活用していることを示し,医療画像領域を含む視覚におけるトランスフォーマーのアーキテクチャ的普遍性が期待できることを示した。

Early detection of precancerous cysts or neoplasms, i.e., Intraductal Papillary Mucosal Neoplasms (IPMN), in pancreas is a challenging and complex task, and it may lead to a more favourable outcome. Once detected, grading IPMNs accurately is also necessary, since low-risk IPMNs can be under surveillance program, while high-risk IPMNs have to be surgically resected before they turn into cancer. Current standards (Fukuoka and others) for IPMN classification show significant intra- and inter-operator variability, beside being error-prone, making a proper diagnosis unreliable. The established progress in artificial intelligence, through the deep learning paradigm, may provide a key tool for an effective support to medical decision for pancreatic cancer. In this work, we follow this trend, by proposing a novel AI-based IPMN classifier that leverages the recent success of transformer networks in generalizing across a wide variety of tasks, including vision ones. We specifically show that our transformer-based model exploits pre-training better than standard convolutional neural networks, thus supporting the sought architectural universalism of transformers in vision, including the medical image domain and it allows for a better interpretation of the obtained results.
翻訳日:2022-06-22 15:14:39 公開日:2022-06-21
# トップビューからの再構成:幾何構造に基づく3次元レーン検出アプローチ

Reconstruct from Top View: A 3D Lane Detection Approach based on Geometry Structure Prior ( http://arxiv.org/abs/2206.10098v1 )

ライセンス: Link先を確認
Chenguang Li, Jia Shi, Ya Wang, Guangliang Cheng(参考訳) 本稿では,2次元から3次元への再構成過程における幾何構造を活用し,単眼3次元レーン検出の課題を対象とする先進的アプローチを提案する。 先行手法に触発されて,まず3次元レーンと地上の2次元表現との幾何学的ヒューリスティックスを解析し,先行構造に基づく明示的な監督を課すことにより,車線間関係と車線内関係の構築を可能にし,局所からグローバルへの3次元レーンの再構築を容易にする。 第2に,2次元レーン表現における構造損失を低減するため,正面画像からトップビューレーン情報を直接抽出することで,従来手法における遠方レーン特徴の混乱を著しく緩和する。 さらに,パイプライン内のセグメンテーションタスクと再構築タスクの両方に新たなトレーニングデータを合成して,カメラポーズと地上斜面の不均衡なデータ分布に対処し,見えないデータの一般化を改善するタスク固有データ拡張手法を提案する。 我々の研究は、DNNに基づく3次元車線検出に先立つ幾何学的情報を活用する最初の試みであり、遠距離での車線検出を可能にし、元の検出範囲を2倍にする。 提案手法は余分なコストを伴わずに他のフレームワークにスムーズに適用することができる。 実験の結果,apollo 3d 合成データセットにおける最先端の f-score を 82 fps のリアルタイム速度で3.8% 向上させた。

In this paper, we propose an advanced approach in targeting the problem of monocular 3D lane detection by leveraging geometry structure underneath the process of 2D to 3D lane reconstruction. Inspired by previous methods, we first analyze the geometry heuristic between the 3D lane and its 2D representation on the ground and propose to impose explicit supervision based on the structure prior, which makes it achievable to build inter-lane and intra-lane relationships to facilitate the reconstruction of 3D lanes from local to global. Second, to reduce the structure loss in 2D lane representation, we directly extract top view lane information from front view images, which tremendously eases the confusion of distant lane features in previous methods. Furthermore, we propose a novel task-specific data augmentation method by synthesizing new training data for both segmentation and reconstruction tasks in our pipeline, to counter the imbalanced data distribution of camera pose and ground slope to improve generalization on unseen data. Our work marks the first attempt to employ the geometry prior information into DNN-based 3D lane detection and makes it achievable for detecting lanes in an extra-long distance, doubling the original detection range. The proposed method can be smoothly adopted by other frameworks without extra costs. Experimental results show that our work outperforms state-of-the-art approaches by 3.8% F-Score on Apollo 3D synthetic dataset at real-time speed of 82 FPS without introducing extra parameters.
翻訳日:2022-06-22 14:57:12 公開日:2022-06-21
# 3D CNNにおけるカーネルのスケールアップ

Scaling up Kernels in 3D CNNs ( http://arxiv.org/abs/2206.10555v1 )

ライセンス: Link先を確認
Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jia(参考訳) 近年の2次元CNNとビジョントランスフォーマー(ViT)の進歩により、大きなカーネルは十分な受容場と高い性能に欠かせないことが判明した。 本研究では,3次元大規模カーネル設計の実現可能性と課題について考察する。 3次元cnnにおける大規模畳み込みカーネルの適用は,性能と効率の両方においてより困難である。 2D CNNでうまく機能する既存の技術は、3Dネットワークでは効果がない。 これらの障害を克服するために,空間的グループ畳み込みとその大きなカーネルモジュール(SW-LKブロック)を提案する。 3D大型カーネルの最適化と効率性の問題を回避する。 我々の大カーネル3D CNNネットワーク、すなわちLargeKernel3Dは、セマンティックセグメンテーションやオブジェクト検出など、様々な3Dタスクにおいて非自明な改善をもたらす。 特に、ScanNetv2セマンティックセグメンテーションで73.9% mIoU、72.8% NDS nuScenesオブジェクト検出ベンチマークを達成し、nuScenes LIDARリーダーボードで1位となった。 さらに単純なマルチモーダル核融合で74.2% NDSに増強された。 LargeKernel3Dは、CNNやTransformerと同等または優れた結果が得られる。 大規模なカーネルは3Dネットワークにおいて実現可能で不可欠であることを示す。

Recent advances in 2D CNNs and vision transformers (ViTs) reveal that large kernels are essential for enough receptive fields and high performance. Inspired by this literature, we examine the feasibility and challenges of 3D large-kernel designs. We demonstrate that applying large convolutional kernels in 3D CNNs has more difficulties in both performance and efficiency. Existing techniques that work well in 2D CNNs are ineffective in 3D networks, including the popular depth-wise convolutions. To overcome these obstacles, we present the spatial-wise group convolution and its large-kernel module (SW-LK block). It avoids the optimization and efficiency issues of naive 3D large kernels. Our large-kernel 3D CNN network, i.e., LargeKernel3D, yields non-trivial improvements on various 3D tasks, including semantic segmentation and object detection. Notably, it achieves 73.9% mIoU on the ScanNetv2 semantic segmentation and 72.8% NDS nuScenes object detection benchmarks, ranking 1st on the nuScenes LIDAR leaderboard. It is further boosted to 74.2% NDS with a simple multi-modal fusion. LargeKernel3D attains comparable or superior results than its CNN and transformer counterparts. For the first time, we show that large kernels are feasible and essential for 3D networks.
翻訳日:2022-06-22 14:56:46 公開日:2022-06-21
# トランスフォーマーは、未登録マルチビューマンモグラフィーによる乳癌診断を改善する

Transformers Improve Breast Cancer Diagnosis from Unregistered Multi-View Mammograms ( http://arxiv.org/abs/2206.10096v1 )

ライセンス: Link先を確認
Xuxin Chen, Ke Zhang, Neman Abdoli, Patrik W. Gilley, Ximin Wang, Hong Liu, Bin Zheng, Yuchen Qiu(参考訳) 深層畳み込みニューラルネットワーク(CNN)は様々な医療画像処理に広く用いられている。 しかし、畳み込み手術の本態的な局所性のため、CNNは一般的に長距離依存をうまくモデル化することができず、登録されていない複数のマンモグラフィーから計算した乳腺病変の特徴を正確に同定およびマッピングするために重要である。 これにより、マルチビュー・ビジョン・トランスフォーマーのアーキテクチャを活用し、同じ患者から複数のマンモグラムの長距離関係を1回の検査で捉えることができる。 そこで我々はローカルトランスフォーマーブロックを用いて,両側(左右)乳房の2ビュー(CC/MLO)から取得した4つのマンモグラム内のパッチ関係を個別に学習する。 異なるビューとサイドからの出力を連結してグローバルトランスフォーマーブロックに供給し、左右の2つの異なるビューを表す4つのイメージのパッチ関係を共同で学習する。 提案モデルを評価するために, 悪性470例, 正常479例, 良性479例を含む949セットのマンモグラフィーを含むデータセットを逆向きに収集した。 5倍のクロスバリデーション法を用いてモデルを訓練・評価した。 最適ウィンドウトリミング,胸壁,胸部筋除去,2ビュー画像登録など)の困難な前処理ステップがなければ,我々の4画像(2ビュー2サイド)トランスフォーマーベースモデルは,OC曲線以下の領域(AUC = 0.818)でケース分類性能を達成し,最先端のマルチビューCNN(p = 0.009)によりAUC = 0.784を著しく上回った。 また、それぞれ0.724(ccビュー)と0.769(mloビュー)の2つの1ビューツーサイドモデルよりも優れている。 本研究は,4つのマンモグラムを組み合わせた高性能なコンピュータ支援診断手法の開発にトランスフォーマーを用いることの可能性を示す。

Deep convolutional neural networks (CNNs) have been widely used in various medical imaging tasks. However, due to the intrinsic locality of convolution operation, CNNs generally cannot model long-range dependencies well, which are important for accurately identifying or mapping corresponding breast lesion features computed from unregistered multiple mammograms. This motivates us to leverage the architecture of Multi-view Vision Transformers to capture long-range relationships of multiple mammograms from the same patient in one examination. For this purpose, we employ local Transformer blocks to separately learn patch relationships within four mammograms acquired from two-view (CC/MLO) of two-side (right/left) breasts. The outputs from different views and sides are concatenated and fed into global Transformer blocks, to jointly learn patch relationships between four images representing two different views of the left and right breasts. To evaluate the proposed model, we retrospectively assembled a dataset involving 949 sets of mammograms, which include 470 malignant cases and 479 normal or benign cases. We trained and evaluated the model using a five-fold cross-validation method. Without any arduous preprocessing steps (e.g., optimal window cropping, chest wall or pectoral muscle removal, two-view image registration, etc.), our four-image (two-view-two-side) Transformer-based model achieves case classification performance with an area under ROC curve (AUC = 0.818), which significantly outperforms AUC = 0.784 achieved by the state-of-the-art multi-view CNNs (p = 0.009). It also outperforms two one-view-two-side models that achieve AUC of 0.724 (CC view) and 0.769 (MLO view), respectively. The study demonstrates the potential of using Transformers to develop high-performing computer-aided diagnosis schemes that combine four mammograms.
翻訳日:2022-06-22 14:55:55 公開日:2022-06-21
# (参考訳) 分類器を組立てる:バイアス変数の視点

Ensembling over Classifiers: a Bias-Variance Perspective ( http://arxiv.org/abs/2206.10566v1 )

ライセンス: CC BY-SA 4.0
Neha Gupta, Jamie Smith, Ben Adlam, Zelda Mariet(参考訳) アンサンブルは、分類タスクにおけるモデルの正確性、キャリブレーション、堅牢性を改善するための、単純で極めて効果的な方法であるが、その成功を裏付ける理由は依然として研究の活発な領域である。 Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。 バイアス分散トレードオフの双対再パラメータ化を導入することで、分類タスクに典型的な非対称損失に対する総期待と分散の一般化則を導出する。 条件付きバイアス/分散推定とブートストラップ型バイアス/分散推定を比較し,条件付き推定が必ずしも既約誤差を伴わないことを示す。 次に、双対空間におけるエンセムリングは分散を減少させバイアスを変化させるが、標準エンセムリングは任意にバイアスに影響を与える。 経験的に、標準のセンスリングはバイアスを減少させ、この予期せぬ減少のために分類器のアンサンブルがうまく機能するかもしれないという仮説を導き、ハイパーパラメータ上でアンサンブルする最近のディープラーニング手法を実証分析した結果、これらのテクニックがバイアス低減を実際に好んでいることが明らかとなった。 これは、古典的知恵とは対照的に、バイアス低減を狙うことが分類子アンサンブルの有望な方向性であることを示唆している。

Ensembles are a straightforward, remarkably effective method for improving the accuracy,calibration, and robustness of models on classification tasks; yet, the reasons that underlie their success remain an active area of research. We build upon the extension to the bias-variance decomposition by Pfau (2013) in order to gain crucial insights into the behavior of ensembles of classifiers. Introducing a dual reparameterization of the bias-variance tradeoff, we first derive generalized laws of total expectation and variance for nonsymmetric losses typical of classification tasks. Comparing conditional and bootstrap bias/variance estimates, we then show that conditional estimates necessarily incur an irreducible error. Next, we show that ensembling in dual space reduces the variance and leaves the bias unchanged, whereas standard ensembling can arbitrarily affect the bias. Empirically, standard ensembling reducesthe bias, leading us to hypothesize that ensembles of classifiers may perform well in part because of this unexpected reduction.We conclude by an empirical analysis of recent deep learning methods that ensemble over hyperparameters, revealing that these techniques indeed favor bias reduction. This suggests that, contrary to classical wisdom, targeting bias reduction may be a promising direction for classifier ensembles.
翻訳日:2022-06-22 14:50:05 公開日:2022-06-21
# モデルとポリシーのエントロピー正規化を用いたモデルベース模倣学習

Model-Based Imitation Learning Using Entropy Regularization of Model and Policy ( http://arxiv.org/abs/2206.10101v1 )

ライセンス: Link先を確認
Eiji Uchibe(参考訳) 模倣学習のための生成的adversarial networkに基づくアプローチは、専門家によるデモンストレーションの観点でサンプル効率が良いため、有望である。 しかし, モデルフリー強化学習はポリシー更新のために採用されているため, ジェネレータの訓練には実環境との対話が多数必要である。 モデルベース強化学習を用いてサンプル効率を向上させるために,エントロピー規則化マルコフ決定プロセスの下でモデルベースエントロピー規則化模倣学習(MB-ERIL)を提案する。 MB-ERILは2つの識別器を使用する。 ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。 我々は、ポリシーとモデルの学習が効率的になるように、構造化された識別器を導出する。 計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が大幅に向上した。

Approaches based on generative adversarial networks for imitation learning are promising because they are sample efficient in terms of expert demonstrations. However, training a generator requires many interactions with the actual environment because model-free reinforcement learning is adopted to update a policy. To improve the sample efficiency using model-based reinforcement learning, we propose model-based Entropy-Regularized Imitation Learning (MB-ERIL) under the entropy-regularized Markov decision process to reduce the number of interactions with the actual environment. MB-ERIL uses two discriminators. A policy discriminator distinguishes the actions generated by a robot from expert ones, and a model discriminator distinguishes the counterfactual state transitions generated by the model from the actual ones. We derive the structured discriminators so that the learning of the policy and the model is efficient. Computer simulations and real robot experiments show that MB-ERIL achieves a competitive performance and significantly improves the sample efficiency compared to baseline methods.
翻訳日:2022-06-22 14:28:00 公開日:2022-06-21
# 簡便な合成タスクによる事前学習への洞察

Insights into Pre-training via Simpler Synthetic Tasks ( http://arxiv.org/abs/2206.10139v1 )

ライセンス: Link先を確認
Yuhuai Wu, Felix Li, Percy Liang(参考訳) 事前トレーニングは、幅広い下流タスクに有効な表現を生成するが、効果的なゲインのために、事前トレーニングのどのような特性が必要なのかはまだ不明である。 特に最近の研究は、合成タスクの事前学習でさえ、下流タスクの大幅な向上を達成できることを示している。 本研究では,事前学習を反復的に単純化する3つの実験を行い,単純化が依然として多くの利益を維持できることを示す。 まず,6つのダウンストリームタスクにおいて,既存の3つの合成事前学習手法を体系的に評価する。 最も優れた合成前トレーニング方法であるlimeは、自然前トレーニングの利点のうち平均で6,7\%の値に達する。 次に、驚いたことに、セット関数によって定義される単純で汎用的な合成タスクの事前トレーニングは、ほとんどlimeと一致して、その利点の65\%を実現した。 第3に, 合成前トレーニングのパラメータ統計のみを用いることで, 利点の39\%$が得られることがわかった。 ソースコードはhttps://github.com/felixzli/synthetic_pretrainingでリリースします。

Pre-training produces representations that are effective for a wide range of downstream tasks, but it is still unclear what properties of pre-training are necessary for effective gains. Notably, recent work shows that even pre-training on synthetic tasks can achieve significant gains in downstream tasks. In this work, we perform three experiments that iteratively simplify pre-training and show that the simplifications still retain much of its gains. First, building on prior work, we perform a systematic evaluation of three existing synthetic pre-training methods on six downstream tasks. We find the best synthetic pre-training method, LIME, attains an average of $67\%$ of the benefits of natural pre-training. Second, to our surprise, we find that pre-training on a simple and generic synthetic task defined by the Set function achieves $65\%$ of the benefits, almost matching LIME. Third, we find that $39\%$ of the benefits can be attained by using merely the parameter statistics of synthetic pre-training. We release the source code at https://github.com/felixzli/synthetic_pretraining.
翻訳日:2022-06-22 14:27:39 公開日:2022-06-21
# 適応マスクによる分散ネットワーク上のノード分類学習

Propagation with Adaptive Mask then Training for Node Classification on Attributed Networks ( http://arxiv.org/abs/2206.10142v1 )

ライセンス: Link先を確認
Jinsong Chen, Boyu Li, Qiuting He, Kun He(参考訳) 属性ネットワーク上のノード分類は、ネットワーク分析に不可欠な半教師付きタスクである。 グラフ畳み込みネットワーク(GCN)における2つの重要な操作、すなわち特徴変換と近傍集約を分離することにより、分離されたGCNの最近の研究は、より深く伝播し、高度なパフォーマンスを達成するための情報を支援することができる。 しかし、gcnsの伝統的な構造認識伝播戦略に従い、ノードの属性相関を捉えることは難しく、2つのエンドポイントが異なるカテゴリに属するエッジによって記述される構造ノイズに敏感である。 そこで本研究では,適応マスクによるitshape propagation with adaptive mask then training (pamt) という手法を提案する。 重要なアイデアは、属性類似性マスクを構造認識伝播プロセスに統合することです。 このようにして、PAMTは伝搬中の隣接ノードの属性相関を保ち、構造ノイズの影響を効果的に低減できる。 さらに,トレーニングプロセス中に類似性マスクを更新し,トレーニング性能を向上させるための反復改良機構を開発する。 4つの実世界のデータセットに対する大規模な実験は、PAMTの優れた性能と堅牢性を示している。

Node classification on attributed networks is a semi-supervised task that is crucial for network analysis. By decoupling two critical operations in Graph Convolutional Networks (GCNs), namely feature transformation and neighborhood aggregation, some recent works of decoupled GCNs could support the information to propagate deeper and achieve advanced performance. However, they follow the traditional structure-aware propagation strategy of GCNs, making it hard to capture the attribute correlation of nodes and sensitive to the structure noise described by edges whose two endpoints belong to different categories. To address these issues, we propose a new method called the itshape Propagation with Adaptive Mask then Training (PAMT). The key idea is to integrate the attribute similarity mask into the structure-aware propagation process. In this way, PAMT could preserve the attribute correlation of adjacent nodes during the propagation and effectively reduce the influence of structure noise. Moreover, we develop an iterative refinement mechanism to update the similarity mask during the training process for improving the training performance. Extensive experiments on four real-world datasets demonstrate the superior performance and robustness of PAMT.
翻訳日:2022-06-22 14:27:22 公開日:2022-06-21
# 正規化スパースニューラルネットワークプルーニング

Renormalized Sparse Neural Network Pruning ( http://arxiv.org/abs/2206.10088v1 )

ライセンス: Link先を確認
Michael G. Rawson(参考訳) 大規模ニューラルネットワークは過度にパラメータ化されている。 これはトレーニングを最適化するために行われる。 しかし、一度ネットワークをトレーニングすると、多くのパラメータをゼロにしたり、刈り取ることができ、等価なスパースニューラルネットワークを残します。 精度を向上させるためにスパースニューラルネットワークの再正規化を提案する。 提案手法の誤差はネットワークパラメータのクラスタ化や集中として0に収束することを示す。 再正規化なしでは、誤差は一般にゼロに収束しない。 実世界のデータセットMNIST, Fashion MNIST, CIFAR-10を用いて実験を行い, 再正規化と標準プルーニングによる精度の向上を確認した。

Large neural networks are heavily over-parameterized. This is done because it improves training to optimality. However once the network is trained, this means many parameters can be zeroed, or pruned, leaving an equivalent sparse neural network. We propose renormalizing sparse neural networks in order to improve accuracy. We prove that our method's error converges to 0 as network parameters cluster or concentrate. We prove that without renormalizing, the error does not converge to zero in general. We experiment with our method on real world datasets MNIST, Fashion MNIST, and CIFAR-10 and confirm a large improvement in accuracy with renormalization versus standard pruning.
翻訳日:2022-06-22 14:22:01 公開日:2022-06-21
# Survival Kernets: 精度保証によるスケーラブルで解釈可能なDeep Kernel Survival Analysis

Survival Kernets: Scalable and Interpretable Deep Kernel Survival Analysis with an Accuracy Guarantee ( http://arxiv.org/abs/2206.10477v1 )

ライセンス: Link先を確認
George H. Chen(参考訳) カーネルサバイバル解析モデルは、2つのデータポイント間の類似度を測定するカーネル関数の助けを借りて、個々のサバイバル分布を推定する。 このようなカーネル関数は、ディープカーネルサバイバルモデルを用いて学習することができる。 本稿では,モデル解釈や理論解析に適した方法で大規模データセットにスケール可能な,サバイバルカーネットと呼ばれる新しいディープカーネルサバイバルモデルを提案する。 具体的には、最近開発されたカーネルネットと呼ばれる分類と回帰のためのトレーニングセット圧縮スキームに基づいて、トレーニングデータをクラスタに分割し、サバイバル分析設定に拡張する。 テスト時に、各データポイントはこれらのクラスタの重み付けされた組み合わせとして表現され、これらのクラスタを可視化することができる。 生存カーネットの特殊な場合、予測生存分布に縛られる有限サンプル誤差を、ログ係数まで最適に設定する。 上記のカーネルネット圧縮戦略を用いてテスト時のスケーラビリティを実現する一方で、トレーニング中のスケーラビリティは、XGBoostのようなツリーアンサンブルに基づくウォームスタート手順と、ニューラルネットワーク探索を加速するためのヒューリスティックアプローチによって達成される。 様々なサイズ(約300万データポイントまで)の標準生存分析データセットにおいて、サバイバル・カーネットは、コンコータンス・インデックスでテストされたベースラインの長所と非常に競合することを示す。 私たちのコードは、https://github.com/georgehc/survival-kernetsで利用可能です。

Kernel survival analysis models estimate individual survival distributions with the help of a kernel function, which measures the similarity between any two data points. Such a kernel function can be learned using deep kernel survival models. In this paper, we present a new deep kernel survival model called a survival kernet, which scales to large datasets in a manner that is amenable to model interpretation and also theoretical analysis. Specifically, the training data are partitioned into clusters based on a recently developed training set compression scheme for classification and regression called kernel netting that we extend to the survival analysis setting. At test-time, each data point is represented as a weighted combination of these clusters, and each such cluster can be visualized. For a special case of survival kernets, we establish a finite-sample error bound on predicted survival distributions that is, up to a log factor, optimal. Whereas scalability at test time is achieved using the aforementioned kernel netting compression strategy, scalability during training is achieved by a warm-start procedure based on tree ensembles such as XGBoost and a heuristic approach to accelerating neural architecture search. On three standard survival analysis datasets of varying sizes (up to roughly 3 million data points), we show that survival kernets are highly competitive with the best of baselines tested in terms of concordance index. Our code is available at: https://github.com/georgehc/survival-kernets
翻訳日:2022-06-22 14:21:50 公開日:2022-06-21
# (参考訳) HealNet -- 自己監督型急性創傷治癒段階分類

HealNet -- Self-Supervised Acute Wound Heal-Stage Classification ( http://arxiv.org/abs/2206.10536v1 )

ライセンス: CC BY 4.0
H\'ector Carri\'on, Mohammad Jafari, Hsin-Ya Yang, Roslyn Rivkah, Marco Rolandi, Marcella Gomez, Narges Norouzi(参考訳) 創傷治癒段階の進行の特定、追跡、予測は、適切な診断、効果的な治療、治癒の促進、痛みの軽減に向けた基本的な課題である。 伝統的に、医療専門家は傷を観察し、現在の治癒状態を特定し、治療を推奨する。 しかし、このような診断を視覚的指標のみから作成できる専門家の育成には、時間と費用がかかる可能性がある。 さらに、病変は治癒過程に数週間を要し、継続的に監視と診断を行うリソースが要求される。 開始から成熟までの傷の進行に従うデータセットは小さく、まれであり、コンピュータビジョンを念頭に置いて収集されることが多い。 そこで我々は,これらの課題に取り組むために,自己教師付き学習方式を提案する。 (a)創の時間力学の埋め込みを学習すること (b)自動段階発見のためのクラスタリング、及び (c)微調整分類。 提案された自己教師付き柔軟な学習フレームワークは、生物学的にインスパイアされ、人間のラベルがゼロの小さなデータセットで訓練されている。 healnetフレームワークは、高い事前テキストと下流の分類精度を達成し、保留テストデータで評価すると、94.2%の事前テキスト精度と93.8%のヒールステージ分類精度を達成した。

Identifying, tracking, and predicting wound heal-stage progression is a fundamental task towards proper diagnosis, effective treatment, facilitating healing, and reducing pain. Traditionally, a medical expert might observe a wound to determine the current healing state and recommend treatment. However, sourcing experts who can produce such a diagnosis solely from visual indicators can be time-consuming and expensive. In addition, lesions may take several weeks to undergo the healing process, demanding resources to monitor and diagnose continually. Automating this task can be challenging; datasets that follow wound progression from onset to maturation are small, rare, and often collected without computer vision in mind. To tackle these challenges, we introduce a self-supervised learning scheme composed of (a) learning embeddings of wound's temporal dynamics, (b) clustering for automatic stage discovery, and (c) fine-tuned classification. The proposed self-supervised and flexible learning framework is biologically inspired and trained on a small dataset with zero human labeling. The HealNet framework achieved high pre-text and downstream classification accuracy; when evaluated on held-out test data, HealNet achieved 94.2% pre-text accuracy and 93.8% heal-stage classification accuracy.
翻訳日:2022-06-22 14:19:42 公開日:2022-06-21
# ワンステージ動作検出トランス

One-stage Action Detection Transformer ( http://arxiv.org/abs/2206.10080v1 )

ライセンス: Link先を確認
Lijun Li, Li'an Zhuo, Bang Zhang(参考訳) 本稿では,epic-kitchens-100 2022 アクション検出チャレンジのソリューションを紹介する。 ビデオセグメントの時間的接続をモデル化するために, ワンステージ動作検出変換器(OADT)を提案する。 OADTの助けを借りて、カテゴリと時間の境界を同時に認識することができる。 異なる特徴からトレーニングされた複数のOADTモデルをアンサンブルした後、我々のモデルは21.28\%のアクションmAPに達し、アクション検出チャレンジのテストセットで1位になる。

In this work, we introduce our solution to the EPIC-KITCHENS-100 2022 Action Detection challenge. One-stage Action Detection Transformer (OADT) is proposed to model the temporal connection of video segments. With the help of OADT, both the category and time boundary can be recognized simultaneously. After ensembling multiple OADT models trained from different features, our model can reach 21.28\% action mAP and ranks the 1st on the test-set of the Action detection challenge.
翻訳日:2022-06-22 14:07:34 公開日:2022-06-21
# TCJA-SNN:スパイクニューラルネットワークのための時空連成注意

TCJA-SNN: Temporal-Channel Joint Attention for Spiking Neural Networks ( http://arxiv.org/abs/2206.10177v1 )

ライセンス: Link先を確認
Rui-Jie Zhu, Qihang Zhao, Tianjing Zhang, Haoyu Deng, Yule Duan, Malu Zhang, Liang-Jian Deng(参考訳) spiking neural networks (snns) は、時間的情報を活用するニューロンをシミュレートすることで、よりデータ効率の高いディープラーニングへの実用的なアプローチである。 本稿では,空間次元と時間次元の両方に沿ったスパイクシーケンスの関連性を効果的に強化することにより,注意機構に依存する効率的なSNN手法であるTCJAアーキテクチャユニットを提案する。 私たちの重要な技術的貢献は 1) 圧縮操作を用いてスパイクストリームを平均行列に圧縮し, 効率的な1次元畳み込みによる2つの局所的注意機構を用いて, 特徴抽出のための時間的・チャネル的関係を柔軟な方法で確立する。 2)CCF(Cross Convolutional Fusion)レイヤを用いて時間的・チャネル的スコープ間の相互依存性をモデル化し,2次元の独立性を破り,特徴間の相互作用を実現する。 Fashion-MNIST, CIFAR10-DVS, N-Caltech 101, DVS128 Gestureなど,テスト対象の静的およびニューロモルフィックデータセットの上位1分類精度を最大15.7%向上させる。

Spiking Neural Networks (SNNs) is a practical approach toward more data-efficient deep learning by simulating neurons leverage on temporal information. In this paper, we propose the Temporal-Channel Joint Attention (TCJA) architectural unit, an efficient SNN technique that depends on attention mechanisms, by effectively enforcing the relevance of spike sequence along both spatial and temporal dimensions. Our essential technical contribution lies on: 1) compressing the spike stream into an average matrix by employing the squeeze operation, then using two local attention mechanisms with an efficient 1-D convolution to establish temporal-wise and channel-wise relations for feature extraction in a flexible fashion. 2) utilizing the Cross Convolutional Fusion (CCF) layer for modeling inter-dependencies between temporal and channel scope, which breaks the independence of the two dimensions and realizes the interaction between features. By virtue of jointly exploring and recalibrating data stream, our method outperforms the state-of-the-art (SOTA) by up to 15.7% in terms of top-1 classification accuracy on all tested mainstream static and neuromorphic datasets, including Fashion-MNIST, CIFAR10-DVS, N-Caltech 101, and DVS128 Gesture.
翻訳日:2022-06-22 14:05:44 公開日:2022-06-21
# muBoost: インデックス多言語テキスト分類問題の効果的な解法

muBoost: An Effective Method for Solving Indic Multilingual Text Classification Problem ( http://arxiv.org/abs/2206.10280v1 )

ライセンス: Link先を確認
Manish Pathak, Aditya Jain(参考訳) テキスト分類は、サーカズム検出、感情分析など、多くの自然言語処理タスクにおいて不可欠な部分である。 多くのeコマースサイトやソーシャルメディア/エンタテイメントプラットフォームは、そのようなモデルを使ってユーザーエクスペリエンスを高め、トラフィックを生み出し、プラットフォームでの収益を上げている。 本稿では,sharechatを利用したインドのビデオ共有ソーシャルネットワーキングサービスmojにおける,多言語攻撃的コメント識別問題に対する解決策を提案する。 この問題は、ヒンディー語、テルグ語、カンナダ語などの13の地域言語で、mojプラットフォーム上のビデオで乱暴なコメントを検出することに対処した。 本手法は,インド言語(muril)モデルのためのcatboost分類器モデルと多言語表現のアンサンブルであるmuboostを用いて,indicテキスト分類タスクでsoma性能を生成する。 試験データ上での平均f1-scoreは89.286で,f1-scoreが87.48のベースラインmurilモデルよりも改善した。

Text Classification is an integral part of many Natural Language Processing tasks such as sarcasm detection, sentiment analysis and many more such applications. Many e-commerce websites, social-media/entertainment platforms use such models to enhance user-experience to generate traffic and thus, revenue on their platforms. In this paper, we are presenting our solution to Multilingual Abusive Comment Identification Problem on Moj, an Indian video-sharing social networking service, powered by ShareChat. The problem dealt with detecting abusive comments, in 13 regional Indic languages such as Hindi, Telugu, Kannada etc., on the videos on Moj platform. Our solution utilizes the novel muBoost, an ensemble of CatBoost classifier models and Multilingual Representations for Indian Languages (MURIL) model, to produce SOTA performance on Indic text classification tasks. We were able to achieve a mean F1-score of 89.286 on the test data, an improvement over baseline MURIL model with a F1-score of 87.48.
翻訳日:2022-06-22 14:05:20 公開日:2022-06-21
# モデルロバストネスのためのプラグアンドプレイテキスト生成

Plug and Play Counterfactual Text Generation for Model Robustness ( http://arxiv.org/abs/2206.10429v1 )

ライセンス: Link先を確認
Nishtha Madaan, Srikanta Bedathur, Diptikalyan Saha(参考訳) カウンターファクトなテストケースの生成は、NLPモデルをテストし、従来のソフトウェアと同じくらい堅牢で信頼性の高いものにするための重要なバックボーンである。 テストケースの生成において、望ましい特性は、テストケースの生成を柔軟な方法で制御し、さまざまな障害ケースをテストし、ターゲットとした方法でそれらを説明および修復する能力である。 この方向では、制御された偽物を生成するためのルールを手作業で記述することで、従来の作業において大きな進歩を遂げている。 しかし、このアプローチには重い手動の監督が必要であり、新しいコントロールを簡単に導入する柔軟性が欠けている。 PPLMのプラグ・アンド・プレイ・アプローチの目覚ましい柔軟性に感銘を受けた我々は,プラグ・アンド・プレイの枠組みを実証テストケース生成タスクに導入することを提案する。 CASPerは、需要に応じてゴール属性を満たすテストケースを生成するための、プラグアンドプレイの偽物生成フレームワークである。 我々のプラグアンドプレイモデルは、属性固有のモデルのトレーニングを必要とせずに、どんな属性モデルであってもテストケース生成プロセスを操ることができる。 実験では,CASPerは,属性モデルによって提供される操作に追従する反事実テキストを効果的に生成し,かつ,流動的で多様性があり,オリジナルコンテンツを保存していることを示す。 また,casperから生成された反事実をトレーニングデータの強化に利用することで,テストモデルをより堅牢に修正・修正できることを示した。

Generating counterfactual test-cases is an important backbone for testing NLP models and making them as robust and reliable as traditional software. In generating the test-cases, a desired property is the ability to control the test-case generation in a flexible manner to test for a large variety of failure cases and to explain and repair them in a targeted manner. In this direction, significant progress has been made in the prior works by manually writing rules for generating controlled counterfactuals. However, this approach requires heavy manual supervision and lacks the flexibility to easily introduce new controls. Motivated by the impressive flexibility of the plug-and-play approach of PPLM, we propose bringing the framework of plug-and-play to counterfactual test case generation task. We introduce CASPer, a plug-and-play counterfactual generation framework to generate test cases that satisfy goal attributes on demand. Our plug-and-play model can steer the test case generation process given any attribute model without requiring attribute-specific training of the model. In experiments, we show that CASPer effectively generates counterfactual text that follow the steering provided by an attribute model while also being fluent, diverse and preserving the original content. We also show that the generated counterfactuals from CASPer can be used for augmenting the training data and thereby fixing and making the test model more robust.
翻訳日:2022-06-22 14:05:00 公開日:2022-06-21
# (参考訳) EpiGRAF: 3D GANのトレーニング再考

EpiGRAF: Rethinking training of 3D GANs ( http://arxiv.org/abs/2206.10535v1 )

ライセンス: CC BY 4.0
Ivan Skorokhodov, Sergey Tulyakov, Yiqun Wang, Peter Wonka(参考訳) 生成モデリングの非常に最近のトレンドは、2次元画像コレクションから3D対応ジェネレータを構築することである。 3Dバイアスを誘発するために、そのようなモデルは典型的にはボリュームレンダリングに依存し、高解像度で使用するには高価である。 過去数ヶ月の間に、純粋な3dジェネレータから生成された低解像度の画像(あるいは特徴テンソル)をサンプリングするために、別の2dデコーダをトレーニングすることで、このスケーリング問題に対処する10以上の作業が現れた。 しかし、この解決策にはコストがかかる:マルチビューの一貫性を損なうだけでなく(カメラが動くときの形状やテクスチャの変化など)、低忠実度で幾何学を学習する。 そこで本研究では, モデルパッチを単純に訓練する全く異なる経路をたどることで, sota画像品質の高分解能3d生成器を得ることが可能であることを示す。 我々はこの最適化方式を2つの方法で再検討し改善する。 まず,異なる比率と空間的位置のパッチに取り組むために,位置対応およびスケール対応の判別器を設計する。 第2に,アニールしたベータ分布に基づいてパッチサンプリング戦略を変更し,トレーニングの安定化と収束の促進を図る。 EpiGRAFと名付けられたこのモデルは、効率的で高解像度で純粋な3Dジェネレータであり、この研究で導入された2つのデータセットで256^2$と512^2$の解像度でテストする。 最先端の画像品質、高精細度ジオメトリ、およびupsamplerベースのものよりも2.5 \times$の列車が得られる。 プロジェクトサイト: https://universome.github.io/epigraf.com

A very recent trend in generative modeling is building 3D-aware generators from 2D image collections. To induce the 3D bias, such models typically rely on volumetric rendering, which is expensive to employ at high resolutions. During the past months, there appeared more than 10 works that address this scaling issue by training a separate 2D decoder to upsample a low-resolution image (or a feature tensor) produced from a pure 3D generator. But this solution comes at a cost: not only does it break multi-view consistency (i.e. shape and texture change when the camera moves), but it also learns the geometry in a low fidelity. In this work, we show that it is possible to obtain a high-resolution 3D generator with SotA image quality by following a completely different route of simply training the model patch-wise. We revisit and improve this optimization scheme in two ways. First, we design a location- and scale-aware discriminator to work on patches of different proportions and spatial positions. Second, we modify the patch sampling strategy based on an annealed beta distribution to stabilize training and accelerate the convergence. The resulted model, named EpiGRAF, is an efficient, high-resolution, pure 3D generator, and we test it on four datasets (two introduced in this work) at $256^2$ and $512^2$ resolutions. It obtains state-of-the-art image quality, high-fidelity geometry and trains ${\approx} 2.5 \times$ faster than the upsampler-based counterparts. Project website: https://universome.github.io/epigraf.
翻訳日:2022-06-22 13:58:27 公開日:2022-06-21
# モデルに基づく強化学習における音声指導の導入

Incorporating Voice Instructions in Model-Based Reinforcement Learning for Self-Driving Cars ( http://arxiv.org/abs/2206.10249v1 )

ライセンス: Link先を確認
Mingze Wang, Ziyang Zhang, Grace Hui Yang(参考訳) 本稿では,自律走行車の訓練において,自然言語音声による深部強化学習(DRL)アルゴリズムの指導を支援する新しい手法を提案する。 DRL法は、自動運転車(AV)エージェントの一般的なアプローチである。 しかし、既存の手法のほとんどはサンプルと時間非効率であり、人間との自然なコミュニケーションチャネルが欠如している。 本稿では,新しい人間ドライバーが人間のコーチからどのように学習するかを,人間-イン-ループ学習の新しい方法と,エージェントのより自然で親しみやすいトレーニングインターフェースについて研究する動機付けを行う。 モデルに基づく深層強化学習に自然言語音声命令(NLI)を取り入れて自動運転車の訓練を行う。 CARLAシミュレータにおけるいくつかの最先端DRL手法とともに提案手法の評価を行った。 その結果,NLIは学習プロセスの容易化とエージェントの学習速度の大幅な向上に役立つことがわかった。

This paper presents a novel approach that supports natural language voice instructions to guide deep reinforcement learning (DRL) algorithms when training self-driving cars. DRL methods are popular approaches for autonomous vehicle (AV) agents. However, most existing methods are sample- and time-inefficient and lack a natural communication channel with the human expert. In this paper, how new human drivers learn from human coaches motivates us to study new ways of human-in-the-loop learning and a more natural and approachable training interface for the agents. We propose incorporating natural language voice instructions (NLI) in model-based deep reinforcement learning to train self-driving cars. We evaluate the proposed method together with a few state-of-the-art DRL methods in the CARLA simulator. The results show that NLI can help ease the training process and significantly boost the agents' learning speed.
翻訳日:2022-06-22 13:27:44 公開日:2022-06-21
# エッジAIシステムのための自動かつ効率的なBERTプルーニング

An Automatic and Efficient BERT Pruning for Edge AI Systems ( http://arxiv.org/abs/2206.10461v1 )

ライセンス: Link先を確認
Shaoyi Huang, Ning Liu, Yueying Liang, Hongwu Peng, Hongjia Li, Dongkuan Xu, Mimi Xie, Caiwen Ding(参考訳) ディープラーニングの民主化が進み、低レイテンシで高精度なリソース制約のあるデバイスにTransformerベースの自然言語処理(NLP)モデルを実装する必要性が高まっている。 既存のBERTプルーニング手法では、モデルのサイズ、レイテンシ、精度のバランスをとるために、ドメインの専門家がヒューリスティックにハンドクラフトハイパーパラメーターを必要とする。 そこで本研究では,ae-bertを提案する。ae-bertは自動的かつ効率的なbert pruningフレームワークであり,全体としてのpruning比制約を考慮し,(高精度で)"よい"サブネットワーク候補を選択するための効率的な評価を行う。 提案手法では,人間の経験を必要とせず,多くのNLPタスクの精度向上を実現している。 General Language Understanding Evaluation (GLUE) ベンチマークの実験結果から, AE-BERT は BERT$_{\mathrm{BASE}}$ 上で, 最先端 (SOTA) の手作りプルーニング手法よりも優れていることが示された。 QNLI と RTE では, 高い精度で, 75 % と 42.8 % のpruning 比が得られる。 MRPCでは,SOTAよりも4.6得点,全体の刈り取り率0.5。 STS-Bでは,SOTAの手作りプルーニング法と比較して,スピアマン相関が極めて小さく,40%高いプルーニング比が得られる。 モデル圧縮後、Xilinx Alveo U200 FPGAボード上の単一BERT$_{\mathrm{BASE}}$ encoderの推論時間は、Intel(R) Xeon(R) Gold 5218 (2.30GHz) CPUと比較して1.83$\times$ Speedupであり、BERT$_{\mathrm{BASE}}$モデルが計算制限されたデバイス上で生成されたサブネットをデプロイする妥当性を示している。

With the yearning for deep learning democratization, there are increasing demands to implement Transformer-based natural language processing (NLP) models on resource-constrained devices for low-latency and high accuracy. Existing BERT pruning methods require domain experts to heuristically handcraft hyperparameters to strike a balance among model size, latency, and accuracy. In this work, we propose AE-BERT, an automatic and efficient BERT pruning framework with efficient evaluation to select a "good" sub-network candidate (with high accuracy) given the overall pruning ratio constraints. Our proposed method requires no human experts experience and achieves a better accuracy performance on many NLP tasks. Our experimental results on General Language Understanding Evaluation (GLUE) benchmark show that AE-BERT outperforms the state-of-the-art (SOTA) hand-crafted pruning methods on BERT$_{\mathrm{BASE}}$. On QNLI and RTE, we obtain 75\% and 42.8\% more overall pruning ratio while achieving higher accuracy. On MRPC, we obtain a 4.6 higher score than the SOTA at the same overall pruning ratio of 0.5. On STS-B, we can achieve a 40\% higher pruning ratio with a very small loss in Spearman correlation compared to SOTA hand-crafted pruning methods. Experimental results also show that after model compression, the inference time of a single BERT$_{\mathrm{BASE}}$ encoder on Xilinx Alveo U200 FPGA board has a 1.83$\times$ speedup compared to Intel(R) Xeon(R) Gold 5218 (2.30GHz) CPU, which shows the reasonableness of deploying the proposed method generated subnets of BERT$_{\mathrm{BASE}}$ model on computation restricted devices.
翻訳日:2022-06-22 13:27:28 公開日:2022-06-21
# 大規模言語モデルはまだ計画できない (LLMにおける変更計画と推論のベンチマーク)

Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning and Reasoning about Change) ( http://arxiv.org/abs/2206.10498v1 )

ライセンス: Link先を確認
Karthik Valmeekam, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)の分野を変えつつある。 GPT-3からPaLMまで、自然言語タスクにおける最先端のパフォーマンスは、あらゆる新しい大規模言語モデルによって前進している。 自然言語能力に加えて、そのようなモデルが大量のデータに基づいて訓練され、推論能力を示すかどうかを理解することにも大きな関心が寄せられている。 したがって、様々な推論タスクのためのベンチマークの開発に関心があり、そのようなベンチマークよりもLSMのテストによる予備的な結果はほとんど肯定的であるように思われる。 しかしながら、現在のベンチマークは比較的単純であり、これらのベンチマークに対するパフォーマンスは、LCMの推論能力に関する主張がしばしば誇張される証拠として使うことはできない。 現在、これらのベンチマークは単純な推論タスクのセットに限られており、そのようなLCMベースのシステムの真の限界を測定するためには、より洗練された推論問題に目を向ける必要がある。 このモチベーションを生かして,人間の知性の中心的な側面においてLLMの能力をテストするための拡張性評価フレームワークを提案する。 これまでに確立された推論ベンチマークよりも関与する複数のテストケースを提供し、各テストケースはアクションや変更に関する推論の特定の側面を評価します。 GPT-3(Davinci)のベースバージョンの初期評価結果では,これらのベンチマークでサブパー性能を示した。

The recent advances in large language models (LLMs) have transformed the field of natural language processing (NLP). From GPT-3 to PaLM, the state-of-the-art performance on natural language tasks is being pushed forward with every new large language model. Along with natural language abilities, there has been a significant interest in understanding whether such models, trained on enormous amounts of data, exhibit reasoning capabilities. Hence there has been interest in developing benchmarks for various reasoning tasks and the preliminary results from testing LLMs over such benchmarks seem mostly positive. However, the current benchmarks are relatively simplistic and the performance over these benchmarks cannot be used as an evidence to support, many a times outlandish, claims being made about LLMs' reasoning capabilities. As of right now, these benchmarks only represent a very limited set of simple reasoning tasks and we need to look at more sophisticated reasoning problems if we are to measure the true limits of such LLM-based systems. With this motivation, we propose an extensible assessment framework to test the abilities of LLMs on a central aspect of human intelligence, which is reasoning about actions and change. We provide multiple test cases that are more involved than any of the previously established reasoning benchmarks and each test case evaluates a certain aspect of reasoning about actions and change. Initial evaluation results on the base version of GPT-3 (Davinci), showcase subpar performance on these benchmarks.
翻訳日:2022-06-22 13:26:54 公開日:2022-06-21
# 知識グラフ表現学習における負サンプリングの包括的解析

Comprehensive Analysis of Negative Sampling in Knowledge Graph Representation Learning ( http://arxiv.org/abs/2206.10140v1 )

ライセンス: Link先を確認
Hidetaka Kamigaito, Katsuhiko Hayashi(参考訳) 負のサンプリング(NS)損失は、膨大な数のエンティティを扱うための知識グラフ埋め込み(KGE)の学習において重要な役割を果たす。 しかし,ns損失のマージン項や負のサンプル数などのハイパーパラメータを伴わないkge劣化の性能は適切に選択される。 現在、経験的ハイパーパラメータチューニングは計算時間を犠牲にしてこの問題に対処している。 この問題を解決するために、我々はNS損失を理論的に解析し、超パラメータチューニングを支援し、KGE学習におけるNS損失のより良い利用を理解する。 理論的解析により,RESCAL, ComplEx, DistMult などの制限値範囲を持たない値域と異なる値域の負のサンプル数に対して,TransE や RotatE のような制限値範囲のスコアリング法が適切な調整を必要とすることが示された。 また、理論的側面から研究したKGEにおけるNS損失に特化したサブサンプリング手法を提案する。 FB15k-237, WN18RR, YAGO3-10データセットに関する実証分析の結果, 実際に訓練されたモデルの結果と理論的な結果が一致した。

Negative sampling (NS) loss plays an important role in learning knowledge graph embedding (KGE) to handle a huge number of entities. However, the performance of KGE degrades without hyperparameters such as the margin term and number of negative samples in NS loss being appropriately selected. Currently, empirical hyperparameter tuning addresses this problem at the cost of computational time. To solve this problem, we theoretically analyzed NS loss to assist hyperparameter tuning and understand the better use of the NS loss in KGE learning. Our theoretical analysis showed that scoring methods with restricted value ranges, such as TransE and RotatE, require appropriate adjustment of the margin term or the number of negative samples different from those without restricted value ranges, such as RESCAL, ComplEx, and DistMult. We also propose subsampling methods specialized for the NS loss in KGE studied from a theoretical aspect. Our empirical analysis on the FB15k-237, WN18RR, and YAGO3-10 datasets showed that the results of actually trained models agree with our theoretical findings.
翻訳日:2022-06-22 13:07:34 公開日:2022-06-21
# モデレーション効果の解釈可能な深層因果学習

Interpretable Deep Causal Learning for Moderation Effects ( http://arxiv.org/abs/2206.10261v1 )

ライセンス: Link先を確認
Alberto Caron, Gianluca Baio, Ioanna Manolopoulou(参考訳) 本稿では,因果的機械学習モデルにおける解釈可能性と対象正規化の問題について述べる。 特に, 利害効果に対する治療の効果をコントロールし, 緩和することができる観察された共同設立者の下で, 個々の因果/治療効果を推定する問題に焦点をあてる。 因果設定のために調整されたブラックボックスMLモデルは、このタスクでは一般的によく機能するが、処理の不均一性の主要な要因と機能的関係を識別する解釈可能な出力は欠如している。 個別の処理効果を同時に推定するための新しい深層対実学習アーキテクチャを提案する。 一 対象の正規化を伝達し、利息の量(条件平均処理効果)に関する不確実性を定量化する。 二 結果との関係を記載した共変量及び出力解釈可能なスコア関数の非交叉ベースラインの予後及び調整効果 最後に,簡単なシミュレーション実験により,本手法の使用を実証する。

In this extended abstract paper, we address the problem of interpretability and targeted regularization in causal machine learning models. In particular, we focus on the problem of estimating individual causal/treatment effects under observed confounders, which can be controlled for and moderate the effect of the treatment on the outcome of interest. Black-box ML models adjusted for the causal setting perform generally well in this task, but they lack interpretable output identifying the main drivers of treatment heterogeneity and their functional relationship. We propose a novel deep counterfactual learning architecture for estimating individual treatment effects that can simultaneously: i) convey targeted regularization on, and produce quantify uncertainty around the quantity of interest (i.e., the Conditional Average Treatment Effect); ii) disentangle baseline prognostic and moderating effects of the covariates and output interpretable score functions describing their relationship with the outcome. Finally, we demonstrate the use of the method via a simple simulated experiment.
翻訳日:2022-06-22 13:05:56 公開日:2022-06-21
# (参考訳) TAVA:テンプレートなしアニメーションボリュームアクター

TAVA: Template-free Animatable Volumetric Actors ( http://arxiv.org/abs/2206.08929v2 )

ライセンス: CC BY 4.0
Ruilong Li, Julian Tanke, Minh Vo, Michael Zollhofer, Jurgen Gall, Angjoo Kanazawa, Christoph Lassner(参考訳) 座標に基づくボリューム表現は、画像からフォトリアリスティックな仮想アバターを生成する可能性を秘めている。 しかし、仮想アバターは観察されなかったかもしれない新しいポーズに対しても制御可能である必要がある。 LBSのような伝統的な技術はそのような機能を提供しているが、通常は手書きのボディテンプレート、3Dスキャンデータ、限られた外観モデルを必要とする。 一方、神経表現は視覚的詳細を表現するのに強力であることが示されているが、動的調音アクターの変形について検討されている。 本稿では,ニューラルネットワークをベースとした,Tエンプレートフリーのアニマタブルボリュームアクタ作成手法であるTAVAを提案する。 我々は、アクターのボリュームモデルを作成するために、マルチビューデータと追跡されたスケルトンのみを頼りにしており、新しいポーズを与えられたテスト時間でアニメーションすることができる。 TAVAは体テンプレートを必要としないため、ヒトや動物などの他の生物にも適用可能である。 さらに、tavaは正確な密接な対応を復元できるように設計されており、コンテンツ作成や編集作業に適している。 広範にわたる実験により,提案手法は新規なポーズや未知のビューを一般化し,基本的な編集機能を示す。

Coordinate-based volumetric representations have the potential to generate photo-realistic virtual avatars from images. However, virtual avatars also need to be controllable even to a novel pose that may not have been observed. Traditional techniques, such as LBS, provide such a function; yet it usually requires a hand-designed body template, 3D scan data, and limited appearance models. On the other hand, neural representation has been shown to be powerful in representing visual details, but are under explored on deforming dynamic articulated actors. In this paper, we propose TAVA, a method to create T emplate-free Animatable Volumetric Actors, based on neural representations. We rely solely on multi-view data and a tracked skeleton to create a volumetric model of an actor, which can be animated at the test time given novel pose. Since TAVA does not require a body template, it is applicable to humans as well as other creatures such as animals. Furthermore, TAVA is designed such that it can recover accurate dense correspondences, making it amenable to content-creation and editing tasks. Through extensive experiments, we demonstrate that the proposed method generalizes well to novel poses as well as unseen views and showcase basic editing capabilities.
翻訳日:2022-06-22 11:28:56 公開日:2022-06-21